Upload
phamdan
View
213
Download
0
Embed Size (px)
Citation preview
Extraktion von Fachwortschatz aus Texten
Ulrich Heid
Universitaten Hildesheim und Stuttgart
Heidelberg, 21. Januar 2011
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 1 / 42
Rahmen der Forschungen
• Projekte:
– Kooperation mit dem Verlag C.H.Beck (Munchen), seit 2008:Rohmaterial fur juristische Fachworterbucher
– EU-Projekt TTC (2010-2012):Terminology Tools, Translation and Comparable Corpora
– Phase I von SFB-732, Projekt B3 (DFG, 2006-2010):Disambiguierung von Nominalisierungenbei der Extraktion aus Korpustext
• Mitarbeiter:
– Marion Weller (SFB, TTC)– Anita Gojun (TTC)– Fabienne Fritzinger (Verlagskooperation)– Nadine Siegmund (stud. Hilfskraft, TTC/Verlagskooperation)
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 2 / 42
Uberblick
• Fachwortschatzextraktion:Wozu? – Was?
• Ein Anwendungsprojekt: Extraktion aus Web-Daten:Szenarium – Werkzeuge – Stand der Ergebnisse
• Verfahren zur Termkandidaten-Extraktion
– fur Einwort-Termini– fur Mehrwort-Termini:
* Musterbasierte Suche* Suche auf syntaktisch annotiertem Text (DE)
• Morphologisch verwandte Termkandidaten
– Musterbasierte Suche– Einbezug von morphologischer Zerlegung
• Zusammenfassung
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 3 / 42
Extraktion von Fachwortschatz aus TextenMotivation – Anwendungen
• Fachwortschatz
– Relevant fur Ubersetzung und technische Redaktion– Relevant fur den Aufbau von Terminologiesammlungen– Auch nutzlich fur maschinelle/computergestutzte Ubersetzung
• Elektronisch verfugbarer Text als Eingabe –Prozessierung: mit linguistisch basierten und statistischen Methoden –Fachwortschatzkandidaten als Ergebnis:Input zu manueller Validierung⇒ semi-automatisches Verfahren
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 4 / 42
Extraktion von Fachwortschatz aus TextenWas soll extrahiert werden?
• Fachworter: einfach und komplex
– Einzelworter: Gesetz, Steuer, Einkommen– Komposita: Einkommensteuergesetz– Abgeleitete Worter: steuerlich, gesetzlich
• Wortverbindungen: Mehrwort-Terme, Kollokationen
– klarer MWT: Allgemeine Geschaftsbedingungen– Kollokation: zur Einkommensteuer veranlagen⇒ Grenze oft unklar (wie wichtig ist sie?)
• Relevante Kontexte, z.B. Definitionen:Saponine sind oberflachenaktive Substanzen und...
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 5 / 42
Ansatze zur Termkandidaten-ExtraktionUberblick
• Rein statistische Verfahren:
– Basis: Auftretenshaufigkeit von Wortern oder Wortkombinationen◦ Einzelworter: “Weirdness Ratio” (Ahmad et al. 1992)
Welche Worter sind im Fachtext proportional haufigerals in “gemeinsprachlichen” Texten?
◦ Mehrwortausdrucke: Assoziationsmaße:Welche Kombinationen sind haufiger als statistisch erwartet?
• Rein linguistische Verfahren:
– Basis: Morphologische Eigenschaften der Worter,Grammatische Muster von Wortkombinationen
◦ Suchmuster, z.B.: Nomen + Praposition + Nomen
• In der Regel: kombinierte Verfahren:
– linguistische Mustersuche– statistische Sortierung der Ergebnisse
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 6 / 42
Uberblick
• Fachwortschatzextraktion:Wozu? – Was?
• Ein Anwendungsprojekt: Extraktion aus Web-Daten:Szenarium – Werkzeuge – Stand der Ergebnisse
• Verfahren zur Termkandidaten-Extraktion
– fur Einwort-Termini– fur Mehrwort-Termini:
* Musterbasierte Suche* Suche auf syntaktisch annotiertem Text (DE)
• Morphologisch verwandte Termkandidaten
– Musterbasierte Suche– Einbezug von morphologischer Zerlegung
• Zusammenfassung
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 7 / 42
Termkandidaten-Extraktion aus Web-DatenDas EU-Projekt TTC: eine geplante Anwendung
Szenarium:
• Automatischer Teil:Termkandidaten-Extraktion
• Interaktiver Teil:Nutzung in derUbersetzungsarbeit term equivalence
candidates
(L2)
terms to be
translated
(L1)User
Optional additional
knowledge source
Extraction of
domain−relevant
multiword terms
Extraction of
domain−relevant
multiword terms
single word and single word and
context
data
context
data
context−based
lexical
Document Harvesting
Monolingual Terminologies
L1
terminology
L2
terminology
Terminology candidate
alignment strategies:
corpus mining
Documents in target
language L2
Documents in source
language L1
The Web
Dictionary
Bilingual
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 8 / 42
Termkandidaten-Extraktion aus Web-DatenSchritte – Bausteine
(1) Textsuche:z.B. durch Crawler
(2) MonolingualeTermkandidaten-Identifikation
(3) Term-Alignment:Suche nach Aquivalenten
Hier Schwerpunkt:Monolinguale Extraktion
term equivalence
candidates
(L2)
terms to be
translated
(L1)User
Optional additional
knowledge source
Extraction of
domain−relevant
multiword terms
Extraction of
domain−relevant
multiword terms
single word and single word and
context
data
context
data
context−based
lexical
Document Harvesting
Monolingual Terminologies
L1
terminology
L2
terminology
Terminology candidate
alignment strategies:
corpus mining
Documents in target
language L2
Documents in source
language L1
The Web
Dictionary
Bilingual
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 9 / 42
Termkandidaten-Extraktion aus Web-DatenDas Werkzeug Jaguar (Rogelio Nazar, 2008)
• Arbeitsumgebung im Internet: Terminologiesuche
• Komponenten:
– Webcrawler zum Suchen nach Texten– Ablage gefundener (relevanter?) Texte– Statistische Suche nach Termkandidaten:
* Einzelworter: “neue” (unseen) Worter, etc.* Mehrwortausdrucke: Assoziationsmaße
– Ausgabe in einer Art Konkordanz
• Neuerdings: einige linguistische Suchverfahren (experimentell)
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 10 / 42
Termkandidaten-Extraktion aus Web-DatenExperimente mit Jaguar (Sonja Meier, 05/2010)
• Zielsetzung: Windenergie (DE)Korpuserstellung – Terminologieextraktion
• Ergebnisse 05/2010:
– Textsuche fuhrt zu maßigen Ergebnissen: viele irrelevante Texte– Texte schwer nachverfolgbar (Quellen etc.)– Texte fur Benutzer nicht einsehbar– Termkandidaten nur statistisch begrundet:
Zum Teil maßige Qualitat
• Erganzungen 11/2010:
– Quellen/Texte sichtbar– Bessere Gebrauchstauglichkeit
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 11 / 42
Termkandidaten-Extraktion aus Web-DatenEntwicklung im EU-Projekt TTC: BABOUK
• Promotionsarbeit von Clement de Groc (Syllabs, Frankreich)
• Fokussierter Web Crawler:Extraktion von themenspezifischen Webseiten,z.B. Seiten zum Bereich “Windenergie”
• Ausgangspunkt: Schlusselworter (seed words) oder URLs
• Rekursives Durchsuchen des Webs
1 Eingabe von Suchanfragen in Suchmaschinen (z.B. Yahoo!)2 Kategorisierung der gefundenen URLs3 Identifikation von weiterfuhrenden Links4 Weiterverarbeitung von themenspezifischen URLs
• Stopkriterien:
– Keine relevanten Dokumente (URLs) mehr auffindbar– N relevante Dokumente (Benutzer entscheidet)– Suchtiefe d erreicht (Benutzer entscheidet: Anzahl Link-Schritte)
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 12 / 42
Termkandidaten-Extraktion aus Web-DatenBABOUK: Interface und Bedienung
• Erreichbar uber Fa. Syllabs, ParisBenutzeraccount muß dort beantragt werden
• Einloggen → Klicken: Add new job
• Eingabemaske mit Schlusselwortern wind AND (bzw. OR) energy
• Klicken: Submit → Startet den Such-”Job”
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 13 / 42
Termkandidaten-Extraktion aus Web-DatenBABOUK: Ergebnisse
• Tool erstellt Liste gefundener Links (max: 1000)
• Tool legt Archiv von Texten (html, txt) aus gefundenen Links an,wo moglich mit Metadaten: Autor, URL, Titel, ...
• E-Mail, wenn Job beendet ist
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 14 / 42
Termkandidaten-Extraktion aus Web-DatenBABOUK: Ergebnisse – Terminologierelevante Ergebnisdaten?
• Textebene: Beispielfall EN: wind + energy
– Viel aus Wikipedia (25% aller Satze)– Mitunter Texte von außerhalb der Domane:
IT: Webseite mit Tipps zum Steuern sparen– Manchmal domanenrelevante Texte aus unerwarteten Textsorten:
Werbung - Gesetze - Technik - Protest - Kinderbucher
• Termebene:
– Einzelworttermkandidaten: nach Okkurrenzzahlenpower, turbine, electricity, water, fuel, ...
– Mehrwortkandidaten:hot water, renewable energy, clean energy, natural gas,free encyclopedia, offshore wind (?)offshore wind farm, angle of attack, ...
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 15 / 42
Termkandidaten-Extraktion aus Web-DatenBABOUK: Ergebnisse – FR: energie + eolienne
• 987 gefundene Texte, mit 1,4 Millionen Wortern
– davon: 852 Texte aus Wikipedia: FR, CA, . . .– Anteil Wikipedia ist eher ungewohnlich hoch
• Termkandidaten (abnehmende Zahl Okkurrenzen):
– pays membre, bilan carbone, taxe carbone, moteur diesel, rapportcout-efficacite, grupe motopompe, pays signataire, . . .
– encyclopedie libre, parti quebecois, union europeenne,energie renouvelable, . . .
– point de vue, source d’energie, projet de loi, dioxyde de carbone,duree de vie, mise en place, vitesse de rotation
⇒ Filterung von trivialen Kandidaten notig!
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 16 / 42
Uberblick
• Fachwortschatzextraktion:Wozu? – Was?
• Ein Anwendungsprojekt: Extraktion aus Web-Daten:Szenarium – Werkzeuge – Stand der Ergebnisse
• Verfahren zur Termkandidaten-Extraktion
– fur Einwort-Termini– fur Mehrwort-Termini:
* Musterbasierte Suche* Suche auf syntaktisch annotiertem Text (DE)
• Morphologisch verwandte Termkandidaten
– Musterbasierte Suche– Einbezug von morphologischer Zerlegung
• Zusammenfassung
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 17 / 42
Monolinguale Extraktion: Relative HaufigkeitGrundidee und Berechnungsschritte: Einworttermini
Ein einfaches Verfahren (vgl. [Ahmad et al. 1992])Vergleich der (relativen) Haufigkeit im Fachtextmit der (relativen) Haufigkeit in Gemeinsprach-Corpus
• Idee:
– Journalismus bevorzugt kein spezielles Fachgebiet(Daten, z.B.: mehrere Jahrgange Zeitung)
– Fachtext: Fachausdrucke sind hier besonders haufig,relativ haufiger als im Zeitungstext
• Berechnung:
1 Bestimme die Große beider Corpora: NF , NG
2 Ermittle Haufigkeit jedes (Inhalts-)Wortes im Fachtext: fF (w)3 Ermittle seine Haufigkeit im Zeitungstext: fG (w)4 Errechne jeweils die relative Haufigkeit: rF =fF (w)/NF , etc.5 Vergleiche die relativen Haufigkeitswerte: rF /rG
• Ergebnis: textrelevante Termkandidaten
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 18 / 42
Monolinguale Extraktion: Relative HaufigkeitSchematische Darstellung: EMEA-Texte vs. Frankfurter Rundschau
Tagging
Comparisonrelevant
terms
ADJ NN VV
NNADJ VV
TaggingEMEA EMEA
FR FR
exclusivelyEMEA
primarilyEMEA
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 19 / 42
Monolinguale Extraktion: Relative HaufigkeitBeispielergebnisse
Termkandidaten f (abs.)Durchstechflasche 5638Injektionsstelle 3489Pharmakokinetik 3426Hamoglobinwert 3395Fertigspritze 3271Ribavirin 3234Gebrauchsinformation 2801Dosisanpassung 2580Epoetin 2302Hydrochlorothiazid 2128
Termkandidaten Weirdness f (abs.)Filmtablette 25522 6389Injektionslosung 19854 4970Packungsbeilage 14710 7365Niereninsuffizienz 14233 3563Verkehrstuchtigkeit 13558 3394Leberfunktion 8385 2099Hypoglykamie 8353 2091Toxizitat 7957 1992Einnehmen 7035 7045Hypotonie 6823 1708
Nur EMEA (nicht FR) EMEA und FR
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 20 / 42
Monolinguale Extraktion: FachwendungenFachphraseologie – Fachwendungen
“Eine Fachwendung ist das Ergebnis der syntaktischen Verbindungvon mindestens zwei fachsprachlichen Elementenzu einer Außerung fachsprachlichen Inhalts,deren innere Koharenz auf der begrifflichen Verknupfbarkeit beruht”
Arntz/Picht 1989: 34
Beispiele (juristische Fachwendungen):
• Nominalgruppen:
– N + PP: Vorsprung durch Rechtsbruch– Adj. + N: unsachliche Beeinflussung, unzulassige Diskriminierung
• Gruppen mit Verben:
– Verb + Objekt: Testament errichten, Anspruch geltend machen– Verb + Indirektes Objekt: einem Antrag stattgeben– Verb + PP etw. als Marke schutzen
Verfahren identisch fur Mehrwortterme und Kollokationen
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 21 / 42
Monolinguale Extraktion: FachwendungenBeispiele
• Kollokationen: lexikalisch-pragmatisch festgelegt:Testament errichten??Testament schreiben EN [to] write a will??Testament aufsetzen DK oprette et testamente??Testament machen IT fare {} testamento??Testament ausfertigen NL en testament verlijden
• Kontexte: weniger klar festgelegt, eher eine Frage der Frequenz:Hypothese: haufige Kombinationen sind typisch:Vertrag + ADV + erfullen Fritzinger/Heid/Siegmund 2009
Domane Haufiges ADJ % Belege
Insolvenzrecht vollstandig 51,16 %
Markenrecht ordnungsgemaß 33,65 %
Journalismus termingerecht 8,70 %
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 22 / 42
Monolinguale Extraktion: FachwendungenMogliche Ansatze zur Extraktion
• Rein statistisch: Kookkurrenz – Assoziationsmaße (AM)
– Adjazente Wortpaare oderWortpaare in einem “Fenster” WordSmith Tools
– Rekursiv: Paare und ihre haufigsten Kontextpartner:Aufbau großerer Sequenzen IdS: CCDB
• Symbolisch: Suche nach Mustern
– auf Basis Wortarten (flach)– auf Basis syntaktischer Analyse (tief)
• Kombiniert: symbolisch und statistisch
– Erst Assoziationsmaße (→ alle signifikanten Paare)dann Filter nach Wortarten Smadja 1993
– Erst grammatische Relationen (→ syntaktisch homogene Menge),dann Sortierung nach Assoziationsstarke
z.B. Heid 1998, Krenn 2000, Seretan 2008
CCDB: Kookkurrenzdatenbank des IdS: http://corpora.ids-mannheim.de/ccdb/
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 23 / 42
Musterbasierte Ansatze fur die romanischen SprachenEinfache Muster: Deutsch vs. Franzosisch (IT, ES, PT...)
German French possible extension
nouns nounscompounds noun+noun + adjectivenoun+noun:genitivenoun+prep+noun noun+prep+noun
noun von noun noun de noun + adjectivenoun a noun
adjectives adjectives+ adverb
adjective+noun noun+adjectiveverbs verbsverb+noun verb+noun + adjectiveverb+prep+noun verb+prep+noun
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 24 / 42
Musterbasierte Ansatze fur die romanischen SprachenMusterbasierte Extraktion: Beispiel (lemmatisierte Formen)
[pos = NOM] [pos = ADJA]
139 bilan previsionnel135 parc eolien99 energie renouvelable80 energie eolien46 systeme electrique44 production eolien29 consommation unitaire26 filiere eolien24 pouvoir public23 efficacite energetique23 puissance eolien21 chauffage electrique20 bilan energetique20 production thermique
[pos = NOM] [lem = de] [pos = NOM]
55 consommation de electricite52 moyen de production50 production de electricite42 prevision de consommation38 obligation de achat36 securite de approvisionnement30 facteur de charge29 groupe de production24 parc de production22 duree de defaillance22 tau|taux de croissance21 effet de serre21 economie de energie20 etude de impact
Basis: manuell erstelltes Korpus: 100.000 Worter: Windenergie
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 25 / 42
Musterbasierte Ansatze fur die romanischen SprachenVariation in Mehrworttermini: Beispiele
[pos = NOM] [lem = de] [pos = NOM]
55 consommation de electricite2 consommation final de electricite Adjektiv2 consommation interieur de electricite1 consommation brut de electricite1 consommation supplementaire de electricite1 consommation total de electricite1 consommation moyen de electricite1 consommation national de electricite
[pos = NOM] [pos = ADJ]
2 metal non ferreux 2 metal ferreux Negation1 origine non renouvelable 9 origine renouvelable1 source non renouvelable 3 source renouvelable
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 26 / 42
Ein Ansatz zur Extraktion von deutschen FachwendungenTiefe Analyse statt flacher Analyse
Dependenz-syntaktische Analyse mit FSPAR Schiehlen 2003
0 Die ART d | 2 SPEC1 zweite ADJA 2. | 2 ADJ2 Studie NN Studie Nom:F:Sg 3 NP:nom3 lieferte VVFIN liefern 3:Sg:Past:Ind* -1 TOP4 ahnliche ADJA ahnlich | 5 ADJ5 Ergebnisse NN Ergebnis Akk:N:P l 3 NP:akk6 . $. . | -1 TOP
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 27 / 42
Ein Ansatz zur Extraktion von deutschen FachwendungenDetaillierte linguistische Klassifikation der Mehrwort-Ausdrucke
Ziel: Finden von Kollokationskandidatenund detaillierte Beschreibung in einem Schritt
• Dependenzbasierte Extraktion (z.B. Verb-Objekt-Paare):
→ Klassifikation nach Wortklassen und grammatischen Funktionen
• Morphosyntaktische Merkmale im Analyseergebnis:
→ Klassifikation nach morphosyntaktischen Praferenzen,Determination, Numerus, Modifikatoren, ggf. Negation
→ Klassifikation nach Aktiv/Passiv, Wortstellung, usw.:durch Muster uber morphosyntaktisch annotiertes Material
Heid/Weller 2008
⇒ Einzelne Kollokationsinstanzen (Satze) werden identifiziertund mit form-orientierten linguistischen Merkmalen versehen
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 28 / 42
Ein Ansatz zur Extraktion von deutschen FachwendungenBeispielsatze mit linguistischen Merkmalen: ein Beispiel
n_lemma | Grundv_lemma | geltend machennumerus | Pldet_typ | nullaktiv_passiv | passivpass_auxil. | werdensatz_typ | v-2modifizierer | auch (ADV), PP:fur:Errichtung, PP:fur:Landmodalverben | konnenprapos. | nullbeleg | Solche Grunde konnen auch fur die Errichtung
| eines gemeinsamen Patentamtes fur die Lander| geltend gemacht werden
⇒ Ablage in einer relationalen Datenbank Heid/Weller 2008
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 29 / 42
Ein Ansatz zur Extraktion von deutschen FachwendungenKlassifikation nach Signifikanz und nach Morphosyntax
(1) Assoziationsstarke: Berechnung mit AssoziationsmaßenErmittlung auf Basis von Lemma-Kookkurrenz in der Datenbank⇒ Signifikanz: haufiger als erwartet?
Evert 2004
(2) Morphosyntaktische Praferenzen
– Ermittlungauf Basis der Merkmalswerte fur ein Merkmal, pro Lemma-Paar
– Beispielergebnisse:f | n_lemma | v_lemma | det_typ | num | aktiv_passiv
-------+----------+---------------+----------+-----+--------------
1387 | Rechnung | tragen | null | Sg | aktiv
262 | Rechnung | tragen | null | Sg | passiv
136 | Rechnung | tragen | null | Sg | passiv
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 30 / 42
Extraktion und Klassifikation im UberblickBesonderheiten gegenuber anderen Verfahren
(1) Nutzt geparste Texte: → hohere Prazision→ mehr Recall
Seretan (2008)
(2) Kombiniert Signifikanzanalyse → zwei Arten Evidenzmit morphosyntaktischen Merkmalen → vermutlich unabhangig
→ besserer Recall
(3) Sammelt morphosyntaktische → Input fur Fach-Merkmale auf lexikographie und NLP
(4) Extraktion und Klassifikation → Effizienzin einem Schritt
(5) Ablage der Ergebnisse: Datenbank → Flexibilitat
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 31 / 42
Extraktion und Klassifikation: Beispielergebnisse
Anspruch + ADJ
– geltend gemacht,
– zivilrechtlich, wettbewerbsrechtlich, markenrechtlich,
– [gegen x] gerichtet
Anspruch + NGenitiv
– des Urhebers, [...] des Arbeitnehmers,
– des Erfinders, des Berechtigten, des Patentinhabers, ...
N + AnspruchGenitiv
– Geltendmachung, Durchsetzung, Verjahrung, Verwirkung,
– Gegenstand, Wortlaut, [...]
V + AnspruchObjekt
– geltend machen, erheben, herleiten, ableiten,
– verwirken,
– durchsetzen, anerkennen, befriedigen
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 32 / 42
Extraktion und Klassifikation: BeispielergebnisseJuristische Fachphraseologie (Heid et al. 2008)
Gibt es großere Gruppen, z.B. Verb + Objekt-Kollokation plus Adverb?
Frage endgultigPunkt abschließend klarenRechtslage hochstrichterlich
Nomen | Verb | Adverb
-------------------------+----------+----------------------
8 Frage | klaren | abschliessend
4 Sachverhalt | klaren | ausreichend
4 Rechtslage | klaren | gerichtlich
4 Frage | klaren | endgultig
4 Frage | klaren | eindeutig
3 Frage | klaren | ausdrucklich
2 Widerspruch | klaren | sauber
2 Verletzungsfrage | klaren | rechtskraftig
2 Streitfrage | klaren | hochstrichterlich
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 33 / 42
Uberblick
• Fachwortschatzextraktion:Wozu? – Was?
• Ein Anwendungsprojekt: Extraktion aus Web-Daten:Szenarium – Werkzeuge – Stand der Ergebnisse
• Verfahren zur Termkandidaten-Extraktion
– fur Einwort-Termini– fur Mehrwort-Termini:
* Musterbasierte Suche* Suche auf syntaktisch annotiertem Text (DE)
• Morphologisch verwandte Termkandidaten
– Musterbasierte Suche– Einbezug von morphologischer Zerlegung
• Zusammenfassung
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 34 / 42
Morphologisch verwandte FachkollokationenGruppierungsverfahren fur das Deutsche
• Beispielfall: Klage + abweisen Fritzinger/Heid (2008)
– ”Varianten” in Texten:abgewiesene Klage, Abweisung der/von . . . Klage, Klageabweisung
– Welche ”Varianten” sind Terme, welche Kollokationen?⇒ Relevanz fur Ubersetzungsanwendung?
• Problem im DE: Komposita:Klage abweisen ↔ Klageabweisung
• Ziel: alle ”Varianten”gemeinsam erfassen:
– Welche Formen sind in Texten haufig?– In welchen Kontexten kommen sie vor?– Außerdem: mehr Evidenz fur statistische Weiterverarbeitung,
z.B. in TTC
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 35 / 42
Morphologisch verwandte TermkandidatenRegeln fur Zusammenhange
• Beispielfall (FR):consommation electricite
consommation d’ electricite noun nounconsommation electrique noun adjectiveelectricite consommee participle (adjective) noun
• Modellierung der Wortbildungszusammenhange:consommation → consommer → consommeelectricite → electrique
• Problem: neoklassische Relationaladjektive:vento ↔ energia eolicaeau ↔ hydro-
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 36 / 42
Morphologisch verwandte TermkandidatenBeispiele FR und ES
• Verb und Nominalisierung:FR ES
generer de l’energie generar energıageneration d’energie generacion de energıaenergie generee energıa generadaenergie generable energıa generable
• Alternative Relationaladjektive (FR/ES):eolienne maritime eolienne marine(503 google matches) (522 google matches)
→ gleichverteilt
energıa eolica marıtima energıa eolica marina(958 google matches) (41400 google matches)
→ Praferenz fur energıa eolica marina
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 37 / 42
Morphologische Gruppierung: morphologische AnalyseGrundlage ist Morphem-Zerlegungswerkzeug SMOR
Schmid/Heid/Fitschen (2004)
> Klage[Klage<+NN>]<Fem><Nom><Sg>[Klage<+NN>]<Fem><Gen><Sg> Part of Speech[Klage<+NN>]<Fem><Acc><Sg>[Klage<+NN>]<Fem><Dat><Sg>
> abweisen[ab<VPART>weisen<+V>]<1><Pl><Pres><Subj>[ab<VPART>weisen<+V>]<1><Pl><Pres><Ind>[ab<VPART>weisen<+V>]<3><Pl><Pres><Subj>[ab<VPART>weisen<+V>]<3><Pl><Pres><Ind>[ab<VPART>weisen<+V>]<Inf>
Mood
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 38 / 42
Morphologische Gruppierung: Zwischenergebnisse
<1><Pl><Pres><Subj><1><Pl><Pres><Ind><3><Pl><Pres><Subj><3><Pl><Pres><Ind><Inf>
ab<VPARt>weisen<+V>
ab<VPARt>weisen<+V>
ab<VPARt>weisen<+V>
ab<VPARt>weisen<+V>
ab<VPARt>weisen<+V>
<Fem><Gen><Sg><Fem><Akk><Sg><Fem><Dat><Sg>Klage<+NN>
Klage<+NN>
Klage<+NN>
<Fem><Nom><Sg>Klage<+NN>
Klage abweisen
Verb+Object
ung<SUFF><+NN><Fem><Nom><Sg>ung<SUFF><+NN><Fem><Gen><Sg>ung<SUFF><+NN><Fem><Acc><Sg>ung<SUFF><+NN><Fem><Dat><Sg>
ab<VPART>weisen<V>
ab<VPART>weisen<V>
ab<VPART>weisen<V>
ab<VPART>weisen<V>
<Fem><Nom><Sg>Klage<+NN>
<Fem><Gen><Sg><Fem><Akk><Sg><Fem><Dat><Sg>
Klage<+NN>
Klage<+NN>
Klage<+NN>
Abweisung der Klage
Noun+Genitive Noun
Klage<NN>ab<VPART>weisen<V>
ung<SUFF><+NN><Fem><Gen><Sg>Klage<NN>ab<VPART>weisen<V>
ung<SUFF><+NN><Fem><Akk><Sg>ung<SUFF><+NN><Fem><Dat><Sg>
Klage<NN>ab<VPART>weisen<V>
Klage<NN>ab<VPART>weisen<V>
ung<SUFF><+NN><Fem><Nom><Sg>
Klageabweisung
Compounds
ab<VPART>weisen<V><PPast><SUFF><+ADJ><Pos><Masc><Nom><Sg><PPast><SUFF><+ADJ><Pos><Neut><Nom><Sg><PPast><SUFF><+ADJ><Pos><Neut><Acc><Sg><PPast><SUFF><+ADJ><Pos><Fem><Nom><Sg><PPast><SUFF><+ADJ><Pos><Fem><Acc><Sg
ab<VPART>weisen<V>
ab<VPART>weisen<V>
ab<VPART>weisen<V>
ab<VPART>weisen<V>
<Fem><Nom><Sg>Klage<+NN>
<Fem><Gen><Sg><Fem><Akk><Sg><Fem><Dat><Sg>
Klage<+NN>
Klage<+NN>
Klage<+NN>
Adjective+Noun
abgewiesene Klage
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 39 / 42
Morphologische Gruppierung: Quantitative ErgebnisseUnterschiedliche Praferenzen: Beispiele
Patent+anmelden Urteil+anfechten Gesetz+auslegen
V+Nobj 1.56% 1.27% 9.17%ADJ+NN 2.21% 98.53% 0.20%NN+NNgen 1.56% 0.18% 44.34%Compounds 93.85% 0.02% 46.28%
Patent+erteilen Marke+registrieren Erfindung+anmelden
V+Nobj 26.01% 11.18% 26.12%ADJ+NN 31.17% 63.03% 47.36%NN+NNgen 42.83% 25.79% 26.53%Compounds 0% 0% 0%
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 40 / 42
Zusammenfassung
• Es wurde gezeigt:
– Motivation fur (semi-) automatische Termextraktion– Laufende Arbeiten fur Extraktion aus Web-Daten– Einfache Verfahren der Extraktion
* Einzelworter durch Frequenzanalyse* Mehrwortausdrucke durch Suchmuster* Kollokationen durch Suche in syntaktisch annotiertem Text
– Morphologische Gruppierung der Ergebnisse
• Laufende Arbeiten – offene Fragen
– Wieviel linguistisch-terminologische Klassifikation brauchen Ubersetzer?(MW-Term ↔ Kollokation)
– Wie findet man (nur) domanenrelevante Terme?– Welche Textsorten sind (zuverlassig) fachwortschatzrelevant?
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 41 / 42
Nachste Schritte
• Web-Crawler: mehr relevante Ergebnisse(Projekt TTC: Syllabs, Paris)
• Extraktionstechniken:
– weitere Suchmuster: Große der Einheiten?– Kombination mit Valenzextraktion– Verbesserung der mophologischen Gruppierung:
Mehr Daten aus “kleinen” Korpora– Ausbau der Kollokationssuche fur die Gemeinsprache:
* Idiomatische Wendungen (mit Verben)* Variation nach Region, Textsorte, etc.
• Linguistische Eigenschaften der Termkandidaten
– Morphologische Struktur– Praferenzen unter morphologisch verwandten Termen/Kollokationen– Ggf. Kontrastivitat DE ↔ Romanische Sprachen
Heid (IwiSt/IMS) Fachwortschatzextraktion heidelb-termifol.tex 42 / 42