Termextraktion mit linguistischen Verfahren · VocabGrabber … • arbeiten auf Basis von...

Preview:

Citation preview

Darf‘s ein bisschen weniger sein?

Termextraktion mit linguistischen Verfahren

tekom Jahrestagung 2017 Stuttgart, 25.10.2017

Ursula Reuther

IAI Linguistic Content AG

Überblick

• Terminologieaufbau

• Termextraktionsverfahren

• statistische Verfahren

• linguistische Verfahren

• Vergleich

• Zusätzlicher Mehrwert von Termextraktionsergebnissen

• Weitere Nutzung von Termextraktionsergebnissen

• Ausblick und Fazit

02.11.2017 IAI Linguistic Content AG 2

Terminologieaufbau Fragen über Fragen

02.11.2017 IAI Linguistic Content AG 3

Sollen die Terme zu einander in Beziehung gesetzt werden?

In welchem Datenmodell?

Gibt es Vorgaben?

Regeln?

Einen Terminologie-Leitfaden?

Nutze ich maschinelle Verfahren?

Wenn ja, welche?

Was nehme ich als Ausgangsbasis?

Gibt es schon einen Terminologie-Datenbestand?

Deskriptiver Ansatz oder

präskriptiver Ansatz?

Arbeite ich ein- oder zweisprachig?

Was sind die Kriterien für einen Term?

Automatische Termextraktionsverfahren

• Herausforderung „Wenn man die Termini eines Textes exzerpieren will […], dann geht es nicht um einzelne Wörter, sondern um ganze Ausdrücke (Benennungen). Deren innerer Zusammenhang ist aber mitunter schwer zu erkennen. Quelle: P.A. Schmitt (2016), Terminologie und Fachlexikografie

• Statistische Verfahren • große Auswahl

• TermFinder, Xerox, PhraseFinder, crossMining, LogiTerm2, memoQ, SDL MultiTerm Extract, STAR TransitNXT, Tilde, Termflow, SynchroTerm, Sketch engine, fiveFilters, VocabGrabber …

• arbeiten auf Basis von Zeichenketten

• ohne morphologische Information - bestenfalls mit so genannten Stemmern (Erkennung von Wortstämmen) • Verkürzungsregeln

• haben ihre Grenzen (Häuser-Haus; sprach-spreche-spricht; gehört; stimmt …zu; etc.)

• ohne Satzgliedanalyse

02.11.2017 IAI Linguistic Content AG 4

Automatische Termextraktion Statistische Verfahren

• Ergebnisse Tilde (online Version https://term.tilde.com)

02.11.2017 IAI Linguistic Content AG 5

Weniger wäre

mehr!

Automatische Termextraktionsverfahren

• Herausforderung „Wenn man die Termini eines Textes exzerpieren will […], dann geht es nicht um einzelne Wörter, sondern um ganze Ausdrücke (Benennungen). Deren innerer Zusammenhang ist aber mitunter schwer zu erkennen. Quelle: P.A. Schmitt (2016), Terminologie und Fachlexikografie

• Linguistische Verfahren • arbeiten auf Lemma-Basis

• Identifizierung von nicht nur zufällig benachbarten Elementen, die unterschiedlichen Phrasen angehören, sondern Erkennung von syntaktisch und semantisch zusammengehörigen Elementen

• Voraussetzung: Morpho-syntaktische Analyse

die Verbräuche --> Verbrauch

… des oberen Totpunktes –> oberer Totpunkt

Falls der Auffangbehälter für den Mitarbeiter nicht zugänglich ist, … Falls der Auffangbehälter für Öl defekt ist, …

02.11.2017 IAI Linguistic Content AG 6

Automatische Termextraktionsverfahren

02.11.2017 IAI Linguistic Content AG 7

o Vorteil: sprachunabhängig

o Nachteil: ohne Morphologie

o mit so genannten Stemmern

Mehrworteinheiten werden auf Basis statistischer Kookkurrenz-berechnungen identifiziert (dennoch mangelhaft)

o Ausgabe von Wortformen

o Termgrenzen werden nicht erkannt

o keine Disambiguierung

o Studie der Uni Zürich (1999)

Präzision: Nur 20% aller gelieferten Termkandidaten sind Terme.

Vollständigkeit: Nur 80% aller Terme eines Textes werden gefunden.

o Vorteil: morpho-syntaktische Analyse

o Nachteil: sprachabhängig

o Ermittlung der Grundform mit grammatischen Informationen

o gute Erkennung von Mehrwortausdrücken

o bessere Recall- und Precision-Ergebnisse

o Mehr relevante Terme als bei einer intellektuellen Extraktion

o Verhältnis von gefundenen und relevanten Termen beträgt fast 100%

Quelle: M. Volk (2003) Parallele Korpora und Terminologie-Extraktion

Statistische

Termextraktionsverfahren

Linguistische

Termextraktionsverfahren

Extraktionsverfahren im Vergleich

• Inputdokument: deutscher Text (36 KB)

• 3 Verfahren

• intellektuelle Extraktion

• statisches Verfahren

• mit unterschiedlichen Einstellungen bezüglich Noise und Silence

• linguistisches Verfahren

• Ergebnisse ohne Filterung

02.11.2017 IAI Linguistic Content AG 8

Extraktionsverfahren im Vergleich

02.11.2017 9 IAI Linguistic Content AG

Quelle: Fritz Communication

Extraktionsverfahren im Vergleich

02.11.2017 10 IAI Linguistic Content AG

Quelle: Fritz Communication

Extraktionsverfahren im Vergleich

02.11.2017 11 IAI Linguistic Content AG

Quelle: Fritz Communication

Extraktionsverfahren im Vergleich

• Linguistische Termextraktion findet mehr geeignete Terme

• als die statistische Termextraktion

• als selbst die intellektuelle Termextraktion

• Das Verhältnis von gefundenen zu tatsächlichen Termen ist fast optimal

• Zeitersparnis ca. 98%

02.11.2017 IAI Linguistic Content AG 12

Inhaltliche Ebene Auswahl und Bildung von Termen

• Wann ist ein Term ein Term?

• Welche Kriterien werden zugrunde gelegt?

• Nach welchen Regeln werden Terme gebildet?

02.11.2017 IAI Linguistic Content AG 13

Wann ist ein Term ein Term?

… korrelieren oftmals, z.B. Nespresso-Kapsel

Intelligente Trommelreversierung

Verschlussdeckel für Öleinfüllstutzen

Virus Alter Mann

Sprachliche Merkmale lassen Rückschlüsse auf inhaltliche Merkmale zu

sprachliche Merkmale inhaltliche Merkmale

Komposita

Teilebenennungen Produktnamen

Nominalphrasen • Adjektiv-Nomen-Konstrukte • Nomen - Präposition – Nomen

Fachausdrücke

Etymologie

Domänenabhängigkeit

02.11.2017 IAI Linguistic Content AG 14

Maschinell erkennbare Kriterien der Termhaftigkeit

• Kompositum

• Naturflächenverbrauch

• Interimslösung

• Simplex (mit bestimmten semantischen Eigenschaften)

• Hammer s=instr

• Lunge s=koerper

• Antrieb s=process

• Gas, Kohle s=mat

• Fremdwörter (fremdsprachlichen Ursprungs)

• Akkumulator ss=instr, lng=lat

• Update ss=result, lng=engl

• Frequenz ss=state, lng=lat

• Bronchitis ss=disease, lng=gr

02.11.2017 IAI Linguistic Content AG 15

Maschinell erkennbare Kriterien der Termhaftigkeit

• Bindestrichkonstrukte

• Kosten-Nutzen-Analyse

• ESP-System

• 230-V-Batterie

• Adjektiv-Nomen-Konstrukte

• verbrauchsoptimierter Dieselmotor

• terminologische Relevanz

• Toponyme

• Silvrettagletscher ls=Silvretta#gletscher,ss=loc&gegend#loc&gelaende

• Stuttgarter Fernsehturm c=adj,deg=base,s=loc&city,ds=Stuttgart~er,ls=Stuttgart,ss=loc&city

c=noun,ss=medium#loc&gebaeude,cs=n#n,ds=fernseh#turm,ls=fernseh#turm

• Namen

• Barak Obama ls=Barack,ss=fname,ls=Obama,ss=family

02.11.2017 IAI Linguistic Content AG 16

Ergebnis einer automatischen linguistisch basierten Termextraktion

02.11.2017 IAI Linguistic Content AG 17

Zusätzlicher Mehrwert von Termextraktionsergebnissen

• Qualitätssicherung durch Ausgabe von unbekannten Wörtern

• Produkt- und Eigennamen

RegioTram

HH2

• Rechtschreibfehler

abhehmen – abnehemen - abnemen

Defkt

Stabilesator

Ausspahrung

• Qualitätssicherung durch Erkennung von Inkonsistenzen 5-Sitzer -- Fünfsitzer

Deckel-Oberteil -- Deckelunterteil

Evakuierungsvorgang -- Evakuiervorgang

02.11.2017 IAI Linguistic Content AG 18

Zusätzlicher Mehrwert von Termextraktionsergebnissen

• Ableitung von Termbildungsregeln durch Analyse von • Frequenzinformation

• Beispiel: Wie viele 3-gliedrigen Komposita kommen mit/ohne Bindestrich vor?

• Kontextinformation • Beispiel: In welchem Kontext kommt Schreibvariante A vor, in welchem Kontext ist es Schreibvariante B?

• Auswahlkriterium • Beispiel: Sollen deverbale Simplizia durch Ableitungen oder durch Infinitive dargestellt werden?

Abbremsung vs. Abbremsen

• Ableitbare Regelungen zu • Bindestrichsetzung

• Schreibung von Ziffern

• Gebrauch von Fremdwörtern

Trainingsunterlagen vs. Schulungsunterlagen

• Wortbildung

• …

02.11.2017 IAI Linguistic Content AG 19

Weitere Nutzung von Termextraktionsergebnissen

• Erkennung von Hyperonym- und Hyponymrelationen

Absorptionskälteanlage > Kälteanlage > Anlage

absorbieren#kalt#anlage

gleiches Kopfwort gleicher Wortstamm des Bestimmungsworts 5 Abgasanlage

2 Absauganlage

1 Abwasserreinigungsanlage 1 Absorber

30 Antriebsanlage 1 Absorption

1 Audioanlage 1 Absorptionsmittel

4 Auspuffanlage

1 Beschichtungsanlage

1 Beschickungsanlage

3 Biogasanlage

7 Bremsanlage

1 chemische Anlage

………

6 Windkraftanlage

1 Zentralschmieranlage

02.11.2017 IAI Linguistic Content AG 20

Weitere Nutzung von Termextraktionsergebnissen

• Visualisierung terminologischer Relationen

• Basis:

• Termextraktionsergebnisse und zugehöriges Korpus oder

• bestehender Thesaurus

• Zur Herstellung der Relation wird die „semantische Ähnlichkeit“ herangezogen

• Ermittlung der semantischen Ähnlichkeit durch Kookkurrenzbedingungen in Dokumenten

Definition: Wörter der selben semantischen Domäne sind semantisch ähnlich.

Semantisch ähnlich: Krankenschwester Fieber intravenös Doktor

02.11.2017 IAI Linguistic Content AG 21

Weitere Nutzung von Termextraktionsergebnissen

• Terminologische Relationen dargestellt als Wortwolke

https://www.wissen-elektromobilitaet.com

02.11.2017 IAI Linguistic Content AG 22

Ausblick

• Termextraktionsergebnisse sind nicht nur nutzbar für

• Terminologieaufbau und damit verbundene Tätigkeiten

• sondern auch für

• Thesaurus-/Ontologieerstellung

• Information Retrieval

• Dokumentklassifizierung

• Indexierung

02.11.2017 IAI Linguistic Content AG 23

Fazit

Ergebnisse der linguistisch basierten Termextraktion

• liefern weniger Terme mit besserer Qualität

• kein Rauschen, hoher Precision- und Recall-Wert

• nutzbar für die Terminologiearbeit und die Qualitätssicherung

• ermöglichen Ableitung von Termbildungsregeln

• ermöglichen Erkennung von fehlerhaften und inkonsistenten Inhalten

• nutzbar für weitere Anwendungen

02.11.2017 IAI Linguistic Content AG 24

Fazit

• Weniger …

• unbrauchbare Terme

• nicht gefundene Terme

• Zeitaufwand

• … und doch ein Mehr an

• brauchbaren Termen

• gefundenen Termen

• Unterstützung der Terminologen

• weiteren Möglichkeiten zur Nutzung

02.11.2017 IAI Linguistic Content AG 25

Fazit

02.11.2017 IAI Linguistic Content AG 26

02.11.2017 IAI Linguistic Content AG 27

Ihre Meinung ist uns wichtig! Sagen Sie uns bitte, wie Ihnen der Vortrag gefallen hat. Wir freuen uns auf Ihr Feedback per Smartphone oder Tablet unter

http://term07.honestly.de oder scannen Sie den QR-Code

Das Bewertungstool steht Ihnen auch noch nach der Tagung zur Verfügung!

Recommended