39
Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur Universität Dortmund

Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

Embed Size (px)

Citation preview

Page 1: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

Zur automatischen Generierung von

Themenkarten für Fachtexte

Irene Cramer, Marc Finthammer und Angelika Storrer

Institut für deutsche Sprache und LiteraturUniversität Dortmund

Page 2: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 2

Inhaltsübersicht

• Motivation und Projektkontext

• Lexikalische Ketten als Basis für Berechnung bzw. Visualisierung thematischer Strukturen

• Experimente zur Qualität lexikalischer Ketten– Abdeckung des Systems– Disambiguierungsqualität– Berechnung semantischer Nähe– Anwendungsorientierte Aspekte

Page 3: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 3

Projektkontext

• Projekt HyTex:HyTex: „HyHypertextualisierung auf textextgrammatischer Grundlage“; Teilprojekt der DFG-Forschergruppe Texttechnologische Informations-modellierung

• Hypertextualisierung …Hypertextualisierung …Aufbereitung von linear organisierten Dokumenten für die selektiven, interaktiven Nutzungsformen in einem Hypertextsystem.

• … … auf textgrammatischer Grundlageauf textgrammatischer Grundlagekeine einfache 1:1-Konversion, sondern Erzeugung von Hypertextsichten auf der Basis textgrammatischer Annotationen, die die Vorteile (Mehrwerte) von Hypermedien bei der selektiven Lektüre ausschöpfen.

Page 4: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 4

Miguel de Cervantes Saavedra Geboren am 29.09.1547 in Alcalá de Henares, gestorben am 23.04.1616 in Madrid.

Kindheit und Jugend Miguel de Cervantes Saavedra wurde 1547 in Alcalá de Henares als viertes von sieben Kindern einer verarmten Adelsfamilie (Hidalgo) geboren. Seit Vater war vermutlich Arzt und lebte mit seiner Familie in verschiedenen Städten ( Valladolid, Córdoba, Sevilla, Madrid). Cervantes studiert in Salamanca und Madrid Theologie und fällt schon in seiner Jugend durch seine außerordentliche literarische Begabung auf. 1569 geht er als Kammerdiener mit dem Kardinal Giulio Acquaviva nach Rom, vermutlich nicht zuletzt, weil gegen ihn wegen der Verletzung eines Gegners im Duell ein königlicher Haftbefehl erlassen wird, in dem der Verlust der rechten Hand und zehnjährige Verbannung, also sehr schwere Strafen, angedroht werden.Im Alter von 22 Jahren verpflichtete er sich als Soldat im spanischen Heer und nimmt an der Seeschlacht von Lepanto (1571) teil, in der Juan de Austria gegen die Türken unter Selim II. kämpfte. Er trägt eine schwere Verwundung an der linken Hand davon, die ihm den Namen "el manco"/"Der Einarmige" einbrachte. Dennoch nahm er an weiteren Kriegszügen teil.

Literarisches SchaffenSein Wunsch, vom Schreiben von Theaterstücken leben zu können, erfüllte sich nicht und so verdingt er sich von 1580 bis 1583 wieder als Soldat, unter anderem bei dem König von Portugal. Im Jahre 1584 erscheint sein erster Roman in Prosa, "La primera parte de la Galatea", ein Schäferroman, der dem damaligen Zeitgeschmack entsprach.Mit 37 Jahren heiratet er, aber seine Ehe wird nicht glücklich. Er wird Agent, Kaufmann und gewinnt schließlich in Sevilla einen Beamtenposten als Aufkäufer und Lieferant für die spanische Kriegsflotte, die Armada. Nach mißlungenen Geschäften landet er 1597/98 und 1602 in Schuldhaft, während der er an seinem großen Roman Don Quijote zu schreiben beginnt. 1604 geht er nach Valladolid, wo er sich schuldlos in einen Mordprozeß verwickelt sieht. Nach dem Beweis seiner Unschuld kehrt er nach Madrid zurück und veröffentlicht 1605 den ersten Band des Don Quijote. Cervantes erreicht schnell öffentliche Berühmtheit, aber der Gewinn aus seinem Werk blieb in den Händen des Verlegers und der Nachdrucker. In Einsamkeit und Armut entwickelt er eine große literarische Aktivität und veröffentlicht 1615 den zweiten Band des Don Quijote.

Miguel de Cervantes Saavedra stirbt 1616 in Madrid.

Thematische Strukturen

xxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Page 5: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 5

Miguel de Cervantes Saavedra Geboren am 29.09.1547 in Alcalá de Henares, gestorben am 23.04.1616 in Madrid.

Kindheit und Jugend Miguel de Cervantes Saavedra wurde 1547 in Alcalá de Henares als viertes von sieben Kindern einer verarmten Adelsfamilie (Hidalgo) geboren. Seit Vater war vermutlich Arzt und lebte mit seiner Familie in verschiedenen Städten ( Valladolid, Córdoba, Sevilla, Madrid). Cervantes studiert in Salamanca und Madrid Theologie und fällt schon in seiner Jugend durch seine außerordentliche literarische Begabung auf. 1569 geht er als Kammerdiener mit dem Kardinal Giulio Acquaviva nach Rom, vermutlich nicht zuletzt, weil gegen ihn wegen der Verletzung eines Gegners im Duell ein königlicher Haftbefehl erlassen wird, in dem der Verlust der rechten Hand und zehnjährige Verbannung, also sehr schwere Strafen, angedroht werden.Im Alter von 22 Jahren verpflichtete er sich als Soldat im spanischen Heer und nimmt an der Seeschlacht von Lepanto (1571) teil, in der Juan de Austria gegen die Türken unter Selim II. kämpfte. Er trägt eine schwere Verwundung an der linken Hand davon, die ihm den Namen "el manco"/"Der Einarmige" einbrachte. Dennoch nahm er an weiteren Kriegszügen teil.

Literarisches SchaffenSein Wunsch, vom Schreiben von Theaterstücken leben zu können, erfüllte sich nicht und so verdingt er sich von 1580 bis 1583 wieder als Soldat, unter anderem bei dem König von Portugal. Im Jahre 1584 erscheint sein erster Roman in Prosa, "La primera parte de la Galatea", ein Schäferroman, der dem damaligen Zeitgeschmack entsprach.Mit 37 Jahren heiratet er, aber seine Ehe wird nicht glücklich. Er wird Agent, Kaufmann und gewinnt schließlich in Sevilla einen Beamtenposten als Aufkäufer und Lieferant für die spanische Kriegsflotte, die Armada. Nach mißlungenen Geschäften landet er 1597/98 und 1602 in Schuldhaft, während der er an seinem großen Roman Don Quijote zu schreiben beginnt. 1604 geht er nach Valladolid, wo er sich schuldlos in einen Mordprozeß verwickelt sieht. Nach dem Beweis seiner Unschuld kehrt er nach Madrid zurück und veröffentlicht 1605 den ersten Band des Don Quijote. Cervantes erreicht schnell öffentliche Berühmtheit, aber der Gewinn aus seinem Werk blieb in den Händen des Verlegers und der Nachdrucker. In Einsamkeit und Armut entwickelt er eine große literarische Aktivität und veröffentlicht 1615 den zweiten Band des Don Quijote.

Miguel de Cervantes Saavedra stirbt 1616 in Madrid.

Thematische Strukturen

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Inhalt

Kapitel 1

Kapitel 2

Kapitel 2.1

Kapitel n

GlossarGlossar

Eintrag 1 ….Eintrag 2 ……Eintrag n …

DefinitionDefinitionDef. 1: …

Page 6: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 6

Miguel de Cervantes Saavedra Geboren am 29.09.1547 in Alcalá de Henares, gestorben am 23.04.1616 in Madrid.

Kindheit und Jugend Miguel de Cervantes Saavedra wurde 1547 in Alcalá de Henares als viertes von sieben Kindern einer verarmten Adelsfamilie (Hidalgo) geboren. Seit Vater war vermutlich Arzt und lebte mit seiner Familie in verschiedenen Städten ( Valladolid, Córdoba, Sevilla, Madrid). Cervantes studiert in Salamanca und Madrid Theologie und fällt schon in seiner Jugend durch seine außerordentliche literarische Begabung auf. 1569 geht er als Kammerdiener mit dem Kardinal Giulio Acquaviva nach Rom, vermutlich nicht zuletzt, weil gegen ihn wegen der Verletzung eines Gegners im Duell ein königlicher Haftbefehl erlassen wird, in dem der Verlust der rechten Hand und zehnjährige Verbannung, also sehr schwere Strafen, angedroht werden.Im Alter von 22 Jahren verpflichtete er sich als Soldat im spanischen Heer und nimmt an der Seeschlacht von Lepanto (1571) teil, in der Juan de Austria gegen die Türken unter Selim II. kämpfte. Er trägt eine schwere Verwundung an der linken Hand davon, die ihm den Namen "el manco"/"Der Einarmige" einbrachte. Dennoch nahm er an weiteren Kriegszügen teil.

Literarisches SchaffenSein Wunsch, vom Schreiben von Theaterstücken leben zu können, erfüllte sich nicht und so verdingt er sich von 1580 bis 1583 wieder als Soldat, unter anderem bei dem König von Portugal. Im Jahre 1584 erscheint sein erster Roman in Prosa, "La primera parte de la Galatea", ein Schäferroman, der dem damaligen Zeitgeschmack entsprach.Mit 37 Jahren heiratet er, aber seine Ehe wird nicht glücklich. Er wird Agent, Kaufmann und gewinnt schließlich in Sevilla einen Beamtenposten als Aufkäufer und Lieferant für die spanische Kriegsflotte, die Armada. Nach mißlungenen Geschäften landet er 1597/98 und 1602 in Schuldhaft, während der er an seinem großen Roman Don Quijote zu schreiben beginnt. 1604 geht er nach Valladolid, wo er sich schuldlos in einen Mordprozeß verwickelt sieht. Nach dem Beweis seiner Unschuld kehrt er nach Madrid zurück und veröffentlicht 1605 den ersten Band des Don Quijote. Cervantes erreicht schnell öffentliche Berühmtheit, aber der Gewinn aus seinem Werk blieb in den Händen des Verlegers und der Nachdrucker. In Einsamkeit und Armut entwickelt er eine große literarische Aktivität und veröffentlicht 1615 den zweiten Band des Don Quijote.

Miguel de Cervantes Saavedra stirbt 1616 in Madrid.

Thematische Strukturen

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

Inhalt

Kapitel 1 Themenbezeichner

Kapitel 2 Themenbezeichner

Kapitel 2.1 Themenbezeichner 1 und 2

Kapitel n Themenbezeichner

Page 7: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 7

• Erweiterung des Prototyps aus Phase I (vgl. www.hytex.info) u.a. um Themenkarten

• Themenkarte:Themenkarte:– ausgehend von Themenketten bzw. lexikalischen

Ketten– thematisch motivierte Verlinkung von Themen-

bezeichnern– Darstellung als Themenkarte (~thematischer Index)

• Idee: Verbesserung der Orientierung für Rezipient

Thematische Strukturen

Page 8: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 8

Inhaltsübersicht

• Motivation und Projektkontext

• Lexikalische Ketten als Basis für Berechnung bzw. Visualisierung thematischer Strukturen

• Experimente zur Qualität lexikalischer Ketten– Abdeckung des Systems– Disambiguierungsqualität– Berechnung semantischer Nähe– Anwendungsorientierte Aspekte

Page 9: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 9

Lexikalische Ketten – Beispiel

Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune.

Page 10: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 10

Lexikalische Ketten – Beispiel

Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune.

Page 11: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 11

Lexikalische Ketten – Beispiel

Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune.

Page 12: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 12

Lexikalische Ketten – Beispiel

Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune.

Page 13: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 13

Lexikalische Ketten – Beispiel

Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune.

Kette1: sitzen – ausruhen – müde – einschlafenKette2: Weide – Blatt – Blättern

Page 14: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 14

Lexikalische Ketten

• Entspricht partieller Textrepräsentation,• eingeführt von Halliday & Hasan (Cohesion in English,

1976),• technisch zuerst realisiert in CoLi durch Hirst & StOnge

(1998) für englische Text,• nützlich für verschiedene Anwendungen:

– Textzusammenfassung, Dialogmodellierung etc.

• u.W.n. bisher nur zwei Systeme für deutsche Texte, mit Unterschieden in Methodenwahl und Ressourcen – Mehler (2006)– Cramer & Finthammer (2007)– sowie umfangreiche Arbeiten zur semantischen Nähe I.

Gurevych et. al.

Page 15: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 15

Lexikalische Ketten

Berechnung von ThemenkartenThemenkarten:

Wähle Themenbezeichner pro Modul –

Merkmale für die Auswahl – starke, lange lexikalische Ketten enthalten

Themenbezeichner– Häufigkeit, Position im Text, Markup – …

Page 16: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 16

Berechnung lexikalischer Ketten

Module unseres Chainers GLexi:

– Vorverarbeitung der Texte Ergebnis: Chainkandidaten

– Chainer-Kernmodul – semantische Suche (in GermaNet) Ergebnis: Meta-Chains

– Ausgabeerzeugung Ergebnis: z.B. visuelle Darstellung oder XML Ausgabe

Page 17: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 18

Berechnung lexikalischer Ketten

Page 18: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 19

Berechnung lexikalischer Ketten

Page 19: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 20

Performanzbewertung der Ketten

• Qualitätsbewertung der Ketten: Evaluations-daten notwendig

• Unser erster Gedanke: manuelle Annotation von Korpus

• 3 Experimente zur manuellen Annotation– Experiment 1: manuelle Annotation lexikalischer

Ketten– Experiment 2: lexikalische Relationen für

Kettenkandidaten in GermaNet ermitteln– Experiment 3: lexikalische Ketten als Mindmaps

Page 20: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 21

Performanzbewertung der Ketten

• Ergebnis der Experimente: manuelle Annotation mit annehmbarem Inter-Annotator Agreement unrealistisch

• Beobachtung deckt sich mit veröffentlichten Ergebnissen für englische Daten

• Unser Vorschlag: Evaluiere Performanz des Systems auf allen relevanten Ebenen separat:

– Abdeckung der Ketten (Phase I)– Disambiguierungsqualität (Phase II)– Qualität der Berechnung semantischer Nähe (Phase III)– Anwendungsorientierte Evaluation (Phase IV)

Page 21: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 22

Inhaltsübersicht

• Motivation und Projektkontext

• Lexikalische Ketten als Basis für Berechnung bzw. Visualisierung thematischer Strukturen

• Experimente zur Qualität lexikalischer Ketten– Abdeckung des Systems– Disambiguierungsqualität– Berechnung semantischer Nähe– Anwendungsorientierte Aspekte

Page 22: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 23

Evaluationsphase I – Abdeckung

• Ohne Vorverarbeitung deckt GermaNet ca. 56 % aller Substantive in unserem Fachkorpus ab

• Umfassende Vorverarbeitung notwendig!

ca. 29.000 Substantivtokens in unsere Fachtextkorpus gliedern sich in

56 % in GermaNet 44 % nicht in GermaNet enthalten, davon

15 % flektiert 12 % Komposita 17 % kleinere Klassen nicht abgedeckten Materials

Page 23: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 24

Evaluationsphase I – Abdeckung

• Anders als im Englischen:– 4 Fälle + Singular/Plural– Komposita = ein Wort!

• Verbesserung durch Vorverarbeitung:– Abdeckung durch Lemmatisierung von ca. 56% auf 71%

verbessert– Abdeckung durch Kompositazerlegung von ca. 71% auf 83%

verbessert

• Offene Punkte u.a.: – Daten Datum bzw. Medien Medium– Datenbankbenutzerschnittstelle Benutzerschnittstelle oder

Schnittstelle? (Disambiguierungsqualität sinkt!)

Page 24: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 25

Evaluationsphase I – Abdeckung

• Eigennamen– einfacher statistischer Ansatz; bisher nur klassische Typen

• Offen:– Abkürzungen und fremdsprachliche Fachbegriffe

einfacher statistischer Ansatz wie bei Eigennamen denkbar und Erweiterung der semantische Ressource

– Nominalisierte Verben (das Administrieren, das Pflegen etc.) Vorgehen unklar

kleiner Klassen nicht abgedeckten Materials gliedern sich in

15 % EN 30 % Fremdwörter 25 % Abkürzungen 20 % nom. Verben

Page 25: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 26

Evaluationsphase II –Disambiguierung

• Ca. 45 % der Wörter in unserem Korpus in mehr als einem synset

für diese mehrere Lesarten möglich (Bank – Geldinstitut, Sitzgelegenheit …)

• Grundlage für Evaluation der Disambi-guierungsperfomanz: manuell annotierte Daten

Page 26: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 27

Evaluationsphase II –Disambiguierung

• pro verwendetes semantisches Maß berechne Rang- ordnung

• vergleiche diese Rangordnung mit manuell annotierten Daten

Wort A Wort B Bedeutung 1 Bedeutung 2 Wu-Palmer Rang

Text Hypertext

Text Hypertext

1 1

2 1

0,9231

0,8333

1

2

Manuell annotierte Bedeutungen

Text Hypertext 1 1

Bester Wert des Wu-Palmer-Ähnlichkeitsmaßes (= Rang 1) liefert die korrekten Angaben für Bedeutung von Wort 1 und 2 (Bedeutung1 = 1 und Bedeutung 2 = 1)

Page 27: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 28

Evaluationsphase II –Disambiguierung

• Für die 3 besten Maße (Resnik, Wu-Palmer und Lin) gilt:– nur ca. 50-60 % korrekte Disambiguierung– durch majority-vote: Disambiguierungsqualität auf ca. 63-65 % – Information Content basierte Herangehensweise: keine

Verbesserung möglich

• insgesamt mittelmäßige Perfomanz – allerdings: Vergleich mit WSD nicht sinnvoll

• Verbesserungsmöglichkeit:– Meta-Chaining (ähnlich Silber/McCoy, 2002) und eigenes Maß

basierend auf Maschinellem Lernen

Page 28: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 29

• Implementierung von insgesamt 11 Ähnlichkeits-maßen:– 8 basierend auf GermaNet, – 3 basierend auf Google-Kookurrenz-Werten

• Evaluation diese Maße mit Hilfe der Ergebnisse eines Human-Judgement Experiments:– Liste von Substantiv-Paaren– Bewertung dieser Paare hinsichtlich semant. Nähe

durch 35 Versuchspersonen– Berechnung der Korrelation zwischen Human-

Judgement und den Werten der 11 Ähnlichkeitsmaße

Evaluationsphase III – Berechnung semantischer Nähe

Page 29: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 30

Evaluationsphase III – Berechnung semantischer Nähe

Wortpaar

Page 30: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 31

Evaluationsphase III – Berechnung semantischer Nähe

Wortpaar

Page 31: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 32

Evaluationsphase III – Berechnung semantischer Nähe

An

zah

l der

Be

we

rtun

gen

Page 32: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 33

Evaluationsphase III – Berechnung semantischer Nähe

An

gab

e d

er

Äh

nlic

hke

it

Wort-Paare geordnet entsprechend ihrer Ähnlichkeitswerte

Human Judgement Resnik

Page 33: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 34

Evaluationsphase III – Berechnung semantischer Nähe

• Korrelation zwischen Human-Judgement und Ähnlichkeitsmaßen verhältnismäßig gering!

• Offene Fragen:– Müssen Ähnlichkeitsmaße überhaupt kontinuierlich

sein?– Welche Merkmale (z.B. bzgl. GermaNet) müssten

zusätzlich in der Berechnung von semantischer Ähnlichkeit berücksichtigt werden?

– Wie interagiert die Qualität der Ähnlichkeitsmaße mit der Disambiguierungsqualität des Chainers?

– Kann man die GermaNet und Google basierten Maße sinnvoll, vor allem gewinnbringend, miteinander verbinden?

Page 34: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 35

Evaluationsphase IV – Anwendungsorientierte Evaluation

Page 35: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 36

Evaluationsphase IV – Anwendungsorientierte Evaluation

Page 36: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 37

Evaluationsphase IV – Anwendungsorientierte Evaluation

Themenbezeichner für ersten Abschnitt

daraus: Themenkarte

Page 37: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 38

Evaluationsphase IV – Anwendungsorientierte Evaluation

• Erste Evaluationsergebnisse zeigen, dass– die manuelle Annotation von Themenkarten und

Themenbezeichner möglich ist,– lexikalische Ketten in der Regel einen wichtigen Hinweis für

Themenbezeichner darstellen,– es allerdings Abschnitt gibt, in denen das Thema nicht durch

einen Themenbezeichner repräsentiert werden kann,– neben den lexikalischen Ketten weitere Merkmale nötig sind.

• In Arbeit: – Umfangreichere Annotationen von Evaluationsdaten für

Evaluationsphase IV ( Gold Standard) – Systematische Evaluation anhand dieses Gold Standards– Ermittlung weiterer Merkmale für die Berechnung von

Themenbezeichnern bzw. Themenkarten

Page 38: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

Vielen Dank!

Page 39: Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 40

Literatur• Alexander Budanitsky and Graeme Hirst. 2001. Semantic distance in

wordnet: An experimental, application-oriented evaluation of five measures. In Workshop on WordNet and Other Lexical Resources at NAACL-2000, Pittsburgh, PA, June 2001.

• M. A. K. Halliday und Ruqaiya Hasan. 1976. Cohesion in English. Longman, London.

• Graeme Hirst und David St-Onge. 1998. Lexical chains as representation of context for the detection and correction malapropisms. In C. Fellbaum, editor, WordNet: An electronic lexical database, chapter 13, pages 305–332. The MIT Press, Cambrige, MA.

• Alexander Mehler. 2005. Lexical chaining as a source of text chaining. In Proceedings of the 1st Computational Systemic Functional Grammar Conference, Sydney.

• Grogory H. Silber und Kathleen F. McCoy. 2002. Efficiently computed lexical chains as an intermediate representation for automatic text summarization. Computational Linguistics, 28(4):487 – 496.

• Irene Cramer und Marc Finthammer. An Evaluation Procedure forWord Net Based Lexical Chaining: Methods and Issues. Angenommen für die Global WordNet Conference im Januar 2008 in Szeged, Ungarn.