Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur

Zur automatischen Generierung von

Themenkarten für Fachtexte

Irene Cramer, Marc Finthammer und Angelika Storrer

Institut für deutsche Sprache und LiteraturUniversität Dortmund

15/10/07 Institut für deutsche Sprache und Literatur – Universität Dortmund 2

Inhaltsübersicht

• Motivation und Projektkontext

• Lexikalische Ketten als Basis für Berechnung bzw. Visualisierung thematischer Strukturen

• Experimente zur Qualität lexikalischer Ketten– Abdeckung des Systems– Disambiguierungsqualität– Berechnung semantischer Nähe– Anwendungsorientierte Aspekte


Projektkontext

• Projekt HyTex:HyTex: „HyHypertextualisierung auf textextgrammatischer Grundlage“; Teilprojekt der DFG-Forschergruppe Texttechnologische Informations-modellierung

• Hypertextualisierung …Hypertextualisierung …Aufbereitung von linear organisierten Dokumenten für die selektiven, interaktiven Nutzungsformen in einem Hypertextsystem.

• … … auf textgrammatischer Grundlageauf textgrammatischer Grundlagekeine einfache 1:1-Konversion, sondern Erzeugung von Hypertextsichten auf der Basis textgrammatischer Annotationen, die die Vorteile (Mehrwerte) von Hypermedien bei der selektiven Lektüre ausschöpfen.


Miguel de Cervantes Saavedra Geboren am 29.09.1547 in Alcalá de Henares, gestorben am 23.04.1616 in Madrid.

Kindheit und Jugend Miguel de Cervantes Saavedra wurde 1547 in Alcalá de Henares als viertes von sieben Kindern einer verarmten Adelsfamilie (Hidalgo) geboren. Seit Vater war vermutlich Arzt und lebte mit seiner Familie in verschiedenen Städten ( Valladolid, Córdoba, Sevilla, Madrid). Cervantes studiert in Salamanca und Madrid Theologie und fällt schon in seiner Jugend durch seine außerordentliche literarische Begabung auf. 1569 geht er als Kammerdiener mit dem Kardinal Giulio Acquaviva nach Rom, vermutlich nicht zuletzt, weil gegen ihn wegen der Verletzung eines Gegners im Duell ein königlicher Haftbefehl erlassen wird, in dem der Verlust der rechten Hand und zehnjährige Verbannung, also sehr schwere Strafen, angedroht werden.Im Alter von 22 Jahren verpflichtete er sich als Soldat im spanischen Heer und nimmt an der Seeschlacht von Lepanto (1571) teil, in der Juan de Austria gegen die Türken unter Selim II. kämpfte. Er trägt eine schwere Verwundung an der linken Hand davon, die ihm den Namen "el manco"/"Der Einarmige" einbrachte. Dennoch nahm er an weiteren Kriegszügen teil.

Literarisches SchaffenSein Wunsch, vom Schreiben von Theaterstücken leben zu können, erfüllte sich nicht und so verdingt er sich von 1580 bis 1583 wieder als Soldat, unter anderem bei dem König von Portugal. Im Jahre 1584 erscheint sein erster Roman in Prosa, "La primera parte de la Galatea", ein Schäferroman, der dem damaligen Zeitgeschmack entsprach.Mit 37 Jahren heiratet er, aber seine Ehe wird nicht glücklich. Er wird Agent, Kaufmann und gewinnt schließlich in Sevilla einen Beamtenposten als Aufkäufer und Lieferant für die spanische Kriegsflotte, die Armada. Nach mißlungenen Geschäften landet er 1597/98 und 1602 in Schuldhaft, während der er an seinem großen Roman Don Quijote zu schreiben beginnt. 1604 geht er nach Valladolid, wo er sich schuldlos in einen Mordprozeß verwickelt sieht. Nach dem Beweis seiner Unschuld kehrt er nach Madrid zurück und veröffentlicht 1605 den ersten Band des Don Quijote. Cervantes erreicht schnell öffentliche Berühmtheit, aber der Gewinn aus seinem Werk blieb in den Händen des Verlegers und der Nachdrucker. In Einsamkeit und Armut entwickelt er eine große literarische Aktivität und veröffentlicht 1615 den zweiten Band des Don Quijote.

Miguel de Cervantes Saavedra stirbt 1616 in Madrid.

Thematische Strukturen

xxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx










Inhalt

Kapitel 1

Kapitel 2

Kapitel 2.1

…

Kapitel n

GlossarGlossar

Eintrag 1 ….Eintrag 2 ……Eintrag n …

DefinitionDefinitionDef. 1: …










Inhalt

Kapitel 1 Themenbezeichner

Kapitel 2 Themenbezeichner

Kapitel 2.1 Themenbezeichner 1 und 2

…

Kapitel n Themenbezeichner


• Erweiterung des Prototyps aus Phase I (vgl. www.hytex.info) u.a. um Themenkarten

• Themenkarte:Themenkarte:– ausgehend von Themenketten bzw. lexikalischen

Ketten– thematisch motivierte Verlinkung von Themen-

bezeichnern– Darstellung als Themenkarte (~thematischer Index)

• Idee: Verbesserung der Orientierung für Rezipient


http://www.hytex.info/


Inhaltsübersicht





Lexikalische Ketten – Beispiel

Jan saß am Fuß einer großen Weide um sich auszuruhen. Er war sehr müde und schlief daher nach kurzer Zeit ein; ein Blatt fiel auf ihn und dann noch eins und noch eins… und nach kurzer Zeit war er über und über mit Blättern bedeckt: gelbe, rote und braune.













Kette1: sitzen – ausruhen – müde – einschlafenKette2: Weide – Blatt – Blättern


Lexikalische Ketten

• Entspricht partieller Textrepräsentation,• eingeführt von Halliday & Hasan (Cohesion in English,

1976),• technisch zuerst realisiert in CoLi durch Hirst & StOnge

(1998) für englische Text,• nützlich für verschiedene Anwendungen:

– Textzusammenfassung, Dialogmodellierung etc.

• u.W.n. bisher nur zwei Systeme für deutsche Texte, mit Unterschieden in Methodenwahl und Ressourcen – Mehler (2006)– Cramer & Finthammer (2007)– sowie umfangreiche Arbeiten zur semantischen Nähe I.

Gurevych et. al.


Lexikalische Ketten

Berechnung von ThemenkartenThemenkarten:

Wähle Themenbezeichner pro Modul –

Merkmale für die Auswahl – starke, lange lexikalische Ketten enthalten

Themenbezeichner– Häufigkeit, Position im Text, Markup – …


Berechnung lexikalischer Ketten

Module unseres Chainers GLexi:

– Vorverarbeitung der Texte Ergebnis: Chainkandidaten

– Chainer-Kernmodul – semantische Suche (in GermaNet) Ergebnis: Meta-Chains

– Ausgabeerzeugung Ergebnis: z.B. visuelle Darstellung oder XML Ausgabe






Performanzbewertung der Ketten

• Qualitätsbewertung der Ketten: Evaluations-daten notwendig

• Unser erster Gedanke: manuelle Annotation von Korpus

• 3 Experimente zur manuellen Annotation– Experiment 1: manuelle Annotation lexikalischer

Ketten– Experiment 2: lexikalische Relationen für

Kettenkandidaten in GermaNet ermitteln– Experiment 3: lexikalische Ketten als Mindmaps


Performanzbewertung der Ketten

• Ergebnis der Experimente: manuelle Annotation mit annehmbarem Inter-Annotator Agreement unrealistisch

• Beobachtung deckt sich mit veröffentlichten Ergebnissen für englische Daten

• Unser Vorschlag: Evaluiere Performanz des Systems auf allen relevanten Ebenen separat:

– Abdeckung der Ketten (Phase I)– Disambiguierungsqualität (Phase II)– Qualität der Berechnung semantischer Nähe (Phase III)– Anwendungsorientierte Evaluation (Phase IV)


Inhaltsübersicht





Evaluationsphase I – Abdeckung

• Ohne Vorverarbeitung deckt GermaNet ca. 56 % aller Substantive in unserem Fachkorpus ab

• Umfassende Vorverarbeitung notwendig!

ca. 29.000 Substantivtokens in unsere Fachtextkorpus gliedern sich in

56 % in GermaNet 44 % nicht in GermaNet enthalten, davon

15 % flektiert 12 % Komposita 17 % kleinere Klassen nicht abgedeckten Materials



• Anders als im Englischen:– 4 Fälle + Singular/Plural– Komposita = ein Wort!

• Verbesserung durch Vorverarbeitung:– Abdeckung durch Lemmatisierung von ca. 56% auf 71%

verbessert– Abdeckung durch Kompositazerlegung von ca. 71% auf 83%

verbessert

• Offene Punkte u.a.: – Daten Datum bzw. Medien Medium– Datenbankbenutzerschnittstelle Benutzerschnittstelle oder

Schnittstelle? (Disambiguierungsqualität sinkt!)



• Eigennamen– einfacher statistischer Ansatz; bisher nur klassische Typen

• Offen:– Abkürzungen und fremdsprachliche Fachbegriffe

einfacher statistischer Ansatz wie bei Eigennamen denkbar und Erweiterung der semantische Ressource

– Nominalisierte Verben (das Administrieren, das Pflegen etc.) Vorgehen unklar

kleiner Klassen nicht abgedeckten Materials gliedern sich in

15 % EN 30 % Fremdwörter 25 % Abkürzungen 20 % nom. Verben


Evaluationsphase II –Disambiguierung

• Ca. 45 % der Wörter in unserem Korpus in mehr als einem synset

für diese mehrere Lesarten möglich (Bank – Geldinstitut, Sitzgelegenheit …)

• Grundlage für Evaluation der Disambi-guierungsperfomanz: manuell annotierte Daten



• pro verwendetes semantisches Maß berechne Rang- ordnung

• vergleiche diese Rangordnung mit manuell annotierten Daten

Wort A Wort B Bedeutung 1 Bedeutung 2 Wu-Palmer Rang

Text Hypertext

Text Hypertext

1 1

2 1

0,9231

0,8333

1

2

Manuell annotierte Bedeutungen

Text Hypertext 1 1

Bester Wert des Wu-Palmer-Ähnlichkeitsmaßes (= Rang 1) liefert die korrekten Angaben für Bedeutung von Wort 1 und 2 (Bedeutung1 = 1 und Bedeutung 2 = 1)



• Für die 3 besten Maße (Resnik, Wu-Palmer und Lin) gilt:– nur ca. 50-60 % korrekte Disambiguierung– durch majority-vote: Disambiguierungsqualität auf ca. 63-65 % – Information Content basierte Herangehensweise: keine

Verbesserung möglich

• insgesamt mittelmäßige Perfomanz – allerdings: Vergleich mit WSD nicht sinnvoll

• Verbesserungsmöglichkeit:– Meta-Chaining (ähnlich Silber/McCoy, 2002) und eigenes Maß

basierend auf Maschinellem Lernen


• Implementierung von insgesamt 11 Ähnlichkeits-maßen:– 8 basierend auf GermaNet, – 3 basierend auf Google-Kookurrenz-Werten

• Evaluation diese Maße mit Hilfe der Ergebnisse eines Human-Judgement Experiments:– Liste von Substantiv-Paaren– Bewertung dieser Paare hinsichtlich semant. Nähe

durch 35 Versuchspersonen– Berechnung der Korrelation zwischen Human-

Judgement und den Werten der 11 Ähnlichkeitsmaße

Evaluationsphase III – Berechnung semantischer Nähe



Wortpaar



Wortpaar



An

zah

l der

Be

we

rtun

gen



An

gab

e d

er

Äh

nlic

hke

it

Wort-Paare geordnet entsprechend ihrer Ähnlichkeitswerte

Human Judgement Resnik



• Korrelation zwischen Human-Judgement und Ähnlichkeitsmaßen verhältnismäßig gering!

• Offene Fragen:– Müssen Ähnlichkeitsmaße überhaupt kontinuierlich

sein?– Welche Merkmale (z.B. bzgl. GermaNet) müssten

zusätzlich in der Berechnung von semantischer Ähnlichkeit berücksichtigt werden?

– Wie interagiert die Qualität der Ähnlichkeitsmaße mit der Disambiguierungsqualität des Chainers?

– Kann man die GermaNet und Google basierten Maße sinnvoll, vor allem gewinnbringend, miteinander verbinden?


Evaluationsphase IV – Anwendungsorientierte Evaluation





Themenbezeichner für ersten Abschnitt

daraus: Themenkarte



• Erste Evaluationsergebnisse zeigen, dass– die manuelle Annotation von Themenkarten und

Themenbezeichner möglich ist,– lexikalische Ketten in der Regel einen wichtigen Hinweis für

Themenbezeichner darstellen,– es allerdings Abschnitt gibt, in denen das Thema nicht durch

einen Themenbezeichner repräsentiert werden kann,– neben den lexikalischen Ketten weitere Merkmale nötig sind.

• In Arbeit: – Umfangreichere Annotationen von Evaluationsdaten für

Evaluationsphase IV ( Gold Standard) – Systematische Evaluation anhand dieses Gold Standards– Ermittlung weiterer Merkmale für die Berechnung von

Themenbezeichnern bzw. Themenkarten

Vielen Dank!


Literatur• Alexander Budanitsky and Graeme Hirst. 2001. Semantic distance in

wordnet: An experimental, application-oriented evaluation of five measures. In Workshop on WordNet and Other Lexical Resources at NAACL-2000, Pittsburgh, PA, June 2001.

• M. A. K. Halliday und Ruqaiya Hasan. 1976. Cohesion in English. Longman, London.

• Graeme Hirst und David St-Onge. 1998. Lexical chains as representation of context for the detection and correction malapropisms. In C. Fellbaum, editor, WordNet: An electronic lexical database, chapter 13, pages 305–332. The MIT Press, Cambrige, MA.

• Alexander Mehler. 2005. Lexical chaining as a source of text chaining. In Proceedings of the 1st Computational Systemic Functional Grammar Conference, Sydney.

• Grogory H. Silber und Kathleen F. McCoy. 2002. Efficiently computed lexical chains as an intermediate representation for automatic text summarization. Computational Linguistics, 28(4):487 – 496.

• Irene Cramer und Marc Finthammer. An Evaluation Procedure forWord Net Based Lexical Chaining: Methods and Issues. Angenommen für die Global WordNet Conference im Januar 2008 in Szeged, Ungarn.

Documents

Zur automatischen Generierung von Themenkarten für Fachtexte Irene Cramer, Marc Finthammer und Angelika Storrer Institut für deutsche Sprache und Literatur