27
WS 05/06 Automatische Akquisition linguistischen Wissens 1 Automatische Akquisition linguistischen Wissens 1. Was genau sind Redewendungen? 2. Wozu sind sie gut? 3. Wie kann man sie erkennen? Wie könnte man ein Programm schreiben, welches sie erkennt? Wie erkennt man, wie viele man schon gefunden hat? 4. Referat

WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

Embed Size (px)

Citation preview

Page 1: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 1

Automatische Akquisition linguistischen Wissens

1. Was genau sind Redewendungen?

2. Wozu sind sie gut?

3. Wie kann man sie erkennen?

Wie könnte man ein Programm schreiben, welches sie erkennt?

Wie erkennt man, wie viele man schon gefunden hat?

4. Referat

Page 2: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 2

1. Kollokationen, Redewendungen

Opake Bedeutungskombination:

• mit Kind und Kegel, zwischen den Zeilen, das A und O

Metaphorisch:

• ein Dorn im Auge, Hals über Kopf, Sturm der Entrüstung

• einen Strich durch die Rechnung, auf Teufel komm raus

Frequenzbasiert:

• sage und schreibe, wie durch ein Wunder

• zu guter Letzt, jetzt erst recht, Weg nach oben

Fraglich:

• bei weitem nicht, Druck von außen, aus welchen Gründen auch immer

Page 3: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 3

1.1. Verschiedene Definitionen

Firth 1957• collocation – consistent co-occurrence of a word pair within a given

context …• Meaning by collocation is an abstraction at the syntagmatic level and

is not directly concerned with the conceptual or idea approach to the meaning of words Firth 1957:

Benson, Benson and Ilson 86• Grammatical and lexical collocations

– A grammatical collocation is a phrase consisting of a dominant word (noun, adjective, verb) and a preposition or grammatical structure such as an infinitive or a clause

• account for, adjacent to, an oath that, …– Lexical collocations consist of lexical elements with strong dependencies

between them and without the possibility of exchanging any of the elements.

• to beat about the bush, aber nicht to beat around the bush

Page 4: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 4

1.2. Weitere relevante Definitionen

Harris 68

• The structure of language can be found only from the non-equiprobability of combination of parts. This means that the description of a language is the description of contributory departures from equiprobability, and the least statement of such contributions (constraints) that is adequate to describe the sentences and discourses of the language is the most revealing.

Choueka 88

• A collocation is defined as a sequence of two or more consecutive words, that has characteristics of a syntactic and semantic unit, and whose exact and unambiguous meaning cannot be derived directly from the meaning or connotation of its components

Page 5: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 5

1.3. Taxonomien von Kollokationen

Gebräuchlichste Taxonomien:

• Einteilung in Wortarten der beteiligten Wörter– Adjektiv-Nomen

• Der rote Politiker

– Verb-Verb

• gehüpft wie gesprungen

– Verb-Nomen Verbindungen idiomatischen Charakters

• Eins hinter die Löffel bekommen

• Einteilung in Art der Kollokation– Grammatisch, lexikalisch

• Einteilung in Art der Extraktion– Frequenzbasiert, opak, metaphorisch

Page 6: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 6

1.4. Eigenschaften

Das Auftreten von Redewendungen hat unter anderem folgende Eigenschaften:

• (häufiges) gemeinsames Auftreten von lexikalischen Einheiten

• Syntaktische Einheiten– Wenn .. dann

• Semantische Einheiten– Katz und Maus

• Semantische Irregularitäten– Im Stich gelassen

• Syntaktische Rigidität (Armut)– *über dem Stich gelassen

Page 7: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 7

1.5. Weitere Eigenschaften

• Redewendungen können syntaktisch komplett fix sein– Sie spielten Katz und Maus

• Oder flexibel– Er fühlte sich im Stich gelassen. – Sie liess ihn im Stich

Syntaktische Restriktionen korrelieren mit dem Grad der Lexikalisierung der Redewendungen, bzw. der Wortkombination

Häufiger Gebrauch von Redewendungen kann auch zu Verkürzungen und „Verwortlichung“ führen: – nichts desto trotz (356,000)– → nichtsdestotrotz (1,290,000)– und später vielleicht nichtstotrotz (0)? – Oder eher nichtsdetrotz (60)!

Page 8: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 8

1.6. Zusammenfassung

• Es gibt Definitionen, die von Redewendungen als Nähe von lexikalischen Einheiten reden

• Es gibt Definitionen, die von syntaktischen oder semantischen Einheiten, bzw. semantischen Irregularitäten reden

Terminologie

• Idiome: speziell in Englischer Literatur (Katz 62)

• Phraseologische Einheiten: vorrangig in Deutscher Literatur (Burger et al. 82, Fleischer 82)

• Multiwort Lexeme, Multiwort Ausdrücke, non-compositional compounds eher aus der computational linguistics

• Collocation von Lexikographen

Page 9: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 9

2. Anwendungen

• Allgemeine (z.B. syntaktische) Sprachverarbeitungsysteme– Diverse Sorten von Redewendungen sind syntaktische oder

semantische Anomalien, die mit normalen Regeln nicht erklärbar oder generierbar sind

• Maschinelle Übersetzung– Damit nicht „to beat about the bush“ mit „über den Bush

schlagen“ übersetzt wird.

• Didaktik, Fremdsprachunterricht– Damit Ausländer vor allem die opaken Redewendungen lernen

• Werbeindustrie– Nur Sprüche, die natürlich und einprägsam sind (Geiz ist geil)

verbleiben im Bewusstsein der Zielgruppe– Allerdings müssen es gleichzeitig neue Sprüche und einprägsame

sein (Damit ist das eine Anomalie, weil Geiz und geil traditionell eher antonymisch sind)

Page 10: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 10

2.1. Speicher/Ausgabeformate

• Für manche Zwecke muss möglichst viel explizite Information vorliegen– Welcher Art (nach welcher Taxonomie) die Redewendung ist– Welches variable, welches fixe Teile sind– Mögliche vs. unmögliche Modifikationen

• „To beat about the bush“ und „to mightily beat about the bush“ aber nicht „to beat about the green bush“

• Für andere Zwecke genügt reine Liste– Um die Elemente einer Redewendungen nicht als einzelne Wörter

z.B. beim Kookkurrenzzählen zu berücksichtigen, sondern die Gesamtformulierung als solche

– Um Qualität des Textes messbarer zu machen

• Allerdings wie sieht Eintrag für syntaktisch komplexe Redewendung in einfacher Liste aus?

Page 11: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 11

3. Extraktionsmethoden

• Vorgehen weitgehend einheitlich:– Textkorpus zusammenstellen– Verschiedene Mittel anwenden, um Kandidaten zu finden

• global – es wird versucht, eine gerankte Liste von besten Kandidaten herzustellen

• lokal – es wird für jedes Wort untersucht, mit welchen anderen es möglicherweise in einer Redewendung steht

– Kandidaten per manuelle Arbeit oder Algorithmen unifizieren „er ließ mich im Stich“ = „er lässt mich im Stich“ = …

– Kandidaten per manuelle Arbeit verifizieren

• Unterschiede vor allem durch folgende Faktoren:– Größe und Qualität des Korpus– Herangehensweise: global oder lokal und welches Maß jeweils– Unifizierung: von gar keine bis manuelle

Page 12: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 12

3.1. Globale Extraktion

• Kookkurrenzmessungen welche Wörter miteinander auffällig oft vorkommen, dabei– Nur die Paare auswählen, die in Frage kommen (N+V, Subj.+V,

…)

– die am höchsten bewerten, welche am auffälligsten miteinander vorkommen

• Was bedeutet auffällig?– Dazu mehrere Herangehensweisen mit steigender Komplexität

– Einfluß der sehr häufigen Wörter muss nach Möglichkeit ausgeblendet werden (ohne dabei Wörter wie Haus auszublenden, die auch sehr häufig sind)

– Verwendung unterschiedlicher Maße

Page 13: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 13

3.1.1. Einfluss des Zipfschen Gesetzes

• Wortfrequenzen sind bekanntermaßen entsprechend dem Zipfschen Gesetz verteilt:

• Daraus folgt, dass die meisten „interessanten“ Wörter recht selten vorkommen– Unterschied zwischen 5 oder 7 Mal miteinander vorgekommen

kann bedeutsam sein (auch so, dass die 5 wichtiger ist

• Wie hoch ist Wahrscheinlichkeit, dass zwei zufällig gewählte Wörter mit Frequenzen A und B insgesamt C mal miteinander vorkommen in einem N großen Korpus?

Page 14: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 14

3.1.2. Zipfsches Gesetz

• Ordnet man die Wortformen eines Textes absteigend nach ihrer Häufigkeit, so lässt sich folgende von Zipf formulierte Gesetzmäßigkeit erkennen:

• Der Rang einer Wortform innerhalb der Liste multipliziert mit ihrer Häufigkeit ist in etwa konstant (vgl. Zipf 1935).

10 100 1.000 10.000

10

100

1.000

r

n

hebut

be

friendsfamily

knr

Page 15: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 15

3.2. Lokale Extraktion

• Im Gegensatz zur globalen Extraktion wird hier für jedes Wort einzeln untersucht, in welchen Konstruktionen es als Redewendung verwendet wird– Vorteile sind vor allem, dass evtl. wesentlich mehr gefunden wird

– Nachteile sind, dass auch viel Rauschen entstehen kann, weil bei weitem nicht jedes Wort in einer Redewendung vorkommt

• Es wird also zusätzlich ein Mechanismus benötigt, welcher entscheidet, ob ein Wort überhaupt in Redewendungen vorkommt

Page 16: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 16

3.3. Kontingenztabelle

Wenn das Vorkommen von A und B unabhängig sind, müssten folgende Bedingungen alle auf einmal gelten:

1. p(A,B)=p(A)ּp(B)

2. p(¬A,B)=p(¬A)ּp(B)

3. p(A,¬B)=p(A)ּp(¬B)

4. p(¬A,¬B)=p(¬A)ּp(¬B)

A AB

B

ABf AB n

A ABf A B n n Af A n

B ABf AB n n

A B ABf A B n n n n

Af A n n

Bf B n

Bf B n n

Page 17: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 17

3.3.1. Frequenzen und Signifikanzen

• Die Bedingungen, umgeformt in Frequenzen, ergeben die gleiche Forderung:

p(A,B)=p(A)ּp(B), also

nAB=(nAּnB)/n

• Für die meisten „interessanten“ Fälle wird diese Bedingung nicht eingehalten

• Die Frage lautet dann, um wie viel – somit würde ein Ranking nach „Interessantheit“ möglich

• Bekanntestes Maß Mutual Information (MI) berechnet genau diesen Quotienten:

sigMI(A,B)=log2(p(A,B)/(p(A) ּ p(B)))=log2((nּnAB)/(nAּnB))

Page 18: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 18

3.3.2. Was wird gemessen?

• Gemeinsames Vorkommen kann direkt nebeneinander, in einem Fenster oder im Satz (usw.) gemessen werden

• Für manche Redewendungen am besten direkt nebeneinander– Feste, starre Konstruktionen (Mann und Maus)

• Für andere im Fenster oder Satz– Bei variablen Konstruktionen (Im Stich …)

Page 19: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 19

3.3.3. Testalgorithmus (von Prof. Quasthoff)

• Iterationsprozess, in jedem Schritt:– Definiere alle Paare von Wörtern als Wortgruppen, die gewissen Mindestfrequenz

(10) und Mindestsignifikanz (10, log-likelihood) aufweisen– Iteriere so lange, wie neue Wortgruppen entstehen

• 13 | gibt es nach wie vor• 13 | einen Tag der offenen Tür• 11 | Tag der offenen Tür im• 30 | nicht von heute auf morgen• 18 | der Gewerkschaft Erziehung und Wissenschaft• 27 | Die Gewerkschaft Erziehung und Wissenschaft• 16 | die Gewerkschaft Erziehung und Wissenschaft

– Oder auch für einzelne Wörter betrachtet:• 53 | allein gelassen• 26 | außer acht gelassen• 82 | im Stich gelassen• 10 | zu Wasser gelassen• 39 | hinter sich gelassen

Page 20: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 20

3.4. Variierende Zielstellungen

• Für viele Sorten expliziter Extraktion wie Verb-Nomen, Adjektiv-Nomen usw. Tagger bzw. getaggter Korpus notwendig

• Soll Ergebnis nur als Blacklist genutzt werden oder soll ein von Menschen benutzbares Nachschlagewerk entstehen?

• Sollen nur die gebräuchlichsten und wichtigsten gefunden werden oder möglichst alle?

• Wie hoch ist Annotierungsüberdeckung beim Menschen?

Page 21: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 21

3.5. Probleme

• Redewendungen bestehen oft nicht nur aus zwei Hauptwörtern wie „Stich“ und „lassen“, sondern auch aus festen Beiwörtern, in diesem Fall „im“

• Ansatz mit Signifikanzmessung lässt sich nicht ohne weiteres von 2 beteiligten Wörtern auf 3 oder mehr verallgemeinern

• Evtl. auch nicht notwendig:– Wenn A und B in einer Redewendung sind, sowie auch A und C,

ist vermutlich ABC eine Redewendung.• Tritt B und C miteinander auf?

– Stich ließ 31 - fühlte gelassen 13– Stich fühlte 21 - ließ fühlte 34– Stich gelassen 56 - ließ gelassen 0

• Fazit: Stich, fühlen und lassen bilden wahrscheinlich eine Redewendung, allerdings nicht z.B. Stich, lassen, lassen

Page 22: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 22

3.5.1. Probleme mit Frequenzen

• Oft sind Funktionswörter wie „und“ in „Katz und Maus“ fester Bestandteil der Redewendungen

• Auf der anderen Seite können auch sehr seltene Wörter in Redewendungen vorkommen oder aber Wörter, deren Hauptbedeutung(en) (eine) andere ist:– über den Jordan: Frequenz 4693

Kookkurrenzen von Jordan:

Williams Frentzen Vernon Air Ferrari Bulls Benetton Mejias Michael Sauber BAR NBA McLaren-Mercedes Arrows Wizards McLaren Frentzens Jörg-Uwe Konstrukteurswertung Team Minardi Saison Abdulateef Mittelmeer

Page 23: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 23

3.6. Unifizierung

• „Ich fühle mich im Stich gelassen“ und „ließ ihn im Stich“

• „Auf alle Fälle“ ist es das gleiche wie „Auf jeden Fall“

Mögliche Hypothesen:

• Vielleicht ein Kern mit optionalen Modifizierern und Konnektoren an Kontexte?

• Vielleicht je zwei verschiedene Redewendungen?

• Vielleicht Begriff von Redewendung inhärent unscharf?

Page 24: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 24

3.6.1. Unifizierung durch Kernwörter

• Bei vielen Redewendungen lassen sich Kernwörter identifizieren (Im Stich gelassen fühlen)

• Durch Grundformreduzierung können morphologische Varianten reduziert werden– Im Stich gelassen fühlen → Stich, lassen, fühlen

– fühlte sich im Stich gelassen → fühlen, Stich, lassen

– ließ ihn im Stich → lassen, Stich

– …

• Fazit: Zwei Redewendungen– Stich, lassen, fühlen

– lassen, Stich

• Weiter unifizieren?

Page 25: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 25

3.6.2. Manuelle Unifizierung

• Manuelle Unifizierung kann unterstützt werden– Belegstellenanzeige

– Zusammensortierung vermuteter Unifizierungskandidaten

• Durch Grundformreduzierung

• Clustering (siehe auch Berechnung ähnlicher Wörter)

• Editierabstand

• Problem, wenn kein Kern erkennbar:– so weit so gut

– nichts desto trotz

• Evtl. für diese globaler Ansatz besser geeignet (nur aufgrund hoher Frequenz nicht mit Mutual Information)

Page 26: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 26

Referat

• Evert, Krenn papers

• Weiterführung des Themas „verschiedene Masse“, konkret – t-score,

– Vergleich frequency zu anderen,

– log-likelihood,

– Chi-Square test

– Mutual Information

– (ESSLLI Foliensätze 1-5 und Krenn_Evert_2001.pdf)

• Evaluierungsmethoden (Evert_Krenn_2001.pdf)

• nicht notwendig auf Tagging einzugehen

• Vorführen: Ergebnisse von zwei verschiedenen Maßen auf Testkorpus ohne Unifizierung oder Tagging (bzw. freiwillig)

Page 27: WS 05/06Automatische Akquisition linguistischen Wissens1 1.Was genau sind Redewendungen? 2.Wozu sind sie gut? 3.Wie kann man sie erkennen? Wie könnte man

WS 05/06 Automatische Akquisition linguistischen Wissens 27

Quellen

1. www.collocations.de

2. http://wortschatz.uni-leipzig.de/html/infos/info_104.html