47
KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Ko rpusbasierte K ollokationss uche

KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

Embed Size (px)

Citation preview

Page 1: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

KOKS - Präsentation

Studienprojekt: KOKS WS2000-SS2001 Britta Koch

Korpusbasierte Kollokationssuche

Page 2: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

Studienprojekt KOKSStudienprojekt: KOKS WS2000-SS2001 Britta Koch 1/3

• im Rahmen des Studiengangs

ComputerlinguistikundKünstliche Intelligenz

• Dauer: ein Jahr

Page 3: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

Studienprojekt KOKSStudienprojekt: KOKS WS2000-SS2001 Britta Koch 2/3

• Teilnehmer:• Arno Erpenbeck• Britta Koch• Norman Kummer• Philip Reuter• Patrick Tschorn• Joachim Wagner

• beratend beteiligt:• Helmar Gust• Petra Ludewig

Page 4: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

Programm der PräsentationStudienprojekt: KOKS WS2000-SS2001 Britta Koch 3/3

1. Motivation

2. Inhaltliche Grundlagen

3. Funktionalität

4. Demo-Applikation

Pause

5. Architektur

6. Arbeitsplan

7. Ausblick

8. Diskussion

Page 5: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

1. Motivation

Studienprojekt: KOKS WS2000-SS2001 Patrick Tschorn

Page 6: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

MotivationStudienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 1/7

Eine verbreitete Annahme:

Die Bedeutung von Sätzen läßt sich kompositionell aus den Bedeutungen der einzelnen Wörter ablesen.

Ich habe einen Bekannten besucht und bin nach Hause gefahren.

Page 7: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

MotivationStudienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 2/7

Aber:Der Hund meines Bekannten hat ins Gras gebissen.

Das kompositionelle Vorgehen scheitert.

• Trotzdem ist jedem die Bedeutung klar.

Halt! Nicht-Muttersprachlern kann dieser Satz erhebliche Verständnisprobleme bereiten.

Page 8: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

MotivationStudienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 3/7

Beispiele:

• The man who used to clean the walls at the factory kicked the bucket last week.

• I screwed things up.

• She got her feet wet.

• Mabel has a bun in the oven.

• Brian was pie eyed when we got to the party.

Page 9: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

MotivationStudienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 4/7

Das Projektziel:

Erstellung eines Tools, das:

• nicht kompositionell erschließbare Sätze erkennt

• z.B. passende Verständnishilfen anbietet

Page 10: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

MotivationStudienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 5/7

Probleme:

• Weltwissen

• tiefe linguistische Analyse

• Semantik

Page 11: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

MotivationStudienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 6/7

Unser Ansatz stützt sich auf:

• vorhandene Wörterbücher

• in mehreren Sprachen vorliegende Texte

Die Übersetzungen einer Phrase spielen dabei die Rolle der Semantik.

Page 12: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

MotivationStudienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 7/7

Beispiel:

Deutsch Englisch

Das Kind fiel ins Wasser. The child fell into the water.

Die Party fiel ins Wasser. The party was called off.

Page 13: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

2. Inhaltliche Grundlagen

Studienprojekt: KOKS WS2000-SS2001 Philip Reuter

Page 14: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

Inhaltliche GrundlagenStudienprojekt: KOKS WS2000-SS2001 Philip Reuter 1/10

• Kollokation

• Paralleler Korpus

• Alignment

Page 15: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

Inhaltliche GrundlagenStudienprojekt: KOKS WS2000-SS2001 Philip Reuter 2/10

Beispiele (1)

• Leider ist die Party ins Wasser gefallen.

• Hans hat an Maria einen Narren gefressen.

• Du gehst mir ganz schön auf den Wecker!

• Peter ist ein starker Raucher.

• Hans ist ein guter Esser.

Page 16: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

Inhaltliche GrundlagenStudienprojekt: KOKS WS2000-SS2001 Philip Reuter 3/10

Beispiele (2)

• Der Kanzler hielt auf dem Gewerkschaftertreffen neine bemerkenswerte Rede.

• Wir warten lieber, bis sein Zorn verraucht ist.

• Du solltest mal deine Schuhe zumachen.

• Hast Du schon Deine Zähne geputzt?

Page 17: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

Inhaltliche GrundlagenStudienprojekt: KOKS WS2000-SS2001 Philip Reuter 4/10

Das Phänomen "Kollokation“• Kombinationen von zwei oder mehr Wörtern betrachten

• irgendwo zwischen "freier Kombination“ und "Idiom“

• freie Kombination:• Bestandteile beliebig austauschbar, erweiterbar• Beispiel: Am Bahnhof wird ein Parkhaus gebaut.

• Idiom:• sehr starre Kombination, nicht erweiterbar• Beispiel: Hans hat an Maria einen Narren gefressen.

Page 18: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

Inhaltliche GrundlagenStudienprojekt: KOKS WS2000-SS2001 Philip Reuter 5/10

Definitionsmöglichkeiten• semantisch:

• Kombination durch Bedeutungsverwandschaft• Beispiel: Hund und bellen

• syntaktisch:• bestimmte syntaktische Kombinationen• Beispiel: V+N: Politik betreiben

Adj+N: ein schwerer Unfall V+Adv: verbissen kämpfen

• statistisch:• Häufigkeitskriterien als Indikator

Page 19: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

Inhaltliche GrundlagenStudienprojekt: KOKS WS2000-SS2001 Philip Reuter 6/10

Zum statistischen Kollokationsbegriff• Idee: Kollokationspartner häufig mit bestimmten Wörtern kombiniert

• oft gefiltert durch Kriterium der syntaktischen Wohlgeformtheit

• Problem: Häufigkeitskriterium nicht adäquat• Beispiel: Kollokationen mit Angst:

90% Angst haben 3% Angst bekommen einmal Angst bekämpfen

Page 20: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

Inhaltliche GrundlagenStudienprojekt: KOKS WS2000-SS2001 Philip Reuter 7/10

Unser Kollokationsverständnis• Kollokationsbegriff von Breidt:

„... collocations shall refer only to word combinations with a lexically (rather than syntactically or semantically) restricted combinatory potential, where at least one component has a special meaning that it cannot have in a free syntagmatic construction.“

• schließt Fälle wie Schuhe zumachen oder Zähne putzen aus

• Arbeitsdefinition, keine starre Vorgabe

Page 21: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

Inhaltliche GrundlagenStudienprojekt: KOKS WS2000-SS2001 Philip Reuter 8/10

Paralleler Korpus• Korpus: Menge von Texten

• parallel: Texte liegen in zwei oder mehr Sprachen übersetzt vor

• Beispiele:

Geschäftsberichte international agierender Unternehmen

EU-Dokumente (in bis zu 11 Sprachen)

Äquivalenzwörterbücher als Spezialfall

Page 22: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

Inhaltliche GrundlagenStudienprojekt: KOKS WS2000-SS2001 Philip Reuter 8/10

BeispielMerkel warf Kohl vor, er bringe die Partei durch sein Schweigen in eine unglaublich schwierige Lage. 

Ms. Merkel has accused Kohl of compounding the party's plight through his refusal to reveal the donors.

Der Altkanzler habe sein Ehrenwort über Gesetze gestellt.

The Chancellor had put his word of honor above the law, Ms. Merkel added.

Die Demokratie funktioniere aber nur, wenn man sich an Gesetze halte.Merkel wörtlich: "sonst gehen wir systematisch auf die Anarchie zu." 

But democracy can only work if laws are adhered to, otherwise "we are progressing toward a state of anarchy," Ms. Merkel said.

Page 23: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

Inhaltliche GrundlagenStudienprojekt: KOKS WS2000-SS2001 Philip Reuter 10/10

Alignment• Korrespondenz zwischen Einheiten paralleler Texte herstellen

• Unterteilung in• Absatzalignment• Satzalignment• Wortalignment

• Wortalignment:• schwer zu realisieren• hilfreich zur Identifikation von Kollokationen

Page 24: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

3. Funktionalität

Studienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck

Page 25: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

FunktionalitätStudienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 1/6

Generelle Ziele

Das KOKS-System soll:

• Kollokationen in Texten auffinden und erkennen

• Information über Verwendung/Bedeutung von Kollokationen sammeln

• Ergebnisse auswerten und aufbereiten

• intelligenten Zugriff auf die Datenbestände ermöglichen

• eine Auswahl dieser Information dem Benutzer präsentieren

Page 26: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

FunktionalitätStudienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 2/6

Schwerpunkte

• Aufbau eines Kollokationslexikons

• intelligente Zugriffsmöglichkeiten

Page 27: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

FunktionalitätStudienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 3/6

Kollokationen finden & erkennen

• natürlichsprachliche Texte als Eingabe

• Suche in vorgegebenen Teilbereichen

• Einsatz von Standard-CL-Methoden

• Nutzung vorhandenen Wissens des Systems über Kollokationen

• Test und Bewertung von Kollokationskandidaten

Page 28: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

FunktionalitätStudienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 4/6

Information sammeln & verwalten

• Erstellung einer Kollokationsdatenbank

• initialer Aufbau der Datenbank mit kanonischen Formen

• Datenbasis: zweisprachige (parallele) Korpora

• Wissen über Kollokationen aufbauen

• Re-Analyse des vorhandenen Datenbestands

• Herkunftsinformationen speichern

Page 29: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

FunktionalitätStudienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 5/6

Intelligenter Zugriff

• große Datenbestände (Korpora)

• Toleranz/Robustheit bei Abweichungen/Variationen

• „Kollokationen zerstörende“ Abweichungen

• Verwendung von bekannten Teilanalysen

• Belege aus parallelen Korpora

• lokale Applikation, Web-basiert

Page 30: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

FunktionalitätStudienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 6/6

Ergebnisse selektieren & präsentieren

• Auswahl und Präsentation der Ergebnisse

• quantitative Daten

• Übersetzungsvorschläge

• Bedeutungserklärungen

• Verwendungsweise von Kollokationen

Page 31: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

4. Demo-Applikation

Studienprojekt: KOKS WS2000-SS2001 Norman Kummer

Page 32: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

Studienprojekt: KOKS WS2000-SS2001 Norman Kummer 1/1

Page 33: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

Pause

Studienprojekt: KOKS WS2000-SS2001 Britta Koch

Page 34: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

5. Architektur

Studienprojekt: KOKS WS2000-SS2001 Norman Kummer

Page 35: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

ArchitekturStudienprojekt: KOKS WS2000-SS2001 Norman Kummer 1/4

• Notwendige Funktionen:• Alignment

• POS-Tagger

• Lemmatisierung

• Morphologie

• Phrasenzuordnung

• Intelligenter Lexikonzugriff

• größtenteils Standardwerkzeuge

.

Page 36: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

Architektur

• 2 Anwendungsfälle der Module:• Lexikon aufbauen & erweitern

• Kollokationserkennung

(intelligenter Lexikonzugriff)

Studienprojekt: KOKS WS2000-SS2001 Norman Kummer 2/4

.

Page 37: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

benötigte Informationen

- abgeglichene Sätze -

- Wortarten -

- Stammformen -

- Flexionsmorphologie -

benötigte Informationen

- abgeglichene Sätze -

- Wortarten -

- Stammformen -

- Flexionsmorphologie -

benötigte Informationen

- abgeglichene Sätze -

- Wortarten -

- Stammformen -

- Flexionsmorphologie -

benötigte Informationen

- abgeglichene Sätze -

- Wortarten -

- Stammformen -

- Flexionsmorphologie -

benötigte Informationen

- abgeglichene Sätze -

- Wortarten -

- Stammformen -

- Flexionsmorphologie -

benötigte Informationen

- abgeglichene Sätze -

- Wortarten -

- Stammformen -

- Flexionsmorphologie -

benötigte Informationen

- abgeglichene Sätze -

- Wortarten -

- Stammformen -

- Flexionsmorphologie -

benötigte Informationen

- abgeglichene Sätze -

- Wortarten -

- Stammformen -

- Flexionsmorphologie -

benötigte Informationen

- abgeglichene Sätze -

- Wortarten -

- Stammformen -

- Flexionsmorphologie -

benötigte Informationen

- abgeglichene Sätze -

- Wortarten -

- Stammformen -

- Flexionsmorphologie -

Architektur• Lexikon aufbauen & erweitern

Studienprojekt: KOKS WS2000-SS2001 Norman Kummer 3/4

Phrasenzuordnung

Funktion:

- extrahiert Phrasen

- bringt Phrasen in

„lexikontaugliche“ Form

Phrasenzuordnung

Funktion:

- extrahiert Phrasen

- bringt Phrasen in

„lexikontaugliche“ Form

...............

Dictionary-Entry-Parser

Funktion:

- extrahiert Phrasen-/

Wortpaare

Dictionary-Entry-Parser

Funktion:

- extrahiert Phrasen-/

Wortpaare

Normalisierung

Funktion:

- bringt Textressourcen in

einheitliche Form

(z.B. HTML, Plaintext)

Normalisierung

Funktion:

- bringt Textressourcen in

einheitliche Form

(z.B. HTML, Plaintext)Komplexitätssortierung

Funktion:

- sortiert Phrasen / Sätze

nach Komplexität (z.B.Länge)

Komplexitätssortierung

Funktion:

- sortiert Phrasen / Sätze

nach Komplexität (z.B.Länge)

Datenquellen:

Parallele Korpora

- zweisprachig

Funktion:

- Textmaterial

- liefern:

• Satzpaare

• Referenzbeispiele

Datenquellen:

Parallele Korpora

- zweisprachig

Funktion:

- Textmaterial

- liefern:

• Satzpaare

• Referenzbeispiele

Datenquellen:

Wörterbücher

• Äquivalenz~

• einsprachige~

Datenquellen:

Wörterbücher

• Äquivalenz~

• einsprachige~

Lexikon

Funktion:

- Datenhaltung (DB)

- neue Phrasenpaare integrieren

Lexikon

Funktion:

- Datenhaltung (DB)

- neue Phrasenpaare integrieren

Page 38: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

• Kollokationserkennung (intelligenter Lexikonzugriff)

Architektur

Nutzer versteht den Sinn dieses Satzes nicht.Nutzer versteht den Sinn dieses Satzes nicht.

... und klickt „fällt“ an... und klickt „fällt“ an

....Studienprojekt: KOKS WS2000-SS2001 Norman Kummer 4/4

...

Intelligenter-Lexikon-Zugriff

Funktion:

- Anfrage an Lexikon mit analysiertem Satz

- Lexikon liefert:

• kanonische Kollokationsform

„ins Wasser fallen“

• Referenzsätze

Intelligenter-Lexikon-Zugriff

Funktion:

- Anfrage an Lexikon mit analysiertem Satz

- Lexikon liefert:

• kanonische Kollokationsform

„ins Wasser fallen“

• Referenzsätze

....

Page 39: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

6. Arbeitsplan

Studienprojekt: KOKS WS2000-SS2001 Joachim Wagner

Page 40: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

Aufgabe

Korpuserschließung

Wörterbücher analysieren

Datenverwaltung

POS-Tagger

Alignment

Morphologie

Lemmatisierung

Modul-Integration

Konzept Phrasenzuordnung

Phrasenzuordnung

Lexikonzugriff/Schnittstelle

Zwischen-Präsentation

prototypische Applikation

Projektbericht

Abschluß-Präsentation

Aufgabe

MaiJanuar Februar März April

MaiJanuar Februar März April

ArbeitsplanStudienprojekt: KOKS WS2000-SS2001 Joachim Wagner 1/2

Erste Projektphase

Page 41: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

ArbeitsplanStudienprojekt: KOKS WS2000-SS2001 Joachim Wagner 2/2

Zweite ProjektphaseAufgabe

Korpuserschließung

Wörterbücher analysieren

Datenverwaltung

POS-Tagger

Alignment

Morphologie

Lemmatisierung

Modul-Integration

Konzept Phrasenzuordnung

Phrasenzuordnung

Lexikonzugriff/Schnittstelle

Zwischen-Präsentation

prototypische Applikation

Projektbericht

Abschluß-Präsentation

Aufgabe Juni Juli August September

Juni Juli August September

Page 42: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

7. Ausblick

Studienprojekt: KOKS WS2000-SS2001 Britta Koch

Page 43: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

AusblickStudienprojekt: KOKS WS2000-SS2001 Britta Koch 1/2

• Zusammenfassung:• Korpusbasierte Kollokationssuche

• Erstellung eines Kollokationslexikons

• Intelligenter Zugriff

.

Page 44: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

AusblickStudienprojekt: KOKS WS2000-SS2001 Britta Koch 2/2

• Anwendungsmöglichkeiten• eigenständiges Lexikon

• Thesaurus für Kollokationen

• CALL (Computer Aided Language Learning):

Add-In für eine Textverarbeitung

Lückentexte

Hinweis auf „schiefe“ Kollokationen

.

Page 45: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

8. Diskussion

Studienprojekt: KOKS WS2000-SS2001 Britta Koch

Page 46: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

Studienprojekt: KOKS WS2000-SS2001 Joachim Wagner 1/1

• Postanschrift:Institut für Semantische InformationsverarbeitungStudienprojekt KoksKatharinenstraße 2449078 Osnabrück

• Webseite:http://www.cl-ki.uni-osnabrueck.de/~koks/

Studienprojekt Koks

Page 47: KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

Studienprojekt: KOKS WS2000-SS2001 Joachim Wagner 1/1

• Postanschrift:Institut für Semantische InformationsverarbeitungStudienprojekt KoksKatharinenstraße 2449078 Osnabrück

• Webseite:http://www.cl-ki.uni-osnabrueck.de/~koks/

Studienprojekt Koks