KOKS - Präsentation Studienprojekt: KOKS WS2000-SS2001 Britta Koch Korpusbasierte Kollokationssuche

Preview:

Citation preview

KOKS - Präsentation

Studienprojekt: KOKS WS2000-SS2001 Britta Koch

Korpusbasierte Kollokationssuche

Studienprojekt KOKSStudienprojekt: KOKS WS2000-SS2001 Britta Koch 1/3

• im Rahmen des Studiengangs

ComputerlinguistikundKünstliche Intelligenz

• Dauer: ein Jahr

Studienprojekt KOKSStudienprojekt: KOKS WS2000-SS2001 Britta Koch 2/3

• Teilnehmer:• Arno Erpenbeck• Britta Koch• Norman Kummer• Philip Reuter• Patrick Tschorn• Joachim Wagner

• beratend beteiligt:• Helmar Gust• Petra Ludewig

Programm der PräsentationStudienprojekt: KOKS WS2000-SS2001 Britta Koch 3/3

1. Motivation

2. Inhaltliche Grundlagen

3. Funktionalität

4. Demo-Applikation

Pause

5. Architektur

6. Arbeitsplan

7. Ausblick

8. Diskussion

1. Motivation

Studienprojekt: KOKS WS2000-SS2001 Patrick Tschorn

MotivationStudienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 1/7

Eine verbreitete Annahme:

Die Bedeutung von Sätzen läßt sich kompositionell aus den Bedeutungen der einzelnen Wörter ablesen.

Ich habe einen Bekannten besucht und bin nach Hause gefahren.

MotivationStudienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 2/7

Aber:Der Hund meines Bekannten hat ins Gras gebissen.

Das kompositionelle Vorgehen scheitert.

• Trotzdem ist jedem die Bedeutung klar.

Halt! Nicht-Muttersprachlern kann dieser Satz erhebliche Verständnisprobleme bereiten.

MotivationStudienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 3/7

Beispiele:

• The man who used to clean the walls at the factory kicked the bucket last week.

• I screwed things up.

• She got her feet wet.

• Mabel has a bun in the oven.

• Brian was pie eyed when we got to the party.

MotivationStudienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 4/7

Das Projektziel:

Erstellung eines Tools, das:

• nicht kompositionell erschließbare Sätze erkennt

• z.B. passende Verständnishilfen anbietet

MotivationStudienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 5/7

Probleme:

• Weltwissen

• tiefe linguistische Analyse

• Semantik

MotivationStudienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 6/7

Unser Ansatz stützt sich auf:

• vorhandene Wörterbücher

• in mehreren Sprachen vorliegende Texte

Die Übersetzungen einer Phrase spielen dabei die Rolle der Semantik.

MotivationStudienprojekt: KOKS WS2000-SS2001 Patrick Tschorn 7/7

Beispiel:

Deutsch Englisch

Das Kind fiel ins Wasser. The child fell into the water.

Die Party fiel ins Wasser. The party was called off.

2. Inhaltliche Grundlagen

Studienprojekt: KOKS WS2000-SS2001 Philip Reuter

Inhaltliche GrundlagenStudienprojekt: KOKS WS2000-SS2001 Philip Reuter 1/10

• Kollokation

• Paralleler Korpus

• Alignment

Inhaltliche GrundlagenStudienprojekt: KOKS WS2000-SS2001 Philip Reuter 2/10

Beispiele (1)

• Leider ist die Party ins Wasser gefallen.

• Hans hat an Maria einen Narren gefressen.

• Du gehst mir ganz schön auf den Wecker!

• Peter ist ein starker Raucher.

• Hans ist ein guter Esser.

Inhaltliche GrundlagenStudienprojekt: KOKS WS2000-SS2001 Philip Reuter 3/10

Beispiele (2)

• Der Kanzler hielt auf dem Gewerkschaftertreffen neine bemerkenswerte Rede.

• Wir warten lieber, bis sein Zorn verraucht ist.

• Du solltest mal deine Schuhe zumachen.

• Hast Du schon Deine Zähne geputzt?

Inhaltliche GrundlagenStudienprojekt: KOKS WS2000-SS2001 Philip Reuter 4/10

Das Phänomen "Kollokation“• Kombinationen von zwei oder mehr Wörtern betrachten

• irgendwo zwischen "freier Kombination“ und "Idiom“

• freie Kombination:• Bestandteile beliebig austauschbar, erweiterbar• Beispiel: Am Bahnhof wird ein Parkhaus gebaut.

• Idiom:• sehr starre Kombination, nicht erweiterbar• Beispiel: Hans hat an Maria einen Narren gefressen.

Inhaltliche GrundlagenStudienprojekt: KOKS WS2000-SS2001 Philip Reuter 5/10

Definitionsmöglichkeiten• semantisch:

• Kombination durch Bedeutungsverwandschaft• Beispiel: Hund und bellen

• syntaktisch:• bestimmte syntaktische Kombinationen• Beispiel: V+N: Politik betreiben

Adj+N: ein schwerer Unfall V+Adv: verbissen kämpfen

• statistisch:• Häufigkeitskriterien als Indikator

Inhaltliche GrundlagenStudienprojekt: KOKS WS2000-SS2001 Philip Reuter 6/10

Zum statistischen Kollokationsbegriff• Idee: Kollokationspartner häufig mit bestimmten Wörtern kombiniert

• oft gefiltert durch Kriterium der syntaktischen Wohlgeformtheit

• Problem: Häufigkeitskriterium nicht adäquat• Beispiel: Kollokationen mit Angst:

90% Angst haben 3% Angst bekommen einmal Angst bekämpfen

Inhaltliche GrundlagenStudienprojekt: KOKS WS2000-SS2001 Philip Reuter 7/10

Unser Kollokationsverständnis• Kollokationsbegriff von Breidt:

„... collocations shall refer only to word combinations with a lexically (rather than syntactically or semantically) restricted combinatory potential, where at least one component has a special meaning that it cannot have in a free syntagmatic construction.“

• schließt Fälle wie Schuhe zumachen oder Zähne putzen aus

• Arbeitsdefinition, keine starre Vorgabe

Inhaltliche GrundlagenStudienprojekt: KOKS WS2000-SS2001 Philip Reuter 8/10

Paralleler Korpus• Korpus: Menge von Texten

• parallel: Texte liegen in zwei oder mehr Sprachen übersetzt vor

• Beispiele:

Geschäftsberichte international agierender Unternehmen

EU-Dokumente (in bis zu 11 Sprachen)

Äquivalenzwörterbücher als Spezialfall

Inhaltliche GrundlagenStudienprojekt: KOKS WS2000-SS2001 Philip Reuter 8/10

BeispielMerkel warf Kohl vor, er bringe die Partei durch sein Schweigen in eine unglaublich schwierige Lage. 

Ms. Merkel has accused Kohl of compounding the party's plight through his refusal to reveal the donors.

Der Altkanzler habe sein Ehrenwort über Gesetze gestellt.

The Chancellor had put his word of honor above the law, Ms. Merkel added.

Die Demokratie funktioniere aber nur, wenn man sich an Gesetze halte.Merkel wörtlich: "sonst gehen wir systematisch auf die Anarchie zu." 

But democracy can only work if laws are adhered to, otherwise "we are progressing toward a state of anarchy," Ms. Merkel said.

Inhaltliche GrundlagenStudienprojekt: KOKS WS2000-SS2001 Philip Reuter 10/10

Alignment• Korrespondenz zwischen Einheiten paralleler Texte herstellen

• Unterteilung in• Absatzalignment• Satzalignment• Wortalignment

• Wortalignment:• schwer zu realisieren• hilfreich zur Identifikation von Kollokationen

3. Funktionalität

Studienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck

FunktionalitätStudienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 1/6

Generelle Ziele

Das KOKS-System soll:

• Kollokationen in Texten auffinden und erkennen

• Information über Verwendung/Bedeutung von Kollokationen sammeln

• Ergebnisse auswerten und aufbereiten

• intelligenten Zugriff auf die Datenbestände ermöglichen

• eine Auswahl dieser Information dem Benutzer präsentieren

FunktionalitätStudienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 2/6

Schwerpunkte

• Aufbau eines Kollokationslexikons

• intelligente Zugriffsmöglichkeiten

FunktionalitätStudienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 3/6

Kollokationen finden & erkennen

• natürlichsprachliche Texte als Eingabe

• Suche in vorgegebenen Teilbereichen

• Einsatz von Standard-CL-Methoden

• Nutzung vorhandenen Wissens des Systems über Kollokationen

• Test und Bewertung von Kollokationskandidaten

FunktionalitätStudienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 4/6

Information sammeln & verwalten

• Erstellung einer Kollokationsdatenbank

• initialer Aufbau der Datenbank mit kanonischen Formen

• Datenbasis: zweisprachige (parallele) Korpora

• Wissen über Kollokationen aufbauen

• Re-Analyse des vorhandenen Datenbestands

• Herkunftsinformationen speichern

FunktionalitätStudienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 5/6

Intelligenter Zugriff

• große Datenbestände (Korpora)

• Toleranz/Robustheit bei Abweichungen/Variationen

• „Kollokationen zerstörende“ Abweichungen

• Verwendung von bekannten Teilanalysen

• Belege aus parallelen Korpora

• lokale Applikation, Web-basiert

FunktionalitätStudienprojekt: KOKS WS2000-SS2001 Arno Erpenbeck 6/6

Ergebnisse selektieren & präsentieren

• Auswahl und Präsentation der Ergebnisse

• quantitative Daten

• Übersetzungsvorschläge

• Bedeutungserklärungen

• Verwendungsweise von Kollokationen

4. Demo-Applikation

Studienprojekt: KOKS WS2000-SS2001 Norman Kummer

Studienprojekt: KOKS WS2000-SS2001 Norman Kummer 1/1

Pause

Studienprojekt: KOKS WS2000-SS2001 Britta Koch

5. Architektur

Studienprojekt: KOKS WS2000-SS2001 Norman Kummer

ArchitekturStudienprojekt: KOKS WS2000-SS2001 Norman Kummer 1/4

• Notwendige Funktionen:• Alignment

• POS-Tagger

• Lemmatisierung

• Morphologie

• Phrasenzuordnung

• Intelligenter Lexikonzugriff

• größtenteils Standardwerkzeuge

.

Architektur

• 2 Anwendungsfälle der Module:• Lexikon aufbauen & erweitern

• Kollokationserkennung

(intelligenter Lexikonzugriff)

Studienprojekt: KOKS WS2000-SS2001 Norman Kummer 2/4

.

benötigte Informationen

- abgeglichene Sätze -

- Wortarten -

- Stammformen -

- Flexionsmorphologie -

benötigte Informationen

- abgeglichene Sätze -

- Wortarten -

- Stammformen -

- Flexionsmorphologie -

benötigte Informationen

- abgeglichene Sätze -

- Wortarten -

- Stammformen -

- Flexionsmorphologie -

benötigte Informationen

- abgeglichene Sätze -

- Wortarten -

- Stammformen -

- Flexionsmorphologie -

benötigte Informationen

- abgeglichene Sätze -

- Wortarten -

- Stammformen -

- Flexionsmorphologie -

benötigte Informationen

- abgeglichene Sätze -

- Wortarten -

- Stammformen -

- Flexionsmorphologie -

benötigte Informationen

- abgeglichene Sätze -

- Wortarten -

- Stammformen -

- Flexionsmorphologie -

benötigte Informationen

- abgeglichene Sätze -

- Wortarten -

- Stammformen -

- Flexionsmorphologie -

benötigte Informationen

- abgeglichene Sätze -

- Wortarten -

- Stammformen -

- Flexionsmorphologie -

benötigte Informationen

- abgeglichene Sätze -

- Wortarten -

- Stammformen -

- Flexionsmorphologie -

Architektur• Lexikon aufbauen & erweitern

Studienprojekt: KOKS WS2000-SS2001 Norman Kummer 3/4

Phrasenzuordnung

Funktion:

- extrahiert Phrasen

- bringt Phrasen in

„lexikontaugliche“ Form

Phrasenzuordnung

Funktion:

- extrahiert Phrasen

- bringt Phrasen in

„lexikontaugliche“ Form

...............

Dictionary-Entry-Parser

Funktion:

- extrahiert Phrasen-/

Wortpaare

Dictionary-Entry-Parser

Funktion:

- extrahiert Phrasen-/

Wortpaare

Normalisierung

Funktion:

- bringt Textressourcen in

einheitliche Form

(z.B. HTML, Plaintext)

Normalisierung

Funktion:

- bringt Textressourcen in

einheitliche Form

(z.B. HTML, Plaintext)Komplexitätssortierung

Funktion:

- sortiert Phrasen / Sätze

nach Komplexität (z.B.Länge)

Komplexitätssortierung

Funktion:

- sortiert Phrasen / Sätze

nach Komplexität (z.B.Länge)

Datenquellen:

Parallele Korpora

- zweisprachig

Funktion:

- Textmaterial

- liefern:

• Satzpaare

• Referenzbeispiele

Datenquellen:

Parallele Korpora

- zweisprachig

Funktion:

- Textmaterial

- liefern:

• Satzpaare

• Referenzbeispiele

Datenquellen:

Wörterbücher

• Äquivalenz~

• einsprachige~

Datenquellen:

Wörterbücher

• Äquivalenz~

• einsprachige~

Lexikon

Funktion:

- Datenhaltung (DB)

- neue Phrasenpaare integrieren

Lexikon

Funktion:

- Datenhaltung (DB)

- neue Phrasenpaare integrieren

• Kollokationserkennung (intelligenter Lexikonzugriff)

Architektur

Nutzer versteht den Sinn dieses Satzes nicht.Nutzer versteht den Sinn dieses Satzes nicht.

... und klickt „fällt“ an... und klickt „fällt“ an

....Studienprojekt: KOKS WS2000-SS2001 Norman Kummer 4/4

...

Intelligenter-Lexikon-Zugriff

Funktion:

- Anfrage an Lexikon mit analysiertem Satz

- Lexikon liefert:

• kanonische Kollokationsform

„ins Wasser fallen“

• Referenzsätze

Intelligenter-Lexikon-Zugriff

Funktion:

- Anfrage an Lexikon mit analysiertem Satz

- Lexikon liefert:

• kanonische Kollokationsform

„ins Wasser fallen“

• Referenzsätze

....

6. Arbeitsplan

Studienprojekt: KOKS WS2000-SS2001 Joachim Wagner

Aufgabe

Korpuserschließung

Wörterbücher analysieren

Datenverwaltung

POS-Tagger

Alignment

Morphologie

Lemmatisierung

Modul-Integration

Konzept Phrasenzuordnung

Phrasenzuordnung

Lexikonzugriff/Schnittstelle

Zwischen-Präsentation

prototypische Applikation

Projektbericht

Abschluß-Präsentation

Aufgabe

MaiJanuar Februar März April

MaiJanuar Februar März April

ArbeitsplanStudienprojekt: KOKS WS2000-SS2001 Joachim Wagner 1/2

Erste Projektphase

ArbeitsplanStudienprojekt: KOKS WS2000-SS2001 Joachim Wagner 2/2

Zweite ProjektphaseAufgabe

Korpuserschließung

Wörterbücher analysieren

Datenverwaltung

POS-Tagger

Alignment

Morphologie

Lemmatisierung

Modul-Integration

Konzept Phrasenzuordnung

Phrasenzuordnung

Lexikonzugriff/Schnittstelle

Zwischen-Präsentation

prototypische Applikation

Projektbericht

Abschluß-Präsentation

Aufgabe Juni Juli August September

Juni Juli August September

7. Ausblick

Studienprojekt: KOKS WS2000-SS2001 Britta Koch

AusblickStudienprojekt: KOKS WS2000-SS2001 Britta Koch 1/2

• Zusammenfassung:• Korpusbasierte Kollokationssuche

• Erstellung eines Kollokationslexikons

• Intelligenter Zugriff

.

AusblickStudienprojekt: KOKS WS2000-SS2001 Britta Koch 2/2

• Anwendungsmöglichkeiten• eigenständiges Lexikon

• Thesaurus für Kollokationen

• CALL (Computer Aided Language Learning):

Add-In für eine Textverarbeitung

Lückentexte

Hinweis auf „schiefe“ Kollokationen

.

8. Diskussion

Studienprojekt: KOKS WS2000-SS2001 Britta Koch

Studienprojekt: KOKS WS2000-SS2001 Joachim Wagner 1/1

• Postanschrift:Institut für Semantische InformationsverarbeitungStudienprojekt KoksKatharinenstraße 2449078 Osnabrück

• Webseite:http://www.cl-ki.uni-osnabrueck.de/~koks/

Studienprojekt Koks

Studienprojekt: KOKS WS2000-SS2001 Joachim Wagner 1/1

• Postanschrift:Institut für Semantische InformationsverarbeitungStudienprojekt KoksKatharinenstraße 2449078 Osnabrück

• Webseite:http://www.cl-ki.uni-osnabrueck.de/~koks/

Studienprojekt Koks

Recommended