100
© 2000 Hans Uszkoreit Vorlesung: Einführung in die Vorlesung: Einführung in die Computerlinguistik Computerlinguistik Hans Uszkoreit Hans Uszkoreit Wintersemester Wintersemester 01/02 01/02

© 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

Embed Size (px)

Citation preview

Page 1: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2000 Hans Uszkoreit

Vorlesung: Einführung in die ComputerlinguistikVorlesung: Einführung in die Computerlinguistik

Hans UszkoreitHans Uszkoreit

WintersemesterWintersemester 01/0201/02

Page 2: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Übersicht des ersten TeilsÜbersicht des ersten Teils

Aufgaben und Einordnung des Faches Aufgaben und Einordnung des Faches

Motivationen für die Modellierung menschlicher SpracheMotivationen für die Modellierung menschlicher Sprache

Computerlinguistik als eine moderne SprachwissenschaftComputerlinguistik als eine moderne Sprachwissenschaft

Repräsentationen und VerarbeitungskomponentenRepräsentationen und Verarbeitungskomponenten

Page 3: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

EINSTIEGEINSTIEG

FaszinationFaszination

WissenschaftWissenschaft

TechnologieTechnologie

Page 4: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

FaszinationFaszination

Mehr noch als Denken ist die Sprache eine Fähigkeit, die nur der Mehr noch als Denken ist die Sprache eine Fähigkeit, die nur der Mensch besitzt. Mensch besitzt.

Es ist ein Wunder, wie wir in Sekundenschnelle komplexe Gedanken in Es ist ein Wunder, wie wir in Sekundenschnelle komplexe Gedanken in einem Satz ausdrücken können.einem Satz ausdrücken können.

Es ist nicht weniger erstaunlich, wie das Kind in nur wenigen Jahren Es ist nicht weniger erstaunlich, wie das Kind in nur wenigen Jahren zehntausende von Wörtern und eine komplexe Gramnmatik lernt.zehntausende von Wörtern und eine komplexe Gramnmatik lernt.

Page 5: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

NNACHBARWISSENSCHAFTENACHBARWISSENSCHAFTEN

Psychologie

Linguistik

Informatik

Page 6: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

NNACHBARWISSENSCHAFTENACHBARWISSENSCHAFTEN

Psychologie

Linguistik

Informatik

Psycho-linguistik

Computer-linguistik

KI

Page 7: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Die Die DisziplinDisziplin

Computerlinguistik im weiteren SinneComputerlinguistik im weiteren Sinne

ist ein zwischen Linguistik und Informatik liegendes interdisziplinäres ist ein zwischen Linguistik und Informatik liegendes interdisziplinäres

Forschungsgebiet, das sich mit der maschinellen Verarbeitung natürlicher Forschungsgebiet, das sich mit der maschinellen Verarbeitung natürlicher

Sprachen beschäftigt.Sprachen beschäftigt.

Computerlinguistik im engeren SinneComputerlinguistik im engeren Sinne

ist ein Teilgebiet der modernen Linguistik, das berechenbare Modelle ist ein Teilgebiet der modernen Linguistik, das berechenbare Modelle

menschlicher Sprache entwirft, implementiert und untersucht.menschlicher Sprache entwirft, implementiert und untersucht.

Page 8: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Die DisziplinDie Disziplin

Theoretische ComputerlinguistikTheoretische Computerlinguistik

entwirft, implementiert und untersucht die Modelle mit dem Ziel, entwirft, implementiert und untersucht die Modelle mit dem Ziel, zum Verständnis, zur Verifikation und zur Verbesserung der zum Verständnis, zur Verifikation und zur Verbesserung der zugrundeliegenden linguistischen und psychologischen Theorien zugrundeliegenden linguistischen und psychologischen Theorien beizutragen.beizutragen.

Angewandte ComputerlinguistikAngewandte Computerlinguistik

entwirft, implementiert und untersucht die Modelle mit dem Ziel, entwirft, implementiert und untersucht die Modelle mit dem Ziel, Softwareanwendungen zu ermöglichen, die über eine Softwareanwendungen zu ermöglichen, die über eine (eingeschränkte) Beherrschung menschlicher Sprache verfügen.(eingeschränkte) Beherrschung menschlicher Sprache verfügen.

Page 9: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Sprachliche KommunikationSprachliche Kommunikation

Page 10: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Sprachliche KommunikationSprachliche Kommunikation

Page 11: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Sprachliche KommunikationSprachliche Kommunikation

Page 12: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Sprachliche KommunikationSprachliche Kommunikation

Page 13: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Sprachliche KommunikationSprachliche Kommunikation

Page 14: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

GrammatikGrammatik

SchallwellenSchallwellen Aktivation von Aktivation von KonzeptenKonzepten

Page 15: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

GrammatikGrammatik

SchallwellenSchallwellen Aktivation von Aktivation von KonzeptenKonzepten

GrammatikGrammatik

Page 16: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

GrammatikGrammatik

SchallwellenSchallwellen Aktivation von Aktivation von KonzeptenKonzepten

GrammatikGrammatik

Page 17: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Grammatik Grammatik

SchallwellenSchallwellen Aktivation von Aktivation von KonzeptenKonzepten

GrammatikGrammatik

Page 18: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

GrammatikGrammatik

SchallwellenSchallwellen Aktivation von Aktivation von KonzeptenKonzepten

N

NP

A

NDetV

VP

NP

S

Sue gave Paul an old penny.

NP

GrammatikGrammatik

Page 19: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Grammatik Grammatik

SchallwellenSchallwellen Aktivation von Aktivation von KonzeptenKonzepten

Phonologie/Morphologie

GrammatikGrammatik

Semantikkonstruktion

N

NP

A

NDetV

VP

NP

S

Sue gave Paul an old penny.

NP

Page 20: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

GrammatikGrammatik

SchallwellenSchallwellen Aktivation von Aktivation von KonzeptenKonzepten

N

NP

A

NDetV

VP

NP

S

Sue gave Paul an old penny.

NP

GrammatikGrammatik

Page 21: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

GrammatikGrammatik

SchallwellenSchallwellen Aktivation von Aktivation von KonzeptenKonzepten

N

NP

A

NDetV

VP

NP

S

Sue gave Paul an old penny.

NP

GrammatikGrammatik

Page 22: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Maschinelle SprachverarbeitungMaschinelle SprachverarbeitungAnalyse und Generierung von natürlicher Sprache mit dem Computer. Analyse und Generierung von natürlicher Sprache mit dem Computer. Englisch: Natural Language Processing (NLP).Englisch: Natural Language Processing (NLP).

Sprachtechnologie(n)Sprachtechnologie(n)Übergriff für die Technologien sprachbeherrschender Systeme. Übergriff für die Technologien sprachbeherrschender Systeme. Ingenieurwissenschaftliches Forschungsgebiet, in dem die Ingenieurwissenschaftliches Forschungsgebiet, in dem die Sprachtechnologien entwickelt werden.Sprachtechnologien entwickelt werden.

Linguistische Datenverarbeitung (LDV)Linguistische Datenverarbeitung (LDV)Traditionell ein Teilgebiet der elektronischen Datenverarbeitung, das sich Traditionell ein Teilgebiet der elektronischen Datenverarbeitung, das sich sowohl mit der Anwendung von Methoden der Datenverarbeitung für die sowohl mit der Anwendung von Methoden der Datenverarbeitung für die linguistische Forschung als auch mit maschineller Sprachverarbeitung linguistische Forschung als auch mit maschineller Sprachverarbeitung beschäftigt. Die LDV versteht sich heute als ein Gebiet, das die beschäftigt. Die LDV versteht sich heute als ein Gebiet, das die Computerlinguistik einschließt.Computerlinguistik einschließt.

SprachdatenverarbeitungSprachdatenverarbeitungVerarbeitung von sprachlichen Daten mit dem Computer. Schließt ein: Verarbeitung von sprachlichen Daten mit dem Computer. Schließt ein: mono- und multilinguale Textverarbeitung, elektronische Wörterbücher, mono- und multilinguale Textverarbeitung, elektronische Wörterbücher, Konkordanzen, Terminologiebanken, maschinelle und maschinengestützte Konkordanzen, Terminologiebanken, maschinelle und maschinengestützte Übersetzung.Übersetzung.

Verwandte BegriffeVerwandte Begriffe

Page 23: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

MotivationenMotivationen

kognitionswissenschaftlicheskognitionswissenschaftlichesInteresseInteresse

Modelle der menschlichenModelle der menschlichenSprachfähigkeitSprachfähigkeit

kognitionswissenschaftlicheskognitionswissenschaftlichesInteresseInteresse

Modelle der menschlichenModelle der menschlichenSprachfähigkeitSprachfähigkeit

ingenieurwissenschaftlichesingenieurwissenschaftliches Interesse Interesse

sprachtechnologische sprachtechnologische AnwendungenAnwendungen

ingenieurwissenschaftlichesingenieurwissenschaftliches Interesse Interesse

sprachtechnologische sprachtechnologische AnwendungenAnwendungen

sprachwissenschaftliches sprachwissenschaftliches InteresseInteresse

Modelle der GrammatikModelle der Grammatik

sprachwissenschaftliches sprachwissenschaftliches InteresseInteresse

Modelle der GrammatikModelle der Grammatik

Page 24: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

CL

MotivationenMotivationen

ingenieur-ingenieur-wissenschaftliche wissenschaftliche

InteressenInteressen

kognitions-kognitions-wissenschaftliche wissenschaftliche

InteressenInteressen

sprach-sprach-wissenschaftliche wissenschaftliche

InteressenInteressen

Page 25: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

MotivationenMotivationen

ingenieur-ingenieur-wissenschaftliche wissenschaftliche

InteressenInteressen

kognitions-kognitions-wissenschaftliche wissenschaftliche

InteressenInteressen

sprach-sprach-wissenschaftliche wissenschaftliche

InteressenInteressen

Modelle der GrammatikModelle der Grammatik

sprach-sprach-technologische technologische AnwendungenAnwendungen

Modelle der Modelle der menschlichenmenschlichen

SprachfähigkeitSprachfähigkeit

Page 26: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Die Linguistik ist eine "moderne", synchron orientierte, auf Die Linguistik ist eine "moderne", synchron orientierte, auf die interne Struktur der Sprache bezogene Wissenschaft, die die interne Struktur der Sprache bezogene Wissenschaft, die sprachliche Regularitäten auf allen Beschreibungsebenen sprachliche Regularitäten auf allen Beschreibungsebenen untersucht und ihre Ergebnisse in explizierter (formalisierter) untersucht und ihre Ergebnisse in explizierter (formalisierter) Beschreibungssprache und in integrierten Modellen darlegt.Beschreibungssprache und in integrierten Modellen darlegt.

((H. Bußmann "Lexikon der Sprachwissenschaft")H. Bußmann "Lexikon der Sprachwissenschaft")

LinguistikLinguistik

Page 27: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Nach BeschreibungsebenenNach Beschreibungsebenen

• PhonetikPhonetik• PhonologiePhonologie• MorphologieMorphologie• SyntaxSyntax• SemantikSemantik• Pragmatik/Text/DiskursPragmatik/Text/Diskurs

Andere TeildisziplinenAndere Teildisziplinen

• Psycholinguistik Psycholinguistik • NeurolinguistikNeurolinguistik• Historische LinguistikHistorische Linguistik• Sozio- und Ethnolinguistik, Sozio- und Ethnolinguistik, • DialektologieDialektologie• Mathematische LinguistikMathematische Linguistik

Teilgebiete der LinguistikTeilgebiete der Linguistik

Page 28: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

AASPEKTESPEKTE DERDER S SPRACHEPRACHE

SPRACHLICHES WISSENSPRACHLICHES WISSEN

Was sind die Inhalte und Strukturen dieses unbewußten Was sind die Inhalte und Strukturen dieses unbewußten

Wissens? Wissens?

SPRACHVERARBEITUNGSPRACHVERARBEITUNG

Wie produzieren und verstehen wir sprachliche Äußerungen?Wie produzieren und verstehen wir sprachliche Äußerungen?

SPRACHERWERBSPRACHERWERB

Wie lernt das Kind seine Muttersprache?Wie lernt das Kind seine Muttersprache?

SPRACHWANDELSPRACHWANDEL

Wie entstehen Sprachen, Dialekte, Soziolekte?Wie entstehen Sprachen, Dialekte, Soziolekte?

Page 29: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Sprachliche Kompetenz:Sprachliche Kompetenz:

die endliche strukturierte Wissensbasis, die es den die endliche strukturierte Wissensbasis, die es den Sprechern einer Sprache ermöglicht, die wohlgeformten Sprechern einer Sprache ermöglicht, die wohlgeformten Äußerungen der Sprache zu generieren und zu Äußerungen der Sprache zu generieren und zu interpretieren.interpretieren.

Sprachliche Performanz:Sprachliche Performanz:

die Generierung oder Interpretation realer Äußerungen, bzw. die Generierung oder Interpretation realer Äußerungen, bzw. die Gesamtheit der Prozesse, die beteiligt sind, wenn der die Gesamtheit der Prozesse, die beteiligt sind, wenn der Mensch auf der Basis der sprachlichen Kompetenz reale Mensch auf der Basis der sprachlichen Kompetenz reale Äußerungen generiert und interpretiert.Äußerungen generiert und interpretiert.

Kompetenz und PerformanzKompetenz und Performanz

Page 30: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Ein Kompetenzmodell sollte beinhalten:Ein Kompetenzmodell sollte beinhalten:

Regeln, Prinzipien, Beschränkungen auf jeder Regeln, Prinzipien, Beschränkungen auf jeder Beschreibungsebene, die in ihrem Zusammenwirken Beschreibungsebene, die in ihrem Zusammenwirken genau die wohlgeformten Sätze der Sprache genau die wohlgeformten Sätze der Sprache charakterisieren.charakterisieren.

Es bietet für jede Sprache eine formalisierte endliche Es bietet für jede Sprache eine formalisierte endliche Definition einer unendlichen Menge von Paaren <Satz, Definition einer unendlichen Menge von Paaren <Satz, Bedeutung>. Bedeutung>.

(Dazu gehören: Grammatik, Lexikon, morphologische (Dazu gehören: Grammatik, Lexikon, morphologische Regeln, semantische Regeln.)Regeln, semantische Regeln.)

KompetenzmodellKompetenzmodell

Page 31: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Ein Performanzmodell sollte erklären:Ein Performanzmodell sollte erklären:

warum viele ungrammatische Sätze erzeugt werdenwarum viele ungrammatische Sätze erzeugt werden z.B. Sprechfehler, Grammatikfehlerz.B. Sprechfehler, Grammatikfehler

warum viele ungrammatische Sätze verstanden werdenwarum viele ungrammatische Sätze verstanden werden z.B. in der der Kommunikation mit Kindern oder Ausländernz.B. in der der Kommunikation mit Kindern oder Ausländern

warum viele grammatische Sätze nicht erzeugt werden warum viele grammatische Sätze nicht erzeugt werden z.B. durch Präferenzen in der Generierungz.B. durch Präferenzen in der Generierung

warum viele grammatische Sätze nicht verstanden werden warum viele grammatische Sätze nicht verstanden werden z.B. Holzwegsätze z.B. Holzwegsätze

wie die Verarbeitung zeitlich strukturiert ist wie die Verarbeitung zeitlich strukturiert ist z.B. Effizienz, Abfolge der Verarbeitungsschrittez.B. Effizienz, Abfolge der Verarbeitungsschritte

welchen Aufwand die Verarbeitungsschritte erfordern welchen Aufwand die Verarbeitungsschritte erfordern z.B. Abhängigkeiten von anderen kognitiven Belastungenz.B. Abhängigkeiten von anderen kognitiven Belastungen

PerformanzmodellPerformanzmodell

Page 32: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

PerformanzkriterienPerformanzkriterien

efficiency efficiency Fähigkeit, Lösungen mit geringem Zeit- und Fähigkeit, Lösungen mit geringem Zeit- und Speicherbedarf zu liefernSpeicherbedarf zu liefern

accuracyaccuracy Fähigkeit, linguistisch korrekte Lösungen zu liefernFähigkeit, linguistisch korrekte Lösungen zu liefern

robustnessrobustness Fähigkeit, mit allen möglichen Eingaben fertigzuwerdenFähigkeit, mit allen möglichen Eingaben fertigzuwerden

coveragecoverage größtmögliche Abdeckung der Grammatikgrößtmögliche Abdeckung der Grammatik

specificityspecificity Fähigkeit, die intendierte Analyse zu selegierenFähigkeit, die intendierte Analyse zu selegieren

Page 33: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

phonetische Verarbeitung orthographische Verarbeitung

morphonologische Verarbeitung

syntaktische Verarbeitung

semantische Verarbeitung

pragmatische Verarbeitung - Wissensverarbeitung

akustische Form geschriebene Form

morphonologische Repräsentation

phonetische o. graphemische Repräsentation

syntaktische Repräsentation

semantische Repräsentation

Repräsentation der vollen Bedeutung

Textverstehen

Page 34: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

akustische Form geschriebene Form

morphonologische Repräsentation

phonetische o. graphemische Repräsentation

syntaktische Repräsentation

semantische Repräsentation

Repräsentation der vollen Bedeutung

Diktat

das Boot auf dem Main

oder

daß bot auf dem mein

phonetische Verarbeitung orthographische Verarbeitung

morphonologische Verarbeitung

syntaktische Verarbeitung

semantische Verarbeitung

pragmatische Verarbeitung - Wissensverarbeitung

Page 35: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

akustische Form geschriebene Form

morphonologische Repräsentation

phonetische o. graphemische Repräsentation

syntaktische Repräsentation

semantische Repräsentation

Repräsentation der vollen Bedeutung

MaschinelleÜbersetzung

phonetische Verarbeitung orthographische Verarbeitung

morphonologische Verarbeitung

syntaktische Verarbeitung

semantische Verarbeitung

pragmatische Verarbeitung - Wissensverarbeitung

Page 36: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Grammatikfehler und Sprechfehler:Grammatikfehler und Sprechfehler:

Das Verfassen der Kinderbücher und der Reiseberichte haben Das Verfassen der Kinderbücher und der Reiseberichte haben dem Autor viel Ruhm eingebracht.dem Autor viel Ruhm eingebracht.

Die Poxen zum Backen...Die Poxen zum Backen...

Holzwegsätze:Holzwegsätze:

The canoe floated down the river sank.The canoe floated down the river sank. Er bezichtigte den Vater des Schreibens unkundiger Kinder.Er bezichtigte den Vater des Schreibens unkundiger Kinder. Peter beschuldigte sie der Geheimniskrämerei ähnlichen Peter beschuldigte sie der Geheimniskrämerei ähnlichen

Verhaltens.Verhaltens.

BeispieleBeispiele

Page 37: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

AmbiguitätAmbiguität

phonetische Ambiguität (Homophone)phonetische Ambiguität (Homophone)

Miene - MineMiene - Mine

orthographische Ambiguität (Homographen)orthographische Ambiguität (Homographen)

übersetzen - übersetzenübersetzen - übersetzen

lexikalische Ambiguität (Homonyme)lexikalische Ambiguität (Homonyme)

Ball - Ball Ball - Ball

morphologische Ambiguitätmorphologische Ambiguität

Staubecken - StaubeckenStaubecken - Staubecken

HauptpostsekretärHauptpostsekretär

Page 38: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

AmbiguitätAmbiguität

syntaktische Ambiguitätsyntaktische Ambiguität

Peter fuhr seinen Freund sturzbetrunken nach Hause.Peter fuhr seinen Freund sturzbetrunken nach Hause.

Visiting relatives can be boring.Visiting relatives can be boring.

Ich traf den Sohn des Nachbarn mit dem Gewehr.Ich traf den Sohn des Nachbarn mit dem Gewehr.

kompositionell-semantische Ambiguitätkompositionell-semantische Ambiguität

Die zwei Mitarbeiter müssen vier Sprachen beherrschen.Die zwei Mitarbeiter müssen vier Sprachen beherrschen.

pragmatische Ambiguitätpragmatische Ambiguität

Könnten Sie die Aufgabe lösen.Könnten Sie die Aufgabe lösen.

Page 39: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Ambiguität Ambiguität II

phonetische Ambiguität (Homophone)phonetische Ambiguität (Homophone)

Miene - MineMiene - Mine

orthographische Ambiguität (Homographen)orthographische Ambiguität (Homographen)

übersetzen - übersetzenübersetzen - übersetzen

lexikalische Ambiguität (Homonyme)lexikalische Ambiguität (Homonyme)

Ball - Ball Ball - Ball

morphologische Ambiguitätmorphologische Ambiguität

Staubecken - StaubeckenStaubecken - Staubecken

HauptpostsekretärHauptpostsekretär

Page 40: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Lexikalische AmbiguitätLexikalische Ambiguität

Gewisse Lesarten sind weniger stark präferiert:

Auf dem Tisch lag ein Heft. Auf der Werkbank lag ein Heft.

Ich habe einen Stift gefunden. Ich habe einen jungen Stift gesucht.

Die Präferenz für eine Lesart kann durch den Kontext beeinflußt werden:

Der Mittelstürmer eröffnete den Ball. versus Der Präsident eröffnete den Ball.

Der Gärtner sprengte das Schloß. versus Der Einbrecher sprengte das Schloß.

The astronomer married a star. versus The movie director married a star.

Page 41: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Ambiguität Ambiguität IIII

syntaktische Ambiguitätsyntaktische Ambiguität Peter fuhr seinen Freund sturzbetrunken nach Hause.Peter fuhr seinen Freund sturzbetrunken nach Hause. Visiting relatives can be boring.Visiting relatives can be boring. Ich traf den Sohn des Nachbarn mit dem Gewehr.Ich traf den Sohn des Nachbarn mit dem Gewehr.

kompositionell-semantische Ambiguitätkompositionell-semantische Ambiguität Die zwei Mitarbeiter müssen vier Sprachen beherrschen.Die zwei Mitarbeiter müssen vier Sprachen beherrschen.

pragmatische Ambiguitätpragmatische Ambiguität Könnten Sie die Aufgabe lösen.Könnten Sie die Aufgabe lösen.

Page 42: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Ambiguität beim ParsingAmbiguität beim Parsing

In fast allen realen Situationen sind Sätze hochgradig ambig.In fast allen realen Situationen sind Sätze hochgradig ambig.

Beispiel:Beispiel:

Grammatik: Grammatik: deutsche LFG-Grammatik von Christian Rohrer deutsche LFG-Grammatik von Christian Rohrer

Parser: Parser: XLE Parser von XEROX PARC (Kaplan, Maxwell, XLE Parser von XEROX PARC (Kaplan, Maxwell, Shemtov,...)Shemtov,...)

Korpus: Korpus: Teilmenge des NEGRA Korpus Frankfurter Rundschau Teilmenge des NEGRA Korpus Frankfurter Rundschau (Saarbrücken)(Saarbrücken)

Satzlänge:Satzlänge: ca. 16 Wörter ca. 16 Wörter

Ambiguität: Ambiguität: >>3000 Lesarten3000 Lesarten pro Satz pro Satz

(durch heuristische Präferenzen reduziert auf (durch heuristische Präferenzen reduziert auf 7 Lesarten7 Lesarten))

Page 43: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

„„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mitFrüher stellten die Frauen der Inseln am Wochenende Kopftücher mit

Blumenmotiven her, die ihre Männer an den folgenden Montagen auf demBlumenmotiven her, die ihre Männer an den folgenden Montagen auf dem

Markt im Zentrum der Hauptinsel verkauften.Markt im Zentrum der Hauptinsel verkauften.““

Ambiguität (Beispiel)Ambiguität (Beispiel)

Page 44: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

„„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mitFrüher stellten die Frauen der Inseln am Wochenende Kopftücher mit

Blumenmotiven her, die ihre Männer an den folgenden Montagen auf demBlumenmotiven her, die ihre Männer an den folgenden Montagen auf dem

Markt im Zentrum der Hauptinsel verkauften.Markt im Zentrum der Hauptinsel verkauften.““

Ambiguität (Beispiel)Ambiguität (Beispiel)

Der Satz weist lexikalische Der Satz weist lexikalische (L)(L), syntaktische , syntaktische (S)(S) und anaphorische und anaphorische (A)(A) Ambiguitäten auf, die uns nicht auffallen.Ambiguitäten auf, die uns nicht auffallen.

Page 45: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

„„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mitFrüher stellten die Frauen der Inseln am Wochenende Kopftücher mit

Blumenmotiven her, die ihre Männer an den folgenden Montagen auf demBlumenmotiven her, die ihre Männer an den folgenden Montagen auf dem

Markt im Zentrum der Hauptinsel verkauften.Markt im Zentrum der Hauptinsel verkauften.““

Ambiguität (Beispiel)Ambiguität (Beispiel)

258.048

Der Satz weist lexikalische Der Satz weist lexikalische (L)(L), syntaktische , syntaktische (S)(S) und anaphorische und anaphorische (A)(A) Ambiguitäten auf, die uns nicht auffallen.Ambiguitäten auf, die uns nicht auffallen.

Wieviele Lesarten besitzt dieser Satz?Wieviele Lesarten besitzt dieser Satz?

Page 46: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Ambiguität (Beispiel)Ambiguität (Beispiel)

„„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mitFrüher stellten die Frauen der Inseln am Wochenende Kopftücher mit

Blumenmotiven her, die ihre Männer an den folgenden Montagen auf Blumenmotiven her, die ihre Männer an den folgenden Montagen auf

demdem

Markt im Zentrum der Hauptinsel verkauften.Markt im Zentrum der Hauptinsel verkauften.““

Das berechnet sich so:Das berechnet sich so:

LL FrüherFrüher kann sowohl eigenständiges Adverb als auch Komparativ von kann sowohl eigenständiges Adverb als auch Komparativ von frühfrüh sein (2); sein (2);

LL die Verbform die Verbform stelltenstellten is ambig zwischen Präteritum und Konjunktiv (2); is ambig zwischen Präteritum und Konjunktiv (2);

SS die Nominalphrase die Nominalphrase die Frauendie Frauen kann sowohl Subjekt als auch Objekt des Satzes kann sowohl Subjekt als auch Objekt des Satzes sein (2); sein (2);

SS am Wochenendeam Wochenende kann die Insel, die Frauen oder das Verb modifizieren (3); kann die Insel, die Frauen oder das Verb modifizieren (3);

SS mit Blumenmotivenmit Blumenmotiven kann sich auf die Kopftücher beziehen, ein Instrument der kann sich auf die Kopftücher beziehen, ein Instrument der Herstellung Herstellung

sein oder ein Adjunkt im Sinne vonsein oder ein Adjunkt im Sinne von gemeinsam mit Blumenmotivengemeinsam mit Blumenmotiven (3); (3);

LL herher hat auch eine direktionale Bedeutung (2); hat auch eine direktionale Bedeutung (2);

Page 47: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Ambiguität (Beispiel)Ambiguität (Beispiel)

„„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mitFrüher stellten die Frauen der Inseln am Wochenende Kopftücher mit

Blumenmotiven her, die ihre Männer an den folgenden Montagen auf Blumenmotiven her, die ihre Männer an den folgenden Montagen auf

demdem

Markt im Zentrum der Hauptinsel verkauften.Markt im Zentrum der Hauptinsel verkauften.““

Und weiter:Und weiter:

SS der Relativsatz könnte jede der vier Nominalphrasen im Plural modifizieren (4);der Relativsatz könnte jede der vier Nominalphrasen im Plural modifizieren (4);

SS sowohl sowohl diedie als auch als auch ihre Männerihre Männer kann Subjekt des Relativsatzes sein (2); kann Subjekt des Relativsatzes sein (2);

AA das Possessivpronomen das Possessivpronomen ihrihre kann auf jede der Nominalphrasen referieren (4);e kann auf jede der Nominalphrasen referieren (4);

LL MontagenMontagen hat eine zweite Lesart als Nominalisierung von hat eine zweite Lesart als Nominalisierung von montierenmontieren (2); (2);

SS die Hauptinseldie Hauptinsel kann im Genitiv zu der vorangegangenen NP gehören oder im kann im Genitiv zu der vorangegangenen NP gehören oder im Dativ die Dativ die Käuferin bezeichnen (2); Käuferin bezeichnen (2);

SS die drei Präpositionalphrasen des Relativsatzes können sich in insgesamt siebendie drei Präpositionalphrasen des Relativsatzes können sich in insgesamt siebenKombinationen mit den jeweils vorhergehenden NPs oder mit dem Verb Kombinationen mit den jeweils vorhergehenden NPs oder mit dem Verb

verbinden (7); verbinden (7);

LL verkauftenverkauften zeigt wieder die Ambiguität zwischen Präteritum und Konjunktiv auf zeigt wieder die Ambiguität zwischen Präteritum und Konjunktiv auf (2).(2).

Page 48: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Ambiguität (Beispiel)Ambiguität (Beispiel)

„„Früher stellten die Frauen der Inseln am Wochenende Kopftücher Früher stellten die Frauen der Inseln am Wochenende Kopftücher

mitmit

Blumenmotiven her, die ihre Männer an den folgenden Montagen Blumenmotiven her, die ihre Männer an den folgenden Montagen

auf demauf dem

Markt im Zentrum der Hauptinsel verkauften.Markt im Zentrum der Hauptinsel verkauften.““

Durch Multiplikation ergibt sich die Gesamtambiguität:Durch Multiplikation ergibt sich die Gesamtambiguität:

2 x 2 x 2 x 3 x 3 x 2 x 4 x 2 x 4 x 2 x 2 x 7 x 2 = 2 x 2 x 2 x 3 x 3 x 2 x 4 x 2 x 4 x 2 x 2 x 7 x 2 = 258.048258.048

Page 49: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Wir wollen wissen...Wir wollen wissen...

warum viele ungrammatische Sätze erzeugt werdenwarum viele ungrammatische Sätze erzeugt werden z.B. Sprechfehler, Grammatikfehlerz.B. Sprechfehler, Grammatikfehler

warum viele ungrammatische Sätze verstanden werdenwarum viele ungrammatische Sätze verstanden werden z.B. in der der Kommunikation mit Kindern oder Ausländernz.B. in der der Kommunikation mit Kindern oder Ausländern

warum viele grammatische Sätze nicht erzeugt werden warum viele grammatische Sätze nicht erzeugt werden z.B. durch Präferenzen in der Generierungz.B. durch Präferenzen in der Generierung

warum viele grammatische Sätze nicht verstanden werden warum viele grammatische Sätze nicht verstanden werden z.B. Holzwegsätze z.B. Holzwegsätze

wie die Verarbeitung zeitlich strukturiert ist wie die Verarbeitung zeitlich strukturiert ist z.B. Effizienz, Abfolge der Verarbeitungsschrittez.B. Effizienz, Abfolge der Verarbeitungsschritte

welchen Aufwand die Verarbeitungsschritte erfordern welchen Aufwand die Verarbeitungsschritte erfordern z.B. Abhängigkeiten von anderen kognitiven Belastungenz.B. Abhängigkeiten von anderen kognitiven Belastungen

Page 50: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

GedächtnisbelastungGedächtnisbelastung

Der Wissenschaftler schrieb zwei Bücher über den Ursprung der menschlichen Sprache, die in vielen Fernsehsendungen diskutiert wurden, ab.

Page 51: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Der Wissenschaftler schrieb zwei Bücher über den Ursprung der menschlichen Sprache, die in vielen Fernsehsendungen diskutiert wurden, ab.

GedächtnisbelastungGedächtnisbelastung

Page 52: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

statistische und konnektio- nistische Methoden in der CL

deklarative linguistische Formalismen in der CL

spezielle Verfahren für die CL

direkte Programmierung, keine Trennung von Beschreibung und Verarbeitung

1950 1960 1970 1980 1990

Hauptansätze der CLHauptansätze der CL

Page 53: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Direkte Programmierung in einer traditionellen Programmiersprache.Direkte Programmierung in einer traditionellen Programmiersprache.Keine Trennung von Kompetenz und Performanz, also auch keine Trennung Keine Trennung von Kompetenz und Performanz, also auch keine Trennung von Grammatik und Verarbeitungvon Grammatik und Verarbeitung Beispiele : Beispiele :

SYSTRAN, SHRDLU, frühe SFB 100 SystemeSYSTRAN, SHRDLU, frühe SFB 100 Systeme

Kompetenzmodellierung: Kompetenzmodellierung: als Modelle theoretisch uninteressant, nicht überprüfbar, Kodierung als Modelle theoretisch uninteressant, nicht überprüfbar, Kodierung

linguistisch uninteressant, schwer erweiterbarlinguistisch uninteressant, schwer erweiterbar

Performanzmodellierung:Performanzmodellierung: als Modelle theoretisch uninteressant, weil mit der Kompetenz als Modelle theoretisch uninteressant, weil mit der Kompetenz

vermischt, keine Ansätze zur Integration psycholinguistischer vermischt, keine Ansätze zur Integration psycholinguistischer Erkenntnisse Erkenntnisse

Anwendungspotential:Anwendungspotential:einige wenige Systeme sind zur Anwendungsreife gelangt (z.B. einige wenige Systeme sind zur Anwendungsreife gelangt (z.B.

SYSTRAN), fast nicht mehr erweiterbar, für neue Entwicklungen nicht SYSTRAN), fast nicht mehr erweiterbar, für neue Entwicklungen nicht geeignetgeeignet

Direkte ProgrammierungDirekte Programmierung

Page 54: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Spezielle Verfahren und Beschreibungssprachen wurden entwickelt. Spezielle Verfahren und Beschreibungssprachen wurden entwickelt. Trennung von Kompetenz und Performanz, vielfach noch immer Trennung von Kompetenz und Performanz, vielfach noch immer Vermischung von Wissen und VerarbeitungVermischung von Wissen und Verarbeitung

Beispiele:Beispiele: Augmented Transition Networks (ATN), Augmented Phrase Structure Augmented Transition Networks (ATN), Augmented Phrase Structure

Grammar (APSG), EUROTRA FrameworkGrammar (APSG), EUROTRA Framework

Kompetenzmodellierung: Kompetenzmodellierung: verschieden von den Modellen der Linguistik, als linguistische verschieden von den Modellen der Linguistik, als linguistische

Modelle theoretisch wenig interessant, vielfach Vermischung mit Modelle theoretisch wenig interessant, vielfach Vermischung mit prozeduralen Elementenprozeduralen Elementen

Performanzmodellierung:Performanzmodellierung: wenige aber sehr ernsthafte Versuche, einige Gesichtspunkte der wenige aber sehr ernsthafte Versuche, einige Gesichtspunkte der

Performanzmodellierung zu berücksichtigen, Einflüsse der Performanzmodellierung zu berücksichtigen, Einflüsse der Psycholinguistik, Hindernis ist das Fehlen plausibler Psycholinguistik, Hindernis ist das Fehlen plausibler KompetenzmodelleKompetenzmodelle

Anwendungspotential:Anwendungspotential:fast alle der heute marktreifen Systeme gehören zu dieser Klasse fast alle der heute marktreifen Systeme gehören zu dieser Klasse

(z.B. METAL, Q&A)(z.B. METAL, Q&A)

Spezielle VerfahrenSpezielle Verfahren

Page 55: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Deklarative Grammatikformalismen, in denen sich linguistische Deklarative Grammatikformalismen, in denen sich linguistische Grammatikmodelle und Einzelanalysen kodierenGrammatikmodelle und Einzelanalysen kodieren lassen. Dadurch lassen. Dadurch Aufhebung der Trennung von theoretischer Linguistik und Aufhebung der Trennung von theoretischer Linguistik und Computerlinguistik.Computerlinguistik.

Beispiele:Beispiele: fast alle Unifikationsgrammatikmodelle, neuere semantische fast alle Unifikationsgrammatikmodelle, neuere semantische

Formalismen Formalismen

Kompetenzmodellierung:Kompetenzmodellierung: deklarative linguistisch fundierte Modelle; unabhängig von deklarative linguistisch fundierte Modelle; unabhängig von

Verarbeitungsrichtung, Verarbeitungsreihenfolge und Verarbeitungsrichtung, Verarbeitungsreihenfolge und Verarbeitungsalgorithmen; logisch fundierte Semantik, transparente Verarbeitungsalgorithmen; logisch fundierte Semantik, transparente Modularisierung und Hierarchisierung des Wissens Modularisierung und Hierarchisierung des Wissens

Performanzmodellierung:Performanzmodellierung: deduktive Verarbeitung; in den fortgeschrittensten Systemen erfolgt deduktive Verarbeitung; in den fortgeschrittensten Systemen erfolgt

die Verarbeitung durch Typdeduktion; bisher keine plausiblen die Verarbeitung durch Typdeduktion; bisher keine plausiblen KompetenzmodelleKompetenzmodelle

Anwendungspotential:Anwendungspotential: noch keine marktreifen System, bisher noch mangelnde Effizienznoch keine marktreifen System, bisher noch mangelnde Effizienz

Deklarative FormalismenDeklarative Formalismen

Page 56: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Statistische Verfahren in der akustischen Spracherkennung (Hidden Markov Statistische Verfahren in der akustischen Spracherkennung (Hidden Markov Models), und in der maschinellen Übersetzung; massiv-paralleler Ansatz zur Models), und in der maschinellen Übersetzung; massiv-paralleler Ansatz zur Modellierung der neuronalen Strukturierung des menschlichen Hirns.Modellierung der neuronalen Strukturierung des menschlichen Hirns.

Beispiele:Beispiele: Hidden Markov Models (HMM), Parsing mit neuronalen NetzenHidden Markov Models (HMM), Parsing mit neuronalen Netzen

Kompetenzmodellierung: Kompetenzmodellierung: für die Theoriebildung uninteressant, die Kompetenz ist nicht transparent für die Theoriebildung uninteressant, die Kompetenz ist nicht transparent modelliert, keine Verbindung zu den Theorien der Linguistik, unzureichende modelliert, keine Verbindung zu den Theorien der Linguistik, unzureichende Darstellung der RekursivitätDarstellung der Rekursivität

Performanzmodellierung:Performanzmodellierung:

Lernverfahren, massive Parallelität könnte Schlüssel zum Effizienzproblem Lernverfahren, massive Parallelität könnte Schlüssel zum Effizienzproblem sein, Potential für die Modellierung linguistischer Präferenzen und anderer sein, Potential für die Modellierung linguistischer Präferenzen und anderer unscharfer Konzepte z.B. in der lexikalischen Semantik, Potential für unscharfer Konzepte z.B. in der lexikalischen Semantik, Potential für holistische Ansätzeholistische Ansätze

Anwendungspotential:Anwendungspotential: großes Potential in der akustischen Spracherkennung und in der akustischen großes Potential in der akustischen Spracherkennung und in der akustischen Sprachsynthese, für rein statistische oder neuronale Verfahren geringes Sprachsynthese, für rein statistische oder neuronale Verfahren geringes Potential in der linguistischen VerarbeitungPotential in der linguistischen Verarbeitung

Statistische u. konnektionistische Statistische u. konnektionistische VerfahrenVerfahren

Page 57: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Exkurs: Vorzüge und Nachteile der deklarativen AnsätzeExkurs: Vorzüge und Nachteile der deklarativen AnsätzeExkurs: Vorzüge und Nachteile der deklarativen AnsätzeExkurs: Vorzüge und Nachteile der deklarativen Ansätze

Page 58: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Deklarative Formalismen 2Deklarative Formalismen 2Deklarative Formalismen 2Deklarative Formalismen 2

Linguistische Grammatikmodelle: Linguistische Grammatikmodelle:

 Generalized Phrase Structure Grammar (GPSG),Generalized Phrase Structure Grammar (GPSG),

 Lexical Functional Grammar (LFG), Lexical Functional Grammar (LFG),

 Head-Driven Phrase Structure Grammar (HPSG), Head-Driven Phrase Structure Grammar (HPSG),

 Categorial Unification Grammar (CUG), Categorial Unification Grammar (CUG),

Computerlinguistische Formalismen:Computerlinguistische Formalismen:

 FUGFUG

 PATRPATR

 STUFSTUF

 TFSTFS

 CUFCUF

 TDLTDL

Page 59: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Exkurs: Probleme des neuronalen Exkurs: Probleme des neuronalen AnsatzesAnsatzes

Wenn ein Teil der sprachlichen Kompetenz angeboren ist, Wenn ein Teil der sprachlichen Kompetenz angeboren ist, dann kann der Spracherwerb nicht alleine durch dann kann der Spracherwerb nicht alleine durch neuronale Lernverfahren modelliert werden.neuronale Lernverfahren modelliert werden.

Der Mensch erlernt viele Arten der Sprachverwendung Der Mensch erlernt viele Arten der Sprachverwendung (Performanztypen). Er scheint jedoch die einmal (Performanztypen). Er scheint jedoch die einmal erworbene Kompetenz immer weiter zu verwenden.erworbene Kompetenz immer weiter zu verwenden.

Selbst wenn das System den Anforderungen des Selbst wenn das System den Anforderungen des Erstspracherwerbs technisch gewachsen wäre, müßte die Erstspracherwerbs technisch gewachsen wäre, müßte die Maschine eine ähnliche Sprachsozialisation wie der Maschine eine ähnliche Sprachsozialisation wie der Mensch durchlaufen, was aus vielen Gründen nicht Mensch durchlaufen, was aus vielen Gründen nicht möglich ist.möglich ist.

Rekursion stellt ein Problem für neuronale Netze dar.Rekursion stellt ein Problem für neuronale Netze dar.

Page 60: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

MitteleinbettungenMitteleinbettungen

Der Mann, der die Katze beobachtete, staunte.

Der Mann, der die Katze, die den Vogel jagte, beobachtete, staunte.

Der Mann, der die Katze, die den Vogel, der laut schrie, jagte, beobachtete, staunte.

Page 61: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

MitteleinbettungenMitteleinbettungen

Der Hammer, mit dem der Handwerker, den Peter angerufen hatte, die Nägel einschlug, war mindestens drei Pfund schwer.

Page 62: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

BeobachtungenBeobachtungen

Peter hat den Wagen, der seit Tagen vor der Haustür steht, gekauft.

Peter hat den Wagen gekauft, der seit Tagen vor der Haustür steht.

Peter hat den Wagen, der vor der Haustür steht, langsam und sorgfältig lackiert.

Peter hat den Wagen langsam und sorgfältig lackiert, der vor der Haustür steht.

Der Mann hat dem Jungen, der aus der Schule kam, den Ball gegeben.

Der Mann hat dem Jungen den Ball gegeben, der aus der Schule kam.

Page 63: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

DependenzenDependenzen

Kleine Kinder brauchen viel Liebe

Peter gab dem Jungen den Ball

Kleine Kinder brauchen viel Liebe

Page 64: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

DependenzenDependenzen

weil Peter dem Jungen den Ball, der vor der Haustür lag, gab

weil Peter dem Jungen den Ball gab , der vor der Haustür lag

Page 65: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Das Problem der Sprachbeherrschung ist zu komplexDas Problem der Sprachbeherrschung ist zu komplex

Es gibt viele Anwendungen, die nur begrenzte Sprachbeherrschung benötigen!Es gibt viele Anwendungen, die nur begrenzte Sprachbeherrschung benötigen!

KEINE SPRACHBEHERRSCHUNG OHNE ALLGEMEINES WISSEN KEINE SPRACHBEHERRSCHUNG OHNE ALLGEMEINES WISSEN

SprachumfangSprachumfang

SprachtiefeSprachtiefe

GegenstandsbereicheGegenstandsbereiche

Morphologie

Syntax

Semantik

Pragmatik

Wissensverarbeitung

Worterkennung

Page 66: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Sprachtechnologie und WWWSprachtechnologie und WWW

Die Sprache in der multimedialen Informationsgesellschaft Die Sprache in der multimedialen Informationsgesellschaft

Die Mehrsprachigkeit des WWWDie Mehrsprachigkeit des WWW

Probleme der InformationssucheProbleme der Informationssuche

Das Potential der SprachtechnologieDas Potential der Sprachtechnologie

Multilinguale Suche und NavigationMultilinguale Suche und Navigation

Page 67: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Sprache im WWWSprache im WWW

Sprache ist nur ein Medium auf dem WWW. Sprache ist nur ein Medium auf dem WWW.

Aber unter den verschiedenen Medien hat die Sprache einen besonderen Status.Aber unter den verschiedenen Medien hat die Sprache einen besonderen Status.

Bücher, Filme, Bilder, Musikstücke und Computerprogramme beschreiben und finden wir am Bücher, Filme, Bilder, Musikstücke und Computerprogramme beschreiben und finden wir am besten mit Sprache.besten mit Sprache.

Nur mithilfe der Sprache können wir Wissen strukturieren und sinnvoll vernetzen.Nur mithilfe der Sprache können wir Wissen strukturieren und sinnvoll vernetzen.

Die Sprache ist das Gewebe des World Wide WebDie Sprache ist das Gewebe des World Wide Web

Page 68: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Menschliche SpracheMenschliche Sprache

Die Sprache hat Seiten, die dem Menschen leichtfallen, Die Sprache hat Seiten, die dem Menschen leichtfallen,

dem Computer hingegen schwer.dem Computer hingegen schwer.

Insbesondere:Insbesondere:

Ambiguität: Ambiguität: viele Wörter und Phrasen haben mehrere Bedeutungenviele Wörter und Phrasen haben mehrere Bedeutungen

Paraphrasen: Paraphrasen: es gibt viele Möglichkeiten, das Gleiche auszudrücken es gibt viele Möglichkeiten, das Gleiche auszudrücken

Ungenauigkeit: oft ist die Bedeutung von Ausdrücken unscharfUngenauigkeit: oft ist die Bedeutung von Ausdrücken unscharf

Page 69: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Heutige SuchtechnologieHeutige Suchtechnologie

Wort-IndexWort-Index

Boolsche KombinationenBoolsche Kombinationen

verschiedene verschiedene IndexierungsverfahrenIndexierungsverfahren

eingeschränkte Morphologieeingeschränkte Morphologie

Sortierung nach RelevanzSortierung nach Relevanz

Suche in mehreren SprachenSuche in mehreren Sprachen

More than 35 terabytes served

surch the web for:

Lyca Lyca SurchaSurcha

First 10 of 45.677 matches:

1. research in mutlilingual IR an easier...

Order your free beer today

sweat AND tears

2. Sir Winston S. Churchill homepage of...

4. 60s Rock Timeline remember the best...

3. Shinjuku Yamabuki B$h$&$3$=;%5!

Page 70: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Probleme für heutige SuchmaschinenProbleme für heutige Suchmaschinen

Sie finden nicht genug!Sie finden nicht genug!

Andere WortformenAndere Wortformen

derder Herzog, Herzog, des Herzogs, die Herzögedes Herzogs, die Herzöge

Unter- und ÜberbegriffeUnter- und Überbegriffe

Alfa Romeo Zagato Alfa Romeo Zagato roadster roadster sports carsports car car car motor vehicle motor vehicle vehiclevehicle

ParaphrasenParaphrasen

steuerliche Gründesteuerliche Gründe, Steuergründe, steuerliche Erwägungen, , Steuergründe, steuerliche Erwägungen,

steuerliche Überlegungen, fiskalische Erwägungen, um Steuern zu sparen, ...steuerliche Überlegungen, fiskalische Erwägungen, um Steuern zu sparen, ...

Page 71: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Nehmen wir an, Sie suchten nach AutomobilfirmenNehmen wir an, Sie suchten nach Automobilfirmen

und gäben daher der Suchmaschine (z.B. HOTBOT) den Suchbegriff und gäben daher der Suchmaschine (z.B. HOTBOT) den Suchbegriff

““Automobilfirmen”Automobilfirmen”

Im Englischen suchten Sie nach: Im Englischen suchten Sie nach:

““automobile companies” automobile companies”

Paraphrasen: Ein kleines Paraphrasen: Ein kleines ExperimentExperiment

Page 72: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Paraphrasen: Ein kleines Paraphrasen: Ein kleines ExperimentExperiment

automobile companies automobile companies 704 704 AutomobilfirmenAutomobilfirmen 55 55

Page 73: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Paraphrasen: Ein kleines Paraphrasen: Ein kleines ExperimentExperiment

automobile companies automobile companies 704 704car builders car builders

233233car makerscar makers 18461846auto makersauto makers

23072307automobile makersautomobile makers

181181car companiescar companies

30463046cars companiescars companies

1414motor companiesmotor companies 194 194auto companiesauto companies 13451345car manufacturerscar manufacturers 30563056motor manufacturersmotor manufacturers

582582automobile manufacturersautomobile manufacturers 42634263manufacturers of carsmanufacturers of cars

151151manufacturers of autosmanufacturers of autos

1515manufacturers of automobilesmanufacturers of automobiles

165165manufacturers of motor vehiclesmanufacturers of motor vehicles 55 55

AutomobilfirmenAutomobilfirmen 55 55 AutoherstellerAutohersteller

320320AutobauerAutobauer 131 131AutoproduzentenAutoproduzenten 26 26AutofabrikantAutofabrikant

8989AutofirmenAutofirmen

8686Pkw HerstellerPkw Hersteller

1515Automobilunternehmen Automobilunternehmen 57 57AutomobilherstellerAutomobilhersteller

602602Kfz-HerstellerKfz-Hersteller

4242Autounternehmen Autounternehmen 9 9AutomobilkonzerneAutomobilkonzerne

8383Unternehmen der Automobilbranche 4Unternehmen der Automobilbranche 4Hersteller von Autos Hersteller von Autos

4 4Hersteller von Automobilen Hersteller von Automobilen

1313Hersteller von Kraftfahrzeugen Hersteller von Kraftfahrzeugen 3 3

Page 74: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Weitere ProblemeWeitere Probleme

Sie finden zu viel!Sie finden zu viel!

AmbiguitätAmbiguität

deutsch: deutsch: Zug, Bahn, Leitung, SchalterZug, Bahn, Leitung, Schalter

englisch:englisch: terminal, line, engine terminal, line, engine

PolysemiePolysemie

Buch, Schule, printerBuch, Schule, printer

EigennamenEigennamen

Personennamen: Personennamen: Maurer, Washington, ChaseMaurer, Washington, Chase

Ortsbezeichnungen: Ortsbezeichnungen: Essen, Halle, BismarckEssen, Halle, Bismarck

Page 75: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Das Web ist mutlilingualDas Web ist mutlilingual

Das WWW war anfangs vorherrschend monolingualDas WWW war anfangs vorherrschend monolingual

(1994 - 96% aller WWW Seiten englisch)(1994 - 96% aller WWW Seiten englisch)

Nicht-englische Inhalte nehmen schneller zu. Nicht-englische Inhalte nehmen schneller zu.

(1996 - 91% englisch, heute ca. 85%)(1996 - 91% englisch, heute ca. 85%)

Page 76: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

GGLOBALIZATIONLOBALIZATION OF THE OF THE UUSERSER B BASEASE

Share of US Web Users

0102030405060708090

100

1991 1995 1998 2000

US Web Users in %

Source: ComputerIndustry Almanac Inc.January 1998

80

6555

40

Page 77: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Relevante FaktorenRelevante Faktoren

Entwicklung vom Avantgardemedium zum MassenmediumEntwicklung vom Avantgardemedium zum Massenmedium

Ausbreitung in neue Regionen (Lateinamerika, Asien, arabische Welt)Ausbreitung in neue Regionen (Lateinamerika, Asien, arabische Welt)

Digitalisierung großer Bibliotheken in vielen LändernDigitalisierung großer Bibliotheken in vielen Ländern

Rolle des WWW als globaler HandelsplatzRolle des WWW als globaler Handelsplatz

Rolle des WWW als Medium für politische Information und PropagandaRolle des WWW als Medium für politische Information und Propaganda

Zunahme sozialer und kultureller Inhalte Zunahme sozialer und kultureller Inhalte

Die Zukunft des WWW ist vielsprachig.Die Zukunft des WWW ist vielsprachig.

Page 78: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Noch mehr Probleme! Noch mehr Probleme!

Andere Schriftsysteme müssen kodiert und dargestellt werden:Andere Schriftsysteme müssen kodiert und dargestellt werden:

Chinesisch, Japanisch, Arabisch, Griechisch,...Chinesisch, Japanisch, Arabisch, Griechisch,...

Die Wortbildungsregeln der Sprachen geraten sich ins Gehege:Die Wortbildungsregeln der Sprachen geraten sich ins Gehege:

SkatSkat skatingskatingLimesLimes limelime

Sprachübergreifende Ambiguität stört bei der Suche:Sprachübergreifende Ambiguität stört bei der Suche:

BriefBrief brief overviewbrief overview

PostPost post messagespost messages

Porto Porto Porto travel informationPorto travel information

HautHaut Haut BarrHaut Barr

cutecute cute girlscute girls

Page 79: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Multilingualität als HerausforderungMultilingualität als Herausforderung

Eine große Chance tut sich auf:Eine große Chance tut sich auf:

Es wird möglich sein, durch das niedergeschriebene Wissen der Es wird möglich sein, durch das niedergeschriebene Wissen der Menschheit zu navigieren, ohne an der Sprachgrenze stehenbleiben zu Menschheit zu navigieren, ohne an der Sprachgrenze stehenbleiben zu müssen.müssen.

Diese technologische Herausforderung erfordert aber Fortschritte auf den Diese technologische Herausforderung erfordert aber Fortschritte auf den folgenden Gebieten:folgenden Gebieten:

lexikalische Semantiklexikalische Semantik konzeptuelle Strukturierungkonzeptuelle Strukturierung Verbesserungen in maschineller ÜbersetzungVerbesserungen in maschineller Übersetzung

Page 80: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Maschinelle ÜbersetzungMaschinelle Übersetzung

Die vollautomatische maschinelle Übersetzung (fully automatic Die vollautomatische maschinelle Übersetzung (fully automatic maschine translation – FAMT) beliebiger Texte ist heute nicht maschine translation – FAMT) beliebiger Texte ist heute nicht möglich.möglich.

Das liegt nicht an der linguistischen Verarbeitung der Texte, Das liegt nicht an der linguistischen Verarbeitung der Texte, sondern am fehlenden Wissen der Maschine über die Inhalte.sondern am fehlenden Wissen der Maschine über die Inhalte.

Für sehr eingeschränkte Gegenstandsbereiche und Textarten Für sehr eingeschränkte Gegenstandsbereiche und Textarten können aber brauchbare Übersetzungen geliefert werden.können aber brauchbare Übersetzungen geliefert werden.

Ansonsten dient die maschinelle Übersetzung heute erfolgreich Ansonsten dient die maschinelle Übersetzung heute erfolgreich als Vorstufe für menschliche Übersetzung (machine-assisted als Vorstufe für menschliche Übersetzung (machine-assisted human translation – MAHT).human translation – MAHT).

Page 81: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

MÜ ist dennoch brauchbarMÜ ist dennoch brauchbar

Eine zufriedenstellende automatische Übersetzung beliebiger Texte Eine zufriedenstellende automatische Übersetzung beliebiger Texte ist heute also nicht möglich.ist heute also nicht möglich.

Aber die Technologie liefert Übersetzungen, die den Leser sehr wohl Aber die Technologie liefert Übersetzungen, die den Leser sehr wohl das Thema und die wesentlichsten Inhalte erkennen lassen.das Thema und die wesentlichsten Inhalte erkennen lassen.

Wir arbeiten mit dem Übersetzungssystem LOGOS.Wir arbeiten mit dem Übersetzungssystem LOGOS.

Andere große Übersetzungssysteme (SYSTRAN, METAL) werden Andere große Übersetzungssysteme (SYSTRAN, METAL) werden ebenfalls für WWW Anwendungen eingesetzt.ebenfalls für WWW Anwendungen eingesetzt.

Die Übersetzungen nennen wir indikative Übersetzungen. Die Übersetzungen nennen wir indikative Übersetzungen.

Page 82: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Indikative ÜbersetzungIndikative Übersetzung

Page 83: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Multilinguale NavigationMultilinguale Navigation

multilingualemultilingualeSucheSuche

multilingualemultilingualeSchnittstelleSchnittstelle

für die für dieNavigationNavigation

mehrsprachigesmehrsprachigesAngebot im WebAngebot im Web

Page 84: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Mulinex KonsortiumMulinex Konsortium

Bertelsmann

TRADOSDeutschesForschungszentrum für Künstliche Intelligenz GmbH

DAT MA ATingegneria dei sistemi

© Hans Uszkoreit 1998

Das Konsortium

Page 85: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

mulinex: die englische Suchseitemulinex: die englische Suchseite

Page 86: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

mulinex: englische Eingabemulinex: englische Eingabe

Page 87: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

mulinex: Einschränkung der Suchemulinex: Einschränkung der Suche

Page 88: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

mulinex: Anzeigemulinex: Anzeige

Page 89: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

mulinex: Anzeige (Ausschnitt)mulinex: Anzeige (Ausschnitt)

Page 90: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

mulinex: Zusammenfassungmulinex: Zusammenfassung

Page 91: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

carcar

KonzeptindexKonzeptindex

Page 92: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

carcarPersonenautoPersonenautoAutoAutomobil

KonzeptindexKonzeptindex

Page 93: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

carcarPersonenautoPersonenautoAutoAutomobil

KonzeptindexKonzeptindex

...Kraftfahrzeuge für Personen...

Page 94: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

carcarPersonenautoPersonenautoAutoAutomobil

automobile autocar

KonzeptindexKonzeptindex

...Kraftfahrzeuge für Personen...

Page 95: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

carcarPersonenautoPersonenautoAutoAutomobil

automobile autocar

KonzeptindexKonzeptindex

...location de voitures......Kraftfahrzeuge für Personen...

Page 96: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

KonzeptindexKonzeptindex

motor vehiclemotor vehicle

carcar trucktruck

sports carsports car

...Kraftfahrzeuge für Personen...

tank trucktank truck

PersonenautoPersonenautoAutoAutomobil

automobile autocar

...location de voitures...

Page 97: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

KonzeptindexKonzeptindex

SprachidentifikationSprachidentifikation

Lexikalische DesambiguierungLexikalische Desambiguierung

Flache syntaktische AnalysetechnikenFlache syntaktische Analysetechniken

Aufbau eines phrasalen IndexAufbau eines phrasalen Index

multilinguale Terminologienmultilinguale Terminologien

Paraphrasen-GlossareParaphrasen-Glossare

BenötigteTechnologien:BenötigteTechnologien:

Page 98: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

AusblickAusblick

Die Strukturierung des digitalen menschlichen Wissens ist eine Die Strukturierung des digitalen menschlichen Wissens ist eine der großen Herausforderungen des nächsten Jahrhunderts.der großen Herausforderungen des nächsten Jahrhunderts.

Die Sprachtechnologie ist eine Schlüsseltechnologie für dieses Die Sprachtechnologie ist eine Schlüsseltechnologie für dieses ehrgeizige Vorhaben,ehrgeizige Vorhaben,

denn die Sprache ist das Gewebe des Wissens. denn die Sprache ist das Gewebe des Wissens.

Page 99: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Sprachtechnologien im ÜberblickSprachtechnologien im Überblick

Page 100: © 2000 Hans Uszkoreit Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit Wintersemester 01/02

© 2001 Hans Uszkoreit

Sprachtechnologie in der WirtschaftSprachtechnologie in der Wirtschaft