WS 05/06Automatische Akquisition linguistischen Wissens1 Theoretische Grundlagen 1.Ziele 2.Empirie vs. Introspektion 1.C. S. Peirce 2.de Saussure 3.L

WS 05/06 Automatische Akquisition linguistischen Wissens 1

Theoretische Grundlagen

1. Ziele

2. Empirie vs. Introspektion1. C. S. Peirce

2. de Saussure

3. L. Hjelmslev

3. Hypothesen

4. Sampling: Repräsentativität und Balanciertheit von Korpora


1. Ziele

• Erstellung und Vervollständigung von Sprachressourcen hat Tradition, die mehrere Jahrhunderte zurückreicht:– Ursprünglich hauptsächlich mit normativem Charakter

– Vorwiegend Sammlungen von Wortlisten evtl. mit kurzen Erläuterungen

– Wörterbücher

• Ziel von Linguisten war auch die Sprache als Objekt zu beschreiben und untersuchbar zu machen– Dabei rückten immer weitere Bereiche der Sprache in das

Blickfeld der Forscher: Wortliste mit Belegstellen, Grammatiken, Phonologie, Textstrukturen usw.

– Mit dem Beginn der „Chomsky-Ära“ besonderer Augenmerk auf zunehmende umfangreichere Grammatikregelsammlungen


1.1. Einfluss der Computerverfügbarkeit

• Später zunehmende Verfügbarkeit von Rechnern und ihrer Kapazität

• Damit Wandlung von Untersuchung von Sprache von theoretischer Übung (mit vereinzelten Applikationen wie in früher Psycholinguistik) hin zu Anwendungen

• Erste Anwendungen im Information Retrieval: – Wortliste für Index und

– Grundformreduzierung für Komprimierung des Index

– Thesaurus für Suchanfragenerweiterungen

• Weitere Anwendungen folgten, wie – Rechtschreibkontrolle

– Bibliotheksverwaltungen (Taxonomien, Stichworte)

– …


1.2. Großrechensysteme

• In den 70er und 80er Jahren Mainframes und Großrechensysteme:– entsprechend gering nahmen sich die Kosten für die Erstellung

von Ressourcen wie Taxonomien, Thesauri u.ä. neben den Kosten für die Konstruktion und Betrieben der Systeme aus.

– Die Auswahl der betreffenden Sprachen gering: Englisch und vielleicht noch Deutsch/Spanisch/Französisch

• Gleichzeitiger Einfluss der „Chomskianer“ führte zu einem überproportionalem Fluss der Mittel in die Erforschung von Parsern und Sprachgenerierern, die zunehmend Grammatik beherrschten, sonst aber nichts– Aber auch dafür teils gigantischer Aufwand an manueller Arbeit

für Trainingsmengen und/oder Regelmengen

• Bis dahin nur wenig alternative Forschung: Zipf 40er, Firth, Harris 50er, 60er


1.3. Personal Computers

• In den 90er bis zur heutigen Zeit mehrere Faktoren:– Abnehmende Bedeutung von Großrechensystemen zugunsten von

Personal Computers (PCs)– Explosionsartig wachsende Textmengen– Entsprechend wachsende Anwendungsbereiche und Bedarf für

Sprachtechnologie– Zunehmende Verschiedensprachlichkeit

• Mit neuen Sprachen kamen auch neue Probleme, die in bewährte Konzepte nicht mehr passten

– Ernüchterung über Sprachtechnologie (siehe Verbmobil), speziell über was sich mit einem perfekten Grammatiksystem überhaupt erreichen lässt

• … führten zu einem stetigen wiederaufleben Empiriebasierter, d.h. Korpusbasierter Forschung und möglichst automatischen Ansätzen zur Ressourcengewinnung


1.4. Aktuelle Zielstellungen

• Erstellung von möglichst umfangreichen Sprachressourcen unter Einsatz von möglichst wenig manueller Arbeit– Dafür (fast) beliebig viel Rechenleistung– Auch (fast) beliebig viel Text, dieser aber größtenteils roh

• Art des linguistischen Wissens, bzw. Struktur der Sprache:– Grammatik– Wortklassen, Textstrukturen– Wortbedeutungen, Redewendungen– Synonyme, Meronyme, Antonyme, …– auch weniger hilfreiche Ressourcen wie Merkmalsmatrizen für

Dependenzgrammatiken

• Ziel ist also die Entwicklung von Methoden, mit den sich möglichst viele Sorten der Ressource „linguistisches Wissen“ aus dem billigen Rohstoff „Text“ extrahieren lässt


2. Empirie vs. Introspektion

• Introspektion:– Annahme der Existenz einer Universalgrammatik, die es zu

entdecken gilt

– Basierend auf dem eigenen Verständnis von Sprache versuchen, diese umfassend zu verstehen und zu beschreiben

– Ergebnis: „Beschreibung“ in Form eines Regelwerks oder Algorithmus, welcher in der Lage ist, Sprache korrekt zu verarbeiten (generieren, verstehen, entscheiden ob etwas korrekt ist usw.) (und das ganze verallgemeinerbar auf andere Sprachen)

• Empirie:– Basierend auf einer endlich großen Beobachtung versuchen, diese

umfassend zu verstehen und zu beschreiben (wie Dekodierung einer chiffrierten Nachricht)

– Ergebnis: Komplette Beschreibung aller Strukturen einer Sprache


2.1. „Strukturalismus“

• Beschreibung aller Strukturen

• Bedeutung von Einheiten ergeben sich aus Struktur, bzw. Benutzung oder Bezug zu anderen Einheiten und ist somit berechenbarWittgenstein: TPL 3.326: Um das Symbol am Zeichen zu erkennen,

muss man auf den sinnvollen Gebrauch achten

• Wie Puzzle:

Jdi hfif obdi Ibvtf.

Jdi tdixjnnf obdi Ibvtf.

Jdi sfoof obdi Ibvtf.

• Mit brute force wie beim Puzzle jedoch nicht lösbar, da zu komplex und im Gegensatz zum Puzzle keine eindeutige Lösung

Ich gehe nach Hause.Ich schwimme nach Hause.Ich renne nach Hause.


2.2. Charles Sanderson Peirces Sprachwissenschaft

Peirce vor allem Logiker (führte Wahrheitstabellen ein, führte Standardnotation für Wahrheitslogik erster Ordnung ein)

Methode: Abduktion („Wo Rauch ist, ist Feuer“) als Vorstufe zu Induktion (Vom einzelnen auf’s Allgemeine) und Deduktion (Vom Allgemeinen auf’s einzelne)

Bedeutung ist mehrschichtig:• Monadische, erste Ordnung und zweite Ordnung Relationen• Zeichen, existiert in einer monadischen Relation zu sich selbst• Als zweite Schicht gibt es die Relationen erster Ordnung wie Zeichen-

Objekt, Zeichen-Interpretant und Interpretant-Objekt, diese weiter unterteilt in – ikonische Relationen– Indexische Relationen– Symbolische Relationen

• Als dritte Schicht die triadische Relation zweiter Ordnung Zeichen-Interpretant-Objekt


2.2.1. Peirce II

• Ein Interpretant ist unterteilt in mehrere verschiedene Typen:– Unmittelbarer Interpretant: direkte Wahrnehmung, hat mit der

unmittelbaren Bedeutung/Wert des z.B. Objekts zu tun– Dynamischer Interpretant: Alles mögliche, was eine Person von

einem Zeichen in einem spezifischen Kontext ableiten kann– Logischer Interpretant: Ist die Wirkung von Zeichen, dass sie

selbst wiederum für andere Zeichen stehen können

• Wird auch zu Strukturalisten gezählt, weil eine gegenseitige Abhängigkeit der Bedeutungen von Wörtern vorschlug– „Struktur“ der Bedeutung zwischen einzelnen Wörtern– Wenn die Bedeutung eines Wortes sich ändert, ändert sich

geringfügig auch die Bedeutung der mit diesem in Relation stehenden

• Aber wird auch insb. von Chomsky gern als „Vater“ seiner UG gesehen


2.3. Ferdinand de Saussures „Cours de Linguistique“

• Sprache ist ein „Objekt“ und kann als solches untersucht werden• Jede linguistische Einheit ist strukturiert und Bestandteil einer

Struktur und steht in syntagmatischen (eher in konkreten Äußerungen) und assoziativen (paradigmatischen) Relationen (eher allgemein) zu anderen

• Es gibt sprachliche Ebenen (Phonologie, Morphologie, Wortebene, Satzebene usw.) und die syntagmatischen und paradigmatischen Prinzipien gelten für jede Ebene– Ein Haus ge-geb-en– Ein Gedicht ge-schrieb-en

• Sprache ist dynamisches System (Bedeutung eines Wortes hängt mit Bedeutungen anderer Wörter zusammen)

• Gleichzeitig statisches System (synchronisch) und kontinuierliche Entwicklung (diachronisch)


2.4. Louis Hjelmslevs

Formulierter als erster 74! explizit das Strukturalistische Prinzip, wobei Jakobson ca. 1928 oder 1929 in den Travaux du Cercle Linguistique de Prague diesen Begriff als erster Verwendete

Ziel der Linguistik ist die Exploration von Sprachlichen Systemen, welche nur indirekt beobachtbar sind.

Durch derartige Explorationen sollte man ein Kalkül (Verwendung fast Synonym zu Algorithmus) erhalten, welches es erlaubt, alle Möglichkeiten von Kombinationen von sprachlichen Einheiten zu Sinnvollen Einheiten zu berechnen.

• Ziel ist die Erstellung der Beschreibung einer Sprache• Die Beschreibung muss Widerspruchsfrei und so einfach wie möglich sein• Die Vollständigkeit ist wichtiger als das Abhandensein von WidersprüchenNur unter Verwendung der richtigen empirischen Mittel kann es möglich sein, das

Kalkül zu finden.Seine Formulierungen schließen allerdings diachronische Entwicklung von

Sprache im großen und ganzen aus.


2.5. Begründer des Strukturalismus: Unterschiede

Peirce De Saussure Hjelmslev

•Bedeutung: 3 Teile–Zeichen

–Objekt

–Interpretant/ Konzept

•Zeichen 2 Teile, Konzepte und Laut/Zeichenbilder

•Bedeutung: 3 Teile–Zeichen

–Objekt

–Interpretant/ Konzept

Bedeutung dynamisch

•Unterteilung von Sprache in mehrere Sprachlevels

•Dabei paradigmatische und syntagmatische Relationen als Grundprinzipien auf jedem Level


2.6. Empirie: Zusammenfassung

• Beobachten: unabhängige Experimente, um die untersuchte Sprache auf Einzelaspekte und Zusammenhänge zu untersuchen.– Ziel ist möglichst viele Effekte zu finden

– Mindestens so viele Beobachtungen, um Verallgemeinerungen zuverlässig zu ermöglichen – d.h. nicht alle möglichen Beobachtungen müssen erfolgen

• Lernen: Regelmäßigkeiten verallgemeinern, Hypothesen formulieren, um Gründe für die Zusammenhänge und Regelmäßigkeiten zu finden

• Verifizieren: Alle Hypothesen müssen stets verifiziert werden– Ein gelerntes System kann nie als wirklich vollständig verstanden

werden, höchstens aktuell


E. Welche Mittel?

Aufgabe: Bestimmen Sie für jede Sprache welches die korrekten Übersetzungen sind.

• Alphabetische Sortierung hilft gar nicht

• Dafür aber Wortlänge – aber nur in diesem Beispiel

Welche Mittel sind universell einsetzbar?

Deutsch Englisch Tschechisch Spanisch Russisch

Bahnhof book já estación вокзал

Buch I kniha libro книга

Ich train-station nádraží yo я


E.1. Weitere einfache Mittel: Frequenz

Läßt sich vielleicht Frequenz nutzen?

• Fluß 7013

• Flußbett 419

• Flußbecken 6

• Flußbebauungen 1

Oder für Übersetzungen?

Deutsch 24Mio Englisch 13Mio

Bahnhof 13776 book 35097

Buch 72809 I 431454

Ich 551784 train-station 15356*

Dampf 2363 steam 6671


3. Hypothesen

• Komplexer ist das Generieren von Hypothesen:• Ausgehend von Beobachtungen Regelmäßigkeiten feststellen

und versuchen, ein Modell zu konstruieren, welches korrekte Voraussagen trifft und die Regelmäßigkeiten allen erklärt

• Beispiel: -e Suffix im Deutschen– Frage: Wann tritt es auf, wann nicht?– Schule, Sonne, Plätze, Schirme, …– Schule, Sonne, Platz, Schirm, …

• Vermutung: Es gibt ein Merkmal, welches bei manchen Wörtern dafür sorgt, dass der –e Suffix in manchen Kontexten auftritt– Plural – aber warum tritt es bei manchen Wörtern immer auf?– Genus

• Wie gelangt man zu diesen Erkenntnissen?


3.1. Generelle vs. Spezifische Hypothesen

• Generelle Hypothesen, die vermutlich immer und für jede Sprache gelten, aber so generell sind, dass sie nicht unmittelbar „nützlich“ sind:– Sprache ist ein System mit Struktur– Prinzip der Linearität– Prinzip der Arbitrarität– Daraus abgeleitet syntagmatische und paradigmatische Relationen,

bzw. das Prinzip der Konkatenation und Abstraktion– Prinzip der Redundanz– Prinzip des geringsten Aufwandes (Zipfsches Gesetz)– Diachrone vs. Synchrone Sprachwissenschaft

• Dagegen stehen Hypothesen, die nur für eine Sprache oder Sprachfamilie gelten und die gilt es, automatisch generieren zu lassen


3.1.1. Struktur der Sprache

• Dass Sprache ein strukturiertes System ist, ist heute evtl. offensichtlich, war aber nicht immer so

• Lange Zeit bis de Saussure und den Junggrammatikern (in Leipzig!) folgende Auffassung:– Wörter sind eine Liste von Zeichen, die mehr oder weniger eins zu

eins mit Objekten in der Welt verbunden sind

– Sprachliche Äußerungen durch Grammatik definiert

– Alle Sprachen funktionieren alle mehr oder weniger wie die Indo-Germanischen

– Historische Grammatik war Hauptuntersuchungsgegenstand und man versuchte Grammatik einer jeweiligen Sprache als von ultimativ Sanskrit abstammend darzustellen, unter (mit Einhergang der Aufklärung) Beachtung von „nationalen“ Eigenheiten


3.1.2. Linearität

• Phoneme, Morpheme, Wörter usw. werden beim Sprechen in eine lineare Form gebracht– Weil nicht mehrere gleichzeitig produziert und auch nicht verarbeitet

werden können– Erklärungen warum das der Fall ist uneinheitlich (Frage: Wenn unser

Sprechapparat mehrere Phonome/Wörter gleichzeitig produzieren könnte, würden wir nicht-lineare Sprache sprechen?)

– Wahrnehmung ist jedoch nicht linearisiert – Linearität dient lediglich der Kodierung von Nachrichten. Allerdings entspricht Linearität von Nachrichten auch unserer Gedanken verkettenden Denkweise, was ein Grund für die intuitive Form von Sprache sein könnte

• Es gibt Hinweise oder Versuche, Abweichungen von diesem Prinzip zu finden– z.B.: Linearität liegt auch den generativen Grammatiken zugrunde –

etwas, was Chomsky lange nicht wahrhaben wollte (lt. Roy Harris), allerdings alle Transformationsregeln haben das Ziel, eine sog. Oberflächenstruktur zu produzieren, die linear ist. Wenn es das Ziel nicht gäbe, würden voraussichtlich auch die Regeln nicht existieren

Siehe auch Good03.pdf auf Webseite


3.1.3. Arbitrarität

• Form von Zeichen hat im Allgemeinen nichts mit den Eigenschaften oder dem Objekt selbst zu tun, mit welchem es assoziiert wird– Dass viele Sprachen ein sehr ähnliches Wort für z.B. Katze (kot,

kocka, cat, kitten, …) verwenden hat lediglich historischen Ursprung!

– Allerdings kann in einem bestehenden System nicht eine arbiträre Änderung vorgenommen werden, bzw. sie würde nicht akzeptiert. Sie ist es unter Umständen möglich ein neues Wort einzuführen wie „nachbokatzt“, aber auf keinen Fall „sdkkflllwre“

• Sprache ist ein Code, auf den sich alle Sprecher einigen und der in dem aktiven Sprachgebrauch in „Einvernehmen“ verändert werden kann.


3.1.4. Sprachliche Ebenen

Struktur der Sprache setzt sich aus mehreren Ebenen zusammen und auf jeder Ebene gibt es

• Konkatenation, generiert lineare Struktur– Regeln ermöglichen Eingrenzung von Möglichkeiten und stellen aller

Wahrscheinlichkeit nach etwas wie eingeschliffene Verhaltensmuster dar: Ein Garten kann vielfältige Arten umgegraben werden, wenn man sich aber an eine gewöhnt hat, wird man immer diese benutzen

• Abstraktion, ermöglicht Selektion über Abstraktionsklassen– Stellt alle Arten von Ähnlichkeitsassoziationen dar

• Katze ist etwas ähnliches wie Hund, allerdings auf andere Art und Weise als

• Schraubenschlüssel und Spaten, was schwächer ist, als

• Schraube und Mutter

• Die beiden Prinzipien gelten für jede einzelne sprachliche Ebene


3.1.5. Redundanz

• Warum reicht es nicht, „Peter Haus verl“ zu sagen, um auszusagen, dass Peter das Haus vor 5 min verlassen hat, um zur Arbeit zu gehen?– Rauschen (Fahrzeuggeräusche, Türklappern, Wind, …) sorgt

dafür, dass eigentlich nur Bruchstücke des gesagten beim Zuhörer ankommen

– Zuhörer evtl. nicht informiert über Kontext

• „Peter hat sein eigenes Haus vor 5 Minuten *** und ging ***, um ein Geld zu verdienen“ – Obwohl in diesem Fall zwei Wörter komplett verloren gegangen

sind, kann ein Zuhörer den Inhalt des Satzes rekonstruieren

– Der Rekonstruktionsprozess wird selbst dann erfolgreich sein, wenn Zuhörer über Kontext nicht informiert war


3.1.6. Prinzip des geringsten Aufwandes

Laut George Kingsley Zipf: • Optimal für den Sprecher: Der Sprecher würde am liebsten alles mit einem

Wort sagen– Leider müssten sich beide Sprecher und Zuhörer unendlich viele Wörter merken

• Optimal für den Zuhörer: Wenn alles genauestens gesagt wird, so dass er kaum Arbeit beim Verstehen hat.

– Leider müssten beide ziemlich lange beschäftigt sein, zu reden und zuzuhören jeweils

• Jede Äußerung stellt daher Optimale Abwägung zwischen wie viel muss der Sprecher sagen, so dass der Zuhörer es gerade noch versteht

– Damit gehen viele Gesetzmäßigkeiten einher, wie Verteilung von Worthäufigkeiten, Strukturen, Wendungen etc.

– Wenn alle Wörter gleich häufig wären, müssten beide Zuhörer und Sprecher alle kennen, denn schon 10% fehlende Wörter würde ein Verständnis stark erschweren.

– Wenn jedoch Zipfsche Verteilung zugrunde liegt und Sprecher 100.000 Wörter kennt, während Zuhörer nur 10.000 (also 90% nicht kennt!!), ist Verständnis immer noch möglich, da die 10.000 eine über 95% Textabdeckung garantieren!


3.1.7. Diachron vs. synchron

• Dass Wort Fenster selbst hat historischen Ursprung im Lateinischen

• Dass es allerdings Fenster wie Meister und Muster heißt statt *Fenschter, *Meischter und *Muschter lässt sich eher im derzeitigen Zustand des Gesamtsystems der derzeitigen Sprache erklären

• Entgegen vielen Fehlinterpretationen heißt das allerdings nicht, dass wenn das synchrone System untersucht wird, dass die diachronen Faktoren keine Rolle spielen – im Gegenteil, sie sollen gerade, allerdings auch als solche beachtet werden

• Allerdings da ein Mensch normalerweise auch eine Sprache lernen kann, ohne Ursprünge überhaupt zu kennen, sollte es auch möglich sein, entspr. Algorithmen zu erstellen


4. Sampling

• Um Regelmäßigkeiten beobachten zu können und darüber Verallgemeinerungen anstellen zu können, muss die jeweilige Sprache als beobachtbarer Gegenstand vorliegen– Als Erzählung, sprechen

– Auf Papier vor allem seit der Erfindung des Massendrucks

– Auf Tonband seit Erfindung von Aufnahmetechniken

– Elektronisch seit es Computer gibt

• Derzeitig am einfachsten, wenn komplett elektronisch verfügbar, am ähnlichsten den Lernumständen eines Kindes von Tonaufzeichnungen– Allerdings direkt von Tonaufzeichnungen lernen zu lassen ist

Unsinn, da auch das Kind zunächst Unterscheidung von Phonemen, Morphemen und Wörtern lernt


4.1. Annotationen und Evaluation

• Da ein Korpus dazu verwendet werden soll, davon automatisch Algorithmen lernen zu lassen, ist Annotation (der zu lernenden Strukturen) eigentlich überflüssig.

• Jedoch stellt sich nach dem Lernschritt die Frage, wie gut denn das Ergebnis war.

• Ergebnis kann mit manuell erstellten (Teil-)Annotation verglichen werden und unter der Annahme, dass Annotationen richtig waren (nicht selbstverständlich!), kann dann bestimmt werden, ob Algorithmus „gut“ funktioniert hat– Gut bedeutet dann entsprechend den Erwartungen, die in Form von

Annotationen definiert wurde• Allerdings gibt es auch andere indirekte Wege der Evaluierung (z.B.

Applikationsbasiert oder direkte Stichprobenbasierte Bewertung d. Ergebnisse)

• Standard ist jedoch Grundlegende Annotation von Text-, Absatz-, Satz- und Wortgrenzen und für den Fall von Tonaufnahmen eine oder mehrere Transkriptionen


4.2. Korpusgröße

Eine der ersten Fragen, die sich stellen, ist die erforderliche Korpusgröße• Natürlich ist intuitiv mehr besser.

– Allerdings nicht immer: Korpus aus 50% Zeitungs- und 50% Literatur verdreifachen durch Zeitungstext: Balance 16% Literatur und 84% Zeitung!

– Wenn Algorithmus z.B. 80% Precision auf (Trainings)Korpus der Größe X erreicht, und Korpus auf 2*X verdoppelt wird, dann wird er Alg. nicht doppelt so gut (also 90% Precision, Fehlerrate halbiert). Oft eher nur logarithmische Annäherung an Maximum

• Die andere Frage ist nach der Zielstellung: Wenn ein Algorithmus eine Struktur erkennen soll, reicht weniger, als wenn er wenigstens 10.000 korrekte Einträge in diese Struktur finden soll (z.B. Wortklassen)

• Hängt mit der einfacheren Frage zusammen, wie viel Text beobachtet werden muss, um das 50.001ste verschiedene Wort zu entdecken (Zipfsches Gesetz)

• Generell ist hängt Antwort sowohl von Sprache als auch von der Qualität des Algorithmus an, wie auch davon, wie sehr die zu beobachtende Struktur von anderen abhängt und wie deutlich sie überhaupt ausgeprägt ist. (z.B. Genus schwächer im Deutschen als im Tschechischen)


4.3. Balanciertheit, Repräsentativität

Die zweite Frage beim Erstellen eines Korpus stellt sich nach Inhalt, bzw. dass das Korpus repräsentativ für die jeweilige Sprache sein soll und Balanciert

• representative: A single item of information that is representative of a type (WordNet)– Somit muss nicht jedes Element eines „Typs“ vorkommen– Allerdings genügend Elemente, um einen „Typ“ von allen anderen

unterscheiden zu können– Repräsentativität kann auch gegenüber Perzeption verstanden werden,

also Zeitung vs. Fernseher vs. Radio vs. Literatur (Czech National Corpus)

– … oder gegenüber Textkategorien (Brown and British National Corpus)

• balance: harmonious arrangement or relation of parts or elements within a whole (WordNet)– Versuch, einige Gesichtspunkte wie Textkategorien gegeneinander zu

balancieren, so dass nicht eins über- oder unterrepräsentiert ist


4.3.1. Einfluss von nicht-Repräsentativität

Es ist wichtig, sich Gedanken über die Effekte von Nicht-repräsentativität• Wenn z.B. „nur“ ein Zeitungstextkorpus genommen wird, was bedeutet das

für Ergebnisse von– Textklassifizierungsalgorithmen– Sachgebietsklassifizierung– Wortklassenerkennung– Morphologiezerlegung– Extraktion von Redewendungen

• Oft ist Domänenspezifischkeit explizit gewollt:– z.B. Wenn eine Versicherungsfirma ein Emailklassifizierungsprogramm installiert

ist es evtl. nicht wichtig, dass dieses genau zwischen Wirbel- und Wirbellosen Tieren unterscheiden kann

– Diese Domänenabhängigkeit ist mit einem Korpus von Dokumenten aus dieser Domäne automatische gegeben.

• Die Schwierigkeit gestaltet sich eher darin, ein Korpus zu gestalten, auf welchem Algorithmen für jedermann intuitive Resultate liefern würden

– da „jedermann“ durchaus unterschiedliche Individuen bezeichnet und – „Badezimmersituationen“ schwer in Korpora abbildbar sind


4.4. Komplettheit

• Können zwei Korpora Repräsentativ für eine Sprache sein, wenn sie nicht einen einzigen Satz/Text gemeinsam haben?– Streng mathematisch: Ja, wenn die Definition einer Stichprobe

zugrundegelegt wird: (Eine Umfrage, die 1000 zufällig gewählte Menschen befragt wird entspr. Auch auf das gleiche Ergebnis kommen, wie eine Umfrage, die andere 1000 Menschen befragt)

• Ab wann ist ein Korpus „komplett“ bezüglich der gewünschten zu beobachtenden Regelmäßigkeiten?– Test, ob ein Korpus bereits komplett genug ist: Wenn Algorithmus auf

einer zufällig zusammengestellten Hälfte des Korpus zu vergleichbaren Ergebnissen kommen, wie auf anderer Hälfte

– Wenn allerdings z.B. die „gelernten“ Sachgebiete sich auf beiden Hälften stark unterscheiden, ist das (nur) ein Hinweis darauf, dass Gesamtkorpus noch nicht repräsentativ ist

• Ebenfalls wichtig zu wissen, ob ein Phänomen nur ein Spezifikum eines Korpus darstellt – z.B. wenn alle Text mit Dear … oder Hello, beginnen, handelt es sich um

einen Emailkorpus und daraus kann nicht abgeleitet werden, dass alle Text in dieser Sprache so anfangen!


4.5. Diachronisch vs. synchronisch

• Gewöhnlicherweise wird bei Erstellung eines Korpus darauf geachtet, Texte aus einem möglichst engen Zeitraum auszuwählen– Dadurch wird z.B. Bedeutungsänderung von Wörtern größtenteils

vermieden– Historische Änderungen durch Lautverschiebungen und ähnliches

muß ebenfalls nicht berücksichtigt werden

• Andererseits ist es mitunter gerade von Interesse, historische Änderungen qualitativ und quantitativ zu erfassen– z.B. Für Neuauflage des Dornseiff mussten nicht mehr

gebräuchliche Wörter entfernt und neue aufgenommen werden (Schwierigkeit bestand auch darin, dass entspr. Alter Vergleichskorpus nicht vorhanden war)

– Oder auch direkter Nutzen siehe Wörter des Tages: http://wortschatz.uni-leipzig.de/wort-des-tages


Zusammenfassung

• Die Erkenntnis von Sprache als strukturiertes System hat zu der Möglichkeit geführt, Sprache unabhängig von kognitiven Prozessen als auch von der Welt in der sie entstand zu untersuchen

• Die Verfügbarkeit von Computern ermöglicht aufwändigste Algorithmen, die den Lernprozess des Menschen teilweise simulieren

• Allgemeine Prinzipien von Sprache können nach und nach in ein System implementiert werden, welches idealerweise auch mit neuen, bisher ungesehenen Sprachen zurecht kommt

• Eventuell muss eine neue Unterscheidung eingeführt werden, bei der zunächst ein Algorithmus die Struktur entdeckt und ein darauf folgender Algorithmus diese Struktur mit (möglichst allen) Elementen befüllt


Documents

WS 05/06Automatische Akquisition linguistischen Wissens1 Theoretische Grundlagen 1.Ziele 2.Empirie vs. Introspektion 1.C. S. Peirce 2.de Saussure 3.L