Entwurf eines agentengestütz ten Systems zur Paradigmenbildung
Magisterarbeit im Fach Informationsverarbeitung
Bei Prof. Dr. Jürgen RolshovenInstitut für sprachliche Informationsverarbeitung
Universität zu Köln
Vorgelegt am 19. 7. 2004 vonStephan SchwiebertSimrockstraße 59
50823 KölnMatrikelnummer : 3199711
- 2 -
Inhaltsverzeichnis
1. Einleitung ...................................................................................................................21.1 Zielsetzung dieser Arbeit ...............................................................................21.2 SEMALD...............................................................................................................31.3 Paradigmatische und syntagmatische Relationen ...................................4
2. Auf Distributionsanalyse basierende Modelle im Vergleich .....................112.1 ABL.....................................................................................................................122.2 SPM.....................................................................................................................142.3 ADIOS................................................................................................................17
3. Der SOG- Algorithmus ..........................................................................................233.1 Details des SOG- Algorithmus ...................................................................25
3.1.1 Erkennung paradigmatischer Relationen ........................................253.1.2 Filterfunktionen ......................................................................................283.1.3 Integration paradigmatischer Strukturen .......................................323.1.4 Rekursivität der Datenstrukturen .....................................................363.1.5 Fähigkeiten von SOG.............................................................................37
3.2 Das Data Sparseness Problem ...................................................................423.3 SOG als Agentensystem ...............................................................................44
3.3.1 Anwendung des Agentensystems ......................................................47
4. Empirische Daten ..................................................................................................494.1 Beschreibung der Korpora ..........................................................................504.2 Auswertung der empirischen Daten ........................................................54
5. Transition Networks .............................................................................................59
6. Zusammenfassung und Fazit ............................................................................62
7. Literatur ...................................................................................................................66
Anhang A: Übersicht der häufigsten Wörter des Korpus ...............................69Anhang B: Inhalt der beiliegenden CD- ROM.....................................................70Anhang C: Die Anwendung SOG............................................................................73
- 1 -
1. Einleitung
1.1 Zielsetzung dieser Arbeit
In dieser Arbeit soll ein System zur automatischen Paradigmenbildung
entworfen werden. Ziel der Arbeit ist es daher nicht, ein funktional in
allen Aspekten vollständig implementiertes Programm vorzustellen,
sondern die Machbarkeit eines solchen Vorhabens aufzuzeigen. Dazu
wurden grundlegende Teile des Entwurfs implementiert, erweiterte
Funktionen werden hingegen nur diskutiert, und auch Optimierungen
sowohl in Bezug auf die benötigten Ressourcen (Laufzeit, Speicherbedarf)
als auch auf die Güte der Lösungen werden in dieser Arbeit nur
beschrieben, aber nicht implementiert.
Das hier vorgestellte Programm SOG (Self- Organizing Graph) greift
Erkenntnisse und Vermutungen aus der strukturalistischen Linguistik
auf, wie insbesondere durch Harris (1976) formuliert, zugleich werden
jedoch auch neuere , computerlinguistische Verfahren und Ansätze, wie
beispielsweise der ABL- Algorithmus nach van Zaanen (1999) oder das
Syntagmatic Paradigmatic Model (Dennis und Harrington , 2001),
berücksichtigt, die es ermöglichen sollen, die Fehlerquote der
statistischen Strukturanalyse des Programms zu verringern. Auch wird
durch Einsatz der ursprünglich im Rahmen der Entwicklung von Internet -
Suchdiensten entstandenen Spider - und Agenten- Technik ein weiteres
Mittel zur Ergebnisoptimierung eingesetzt. Die Güte von Hypothesen, die
das Programm durch (linguistisch motivierten) Einsatz von statistischen
Verfahren generiert, lässt sich so – in begrenztem Rahmen – durch
automatisierte Internet - Recherche, also durch Zugriff auf weitere
natürlich sprachliche Daten außerhalb des benutz ten Korpus, überprüfen,
so dass das eigentlich in die Kategorie des unsupervised learning
einzuordnende Lernverfahren des Programms um eine Rückmeldungs -
Komponente erweitert wird.
Bevor in Kapitel 3 das System SOG vorgestellt wird, soll in Kapitel 1.3 ein
kurzer Überblick über den theoretischen Hintergrund gegeben und eine
- 2 -
Definition dessen, was unter dem Begriff Paradigma zu verstehen ist,
herausgearbeitet werden. Daran anschließend werden in Kapitel 2
verschiedene computerlinguistische Ansätze vorgestellt, die dem hier
entwickelten System in unterschiedlichen Teilen ähneln. Zunächst soll
jedoch ein knapper Überblick über den technischen Rahmen gegeben
werden.
1.2 SEMALD
Bei SEMALD (System for Evaluating Multiple Algorithms on Linguistic
Data) handelt es sich um ein im Rahmen des von der Fritz Thyssen
Stiftung geförderten SemGen - Projekts entwickeltes Framework , welches
Zugriff auf verschiedene linguistische Modelle und Algorithmen bietet
(vgl. Schneidermeier 2003). Ziel des Projekts ist es, aus unstrukturiert
vorliegenden sprachlichen Daten mit Hilfe sowohl iterativ als auch
parallel angewandter Prozessierung durch verschiedene Komponenten
möglichst viele und qualitativ hochwertige semantische Informationen zu
gewinnen. SEMALD dient dabei als Rahmensystem , welches die
Interaktion der verschiedenen Module ermöglicht .
Zu den SEMALD- Modulen gehören sowohl einfache Algorithmen wie der
Levenshtein - Algorithmus als auch komplexe Komponenten wie Self
Organizing Maps (SOMs) nach Kohonen (1995), das Hyperspace Analogue
to Language (HAL, vgl. Burgess et al. 1998) oder das System LPS (vgl.
Rolshoven 2004 ). Jede SEMALD- Komponente spezifiziert ihre
Anforderungen an Eingabedaten und ihr Ausgabeformat in einer
Definitionsdatei , wobei die Annotation der prozessierten Daten in Form
eines Graphen (genauer : im ATLAS Interchange Format (AIF), vgl. Bird et
al. 2000 ) neben den Originaldaten abgelegt wird, so dass diese während
der Prozessierung nicht verändert werden, gleichzeitig aber jede
Komponente auf Ergebnisse anderer Komponenten zurückgreifen kann.
Die Implementierung des hier entworfenen Systems SOG ist, da die
Entscheidung zum AIF erst im Mai dieses Jahres fiel, noch nicht AIF-
- 3 -
konform, könnte jedoch relativ leicht angepasst und SEMALD
hinzugefügt werden 1, so dass die Datenprozessierung anderer Module
durch Rückgriff auf die von SOG ermittelten (Kategorie- ) Informationen
positiv beeinflusst werden könnten, ebenso wie umgekehrt Informationen
aus anderen Modulen die Prozessierung durch SOG verbessern könnten.
Diesbezügliche Untersuchungen können jedoch vermutlich erst Ende des
Jahres, wenn alle SEMALD- Komponenten in das Framework integriert
worden sind, durchgeführt werden.
1.3 Paradigmatische und syntagmatische Relationen
Die Relationen zwischen den linguistischen Einheiten 2 innerhalb eines
Satzes lassen sich grob in paradigmatische und syntagmatische
Relationen unterteilen.
Eine syntagmatische Relation bezieht sich auf den Kontext einer
linguistischen Einheit, wie beispielsweise die Beziehungen zwischen
Nomen und Verben, während eine paradigmatische Relation dann
vorliegt, wenn es möglich ist, eine linguistische Einheit durch eine andere
linguistische Einheit zu ersetzen, ohne dass die Grammatikalität der
Gesamtstruktur verletzt wird, wobei zunächst unerheblich ist, „ob das
resultierende Syntagma oder der Satz einen Sinn ergibt“ (Lyons 1995: 76).
Im folgenden Beispiel stehen sowohl Der Junge und Ein Hund als auch
Schule und Straße in paradigmatischer Relation, da sie – im Kontext von
laufen - austauschbar sind, ohne dass die Grammatikalität verletzt wird,
während geht in (1c) sowohl die paradigmatische als auch die
syntagmatische Relation verletzt.
(1a) Der Junge läuft in die Schule.(1b) Ein Hund läuft in die Straße.(1c) * Ein Hund läuft in die geht.
1 In der im Rahmen dieser Arbeit durchgeführten Implementa tion von SOG wurde nureine leicht an dort gegebenen Anforderungen angepasste Variante eines Moduls zurWort- und Satzgrenzenerkennung genutzt (vgl. Kapitel 4.1 ).
2 Unter dem Begriff „Linguistische Einheit“ sollen im Folgenden sowohl einzelneWörter als auch Wortketten (welche nicht notwendigerweise Phrasen wie NP oder VPsein müssen) verstanden werden.
- 4 -
(1d) ? Der Stein läuft in die Schule.(1e) ? Der Fisch läuft in die Schule.(1f) Der Motor läuft.(1g) ? Der Motor läuft in die Schule.(1h) Der Bub läuft in die Schule.
Junge und Bub sind Synonyme, die zweifelsfrei in paradigmatischer
Relation stehen 3. Problematisch ist eine Aussage über die
Grammatikalität von (1d), (1e) und (1g). Sowohl der Junge als auch der
Stein sind wohlgeformte Nominalphrasen mit gleichen syntaktischen
Merkmalen in Kasus, Numerus und Genus, (1d) ist also syntaktisch
korrekt. Allerdings ist (1d) bedeutungsfrei (d.h. (1d) würde von einem
Sprecher des Deutschen aufgrund der Sinnlosigkeit des Satzes nicht
akzeptiert, vgl. Seite 6), da Steine nicht die Eigenschaft besitzen, laufen
zu können. Grundsätzlich ließe sich vermuten, dass das Verb laufen ein
Subjekt verlangt, welches – in der Terminologie semantischer Rollen –
eine Agens- Rolle besitzen kann. Doch ist dies noch keine exakte
Beobachtung: (1e) ist ebenfalls bedeutungsfrei, da der Fisch , als
Lebewesen ohne Beine, nicht laufen kann. Damit ließe sich die vorherige
Behauptung weiter einschränken, das Verb laufen benötigt – nun in der
Terminologie der Merkmalssemantik – ein Subjekt mit den Merkmalen
+ belebt und + hat Beine .
Allerdings ist in (1f) ein Subjekt mit den Merkmalen - belebt und - hat
Beine mit dem Verb laufen zu einer syntaktisch und semantisch validen
Aussage kombiniert worden. Dieser Widerspruch lässt sich dadurch
erklären, dass in den vorherigen Beispieldeutungen der Kontext der
jeweiligen NP nicht groß genug gewählt wurde: Statt zu überprüfen, ob
linguistische Einheiten im Kontext von läuft austauschbar sind, muss
überprüf t werden, ob sie es im Kontext von läuft in die Schule sind. Im
Rahmen der GB- bzw. Theta - Theorie wird obiger Widerspruch genauer
analysiert: „The theta role assigned to the subject is assigned
compositionally : it is determined by the semantics of the verb and other
VP constituents“ (Haegeman 1995:71). Für das hier entworfene Programm
ist jedoch der Rückgriff auf linguistisches Wissen (bzgl. Verben, Theta -
3 Dies gilt ebenso für Antonyme (heiß – kalt) und Hyperonyme (Blume – Rose).
- 5 -
Rollen etc.) nicht möglich, daher soll hier an der vereinfachten, allgemein
auf Kontext bezogenen Analyse festgehalten und auf die Theta- Theorie
nicht weiter eingegangen werden.
Grundsätzlich lässt sich festhalten, dass dann, wenn paradigmatische
Relationen auch semantisch korrekt sein sollen, sie offensichtlich nicht
losgelöst von syntagmatischen Relationen betrachtet werden können, also
nicht losgelöst von ihrem Kontext (wobei hier offen bleibt, wie groß
dieser Kontext sein muß und wo nach ihm zu suchen ist – in einer
Sprache mit relativ freier Wortstellung, wie beispielsweise dem
Deutschen, ist es schließlich möglich, (1a) in die semantisch äquivalente
Aussage in die Schule läuft der Junge zu transformieren, indem die PP ins
Vorfeld bewegt wird). Da es die Zielsetzung dieser Arbeit ist, Paradigmen
zu generieren, die auch semantisch korrekt sind, wird eine
paradigmatische Relation definiert wie folgt definiert:
Wenn eine Phrase P1 in einem Kontext K, in dem sie vorkommen
kann, immer durch eine Phrase P2 ausgetauscht werden kann, ohne
dass die Grammatikalität des übergeordneten Satzes verloren geht
und ohne dass er bedeutungsfrei wird, dann stehen P1 und P2
bezüglich K in paradigmatischer Relation.
Bedeutungsfrei ist ein Satz dann, wenn er von einem Muttersprachler
aufgrund semantischer Anormalität nicht mehr akzeptiert wird. Das hier
vorgestellte System generierte während der Entwicklungsphase den Satz
In Österreich wurden vor der Einführung der Nacht zahlreiche
Experimente durchgeführt – allesamt mit negativem Ergebnis , weil es die
Begriffe Nacht und BSE- Tests in paradigmatischer Relation wähnte und
entsprechend eine Ersetzungsregel erzeugte 4. Die Naturgesetze lassen es
jedoch nicht zu, dass über ihre Einführung in irgendeiner Art und Weise
diskutiert wird, weshalb das Beispiel zwar amüsant, aber nicht
akzeptierbar ist. Ein Austausch von Österreich durch Frankreich , Iowa ,
4 Für eine Erläuterung, weshalb SOG in gewissem Maße sprachgenerierend ist, vgl.Kapitel 3 .
- 6 -
Berlin oder Darmstadt wäre hingegen akzeptierbar, unabhängig davon, ob
an diesen Orten BSE-Tests durchgeführ t wurden oder nicht:
The property of acceptability does not depend on the truth of thesentence : The book is here is a grammatically acceptable sentenceeven if the book in fact is not here. (Harris 1979:52)
Das Problem, zu entscheiden, ob zwei Phrasen in paradigmatischer
Relation stehen oder nicht, betrifft somit eher die Kompetenz eines
Sprechers als die Performanz 5. Harris geht in seiner Definition von
Akzeptanz allerdings noch weiter und fordert, dass diese nicht nur
innerhalb von Sätzen gegeben sein muss, sondern dass ein Satz auch in
seinem Kontext im Gesamttext akzeptierbar sein muss:
[...M]any sentences are really to be found only in particular types ofdiscourse , i.e., in the neighborhood of particular other sentences;and many of these would indeed be but dubiously acceptablesentences outside of such discourses. (Harris 1979:52)
Diesem soll nicht widersprochen werden, doch wird der Diskurs eines
Satzes im Verlauf dieser Arbeit nicht weiter berücksichtigt, denn die
Komplexität eines solchen Vorhabens würde den Rahmen dieser Arbeit
bei weitem sprengen, zudem wäre, wie Kapitel 3 zeigen wird, eine
Anwendung des Systems auf größere Einheiten als Sätze nicht sinnvoll.
Lediglich die in Kapitel 4.1 beschriebene Wahl des Korpus( ausschnit ts )
begrenzt den Diskurs in gewisser Weise.
Nach der Definition der paradigmatischen Relation bleibt zu klären, was
genau unter einem Paradigma zu verstehen ist. In dieser Arbeit handelt es
sich bei einem Paradigma um eine Menge von Phrasen bzw. Wortketten,
die eine „große“ Menge gemeinsamer paradigmatischer Relationen teilen,
d.h. die eine ähnliche Distribution besitzen. Allerdings ist es schwierig, zu
definieren, was unter einer großen Menge gemeinsamer paradigmatischer
5 Vgl. Bußmann 1990:396 („Kompetenz vs. Performanz“) für eine Zusammenfassungdieses Problems.
- 7 -
Relationen zu verstehen ist, denn wenn der Paradigmenbegriff ohne
Berücksichtigung der Bedeutung von Phrasen und Sätzen genutzt wird, so
werden sicherlich nicht mehr verschiedene Paradigmen benötigt, als es
syntaktische Kategorien und deren Variationen bezüglich syntaktischer
Merkmale gibt. Jede Phrase könnte dann eindeutig einem so definierten
Paradigma zugewiesen werden, da die Distribution aller Elemente des
Paradigmas nicht nur ähnlich, sondern identisch ist (Beispielsweise
würden alle Nomen und NPs in 3. Person Singular Plural in ein Paradigma
aufgenommen und – mit Ausnahme von (1c) – wären alle Sätze aus (1)
grammatisch).
Wenn hingegen die Semantik zu stark in die Paradigmenbildung mit
einbezogen wird, so werden sicherlich die meisten Paradigmen aus
lediglich einem Wort (evtl. zuzüglich Synonymen und Antonymen)
bestehen, denn je zwei Wörter einer Sprache unterscheiden sich in der
Regel in mindestens einem Punkt: Die Begriffe Mann und Junge
beispielsweise stehen sicherlich in sehr vielen Kontexten in
paradigmatischer Relation, jedoch nicht in allen (vgl. Abb. 1 auf Seite 10
dieser Arbeit).
Bei dem Versuch, die eindeutig unzulässigen Sätze mit Hilfe derdistributionellen Subklassifizierung der Wörter, aus denen sie gefügtsind, auszuschließen, wird sich der Linguist [...] früher oder spätereiner Situation gegenüber sehen, in der er immer mehr Regelnausarbeitet, von denen jede nur sehr wenige Sätze erfaßt; er wird soviele einander überschneidende Wortklassen aufstellen, daß jedeAllgemeingültigkeit verloren geht. (Lyons 1995: 156)
Lyons (ebd.) bezeichnet dies als „Gesetz der abnehmenden Rentabilität“
(principle of diminishing returns ). Für das in dieser Arbeit entworfene
Programm bedeutet Lyons Gesetz, dass eine Grenze gesucht werden
muss, ab der distributionelle Unterschiede ignoriert werden können.
Zusammenfassend lässt sich ein Paradigma also als eine Menge von
Wörtern und Phrasen interpretieren, deren Elemente aufgrund von
gemeinsamen semantischen Merkmalen in die Menge aufgenommen
worden sind. Diese Elemente müssen nicht zwingend auch in ihren
syntaktischen Merkmalen übereinstimmen, aber sie müssen in den
- 8 -
Kontexten, in welchen das Paradigma gültig sein soll, substituierbar sein.
Van Zaanen diskutiert dies anhand der Sätze Show me the morning
flights und Show me the nonstop flights (bezogen auf den von ihm
entwickelten ABL-Algorithmus, der in Kapitel 2.1 vorgestellt wird) :
The ABL algorithm finds that morning and nonstop are of same type[...]. However , morning is tagged as NN (a noun ) and nonstop as JJ (anadjective ). On the other hand , one might argue these words are ofthe same type, exactly because they occur in the same context. Bothwords might be seen as some sort of adjective phrase. (van Zaanen1999:9)
Van Zaanen schlägt daher vor, zwischen funktionalem und syntaktischem
Typ einer Phrase zu unterscheiden – dieser Vorschlag wird für diese
Arbeit übernommen, zumal die Kategorisierung deutscher Wörter nach
lateinischen und griechischen Kriterien, wie es in der traditionellen
Syntax der Fall ist, ohnehin fraglich ist und zu Problemen führt, die selbst
für einen Linguisten nur schwierig, für ein Computerprogramm wohl gar
nicht zu lösen sind 6.
Um die Anzahl der Paradigmen, in denen ein Wort oder eine Phrase
enthalten ist, nicht unnötig zu vergrößern, soll zusätzlich erlaubt werden,
auch Paradigmen als Elemente von Paradigmen zuzulassen. Ein
Paradigma, welches sich dadurch auszeichnet, dass seine Elemente im
Kontext von Der Mann trinkt ... in paradigmatischer Relation stehen, bei
denen es sich also um Getränke handelt, kann somit in das Paradigma
aller „kaufbaren“ Objekte aufgenommen werden. Durch diese Erweiterung
der Paradigmendefinition ist es theoretisch möglich, die Menge der
Paradigmen – zumindest teilweise – zu hierarchisieren, ähnlich wie es in
der Kategorialsemantik geschieht. Folgende Abbildung zeigt eine
exemplarische und manuell erzeugte Kategorisierung:
6 Eine Zusammenfassung der historischen Entwicklung der Wortarten findet sichbspw. in (Lyons 1995:4ff), auch einige der daraus resultierenden Probleme werdendort (S.322ff) aufgeführt.
- 9 -
P5 besteht in diesem Beispiel lediglich aus Verweisen auf weitere
Paradigmen, P8 enthält sowohl Phrasen als auch Paradigmen, wobei diese
wiederum Paradigmen enthalten können (wie P4). Wie das Beispiel zeigt,
ist es durchaus denkbar, dass sowohl atomare Wortketten als auch
komplexe Paradigmen mehreren Kategorien zugewiesen werden können.
Der hier benutzte distributionelle Paradigmenbegriff ähnelt nicht zufällig
Hindles Kategorisierungsmethode:
For nouns , there is a restricted set of verbs that it appears assubject of or object of. For example , wine may be drunk , producedand sold but not pruned. Each noun may therefore be characterizedaccording to the verbs that it occurs with. Nouns may then begrouped according to the extent to which they appear in similarenvironments. (Hindle 1990:268)
Genau dies soll hier auch versucht werden, allerdings mit dem
Unterschied gegenüber dem von Hindle durchgeführten Experiment, dass
kein syntaktischer Parser zur Vorverarbeitung der Daten genutzt wird,
sondern lediglich ein Satz- und Wortgrenzen erkennender Lemmatisierer
(vgl. Kapitel 4.1 ).
Ein mögliches Ziel (welches allerdings deutlich über das in dieser Arbeit
- 10 -
Abbildung 1 Teil- Von- Relationen zwischenParadigmen
ein Kind trinkt
P1Milch
WasserColaSaft
P2
ein Manneine Frau
trinkt
P3
BierWein
P4
P3
P2
P5
P3P1isst Wurst
PizzaBrot
P6
kauft ein Autoein Haus
P8
P4 P6
P3
verfolgte Ziel hinausgeht) würde somit darin bestehen, Wörter und
Wortketten hierarchischen Strukturen zuordnen zu können, welche
gleichzeitig syntaktische, funktionale, semantische und distributionelle
Eigenschaften abbilden würden. Darüber, ob dieses Ziel allein auf Basis
der Distributionsanalyse erreicht werden kann oder nicht, lässt sich nur
spekulieren – die Möglichkeiten der Distributionsanalyse bestechen
jedoch durch ihre Einfachheit: Anders als bspw. in Chomskys Theorien zu
Government and Binding oder dem Minimalist Program (vgl. Haegeman
(1999) für einen Überblick) wird hier keinerlei Vorwissen in Form von
Lexikon oder sprachabhängigen Parametern benötigt, um natürliche
Sprache zu analysieren, und die Rechenkraft heutiger Computer
ermöglicht es, die für Distributionsanalysen not - aber auch aufwändigen
Arbeiten, die in erster Linie auf dem Zählen der Vorkommen
verschiedener Muster basieren, relativ einfach zu implementieren und
auszuwerten. Trotzdem bedeutet dieses Vorgehen nicht, dass die
Erkenntnisse der GB- Theorie hier verworfen oder ignoriert werden
müssen, vielmehr lassen sie sich – zumindest teilweise – für die Analyse
nutzen, und auch synergetische Effekte, also eine gegenseitige Ergänzung
beider Theorien bzw. Ansätze, lassen sich finden und ausnutzen. So sind
bspw. die Beobachtungen zu den sog. Null- Paradigmen Indizien dafür,
dass die Elemente in diesen Paradigmen eine untergeordnete Position
innerhalb einer X- Bar- Struktur einnehmen müssen (vgl. Kapitel 3.1.2 und
6).
Nachdem die theoretischen Hintergründe und – durch die Definition des
Begriffs Paradigma – auch die Anforderungen an das hier zu entwerfende
System präzisiert wurden, soll der Schwerpunkt der folgenden Kapitel auf
der praktischen Umsetzung dieser Anforderungen liegen. Dies kann
jedoch nur näherungsweise geschehen, denn in einigen Punkten ist der
Versuch, Paradigmen ausschließlich anhand einer Distributionsanalyse zu
erkennen, von vornherein zum Scheitern verurteilt, wie der Cartoon auf
Seite iii7 veranschaulicht: Wird versucht, paradigmatische Relationen
ausschließlich durch Distributionsanalyse zu erkennen, ohne dabei auf
7 Aus der Februar - Ausgabe 2004 des Satiremagazins „Titanic“.
- 11 -
„echte“ Sprecherkompetenz zurückzugreifen, so müssen Sätze wie
Komm, wir setzen uns in die Sonne zwangsläufig zu Fehlschlüssen führen,
indem bspw. Sonne mit Sessel , Schaukel , Ecke etc. in paradigmatische
Relation gesetzt wird. Zwar ließe sich argumentieren, dass dies korrekt
ist, weil es sich in diesem Paradigma um „Orte, in die man sich setzen
kann“ handelt und das Problem darin liegt, dass das Wort Sonne hier
nicht den Stern, sondern dessen Strahlen bezeichnet, aber auch mit dieser
Erläuterung bleibt ein solches Paradigma fraglich. Es wird sich allerdings
zeigen, dass dieses Problem in der praktischen Anwendung nicht so
häufig auftritt, dass die Grundidee des Ansatzes verworfen werden
müsste, auch wenn das prinzipielle Problem der Nicht- Äquivalenz von
Wortverwendung und Konzept (bzw. der Folgerung von dem einen auf
das andere) nicht gelöst werden kann.
2. Auf Distributionsanalyse basierende Modelle im Vergleich
Bevor das SOG- System erklärt wird, sollen zunächst drei andere Ansätze
vorgestellt werden, die SOG in verschiedenen Punkten ähneln und deren
Kenntnis das Verständnis des hier entworfenen Systems erleichtern.
Gemeinsam ist allen vier Systemen (bzw. Modellen), dass es sich um
unüberwacht 8 arbeitende, auf Distributionsanalyse basierende Verfahren
handelt, die ohne linguistisches Vorwissen in Form von Lexika o.Ä.
arbeiten, und stattdessen versuchen, ein Korpus durch Bootstrapping -
Analyse, d.h. durch die iterative Extraktion sprachlicher Strukturen unter
Berücksichtigung der Ergebnisse vorheriger Iterationen, auszuzeichnen.
Sowohl in der Art und Weise des Vorgehens als auch der
Ergebnisberücksichtigung und der grundsätzlichen Zielsetzung jedoch
weichen die Systeme voneinander ab.
8 Im Gegensatz zu überwachten Systemen, die von einem (menschlichen) Experteneine Rückmeldung über die Güte der von ihnen produzierten Ergebnisse bekommen,müssen unüberwachte Systeme auf externes Feedback verzichten.
- 12 -
2.1 ABL
Der von van Zaanen entwickelte Alignment - Based - Learning Algorithmus
(ABL) ist einer der ersten Bootstrapping- Ansätze, der sich auf die
theoretischen Grundlagen des Strukturalismus beruft, um eine rein
distributionelle Konstituentenklassifizierung durchzuführen, ohne dass
dafür weitere (lexikalische) Information oder menschliche Interaktion mit
dem System vorausgesetz t werden muss. Da sich die Vorgehensweise in
neueren Ansätzen (wie bspw. ADIOS) häufig an ABL anlehnt und dieser
relativ anschaulich die grundlegenden Methoden der Distributionsanalyse
nutzt, soll er im Folgenden vorgestellt werden.
Das Ziel van Zaanens lag darin, einen Algorithmus zu entwerfen, der
Sätzen eine (Konstituenten - )Struktur zuweist, die äquivalent ist zu der
Struktur, die ein Muttersprachler diesem Satz zuweisen würde – damit
handelt es sich bei ABL um einen rein syntaktischen Ansatz. ABL arbeitet
in zwei Phasen, die iterativ wiederholt werden: Zunächst wird in der
Alignment - Phase (i.e. Ausrichtung oder Anordnung) jeder Satz mit jedem
anderen verglichen und es wird versucht, unterschiedliche Teilphrasen in
diesen Sätzen zu finden, die in gleichem Kontext stehen (Edelman et. al.
(2004) bezeichnen diesen Effekt als partielle Redundanz) . Diese
unterschiedlichen Teilphrasen werden als derselben Konstituentenklasse
zugehörig (und somit als substituierbar) betrachtet, wobei
selbstverständlich keine Aussage darüber getroffen werden kann, um
welche klassische Kategorie (wie Nomen, Verb etc.) es sich handelt. Zur
Ermittlung der austauschbaren Phrasen wird eine Variante der String Edit
Theory (SET) nach Sankoff und Kruskal (1983) verwendet . Dabei handelt
es sich um ein auf der Levenshtein - Distanz basierendes Verfahren 9, das
ermittelt, welche der drei Operationen Einfügen , Löschen und Ersetzen wie
anzuwenden sind, um eine Signalkette A optimal, also mit möglichst
„kostengünstigen“ 10 Operationen, in eine Signalkette B zu überführen.
9 Für eine genauere Beschreibung des Levenshtein - Algorithmus und der String EditTheory vgl. Sankoff und Kruskal (1983), Kapitel 1.
10 Was genau eine „kostengünstige“ Transformation ist, kann in jedem Anwendungsfallunterschiedlich sein, jedoch lassen sich generell jeder Operation – theoretisch auchabhängig von dem Kontext, in dem sie ausgeführt wird – Kosten zuweisen, derenSumme die Kosten der gesamten Transformation ergibt.
- 13 -
Hier wird SET dafür eingesetzt, die längsten gemeinsamen Teilphrasen in
zwei Sätzen zu finden. Der Rest dieser Sätze, d.h. die unterschiedlichen
Teilphrasen, werden dann als potentielle Konstituenten derselben
Kategorie interpretiert und entsprechend mit nicht - terminalen Symbolen
annotiert, wobei eventuell bereits existierende Annotationen, die in
früheren Iterationen des Algorithmus eingefügt wurden, zunächst
ignoriert werden, so dass es zu überlappenden Strukturen wie in
Abbildung 2 kommen kann.
Erst in der zweiten, als Bracket - Selection bezeichneten Phase des
Algorithmus werden solche überlappenden Strukturen aufgelöst, d.h. der
Algorithmus entscheidet, welche der konkurrierenden Strukturen zu
wählen 11 ist.
Van Zaanen zeigt, dass der ABL- Algorithmus dazu in der Lage ist,
rekursive Strukturen, also eine Verschachtelung gleicher Kategorien, zu
lernen bzw. zu erkennen, wie sein Beispiel „What is the (name of the
(airport in Boston X18 )X18“(van Zaanen 1999:6) demonstriert.
Im Gegensatz zu neueren Ansätzen wie dem in Kapitel 2.3 beschriebenen
ADIOS- Modell oder auch SOG werden die „Erkenntnisse“, die der ABL-
Algorithmus gewinnt, jedoch nicht aktiv in die Strukturbildung mit
einbezogen – lediglich dann, wenn in der Alignment - Phase eine bereits
11 Dazu entwickelte van Zaanen verschiedene Bewertungsfunktionen (vgl. van Zaanen2003:391f). ABL:incr wählt grundsätzlich die „ältere“ Struktur, während ABL:leaf dieWahrscheinlichkeit, dass es sich bei einer Wortkette (c') um eine Konstituentehandelt, berechnet, indem die Vorkommen der Wortsequenz im Korpus gezähltwerden, die bereits als Konstituenten (c) interpretiert wurden. Das Ergebnis wirddurch die Anzahl aller Konstituenten ∣C∣ dividiert:
Pleaf c=∣c'∈C:yield c'=yield c∣
∣C∣
- 14 -
(Book Delta 128)x1 from Dallas to Boston
(Give me all flights)x1 from Dallas to Boston
Give me (all flights from Dallas to Boston)x2
Give me (information on reservations)x2
Abbildung 2 Veranschaulichung desEntscheidungsproblems bei überlappendenStrukturen (nach van Zaanen 1999:4)
strukturierte Phrase mit einer noch nicht strukturierten Phrase verglichen
wird, werden die Informationen über die Struktur berücksichtigt
(Abbildung 3), ansonsten lernt ABL nicht aus früheren Iterationen.
Dies hat allerdings auch Vorteile, denn sowohl das ADIOS- Modell als
auch das hier entworfene System haben mit dem prinzipbedingten
Nachteil zu kämpfen, dass Fehler, die zu Beginn der Datenverarbeitung
gemacht und nicht korrigiert werden, im Verlauf der Prozessierung einen
zunehmenden, negativen Einfluß auf die Güte der Gesamtergebnisse
haben. Und auch wenn die Funktionalität von ABL im Vergleich mit den
im Folgenden vorgestellten Modellen relativ beschränkt ist, basiert deren
Analyse ebenfalls auf dem bereits hier ausgenutz ten Effekt der partiellen
Redundanz.
2.2 SPM
Wie van Zaanens ABL basiert auch Dennis' Syntagmatic Paradigmatic
Model (SPM) auf der String Edit Theory. Das Ziel des SPM unterscheidet
sich jedoch von allen anderen hier beschriebenen Ansätzen, denn SPM ist
letztlich ein automatisches Question - Answering System, welches
syntagmatisches und paradigmatisches Wissen dazu benutz t, korrekte
Antworten auf eingegebene Fragen zu liefern, die es aus einer
automatisch konstruierten Wissensbasis inferiert.
Im SPM werden drei verschiedene Speicherformen unterschieden, die
während des Information Retrieval Prozesses involviert sind: working
memory (WM), sequential long time memory (S- LTM) und relational long
- 15 -
What does (AP57 restriction)x1 mean
What does aircraft code D8S mean
What does (aircraft code D8S)x1 mean
Abbildung 3 Die Kategorie der obigen NP wirdfür die strukturgleiche NP im zweiten Satzübernom me n (nach van Zaanen 1999:4).
time memory (R- LTM). Das S- LTM lässt sich als syntagmatische
Wissensbasis interpretieren, wobei das gespeicherte Wissen aus den
Sätzen des Eingabekorpus besteht, die als syntagmatische Spuren
(syntagmatic traces ) bezeichnet werden. Im R- LTM sind in assoziativer
Form paradigmatische Spuren (paradigmatic traces ) zwischen
verschiedenen Wörtern abgebildet (wie Abbildung 4 zeigt), und das WM
dient schließlich dazu, Zwischenergebnisse des Retrieval- Prozesses
festzuhalten.
John: Bert, Steve; Mary: Ellen, JodyBert: John, Steve; Ellen: Mary, JodySteve: John, Bert; Jody: Mary, EllenBert: Steve; Ellen: JodySteve: Bert; Jody: Ellen
R-LTM
John loves Mary
Bert loves Ellen
Steve loves Jody
Who does Bert love? Ellen
Who does Steve love? Jody
S-LTM
WM
Who
does
John
love
?
#
Abbildung 4 Speichermodell des SPM (nach Dennis 2004:8). DasZeichen „#“ markiert einen leeren slot , für den das SPM im R- LTMnach einem geeigneten Element suchen muss (hier wäre dies dieparadigmatische Spur Mary : Ellen, Jody ).
Um einen Eingabesatz zu verarbeiten, werden zunächst, ebenfalls durch
einen SET- Algorithmus, die zur Eingabe ähnlichsten Wortsequenzen im
S- LTM ermittelt, welche als potentielle syntagmatische Vorlagen für die
weitere Verarbeitung dienen (in obigem Beispiel wären dies die beiden fett
gedruckten Sequenzen im S- LTM). Da der SET- Algorithmus die Elemente
der Eingabesequenz erkennt, die von den Sequenzen im S- LTM
abweichen, werden so die Wörter bestimmt, zu denen eine
paradigmatische Relation gesucht werden muss, um die Eingabe weiter zu
verarbeiten. Betroffen wären hier John (mit Bert und Steve in einem
Paradigma) sowie der Platzhalter „#“ (Ellen , Jody ). Diese paradigmatischen
- 16 -
Elemente lassen sich nun vom SPM dazu nutzen, Parallelitäten zwischen
Bert und Ellen , Steve und Jody sowie John und „#“ im S- LTM zu suchen.
Die Sequenzen 1- 3 zeigen, dass John, Bert und Steve sowie Ellen, Jody
und Mary die gleiche Rolle übernehmen – so ergibt sich eine hohe
Wahrscheinlichkeit dafür, dass Mary an Stelle des Platzhalters im WM
eingesetz t werden sollte, womit das SPM die gestellte Frage schließlich
korrekt beantworten kann.
Die Fähigkeiten des SPM sind dabei nicht so trivial, wie das hier benutz te
Beispiel suggerieren mag – vielmehr zeigt Dennis, dass (u.a. aufgrund der
von ihm benutz ten Bayes'schen Variante des SET- Algorithmus 12) das SPM
auch dazu in der Lage ist, sowohl syntagmatische Abhängigkeiten, die
sich über eine große Distanz erstrecken (wie „The man who saw the altar
and gave thanks was awed “13) als auch rekursive Strukturen (wie „the cat
the cats chase chases “14) korrekt verarbeiten kann. Die Verarbeitung einer
Sammlung von Berichten der Association of Tennis Professionals und der
anschließende Test des Modells durch (insgesamt 270) Fragen wie Who
won the match between Sampras and Agassi ? zeigten, dass SPM 67% der
gestellten Fragen korrekt beantworten konnte, auch wenn die Antworten
nur implizit in den Texten vorhanden waren 15 und inferiert werden
mussten.
Zudem zeigt Dennis, dass das SPM auch dazu in der Lage ist, semantische
Kategorisierungen vorzunehmen, was im Kontext dieser Arbeit von
größerem Interesse ist als die Question- Answering- Fähigkeiten des
Modells, auch wenn die Art und Weise der Datenverarbeitung letztlich
identisch ist. Ausgehend von einem Korpus, in welchem Informationen
12 Im Gegensatz zur „einfachen“ SET- Variante werden die Kosten derErsetzungsopera tion dynamisch ermittelt. Diese bewirkt beispielsweise, dass derAlgorithmus während des Alignments zweier Sätze wie John loves Mary und Johnwho loves Ellen loves Mary im zweiten Satz das rechts stehende loves für dieZuordung präferiert, während der „herkömmliche“ SET- Algorithmus für beidenVarianten die gleiche Wahrscheinlichkeit berechnen würde. Da die dieser Berechnungzugrundeliegende Formel sowie insbesondere deren Herleitung recht komplex,gleichzeitig aber für das Verständnis des Modells nicht relevant ist, soll hier nichtweiter darauf eingegangen werden (Für eine ausführlichere Beschreibung vgl. Dennis2004:13- 16 und 66ff, für das zugrundeliegende Bayes'sche Theorem vgl.Manning/Schütze 1999:43ff).
13 Dennis, 2004, S. 2114 Dennis, 2004, S. 2615 Vgl. Dennis 2004, S. 53ff.
- 17 -
über Tiere enthalten sind (z.B. „a [sic!] elephant is a herbivore “
(Pflanzenfresser) , „a lion is a carnivore “ (Fleischfresser) und „is a mouse
big? no“ 16), ist das SPM dazu in der Lage, anhand von ermittelten
Ähnlichkeiten zwischen bspw. tiger und lion zu vermuten, dass auch
Tiger Fleischfresser sind. Im Prinzip handelt es sich bei SPM also um eine
frei assoziierende, natürliche Sprache verarbeitende Inferenzmaschine ,
d.h. das Modell ist in der Lage, aus – im Gegensatz zu klassischen
Inferenzmodellen (wie bspw. in der Programmiersprache Prolog genutzt)
– lediglich in natürlichsprachlicher Form vorliegendem Wissen
Folgerungen zu inferieren. Die Güte der Lösungen ist damit jedoch stark
vom Korpus abhängig, denn die Kategorisierung, die das System
vornimmt, basiert – vereinfacht dargestellt – auf der Extraktion impliziter
wenn- dann - Beziehungen. Die Vermutung des Systems, dass es sich bei
Tigern um Fleischfresser handelt, wird daraus abgeleitet, dass das Korpus
die Informationen enthält, dass sowohl Tiger als auch Löwen in der
Savanne leben und jagen 17 , wobei SPM nicht erkennt (und nicht erkennen
kann), dass jagen und Fleischfresser sein ein zulässige wenn- dann -
Beziehung ist, während dies für bspw. Fell haben und Fleischfresser sein
nicht gelten würde. Das System stellt lediglich fest, dass die Begriffe tiger
und lion in ähnlichen syntagmatischen Verhältnissen vorkommen, und
folgert aus dieser Erkenntnis auf weitere Parallelen in unbekannten
Kontexten. In gewisser Weise wird darauf vertraut, dass das
zugrundeliegende Korpus bezüglich der wenn- dann - Beziehungen
fehlerfrei ist. Zwar wird auch in allen anderen hier vorgestellten Modellen
angenommen, dass zwei Wortketten verwandt sind, wenn sie in gleichem
Kontext auftauchen, doch wird daraus nicht automatisch geschlossen,
dass diese Verwandtschaft in jedem Kontext gegeben sein muss.
16 Alle drei Sätze aus Dennis 2004, S. 3717 Das Korpus enthält u.a. die vier Sätze the lion searched for prey, the lion walked
across the savannah, the tiger ran across the savannah und the tiger looked for prey(vgl. Dennis 2004:37).
- 18 -
2.3 ADIOS
Das von Solan et al. entwickelte System ADIOS (Automatic Distillation Of
Structure ) ist dem hier entworfenen System in den Grundzügen sehr
ähnlich, wenn auch der Entwurf von SOG ohne Kenntnis des ADIOS-
Systems angefertigt wurde. Die Gemeinsamkeiten liegen in der
verwendeten Datenstruktur und in der Fähigkeit beider Systeme, die
gewonnenen kategoriellen Informationen in dieser Datenstruktur so zu
verwalten, dass sie eingeschränkt sprachgenerierend sind.
Wie alle hier vorgestellten Ansätze arbeitet auch ADIOS auf rohen, nicht
weiter prozessierten Texten, unüberwacht und (theoretisch)
sprachunabhängig. Ziel ist es, das Eingabekorpus in linguistische
Strukturen zu zerlegen und diese zu kategorisieren. Dazu wird zunächst
das Korpus in eine Repräsenta tion als Graph überführt, wobei jeder Satz
durch einen Pfad zwischen zwei als Start und Ende markierten Knoten
dargestellt wird, in welchem die Knoten die kleinstmöglichen
morphologischen Konstituenten („smallest possible morphological
constituents “, Solan et. al, 2002:2) der Wörter des Satzes repräsentieren 18 .
Die (gerichteten) Kanten zwischen diesen Knoten werden mit Satz - und
Positionsnummer gelabelt , so dass jeder Satz eindeutig aus dem Graphen
rekonstruierbar ist. Anschließend sucht ADIOS nach „signifikanten
Mustern“ (significant patterns (SP)), welche definiert sind wie folgt:
„Each SP consists of a non- empty prefix (a sequence of graph edges ), an
equivalence class of vertices , and a non- empty suffix (another sequence
of edges [...])“ (Solan et. al., 2003:2). Mit anderen Worten handelt es sich
bei einem SP um mindestes zwei (Teil- ) Pfade im Graphen, welche am
Anfang und am Ende identisch verlaufen, sich im Inneren jedoch
unterscheiden – die sich unterscheidenden Teile werden als der gleichen
18 Darüber, wie die dafür notwendige morphologische Analyse durchgeführt wird,machen die Autoren keine Ang aben, sondern bemerken lediglich „that the algorithmcan work in any language, with any set of tokens, including individual characters – orphonemes, if applied to speech“ (Solan et. al, 2002:2). Zudem ist auch nichtersichtlich, was genau von den Autoren als Morphem interpretiert wird, wie dieADIOS- Zerlegungen I – 'm , wa – s, thought oder gonna zeigen (vgl. Solan et al.2004:5 ). In neueren Arbeiten wird allerdings auch nur noch davon gesprochen, dassWörter in ihre „constituent characters “ (ebd. S. 2) zerlegt werden.
- 19 -
Äquivalenzklasse zugehörig interpretiert (vgl. Abbildung 5).
Die Signifikanz eines SP wird mit Hilfe der Formeln in (2) berechnet (vgl.
Solan et. al 2003:2). Dort bezeichnet der Ausdruck P c j∣ci die
Wahrscheinlichkeit, dass der Knoten c j der Nachfolger des Knoten ci
ist. Diese wird ermittelt, indem die Anzahl der von ci unmittelbar auf
c j zeigenden Kanten durch die Anzahl aller ausdem Knoten ci
ausgehenden Kanten berechnet wird.
(2) Formeln zur Berechnung der Signifikanz in ADIOS
(a) Spathi= e−L
k2
sieheFußnote
Pk pathi log Pkpathi
P2Path imit pathi=c1c2...ck
19
(b) Pk path i=Pc1Pc2∣c1Pc3∣c1c2...Pck∣c1c2...ck−1
(c) P2pathi=Pc1Pc2∣c1Pc3∣c2...Pck∣ck−1
19 Der erste Faktor dieser Gleichung soll bewirken, dass das Verhältnis zwischen derAnzahl der Knoten des Pfades (k) mit Hilfe des Modellparameters L berücksichtigtwird. Kleine Werte für L führten jedoch bei der Verarbeitung natürlicher Sprache zueiner Übergenerierung des Systems, und auch große Werte lieferten dort keinezufriedenstellenden Ergebnisse (vgl. Solan et al 2004:2). Daher wurde in einerüberarbeiteten Form (ADIOS2) dieser Faktor ausgelassen und das Modell modifiziert(vgl. ebd). Auf diese Modifikation soll hier jedoch nicht weiter eingegangen werden,da das grundlegende Prinzip von ADIOS auch dort bestehen bleibt.
- 20 -
Abbildung 5 Bildung von Äquivalenzklassen in ADIOS (ausSolan et. al 2004:3). (a) stellt einen Ausschnitt des Graphen imAnfangszustand dar, bereits markiert ist die distributiveÄquivalenz der Wörter cat, dog und horse . In (b) sind dieseWörter als Äquivalenzklasse in einem Knoten zusam me nge fasst,(c) zeigt die sprachgenerierende Fähigkeit des Modells, die sichaus Kombination mehrerer Äquivalenzklassen in linearerAbfolge ergibt.
Die Formel (2c) berechnet die Wahrscheinlichkeit, von c1 zu ck zu
gelangen, ohne dass dabei der zurückgelegte Weg berücksichtigt wird,
d.h. bei der Berechnung von P c3∣c2 spielt die Wahrscheinlichkeit, zum
Knoten c2 gelangt zu sein, keine Rolle. (2b) berücksichtigt hingegen die
Wahrscheinlichkeit, mit der der aktuelle Knoten gewählt wurde, so dass
der logarithmierte Ausdruck in (2a) einen normalisierenden Effekt auf die
Formel ausübt. Die Güte eines SP ergibt sich schließlich dadurch, dass für
jeden in dem Pattern enthaltenen Pfad die Formel (2a) berechnet und die
Ergebnisse summiert werden.
- 21 -
Abbildung 6 Veranschaulichung derSignifikanz - berechung in ADIOS (ausSolan et al. 2003:3). In (a) wird Formel(2b) benutzt, in (b) Formel (2c).
Falls ein SP (mit Hilfe eines Schrankenwerts) als signifikant genug
beurteilt wird, wird es als neuer Knoten in den Graphen eingefügt, wo es
die entsprechenden Knotensequenzen der Pfade ersetzt und in folgenden
Programm - Iterationen statt dieser Sequenzen verarbeitet wird.
Erwähnenswert ist hieran, dass
only those edges of the multi - graph that belong to the detectedpattern are rewired ; edges that belong to sequences not subsumedby the pattern are left intact. This highly context - sensitive approachto pattern abstraction , which is unique to our model , allows ADIOSto achieve a high degree of representational parsimony withoutsacrifying its generalization power (Solan et al 2002:3).
Allerdings wird die Flexibilität des ADIOS- Ansatzes dadurch wieder
eingeschränkt, dass – zwangsläufig bedingt durch die Berücksichtigung
des Faktors k in (2a) – nur Pfade gleicher Länge in dasselbe SP
aufgenommen werden können (vgl. Solan et al. 2002:2 für ADIOS1, Solan
et al. 2004:3f für ADIOS2). Daraus folgt, dass bspw. NPs wie er , der
Student und der junge Mann nicht im gleichen SP enthalten sein und
somit auch nicht unmittelbar in der gleichen Äquivalenzklasse
zusammengefass t werden können. Dies ist nur möglich, wenn die
Elemente zuvor bereits in verschiedenen Äquivalenzklassen enthalten
- 22 -
waren, da sie dann im Graphen (aufgrund der oben beschriebenen
Ersetzungsfunktion ) durch genau einen Knoten repräsentiert werden und
somit vergleichbar sind – dafür muss jedoch das zu prozessierende
Korpus solche (Teil- ) Pfade enthalten, was selbstverständlich nicht
grundsätzlich zu erwarten ist (für obige NPs wären bspw. die NPs ein
Schüler und ein kleiner Junge im gleichen Kontext wie die jeweils gleich
lange NP oben notwendig).
Enthält das Korpus jedoch solche Pfade, so ergibt sich daraus ein weiterer
positiver Effekt, denn durch die Ersetzung mehrerer Knoten durch einen
„Äquivalenzknoten “ schrumpfen die betroffenen Pfade, was wiederum
bedeutet, dass sich ursprünglich weit von einander entfernte Knoten
nähern. Dies hat zur Folge, dass auch syntagmatische Abhängigkeiten
zwischen solchen Knoten zumindest teilweise von ADIOS erkannt werden
können – die Autoren erwähnen beispielsweise, dass das Agreement von
Subjekt und Verb in den von ADIOS konstruierten Patterns korrekt
behandelt wird, weisen aber auch darauf hin, dass dies für kompliziertere
strukturelle Beziehungen nicht gilt:
[...] the treatment of many aspects of syntax such as anaphora ,auxiliaries , wh - questions , passive, control , etc [...] awaits bothfurther computational experimenta tion and further theoretical work(Solan et al. 2004:7).
Weiterhin zeigen sie, dass die von ADIOS extrahierten Patterns auch zur
Sprach- (bzw. Satz - ) Generierung genutzt werden können: Zum einen
schachtelt ADIOS Äquivalenzknoten rekursiv, so dass sich eine
struktursensitive Grammatik extrahieren lässt (siehe Abbildung 7), zum
anderen ergeben sich aus der Integration der Äquivalenzknoten neue
Pfade zwischen START- und END- Knoten des Graphen, welche sich an
syntagmatischen und paradigmatischen Eigenschaften von Sätzen des
Korpus anlehnen, in dieser Form aber nicht im Korpus vorhanden waren.
- 23 -
Wie groß das Sprachgenerierungspotential des ADIOS- Modells tatsächlich
ist, lässt sich nur schwer beurteilen, weil die Autoren lediglich einige
(positive) Beispiele angeben. Und da es sich bei den Korpora, welche mit
ADIOS verarbeitet wurden, zum einen um ein mit Hilfe des
Satzgenerators rmutt 20 automatisch generierten Korpus, zum anderen um
das (erweiterte) CHILDES- Korpus 21 handelt (letzteres enthält
Transkriptionen von Sätzen, die zwischen Kindern und Eltern
ausgetauscht wurden), sind diese Beispiele vor allem bezüglich ihrer
semantischen Akzeptierbarkeit, wie in Kapitel 1.3 definiert, nur schlecht
interpretierbar. Bereits die von rmutt generierten Sätze sind – zumindest
teilweise – nicht zu akzeptieren (wie „the horse is living very extremely
far away “ oder „the cow is working at least until Thursday “(Solan et al.
2002:5 )) und die Akzeptanz von Sätzen des CHILDES- Korpus (wie „can
we make a little house? “ oder „should we put the beds in the
house?“(Solan et al. 2002:7)) ist nur in einem „spielerischen“ Kontext
akzeptierbar, in welchem dies jedoch letztlich für jede Äußerung gilt, so
dass sich über die Akzeptierbarkeit von durch ADIOS erzeugten Sätzen
wie bspw. „there's a cup and there's some lambs “ (Solan et al. 2004:6)
keine Aussage treffen lässt.
20 Dabei handelt es sich um ein Programm, welches mit Hilfe einer kontextfreienGrammatik zufällig Sätze generiert (siehe http: / / www.schneertz.com / r m u t t ).
21 Siehe http: / / c hildes.psy.cmu.edu /
- 24 -
Abbildung 7 Bildung einer „Grammatik“ inADIOS (aus Solan et al, 2002:5). Dieverschiedenen Äquivalenzklassen sind graumarkiert.
3. Der SOG-Algorithmus
Die Grundidee von SOG basiert auf den in Kapitel 1.3 beschriebenen
Beobachtungen und Überlegungen und ähnelt in verschiedenen Punkten
allen im vorherigen Kapitel beschriebenen Ansätzen, geht zugleich über
deren Ziele hinaus, da keines der Modelle den Anspruch hat, Paradigmen
wie in Kapitel 1.3 definiert zu finden. Die Art und Weise des Vorgehens
ähnelt dem ADIOS- Modell, insbesondere in der Wahl der
Datenstrukturen, denn der zu verarbeitende Text wird in SOG ebenfalls
als Graph repräsentiert, wobei jeder Satz des Korpus als ein Pfad (also als
gerichteter Weg) zwischen den funktionalen Knoten START und END
abgebildet wird. Die mit einem Satz korrespondierenden Kanten sind
anhand einer eindeutigen Satznummer identifizierbar. Eine als Wortform
erkannte Zeichenkette 22 wird in einen Knoten im Graphen transformiert
und die lineare Reihenfolge der Wörter eines Satzes wird dadurch
gekennzeichnet, dass die entsprechenden Kanten – zusätzlich zur
Satznummer – durch Wortnummern gelabelt werden. Abgesehen davon,
dass im SOG- Modell eine Kante zwischen zwei Knoten nur einmal
vorkommen kann (und zwangsläufig mehrere Satz- und Wortnummern in
einer Kante gespeichert werden, was jedoch letztlich keine Auswirkung
auf das Datenmodell hat) und SOG Wörter statt morphologischer
Einheiten (bzw. dem, was ADIOS als solche interpretiert, vgl. Anmerkung
auf Seite 19 ) in Knoten überführt, sind die Graphen von ADIOS und SOG
äquivalent. Allerdings ist die Repräsentation des Korpus als Graph im
SOG- Ansatz weniger wichtig als dies bei ADIOS der Fall ist, da der Graph
zur Hypothesenbildung nicht benötigt wird. Sie ist dennoch nützlich,
denn sie ermöglicht es, komplexe Beziehungen zwischen verschiedenen
Wörtern, Wortket ten oder Paradigmen leicht abzubilden, zu erkennen
oder zu modifizieren und bietet gleichzeitig auch die Möglichkeit,
Ausschnitte des Korpus zu jeder Zeit zu visualisieren, was Konzeption,
22 Die Lemmatisierug wird vom Preprocessor des Semald- Projekts übernommen, vgl.Kapitel 4.1 .
- 25 -
Evaluation und Dokumentation äußerst zuträglich ist. Erst in Kapitel 5
wird sich zeigen, dass die Repräsentation des Datenmodells als Graph
weitere Perspektiven ermöglicht, die über die hier beschriebenen Ziele
hinausgehen. Da sich die Strukturierung dieses Kapitels an dem
Programmablauf des SOG- Algorithmus orientiert, soll Abbildung 8 hier
zunächst eine grobe Orientierung bieten.
Abbildung 8 Schematische Darstellung des Program m ablaufsvon SOG.
Auf die Schritte 1 und 2 soll nicht ausführlich eingegangen werden, da es
sich dabei – im Kontext dieser Arbeit – nur um Vorarbeiten handelt, die
vor der eigentlichen Datenprozessierung ausgeführt werden müssen.
Stattdessen sollen in Kapitel 3.1.1 und 3.1.2 die Schritte 3 und 4 erläutert
werden, die in ihrer Bedeutung für SOG in etwa mit der Bedeutung der
Alignment - Phase im ABL- Algorithmus zu vergleichen sind, während
Schritt 5, vergleichbar mit der Bracket - Selection - Phase von ABL oder der
Substituierung Wortketten durch Äquivalenzklassen in ADIOS, in Kapitel
3.1.3 beschrieben wird. Details zur Implementation (die in der
Programmiersprache Java durchgeführt wurde) sollen in diesem Kapitel
nicht erwähnt werden, da sie für das Verständnis des Algorithmus nicht
notwendig sind – Quellcode und weitere Informationen über die
Testumgebung finden sich jedoch auf der beiliegenden CD und in Anhang
- 26 -
Hypothesen-Extraktion
Filter-Anwendung
Hypothesen-Integration
Präprozessierung
Graphen-Erzeugung
Hypothesen integriert?Ja
Nein
max. Schranke erreicht?Ja
Nein
Schrankenmodifikation
Programm beenden
1
2
3
4
5
6
7
C.
3.1 Details des SOG-Algorithmus
3.1.1 Erkennung paradigmatischer Relationen
In diesem Schritt sucht der SOG- Algorithmus nach partiell redundanten
Sätzen, indem jeder Satz des Korpus mit jedem anderen Satz verglichen
und dabei nach Wörtern und Wortketten gesucht wird, die in beiden
Sätzen identisch sind. Bedingt durch die Datenstruktur finden sich dabei
immer mindestens zwei solcher Elemente, denn die funktionalen Knoten
START und END kennzeichnen die Grenzen jedes Satzes. Wird zusätzlich
noch mindestens ein weiteres Element gefunden, das in beiden Sätzen
enthalten ist, so besteht die Möglichkeit, dass zwischen den nicht -
redundanten Elementen (bzw. Elementket ten ) der Sätze paradigmatische
Relationen vorliegen. In dem Beispiel in Abbildung 9 ist dies der Fall: Die
mit den Satznummern 1 und 2 gekennzeichneten Pfade enthalten 5
gemeinsame Knoten, die von dem betrachteten Teilgraphen zwei nicht -
redundante Pfadgruppen abspalten.
Abbildung 9 Redundante Knoten und ihr Einfluß auf die Paradigmenerkennung
Damit hat der Algorithmus erste Indizien dafür gefunden, dass es sich bei
- 27 -
START der
mann
gab seiner
freundin die tasche
END
tante einen kuss
1: 1,2: 1
1: 2 1: 31: 4,2: 4
1: 5 1: 8
2: 5 2: 8junge
2: 2 2: 3
partiell redundante Satzteile
1:6 1: 7
2:6 2:7
[mann | junge ] und [{freundin die tasche } | {tante einen kuss }]23 um
Paradigmen handeln könnte. Zudem werden jedoch auch alle weiteren
Pfadgruppen durch SOG extrahiert, die von redundanten Elementen
umschlossen werden, wie dies bspw. für [{der mann } | {der junge }], [{der
mann gab } | {der junge gab }] oder [{seiner freundin die tasche } | {seiner
tante einen kuss }] gilt. So werden – mit Ausnahme von nicht weiter
prozessierbaren, leeren Paradigmen (wie zwischen START und der ) und
dem größtmöglichen Paradigma (beide Pfade zwischen START und END) –
alle auf diese Art und Weise zu bildenden Hypothesen konstruiert und
gesammelt.
Dieses Vorgehen ähnelt den auf SET aufbauenden Verfahren wie dem
ABL- Algorithmus oder dem SP- Modell. Im Unterschied zu SET wird hier
jedoch implizit von den potentiellen Grenzen zweier Phrasen auf die
entsprechende Operation (bei der es sich ebenfalls um Einfügen, Löschen
oder Ersetzen handeln kann) geschlossen. Dies hat bezüglich der Laufzeit
große Vorteile, weil lediglich die Schnittmenge der Wörter zweier Sätze
ermittelt werden muss, während ein SET- Algorithmus i.d.R. sämtliche
Operationen berechnen muss, um die optimale Transformation zu finden.
Zwar werden so nicht alle denkbaren Zuordnungen gefunden – SET-
Implementierungen liefern auch dann Ergebnisse, wenn beide Sätze kein
gemeinsames Wort enthalten (wobei in diesem Fall ausschließlich
Ersetzungsoperationen durchgeführt werden) – jedoch ist dies für den
weiteren Verlauf des SOG- Algorithmus nicht weiter von Bedeutung, da
ein gemeinsamer Kontext zweier Phrasen für die Berechnung der Qualität
einer Hypothese zwingend erforderlich ist. Die Güte einer Hypothese wird
– wenn Xn ,Xn−1 ,... ,X1 die gemeinsamen Wörter vor den auf
paradigmatische Relation zu prüfenden Phrasen repräsentieren und
Y1, Y2, ... , Ym die gemeinsamen Wörter danach – berechnet wie in (3).
23 Zur Notation: Im Folgenden werden Paradigmen innerhalb eckiger Klammerndargestellt und die einzelnen Elemente des Paradigmas durch senkrechte Striche(entsprechend dem in Programmiersp rachen verbreiteten Symbol für das logische„oder“) voneinander getrennt. Falls verdeutlicht werden muss, dass eine Wortketteals eine sequentielle Einheit interpretier t wird, so wird diese durch geschweifteKlammern gekennzeichnet.
- 28 -
(3) ∑i=1
n
R Xi∗2i−1∑j=1
m
R Y j∗2 j−1
Die Funktion R X steht dabei für den Rang des Wortes X – dies ist ein
korpusabhängiger Wert, der sich reziprok proportional zur Häufigkeit
des Wortes X verhält, d.h. das Wort mit den meisten Vorkommen
bekommt den Wert 1 zugewiesen, das zweithäufigste 2 usw. (vgl. für
einen Überblick über die 50 häufigsten Wörter der hier untersuchten
Korpora Anhang A).
Die Formel (3) kombiniert bei der Berechnung der Qualität einer
Hypothese zwei Faktoren: Zum einen wird durch die Berücksichtigung
des Rangs nicht lediglich die Länge des gemeinsamen Kontexts
betrachtet, so dass eine kontextsensitivere Abschätzung durchgeführt
werden kann. Es lässt sich beispielsweise nicht beobachten, dass eine
paradigmatische Relation immer dann vorliegt, wenn zwei Phrasen die
Eigenschaft teilen, zwischen den hochfrequenten Wörtern die und der
vorkommen zu können, während davon auszugehen ist, dass zwei
Phrasen, die zwischen die und forderte vorkommen, häufiger in
paradigmatischer Relation stehen – je seltener die Wörter im Kontext
einer Hypothese sind, desto höher wird die Hypothese bewertet.
Zum anderen bewirken die Faktoren 2i−1 bzw. 2 j−1 in (3), dass die
Länge des gefundenen Kontexts exponentiell in die Berechnung der
Qualität mit einfließt. Wenn innerhalb eines Satzes verschiedene
Hypothesen miteinander bezüglich des Kontexts konkurrieren (wie die
aus Abbildung 9 hergeleiteten Hypothesen [{der mann gab } | {der junge
gab }] und [mann | junge ]), so wird durch diese Faktoren zugleich auch
erreicht, dass die kürzere Hypothese von SOG präferiert wird, da
zwangsläufig der gemeinsame Kontext dieser Hypothesen größer sein
muss (vgl. Abb. 9).
Die Güte einer Hypothese hängt also sowohl von der Länge des
gemeinsamen Kontexts als auch von der Relevanz der dort
vorkommenden Wörter ab und ist theoretisch nach oben unbegrenzt.
- 29 -
Dies ist ein wesentlicher Vorteil gegenüber Ansätzen wie HAL, die mit
einem Kontextfenster fester Breite arbeiten (vgl. Burgess et al. 1998:6),
denn die Wahrscheinlichkeit, zwei paradigmatische Phrasen mit „sehr
großem“ gemeinsamen Kontext zu finden, ist zwar relativ gering, die
Wahrscheinlichkeit, dass diese Phrasen tatsächlich in paradigmatischer
Relation stehen, jedoch umso höher 24 . Zudem ist anzumerken, dass in (3)
weder der Inhalt der potentiellen Paradigmen noch deren Länge
berücksichtigt wird. Dies ermöglicht SOG, Paraphrasen und
kollokationsähnliche Strukturen in die Suche nach paradigmatischen
Relationen mit einzubeziehen, was in anderen Modellen (wie bspw.
ADIOS, vgl. Kapitel 2.3 , S. 22 ) nicht möglich ist. Allerdings wird das
Ergebnis der Berechnung aus (3) mit einigen strukturbezogenen Regeln
und Filtern kombiniert, so dass weitere Faktoren in den
Entscheidungsprozess des Programms mit einfließen – auch bei
Hypothesen, die eine sehr schlechte Bewertung bekommen, d.h. diese
werden nicht unmittelbar verworfen, sondern in der weiteren Analyse,
nachdem jeder Satz mit jedem anderen Satz verglichen wurde,
berücksichtigt 25 .
3.1.2 Filterfunktionen
Im vorigen Kapitel wurde die Generierung von Hypothesen beschrieben,
m.a.W. die Extraktion der weiter zu untersuchenden Strukturen. In
diesem Kapitel soll nun erläutert werden, wie sich die Masse der
generierten Hypothesen wieder einschränken lässt, um gute Hypothesen
von schlechten zu trennen. Einige der hier vorgestellten Filter lassen sich
24 In Kapitel 4.1 wird sich zeigen, dass sich die Wahrscheinlichkeit, solche Phrasen zufinden, durch „geeignete Wahl“ des Korpus jedoch erhöhen lässt.
25 Dieses Vorgehen, d.h. die Berücksichtigung aller ermittelten Hypothesen, führt in derpraktischen Anwendung allerdings dazu, dass sehr viel Speicherplatz durch dasProgramm belegt wird. Daher lässt sich durch einen Grenzwert eine minimaleQualität festlegen, die eine Hypothese aufweisen muss, um weiterhin berücksichtigtzu werden. Diese kann jedoch deutlich niedriger sein als die Grenze, ab der eineHypothese als gültig interpretiert wird und – wenn der verfügbare Arbeitsspeicherdies zulässt – sogar den Wert 0 haben, so dass obige Aussage uneingeschränktzutrifft.
- 30 -
bereits während der Generierungsphase anwenden, Abbildung 8 (auf Seite
26 ) abstrahierte von dieser Unterteilung, die funktional auch keine
Auswirkung auf die Arbeitsweise von SOG hat, sondern lediglich die
Implementa tion des Programms betrifft.
Verschiedene Struktureigenschaften lassen sich nutzen, um weitere
Vermutungen über die Qualität einer Hypothese aufzustellen. So werden
zwei Sonderfälle bei der Prozessierung berücksichtigt, die abhängig von
der Wortkettenlänge sind:
Falls beide Wortketten maximal die Länge 1 haben, lässt sich auch der
Rang beider Wörter vergleichen bzw. untersuchen. Dabei ist es zum einen
unwahrscheinlich, dass zwei hochfrequente Wörter in paradigmatischer
Relation stehen, zum anderen ist es unwahrscheinlich, dass ein
hochfrequentes Wort fakultativ ist (vgl. die Liste der hochfrequenten
Wörter in Anhang A). Sinclair (1991:83) vermute t, „that quite a few of the
very common words in a language are so unlike the others that they
should be considered as unique, one- member word classes “, was sich mit
dieser Beobachtung deckt.
Aus diesem Grund, d.h. um sicherheitshalber zu vermeiden, dass der
Algorithmus durch Bildung von Paradigmen aus funktionalen Elementen
in weiteren Iterationen schwerwiegende syntaktische Fehler macht,
wurde ihm eine Filterfunktion hinzugefügt, welche Paradigmen ablehnt,
wenn beide Wörter einen Rang < 50 besitzen 26. Dies ist ein willkürlich
festgelegter Grenzwert, der einer statistischen, korpusbezogenen
Berechnung jedoch vorgezogen wurde – während der Entwicklung von
SOG ließen sich dadurch verschiedene Grenzwerte testen, ebenso wie die
Ergebnisse der Prozessierung verschiedener Korpora unabhängig von
einem variierenden Grenzwert verglichen werden konnten (vgl. auch
Kapitel 4.2 und 6).
Weiterhin werden Paradigmen dann abgelehnt, wenn sich Teile der Ketten
26 Dies ist eine indirekte Parallele zwischen SOG und dem SP- Modell. So erläutertDennis (2003), wie eine heuristische Variante des SET- Algorithmus die von SPMbenötigte Rechenzeit verringern kann, indem nur Wortketten betrachtet werden, diezwischen den 200 häufigsten Wörtern stehen. Zwangsläufig ergibt sich daraus, dasshochfrequente Wörter in diesem Fall nicht von SPM in paradigmatische Relationgesetzt werden können.
- 31 -
in ihrer Distribution nicht komplementär verhalten, d.h. wenn Wörter, die
innerhalb einer Kette vorkommen, nicht in der anderen Kette, wohl aber
in deren Restsatz vorkommen, als Beispiel in (4a) und (4b), allgemein in
(4c) und (4d) dargestellt.
(4a) Der Mann { besucht gerne } seine Kinder,
wenn er darf.
(4b) Der Mann { hatte } seine Kinder besucht ,
wie immer.
(4c) ... X1 { Y1 Y2 } X2 ...
(4d) ... X1 { Y3 } X2 Y1 ...
Das Paradigma [{besucht gerne} | {hatte}] bzw. [{Y1 Y2} | {Y3}] ist
offensichtlich falsch, grundsätzlich (wie in obigem Beispiel) ist es in
solchen Fällen möglich, dass die syntaktische Struktur der Sätze derart
voneinander abweicht, dass durch einen Austausch von {Y3} durch {Y1 Y2}
die von SOG konstruierte Phrase (4d')ungrammatisch wird, da das
Element Y1 in (4d') zweimal auftauchen würde.
(4b') Der Mann [{besucht gerne} | hatte] seine Kinder besucht , wie
immer.
(4d') X1 [{Y3} | {Y1 Y2}] X2 Y1
Dies ist selbstverständlich nicht immer der Fall, da sich jedoch aufgrund
der iterativen Methodik des Algorithmus Fehler potenzieren , ist eine
niedrige Fehlerquote, d.h. eine hohe Precision , insbesondere zu Beginn der
Datenprozessierung wichtiger als eine hohe Quote in der Erkennung
valider Paradigmen (Recall).
Zwar hier ließe sich der Rang der Wortkette auch hier verwenden, um die
Wahrscheinlichkeit einer solchen Bewegung abzuschätzen, denn die
Wahrscheinlichkeit, dass hochfrequente Wörter (wie z.B. Artikel) in einem
Satz mehrmals vorkommen dürfen (und somit keine Verletzung einer
Bewegungsregel vorliegt) ist höher als die für seltene Wörter – allerdings
- 32 -
sind beispielsweise auch Auxiliare hochfrequent, und falsche Annahmen
über diese würden die syntagmatische Struktur eines Satzes stark
beeinträchtigen, so dass eine ausschließliche Berücksichtigung des Rangs
hier nicht ausreicht und Hypothesen wie in (4) immer verworfen werden.
Wie bereits erwähnt, lässt das SOG- Modell zu, dass eine der beiden
Wortketten eines Paradigmas leer sein kann. In diesem Fall handelt es
sich zwar nicht um ein Paradigma im in Kapitel 1.3 definierten Sinn, denn
die symmetrisch formulierte Forderung der Substituierbarkeit beider
Ketten gilt hier nicht zwangsläufig und die Vorstellung, eine Wortkette
stünde in paradigmatischer Relation zu einer leeren Kette , ist zudem
nicht besonders intuitiv. Andererseits gleicht die algorithmische
Behandlung solcher Konstruktionen (im Folgenden als Null- Paradigmen
bezeichnet) im wesentlichen der gewöhnlicher Paradigmen 27 , weshalb kein
weiterer Datentyp in das Modell eingeführt wurde. Zur Kennzeichnung
wird die leere Kette durch den funktionalen Knoten NOTHING dargestellt
(im Text dieser Arbeit auch durch ∅ dargestellt). In der Praxis zeigte
sich das Problem, dass sich die Ersetzung des Elements ∅ durch die
entsprechende nicht - leere Kette zwar oftmals korrekt war, in folgenden
Programmiterationen jedoch zu Problemen führte. Daher werden für
Null- Paradigmen zum einen härtere Schranken gesetz t, außerhalb der
diese abgelehnt werden 28 , zum anderen werden sie in der
Integrationsphase nur einseitig eingesetzt, so dass das nicht - leere
Element als fakultativ gekennzeichnet, die Leerstelle jedoch nicht durch
das Paradigma ausgetauscht wird 29 . Anhand dieser Null- Paradigmen zeigt
sich, wie bereits in Kapitel 1.3 angedeutet, dass SOG prinzipiell dazu in
der Lage wäre, Transformationen zwischen zwei Sätzen zu erkennen.
Werden in zwei Sätzen, wie bspw. in (5), zwei identische Null- Paradigmen
gefunden (was gleichzeitig eine Anwendung des oben beschriebenen
Distributionsfilters verursacht, in der hier vorgestellten Version von SOG
27 Insbesondere dann, wenn ein Paradigma mehr als zwei Wortketten enthält, wieTabelle 2 auf Seite 38 veranschaulicht.
28 Dies betrifft zum einen die Filterung anhand hochfrequenter Wörter, zum anderendie Integration solcher Paradigmen in das Datenmodell.
29 Weitere strukturelle Probleme mit Null- Paradigmen beschreibt auch van Zaanen(2004) und handelt ähnlich pragmatisch, indem er sie ebenfalls nicht weiter durchABL verarbeiten lässt.
- 33 -
werden solche Strukturen folglich nicht näher betrachtet), so lässt sich
aus der daraus folgenden Konstruktion (5c) auf die Existenz einer
Transformationsregel schließen, durch die (5a) in (5b) überführ t werden
kann.
(5a) START weil er die kinder besucht hat END
(5b) START er hat die kinder besucht END
(5c) START [weil | ∅ ] er [ ∅ | hat] die kinder besucht [ ∅ | hat]
END
Dieser Vermutung wird hier nicht weiter nachgegangen, sie bietet jedoch,
insbesondere auch im Kontext von Kapitel 5, einen interessanten
Ausgangspunkt für weitere Untersuchungen und Verbesserungen von
SOG.
Wie bereits im vorherigen Kapitel erwähnt, werden paradigmatische
Relationen, die nicht in der Erkennungsphase durch Filterfunktionen
abgelehnt wurden, zunächst gesammelt, bis jeder Satz einmal mit jedem
anderen Satz verglichen wurde. Sollten dabei bereits vermutete
paradigmatische Abhängigkeiten zwischen zwei Wortketten ein weiteres
Mal generiert werden, so werden die neuen Informationen der bereits
existierenden Hypothese hinzugefügt – unabhängig davon, ob es sich um
einen(teilweise) unterschiedlichen Kontext handelt oder nicht 30 . Dies hat
insbesondere auf die abschließende Bewertung einer Hypothese, die im
folgenden Kapitel näher erläutert wird, starke Auswirkung, denn so wird
ermöglicht, dass SOG auch dann von einer paradigmatischen Relation
zwischen zwei Wortketten in zwei Sätzen ausgeht, wenn der gemeinsame
Kontext in diesen Sätzen dies nicht zulassen würde, Fundstellen in
anderen Sätzen eine paradigmatische Abhängigkeit dieser Wortketten
jedoch besser belegen. In diesem Zusammenhang ist ein letzter Filter
erwähnenswert, der im Gegensatz zu den bisher beschriebenen Filtern
positiv auf die Bewertung einer Hypothese wirkt: Wenn der gemeinsame
Kontext einer Hypothese die funktionalen Knoten START und END
30 Die Informationen über den Kontext werden selbstverständlich auch gespeichert.
- 34 -
enthält (und somit den gesamten Satz umfasst), so lässt sich daraus
folgern, dass diese (zumindest bezüglich der Substituierbarkeit) valide
sein muss. Die abschließende Bewertung der Hypothese wird daraufhin
stark positiv beeinfluss t.
3.1.3 Integration paradigmatischer Strukturen
Nach Abschluss der Filteranwendung muss SOG entscheiden, welche
verbliebenen Paradigmen in den Graphen übernommen werden sollen.
Dazu wird ein relativ simples Wertungssystem genutzt: Für verschiedene
positive Eigenschaften der jeweiligen Hypothese werden Punkte verteilt,
für negative Eigenschaften werden Punkte abgezogen (vgl. Tabelle 1).
Bedingung Effekt
Kontextlänge in allen Kontexten auf beiden Seitennur 1
- 1
Ein Kontext enthält START und END +1
Qualität aus Funktion (3) > 10.000 +1
Qualität aus Funktion (3) > 100.000 +1
Anzahl unterschiedlicher Kontexte > 2 +1
Ein Kontext beidseitig länger als 4 +1
Tabelle 1 Zweite Bewertung von Hypothesen
Die Bedingungen, die in der zweiten Bewertung überprüf t werden, sind
satzunabhängig formuliert, d.h. es genügt, wenn eine Hypothese in einem
gefundenen Kontext die Knoten START und END enthält, um dafür eine
positive Bewertung zu erhalten, unabhängig von allen weiteren
gefundenen Kontexten. Dadurch wird der theoretisch unbegrenzt große
Wertebereich der in Kapitel 3.1.1 beschriebenen Bewertungsfunktion (3)
in ein Stufenmodell abgebildet, in welchem gleichzeitig weitere
Eigenschaften einer Hypothese (wie die Anzahl unterschiedlicher
Kontexte) berücksichtigt werden. Dies ermöglicht es zum einen,
zusätzliche Filter schnell an SOG anzufügen und ihre Auswirkung zu
analysieren, zum anderen lässt sich so leichter eine grobe qualitative
- 35 -
Aufteilung der Menge aller Hypothesen durchführen. Hypothesen, denen
weniger als 2 Punkte zugewiesen wurden, werden verworfen, während
Hypothesen mit mehr als zwei Punkten übernommen werden.
Hypothesen, die genau zwei Punkte zugewiesen bekamen, werden einer
weiteren Beurteilung (durch das in SOG integrierte Agentensystem,
welches in Kapitel 3.3 vorgestellt wird) unterzogen, deren Ergebnis
darüber entscheidet, ob die jeweilige Hypothese in den Graphen
übernommen werden soll oder nicht 31 .
Anschließend werden die übrigen Paradigmen satzweise integriert, d.h.
für jeden Satz wird eine absteigend nach (von Formel (3) berechneter)
Qualität geordnete Liste von Paradigmen erzeugt – implementiert als
Objekte des Typs ParadigmaticHypothesis (PH) – die der Reihe nach die
entsprechenden Wortketten im Satz ersetzen. Da PHs sich teilweise
überschneiden können (vgl. Kapitel 3.1.1 ), ist die Integration nicht für
jedes Objekt möglich, da jedoch zunächst die besten Paradigmen gewählt
werden, beeinträchtigt dies den Programmablauf nicht 32 . Erwähnenswert
ist bei der Paradigmenintegration , dass die Qualität eines Paradigmas wie
in der Bewertung durch das Stufenmodell satzunabhängig berechnet
wird, denn Grundlage für die Sortierung der Liste ist der jeweils beste für
eine Hypothese berechnete Wert.
Die Integration geschieht jedoch nicht grundsätzlich für alle Vorkommen
der Wortketten im gesamten Graphen, sondern nur für die von SOG als
paradigmatisch interpretierten Ketten in den entsprechenden Pfaden. Die
Feststellung, dass eine Wortkette sowohl unterschiedliche syntaktische
Funktion haben als auch semantisch ambig sein kann, also mehrere
Bedeutungen besitzen und somit in verschiedenen Paradigmen
auftauchen kann, wird dadurch ebenso berücksichtigt wie im ADIOS-
Modell, d.h. die hohe Kontextsensitivität des ADIOS- Ansatzes ist auch
31 Das Stufenmodell ist analog zu dem im vorigen Kapitel vorgestellten rangbasiertenFilter zu kritisieren – auch hier handelt es sich um relativ willkürliche gewählteGrenzwerte. Allerdings wird hier nur eine grobe Aufteilung der Hypothesenvorgenommen, um gute und schlechte Hypothesen von fraglichen Hypothesen zutrennen – dies technisch notwendig, da nicht alle Hypothesen in akzeptabler Zeitdurch das Agentensystem überprüf t werden können.
32 Es handelt sich hier nicht um ein Maximierungsproblem – es ist nicht unmittelbaresZiel des Algorithmus, möglichst viele Paradigmen in einen Satz zu integrieren, umihn bzgl. der Qualität der Summe der Paradigmen zu optimieren.
- 36 -
hier gegeben.
Die Kontextsensitivität des SOG- Modells wird jedoch gleichzeitig wieder
zugunsten einer Generalisierung abgeschwächt, denn durch die
satzunabhängige Berechnung der Qualität der Paradigmen ist es möglich,
paradigmatische Beziehungen auch dann zu vermuten, wenn dies die
Kontextinformationen in einem Einzelsatz nicht zulässt.
Es ist ebenfalls möglich, dass identische Wortketten unterschiedlich
segmentiert werden: Da grundsätzlich nur Satzpaare verglichen werden,
kann sowohl der gemeinsame Kontext einer in mehreren Sätzen
enthaltenen Wortkette als auch die als paradigmatisch erkannte Teilkette
von Satz zu Satz variieren, wie (6) veranschaulicht:
(6) [ {[ ∅ | weißer] bruder ]} | {bruder {old shatterhand }} | {weißer
bruder}}]33
Die Wortkette weißer bruder ist hier durch SOG einmal als Einheit und
einmal als Komposition mit fakultativ gekennzeichnetem Adjektiv
interpretiert worden. Deligne und Sagisaka (1998:1) bezeichnen ein
solches Verhalten als nicht - deterministisch, denn
even if phrase abc is registered as a phrase, the possibility of parsingthe string as, for instance , [ab ] [c] still remains. By contrast , in adeterministic approach, all co - occurrences of a , b and c would besystematically interpreted as an occurrence of phrase [abc ].
Nachteilig an diesem Vorgehen ist – wie (6) ebenfalls zeigt - jedoch, dass
syntagmatisch - paradigmatische Strukturen relativ leicht inkompatibel
zueinander werden können – auch dann, wenn sie eigentlich gleich oder
ähnlich aufgebaut sein sollten. In (6) wäre es wünschenswert, wenn die
Sequenz {weißer Bruder } durch die verschachtelte Konstruktion ersetzt
33 Hierbei handelt es sich um ein von SOG generiertes Paradigma. Um zu kennzeichnen,dass es sich im Gegensatz zu manuell konstruierten Beispielen um ein „echtes“Beispiel handelt, wird hier und im Folgenden die ID, die SOG dem jeweiligenParadigma zugewiesen hat, zusammen mit einem Kürzel für die Kombination vonKorpus, maximaler Paradigmenlänge und Iteration angegeben – dies ermöglicht esauch, die Beispiele in den SOG- Daten auf der CD zu identifizieren. In (6) handelt essich um Paradigma 1145 aus der Prozessierung des May- Korpus mit maximalerLänge 3 und Subiteration 3, abgekürz t als May/3 /3:1145.
- 37 -
würde, und optimal wäre es wohl, wenn SOG (6) in (6 ') überführen würde.
(6 ') {[ ∅ | weißer] bruder} {[ ∅ | {old shatterhand}]}
Dafür müsste das SOG- Modell um eine weitere, restrukturierende
Komponente erweitert werden, die strukturell oder inhaltlich ähnliche
Paradigmen analysiert und, falls Ähnlichkeit von Struktur und
Verwendungsweise groß genug sind, in einem Paradigma neu und
optimiert zusammenfasst . Dies wurde in dieser Arbeit nicht versucht,
doch für eine Verbesserung der Ergebnisse wäre ein solches Vorgehen
notwendig.
Ansatzbedingt werden immer nur zwei Wort - bzw. PH- Ketten
zusammengefass t. Dieses Verhalten ist erwünscht, da sich andernfalls
schnell Paradigmen bilden würden, deren einzelne Elemente sehr
unterschiedlich sind. Um die Produktivität des Algorithmus zu erhöhen
und die Gesamtlaufzeit des Programms zu beschleunigen, könnte jedoch
in einem weiteren Programmschrit t versucht werden, ausgehend von den
beiden Ketten K1 und K2 der jeweiligen PH, Cliquen 34 von weiteren
substituierbaren Ketten zu finden. Dies könnte geschehen, indem
zunächst alle PH- Objekte, in welchen K1 oder K2 ebenfalls vorkommen,
gesammelt werden und anschließend versucht wird, eine Clique in dieser
Menge zu finden. Beispielsweise fand SOG für die Hypothese [stieg |
kletterte ] im SZ- Korpus noch folgende gemeinsame PH- Objekte:
K1 (stieg) K2 (kletterte)
[stieg | sank ] [kletterte | sank]
[stieg | fiel] [kletterte | fiel]
Tabelle 2 Aus SOG- Daten manuell erzeugtes Beispiel einer Cliquenbildung
Theoretisch ließe sich an Stelle der einzelnen PHs direkt die Hypothesen -
34 Der Begriff Clique ist aus der Graphentheorie übernommen. Er bezeichnet einenTeilgraphen mit einer vollständig zusammenhängende Menge von Knoten, d.h.zwischen je zwei Knoten einer Clique existiert eine Kante.
- 38 -
Clique [stieg | sank | kletterte | fiel] in den Graphen einsetzen, in dieser
Arbeit wurde lediglich ein Modul zur Cliquen bildung implementiert, die
gefundenen Cliquen wurden jedoch nicht in den Graphen integriert,
sondern nur in einer Textdatei ausgegeben (vgl. Anhang B).
3.1.4 Rekursivität der Datenstrukturen
An dieser Stelle soll kurz näher auf die Datenstruktur von PHs
eingegangen werden, um die sich daraus ergebenden Möglichkeiten zu
erläutern: PHs enthalten als Container für paradigmatische Ketten
ebenfalls einen Graphen, in dem die einzelnen Ketten als Pfade zwischen
den Knoten START und END abgebildet sind. Im Unterschied zum
„Korpusgraphen “ sind die Knoten eines Pfades jedoch gekapselt in einem
Objekt des Typs SyntagmaticHypothesis (SH). Dies ist zum einen eine aus
linguistischer Sicht konsequente Behandlung des Problems, da eine
paradigmatische Relation zwischen zwei Wortketten eine syntagmatische
Äquivalenz beider voraussetz t (zumindest in funktionaler Interpretation,
wie in Kapitel 1.3 erläutert), die somit auch abgebildet wird, zum anderen
wird so eine Restrukturierung der Wortketten erleichtert, falls der
Algorithmus Phänomene entdeckt, die eine solche erfordern: PHs
enthalten ausschließlich in paradigmatischer Relation stehende SHs, und
SHs enthalten ausschließlich in syntgmatischer Relation stehende, lineare
Ketten von Wörtern, PHs und SHs. Dies lässt sich sowohl an (6) als auch
an Abbildung 10 erkennen.
- 39 -
Abbildung 10 Typrekursivität in SOG (SZ/6 /3:2073). Die beiden PHs sinddunkelgrau, die SHs hellgrau markiert. Das Wort spd stand in Klammernhinter dem Namen – Satzzeichen werden von SOG jedoch nichtübernom m e n (vgl. Kapitel 4.1 ).
So ist neben der Wiederverwendung verschiedener den Graphen
modifizierenden Methoden eine rekursive Strukturierung möglich,
während auftretende Such- , Entscheidungs - und Optimierungsmethoden
sowohl transparent als auch effizient implementiert werden können. Die
Mächtigkeit des Modells ist den Ansprüchen somit mehr als genügend,
und da es sich trotzdem nur um einen Graphen (und somit um ein Netz)
handelt, in welchem vier Knotentypen (Wort, PH, SH und funktional)
unterschieden werden, lässt es sich leicht in eine alternative Graphen -
bzw. Netzstruktur wie bspw. in eine TopicMap 35 oder in das (im Rahmen
des Semantic Web propagierte) RDF- Format 36 konvertieren, wodurch sich
ein breites Feld zusätzlicher Hilfsmittel sowohl für Generierung als auch
für Wissensextraktion öffnet. Da die Pfade in PHs und SHs analog zum
Korpusgraphen mit Satz- und Wortnummern ausgezeichnet werden, ist
außerdem zu jeder Zeit eine ursprüngliche (Teil- ) Wortkette
rekonstruierbar, so dass das System informationserhal tend 37 arbeitet.
35 www.topicmaps.org36 www.w3.org /RDF, zum Semantic Web www.w3.org /2001 / sw /37 In der im Rahmen dieser Arbeit implementier ten Version gibt es dann einen
Informationsverlust, wenn ein Paradigma mehr als einmal in einen Satz integriertwird, wie dies bspw. bei Personennamen leicht der Fall ist („[Schröder | Müntefering]und [Schröder | Müntefering] sprachen von ...“). Dies ist jedoch lediglich eintechnisches Problem, dessen Lösung Laufzeit und Speicherbedarf des Programmsetwas verschlechtern würde.
- 40 -
der verteidigungsminister
rudolf scharping spd
bundesverteidigungsminister
verteidigungsminister
3.1.5 Fähigkeiten von SOG
Wenn der Algorithmus mit der Integration der Paradigmen den letzten
Schritt abgeschlossen hat (vgl. Abbildung 8 auf Seite 26 ), beginnt er, ggf.
mit modifizierten Schranken 38 , erneut bei Schritt 1. Im Unterschied zur
ersten Iteration arbeitet er jedoch nicht mehr ausschließlich mit Wort-
bzw. Zeichenketten, sondern eben auch mit PHs und SHs. Dies hat zwei
wesentliche Auswirkungen: Zum einen können, wie in Kapitel 3.1.1
beschrieben, nun auch zwei PHs zu einem neuen Paradigma
verschmolzen werden, so dass die Anzahl von Wortketten in einer PH
zunimmt, zum anderen werden auch neue Paradigmen gebildet, die in der
vorherigen Iteration aufgrund einer zu niedrigen Qualität abgelehnt oder
aufgrund unterschiedlichen Kontexts gar nicht erst erkannt worden
waren. Dies zeigt sich anhand des Beispiels (7). Angenommen, die
Möglichkeit, aus den beiden Wortketten
(7a) X1 X3 Y1 X4
(7b) X1 X2 Y2 X4
das Paradigma [ {X3 Y1} | {X2 Y2} ] zu bilden, sei aufgrund niedriger
Qualität abgelehnt worden, und für (7a) wurde ein anderes Paradigma
gewählt, so dass (7a') nun die Form
(7a') X1 [X2 | X3] Y1 X4
besitzt, so ist dadurch gleichzeitig ein gemeinsamer Kontext von Y1 und
Y2 entstanden. Sätze bzw. Pfade werden sich also von Iteration zu
Iteration ähnlicher, semantisch und syntaktisch verwandte Pfade
gruppieren sich (daher auch die Bezeichnung Self- Organizing Graph).
Dies ist ein wesentlicher Unterschied zum ABL-Algorithmus, welcher sich
38 Verschiedene Parameter von SOG lassen sich durch eine Konfigurationsdateimanipulieren, zudem wird nach jeder Iteration der aktuelle Korpusgraph in dasArbeitsverzeichnis geschrieben, das bei erneutem Programmablauf wiedereingelesen werden kann. So lassen sich die Auswirkungen verschiedenerSchrankenwerte schnell vergleichen. Für Details siehe Anhang C.
- 41 -
darauf beschränkt, Wortketten dieselbe Kategorie zuzuweisen, statt diese
Ketten durch die Kategorie auszutauschen – und nebenbei wird SOG so
auch zu einem sprachgenerierenden System, wie Abbildung 11
veranschaulicht.
vergangenen
vorigen
kommenden
in der
woche
wo- che
hatte die allianz...
hatte pakistan vorübergehend...
die neue bundeslandwirtschaftsministerin...hatte
hat
Abbildung 11 Von SOG während der Prozessierungerkannte paradigmatische Beziehungen ermöglichendurch Substitution (begrenzte) Sprachgenerierung
In ADIOS hingegen besteht dieser Vorteil gegenüber ABL zwar auch, d.h.
ADIOS ist ebenfalls ein generierendes System, jedoch nicht in dem
Umfang, den das SOG- Modell bietet, denn Äquivalenzklassen in ADIOS
enthalten grundsät zlich nur Knoten, aber weder (Teil- ) Pfade noch leere
Ketten. Dementsprechend ist ADIOS nicht dazu in der Lage, fakultative
Elemente zu erkennen und auszuzeichnen, auch können unterschiedlich
lange Wortketten dort nicht grundsätzlich miteinander in eine
Äquivalenzklasse aufgenommen werden.
Ein wesentlicher Unterschied zwischen dem ABL-Algorithmus und SOG
besteht darin, dass ABL in der ersten Phase des Programmablaufs zum
Auffinden gemeinsamer Wortketten eine Implementa tion des SET
benutz t. Dieser findet die längsten gemeinsamen Teilsequenzen in zwei
Zeichenketten und bewertet die Nähe der Ketten anhand der Komplexität
der benötigten Verschiebe- , Lösch- und Einfügeoperationen (vgl. Kapitel
2.1 ). Dadurch ergeben sich jedoch zwei Mängel: Erstens ist SET auf den
Vergleich von linearen Zeichenketten beschränkt, während SOG, wie
- 42 -
zuvor dargestellt, auch Alternativen berücksichtigen kann und dadurch in
der Lage ist, in vorherigen Iterationen extrahiertes Wissen über
kategoriale Zusammenhänge aktiv in den Entscheidungsprozess mit
einfließen zu lassen. Dieser Nachteil von SET ließe sich zwar durch eine
Modifikation beheben, nicht jedoch der zweite Unterschied, der darin
besteht, dass SET nicht in der Lage ist, alle möglichen Wortketten - Paare
aufzufinden, sondern nur die „Besten“ erkennt (vgl. van Zaanen 1999:8),
während SOG lediglich die Paare ignoriert, deren Bewertung unterhalb des
angegebenen Schrankenwerts liegt. Da dieser auch den Wert 0 haben darf,
können somit alle erkennbaren Paare betrachtet werden. Zwar ist es, wie
bereits gezeigt, nicht sinnvoll, eine paradigmatische Relation zweier
Zeichenketten ausschließlich deshalb anzunehmen, weil diese zwischen
zwei hochfrequenten Wörtern (wie die und der ) liegen, als
Zusatzinformation ist dieses Wissen jedoch durchaus geeignet – wenn
bereits starke Vermutungen vorliegen, dass sich zwei Ketten in einem
oder mehreren Kontexten paradigmatisch verhalten, so lässt dies
vermuten, dass sie es im schlechter bewerteten Kontext ebenfalls sind.
SOG verzichtet auf heuristische Methoden, zwangsläufig ergibt sich
dadurch jedoch – wie auch beim ABL- Algorithmus – ein schlechtes
Laufzeitverhalten: Da prinzipbedingt jeder Satz mit jedem anderen Satz
verglichen werden muss, liegt die Laufzeit allein für die Erkennung
möglicher Paradigmen ungefähr bei O n2 , so dass die maximale
Inputlänge relativ beschränkt ist. Van Zaanen geht auf diesen Punkt nur
indirekt ein, indem er das Verfahren nur auf zwei kleine Korpora
angewendet (auf den aus 716 Sätzen bestehenden ATIS- Korpus und auf
eine 6797 Sätze große Auswahl des OVIS- Korpus, vgl. van Zaanen 1999)
und erwähnt: „For large corpora (say > 100K sentences) ABL is currently
not feasible“ (van Zaanen 2001:8). Auch die Entwickler des ADIOS-
Modells gehen auf dessen Laufzeitverhalten nicht näher ein,
beschränkten die Anzahl der zu verarbeitenden Sätze jedoch auf eine
Auswahl von 9665 Sätzen des CHILDES- Korpus (Solan et al.:2002) bzw.
erwähnen eine Laufzeit von über 2 Wochen für ca. 300.000 Sätze
- 43 -
(Edelman et al.:2004), bevor das Programm abgebrochen wurde, ohne
allerdings Hinweise auf die technische Infrastruktur zu geben.
In der hier vorgestellten Art und Weise sollte der Algorithmus, da er
kaum 39 sprachspezifische Annahmen oder Parameter berücksichtigt ,
relativ universell auch mit anderen Sprachen arbeiten (wobei zu erwarten
ist, dass die Ergebnisse schlechter werden, je freier die Möglichkeiten der
Wortstellung in einer Sprache sind). Andererseits ist auch offensichtlich,
dass SOG ohne Vorwissen nicht optimal arbeiten kann bzw. mit
Vorwissen besser arbeiten würde, denn ohne beispielsweise über eine
Methode zur Stammformreduzierung oder - bestimmung zu verfügen, ist
es ausgeschlossen, dass paradigmatische Relationen
flektionsformübergreifend gebildet werden können. Weder können neu
und neue in einer Kategorie auftauchen, noch Minister und Ministerin . Es
sollte jedoch möglich sein, solches Vorwissen automatisiert zu erzeugen
und dadurch die Kategorisierung zu generalisieren. Harris stellt ein
Verfahren vor, wie dies anhand von Übergangswahrscheinlichkeiten
zwischen Phonemen geschehen kann (Harris 1979:24ff) und die
Ergebnisse der Implementation dieser Idee durch Benden (2004) zeigen,
dass dies nicht nur theoretisch möglich, sondern auch praktisch
realisierbar ist. Allerdings weist Mason (2004:2 ) mit einem Beispiel darauf
hin, dass bereits „Varianten“ eines Wortes, die sich nur in ihrer Flektion
unterscheiden, bezüglich ihres Distributionsrahmens oft voneinander
abweichen: „eye and its plural form eyes are used in different contexts
and cannot be interchanged, yet they both share the word class 'noun'“.
SOG ist es zwar nicht möglich, Konstituententes ts durchzuführen, da der
Algorithmus über kein Vorwissen verfügt, so dass bspw. der
Pronominalisierungstest nicht anzuwenden ist, weil SOG nicht bekannt
ist, was ein Pronomen ist – aber falls das zu analysierende Korpus die
Ergebnisse solcher Tests enthält (z.B. die Sätze der Mann geht in die
Kirche und er geht in die Kirche ), erkennt SOG die Parallelität der
39 Mit Ausnahme der Annahme, dass es einen Zusammenhang zwischenhochfrequenten Wörtern und „Funktionswörtern“ gibt – dies muss nichtgrundsätzlich in jeder Sprache der Fall sein, ebenso wie auch die Erkennung vonWort- und Satzgrenzen nicht als universell zu betrachten ist.
- 44 -
Strukturen und lernt implizit aus dem jeweiligen Test. Die folgende
Tabelle veranschaulicht dies:
Test Beispiel Effekt
Ausgangssa
tz
Der Mann geht in die
Kirche.
Substitution Die Frau geht in die Kirche. Hypothesenbildung:[{Der Mann} | {Die Frau}]
Permutation In die Kirche geht der
Mann.
keine Hypothesenbildung wg. Bewegung,
aber Beleg für die Phrasalität von der Mann
und in die Kirche
Pronominali
- sierung
Er geht in die Kirche. Hypothesenbildung: [{Er} | {der Mann}]
Fragetest Wer geht in die Kirche? Beleg für Phrasalität, evtl.
Hypothesenbildung [{Wer} | {der Mann}]
Tilgung Der Mann geht. Hypothesenbildung: [{NOTHING} | {in die
Kirche}]
Koordinatio
n
Der Mann und eine Frau
gehen in die Kirche.
Hypothesenbildung: [{geht} | {und eine Frau
gehen}]
Tabelle 3 Konstituententests und ihr „Äquivalent“ in SOG
In natürlichsprachlichen Korpora ist es allerdings nicht zu erwarten, dass
die Sätze aus Tabelle 3 (oder ähnliche Sätze) dort enthalten sind .
Vielmehr besteht das grundsätzliche Problem, dass, wie groß auch immer
das Korpus sein mag, nur ein Bruchteil der potentiell aus dem Vokabular
des Korpus zu bildenden Sätze in diesem auch tatsächlich vorkommt. Da
„ähnliche Sätze“ jedoch Voraussetzung dafür sind, dass das SOG- System
befriedigende Ergebnisse generieren kann, soll dieses Problem im
folgenden Kapitel zunächst näher beschrieben werden, um daran
anschließend eine Methode vorzustellen, es zumindest teilweise (im für
SOG relevanten Rahmen) zu umgehen. Dies ist u.a. nur deshalb möglich,
weil SOG eine qualitative Analyse durchführt: Wie in Kapitel 3.1.1
dargestellt, basiert die Entscheidung darüber, ob zwei Wortketten als
paradigmatisch interpretiert werden oder nicht, im Wesentlichen nur auf
dem gemeinsamen Kontext der beiden Ketten und berücksichtigt nicht,
wie häufig diese Wortketten in paradigmatischer Relation gefunden
wurden. McEnery und Wilson (2003:76) kritisieren an qualitativen
- 45 -
Ansätzen zwar, „that their findings cannot be extended to wider
populations with the same degree of certainty with which quantitative
analyses can“, dies ist jedoch auch nicht das Ziel von SOG, vielmehr
sollen kontextsensitive Abhängigkeiten die Datenverarbeitung steuern –
Generalisierung ist nur ein zweitrangiges Ziel.
3.2 Das Data Sparseness Problem
Um die Qualität der von SOG generierten Hypothesen zu verbessern, wäre
es von Nutzen, die durchgeführten Ersetzungen überprüfen zu können.
Optimal wäre es, bei zwei Wortketten wie (8a) und (8c) (formal dargestellt
durch (8b) und (8d)) testen zu können, ob die Kette X1 P1 X2 auch im
Kontext von K3 K4 und die Kette X1 P2 X2 auch im Kontext K3 K4 auftreten
kann, m.a.W. ob die Neukombinationen von (8a) und (8c) zu den Sätzen
am nächsten morgen ging der mann in die schule und eines tages ging ein
junge in die bäckerei syntaktisch korrekt und akzeptierbar sind.
(8a) START eines tages ging der mann in die
bäckerei END
(8b) START K1 X1 P1 X2 K2 END
(8c) START am nächsten morgen ging ein junge in die
schule END
(8d) START K3 X1 P2 X2 K4 END
Diesen Test allerdings auf den untersuchten Korpusausschnitt
anzuwenden, wäre sinnlos, da SOG solche Sonderfälle bereits in der
Generierungsphase erkennt und schon bei ihrem Auftreten entsprechend
positiv berücksichtigt.
Alternativ würde es die These, dass eine paradigmatische Relation
vorliegt, untermauern, wenn eine X1 P1 X2 (bzw. X1 P2 X2) umschließende
Wortkette gefunden werden kann, die mit den letzten Elementen aus K3
(bzw. K1) beginnt und mit den ersten Elementen aus K4 (bzw. K2) endet.
- 46 -
Doch ist die Wahrscheinlichkeit, dass eine solche Kette im Korpus
gefunden werden kann, immer noch extrem gering: Unter der Annahme,
dass keine der Ketten leer ist, besteht jede Kette aus mindestens fünf
Wörtern. Dagan et al. verweisen auf eine Studie von IBM, in welcher ein
366 Millionen Wörter umfassendes Korpus benutz t wurde, um Tripel aus
anderen Quellen aufzuspüren und festgestellt wurde, „that one can
expect 14.7% of the word triples in any new English text to be absent
from the training sample“ (Dagan et al. 1998:2) . Es ist zu erwarten, dass
die Wahrscheinlichkeit, längere Wortketten einer im Gegensatz zum
Englischen stärker flektierenden und komponierenden Sprache wie dem
Deutschen in einem deutlich kleineren Korpus nicht wiederzufinden,
deutlich größer ist.
Um trotzdem eine Möglichkeit der Ergebnisverbesserung zur Verfügung
stellen zu können, wurde SOG der Zugriff auf externe, d.h. außerhalb des
untersuchten Korpusausschnitts liegende Datenquellen ermöglicht.
Während die Generierung von Hypothesen bedingt durch Laufzeit und
Speicherbedarf von SOG auf einen relativ kleinen Korpusausschnit t
limitiert ist, steht für die Suche nach Belegen 40 für eine Hypothese also
ein deutlich größeres Korpus zu Verfügung.
Zusätzlich ergibt sich durch die Bootstrapping - Fähigkeit und die Art der
Datenrepräsenta tion in SOG eine weitere Möglichkeit, Wortket ten zu
finden, die eine Hypothese bestätigen können, denn mit jeder Iteration in
SOG steigt die Anzahl der PHs im Graphen und somit auch die
Wahrscheinlichkeit, dass sich im Kontext der zu überprüfenden
Hypothese bereits PHs befinden. Somit wird nicht nur nach zwei
Wortketten gesucht, sondern – abhängig vom Kontext der jeweiligen
Hypothese – nach mehreren (bspw. dann, wenn in (8a) nicht die Wortkette
in die bäckerei , sondern die Hypothese { [{in die} | {zur }] } { [{bäckerei } |
{bücherei }] } stehen würde. In diesem Fall könnte der Austausch von der
40 Selbstverständlich lässt sich eine Hypothese im wissenschafts theoretischen Sinnnicht validieren sonder nur falsifizieren, jedoch ist dies hier nicht möglich, da dasSystem ohne menschlichen Eingriff auskommen soll und somit lediglich dieRückmeldungen „gefunden“ und „nicht gefunden“ gegeben werden können, die sichnicht auf „richtig“ und insbesondere „falsch“ übertragen lassen. Daher beruht dieValidierung hier auf einem „Indizienbeweis“: Werden Indizien für eine Vermutunggefunden, so wird die Vermutung als richtig interpretiert.
- 47 -
mann durch ein junge anhand von vier möglichen Wortketten getestet
werden).
Dieses Vorgehen ähnelt dem von Dagan et al., die zur Lösung des „Data
Sparseness“- Problems vorschlagen, nicht nur nach Wortpaaren, sondern
auch nach „ähnlichen“ Wortpaaren zu suchen, und dadurch deutliche
Verbesserung erzielen: „if word w'1 is „similar“ to word w1, then w'1 can
yield information about the probability of unseen word pairs involving
w1“ (Dagan et al. 1998:5).
3.3 SOG als Agentensystem
Die Idee, das im Internet verfügbare Material an Texten jeglicher
Kategorie für maschinelle Sprachverarbeitung einzusetzen, ist nicht neu.
So demonstriert bereits eine Arbeit des Google - Mitgründers Sergey Brin
anhand des Index dieser (sich damals noch in der Entwicklung
befindenden) Suchmaschine, wie sich durch iteratives Pattern - Matching
Autor- Werk- Paare auffinden lassen (Brin:1998) und Duclaye et al.(2002)
nutzen das Internet, um einem natürliche Sprache verarbeitenden
Question- Answering- System die Möglichkeit der Paraphrasierung zu
geben. Beide Untersuchungen nutzen jedoch stark formalisierte
Methoden des Pattern - Matching, die sich in dem hier gegebenen Szenario
nicht einsetzen lassen, da sie manuell erstellte Regeln benötigen, die im
SOG- Modell nicht verfügbar sind.
Als Agent wird in der Softwaretechnologie eine Applikation mit
(begrenzt) pseudo - intelligentem Verhalten bezeichnet, die in der Lage ist,
selbstständig Aufgaben zu erfüllen, und definiert somit zunächst nicht
mehr als ein Konzept, welches sich beispielsweise von dem eines
Roboters (engl. bot ), dem Selbstständigkeit und künstliche Intelligenz
fehlt, unterscheidet (vgl. Heaton 2002:3f). Im Kontext des Information
Retrieval werden Roboter beispielsweise eingesetzt, um die Indexierung
von Internetseiten durchzuführen: Sogenannte Spider verfolgen
- 48 -
ununterbrochen Hyperlinks (die sich als „Fäden“ im „Spinnennetz
Internet“ interpretieren lassen) und indexieren die Inhalte der
entsprechenden Seiten – ohne dabei jedoch Entscheidungen bezüglich des
Inhalts der Seiten zu treffen. Die Funktionalität eines Agenten dagegen
geht über diese einfachen Aufgaben hinaus – so existieren bspw.
agentengestütz te Systeme, welche versuchen, im Internet gezielt
Informationen über bestimmte Ereignisse zu finden. Während eine
Internet - Suchmaschine letztlich einen reinen Roboterservice anbietet,
ließe sich das Verhalten eines Benutzers, der diese nutzt, um eine
spezielle Information zu erhalten, als Verhalten eines Agenten
interpretieren. Ein solches Verhalten soll – in eingeschränkter
Funktionalität – auch das hier entworfene System zeigen: Bei
„Klärungsbedarf “ bzgl. einer Hypothese, also dann, wenn die über den
Kontext berechnete Qualität der Hypothese als zu niedrig eingestuft wird,
um sie ohne weiteres zu übernehmen (vgl. Kapitel 3.1.3 ), wird ein Agent
damit beauftragt, nach Indizien zu suchen, die diese Hypothese
unterstü tzen. In gewisser Weise wird durch dieses Vorgehen eine
Rückmeldung eines Lehrers simuliert, um die Nachteile, die SOG als
unüberwachtes System gegenüber einem überwacht lernenden System
aufweist, abzuschwächen. Allerdings ändert der Rückgriff auf das WWW
nichts daran, dass das System ausschließlich aus positiven Beispielen
lernen kann, und dass das Data- Sparseness - Problem letztlich nur
verkleinert, aber nicht gelöst werden kann, denn das Verhältnis zwischen
Performanz und Kompetenz ändert sich selbstverständlich auch bei
einem größeren Korpus nicht 41 .
Wenn SOG nicht darüber urteilen kann, ob es sich bei [P1 | P2] um zwei in
paradigmatischer Relation stehende Wortketten handelt, weil die
Kontextinformationen X1 und X2 nicht ausreichend sind,
(9a) START k 1,1 k 1,2 ... k 1,n X1 P1 X2 k 2,1 k 2,2 ... k 2,m END
(9b) START k 3,1 k 3,2 ... k 3,o X1 P2 X2 k 4,1 k 4,2 ... k 4,p END
41 Allerdings bietet das Korpus Internet den Vorteil, dass verschiedenste Textsortenebenso wie stilistisch stark voneinander abweichende Formulierungen einer Aussage(vgl. bspw. Duclaye et al. 2002:3) dort vorzufinden sind.
- 49 -
so werden P1 und P2 im „hypothetischen“ Kontext eingesetzt und
überprüf t, indem Vorkommen dieser konstruierten Wortkette gesucht
werden. In der Regel ist nicht zu erwarten, dass der durch SOG gebildete
neue Satz in ganzer Länge auf einer WWW-Seite auftaucht. Daher wird
nur ein Teil dieses Satzes gesucht, um anschließend – falls dieser
Ausschnitt gefunden wurde – nach einem größeren Teilstück zu suchen.
Dieses Vorgehen wird so lange wiederholt, bis keine Erweiterung mehr
möglich ist, weil die Satzgrenzen erreicht oder keine weiteren Ergebnisse
mehr gefunden wurden. Die Richtung der Kontexterweiterung (d.h. ob die
Wortkette links, rechts oder auf beiden Seiten verlängert wird) wird dabei
von den Ergebnissen der vorherigen Suche abhängig gemacht, wobei die
beidseitige Erweiterung favorisiert wird. Schlägt diese jedoch fehl, so wird
die Wortkette in weiteren Suchvorgängen einmal nur noch auf der linken
und einmal nur noch auf der rechten Seite erweitert. Ein Beispiel für die
Funktionsweise des Agentensystems soll anhand der von SOG gebildeten
Hypothese [ist | sei]42 gegeben werden. Die Hypothese beruhte darauf,
dass innerhalb des SZ- Korpus unter anderem die in Tabelle 4
dargestellten Ketten gefunden wurden (die Position der Hypothese ist mit
„X“ gekennzeichnet).
START es Xbesser
START deshalb X es dies X aber auch
zudem X es klar X dass zudem X der
Tabelle 4 Gemeinsamer Kontext der Wörter ist und sei im SZ- Korpus
Das Wort sei wurde (wie an dem abstrakten Beispiel in 9 erklärt) an Stelle
des Wortes ist in die entsprechenden Sätze eingefügt, anschließend
versuchte das Agentensystem, eine möglichst lange Teilkette der so
konstruierten Wortketten zu finden. Analog wurde für das Wort ist im
Kontext von sei vorgegangen – die Ergebnisse sind in den Tabellen 5 und
6 dargestellt (Der erweiterte Kontext ist durch Unterstreichung markiert).
42 Die hier wiedergegebenen Daten sind der Datei „post_clean_preparas.csv“ imVerzeichnis „SZ/length 3 iter 1/“entnom men (Zeile 166, siehe auch Anhang B). Nichtgefundene Kontexte wurden ausgelassen.
- 50 -
es sei besser ihnzu
deshalb sei es unsere dies sei aber auch dereinzige
zudem sei es den - - zudem sei der staat
Tabelle 5 Korpusexterne Belege für die Substituierbarkeit des Wortes ist durch sei .
- - deshalb ist es nichtrichtig
- -
zudem ist es eine klar ist dass die spd zudem ist deraußenminister im
Tabelle 6 Korpusexterne Belege für die Substituierbarkeit des Wortes sei durch ist.
Auf Grundlage dieser Ergebnisse, d.h. anhand der längsten so gefundenen
Wortketten, wird die Qualität der Hypothese mit der in Kapitel 3.1.1
beschriebenen Formel (3) neu berechnet und für die endgültige
Entscheidung, ob die Hypothese in den Graphen integriert werden soll
oder nicht, herangezogen. Das Beispiel zeigt, dass das Data- Sparseness -
Problem nur in geringem Maße umgangen werden kann, denn die
Kontexte konnten nur leicht erweitert werden. Zudem verdeutlicht es
auch, weshalb die Überprüfung nicht für jede Hypothese durchgeführ t
werden kann, wie bereits in Kapitel 3.1.3 erwähnt wurde: Allein die in
Tabelle 4 dargestellten Daten, bei denen es sich nur um einen Ausschnitt
der gefundenen Kontexte handelt, verursachten 26 Suchanfragen (je eine
Anfrage pro Wort der Erweiterung sowie pro Wortkette eine Anfrage mit
negativem Ergebnis, die die Untersuchung der jeweiligen Wortkette
abbricht). Da in der ersten Iteration von SOG ungefähr 230.000
Hypothesen aus dem SZ- Korpus extrahiert wurden und die Suche nach
einer Wortkette relativ zeitaufwändig ist, muss die Menge der zu
überprüfenden Hypothesen deutlich reduziert werden.
3.3.1 Anwendung des Agentensystems
Die zu untersuchenden Wortketten werden an ein parallel arbeitendes
- 51 -
Programm namens Agency übergeben und von diesem verarbeitet. Erhält
dieses Programm eine Anfrage, so sollte diese zunächst an die intern zu
Verfügung stehende Suchmaschine weitergeleitet und die absolute Zahl
der gefundenen Vorkommen und /oder ein Array mit allen gefundenen
Sätzen zurückgegeben werden. Gleichzeitig sollte, sofern dies noch nicht
geschehen ist, ein Agent beauftragt werden, weitere Evidenz für die
gesuchte Wortkette zu finden.
Prinzipiell ist das für diese Arbeit implementierte Zusatzprogramm dazu
in der Lage, diese Funktionalität selbst zu übernehmen, indem,
ausgehend von einer beliebigen Menge von WWW- Seiten, sämtliche dort
gefundenen URLs verfolgt, die entsprechenden Dokumente indexiert und
die in diesen gefundenen URLs der abzuarbeitenden Liste hinzugefügt
werden, so dass ein eigenständiger Index von Teilen des WWW aufgebaut
werden kann. Allerdings wurde lediglich die Grundfunktionalität des
Programms implementiert, denn sowohl die Verwaltung des Index
(Aktualisierung, Entfernung von identischen Inhalten etc.) als auch die
eigentliche Datenaggregation (Berücksichtigung von Time- outs ,
verschiedenen Dateiformaten, der auf der jeweiligen Seite benutz ten
Sprache u.ä.) erfordert neben anderen Details (wie der Interpretation von
Verhaltensregeln und Metadaten, vgl. Heaton 2002:375) großen Aufwand,
der im Verhältnis zum eher sekundären Einsatz des Programms im
Kontext dieser Arbeit nicht angemessen erschien. Daher wurde in der
hier benutz ten Implementation der Agency auf die Erzeugung eines
eigenen Index verzichtet und stattdessen auf die Fähigkeiten der
Suchmaschine Google (www.google.de ) zurückgegriffen 43 . Nachteilig an
diesem Vorgehen ist allerdings, dass die Formulierung der Suchabfragen
auf das begrenzte Potential der von Google interpretierten Ausdrücke
beschränkt ist, während in einer selbst implementierten Lösung
komplexere Suchmöglichkeiten zur Verfügung stehen können 44 .
43 Eine Suchabfrage nach den Wörtern der und das auf Googles Internetseite ergab,dass diese Wörter in je ca. 18 Millionen Dokumenten gefunden wurden. Unter derAnnahme, dass Googles Index also ca. 18 Millionen deutschsprachige Dokumenteenthält, würde ein ähnlich großer eigener Index selbst dann, wenn pro Dokumentdurchschnit tlich 1 KB Speicherplatz benötigt wird (was eine sehr optimistischeSchätzung ist, da der vollständige Text des Dokuments mitgespeichert werdensollte), eine Größe von mehr als 17 GB besitzen.
44 Bspw. erlaubt die frei verfügbare Java- API Lucene des Jakarta - Projekts (Download -
- 52 -
Die URLs der ersten zehn Treffer (soweit vorhanden) sowie die von
Google geschätz te Anzahl aller Dokumente, welche die Wortkette
enthalten, werden dann lokal im Agency- Cache abgelegt, so dass die
Dienste von Google nicht öfter als nötig genutzt werden müssen 45 .
Um die Ergebnisse einer Suchanfrage nutzen zu können, müssten diese
eigentlich zunächst von Rauschen befreit werden, denn teilweise
enthalten Internetseiten viele Fehler in Grammatik und Ortographie – ist
die zu suchende Wortkette fehlerhaft, so kann nicht davon ausgegangen
werden, dass sie nicht gefunden wird. So liefert Google bspw. für die
ungrammatische Wortkette „für der“ (am 27. 6. 2004) immerhin ca.
118.000 Fundstellen, von denen einige zwar zeigen, dass diese
Konstruktion unter gewissen Umständen korrekt sein kann (z.B. dann,
wenn es sich, wie in „Referat für 'der Exorzist '“ 46 , um einen Eigennamen
bzw. eine named entity handelt ), viele jedoch eindeutig falsch sind
(„Dabei bleibt für der Handwerker viel mehr übrig...“47).
In der Praxis erwies sich die relativ hohe Fehlerquote von WWW-Seiten
jedoch als nahezu irrelevant, da die zu suchenden Wortketten durch
Neukombination von Wortketten aus dem Korpus konstruiert werden
und so mit hoher Wahrscheinlichkeit bezüglich der Rechtschreibung
korrekt sind. So zeigte sich in der praktischen Anwendung dann auch,
dass bereits eine binäre Rückmeldung des Agentensystems (Wortkette
gefunden oder nicht gefunden) genügte, um die Ergebnisse des gesamten
Systems verbessern zu können – diese Feststellung deckt sich auch mit
der in Kapitel 3 erwähnten Entscheidung zuguns ten einer qualitativen
Datenverarbeitung, welche die Quantität der Phänomene unberücksichtigt
lässt.
Möglichkeit unter http: / / j akar ta.apache.org / lucene / docs / in dex.html) reguläreAusdrücke in Anfragen, ebenso die Formulierung von Positionsabhängigkeitenzwischen mehreren Wortketten.
45 Die Nutzungsbedingungen von Google untersagen eine automatisierte Nutzung desDienstes, gleichzeitig wird jedoch eine API angeboten, deren Einsatz die Integrationder Funktionalität erleichter t, aber durch einen personalisierten, von Google zubeziehenden Schlüssel auf 1000 Abfragen pro Tag und Anwender beschränkt wird.Da die Aktualität der Suchergebnisse in diesem Szenario nicht relevant ist, lässt sichdieses Limit durch Einsatz eines Caches umgehen. Alternativ wäre es natürlich auchmöglich, die Ergebnisse eines weniger restriktiven Dienstes zu nutzen.
46 http: / /www.referate - drucken.de / referat_fuer_der_exorzist_33.html (30.06.2004)47 http: / /www.waschmaschinendoktor.de / reparieren_tabelle.html (30.06.2004)
- 53 -
Natürlich ist die zu erwartende Verbesserung der Ergebnisse abhängig
von der Sprache des Korpus: Für seltene (bzw. selten im Internet
verwendete) Sprachen ist die Wahrscheinlichkeit, eine grammatisch
korrekte Wortkette zu finden, zwangsläufig geringer als beispielsweise
für das Deutsche oder Englische. Trotzdem zeigt die hier exemplarisch
durchgeführte Integration externer Datenquellen, dass allein aufgrund
der Quantität des dadurch zu Verfügung stehenden Materials eine Option
zur „Validierung“ von Hypothesen vorhanden ist, die die Simulation eines
„Lehrers“ auch in unüberwacht lernenden Systemen ermöglicht.
4. Empirische Daten
Nachdem in den vorherigen Kapiteln in erster Linie nur die
Vorgehensweise des SOG- Modells dargestellt wurde, soll in diesem
Kapitel ein eher datenorientierter Blickwinkel eingenommen werden.
Daher werden zunächst die in dieser Arbeit prozessierten Korpora
vorgestellt, um in Kapitel 4.2 die Ergebnisse der Datenverarbeitung zu
analysieren.
4.1 Beschreibung der Korpora
Das SOG- Modell wurde an zwei verschiedenen Korpora getestet: Zum
einen wurde ein ca. 25.000 Sätze enthaltender Ausschnitt der
Nachrichten der Süddeutschen Zeitung des Jahres 2001 prozessiert, zum
anderen die zusammen ca. 30.000 Sätze umfassenden ersten drei Bücher
„Winnetou “ von Karl May.
Das SZ- Korpus wurde im Rahmen des SemGen- Projekts aus einer
Archiv- CD extrahiert, die einzelnen Artikel wurden in ihrer Rohform im
Korpus - Format des SemGen- Projekts mit Hilfe der XML-Datenbank
Tamino gespeichert und enthalten neben dem eigentlichen Text
- 54 -
Metadaten bzgl. Quelle, Datum und Kategorie (wie News , Science oder
Society ). Annotation innerhalb eines Textabschnitts wurde nicht
vorgenommen, da diese, sofern sie nicht manuell durchgeführt wird, eine
zu hohe Fehlerquote aufweist und sich ebenfalls das Problem ergeben
würde, dass das Korpus durch Tags gekennzeichnet würde, die nicht
theorieunabhängig sind (vgl. Benden und Hermes 2004), was im
Widerspruch zu den Zielen des SemGen- Projekts stünde. Auch Sinclair
stellt fest:„The safest policy is to keep the text as it is, unprocessed and
clean of any other codes. These can be added for particular
investigations “ (Sinclair 1991:21). Weil insbesondere der Versuch, den
SOG- Algorithmus auf Artikel, die überdurchschnit t lich viele Zahlen
enthielten (wie etwa Aktienkurse oder Lottozahlen) anzuwenden, zu
keinem sinnvollen Ergebnis führte 48 , wurde die Auswahl der zu
verarbeitenden Artikel auf diejenigen reduziert, die der Kategorie News
zugeschrieben wurden.
Das May- Korpus wurde aus der frei zugänglichen Literatursammlung
„Gutenberg- Projekt“ 49 kopiert, manuell leicht aufbereitet 50 und in das
SemGen- Format gebracht.
Die für die weitere Datenprozessierung notwendige Satz- und
Worterkennung wurde durch das SEMALD- Modul Preprocessor 51
durchgeführt, welches Sätze anhand von Satzendzeichen (Punkt,
Ausrufezeichen etc) und einigen Regeln (kein Satzende nach St., Dr. usw)
zu identifizieren versucht. Um grobe Fehler bei der Satzerkennung
auszuschließen, wurden alle Sätze verworfen, die zwei oder weniger bzw.
mehr als 30 Wörter lang waren, zudem alle Sätze, die mehr als 5
arabische Zahlen (durch Wörter oder Leerzeichen getrennt) enthielten.
Zusätzlich wurden Sätze entfernt, die mit von begannen und aus 3
Wörtern bestanden, da es sich bei diesen meist nur um Autorangaben
(von Ulrich Meier ) handelte, ebenso aus ähnlichem Grund Sätze, die mit
48 Bei einer funktionierenden Vorhersage der Lottozahlen wäre diese Arbeit vermutlichnicht oder mit massiver Verspätung zustande gekommen.
49 http: / / g u tenberg.spiegel.de /50 Dies betraf im wesentlichen die Online - Ausgabe des ersten Bands, in welchem
Verweise auf Zeichnungen der Printausgabe und Rechtschreibkorrekturen vorhandenwaren, sowie einige Ersetzungen von Sonderzeichen in allen drei Romanen.
51 Der in Benden und Hermes (2004) vorgestellte erweiterte Präprozessor XPre standwährend der Implementation von SOG noch nicht zur Verfügung.
- 55 -
Siehe Seite begannen. Schließlich wurden alle Vorkommen arabischer
Zahlen durch das Schlüsselwort NUMERICAL ersetzt und alle Satzzeichen
entfernt. Außerdem wurden Großbuchstaben durch die entsprechende
Kleinschreibung ersetzt – zwar würde eine Regel, welche die Schreibweise
von Wörtern diesbezüglich untersucht, in deutschsprachigen Korpora
Nomen leichter erkennen, doch wäre ein solches Vorgehen zum einen
stark sprachabhängig, zum anderen würden sich aufgrund der
Abhängigkeit zwischen Satzposition und Groß/Kleinschreibung
unerwünschte Differenzierungen ergeben. Beide Korpora wurden auf
gleiche Art und Weise präprozessiert , auch wenn die hier beschriebenen
Sonderregeln für das May- Korpus zum großen Teil irrelevant waren.
Bei der Analyse der generierten Hypothesen fiel eine besondere
Eigenschaft des SZ- Korpus auf: Sätze wie die in Kapitel 1.3 konstruierten
Beispiele der Form Der X geht in die Y wurden – wie zu erwarten war –
nicht ein Mal gefunden, geschweige denn mehrmals, wie es zur Bildung
von Paradigmen um X bzw. Y notwendig gewesen wäre. Allerdings
wurden unerwartet häufig Sätze im SZ- Korpus gefunden, die sich
lediglich in einer Wortkette unterschieden, wie beispielsweise
(10 a)die deutschen Aktienmärkte haben am Montag leichte
[Kursgewinne | Zugewinne] verzeichnet
(10 b) [Feuchte | Kalte] Luft bestimmt
das Wetter.
(10 c)Der [Finanzminister | Bundesfinanzminister], der am
Dienstagabend von einer dienstlichen Asienreise zurückerwartet
wurde, will am heutigen Nachmittag den Abgeordneten Rede
und Antwort stehen.
(10 d) Verstöße gegen das Verbot von
Tiermehl sollen künftig härter [geahndet | bestraft] werden
- 56 -
Für diese auffällige Ähnlichkeit sind verschiedene Phänomene
verantwortlich: Bei (10 a) und (10 b) handelt es sich um häufig auftretende
Ereignisse und um oft genutz te Formulierungen – der Wetterbericht ist in
jeder Ausgabe enthalten, Börsenmeldungen stehen in jeder Werktags-
Ausgabe. Bei (10 c) handelt es sich um eine minimale Differenz zwischen
zwei ansonsten völlig identischen Artikeln in unterschiedlichen
Regionalausgaben der SZ52, und die Ähnlichkeit der Sätze in (10 d) basiert
darauf, dass die Formulierung leicht abgewandelt in zwei verschiedenen
Artikeln genutzt wurde 53 .
Die Anzahl der Vorkommen extrem ähnlicher Sätze lag deutlich über den
Erwartungen: So fanden sich im untersuchten Korpusausschnit t während
der ersten SOG- Iteration über 120 Paradigmen, die aufgrund der Länge
des gemeinsamen Kontexts als korrekt eingestuft werden konnten.
Im May- Korpus hingegen fanden sich zwar auch häufig Sätze, die sich
nur in einer kurzen Wortkette voneinander unterschieden, doch war die
Gesamtlänge dieser Sätze meist deutlich kürzer, denn i.d.R. handelte es
sich um kurze Phrasen aus Dialogen zwischen den Figuren des Romans
wie in (11 ), aus welchen sich nicht paradigmatische Beziehungen herleiten
lassen.
(11 a) Ja, aber wann und wie!
(11 b) Ja, aber warum?
(11 c) Ja, aber für Napoleon.
Durch das in Kapitel 3.1.1 beschriebene Punktsystem konnte die
Paradigmenbildung um solche Sätze größtenteils vermieden werden.
Grundsätzlich wirkt sich das Vorkommen stark ähnlicher Sätze im
Korpus jedoch sehr positiv auf die Güte der Ergebnisse aus – daher wäre
es nützlich, die Ähnlichkeit der Sätze weiter zu erhöhen. Bei einem
Korpus aus Zeitungsartikeln bietet es sich an, das Korpus um Artikel
anderer Zeitungen aus demselben Zeitfenster zu erweitern. In diesem
52 Der entsprechende Artikel stand auf Seite 5 der SZ vom 17.1.2001, in der Ausgabe„M“ wurde das Wort Finanzminister , in Ausgabe „F“ Bundesfinanz ministerverwendet.
53 SZ vom 15.1.2001, S. 1
- 57 -
Zusammenhang stellt bspw. Sekine (2001:2) bei einer Untersuchung eines
Systems zur automatischen Paraphrasierung fest, dass „Each news source
sometimes contains slightly different versions of the same articles “ – die
oben beschriebene Auffälligkeit scheint also auch für andere Zeitungen
zu gelten. Während Sekine allerdings Artikel, die zu ähnlich sind,
entfernt, weil sie für seine Zwecke nicht nutzbar sind, wären hier gerade
diese Artikel zu untersuchen.
Die untersuchten Korpusausschnitte sind nicht repräsentativ für das
Deutsche, denn zum einen reichen 25.000 bis 30.000 Sätze dafür nicht
aus, zum anderen verursacht sowohl die Selektion nur einer Quelle als
auch die weitere Beschränkung dieser Auswahl anhand der Kategorie der
einzelnen Texte eine starke inhaltliche und stilistisch- syntaktische
Vereinfachung – beispielsweise wird echte gesprochene Sprache (im
Gegensatz zu den konstruierten Dialogen im May- Korpus) ebenso wenig
berücksichtigt wie moderne Literatur, und auch wissenschaftliche,
philosophische oder alltägliche Inhalte sind nicht im Korpus vorhanden 54 .
Umgekehrt lässt sich jedoch argumentieren, dass eine kategorielle
Ausweitung des prozessierten Korpus, also eine Integration anderer
Textformen , die Prozessierung der hier untersuchten Daten nicht oder
nur wenig beeinflussen würde, denn die Ähnlichkeit zwischen zwei
Sätzen wird durch die Erweiterung des Korpus selbstverständlich nicht
modifiziert, ebenfalls ist es nicht zu er warten, dass in Texten einer
anderen Gattung in relevantem Maß Sätze vorkommen, die den SOG-
Algorithmus während der Paradigmenerkennung bezüglich der hier
untersuchten Sätze beeinflussen würden. Offen bleibt durch die hier
vorgenommene Beschränkung jedoch zwangsläufig, wie SOG innerhalb
anderer Textsorten arbeitet.
Im Vergleich mit den in Kapitel 2 vorgestellten Ansätzen ist die für diese
Arbeit vorgenommene Korpusauswahl , insbesondere durch das SZ-
Korpus, jedoch näher an der Realität, denn sowohl die von van Zaanen
54 Für eine ausführliche Diskussion der Korpusrepräsenta tivität siehe McEnery undWilson 2003:77ff.
- 58 -
benutz ten Korpora ATIS55 und OVIS56 als auch das in ADIOS genutzte
CHILDES- Korpus sind sowohl inhaltlich als auch syntaktisch stärker
restringiert, lediglich im SPM wird (neben dem manuell konstruierten
„Tierkorpus “) eine Textauswahl prozessiert, die zwar nicht inhaltlich,
aber syntaktisch mit den Texten der SZ vergleichbar ist (allerdings, wie
abgesehen von OVIS alle Korpora, in englischer Sprache). Zudem bietet
die Verwendung von Zeitungstexten den Vorteil, dass das Korpus täglich
wächst und bereits jetzt eine extrem große Menge von Texten zu
Verfügung steht 57, die mit der Integration anderer Zeitungen noch
vervielfacht werden könnte.
4.2 Auswertung der empirischen Daten
Die Auswertung der Daten erweist sich als nicht einfach. Zumindest der
Recall, d.h. das Verhältnis zwischen gefundenen und insgesamt im
Korpusausschnitt vorhandenen Paradigmen lässt sich nicht bestimmen:
Dazu hätten diese manuell gebildet werden müssen, was den zeitlichen
Rahmen der Arbeit gesprengt hätte, wenn es denn überhaupt möglich
ist 58. Ferner ließen sich die Ergebnisse nur schlecht mit den Resultaten,
die von SP, ADIOS oder ABL geliefert wurden, vergleichen, da alle vier
Systeme unterschiedliche Korpora unterschiedlicher Größe nutzten und
zudem auch die Zielsetzungen der Systeme stark voneinander
abweichen 59. Auch die Precision lässt sich nur schwer bestimmen, denn
55 Air Traffic Information System (englisch), siehe56 Openbaar Vervoer Informatic Systeem (niederländisch), siehe57 So sind inzwischen die SZ- Jahrgänge 1994 bis 2003 verfügbar (siehe www.diz -
muenchen.de /h t ml / dvd.html).58 Dies ist ein Nachteil im Vergleich zu den in Kapitel 2 vorgestellten Modellen, der sich
als Konsequenz aus der Entscheidung für ein nicht linguistisch ausgezeichnetesKorpus ergibt.
59 Zudem ist die Art und Weise der Bestimmung von Recall und Precision in jedemAnsatz, wenn überhaupt durchgeführt, unterschiedlich, was ein grundsätzlichesProblem der quantitativen Linguistik zu sein scheint, wie auch Mason anhand der –noch relativ simplen – „Part - Of- Speech“- Tagger feststellt: „Modern part - of- speechtaggers [...] achieve an accuracy rate of around 95+ percent; however, the calculationof this rate is sometimes doubtful [...] and methods of evaluation differ betweenauthors“ (Mason 2004:2).
- 59 -
um zu entscheiden, ob eine Hypothese richtig ist, muss diese in ihrem
Kontext betrachtet werden. Ist dort jedoch eine zweite Hypothese
enthalten, so ist es möglich, dass Teile beider Hypothesen einander
ausschließen. Bspw. ist die zweite fakultative Hypothese in Abbildung 12
nur dann als korrekt einzustufen, wenn in der ersten fakultativen
Hypothese der Ausdruck umgerechnet mehr als drei gewählt wird. Wird
der Kontext hingegen nicht berücksichtigt, so ergeben sich u.a.
korpusbedingte Probleme, wie in (12 a) und (12 b) veranschaulicht.
Während (12 a) ein Beispiel für sehr starke Kontextabhängigkeit und die
Allgemeingültigkeit der Hypothese eher gering ist, handelt es sich in (12 b)
um einen Rechtschreibfehler, der in einer späteren Auflage der SZ
behoben wurde. Aus diesen Gründen wurden nur die nach der ersten
Iteration des Algorithmus generierten Relationen ausgewertet (da in
deren Kontexten noch keine Hypothesen vorhanden sein können) und
lediglich syntaktische Fehlkonstruktionen wie in (12 c) und starke
semantische Fehler wie in (12 d ) als „falsch“ ausgezeichnet.
(12 a) ... zeigte sich zuversichtlich über einen erfolg [{des antrags} | {in
karlsruhe}] END
(12 b) ... weil er um dessen vorbehalte gegen derartige [geschäft | geschäfte]
wusste END
(12 c) ... unter fortzahlung der vergütung wie [{das bei seinen} | seine]
verheirateten kollegen ...
(12 d) START sie [sind | wissen] es END
So wurde die in Tabelle 7 zusammengefass te Auswertung erzeugt. 60 Die
deutlich schlechteren Ergebnisse bei der Verarbeitung des May- Korpus
hängen damit zusammen, dass die Sätze in diesem Korpus oftmals
kürzer sind als im SZ- Korpus (durchschnittlich betrug die Länge eines
Satzes 12,5 Wörter im May- Korpus und 14,7 Wörterim SZ- Korpus) und
der Effekt der in Kapitel 4.1 erläuterten minimalen Abweichungen von
60 Die zugrundeliegenden Daten befinden sich auf der CD, die dieser Arbeit beiliegt.Ausgewertet wurden die Dateien post_clean_preparas.csv , post_clean_nullparas.csvund sentences.csv in den entsprechenden Verzeichnissen (siehe Anhang B). Kopiendieser Dateien, in denen falsche und richtige Paradigmen markiert sind, finden sich(als Excel- und OpenOffice - Tabellen) ebenfalls in diesen Verzeichnissen.
- 60 -
zwei Sätzen nicht so häufig (und insbesondere nicht bei langen Sätzen)
auftrat. Um zu prüfen, in wie weit die SOG- Ergebnisse für den May-
Korpus verbessert werden können, wurde dieses durch eine leicht
modifizierte Version von SOG erneut prozessiert – der Unterschied
bestand darin, dass die minimale Länge eines Satzes auf 5 festgesetz t
wurde (was dazu führte, dass die Anzahl aller Sätze auf etwas über
25.000 zurückging und die durchschnittliche Satzlänge auf 13,8 Wörter
stieg) und die Verbesserung der Bewertung einer Hypothese, falls der
gemeinsame Kontext den komplet ten Satz mit einbezieht, reduziert
wurde. Die Ergebnisse dieser Analyse sind in der Zeile May2 festgehalten.
Korpus
Gesamt Richtig(abs. )
Richtig (%) Falsch(abs.)
Falsch (%) Sätze falsch(%)
SZ 288 263 91,3% 25 8,7% 12,0%
May 240 162 67,5% 78 32,5% 32,0%
May2 124 39 73,6% 33 26,6% 31,3%
Tabelle 7 Auswertung der SOG- Prozessierung
Die letzte Spalte der Tabelle enthält die Auswertung einer Stichprobe von
150 Sätzen des jeweiligen Korpus – so wird die Häufigkeit der Integration
von Hypothesen berücksichtigt, was in den anderen Spalten nicht
geschieht.
Zwar sind auch die Ergebnisse der angepassten Analyse etwa um den
Faktor 3 schlechter als die der Prozessierung des SZ- Korpus, doch lässt
die durch die grobe Anpassung des Algorithmus erlangte Verbesserung
vermuten, dass weitere Optimierungen möglich sind – zugleich wird beim
Vergleich der Ergebnisse von May und May2 auch deutlich, dass eine
bessere Methode zur Trennung von guten und schlechten Hypothesen
entwickelt werden muss. Dies wird Kapitel 6 thematisiert, auf den
folgenden Seiten dieses Kapitels sollen einige Einzelbeispiele vorgestellt
und diskutiert werden.
- 61 -
Dieses Beispiel ist zwar nicht fehlerfrei, denn die Phrase Verhältnis der
beiden Städte steht in diesem Kontext nicht in paradigmatischer Relation
zu den übrigen Phrasen des Paradigmas und auch die Fakultativität der
Paradigmen, die das Element NOTHING enthalten, ist nicht in jeder
Kombination korrekt. Trotzdem zeigt Abbildung 12 , dass die Idee, auf
der SOG beruht, vielversprechend und der Algorithmus dazu in der Lage
ist, die Paradigmen unter der Berücksichtigung syntagmatischer
Strukturen zu bilden. Auch ist Abbildung 12 ein weiteres Beispiel für die
in Kapitel 3 festgehaltene Beobachtung, dass SOG nicht nur ein
Paradigmen erkennendes, sondern gleichzeitig auch ein
sprachgenerierendes System sein kann, indem Sätze anhand der Syntax
eines Satzes aus dem Korpus aus verschiedenen in paradigmatischer
Relation stehenden Bausteinen zusammengesetz t werden. Allerdings wird
anhand dieses Beispiels ebenfalls deutlich, dass Harris' Beobachtung zur
Akzeptanz einer Formulierung und die daraus resultierende Forderung,
Kontext über Satzgrenzen hinaus zu betrachten (vgl. Kapitel 1.3 ),
spätestens bei der Sprachgenerierung berücksichtigt werden müsste.
In Abbildung 12 zeigt sich zudem das Potential des Systems, „lokale
Grammatiken“ (Local Grammars , LG) zu generieren. Dabei handelt es sich
um eine Beschreibungsmethode , die es ermöglicht, das syntaktische
Zusammenspiel einzelner Elemente zu erklären, was mit
Phrasenstrukturregeln u.U. nur schwierig zu lösen wäre, insbesondere
dann, wenn es sich um „ungewöhnliche“ Gebrauchsmuster oder
syntaktische Ausnahmen handelt (vgl. Mason 2004). Die Modellierung
- 62 -
steuerausfall
kern-budget
folgeschaden in höhe
verhältnis der beiden städte
plus
minustransaktionsvolumen
knapp
NOTHINGnumerical
umgerechnet mehr als drei
jährlich etwa milliardenmillionen
NOTHING
im
pro
dollar
mark
jahr
in einer internen berechnung rechnet das finanzministerium mit einem
von
Abbildung 12 Beispiel der Fähigkeit des SOG zur Sprachgenerierung
einer LG ist in solchen Fällen (wie bspw. der Beschreibung der Syntax
einer Datumsangabe) nicht nur einfacher als die Konstruktion einer
„Phrasenstruktur - Ausnahmeregel “, sondern hat zusätzlich auch den
Vorteil, dass sich zum einen semantische Aspekte leicht berücksichtigen
lassen und sich LGs – zumindest teilweise – automatisch generieren
lassen. So könnte eine Erweiterung des SZ- Korpusausschnit ts in
Kombination mit einer Verbesserung der Paradigmen- Erkennung dazu
führen, dass sich eine lokale Grammatik für Geldbeträge bildet, wenn die
drei mittleren Knoten aus Abbildung 12 zusammen mit weiteren,
ähnlichen Formulierungen in einem Paradigma gekapselt werden. Dies ist
bisher lediglich eine Vermutung, doch insbesondere in häufig
vorkommenden Satzvarianten , wie bspw. auch in Abbildung 13 , tritt der
Effekt der „Satzcluster - Bildung“ so auf, wie es vor der Implementierung
von SOG erhofft war.
Abbildung 13 Potential zur Bildung lokaler Gram m atiken: Weitere ähnliche Sätzewürden eine LG für Temperaturangaben entstehen lassen.
Trotz der schlechten Gesamtauswertung lieferte die Anwendung von SOG
auf das May- Korpus zufriedenstellende Einzelergebnisse. Im Vergleich
mit den Ergebnissen der SZ- Prozessierung fiel auf, dass die gebildeten
Paradigmen häufiger sinnverwandte Verben wie in (13 ) gruppierten.
(13 )
• [brummte | fragte | antworte te | sagte | {unterbrach ihn}]
(May/3 /3:1641)
• [weiß | denke | glaube | hoffe] (May/3 / 3:1633)
- 63 -
minus
drei
zwei
drei
NUMERICAL
bisplus
NOTHINGNUMERICAL grad
minussechs
zweibis
plus
NOTHINGgrad
• [meinte | fragte | rief | antworte te] (May/3 /3:1251)
• [schüttel te | erhob | senkte] langsam (May/3 /3:1542)
• { [verstehe | kenne] {[euch | {meinen bruder sam}]} } | {begreife [ihn | sie
| euch]}
(May/3 /3:1667)
Dies hängt selbstverständlich mit der häufigen Verwendung wörtlicher
Rede zusammen, die in der SZ so nicht gegeben ist. Doch auch Nomen
wurden korrekt gruppiert, wie (14 ) zeigt.
(14 )
• [{weiße biber} | okanada] (May/3 /3: 1629)
• [comanchen | apachen] (May/3 /3: 925)
• [häuptlinge | krieger | söhne] (May/3 /3: 1261)
• [{diese krieger} {meine roten brüder}] (May/3 /3: 691)
Dies sind nur einige positive Auszüge aus den Ergebnissen,
selbstverständlich lieferte der Algorithmus neben weiteren korrekten
Paradigmen auch fehlerhafte Hypothesen – hier sei erneut auf die CD
verwiesen.
Die häufigsten Fehlentscheidungen des Algorithmus lassen sich durch
nicht erkannte Modifikationen in der Wortstellung erklären. Passiv vs.
Aktiv, Auxiliar + Infinitiv vs. Präsens oder Indikativ, aber auch
Partikelverben verursachten häufig Fehlannahmen , die es erforderten, die
in Kapitel 3.1 erläuterten Qualitätsschranken relativ restriktiv zu setzen,
wodurch gleichzeitig auch gute Hypothesen verworfen wurden.
Dennoch zeigt sich bereits hier, dass das Potential des Ansatzes recht
hoch ist und dem Ziel der automatischen Paradigmenbildung gerecht
werden kann, sofern vom Anspruch auf Vollständigkeit, den keiner der
hier vorgestellten Ansätze erfüllen kann, Abstand genommen wird.
Verbesserungen bezüglich der Erkennung dieser Zusammenhänge würden
das System jedoch deutlich produktiver machen und zudem von einem
nur auf unmittelbarer Kontextähnlichkeit aufbauenden Ansatz zu einem
elaborierten , komplexere Strukturen erkennenden Verfahren führen. Die
- 64 -
Frage, wie syntagmatische Abhängigkeiten besser erkannt werden
können, lässt sich hier nicht beantworten, da dies nicht ohne Entwicklung
und Integration eines (optimalerweise selbstlernenden)
Grammatikmodells funktionieren kann, was jedoch ein äußerst
komplexes Thema ist, das in dieser Arbeit nicht weiter behandelt werden
kann. Stattdessen soll im folgenden Kapitel ein einfaches
Grammatikmodell vorgestellt werden, welches zwar nicht als
selbstlernendes System entwickelt wurde, welches aber so deutliche
Parallelen sowohl zu dem in SOG genutz ten Datenmodell als auch zu
lokalen Grammatiken aufweist, dass es als theoretisch - formale
Grundlage für eine „SOG- Grammatik“ dienen könnte.
5. Transition Networks
Die syntaktischen Informationen, die in dem durch SOG erzeugten
Graphen enthalten sind, wurden in den vorherigen Kapiteln nur als
Hilfsmittel für die Analyse semantischer Ähnlichkeit benutz t. Dies lässt
sich jedoch auch umkehren, denn die gewonnenen Informationen über
Paradigmen lassen sich dazu nutzen, eine Art selbstlernenden
Syntaxparser zu konstruieren, indem der Graph in ein Transition Network
(Übergangsnetzwerk , im Folgenden auch als TN abgekürz t) überführt
wird. Unter einem TN wird ein Graph verstanden, dessen Knoten
verschiedene Zustände (insbesondere auch speziell ausgezeichnete Start -
und Endzustände) und dessen Kanten Zustandsübergänge repräsentieren.
Dabei sind die Kanten mit Kategorie- Informationen gelabelt. Wird ein
Satz geparst , so beginnt der Parser im Startknoten des Graphen und
wählt entsprechend des ersten Wortes des zu parsenden Satzes eine vom
Startknoten ausgehende Kante, um in einen neuen Zustand überzugehen.
Dabei ist es durchaus möglich, dass mehrere Kanten gewählt werden
können, also verschiedene Zustände durch ein Wort erreichbar sind.
Dieser Vorgang wird wiederholt, bis alle Wörter des Satzes abgearbeitet
wurden oder bis keine Kante gefunden wird, die mit aktuellem
- 65 -
Zustandsknoten und dem zu parsenden Wort kompatibel ist – in diesem
Fall wird das Ende des bereits zurückgelegten Wegs verworfen und nach
einem alternativen Pfad gesucht (Backtracking ), existiert dieser nicht, so
schlägt das Parsen des Satzes fehl und der Satz wird als ungrammatisch
bewertet. Die folgende Abbildung zeigt ein einfaches Transition Network,
welches in der Lage ist, die grammatischen Beispielsätze aus (1) zu
parsen, während das ungrammatische Beispiel (1c) (Ein Hund läuft in die
geht ) abgelehnt würde:
Abbildung 14 Ein einfaches TN, welches in der Lage ist, zwei syntaktischunterschiedliche Satzformen zu parsen
Dieses TN ist jedoch offensichtlich zum Parsen natürlicher Sprache nicht
ausreichend, da es ungrammatische Sätze wie (15 b) erfolgreich parst und
grammatische Sätze wie (15 a) fälschlicherweise als inkorrekt auszeichnet
– einfache TNs verhalten sich wie endliche Automaten und können
folglich nur reguläre Sprachen (Typ- 3- Sprachen) parsen.
(15 a) Der kleine Junge läuft in die Schule.
(15 b) * Das Junge laufen in der Schule.
Um komplexere Sprachen zu parsen, wurde das rekursive
Übergangsnetzwerk (Recursive Transition Network , RTN) entwickelt,
dessen wesentliche Erweiterung darin besteht, dass die Kanten in diesem
nun nicht mehr ausschließlich mit einfachen, sondern auch mit
komplexen Kategoriebezeichnungen (wie NP oder VP) gelabelt werden
können – außerdem wurde auch eine leere Kante eingeführt, die gewählt
werden kann, ohne dass ein Wort geparst werden muss. Abbildung 15
- 66 -
S aDet
bN
c d e fV P Det N
E.
.
Der Junge läuft in die Schule .
Ein Hund läuft in die Straße .
Der Motor läuft .
zeigt ein solches RTN für einige Phrasentypen des Englischen. Mit Hilfe
von RTNs lassen sich zusätzlich zu Typ- 3- Sprachen auch Typ- 2-
Sprachen, also kontextfreie Sprache parsen.
Die Struktur von RTNs ist der des SOG- Datenmodells äußerst ähnlich: In
beiden Graphen gibt es sowohl leere als auch – theoretisch – rekursive
Elemente 61 und die Graphen unterscheiden sich letztlich nur dadurch,
dass im SOG- Graphen Kategorien in Knoten, im RTN hingegen in Kanten
repräsentiert sind und die Zustandsüberführungen in SOG nur implizit
durch die Menge der Kanten eines Pfades enthalten sind. Um das
Datenmodell von SOG in ein RTN zu konvertieren, ist also fast nur eine
„kosmetische“ Änderung durchzufü hren, auch wenn sich dadurch
selbstverständlich nicht automatisch eine präzisere Abbildung der
syntagmatischen und paradigmatischen Zusammenhänge ergibt. Doch je
besser die Ergebnisse von SOG werden, desto hochwertiger wäre auch ein
aus dem SOG- Graph generiertes RTN.
61 Prinzipiell kann SOG rekursive Strukturen erzeugen, bei den im Rahmen dieserArbeit durchgeführten Testläufen ergaben sich diese jedoch nicht.
- 67 -
Abbildung 15 RTN und äquivalente kontextfreie Gram matik (aus Winograd1983:197). Die mit „Jump“ bezeichneten Kanten ermöglichen Fakultativ -Konstruktionen, Rekursion lässt sich durch Schleifen (wie an den Knoten d, fund g) abbilden.
6. Zusammenfassung und Fazit
Der Titel dieser Arbeit enthält zu Recht den Begriff „Entwurf“, denn es
kann selbstverständlich nicht behauptet werden, dass hier alle Probleme
der automatischen Paradigmenerkennung gelöst werden konnten. Dies
war jedoch auch nicht das Ziel, vielmehr ging es darum, die Machbarkeit
eines solchen Ansatzes zu untersuchen und zu prüfen, ob und in wie
weit sich paradigmatische Relationen automatisiert und ohne Rückgriff
auf linguistisches Wissen aus einem Korpus extrahieren lassen – wie in
Kapitel 4.2 gezeigt werden konnte, ist dies grundsätzlich möglich, auch
wenn eine qualitative und quantitative Verbesserung der Erkennungsrate
für eine Anwendung außerhalb einer Machbarkeitsstudie notwendig wäre.
Zwar ist die Grundidee des SOG- Modells nicht grundsätzlich neu, wie der
Vergleich mit den in Kapitel 2 vorgestellten Ansätzen zeigte, doch sowohl
der Anspruch an das System als auch die Realisierung sind im Vergleich
zu den alternativen Ansätzen stärker elaboriert. Im Gegensatz zu diesen
drei Modellen war es das Ziel von SOG, linguistisch adäquate Kategorien
zu bilden (und nicht lediglich unspezifizierte Äquivalenzklassen wie in
ADIOS oder rein syntaktische Kategorien wie in ABL) – dieser Anspruch
konnte zumindest teilweise erreicht werden, was wiederum auf die
erweiterten Fähigkeiten von SOG zurückzuführen ist: Der Zugriff auf
externe Textquellen erlaubte es, generierte Hypothesen (wenn auch nur
eingeschränkt) zu überprüfen und damit den durch das verarbeitete
Korpus begrenzten Rahmen zu verlassen. Auch die Kombination der
Bewertungsfunktion (3) aus Kapitel 3.1.1 mit den in Kapitel 3.1.2
beschriebenen Filterfunktionen ist in diesem Zusammenhang zu nennen,
denn so wurde es ermöglicht, konkordanz - und strukturbasierte Daten
zu verbinden. Hier sind allerdings weitere Untersuchungen notwendig –
es soll nicht behaupte t werden, dass Formel (3) optimale Ergebnisse
liefert, evtl. lassen sich dort weitere Faktoren berücksichtigen, ebenso wie
die Implementation zusätzlicher Strukturregeln zu untersuchen ist.
Generell gilt, dass die bisherigen Bewertungsfunktionen verbessert
- 68 -
werden müssen – Formel (3) ebenso wie die Filterfunktionen und das in
Kapitel 3.1.3 vorgestellte Stufensystem. Manuell gesetzte Grenzwerte (wie
bspw. im Rang- Filter) ermöglichen zwar eine einfache Anpassung an die
vorhandenen Korpora, sind jedoch zwangsläufig für jedes neue Korpus
neu zu justieren, was offensichtlich nicht mit dem Ziel der automatischen
Paradigmenbildung vereinbar sein kann.
Grundsätzlich lassen sich Verbesserungen des SOG- Algorithmus in zwei
Gruppen aufteilen: Technische und linguistisch- statistische Methoden.
Die technischen Verbesserungen äußern sich dadurch, dass ein größeres
Korpus schneller verarbeitet werden könnte, als dies jetzt geschieht. Wie
bereits in Kapitel 3.1.5 erwähnt, enthält der SOG- Algorithmus dadurch,
dass während der Paradigmenerkennung jeder Satz mit jedem anderen
Satz verglichen wird, einen „Flaschenhals“ bezüglich des
Laufzeitverhaltens – die benötigte Rechenzeit allein in diesem
Programmschrit t verhält sich ungefähr quadratisch zur Anzahl der Sätze
des Korpus. Gleichzeitig steigt auch die Anzahl der in der
Erkennungsphase generierten Hypothesen mit jedem Satz stark an, so
dass nicht nur die Prozessorleistung, sondern auch der verfügbare
Arbeitsspeicher den Umfang des zu untersuchenden Korpus
beschränken. Prinzipbedingt lässt sich dies – wie bereits teilweise, u.a.
durch parallele Verarbeitung auf einem Mehrprozessor - Rechner und
durch Nutzung von zeit - und speicheroptimierten Bibliotheken 62 – nur
begrenzt optimieren, um deutlich größere Korpora zu prozessieren, ist
eine Änderung der Architektur von SOG nötig. Zum einen ließe sich durch
Zugriff auf eine Datenbank das Speicherproblem lösen (wenn auch zu
Ungunsten des Laufzeitverhaltens), zum anderen wäre zu untersuchen,
ob der Prozessierung eine Auswahl „geeigneter“ Sätze vorangestellt
werden kann, so dass die Menge der zu verarbeitenden Daten reduziert
werden kann. Auch ein dynamisches System, welches es erlaubt, während
der Prozessierung das Korpus zu erweitern, so dass bspw. nur die
vielversprechendsten Hypothesen verarbeitet und mit neuen Sätze
kombiniert werden, würde die Einschränkungen der Hardware umgehen.
Auf linguistischer Seite ist insbesondere der Einsatz einer
62 Vgl. Anhang C
- 69 -
strukturoptimierenden Komponente zu forcieren, um aus partieller
Redundanz innerhalb einer PH (oder auch zwischen zwei PHs, wie in
Abbildung 13 auf Seite 63 ) auf eine Grundform der Struktur zu schließen.
So ist sich bspw. die interne Struktur der Subparadigmen innerhalb des
von SOG generierten Paradigmas in Abbildung 16 so ähnlich, dass sie
algorithmisch erkannt und das Paradigma in die Struktur in Abbildung 17
überführt werden könnte.
Abbildung 16 Paradigma mit ähnlich strukturiertenSubparadigmen (May/3 / 3: 1530)
Abbildung 17 (Manuell) optimierte Struktur desParadigmas aus Abbildung 16
Das Beispiel zeigt, dass eine Restrukturierung gleichzeitig auch zu
weiteren syntagmatischen Erkenntnissen führen könnte, denn in
Abbildung 16 ist die Information, dass es sich bei gar und natürlich um
fakultative Elemente handelt, nur implizit enthalten, während dies in 17
explizit in dem entsprechenden Paradigma abgebildet ist.
Prinzipiell zeigen beide Abbildungen auch, dass sich strukturelle
Informationen aus Null- Paradigmen ableiten lassen, denn die
fakultativen Wörter müssen aufgrund ihrer Fakultativität in der Struktur
- 70 -
keinemmir nicht
ihrihnen
nicht
garnatürlich
im traumeNOTHING
nichtmir
ihrihnenmir
garnatürlich
NOTHING
im traumeNOTHING
nicht
keinem
des jeweiligen Satzes eine untergeordnete Rolle spielen. Dies könnte es
ermöglichen, Baumstrukturen aufzubauen, die denen von
Phrasenstrukturgrammatiken ähneln bzw. sogar äquivalent zu ihnen
sind. Allerdings lässt sich an der Abbildung gleichzeitig ein Problem
erkennen, das die Konstruktion von Baumstrukturen erschwert: Zum
einen kann das Verhältnis zwischen mehreren Null- Paradigmen (wie [gar
| natürlich | ∅ ] und [nicht | ∅ ]) so nicht aufgelöst werden, zum
anderen wird in dieser Struktur das Verb, von dem beide Null-
Paradigmen abhängig sind, nicht berücksichtigt.
Schließlich wäre zu prüfen, wie weit sich die Ergebnisse verbessern
lassen, wenn SOG als Komponente des SEMALD- Frameworks arbeitet und
so mit anderen Komponenten interagieren kann. Bspw. könnte der
Kontext von Sätzen, der bisher ignoriert wurde, durch die Ermittlung
semantischer Nähe (z.B. durch eine SOM) berücksichtigt werden, ebenso
könnte durch statistische Vorverarbeitung (wie Named- Entity- Extraction ,
um Konstruktionen wie {[andrea | joschka ] fischer } und {old [death |
firehand ]} zu vermeiden) der Alignment - Vorgang während der
Paradigmenerkennung optimiert werden.
Mit Hilfe dieser Optimierungen könnte es möglich sein, den „Entwurf
SOG“ zu einer praktisch einzusetzenden Anwendung zu machen – ob
lediglich als kontextabhängiger Thesaurus, als unterstüt zendes System
für andere, weniger robuste sprachverarbeitende Systeme oder als
Hintergrund - Applikation im Information Retrieval, um automatisch
generierte paradigmatische Relationen in den Retrieval - Prozess mit
einfließen zu lassen – die Anwendungsmöglichkeiten für ein solches
System sind vielseitig.
Dazu ist es jedoch notwendig, eine bessere Trennung von guten und
schlechten Hypothesen vornehmen zu können. Eine Fehlerquote von über
30 % (wie die Prozessierung des May- Korpus) ist – insbesondere für ein
iterativ arbeitendes System – inakzeptabel, ebenso wie es eine leichte
Verbesserung der Quote bei einer Halbierung des Outputs ist. Solange die
Gefahr besteht, dass – so in der Entwicklungsphase geschehen –
Paradigmen generiert werden wie [schweine | r inderhirn | cdu ], ist von
- 71 -
einem professionellen Einsatz abzura ten.
- 72 -
7. Literatur
Benden, Christoph und Jürgen Hermes (to appear): Präprozessierung mitNebenwirkungen: Dynamische Annotation .
Benden, Christoph (to appear): Automated detection of morphemes usingdistributional measurements.
Bird, Steven, David Day, John Garofolo, John Henderson, ChristopheLaprun, Mark Liberman (2000): ATLAS: A Flexible and ExtensibleArchitecture for Linguistic Annotation . online unterhttp: / / c iteseer.ist.psu.edu /bird00atlas.html
Brin, Sergey (1999): Extracting Patterns and Relations from the World WideWeb . online unter http: / / dbpubs.stanford.edu:8090 / p ub / 1999 - 65.
Burgess, Curt, Key Livesay, Kevin Lund (1998): Explorations in ContextSpace: Words, Sentences, Discourse . online unter http: / / locutus.ucr.edu / reprintPDFs/bll98dp.pdf
Bußman, Hadumod (1990): Lexikon der Sprachwissenschaft . 2. Auflage.Alfred Kröner Verlag, Stuttgart.
Dagan, Ido, Lillian Lee, Fernando C. N. Pereira (1998): Similarity- BasedModels of Word Coocurrence Probabilities. online unter http: / /www.cis.upenn.edu /%7epereira /papers / s im -mlj.pdf
Deligne, Sabine und Yoshinori Sagisaka (1998): Learning a syntagmaticand paradigmatic structure from language data with a bi- multigrammodel . online unter http: / / ci teseer.ist.psu.edu / deligne98learning.html
Dennis, Simon & Harrington, M (2001). The Syntagmatic ParadigmaticModel: An distributed instance- based model of sentence processing .online unter http: / / l sa.colorado.edu / ~ s i mon /NLPNN2001.pdf
Dennis, Simon (2003): A Comparison of Statistical Models for theExtraction of Lexical Information from Text Corpora . online unter http: / / l sa.colorado.edu / ~ s imon /CogSci2003%20LexicalSemantics2.pdf
Dennis, Simon (2004). A Memory- based Theory of Verbal Cognition . onlineunterhttp: / / l sa.colorado.edu / ~ s i mon /SyntagmaticParadigmaticModel.pdf
Duclaye, Florence, Francois Yvon, Olivier Collin (2002): Using the Web as aLinguistic Resource for Learning Reformulations Automatically . onlineunter http: / / ci teseer.ist.psu.edu /558153.html
- 73 -
Edelman, Shimon, Zach Solan, David Horn, Eytan Ruppin (2004): Bridgingcomputational, formal and psycholonguistic approaches to language . online unter http: / / kybele.psych.cornell.edu / ~ e delman /cogsci04.pdf
Haegeman, Liliane (1999): Introduction to Government & Binding Theory.Second Edition . Oxford, Cambridge (MA): Blackwell Publishers.
Harris, Zelig Sabbettai (1976): Vom Morphem zur Äusserung . In:Beschreibungsmethoden des amerikanischen Strukturalismus. VonElisabeth Bense, Peter Eisenberg, Hartmut Haberland (Hrsg.).Linguistische Reihe – Band 16. München: Max Hueber Verlag.
Harris, Zelig Sabbettai (1979): Mathematical structures of language . 2.Auflage. Huntington, New York: Robert E. Krieger Publishing Company.
Heaton, Jeff (2002): Programming Spiders, Bots and Aggregators in Java .Alameda : Sybex.
Hindle, Donald (1990): Noun classification from predicate- argumentstructures . online unter http: / /www.spinfo.uni -koeln.de/ forschung / papers /P90 - 1034.pdf
Kohonen, Teuvo (1995): Self- Organizing Maps . Berlin, Heidelberg, NewYork: Springer.
Lohnstein, Horst (1996): Formale Semantik und natürliche Sprache:einführendes Lehrbuch . Opladen: Westdeutscher Verlag.
Lyons, John (1995): Einführung in die moderne Linguistik. München:C.H.Beck.
Manning, Christopher und Hinrich Schütze (1999): Foundations ofStatistical Natural Language Processing . Cambridge (MA), London: MITPress.
Mason, Oliver (2004): Automatic Processing of Local Grammar Patterns .Online unter www.cs.bham.ac.uk / ~ m gl /cluk / pa pers / mason.pdf
McEnery, Tony und Andrew Wilson (2003): Corpus Linguistics. AnIntroduction . 2. Auflage. Edinburgh: Edinburgh University Press.
Riloff, Ellen und Rosie Jones (1999): Learning dictionaries for informationextraction by multi - level bootstrapping . online unter http: / /www.cs.utah.edu / ~ r i loff /psfiles / aaai99.pdf
Rolshoven, Jürgen (2004): Strategies of Licensing in Natural LanguageProcessing. In: Reinhard Köhler, Alexander Mehler (Hrsg.): Aspects of
- 74 -
Automatic Text Analysis. (Festschrift in Honour of Burghard Rieger).Berlin, Heidelberg: Springer.(erscheint).
Sankoff, David und Joseph B. Kruskal (1983): Time warps, string edits andmacromolecules: the theory and practise of sequence comparison .Reading (MA): Addison Wesley.
Schneidermeier, Lutz (2003): SemGen Projektphase 1: Korpus undSEMALD . online unter http: / /www.spinfo.uni -koeln.de/ forschung / papers /SemGenTaks1.pdf
Sekine, Satoshi (2000): Extracting synonymous expressions from multiplenewspaper documents . online unter http: / / nlp.cs.nyu.edu /%7Esekine/papers / pa raphrase01.pdf
Sinclair, John (1991). Corpus, Concordance, Collocation . Oxford: OxfordUniversity Press.
Solan, Zach, Eytan Ruppin, David Horn, Shimon Edelman (2002):Automatic acquisition and efficient representation of syntacticstructures . online unterhttp: / /www.tau.ac.il / ~ z solan /pa pers / s oletalb2002.pdf
Solan, Zach, David Horn, Eytan Ruppin, Shimon Edelman (2003):Unsupervised efficient learning and representation of languagestructure . online unterhttp: / / neuron. tau.ac.il / ~ horn / p ublications / solan - cogsci03- final.pdf
Solan, Zach, David Horn, Eytan Ruppin, Shimon Edelman (2004):Unsupervised context sensitive language acquisition from a largecorpus . online unterhttp: / / neuron. tau.ac.il / ~ horn / p ublications /nips031.pdf
van Zaanen, Menno Matthias (1999): Bootstrapping Structure usingSimilarity . online unter http: / / i lk.uvt.nl / ~ mvzaanen / docs / p_clin99.pdf
van Zaanen, Menno Matthias und Pieter Adriaans (2001): Comparing twounsupervised grammar induction systems: Alignment - based learningvs. EMILE. online unterhttp: / / ilk.uvt.nl / ~ mvzaanen / d ocs / p_bnaic01.pdf
van Zaanen, Menno Matthias (2003): Alignment - Based Learning versusData- Oriented Parsing . online unterhttp: / / ilk.uvt.nl / ~ mvzaanen / d ocs /c_dop03.pdf
Winograd, Terry (1983): Language as a cognitive Process. Vol. 1: Syntax .Reading (MA): Addison - Wesley.
- 75 -
Anhang A: Übersicht der häufigsten Wörter des Korpus
Häufigste Wörter im SZ- Korpus Häufigste Wörter im Winnetou -Korpus
Wort Rang abs.Häufigkeit
Wort Rang abs.Häufigkeit
der 1 14973die 2 13958in 3 7954und 4 6819NUMERICAL 5 5840den 6 4720von 7 4710das 8 3648zu 9 3560im 10 3468des 11 3277mit 12 3214für 13 3132auf 14 2974sich 15 2890nicht 16 2741dem 17 2724ein 18 2489eine 19 2343als 20 2236nach 21 2208er 22 2181es 23 2164an 24 2024am 25 2015dass 26 1956auch 27 1931ist 28 1865werden 29 1713bei 30 1692sie 31 1676aus 32 1634vor 33 1581hat 34 1492sagte 35 1424sei 36 1364einer 37 1353über 38 1264einem 39 1243um 40 1149einen 41 1129hatte 42 1126habe 43 1100gegen 44 1085wie 45 1026aber 46 1001noch 47 976war 48 937wird 49 931haben 50 871
und 1 14165ich 2 11350die 3 9997der 4 8728zu 5 7718er 6 6654nicht 7 6477es 8 5949das 9 5602den 10 5538sie 11 5163in 12 4921wir 13 4729daß 14 4274so 15 4141sich 16 3985mit 17 3937ihr 18 3902ein 19 3875von 20 3599ist 21 3594war 22 3343aber 23 3303auf 24 3240mir 25 3100uns 26 2914mich 27 2867dem 28 2700an 29 2578als 30 2548eine 31 2373wie 32 2201euch 33 2127auch 34 2126nach 35 2057hatte 36 2028da 37 2016um 38 1918wenn 39 1873sein 40 1860einen 41 1814ihm 42 1805noch 43 1774des 44 1742ihn 45 1727was 46 1711dann 47 1533haben 48 1491hat 49 1441nur 49 1441denn 50 1421
- 76 -