Download pdf - Entwurf eines agentengestützten Systems zur Paradigmenbildung · Entwurf eines agentengestützten Systems zur Paradigmenbildung Magisterarbeit im Fach Informationsverarbeitung Bei

Entwurf eines agentengestütz ten Systems zur Paradigmenbildung

Magisterarbeit im Fach Informationsverarbeitung

Bei Prof. Dr. Jürgen RolshovenInstitut für sprachliche Informationsverarbeitung

Universität zu Köln

Vorgelegt am 19. 7. 2004 vonStephan SchwiebertSimrockstraße 59

50823 KölnMatrikelnummer : 3199711

- 2 -

Inhaltsverzeichnis

1. Einleitung ...................................................................................................................21.1 Zielsetzung dieser Arbeit ...............................................................................21.2 SEMALD...............................................................................................................31.3 Paradigmatische und syntagmatische Relationen ...................................4

2. Auf Distributionsanalyse basierende Modelle im Vergleich .....................112.1 ABL.....................................................................................................................122.2 SPM.....................................................................................................................142.3 ADIOS................................................................................................................17

3. Der SOG- Algorithmus ..........................................................................................233.1 Details des SOG- Algorithmus ...................................................................25

3.1.1 Erkennung paradigmatischer Relationen ........................................253.1.2 Filterfunktionen ......................................................................................283.1.3 Integration paradigmatischer Strukturen .......................................323.1.4 Rekursivität der Datenstrukturen .....................................................363.1.5 Fähigkeiten von SOG.............................................................................37

3.2 Das Data Sparseness Problem ...................................................................423.3 SOG als Agentensystem ...............................................................................44

3.3.1 Anwendung des Agentensystems ......................................................47

4. Empirische Daten ..................................................................................................494.1 Beschreibung der Korpora ..........................................................................504.2 Auswertung der empirischen Daten ........................................................54

5. Transition Networks .............................................................................................59

6. Zusammenfassung und Fazit ............................................................................62

7. Literatur ...................................................................................................................66

Anhang A: Übersicht der häufigsten Wörter des Korpus ...............................69Anhang B: Inhalt der beiliegenden CD- ROM.....................................................70Anhang C: Die Anwendung SOG............................................................................73

- 1 -

1. Einleitung

1.1 Zielsetzung dieser Arbeit

In dieser Arbeit soll ein System zur automatischen Paradigmenbildung

entworfen werden. Ziel der Arbeit ist es daher nicht, ein funktional in

allen Aspekten vollständig implementiertes Programm vorzustellen,

sondern die Machbarkeit eines solchen Vorhabens aufzuzeigen. Dazu

wurden grundlegende Teile des Entwurfs implementiert, erweiterte

Funktionen werden hingegen nur diskutiert, und auch Optimierungen

sowohl in Bezug auf die benötigten Ressourcen (Laufzeit, Speicherbedarf)

als auch auf die Güte der Lösungen werden in dieser Arbeit nur

beschrieben, aber nicht implementiert.

Das hier vorgestellte Programm SOG (Self- Organizing Graph) greift

Erkenntnisse und Vermutungen aus der strukturalistischen Linguistik

auf, wie insbesondere durch Harris (1976) formuliert, zugleich werden

jedoch auch neuere , computerlinguistische Verfahren und Ansätze, wie

beispielsweise der ABL- Algorithmus nach van Zaanen (1999) oder das

Syntagmatic Paradigmatic Model (Dennis und Harrington , 2001),

berücksichtigt, die es ermöglichen sollen, die Fehlerquote der

statistischen Strukturanalyse des Programms zu verringern. Auch wird

durch Einsatz der ursprünglich im Rahmen der Entwicklung von Internet -

Suchdiensten entstandenen Spider - und Agenten- Technik ein weiteres

Mittel zur Ergebnisoptimierung eingesetzt. Die Güte von Hypothesen, die

das Programm durch (linguistisch motivierten) Einsatz von statistischen

Verfahren generiert, lässt sich so – in begrenztem Rahmen – durch

automatisierte Internet - Recherche, also durch Zugriff auf weitere

natürlich sprachliche Daten außerhalb des benutz ten Korpus, überprüfen,

so dass das eigentlich in die Kategorie des unsupervised learning

einzuordnende Lernverfahren des Programms um eine Rückmeldungs -

Komponente erweitert wird.

Bevor in Kapitel 3 das System SOG vorgestellt wird, soll in Kapitel 1.3 ein

kurzer Überblick über den theoretischen Hintergrund gegeben und eine

- 2 -

Definition dessen, was unter dem Begriff Paradigma zu verstehen ist,

herausgearbeitet werden. Daran anschließend werden in Kapitel 2

verschiedene computerlinguistische Ansätze vorgestellt, die dem hier

entwickelten System in unterschiedlichen Teilen ähneln. Zunächst soll

jedoch ein knapper Überblick über den technischen Rahmen gegeben

werden.

1.2 SEMALD

Bei SEMALD (System for Evaluating Multiple Algorithms on Linguistic

Data) handelt es sich um ein im Rahmen des von der Fritz Thyssen

Stiftung geförderten SemGen - Projekts entwickeltes Framework , welches

Zugriff auf verschiedene linguistische Modelle und Algorithmen bietet

(vgl. Schneidermeier 2003). Ziel des Projekts ist es, aus unstrukturiert

vorliegenden sprachlichen Daten mit Hilfe sowohl iterativ als auch

parallel angewandter Prozessierung durch verschiedene Komponenten

möglichst viele und qualitativ hochwertige semantische Informationen zu

gewinnen. SEMALD dient dabei als Rahmensystem , welches die

Interaktion der verschiedenen Module ermöglicht .

Zu den SEMALD- Modulen gehören sowohl einfache Algorithmen wie der

Levenshtein - Algorithmus als auch komplexe Komponenten wie Self

Organizing Maps (SOMs) nach Kohonen (1995), das Hyperspace Analogue

to Language (HAL, vgl. Burgess et al. 1998) oder das System LPS (vgl.

Rolshoven 2004 ). Jede SEMALD- Komponente spezifiziert ihre

Anforderungen an Eingabedaten und ihr Ausgabeformat in einer

Definitionsdatei , wobei die Annotation der prozessierten Daten in Form

eines Graphen (genauer : im ATLAS Interchange Format (AIF), vgl. Bird et

al. 2000 ) neben den Originaldaten abgelegt wird, so dass diese während

der Prozessierung nicht verändert werden, gleichzeitig aber jede

Komponente auf Ergebnisse anderer Komponenten zurückgreifen kann.

Die Implementierung des hier entworfenen Systems SOG ist, da die

Entscheidung zum AIF erst im Mai dieses Jahres fiel, noch nicht AIF-

- 3 -

konform, könnte jedoch relativ leicht angepasst und SEMALD

hinzugefügt werden 1, so dass die Datenprozessierung anderer Module

durch Rückgriff auf die von SOG ermittelten (Kategorie- ) Informationen

positiv beeinflusst werden könnten, ebenso wie umgekehrt Informationen

aus anderen Modulen die Prozessierung durch SOG verbessern könnten.

Diesbezügliche Untersuchungen können jedoch vermutlich erst Ende des

Jahres, wenn alle SEMALD- Komponenten in das Framework integriert

worden sind, durchgeführt werden.

1.3 Paradigmatische und syntagmatische Relationen

Die Relationen zwischen den linguistischen Einheiten 2 innerhalb eines

Satzes lassen sich grob in paradigmatische und syntagmatische

Relationen unterteilen.

Eine syntagmatische Relation bezieht sich auf den Kontext einer

linguistischen Einheit, wie beispielsweise die Beziehungen zwischen

Nomen und Verben, während eine paradigmatische Relation dann

vorliegt, wenn es möglich ist, eine linguistische Einheit durch eine andere

linguistische Einheit zu ersetzen, ohne dass die Grammatikalität der

Gesamtstruktur verletzt wird, wobei zunächst unerheblich ist, „ob das

resultierende Syntagma oder der Satz einen Sinn ergibt“ (Lyons 1995: 76).

Im folgenden Beispiel stehen sowohl Der Junge und Ein Hund als auch

Schule und Straße in paradigmatischer Relation, da sie – im Kontext von

laufen - austauschbar sind, ohne dass die Grammatikalität verletzt wird,

während geht in (1c) sowohl die paradigmatische als auch die

syntagmatische Relation verletzt.

(1a) Der Junge läuft in die Schule.(1b) Ein Hund läuft in die Straße.(1c) * Ein Hund läuft in die geht.

1 In der im Rahmen dieser Arbeit durchgeführten Implementa tion von SOG wurde nureine leicht an dort gegebenen Anforderungen angepasste Variante eines Moduls zurWort- und Satzgrenzenerkennung genutzt (vgl. Kapitel 4.1 ).

2 Unter dem Begriff „Linguistische Einheit“ sollen im Folgenden sowohl einzelneWörter als auch Wortketten (welche nicht notwendigerweise Phrasen wie NP oder VPsein müssen) verstanden werden.

- 4 -

(1d) ? Der Stein läuft in die Schule.(1e) ? Der Fisch läuft in die Schule.(1f) Der Motor läuft.(1g) ? Der Motor läuft in die Schule.(1h) Der Bub läuft in die Schule.

Junge und Bub sind Synonyme, die zweifelsfrei in paradigmatischer

Relation stehen 3. Problematisch ist eine Aussage über die

Grammatikalität von (1d), (1e) und (1g). Sowohl der Junge als auch der

Stein sind wohlgeformte Nominalphrasen mit gleichen syntaktischen

Merkmalen in Kasus, Numerus und Genus, (1d) ist also syntaktisch

korrekt. Allerdings ist (1d) bedeutungsfrei (d.h. (1d) würde von einem

Sprecher des Deutschen aufgrund der Sinnlosigkeit des Satzes nicht

akzeptiert, vgl. Seite 6), da Steine nicht die Eigenschaft besitzen, laufen

zu können. Grundsätzlich ließe sich vermuten, dass das Verb laufen ein

Subjekt verlangt, welches – in der Terminologie semantischer Rollen –

eine Agens- Rolle besitzen kann. Doch ist dies noch keine exakte

Beobachtung: (1e) ist ebenfalls bedeutungsfrei, da der Fisch , als

Lebewesen ohne Beine, nicht laufen kann. Damit ließe sich die vorherige

Behauptung weiter einschränken, das Verb laufen benötigt – nun in der

Terminologie der Merkmalssemantik – ein Subjekt mit den Merkmalen

+ belebt und + hat Beine .

Allerdings ist in (1f) ein Subjekt mit den Merkmalen - belebt und - hat

Beine mit dem Verb laufen zu einer syntaktisch und semantisch validen

Aussage kombiniert worden. Dieser Widerspruch lässt sich dadurch

erklären, dass in den vorherigen Beispieldeutungen der Kontext der

jeweiligen NP nicht groß genug gewählt wurde: Statt zu überprüfen, ob

linguistische Einheiten im Kontext von läuft austauschbar sind, muss

überprüf t werden, ob sie es im Kontext von läuft in die Schule sind. Im

Rahmen der GB- bzw. Theta - Theorie wird obiger Widerspruch genauer

analysiert: „The theta role assigned to the subject is assigned

compositionally : it is determined by the semantics of the verb and other

VP constituents“ (Haegeman 1995:71). Für das hier entworfene Programm

ist jedoch der Rückgriff auf linguistisches Wissen (bzgl. Verben, Theta -

3 Dies gilt ebenso für Antonyme (heiß – kalt) und Hyperonyme (Blume – Rose).

- 5 -

Rollen etc.) nicht möglich, daher soll hier an der vereinfachten, allgemein

auf Kontext bezogenen Analyse festgehalten und auf die Theta- Theorie

nicht weiter eingegangen werden.

Grundsätzlich lässt sich festhalten, dass dann, wenn paradigmatische

Relationen auch semantisch korrekt sein sollen, sie offensichtlich nicht

losgelöst von syntagmatischen Relationen betrachtet werden können, also

nicht losgelöst von ihrem Kontext (wobei hier offen bleibt, wie groß

dieser Kontext sein muß und wo nach ihm zu suchen ist – in einer

Sprache mit relativ freier Wortstellung, wie beispielsweise dem

Deutschen, ist es schließlich möglich, (1a) in die semantisch äquivalente

Aussage in die Schule läuft der Junge zu transformieren, indem die PP ins

Vorfeld bewegt wird). Da es die Zielsetzung dieser Arbeit ist, Paradigmen

zu generieren, die auch semantisch korrekt sind, wird eine

paradigmatische Relation definiert wie folgt definiert:

Wenn eine Phrase P1 in einem Kontext K, in dem sie vorkommen

kann, immer durch eine Phrase P2 ausgetauscht werden kann, ohne

dass die Grammatikalität des übergeordneten Satzes verloren geht

und ohne dass er bedeutungsfrei wird, dann stehen P1 und P2

bezüglich K in paradigmatischer Relation.

Bedeutungsfrei ist ein Satz dann, wenn er von einem Muttersprachler

aufgrund semantischer Anormalität nicht mehr akzeptiert wird. Das hier

vorgestellte System generierte während der Entwicklungsphase den Satz

In Österreich wurden vor der Einführung der Nacht zahlreiche

Experimente durchgeführt – allesamt mit negativem Ergebnis , weil es die

Begriffe Nacht und BSE- Tests in paradigmatischer Relation wähnte und

entsprechend eine Ersetzungsregel erzeugte 4. Die Naturgesetze lassen es

jedoch nicht zu, dass über ihre Einführung in irgendeiner Art und Weise

diskutiert wird, weshalb das Beispiel zwar amüsant, aber nicht

akzeptierbar ist. Ein Austausch von Österreich durch Frankreich , Iowa ,

4 Für eine Erläuterung, weshalb SOG in gewissem Maße sprachgenerierend ist, vgl.Kapitel 3 .

- 6 -

Berlin oder Darmstadt wäre hingegen akzeptierbar, unabhängig davon, ob

an diesen Orten BSE-Tests durchgeführ t wurden oder nicht:

The property of acceptability does not depend on the truth of thesentence : The book is here is a grammatically acceptable sentenceeven if the book in fact is not here. (Harris 1979:52)

Das Problem, zu entscheiden, ob zwei Phrasen in paradigmatischer

Relation stehen oder nicht, betrifft somit eher die Kompetenz eines

Sprechers als die Performanz 5. Harris geht in seiner Definition von

Akzeptanz allerdings noch weiter und fordert, dass diese nicht nur

innerhalb von Sätzen gegeben sein muss, sondern dass ein Satz auch in

seinem Kontext im Gesamttext akzeptierbar sein muss:

[...M]any sentences are really to be found only in particular types ofdiscourse , i.e., in the neighborhood of particular other sentences;and many of these would indeed be but dubiously acceptablesentences outside of such discourses. (Harris 1979:52)

Diesem soll nicht widersprochen werden, doch wird der Diskurs eines

Satzes im Verlauf dieser Arbeit nicht weiter berücksichtigt, denn die

Komplexität eines solchen Vorhabens würde den Rahmen dieser Arbeit

bei weitem sprengen, zudem wäre, wie Kapitel 3 zeigen wird, eine

Anwendung des Systems auf größere Einheiten als Sätze nicht sinnvoll.

Lediglich die in Kapitel 4.1 beschriebene Wahl des Korpus( ausschnit ts )

begrenzt den Diskurs in gewisser Weise.

Nach der Definition der paradigmatischen Relation bleibt zu klären, was

genau unter einem Paradigma zu verstehen ist. In dieser Arbeit handelt es

sich bei einem Paradigma um eine Menge von Phrasen bzw. Wortketten,

die eine „große“ Menge gemeinsamer paradigmatischer Relationen teilen,

d.h. die eine ähnliche Distribution besitzen. Allerdings ist es schwierig, zu

definieren, was unter einer großen Menge gemeinsamer paradigmatischer

5 Vgl. Bußmann 1990:396 („Kompetenz vs. Performanz“) für eine Zusammenfassungdieses Problems.

- 7 -

Relationen zu verstehen ist, denn wenn der Paradigmenbegriff ohne

Berücksichtigung der Bedeutung von Phrasen und Sätzen genutzt wird, so

werden sicherlich nicht mehr verschiedene Paradigmen benötigt, als es

syntaktische Kategorien und deren Variationen bezüglich syntaktischer

Merkmale gibt. Jede Phrase könnte dann eindeutig einem so definierten

Paradigma zugewiesen werden, da die Distribution aller Elemente des

Paradigmas nicht nur ähnlich, sondern identisch ist (Beispielsweise

würden alle Nomen und NPs in 3. Person Singular Plural in ein Paradigma

aufgenommen und – mit Ausnahme von (1c) – wären alle Sätze aus (1)

grammatisch).

Wenn hingegen die Semantik zu stark in die Paradigmenbildung mit

einbezogen wird, so werden sicherlich die meisten Paradigmen aus

lediglich einem Wort (evtl. zuzüglich Synonymen und Antonymen)

bestehen, denn je zwei Wörter einer Sprache unterscheiden sich in der

Regel in mindestens einem Punkt: Die Begriffe Mann und Junge

beispielsweise stehen sicherlich in sehr vielen Kontexten in

paradigmatischer Relation, jedoch nicht in allen (vgl. Abb. 1 auf Seite 10

dieser Arbeit).

Bei dem Versuch, die eindeutig unzulässigen Sätze mit Hilfe derdistributionellen Subklassifizierung der Wörter, aus denen sie gefügtsind, auszuschließen, wird sich der Linguist [...] früher oder spätereiner Situation gegenüber sehen, in der er immer mehr Regelnausarbeitet, von denen jede nur sehr wenige Sätze erfaßt; er wird soviele einander überschneidende Wortklassen aufstellen, daß jedeAllgemeingültigkeit verloren geht. (Lyons 1995: 156)

Lyons (ebd.) bezeichnet dies als „Gesetz der abnehmenden Rentabilität“

(principle of diminishing returns ). Für das in dieser Arbeit entworfene

Programm bedeutet Lyons Gesetz, dass eine Grenze gesucht werden

muss, ab der distributionelle Unterschiede ignoriert werden können.

Zusammenfassend lässt sich ein Paradigma also als eine Menge von

Wörtern und Phrasen interpretieren, deren Elemente aufgrund von

gemeinsamen semantischen Merkmalen in die Menge aufgenommen

worden sind. Diese Elemente müssen nicht zwingend auch in ihren

syntaktischen Merkmalen übereinstimmen, aber sie müssen in den

- 8 -

Kontexten, in welchen das Paradigma gültig sein soll, substituierbar sein.

Van Zaanen diskutiert dies anhand der Sätze Show me the morning

flights und Show me the nonstop flights (bezogen auf den von ihm

entwickelten ABL-Algorithmus, der in Kapitel 2.1 vorgestellt wird) :

The ABL algorithm finds that morning and nonstop are of same type[...]. However , morning is tagged as NN (a noun ) and nonstop as JJ (anadjective ). On the other hand , one might argue these words are ofthe same type, exactly because they occur in the same context. Bothwords might be seen as some sort of adjective phrase. (van Zaanen1999:9)

Van Zaanen schlägt daher vor, zwischen funktionalem und syntaktischem

Typ einer Phrase zu unterscheiden – dieser Vorschlag wird für diese

Arbeit übernommen, zumal die Kategorisierung deutscher Wörter nach

lateinischen und griechischen Kriterien, wie es in der traditionellen

Syntax der Fall ist, ohnehin fraglich ist und zu Problemen führt, die selbst

für einen Linguisten nur schwierig, für ein Computerprogramm wohl gar

nicht zu lösen sind 6.

Um die Anzahl der Paradigmen, in denen ein Wort oder eine Phrase

enthalten ist, nicht unnötig zu vergrößern, soll zusätzlich erlaubt werden,

auch Paradigmen als Elemente von Paradigmen zuzulassen. Ein

Paradigma, welches sich dadurch auszeichnet, dass seine Elemente im

Kontext von Der Mann trinkt ... in paradigmatischer Relation stehen, bei

denen es sich also um Getränke handelt, kann somit in das Paradigma

aller „kaufbaren“ Objekte aufgenommen werden. Durch diese Erweiterung

der Paradigmendefinition ist es theoretisch möglich, die Menge der

Paradigmen – zumindest teilweise – zu hierarchisieren, ähnlich wie es in

der Kategorialsemantik geschieht. Folgende Abbildung zeigt eine

exemplarische und manuell erzeugte Kategorisierung:

6 Eine Zusammenfassung der historischen Entwicklung der Wortarten findet sichbspw. in (Lyons 1995:4ff), auch einige der daraus resultierenden Probleme werdendort (S.322ff) aufgeführt.

- 9 -

P5 besteht in diesem Beispiel lediglich aus Verweisen auf weitere

Paradigmen, P8 enthält sowohl Phrasen als auch Paradigmen, wobei diese

wiederum Paradigmen enthalten können (wie P4). Wie das Beispiel zeigt,

ist es durchaus denkbar, dass sowohl atomare Wortketten als auch

komplexe Paradigmen mehreren Kategorien zugewiesen werden können.

Der hier benutzte distributionelle Paradigmenbegriff ähnelt nicht zufällig

Hindles Kategorisierungsmethode:

For nouns , there is a restricted set of verbs that it appears assubject of or object of. For example , wine may be drunk , producedand sold but not pruned. Each noun may therefore be characterizedaccording to the verbs that it occurs with. Nouns may then begrouped according to the extent to which they appear in similarenvironments. (Hindle 1990:268)

Genau dies soll hier auch versucht werden, allerdings mit dem

Unterschied gegenüber dem von Hindle durchgeführten Experiment, dass

kein syntaktischer Parser zur Vorverarbeitung der Daten genutzt wird,

sondern lediglich ein Satz- und Wortgrenzen erkennender Lemmatisierer

(vgl. Kapitel 4.1 ).

Ein mögliches Ziel (welches allerdings deutlich über das in dieser Arbeit

- 10 -

Abbildung 1 Teil- Von- Relationen zwischenParadigmen

ein Kind trinkt

P1Milch

WasserColaSaft

P2

ein Manneine Frau

trinkt

P3

BierWein

P4

P3

P2

P5

P3P1isst Wurst

PizzaBrot

P6

kauft ein Autoein Haus

P8

P4 P6

P3

verfolgte Ziel hinausgeht) würde somit darin bestehen, Wörter und

Wortketten hierarchischen Strukturen zuordnen zu können, welche

gleichzeitig syntaktische, funktionale, semantische und distributionelle

Eigenschaften abbilden würden. Darüber, ob dieses Ziel allein auf Basis

der Distributionsanalyse erreicht werden kann oder nicht, lässt sich nur

spekulieren – die Möglichkeiten der Distributionsanalyse bestechen

jedoch durch ihre Einfachheit: Anders als bspw. in Chomskys Theorien zu

Government and Binding oder dem Minimalist Program (vgl. Haegeman

(1999) für einen Überblick) wird hier keinerlei Vorwissen in Form von

Lexikon oder sprachabhängigen Parametern benötigt, um natürliche

Sprache zu analysieren, und die Rechenkraft heutiger Computer

ermöglicht es, die für Distributionsanalysen not - aber auch aufwändigen

Arbeiten, die in erster Linie auf dem Zählen der Vorkommen

verschiedener Muster basieren, relativ einfach zu implementieren und

auszuwerten. Trotzdem bedeutet dieses Vorgehen nicht, dass die

Erkenntnisse der GB- Theorie hier verworfen oder ignoriert werden

müssen, vielmehr lassen sie sich – zumindest teilweise – für die Analyse

nutzen, und auch synergetische Effekte, also eine gegenseitige Ergänzung

beider Theorien bzw. Ansätze, lassen sich finden und ausnutzen. So sind

bspw. die Beobachtungen zu den sog. Null- Paradigmen Indizien dafür,

dass die Elemente in diesen Paradigmen eine untergeordnete Position

innerhalb einer X- Bar- Struktur einnehmen müssen (vgl. Kapitel 3.1.2 und

6).

Nachdem die theoretischen Hintergründe und – durch die Definition des

Begriffs Paradigma – auch die Anforderungen an das hier zu entwerfende

System präzisiert wurden, soll der Schwerpunkt der folgenden Kapitel auf

der praktischen Umsetzung dieser Anforderungen liegen. Dies kann

jedoch nur näherungsweise geschehen, denn in einigen Punkten ist der

Versuch, Paradigmen ausschließlich anhand einer Distributionsanalyse zu

erkennen, von vornherein zum Scheitern verurteilt, wie der Cartoon auf

Seite iii7 veranschaulicht: Wird versucht, paradigmatische Relationen

ausschließlich durch Distributionsanalyse zu erkennen, ohne dabei auf

7 Aus der Februar - Ausgabe 2004 des Satiremagazins „Titanic“.

- 11 -

„echte“ Sprecherkompetenz zurückzugreifen, so müssen Sätze wie

Komm, wir setzen uns in die Sonne zwangsläufig zu Fehlschlüssen führen,

indem bspw. Sonne mit Sessel , Schaukel , Ecke etc. in paradigmatische

Relation gesetzt wird. Zwar ließe sich argumentieren, dass dies korrekt

ist, weil es sich in diesem Paradigma um „Orte, in die man sich setzen

kann“ handelt und das Problem darin liegt, dass das Wort Sonne hier

nicht den Stern, sondern dessen Strahlen bezeichnet, aber auch mit dieser

Erläuterung bleibt ein solches Paradigma fraglich. Es wird sich allerdings

zeigen, dass dieses Problem in der praktischen Anwendung nicht so

häufig auftritt, dass die Grundidee des Ansatzes verworfen werden

müsste, auch wenn das prinzipielle Problem der Nicht- Äquivalenz von

Wortverwendung und Konzept (bzw. der Folgerung von dem einen auf

das andere) nicht gelöst werden kann.

2. Auf Distributionsanalyse basierende Modelle im Vergleich

Bevor das SOG- System erklärt wird, sollen zunächst drei andere Ansätze

vorgestellt werden, die SOG in verschiedenen Punkten ähneln und deren

Kenntnis das Verständnis des hier entworfenen Systems erleichtern.

Gemeinsam ist allen vier Systemen (bzw. Modellen), dass es sich um

unüberwacht 8 arbeitende, auf Distributionsanalyse basierende Verfahren

handelt, die ohne linguistisches Vorwissen in Form von Lexika o.Ä.

arbeiten, und stattdessen versuchen, ein Korpus durch Bootstrapping -

Analyse, d.h. durch die iterative Extraktion sprachlicher Strukturen unter

Berücksichtigung der Ergebnisse vorheriger Iterationen, auszuzeichnen.

Sowohl in der Art und Weise des Vorgehens als auch der

Ergebnisberücksichtigung und der grundsätzlichen Zielsetzung jedoch

weichen die Systeme voneinander ab.

8 Im Gegensatz zu überwachten Systemen, die von einem (menschlichen) Experteneine Rückmeldung über die Güte der von ihnen produzierten Ergebnisse bekommen,müssen unüberwachte Systeme auf externes Feedback verzichten.

- 12 -

2.1 ABL

Der von van Zaanen entwickelte Alignment - Based - Learning Algorithmus

(ABL) ist einer der ersten Bootstrapping- Ansätze, der sich auf die

theoretischen Grundlagen des Strukturalismus beruft, um eine rein

distributionelle Konstituentenklassifizierung durchzuführen, ohne dass

dafür weitere (lexikalische) Information oder menschliche Interaktion mit

dem System vorausgesetz t werden muss. Da sich die Vorgehensweise in

neueren Ansätzen (wie bspw. ADIOS) häufig an ABL anlehnt und dieser

relativ anschaulich die grundlegenden Methoden der Distributionsanalyse

nutzt, soll er im Folgenden vorgestellt werden.

Das Ziel van Zaanens lag darin, einen Algorithmus zu entwerfen, der

Sätzen eine (Konstituenten - )Struktur zuweist, die äquivalent ist zu der

Struktur, die ein Muttersprachler diesem Satz zuweisen würde – damit

handelt es sich bei ABL um einen rein syntaktischen Ansatz. ABL arbeitet

in zwei Phasen, die iterativ wiederholt werden: Zunächst wird in der

Alignment - Phase (i.e. Ausrichtung oder Anordnung) jeder Satz mit jedem

anderen verglichen und es wird versucht, unterschiedliche Teilphrasen in

diesen Sätzen zu finden, die in gleichem Kontext stehen (Edelman et. al.

(2004) bezeichnen diesen Effekt als partielle Redundanz) . Diese

unterschiedlichen Teilphrasen werden als derselben Konstituentenklasse

zugehörig (und somit als substituierbar) betrachtet, wobei

selbstverständlich keine Aussage darüber getroffen werden kann, um

welche klassische Kategorie (wie Nomen, Verb etc.) es sich handelt. Zur

Ermittlung der austauschbaren Phrasen wird eine Variante der String Edit

Theory (SET) nach Sankoff und Kruskal (1983) verwendet . Dabei handelt

es sich um ein auf der Levenshtein - Distanz basierendes Verfahren 9, das

ermittelt, welche der drei Operationen Einfügen , Löschen und Ersetzen wie

anzuwenden sind, um eine Signalkette A optimal, also mit möglichst

„kostengünstigen“ 10 Operationen, in eine Signalkette B zu überführen.

9 Für eine genauere Beschreibung des Levenshtein - Algorithmus und der String EditTheory vgl. Sankoff und Kruskal (1983), Kapitel 1.

10 Was genau eine „kostengünstige“ Transformation ist, kann in jedem Anwendungsfallunterschiedlich sein, jedoch lassen sich generell jeder Operation – theoretisch auchabhängig von dem Kontext, in dem sie ausgeführt wird – Kosten zuweisen, derenSumme die Kosten der gesamten Transformation ergibt.

- 13 -

Hier wird SET dafür eingesetzt, die längsten gemeinsamen Teilphrasen in

zwei Sätzen zu finden. Der Rest dieser Sätze, d.h. die unterschiedlichen

Teilphrasen, werden dann als potentielle Konstituenten derselben

Kategorie interpretiert und entsprechend mit nicht - terminalen Symbolen

annotiert, wobei eventuell bereits existierende Annotationen, die in

früheren Iterationen des Algorithmus eingefügt wurden, zunächst

ignoriert werden, so dass es zu überlappenden Strukturen wie in

Abbildung 2 kommen kann.

Erst in der zweiten, als Bracket - Selection bezeichneten Phase des

Algorithmus werden solche überlappenden Strukturen aufgelöst, d.h. der

Algorithmus entscheidet, welche der konkurrierenden Strukturen zu

wählen 11 ist.

Van Zaanen zeigt, dass der ABL- Algorithmus dazu in der Lage ist,

rekursive Strukturen, also eine Verschachtelung gleicher Kategorien, zu

lernen bzw. zu erkennen, wie sein Beispiel „What is the (name of the

(airport in Boston X18 )X18“(van Zaanen 1999:6) demonstriert.

Im Gegensatz zu neueren Ansätzen wie dem in Kapitel 2.3 beschriebenen

ADIOS- Modell oder auch SOG werden die „Erkenntnisse“, die der ABL-

Algorithmus gewinnt, jedoch nicht aktiv in die Strukturbildung mit

einbezogen – lediglich dann, wenn in der Alignment - Phase eine bereits

11 Dazu entwickelte van Zaanen verschiedene Bewertungsfunktionen (vgl. van Zaanen2003:391f). ABL:incr wählt grundsätzlich die „ältere“ Struktur, während ABL:leaf dieWahrscheinlichkeit, dass es sich bei einer Wortkette (c') um eine Konstituentehandelt, berechnet, indem die Vorkommen der Wortsequenz im Korpus gezähltwerden, die bereits als Konstituenten (c) interpretiert wurden. Das Ergebnis wirddurch die Anzahl aller Konstituenten ∣C∣ dividiert:

Pleaf c=∣c'∈C:yield c'=yield c∣

∣C∣

- 14 -

(Book Delta 128)x1 from Dallas to Boston

(Give me all flights)x1 from Dallas to Boston

Give me (all flights from Dallas to Boston)x2

Give me (information on reservations)x2

Abbildung 2 Veranschaulichung desEntscheidungsproblems bei überlappendenStrukturen (nach van Zaanen 1999:4)

strukturierte Phrase mit einer noch nicht strukturierten Phrase verglichen

wird, werden die Informationen über die Struktur berücksichtigt

(Abbildung 3), ansonsten lernt ABL nicht aus früheren Iterationen.

Dies hat allerdings auch Vorteile, denn sowohl das ADIOS- Modell als

auch das hier entworfene System haben mit dem prinzipbedingten

Nachteil zu kämpfen, dass Fehler, die zu Beginn der Datenverarbeitung

gemacht und nicht korrigiert werden, im Verlauf der Prozessierung einen

zunehmenden, negativen Einfluß auf die Güte der Gesamtergebnisse

haben. Und auch wenn die Funktionalität von ABL im Vergleich mit den

im Folgenden vorgestellten Modellen relativ beschränkt ist, basiert deren

Analyse ebenfalls auf dem bereits hier ausgenutz ten Effekt der partiellen

Redundanz.

2.2 SPM

Wie van Zaanens ABL basiert auch Dennis' Syntagmatic Paradigmatic

Model (SPM) auf der String Edit Theory. Das Ziel des SPM unterscheidet

sich jedoch von allen anderen hier beschriebenen Ansätzen, denn SPM ist

letztlich ein automatisches Question - Answering System, welches

syntagmatisches und paradigmatisches Wissen dazu benutz t, korrekte

Antworten auf eingegebene Fragen zu liefern, die es aus einer

automatisch konstruierten Wissensbasis inferiert.

Im SPM werden drei verschiedene Speicherformen unterschieden, die

während des Information Retrieval Prozesses involviert sind: working

memory (WM), sequential long time memory (S- LTM) und relational long

- 15 -

What does (AP57 restriction)x1 mean

What does aircraft code D8S mean

What does (aircraft code D8S)x1 mean

Abbildung 3 Die Kategorie der obigen NP wirdfür die strukturgleiche NP im zweiten Satzübernom me n (nach van Zaanen 1999:4).

time memory (R- LTM). Das S- LTM lässt sich als syntagmatische

Wissensbasis interpretieren, wobei das gespeicherte Wissen aus den

Sätzen des Eingabekorpus besteht, die als syntagmatische Spuren

(syntagmatic traces ) bezeichnet werden. Im R- LTM sind in assoziativer

Form paradigmatische Spuren (paradigmatic traces ) zwischen

verschiedenen Wörtern abgebildet (wie Abbildung 4 zeigt), und das WM

dient schließlich dazu, Zwischenergebnisse des Retrieval- Prozesses

festzuhalten.

John: Bert, Steve; Mary: Ellen, JodyBert: John, Steve; Ellen: Mary, JodySteve: John, Bert; Jody: Mary, EllenBert: Steve; Ellen: JodySteve: Bert; Jody: Ellen

R-LTM

John loves Mary

Bert loves Ellen

Steve loves Jody

Who does Bert love? Ellen

Who does Steve love? Jody

S-LTM

WM

Who

does

John

love

?

#

Abbildung 4 Speichermodell des SPM (nach Dennis 2004:8). DasZeichen „#“ markiert einen leeren slot , für den das SPM im R- LTMnach einem geeigneten Element suchen muss (hier wäre dies dieparadigmatische Spur Mary : Ellen, Jody ).

Um einen Eingabesatz zu verarbeiten, werden zunächst, ebenfalls durch

einen SET- Algorithmus, die zur Eingabe ähnlichsten Wortsequenzen im

S- LTM ermittelt, welche als potentielle syntagmatische Vorlagen für die

weitere Verarbeitung dienen (in obigem Beispiel wären dies die beiden fett

gedruckten Sequenzen im S- LTM). Da der SET- Algorithmus die Elemente

der Eingabesequenz erkennt, die von den Sequenzen im S- LTM

abweichen, werden so die Wörter bestimmt, zu denen eine

paradigmatische Relation gesucht werden muss, um die Eingabe weiter zu

verarbeiten. Betroffen wären hier John (mit Bert und Steve in einem

Paradigma) sowie der Platzhalter „#“ (Ellen , Jody ). Diese paradigmatischen

- 16 -

Elemente lassen sich nun vom SPM dazu nutzen, Parallelitäten zwischen

Bert und Ellen , Steve und Jody sowie John und „#“ im S- LTM zu suchen.

Die Sequenzen 1- 3 zeigen, dass John, Bert und Steve sowie Ellen, Jody

und Mary die gleiche Rolle übernehmen – so ergibt sich eine hohe

Wahrscheinlichkeit dafür, dass Mary an Stelle des Platzhalters im WM

eingesetz t werden sollte, womit das SPM die gestellte Frage schließlich

korrekt beantworten kann.

Die Fähigkeiten des SPM sind dabei nicht so trivial, wie das hier benutz te

Beispiel suggerieren mag – vielmehr zeigt Dennis, dass (u.a. aufgrund der

von ihm benutz ten Bayes'schen Variante des SET- Algorithmus 12) das SPM

auch dazu in der Lage ist, sowohl syntagmatische Abhängigkeiten, die

sich über eine große Distanz erstrecken (wie „The man who saw the altar

and gave thanks was awed “13) als auch rekursive Strukturen (wie „the cat

the cats chase chases “14) korrekt verarbeiten kann. Die Verarbeitung einer

Sammlung von Berichten der Association of Tennis Professionals und der

anschließende Test des Modells durch (insgesamt 270) Fragen wie Who

won the match between Sampras and Agassi ? zeigten, dass SPM 67% der

gestellten Fragen korrekt beantworten konnte, auch wenn die Antworten

nur implizit in den Texten vorhanden waren 15 und inferiert werden

mussten.

Zudem zeigt Dennis, dass das SPM auch dazu in der Lage ist, semantische

Kategorisierungen vorzunehmen, was im Kontext dieser Arbeit von

größerem Interesse ist als die Question- Answering- Fähigkeiten des

Modells, auch wenn die Art und Weise der Datenverarbeitung letztlich

identisch ist. Ausgehend von einem Korpus, in welchem Informationen

12 Im Gegensatz zur „einfachen“ SET- Variante werden die Kosten derErsetzungsopera tion dynamisch ermittelt. Diese bewirkt beispielsweise, dass derAlgorithmus während des Alignments zweier Sätze wie John loves Mary und Johnwho loves Ellen loves Mary im zweiten Satz das rechts stehende loves für dieZuordung präferiert, während der „herkömmliche“ SET- Algorithmus für beidenVarianten die gleiche Wahrscheinlichkeit berechnen würde. Da die dieser Berechnungzugrundeliegende Formel sowie insbesondere deren Herleitung recht komplex,gleichzeitig aber für das Verständnis des Modells nicht relevant ist, soll hier nichtweiter darauf eingegangen werden (Für eine ausführlichere Beschreibung vgl. Dennis2004:13- 16 und 66ff, für das zugrundeliegende Bayes'sche Theorem vgl.Manning/Schütze 1999:43ff).

13 Dennis, 2004, S. 2114 Dennis, 2004, S. 2615 Vgl. Dennis 2004, S. 53ff.

- 17 -

über Tiere enthalten sind (z.B. „a [sic!] elephant is a herbivore “

(Pflanzenfresser) , „a lion is a carnivore “ (Fleischfresser) und „is a mouse

big? no“ 16), ist das SPM dazu in der Lage, anhand von ermittelten

Ähnlichkeiten zwischen bspw. tiger und lion zu vermuten, dass auch

Tiger Fleischfresser sind. Im Prinzip handelt es sich bei SPM also um eine

frei assoziierende, natürliche Sprache verarbeitende Inferenzmaschine ,

d.h. das Modell ist in der Lage, aus – im Gegensatz zu klassischen

Inferenzmodellen (wie bspw. in der Programmiersprache Prolog genutzt)

– lediglich in natürlichsprachlicher Form vorliegendem Wissen

Folgerungen zu inferieren. Die Güte der Lösungen ist damit jedoch stark

vom Korpus abhängig, denn die Kategorisierung, die das System

vornimmt, basiert – vereinfacht dargestellt – auf der Extraktion impliziter

wenn- dann - Beziehungen. Die Vermutung des Systems, dass es sich bei

Tigern um Fleischfresser handelt, wird daraus abgeleitet, dass das Korpus

die Informationen enthält, dass sowohl Tiger als auch Löwen in der

Savanne leben und jagen 17 , wobei SPM nicht erkennt (und nicht erkennen

kann), dass jagen und Fleischfresser sein ein zulässige wenn- dann -

Beziehung ist, während dies für bspw. Fell haben und Fleischfresser sein

nicht gelten würde. Das System stellt lediglich fest, dass die Begriffe tiger

und lion in ähnlichen syntagmatischen Verhältnissen vorkommen, und

folgert aus dieser Erkenntnis auf weitere Parallelen in unbekannten

Kontexten. In gewisser Weise wird darauf vertraut, dass das

zugrundeliegende Korpus bezüglich der wenn- dann - Beziehungen

fehlerfrei ist. Zwar wird auch in allen anderen hier vorgestellten Modellen

angenommen, dass zwei Wortketten verwandt sind, wenn sie in gleichem

Kontext auftauchen, doch wird daraus nicht automatisch geschlossen,

dass diese Verwandtschaft in jedem Kontext gegeben sein muss.

16 Alle drei Sätze aus Dennis 2004, S. 3717 Das Korpus enthält u.a. die vier Sätze the lion searched for prey, the lion walked

across the savannah, the tiger ran across the savannah und the tiger looked for prey(vgl. Dennis 2004:37).

- 18 -

2.3 ADIOS

Das von Solan et al. entwickelte System ADIOS (Automatic Distillation Of

Structure ) ist dem hier entworfenen System in den Grundzügen sehr

ähnlich, wenn auch der Entwurf von SOG ohne Kenntnis des ADIOS-

Systems angefertigt wurde. Die Gemeinsamkeiten liegen in der

verwendeten Datenstruktur und in der Fähigkeit beider Systeme, die

gewonnenen kategoriellen Informationen in dieser Datenstruktur so zu

verwalten, dass sie eingeschränkt sprachgenerierend sind.

Wie alle hier vorgestellten Ansätze arbeitet auch ADIOS auf rohen, nicht

weiter prozessierten Texten, unüberwacht und (theoretisch)

sprachunabhängig. Ziel ist es, das Eingabekorpus in linguistische

Strukturen zu zerlegen und diese zu kategorisieren. Dazu wird zunächst

das Korpus in eine Repräsenta tion als Graph überführt, wobei jeder Satz

durch einen Pfad zwischen zwei als Start und Ende markierten Knoten

dargestellt wird, in welchem die Knoten die kleinstmöglichen

morphologischen Konstituenten („smallest possible morphological

constituents “, Solan et. al, 2002:2) der Wörter des Satzes repräsentieren 18 .

Die (gerichteten) Kanten zwischen diesen Knoten werden mit Satz - und

Positionsnummer gelabelt , so dass jeder Satz eindeutig aus dem Graphen

rekonstruierbar ist. Anschließend sucht ADIOS nach „signifikanten

Mustern“ (significant patterns (SP)), welche definiert sind wie folgt:

„Each SP consists of a non- empty prefix (a sequence of graph edges ), an

equivalence class of vertices , and a non- empty suffix (another sequence

of edges [...])“ (Solan et. al., 2003:2). Mit anderen Worten handelt es sich

bei einem SP um mindestes zwei (Teil- ) Pfade im Graphen, welche am

Anfang und am Ende identisch verlaufen, sich im Inneren jedoch

unterscheiden – die sich unterscheidenden Teile werden als der gleichen

18 Darüber, wie die dafür notwendige morphologische Analyse durchgeführt wird,machen die Autoren keine Ang aben, sondern bemerken lediglich „that the algorithmcan work in any language, with any set of tokens, including individual characters – orphonemes, if applied to speech“ (Solan et. al, 2002:2). Zudem ist auch nichtersichtlich, was genau von den Autoren als Morphem interpretiert wird, wie dieADIOS- Zerlegungen I – 'm , wa – s, thought oder gonna zeigen (vgl. Solan et al.2004:5 ). In neueren Arbeiten wird allerdings auch nur noch davon gesprochen, dassWörter in ihre „constituent characters “ (ebd. S. 2) zerlegt werden.

- 19 -

Äquivalenzklasse zugehörig interpretiert (vgl. Abbildung 5).

Die Signifikanz eines SP wird mit Hilfe der Formeln in (2) berechnet (vgl.

Solan et. al 2003:2). Dort bezeichnet der Ausdruck P c j∣ci die

Wahrscheinlichkeit, dass der Knoten c j der Nachfolger des Knoten ci

ist. Diese wird ermittelt, indem die Anzahl der von ci unmittelbar auf

c j zeigenden Kanten durch die Anzahl aller ausdem Knoten ci

ausgehenden Kanten berechnet wird.

(2) Formeln zur Berechnung der Signifikanz in ADIOS

(a) Spathi= e−L

k2

sieheFußnote

Pk pathi log Pkpathi

P2Path imit pathi=c1c2...ck

19

(b) Pk path i=Pc1Pc2∣c1Pc3∣c1c2...Pck∣c1c2...ck−1

(c) P2pathi=Pc1Pc2∣c1Pc3∣c2...Pck∣ck−1

19 Der erste Faktor dieser Gleichung soll bewirken, dass das Verhältnis zwischen derAnzahl der Knoten des Pfades (k) mit Hilfe des Modellparameters L berücksichtigtwird. Kleine Werte für L führten jedoch bei der Verarbeitung natürlicher Sprache zueiner Übergenerierung des Systems, und auch große Werte lieferten dort keinezufriedenstellenden Ergebnisse (vgl. Solan et al 2004:2). Daher wurde in einerüberarbeiteten Form (ADIOS2) dieser Faktor ausgelassen und das Modell modifiziert(vgl. ebd). Auf diese Modifikation soll hier jedoch nicht weiter eingegangen werden,da das grundlegende Prinzip von ADIOS auch dort bestehen bleibt.

- 20 -

Abbildung 5 Bildung von Äquivalenzklassen in ADIOS (ausSolan et. al 2004:3). (a) stellt einen Ausschnitt des Graphen imAnfangszustand dar, bereits markiert ist die distributiveÄquivalenz der Wörter cat, dog und horse . In (b) sind dieseWörter als Äquivalenzklasse in einem Knoten zusam me nge fasst,(c) zeigt die sprachgenerierende Fähigkeit des Modells, die sichaus Kombination mehrerer Äquivalenzklassen in linearerAbfolge ergibt.

Die Formel (2c) berechnet die Wahrscheinlichkeit, von c1 zu ck zu

gelangen, ohne dass dabei der zurückgelegte Weg berücksichtigt wird,

d.h. bei der Berechnung von P c3∣c2 spielt die Wahrscheinlichkeit, zum

Knoten c2 gelangt zu sein, keine Rolle. (2b) berücksichtigt hingegen die

Wahrscheinlichkeit, mit der der aktuelle Knoten gewählt wurde, so dass

der logarithmierte Ausdruck in (2a) einen normalisierenden Effekt auf die

Formel ausübt. Die Güte eines SP ergibt sich schließlich dadurch, dass für

jeden in dem Pattern enthaltenen Pfad die Formel (2a) berechnet und die

Ergebnisse summiert werden.

- 21 -

Abbildung 6 Veranschaulichung derSignifikanz - berechung in ADIOS (ausSolan et al. 2003:3). In (a) wird Formel(2b) benutzt, in (b) Formel (2c).

Falls ein SP (mit Hilfe eines Schrankenwerts) als signifikant genug

beurteilt wird, wird es als neuer Knoten in den Graphen eingefügt, wo es

die entsprechenden Knotensequenzen der Pfade ersetzt und in folgenden

Programm - Iterationen statt dieser Sequenzen verarbeitet wird.

Erwähnenswert ist hieran, dass

only those edges of the multi - graph that belong to the detectedpattern are rewired ; edges that belong to sequences not subsumedby the pattern are left intact. This highly context - sensitive approachto pattern abstraction , which is unique to our model , allows ADIOSto achieve a high degree of representational parsimony withoutsacrifying its generalization power (Solan et al 2002:3).

Allerdings wird die Flexibilität des ADIOS- Ansatzes dadurch wieder

eingeschränkt, dass – zwangsläufig bedingt durch die Berücksichtigung

des Faktors k in (2a) – nur Pfade gleicher Länge in dasselbe SP

aufgenommen werden können (vgl. Solan et al. 2002:2 für ADIOS1, Solan

et al. 2004:3f für ADIOS2). Daraus folgt, dass bspw. NPs wie er , der

Student und der junge Mann nicht im gleichen SP enthalten sein und

somit auch nicht unmittelbar in der gleichen Äquivalenzklasse

zusammengefass t werden können. Dies ist nur möglich, wenn die

Elemente zuvor bereits in verschiedenen Äquivalenzklassen enthalten

- 22 -

waren, da sie dann im Graphen (aufgrund der oben beschriebenen

Ersetzungsfunktion ) durch genau einen Knoten repräsentiert werden und

somit vergleichbar sind – dafür muss jedoch das zu prozessierende

Korpus solche (Teil- ) Pfade enthalten, was selbstverständlich nicht

grundsätzlich zu erwarten ist (für obige NPs wären bspw. die NPs ein

Schüler und ein kleiner Junge im gleichen Kontext wie die jeweils gleich

lange NP oben notwendig).

Enthält das Korpus jedoch solche Pfade, so ergibt sich daraus ein weiterer

positiver Effekt, denn durch die Ersetzung mehrerer Knoten durch einen

„Äquivalenzknoten “ schrumpfen die betroffenen Pfade, was wiederum

bedeutet, dass sich ursprünglich weit von einander entfernte Knoten

nähern. Dies hat zur Folge, dass auch syntagmatische Abhängigkeiten

zwischen solchen Knoten zumindest teilweise von ADIOS erkannt werden

können – die Autoren erwähnen beispielsweise, dass das Agreement von

Subjekt und Verb in den von ADIOS konstruierten Patterns korrekt

behandelt wird, weisen aber auch darauf hin, dass dies für kompliziertere

strukturelle Beziehungen nicht gilt:

[...] the treatment of many aspects of syntax such as anaphora ,auxiliaries , wh - questions , passive, control , etc [...] awaits bothfurther computational experimenta tion and further theoretical work(Solan et al. 2004:7).

Weiterhin zeigen sie, dass die von ADIOS extrahierten Patterns auch zur

Sprach- (bzw. Satz - ) Generierung genutzt werden können: Zum einen

schachtelt ADIOS Äquivalenzknoten rekursiv, so dass sich eine

struktursensitive Grammatik extrahieren lässt (siehe Abbildung 7), zum

anderen ergeben sich aus der Integration der Äquivalenzknoten neue

Pfade zwischen START- und END- Knoten des Graphen, welche sich an

syntagmatischen und paradigmatischen Eigenschaften von Sätzen des

Korpus anlehnen, in dieser Form aber nicht im Korpus vorhanden waren.

- 23 -

Wie groß das Sprachgenerierungspotential des ADIOS- Modells tatsächlich

ist, lässt sich nur schwer beurteilen, weil die Autoren lediglich einige

(positive) Beispiele angeben. Und da es sich bei den Korpora, welche mit

ADIOS verarbeitet wurden, zum einen um ein mit Hilfe des

Satzgenerators rmutt 20 automatisch generierten Korpus, zum anderen um

das (erweiterte) CHILDES- Korpus 21 handelt (letzteres enthält

Transkriptionen von Sätzen, die zwischen Kindern und Eltern

ausgetauscht wurden), sind diese Beispiele vor allem bezüglich ihrer

semantischen Akzeptierbarkeit, wie in Kapitel 1.3 definiert, nur schlecht

interpretierbar. Bereits die von rmutt generierten Sätze sind – zumindest

teilweise – nicht zu akzeptieren (wie „the horse is living very extremely

far away “ oder „the cow is working at least until Thursday “(Solan et al.

2002:5 )) und die Akzeptanz von Sätzen des CHILDES- Korpus (wie „can

we make a little house? “ oder „should we put the beds in the

house?“(Solan et al. 2002:7)) ist nur in einem „spielerischen“ Kontext

akzeptierbar, in welchem dies jedoch letztlich für jede Äußerung gilt, so

dass sich über die Akzeptierbarkeit von durch ADIOS erzeugten Sätzen

wie bspw. „there's a cup and there's some lambs “ (Solan et al. 2004:6)

keine Aussage treffen lässt.

20 Dabei handelt es sich um ein Programm, welches mit Hilfe einer kontextfreienGrammatik zufällig Sätze generiert (siehe http: / / www.schneertz.com / r m u t t ).

21 Siehe http: / / c hildes.psy.cmu.edu /

- 24 -

Abbildung 7 Bildung einer „Grammatik“ inADIOS (aus Solan et al, 2002:5). Dieverschiedenen Äquivalenzklassen sind graumarkiert.

3. Der SOG-Algorithmus

Die Grundidee von SOG basiert auf den in Kapitel 1.3 beschriebenen

Beobachtungen und Überlegungen und ähnelt in verschiedenen Punkten

allen im vorherigen Kapitel beschriebenen Ansätzen, geht zugleich über

deren Ziele hinaus, da keines der Modelle den Anspruch hat, Paradigmen

wie in Kapitel 1.3 definiert zu finden. Die Art und Weise des Vorgehens

ähnelt dem ADIOS- Modell, insbesondere in der Wahl der

Datenstrukturen, denn der zu verarbeitende Text wird in SOG ebenfalls

als Graph repräsentiert, wobei jeder Satz des Korpus als ein Pfad (also als

gerichteter Weg) zwischen den funktionalen Knoten START und END

abgebildet wird. Die mit einem Satz korrespondierenden Kanten sind

anhand einer eindeutigen Satznummer identifizierbar. Eine als Wortform

erkannte Zeichenkette 22 wird in einen Knoten im Graphen transformiert

und die lineare Reihenfolge der Wörter eines Satzes wird dadurch

gekennzeichnet, dass die entsprechenden Kanten – zusätzlich zur

Satznummer – durch Wortnummern gelabelt werden. Abgesehen davon,

dass im SOG- Modell eine Kante zwischen zwei Knoten nur einmal

vorkommen kann (und zwangsläufig mehrere Satz- und Wortnummern in

einer Kante gespeichert werden, was jedoch letztlich keine Auswirkung

auf das Datenmodell hat) und SOG Wörter statt morphologischer

Einheiten (bzw. dem, was ADIOS als solche interpretiert, vgl. Anmerkung

auf Seite 19 ) in Knoten überführt, sind die Graphen von ADIOS und SOG

äquivalent. Allerdings ist die Repräsentation des Korpus als Graph im

SOG- Ansatz weniger wichtig als dies bei ADIOS der Fall ist, da der Graph

zur Hypothesenbildung nicht benötigt wird. Sie ist dennoch nützlich,

denn sie ermöglicht es, komplexe Beziehungen zwischen verschiedenen

Wörtern, Wortket ten oder Paradigmen leicht abzubilden, zu erkennen

oder zu modifizieren und bietet gleichzeitig auch die Möglichkeit,

Ausschnitte des Korpus zu jeder Zeit zu visualisieren, was Konzeption,

22 Die Lemmatisierug wird vom Preprocessor des Semald- Projekts übernommen, vgl.Kapitel 4.1 .

- 25 -

Evaluation und Dokumentation äußerst zuträglich ist. Erst in Kapitel 5

wird sich zeigen, dass die Repräsentation des Datenmodells als Graph

weitere Perspektiven ermöglicht, die über die hier beschriebenen Ziele

hinausgehen. Da sich die Strukturierung dieses Kapitels an dem

Programmablauf des SOG- Algorithmus orientiert, soll Abbildung 8 hier

zunächst eine grobe Orientierung bieten.

Abbildung 8 Schematische Darstellung des Program m ablaufsvon SOG.

Auf die Schritte 1 und 2 soll nicht ausführlich eingegangen werden, da es

sich dabei – im Kontext dieser Arbeit – nur um Vorarbeiten handelt, die

vor der eigentlichen Datenprozessierung ausgeführt werden müssen.

Stattdessen sollen in Kapitel 3.1.1 und 3.1.2 die Schritte 3 und 4 erläutert

werden, die in ihrer Bedeutung für SOG in etwa mit der Bedeutung der

Alignment - Phase im ABL- Algorithmus zu vergleichen sind, während

Schritt 5, vergleichbar mit der Bracket - Selection - Phase von ABL oder der

Substituierung Wortketten durch Äquivalenzklassen in ADIOS, in Kapitel

3.1.3 beschrieben wird. Details zur Implementation (die in der

Programmiersprache Java durchgeführt wurde) sollen in diesem Kapitel

nicht erwähnt werden, da sie für das Verständnis des Algorithmus nicht

notwendig sind – Quellcode und weitere Informationen über die

Testumgebung finden sich jedoch auf der beiliegenden CD und in Anhang

- 26 -

Hypothesen-Extraktion

Filter-Anwendung

Hypothesen-Integration

Präprozessierung

Graphen-Erzeugung

Hypothesen integriert?Ja

Nein

max. Schranke erreicht?Ja

Nein

Schrankenmodifikation

Programm beenden

1

2

3

4

5

6

7

C.

3.1 Details des SOG-Algorithmus

3.1.1 Erkennung paradigmatischer Relationen

In diesem Schritt sucht der SOG- Algorithmus nach partiell redundanten

Sätzen, indem jeder Satz des Korpus mit jedem anderen Satz verglichen

und dabei nach Wörtern und Wortketten gesucht wird, die in beiden

Sätzen identisch sind. Bedingt durch die Datenstruktur finden sich dabei

immer mindestens zwei solcher Elemente, denn die funktionalen Knoten

START und END kennzeichnen die Grenzen jedes Satzes. Wird zusätzlich

noch mindestens ein weiteres Element gefunden, das in beiden Sätzen

enthalten ist, so besteht die Möglichkeit, dass zwischen den nicht -

redundanten Elementen (bzw. Elementket ten ) der Sätze paradigmatische

Relationen vorliegen. In dem Beispiel in Abbildung 9 ist dies der Fall: Die

mit den Satznummern 1 und 2 gekennzeichneten Pfade enthalten 5

gemeinsame Knoten, die von dem betrachteten Teilgraphen zwei nicht -

redundante Pfadgruppen abspalten.

Abbildung 9 Redundante Knoten und ihr Einfluß auf die Paradigmenerkennung

Damit hat der Algorithmus erste Indizien dafür gefunden, dass es sich bei

- 27 -

START der

mann

gab seiner

freundin die tasche

END

tante einen kuss

1: 1,2: 1

1: 2 1: 31: 4,2: 4

1: 5 1: 8

2: 5 2: 8junge

2: 2 2: 3

partiell redundante Satzteile

1:6 1: 7

2:6 2:7

[mann | junge ] und [{freundin die tasche } | {tante einen kuss }]23 um

Paradigmen handeln könnte. Zudem werden jedoch auch alle weiteren

Pfadgruppen durch SOG extrahiert, die von redundanten Elementen

umschlossen werden, wie dies bspw. für [{der mann } | {der junge }], [{der

mann gab } | {der junge gab }] oder [{seiner freundin die tasche } | {seiner

tante einen kuss }] gilt. So werden – mit Ausnahme von nicht weiter

prozessierbaren, leeren Paradigmen (wie zwischen START und der ) und

dem größtmöglichen Paradigma (beide Pfade zwischen START und END) –

alle auf diese Art und Weise zu bildenden Hypothesen konstruiert und

gesammelt.

Dieses Vorgehen ähnelt den auf SET aufbauenden Verfahren wie dem

ABL- Algorithmus oder dem SP- Modell. Im Unterschied zu SET wird hier

jedoch implizit von den potentiellen Grenzen zweier Phrasen auf die

entsprechende Operation (bei der es sich ebenfalls um Einfügen, Löschen

oder Ersetzen handeln kann) geschlossen. Dies hat bezüglich der Laufzeit

große Vorteile, weil lediglich die Schnittmenge der Wörter zweier Sätze

ermittelt werden muss, während ein SET- Algorithmus i.d.R. sämtliche

Operationen berechnen muss, um die optimale Transformation zu finden.

Zwar werden so nicht alle denkbaren Zuordnungen gefunden – SET-

Implementierungen liefern auch dann Ergebnisse, wenn beide Sätze kein

gemeinsames Wort enthalten (wobei in diesem Fall ausschließlich

Ersetzungsoperationen durchgeführt werden) – jedoch ist dies für den

weiteren Verlauf des SOG- Algorithmus nicht weiter von Bedeutung, da

ein gemeinsamer Kontext zweier Phrasen für die Berechnung der Qualität

einer Hypothese zwingend erforderlich ist. Die Güte einer Hypothese wird

– wenn Xn ,Xn−1 ,... ,X1 die gemeinsamen Wörter vor den auf

paradigmatische Relation zu prüfenden Phrasen repräsentieren und

Y1, Y2, ... , Ym die gemeinsamen Wörter danach – berechnet wie in (3).

23 Zur Notation: Im Folgenden werden Paradigmen innerhalb eckiger Klammerndargestellt und die einzelnen Elemente des Paradigmas durch senkrechte Striche(entsprechend dem in Programmiersp rachen verbreiteten Symbol für das logische„oder“) voneinander getrennt. Falls verdeutlicht werden muss, dass eine Wortketteals eine sequentielle Einheit interpretier t wird, so wird diese durch geschweifteKlammern gekennzeichnet.

- 28 -

(3) ∑i=1

n

R Xi∗2i−1∑j=1

m

R Y j∗2 j−1

Die Funktion R X steht dabei für den Rang des Wortes X – dies ist ein

korpusabhängiger Wert, der sich reziprok proportional zur Häufigkeit

des Wortes X verhält, d.h. das Wort mit den meisten Vorkommen

bekommt den Wert 1 zugewiesen, das zweithäufigste 2 usw. (vgl. für

einen Überblick über die 50 häufigsten Wörter der hier untersuchten

Korpora Anhang A).

Die Formel (3) kombiniert bei der Berechnung der Qualität einer

Hypothese zwei Faktoren: Zum einen wird durch die Berücksichtigung

des Rangs nicht lediglich die Länge des gemeinsamen Kontexts

betrachtet, so dass eine kontextsensitivere Abschätzung durchgeführt

werden kann. Es lässt sich beispielsweise nicht beobachten, dass eine

paradigmatische Relation immer dann vorliegt, wenn zwei Phrasen die

Eigenschaft teilen, zwischen den hochfrequenten Wörtern die und der

vorkommen zu können, während davon auszugehen ist, dass zwei

Phrasen, die zwischen die und forderte vorkommen, häufiger in

paradigmatischer Relation stehen – je seltener die Wörter im Kontext

einer Hypothese sind, desto höher wird die Hypothese bewertet.

Zum anderen bewirken die Faktoren 2i−1 bzw. 2 j−1 in (3), dass die

Länge des gefundenen Kontexts exponentiell in die Berechnung der

Qualität mit einfließt. Wenn innerhalb eines Satzes verschiedene

Hypothesen miteinander bezüglich des Kontexts konkurrieren (wie die

aus Abbildung 9 hergeleiteten Hypothesen [{der mann gab } | {der junge

gab }] und [mann | junge ]), so wird durch diese Faktoren zugleich auch

erreicht, dass die kürzere Hypothese von SOG präferiert wird, da

zwangsläufig der gemeinsame Kontext dieser Hypothesen größer sein

muss (vgl. Abb. 9).

Die Güte einer Hypothese hängt also sowohl von der Länge des

gemeinsamen Kontexts als auch von der Relevanz der dort

vorkommenden Wörter ab und ist theoretisch nach oben unbegrenzt.

- 29 -

Dies ist ein wesentlicher Vorteil gegenüber Ansätzen wie HAL, die mit

einem Kontextfenster fester Breite arbeiten (vgl. Burgess et al. 1998:6),

denn die Wahrscheinlichkeit, zwei paradigmatische Phrasen mit „sehr

großem“ gemeinsamen Kontext zu finden, ist zwar relativ gering, die

Wahrscheinlichkeit, dass diese Phrasen tatsächlich in paradigmatischer

Relation stehen, jedoch umso höher 24 . Zudem ist anzumerken, dass in (3)

weder der Inhalt der potentiellen Paradigmen noch deren Länge

berücksichtigt wird. Dies ermöglicht SOG, Paraphrasen und

kollokationsähnliche Strukturen in die Suche nach paradigmatischen

Relationen mit einzubeziehen, was in anderen Modellen (wie bspw.

ADIOS, vgl. Kapitel 2.3 , S. 22 ) nicht möglich ist. Allerdings wird das

Ergebnis der Berechnung aus (3) mit einigen strukturbezogenen Regeln

und Filtern kombiniert, so dass weitere Faktoren in den

Entscheidungsprozess des Programms mit einfließen – auch bei

Hypothesen, die eine sehr schlechte Bewertung bekommen, d.h. diese

werden nicht unmittelbar verworfen, sondern in der weiteren Analyse,

nachdem jeder Satz mit jedem anderen Satz verglichen wurde,

berücksichtigt 25 .

3.1.2 Filterfunktionen

Im vorigen Kapitel wurde die Generierung von Hypothesen beschrieben,

m.a.W. die Extraktion der weiter zu untersuchenden Strukturen. In

diesem Kapitel soll nun erläutert werden, wie sich die Masse der

generierten Hypothesen wieder einschränken lässt, um gute Hypothesen

von schlechten zu trennen. Einige der hier vorgestellten Filter lassen sich

24 In Kapitel 4.1 wird sich zeigen, dass sich die Wahrscheinlichkeit, solche Phrasen zufinden, durch „geeignete Wahl“ des Korpus jedoch erhöhen lässt.

25 Dieses Vorgehen, d.h. die Berücksichtigung aller ermittelten Hypothesen, führt in derpraktischen Anwendung allerdings dazu, dass sehr viel Speicherplatz durch dasProgramm belegt wird. Daher lässt sich durch einen Grenzwert eine minimaleQualität festlegen, die eine Hypothese aufweisen muss, um weiterhin berücksichtigtzu werden. Diese kann jedoch deutlich niedriger sein als die Grenze, ab der eineHypothese als gültig interpretiert wird und – wenn der verfügbare Arbeitsspeicherdies zulässt – sogar den Wert 0 haben, so dass obige Aussage uneingeschränktzutrifft.

- 30 -

bereits während der Generierungsphase anwenden, Abbildung 8 (auf Seite

26 ) abstrahierte von dieser Unterteilung, die funktional auch keine

Auswirkung auf die Arbeitsweise von SOG hat, sondern lediglich die

Implementa tion des Programms betrifft.

Verschiedene Struktureigenschaften lassen sich nutzen, um weitere

Vermutungen über die Qualität einer Hypothese aufzustellen. So werden

zwei Sonderfälle bei der Prozessierung berücksichtigt, die abhängig von

der Wortkettenlänge sind:

Falls beide Wortketten maximal die Länge 1 haben, lässt sich auch der

Rang beider Wörter vergleichen bzw. untersuchen. Dabei ist es zum einen

unwahrscheinlich, dass zwei hochfrequente Wörter in paradigmatischer

Relation stehen, zum anderen ist es unwahrscheinlich, dass ein

hochfrequentes Wort fakultativ ist (vgl. die Liste der hochfrequenten

Wörter in Anhang A). Sinclair (1991:83) vermute t, „that quite a few of the

very common words in a language are so unlike the others that they

should be considered as unique, one- member word classes “, was sich mit

dieser Beobachtung deckt.

Aus diesem Grund, d.h. um sicherheitshalber zu vermeiden, dass der

Algorithmus durch Bildung von Paradigmen aus funktionalen Elementen

in weiteren Iterationen schwerwiegende syntaktische Fehler macht,

wurde ihm eine Filterfunktion hinzugefügt, welche Paradigmen ablehnt,

wenn beide Wörter einen Rang < 50 besitzen 26. Dies ist ein willkürlich

festgelegter Grenzwert, der einer statistischen, korpusbezogenen

Berechnung jedoch vorgezogen wurde – während der Entwicklung von

SOG ließen sich dadurch verschiedene Grenzwerte testen, ebenso wie die

Ergebnisse der Prozessierung verschiedener Korpora unabhängig von

einem variierenden Grenzwert verglichen werden konnten (vgl. auch

Kapitel 4.2 und 6).

Weiterhin werden Paradigmen dann abgelehnt, wenn sich Teile der Ketten

26 Dies ist eine indirekte Parallele zwischen SOG und dem SP- Modell. So erläutertDennis (2003), wie eine heuristische Variante des SET- Algorithmus die von SPMbenötigte Rechenzeit verringern kann, indem nur Wortketten betrachtet werden, diezwischen den 200 häufigsten Wörtern stehen. Zwangsläufig ergibt sich daraus, dasshochfrequente Wörter in diesem Fall nicht von SPM in paradigmatische Relationgesetzt werden können.

- 31 -

in ihrer Distribution nicht komplementär verhalten, d.h. wenn Wörter, die

innerhalb einer Kette vorkommen, nicht in der anderen Kette, wohl aber

in deren Restsatz vorkommen, als Beispiel in (4a) und (4b), allgemein in

(4c) und (4d) dargestellt.

(4a) Der Mann { besucht gerne } seine Kinder,

wenn er darf.

(4b) Der Mann { hatte } seine Kinder besucht ,

wie immer.

(4c) ... X1 { Y1 Y2 } X2 ...

(4d) ... X1 { Y3 } X2 Y1 ...

Das Paradigma [{besucht gerne} | {hatte}] bzw. [{Y1 Y2} | {Y3}] ist

offensichtlich falsch, grundsätzlich (wie in obigem Beispiel) ist es in

solchen Fällen möglich, dass die syntaktische Struktur der Sätze derart

voneinander abweicht, dass durch einen Austausch von {Y3} durch {Y1 Y2}

die von SOG konstruierte Phrase (4d')ungrammatisch wird, da das

Element Y1 in (4d') zweimal auftauchen würde.

(4b') Der Mann [{besucht gerne} | hatte] seine Kinder besucht , wie

immer.

(4d') X1 [{Y3} | {Y1 Y2}] X2 Y1

Dies ist selbstverständlich nicht immer der Fall, da sich jedoch aufgrund

der iterativen Methodik des Algorithmus Fehler potenzieren , ist eine

niedrige Fehlerquote, d.h. eine hohe Precision , insbesondere zu Beginn der

Datenprozessierung wichtiger als eine hohe Quote in der Erkennung

valider Paradigmen (Recall).

Zwar hier ließe sich der Rang der Wortkette auch hier verwenden, um die

Wahrscheinlichkeit einer solchen Bewegung abzuschätzen, denn die

Wahrscheinlichkeit, dass hochfrequente Wörter (wie z.B. Artikel) in einem

Satz mehrmals vorkommen dürfen (und somit keine Verletzung einer

Bewegungsregel vorliegt) ist höher als die für seltene Wörter – allerdings

- 32 -

sind beispielsweise auch Auxiliare hochfrequent, und falsche Annahmen

über diese würden die syntagmatische Struktur eines Satzes stark

beeinträchtigen, so dass eine ausschließliche Berücksichtigung des Rangs

hier nicht ausreicht und Hypothesen wie in (4) immer verworfen werden.

Wie bereits erwähnt, lässt das SOG- Modell zu, dass eine der beiden

Wortketten eines Paradigmas leer sein kann. In diesem Fall handelt es

sich zwar nicht um ein Paradigma im in Kapitel 1.3 definierten Sinn, denn

die symmetrisch formulierte Forderung der Substituierbarkeit beider

Ketten gilt hier nicht zwangsläufig und die Vorstellung, eine Wortkette

stünde in paradigmatischer Relation zu einer leeren Kette , ist zudem

nicht besonders intuitiv. Andererseits gleicht die algorithmische

Behandlung solcher Konstruktionen (im Folgenden als Null- Paradigmen

bezeichnet) im wesentlichen der gewöhnlicher Paradigmen 27 , weshalb kein

weiterer Datentyp in das Modell eingeführt wurde. Zur Kennzeichnung

wird die leere Kette durch den funktionalen Knoten NOTHING dargestellt

(im Text dieser Arbeit auch durch ∅ dargestellt). In der Praxis zeigte

sich das Problem, dass sich die Ersetzung des Elements ∅ durch die

entsprechende nicht - leere Kette zwar oftmals korrekt war, in folgenden

Programmiterationen jedoch zu Problemen führte. Daher werden für

Null- Paradigmen zum einen härtere Schranken gesetz t, außerhalb der

diese abgelehnt werden 28 , zum anderen werden sie in der

Integrationsphase nur einseitig eingesetzt, so dass das nicht - leere

Element als fakultativ gekennzeichnet, die Leerstelle jedoch nicht durch

das Paradigma ausgetauscht wird 29 . Anhand dieser Null- Paradigmen zeigt

sich, wie bereits in Kapitel 1.3 angedeutet, dass SOG prinzipiell dazu in

der Lage wäre, Transformationen zwischen zwei Sätzen zu erkennen.

Werden in zwei Sätzen, wie bspw. in (5), zwei identische Null- Paradigmen

gefunden (was gleichzeitig eine Anwendung des oben beschriebenen

Distributionsfilters verursacht, in der hier vorgestellten Version von SOG

27 Insbesondere dann, wenn ein Paradigma mehr als zwei Wortketten enthält, wieTabelle 2 auf Seite 38 veranschaulicht.

28 Dies betrifft zum einen die Filterung anhand hochfrequenter Wörter, zum anderendie Integration solcher Paradigmen in das Datenmodell.

29 Weitere strukturelle Probleme mit Null- Paradigmen beschreibt auch van Zaanen(2004) und handelt ähnlich pragmatisch, indem er sie ebenfalls nicht weiter durchABL verarbeiten lässt.

- 33 -

werden solche Strukturen folglich nicht näher betrachtet), so lässt sich

aus der daraus folgenden Konstruktion (5c) auf die Existenz einer

Transformationsregel schließen, durch die (5a) in (5b) überführ t werden

kann.

(5a) START weil er die kinder besucht hat END

(5b) START er hat die kinder besucht END

(5c) START [weil | ∅ ] er [ ∅ | hat] die kinder besucht [ ∅ | hat]

END

Dieser Vermutung wird hier nicht weiter nachgegangen, sie bietet jedoch,

insbesondere auch im Kontext von Kapitel 5, einen interessanten

Ausgangspunkt für weitere Untersuchungen und Verbesserungen von

SOG.

Wie bereits im vorherigen Kapitel erwähnt, werden paradigmatische

Relationen, die nicht in der Erkennungsphase durch Filterfunktionen

abgelehnt wurden, zunächst gesammelt, bis jeder Satz einmal mit jedem

anderen Satz verglichen wurde. Sollten dabei bereits vermutete

paradigmatische Abhängigkeiten zwischen zwei Wortketten ein weiteres

Mal generiert werden, so werden die neuen Informationen der bereits

existierenden Hypothese hinzugefügt – unabhängig davon, ob es sich um

einen(teilweise) unterschiedlichen Kontext handelt oder nicht 30 . Dies hat

insbesondere auf die abschließende Bewertung einer Hypothese, die im

folgenden Kapitel näher erläutert wird, starke Auswirkung, denn so wird

ermöglicht, dass SOG auch dann von einer paradigmatischen Relation

zwischen zwei Wortketten in zwei Sätzen ausgeht, wenn der gemeinsame

Kontext in diesen Sätzen dies nicht zulassen würde, Fundstellen in

anderen Sätzen eine paradigmatische Abhängigkeit dieser Wortketten

jedoch besser belegen. In diesem Zusammenhang ist ein letzter Filter

erwähnenswert, der im Gegensatz zu den bisher beschriebenen Filtern

positiv auf die Bewertung einer Hypothese wirkt: Wenn der gemeinsame

Kontext einer Hypothese die funktionalen Knoten START und END

30 Die Informationen über den Kontext werden selbstverständlich auch gespeichert.

- 34 -

enthält (und somit den gesamten Satz umfasst), so lässt sich daraus

folgern, dass diese (zumindest bezüglich der Substituierbarkeit) valide

sein muss. Die abschließende Bewertung der Hypothese wird daraufhin

stark positiv beeinfluss t.

3.1.3 Integration paradigmatischer Strukturen

Nach Abschluss der Filteranwendung muss SOG entscheiden, welche

verbliebenen Paradigmen in den Graphen übernommen werden sollen.

Dazu wird ein relativ simples Wertungssystem genutzt: Für verschiedene

positive Eigenschaften der jeweiligen Hypothese werden Punkte verteilt,

für negative Eigenschaften werden Punkte abgezogen (vgl. Tabelle 1).

Bedingung Effekt

Kontextlänge in allen Kontexten auf beiden Seitennur 1

- 1

Ein Kontext enthält START und END +1

Qualität aus Funktion (3) > 10.000 +1

Qualität aus Funktion (3) > 100.000 +1

Anzahl unterschiedlicher Kontexte > 2 +1

Ein Kontext beidseitig länger als 4 +1

Tabelle 1 Zweite Bewertung von Hypothesen

Die Bedingungen, die in der zweiten Bewertung überprüf t werden, sind

satzunabhängig formuliert, d.h. es genügt, wenn eine Hypothese in einem

gefundenen Kontext die Knoten START und END enthält, um dafür eine

positive Bewertung zu erhalten, unabhängig von allen weiteren

gefundenen Kontexten. Dadurch wird der theoretisch unbegrenzt große

Wertebereich der in Kapitel 3.1.1 beschriebenen Bewertungsfunktion (3)

in ein Stufenmodell abgebildet, in welchem gleichzeitig weitere

Eigenschaften einer Hypothese (wie die Anzahl unterschiedlicher

Kontexte) berücksichtigt werden. Dies ermöglicht es zum einen,

zusätzliche Filter schnell an SOG anzufügen und ihre Auswirkung zu

analysieren, zum anderen lässt sich so leichter eine grobe qualitative

- 35 -

Aufteilung der Menge aller Hypothesen durchführen. Hypothesen, denen

weniger als 2 Punkte zugewiesen wurden, werden verworfen, während

Hypothesen mit mehr als zwei Punkten übernommen werden.

Hypothesen, die genau zwei Punkte zugewiesen bekamen, werden einer

weiteren Beurteilung (durch das in SOG integrierte Agentensystem,

welches in Kapitel 3.3 vorgestellt wird) unterzogen, deren Ergebnis

darüber entscheidet, ob die jeweilige Hypothese in den Graphen

übernommen werden soll oder nicht 31 .

Anschließend werden die übrigen Paradigmen satzweise integriert, d.h.

für jeden Satz wird eine absteigend nach (von Formel (3) berechneter)

Qualität geordnete Liste von Paradigmen erzeugt – implementiert als

Objekte des Typs ParadigmaticHypothesis (PH) – die der Reihe nach die

entsprechenden Wortketten im Satz ersetzen. Da PHs sich teilweise

überschneiden können (vgl. Kapitel 3.1.1 ), ist die Integration nicht für

jedes Objekt möglich, da jedoch zunächst die besten Paradigmen gewählt

werden, beeinträchtigt dies den Programmablauf nicht 32 . Erwähnenswert

ist bei der Paradigmenintegration , dass die Qualität eines Paradigmas wie

in der Bewertung durch das Stufenmodell satzunabhängig berechnet

wird, denn Grundlage für die Sortierung der Liste ist der jeweils beste für

eine Hypothese berechnete Wert.

Die Integration geschieht jedoch nicht grundsätzlich für alle Vorkommen

der Wortketten im gesamten Graphen, sondern nur für die von SOG als

paradigmatisch interpretierten Ketten in den entsprechenden Pfaden. Die

Feststellung, dass eine Wortkette sowohl unterschiedliche syntaktische

Funktion haben als auch semantisch ambig sein kann, also mehrere

Bedeutungen besitzen und somit in verschiedenen Paradigmen

auftauchen kann, wird dadurch ebenso berücksichtigt wie im ADIOS-

Modell, d.h. die hohe Kontextsensitivität des ADIOS- Ansatzes ist auch

31 Das Stufenmodell ist analog zu dem im vorigen Kapitel vorgestellten rangbasiertenFilter zu kritisieren – auch hier handelt es sich um relativ willkürliche gewählteGrenzwerte. Allerdings wird hier nur eine grobe Aufteilung der Hypothesenvorgenommen, um gute und schlechte Hypothesen von fraglichen Hypothesen zutrennen – dies technisch notwendig, da nicht alle Hypothesen in akzeptabler Zeitdurch das Agentensystem überprüf t werden können.

32 Es handelt sich hier nicht um ein Maximierungsproblem – es ist nicht unmittelbaresZiel des Algorithmus, möglichst viele Paradigmen in einen Satz zu integrieren, umihn bzgl. der Qualität der Summe der Paradigmen zu optimieren.

- 36 -

hier gegeben.

Die Kontextsensitivität des SOG- Modells wird jedoch gleichzeitig wieder

zugunsten einer Generalisierung abgeschwächt, denn durch die

satzunabhängige Berechnung der Qualität der Paradigmen ist es möglich,

paradigmatische Beziehungen auch dann zu vermuten, wenn dies die

Kontextinformationen in einem Einzelsatz nicht zulässt.

Es ist ebenfalls möglich, dass identische Wortketten unterschiedlich

segmentiert werden: Da grundsätzlich nur Satzpaare verglichen werden,

kann sowohl der gemeinsame Kontext einer in mehreren Sätzen

enthaltenen Wortkette als auch die als paradigmatisch erkannte Teilkette

von Satz zu Satz variieren, wie (6) veranschaulicht:

(6) [ {[ ∅ | weißer] bruder ]} | {bruder {old shatterhand }} | {weißer

bruder}}]33

Die Wortkette weißer bruder ist hier durch SOG einmal als Einheit und

einmal als Komposition mit fakultativ gekennzeichnetem Adjektiv

interpretiert worden. Deligne und Sagisaka (1998:1) bezeichnen ein

solches Verhalten als nicht - deterministisch, denn

even if phrase abc is registered as a phrase, the possibility of parsingthe string as, for instance , [ab ] [c] still remains. By contrast , in adeterministic approach, all co - occurrences of a , b and c would besystematically interpreted as an occurrence of phrase [abc ].

Nachteilig an diesem Vorgehen ist – wie (6) ebenfalls zeigt - jedoch, dass

syntagmatisch - paradigmatische Strukturen relativ leicht inkompatibel

zueinander werden können – auch dann, wenn sie eigentlich gleich oder

ähnlich aufgebaut sein sollten. In (6) wäre es wünschenswert, wenn die

Sequenz {weißer Bruder } durch die verschachtelte Konstruktion ersetzt

33 Hierbei handelt es sich um ein von SOG generiertes Paradigma. Um zu kennzeichnen,dass es sich im Gegensatz zu manuell konstruierten Beispielen um ein „echtes“Beispiel handelt, wird hier und im Folgenden die ID, die SOG dem jeweiligenParadigma zugewiesen hat, zusammen mit einem Kürzel für die Kombination vonKorpus, maximaler Paradigmenlänge und Iteration angegeben – dies ermöglicht esauch, die Beispiele in den SOG- Daten auf der CD zu identifizieren. In (6) handelt essich um Paradigma 1145 aus der Prozessierung des May- Korpus mit maximalerLänge 3 und Subiteration 3, abgekürz t als May/3 /3:1145.

- 37 -

würde, und optimal wäre es wohl, wenn SOG (6) in (6 ') überführen würde.

(6 ') {[ ∅ | weißer] bruder} {[ ∅ | {old shatterhand}]}

Dafür müsste das SOG- Modell um eine weitere, restrukturierende

Komponente erweitert werden, die strukturell oder inhaltlich ähnliche

Paradigmen analysiert und, falls Ähnlichkeit von Struktur und

Verwendungsweise groß genug sind, in einem Paradigma neu und

optimiert zusammenfasst . Dies wurde in dieser Arbeit nicht versucht,

doch für eine Verbesserung der Ergebnisse wäre ein solches Vorgehen

notwendig.

Ansatzbedingt werden immer nur zwei Wort - bzw. PH- Ketten

zusammengefass t. Dieses Verhalten ist erwünscht, da sich andernfalls

schnell Paradigmen bilden würden, deren einzelne Elemente sehr

unterschiedlich sind. Um die Produktivität des Algorithmus zu erhöhen

und die Gesamtlaufzeit des Programms zu beschleunigen, könnte jedoch

in einem weiteren Programmschrit t versucht werden, ausgehend von den

beiden Ketten K1 und K2 der jeweiligen PH, Cliquen 34 von weiteren

substituierbaren Ketten zu finden. Dies könnte geschehen, indem

zunächst alle PH- Objekte, in welchen K1 oder K2 ebenfalls vorkommen,

gesammelt werden und anschließend versucht wird, eine Clique in dieser

Menge zu finden. Beispielsweise fand SOG für die Hypothese [stieg |

kletterte ] im SZ- Korpus noch folgende gemeinsame PH- Objekte:

K1 (stieg) K2 (kletterte)

[stieg | sank ] [kletterte | sank]

[stieg | fiel] [kletterte | fiel]

Tabelle 2 Aus SOG- Daten manuell erzeugtes Beispiel einer Cliquenbildung

Theoretisch ließe sich an Stelle der einzelnen PHs direkt die Hypothesen -

34 Der Begriff Clique ist aus der Graphentheorie übernommen. Er bezeichnet einenTeilgraphen mit einer vollständig zusammenhängende Menge von Knoten, d.h.zwischen je zwei Knoten einer Clique existiert eine Kante.

- 38 -

Clique [stieg | sank | kletterte | fiel] in den Graphen einsetzen, in dieser

Arbeit wurde lediglich ein Modul zur Cliquen bildung implementiert, die

gefundenen Cliquen wurden jedoch nicht in den Graphen integriert,

sondern nur in einer Textdatei ausgegeben (vgl. Anhang B).

3.1.4 Rekursivität der Datenstrukturen

An dieser Stelle soll kurz näher auf die Datenstruktur von PHs

eingegangen werden, um die sich daraus ergebenden Möglichkeiten zu

erläutern: PHs enthalten als Container für paradigmatische Ketten

ebenfalls einen Graphen, in dem die einzelnen Ketten als Pfade zwischen

den Knoten START und END abgebildet sind. Im Unterschied zum

„Korpusgraphen “ sind die Knoten eines Pfades jedoch gekapselt in einem

Objekt des Typs SyntagmaticHypothesis (SH). Dies ist zum einen eine aus

linguistischer Sicht konsequente Behandlung des Problems, da eine

paradigmatische Relation zwischen zwei Wortketten eine syntagmatische

Äquivalenz beider voraussetz t (zumindest in funktionaler Interpretation,

wie in Kapitel 1.3 erläutert), die somit auch abgebildet wird, zum anderen

wird so eine Restrukturierung der Wortketten erleichtert, falls der

Algorithmus Phänomene entdeckt, die eine solche erfordern: PHs

enthalten ausschließlich in paradigmatischer Relation stehende SHs, und

SHs enthalten ausschließlich in syntgmatischer Relation stehende, lineare

Ketten von Wörtern, PHs und SHs. Dies lässt sich sowohl an (6) als auch

an Abbildung 10 erkennen.

- 39 -

Abbildung 10 Typrekursivität in SOG (SZ/6 /3:2073). Die beiden PHs sinddunkelgrau, die SHs hellgrau markiert. Das Wort spd stand in Klammernhinter dem Namen – Satzzeichen werden von SOG jedoch nichtübernom m e n (vgl. Kapitel 4.1 ).

So ist neben der Wiederverwendung verschiedener den Graphen

modifizierenden Methoden eine rekursive Strukturierung möglich,

während auftretende Such- , Entscheidungs - und Optimierungsmethoden

sowohl transparent als auch effizient implementiert werden können. Die

Mächtigkeit des Modells ist den Ansprüchen somit mehr als genügend,

und da es sich trotzdem nur um einen Graphen (und somit um ein Netz)

handelt, in welchem vier Knotentypen (Wort, PH, SH und funktional)

unterschieden werden, lässt es sich leicht in eine alternative Graphen -

bzw. Netzstruktur wie bspw. in eine TopicMap 35 oder in das (im Rahmen

des Semantic Web propagierte) RDF- Format 36 konvertieren, wodurch sich

ein breites Feld zusätzlicher Hilfsmittel sowohl für Generierung als auch

für Wissensextraktion öffnet. Da die Pfade in PHs und SHs analog zum

Korpusgraphen mit Satz- und Wortnummern ausgezeichnet werden, ist

außerdem zu jeder Zeit eine ursprüngliche (Teil- ) Wortkette

rekonstruierbar, so dass das System informationserhal tend 37 arbeitet.

35 www.topicmaps.org36 www.w3.org /RDF, zum Semantic Web www.w3.org /2001 / sw /37 In der im Rahmen dieser Arbeit implementier ten Version gibt es dann einen

Informationsverlust, wenn ein Paradigma mehr als einmal in einen Satz integriertwird, wie dies bspw. bei Personennamen leicht der Fall ist („[Schröder | Müntefering]und [Schröder | Müntefering] sprachen von ...“). Dies ist jedoch lediglich eintechnisches Problem, dessen Lösung Laufzeit und Speicherbedarf des Programmsetwas verschlechtern würde.

- 40 -

der verteidigungsminister

rudolf scharping spd

bundesverteidigungsminister

verteidigungsminister

3.1.5 Fähigkeiten von SOG

Wenn der Algorithmus mit der Integration der Paradigmen den letzten

Schritt abgeschlossen hat (vgl. Abbildung 8 auf Seite 26 ), beginnt er, ggf.

mit modifizierten Schranken 38 , erneut bei Schritt 1. Im Unterschied zur

ersten Iteration arbeitet er jedoch nicht mehr ausschließlich mit Wort-

bzw. Zeichenketten, sondern eben auch mit PHs und SHs. Dies hat zwei

wesentliche Auswirkungen: Zum einen können, wie in Kapitel 3.1.1

beschrieben, nun auch zwei PHs zu einem neuen Paradigma

verschmolzen werden, so dass die Anzahl von Wortketten in einer PH

zunimmt, zum anderen werden auch neue Paradigmen gebildet, die in der

vorherigen Iteration aufgrund einer zu niedrigen Qualität abgelehnt oder

aufgrund unterschiedlichen Kontexts gar nicht erst erkannt worden

waren. Dies zeigt sich anhand des Beispiels (7). Angenommen, die

Möglichkeit, aus den beiden Wortketten

(7a) X1 X3 Y1 X4

(7b) X1 X2 Y2 X4

das Paradigma [ {X3 Y1} | {X2 Y2} ] zu bilden, sei aufgrund niedriger

Qualität abgelehnt worden, und für (7a) wurde ein anderes Paradigma

gewählt, so dass (7a') nun die Form

(7a') X1 [X2 | X3] Y1 X4

besitzt, so ist dadurch gleichzeitig ein gemeinsamer Kontext von Y1 und

Y2 entstanden. Sätze bzw. Pfade werden sich also von Iteration zu

Iteration ähnlicher, semantisch und syntaktisch verwandte Pfade

gruppieren sich (daher auch die Bezeichnung Self- Organizing Graph).

Dies ist ein wesentlicher Unterschied zum ABL-Algorithmus, welcher sich

38 Verschiedene Parameter von SOG lassen sich durch eine Konfigurationsdateimanipulieren, zudem wird nach jeder Iteration der aktuelle Korpusgraph in dasArbeitsverzeichnis geschrieben, das bei erneutem Programmablauf wiedereingelesen werden kann. So lassen sich die Auswirkungen verschiedenerSchrankenwerte schnell vergleichen. Für Details siehe Anhang C.

- 41 -

darauf beschränkt, Wortketten dieselbe Kategorie zuzuweisen, statt diese

Ketten durch die Kategorie auszutauschen – und nebenbei wird SOG so

auch zu einem sprachgenerierenden System, wie Abbildung 11

veranschaulicht.

vergangenen

vorigen

kommenden

in der

woche

woche

hatte die allianz...

hatte pakistan vorübergehend...

die neue bundeslandwirtschaftsministerin...hatte

hat

Abbildung 11 Von SOG während der Prozessierungerkannte paradigmatische Beziehungen ermöglichendurch Substitution (begrenzte) Sprachgenerierung

In ADIOS hingegen besteht dieser Vorteil gegenüber ABL zwar auch, d.h.

ADIOS ist ebenfalls ein generierendes System, jedoch nicht in dem

Umfang, den das SOG- Modell bietet, denn Äquivalenzklassen in ADIOS

enthalten grundsät zlich nur Knoten, aber weder (Teil- ) Pfade noch leere

Ketten. Dementsprechend ist ADIOS nicht dazu in der Lage, fakultative

Elemente zu erkennen und auszuzeichnen, auch können unterschiedlich

lange Wortketten dort nicht grundsätzlich miteinander in eine

Äquivalenzklasse aufgenommen werden.

Ein wesentlicher Unterschied zwischen dem ABL-Algorithmus und SOG

besteht darin, dass ABL in der ersten Phase des Programmablaufs zum

Auffinden gemeinsamer Wortketten eine Implementa tion des SET

benutz t. Dieser findet die längsten gemeinsamen Teilsequenzen in zwei

Zeichenketten und bewertet die Nähe der Ketten anhand der Komplexität

der benötigten Verschiebe- , Lösch- und Einfügeoperationen (vgl. Kapitel

2.1 ). Dadurch ergeben sich jedoch zwei Mängel: Erstens ist SET auf den

Vergleich von linearen Zeichenketten beschränkt, während SOG, wie

- 42 -

zuvor dargestellt, auch Alternativen berücksichtigen kann und dadurch in

der Lage ist, in vorherigen Iterationen extrahiertes Wissen über

kategoriale Zusammenhänge aktiv in den Entscheidungsprozess mit

einfließen zu lassen. Dieser Nachteil von SET ließe sich zwar durch eine

Modifikation beheben, nicht jedoch der zweite Unterschied, der darin

besteht, dass SET nicht in der Lage ist, alle möglichen Wortketten - Paare

aufzufinden, sondern nur die „Besten“ erkennt (vgl. van Zaanen 1999:8),

während SOG lediglich die Paare ignoriert, deren Bewertung unterhalb des

angegebenen Schrankenwerts liegt. Da dieser auch den Wert 0 haben darf,

können somit alle erkennbaren Paare betrachtet werden. Zwar ist es, wie

bereits gezeigt, nicht sinnvoll, eine paradigmatische Relation zweier

Zeichenketten ausschließlich deshalb anzunehmen, weil diese zwischen

zwei hochfrequenten Wörtern (wie die und der ) liegen, als

Zusatzinformation ist dieses Wissen jedoch durchaus geeignet – wenn

bereits starke Vermutungen vorliegen, dass sich zwei Ketten in einem

oder mehreren Kontexten paradigmatisch verhalten, so lässt dies

vermuten, dass sie es im schlechter bewerteten Kontext ebenfalls sind.

SOG verzichtet auf heuristische Methoden, zwangsläufig ergibt sich

dadurch jedoch – wie auch beim ABL- Algorithmus – ein schlechtes

Laufzeitverhalten: Da prinzipbedingt jeder Satz mit jedem anderen Satz

verglichen werden muss, liegt die Laufzeit allein für die Erkennung

möglicher Paradigmen ungefähr bei O n2 , so dass die maximale

Inputlänge relativ beschränkt ist. Van Zaanen geht auf diesen Punkt nur

indirekt ein, indem er das Verfahren nur auf zwei kleine Korpora

angewendet (auf den aus 716 Sätzen bestehenden ATIS- Korpus und auf

eine 6797 Sätze große Auswahl des OVIS- Korpus, vgl. van Zaanen 1999)

und erwähnt: „For large corpora (say > 100K sentences) ABL is currently

not feasible“ (van Zaanen 2001:8). Auch die Entwickler des ADIOS-

Modells gehen auf dessen Laufzeitverhalten nicht näher ein,

beschränkten die Anzahl der zu verarbeitenden Sätze jedoch auf eine

Auswahl von 9665 Sätzen des CHILDES- Korpus (Solan et al.:2002) bzw.

erwähnen eine Laufzeit von über 2 Wochen für ca. 300.000 Sätze

- 43 -

(Edelman et al.:2004), bevor das Programm abgebrochen wurde, ohne

allerdings Hinweise auf die technische Infrastruktur zu geben.

In der hier vorgestellten Art und Weise sollte der Algorithmus, da er

kaum 39 sprachspezifische Annahmen oder Parameter berücksichtigt ,

relativ universell auch mit anderen Sprachen arbeiten (wobei zu erwarten

ist, dass die Ergebnisse schlechter werden, je freier die Möglichkeiten der

Wortstellung in einer Sprache sind). Andererseits ist auch offensichtlich,

dass SOG ohne Vorwissen nicht optimal arbeiten kann bzw. mit

Vorwissen besser arbeiten würde, denn ohne beispielsweise über eine

Methode zur Stammformreduzierung oder - bestimmung zu verfügen, ist

es ausgeschlossen, dass paradigmatische Relationen

flektionsformübergreifend gebildet werden können. Weder können neu

und neue in einer Kategorie auftauchen, noch Minister und Ministerin . Es

sollte jedoch möglich sein, solches Vorwissen automatisiert zu erzeugen

und dadurch die Kategorisierung zu generalisieren. Harris stellt ein

Verfahren vor, wie dies anhand von Übergangswahrscheinlichkeiten

zwischen Phonemen geschehen kann (Harris 1979:24ff) und die

Ergebnisse der Implementation dieser Idee durch Benden (2004) zeigen,

dass dies nicht nur theoretisch möglich, sondern auch praktisch

realisierbar ist. Allerdings weist Mason (2004:2 ) mit einem Beispiel darauf

hin, dass bereits „Varianten“ eines Wortes, die sich nur in ihrer Flektion

unterscheiden, bezüglich ihres Distributionsrahmens oft voneinander

abweichen: „eye and its plural form eyes are used in different contexts

and cannot be interchanged, yet they both share the word class 'noun'“.

SOG ist es zwar nicht möglich, Konstituententes ts durchzuführen, da der

Algorithmus über kein Vorwissen verfügt, so dass bspw. der

Pronominalisierungstest nicht anzuwenden ist, weil SOG nicht bekannt

ist, was ein Pronomen ist – aber falls das zu analysierende Korpus die

Ergebnisse solcher Tests enthält (z.B. die Sätze der Mann geht in die

Kirche und er geht in die Kirche ), erkennt SOG die Parallelität der

39 Mit Ausnahme der Annahme, dass es einen Zusammenhang zwischenhochfrequenten Wörtern und „Funktionswörtern“ gibt – dies muss nichtgrundsätzlich in jeder Sprache der Fall sein, ebenso wie auch die Erkennung vonWort- und Satzgrenzen nicht als universell zu betrachten ist.

- 44 -

Strukturen und lernt implizit aus dem jeweiligen Test. Die folgende

Tabelle veranschaulicht dies:

Test Beispiel Effekt

Ausgangssa

tz

Der Mann geht in die

Kirche.

Substitution Die Frau geht in die Kirche. Hypothesenbildung:[{Der Mann} | {Die Frau}]

Permutation In die Kirche geht der

Mann.

keine Hypothesenbildung wg. Bewegung,

aber Beleg für die Phrasalität von der Mann

und in die Kirche

Pronominali

- sierung

Er geht in die Kirche. Hypothesenbildung: [{Er} | {der Mann}]

Fragetest Wer geht in die Kirche? Beleg für Phrasalität, evtl.

Hypothesenbildung [{Wer} | {der Mann}]

Tilgung Der Mann geht. Hypothesenbildung: [{NOTHING} | {in die

Kirche}]

Koordinatio

n

Der Mann und eine Frau

gehen in die Kirche.

Hypothesenbildung: [{geht} | {und eine Frau

gehen}]

Tabelle 3 Konstituententests und ihr „Äquivalent“ in SOG

In natürlichsprachlichen Korpora ist es allerdings nicht zu erwarten, dass

die Sätze aus Tabelle 3 (oder ähnliche Sätze) dort enthalten sind .

Vielmehr besteht das grundsätzliche Problem, dass, wie groß auch immer

das Korpus sein mag, nur ein Bruchteil der potentiell aus dem Vokabular

des Korpus zu bildenden Sätze in diesem auch tatsächlich vorkommt. Da

„ähnliche Sätze“ jedoch Voraussetzung dafür sind, dass das SOG- System

befriedigende Ergebnisse generieren kann, soll dieses Problem im

folgenden Kapitel zunächst näher beschrieben werden, um daran

anschließend eine Methode vorzustellen, es zumindest teilweise (im für

SOG relevanten Rahmen) zu umgehen. Dies ist u.a. nur deshalb möglich,

weil SOG eine qualitative Analyse durchführt: Wie in Kapitel 3.1.1

dargestellt, basiert die Entscheidung darüber, ob zwei Wortketten als

paradigmatisch interpretiert werden oder nicht, im Wesentlichen nur auf

dem gemeinsamen Kontext der beiden Ketten und berücksichtigt nicht,

wie häufig diese Wortketten in paradigmatischer Relation gefunden

wurden. McEnery und Wilson (2003:76) kritisieren an qualitativen

- 45 -

Ansätzen zwar, „that their findings cannot be extended to wider

populations with the same degree of certainty with which quantitative

analyses can“, dies ist jedoch auch nicht das Ziel von SOG, vielmehr

sollen kontextsensitive Abhängigkeiten die Datenverarbeitung steuern –

Generalisierung ist nur ein zweitrangiges Ziel.

3.2 Das Data Sparseness Problem

Um die Qualität der von SOG generierten Hypothesen zu verbessern, wäre

es von Nutzen, die durchgeführten Ersetzungen überprüfen zu können.

Optimal wäre es, bei zwei Wortketten wie (8a) und (8c) (formal dargestellt

durch (8b) und (8d)) testen zu können, ob die Kette X1 P1 X2 auch im

Kontext von K3 K4 und die Kette X1 P2 X2 auch im Kontext K3 K4 auftreten

kann, m.a.W. ob die Neukombinationen von (8a) und (8c) zu den Sätzen

am nächsten morgen ging der mann in die schule und eines tages ging ein

junge in die bäckerei syntaktisch korrekt und akzeptierbar sind.

(8a) START eines tages ging der mann in die

bäckerei END

(8b) START K1 X1 P1 X2 K2 END

(8c) START am nächsten morgen ging ein junge in die

schule END

(8d) START K3 X1 P2 X2 K4 END

Diesen Test allerdings auf den untersuchten Korpusausschnitt

anzuwenden, wäre sinnlos, da SOG solche Sonderfälle bereits in der

Generierungsphase erkennt und schon bei ihrem Auftreten entsprechend

positiv berücksichtigt.

Alternativ würde es die These, dass eine paradigmatische Relation

vorliegt, untermauern, wenn eine X1 P1 X2 (bzw. X1 P2 X2) umschließende

Wortkette gefunden werden kann, die mit den letzten Elementen aus K3

(bzw. K1) beginnt und mit den ersten Elementen aus K4 (bzw. K2) endet.

- 46 -

Doch ist die Wahrscheinlichkeit, dass eine solche Kette im Korpus

gefunden werden kann, immer noch extrem gering: Unter der Annahme,

dass keine der Ketten leer ist, besteht jede Kette aus mindestens fünf

Wörtern. Dagan et al. verweisen auf eine Studie von IBM, in welcher ein

366 Millionen Wörter umfassendes Korpus benutz t wurde, um Tripel aus

anderen Quellen aufzuspüren und festgestellt wurde, „that one can

expect 14.7% of the word triples in any new English text to be absent

from the training sample“ (Dagan et al. 1998:2) . Es ist zu erwarten, dass

die Wahrscheinlichkeit, längere Wortketten einer im Gegensatz zum

Englischen stärker flektierenden und komponierenden Sprache wie dem

Deutschen in einem deutlich kleineren Korpus nicht wiederzufinden,

deutlich größer ist.

Um trotzdem eine Möglichkeit der Ergebnisverbesserung zur Verfügung

stellen zu können, wurde SOG der Zugriff auf externe, d.h. außerhalb des

untersuchten Korpusausschnitts liegende Datenquellen ermöglicht.

Während die Generierung von Hypothesen bedingt durch Laufzeit und

Speicherbedarf von SOG auf einen relativ kleinen Korpusausschnit t

limitiert ist, steht für die Suche nach Belegen 40 für eine Hypothese also

ein deutlich größeres Korpus zu Verfügung.

Zusätzlich ergibt sich durch die Bootstrapping - Fähigkeit und die Art der

Datenrepräsenta tion in SOG eine weitere Möglichkeit, Wortket ten zu

finden, die eine Hypothese bestätigen können, denn mit jeder Iteration in

SOG steigt die Anzahl der PHs im Graphen und somit auch die

Wahrscheinlichkeit, dass sich im Kontext der zu überprüfenden

Hypothese bereits PHs befinden. Somit wird nicht nur nach zwei

Wortketten gesucht, sondern – abhängig vom Kontext der jeweiligen

Hypothese – nach mehreren (bspw. dann, wenn in (8a) nicht die Wortkette

in die bäckerei , sondern die Hypothese { [{in die} | {zur }] } { [{bäckerei } |

{bücherei }] } stehen würde. In diesem Fall könnte der Austausch von der

40 Selbstverständlich lässt sich eine Hypothese im wissenschafts theoretischen Sinnnicht validieren sonder nur falsifizieren, jedoch ist dies hier nicht möglich, da dasSystem ohne menschlichen Eingriff auskommen soll und somit lediglich dieRückmeldungen „gefunden“ und „nicht gefunden“ gegeben werden können, die sichnicht auf „richtig“ und insbesondere „falsch“ übertragen lassen. Daher beruht dieValidierung hier auf einem „Indizienbeweis“: Werden Indizien für eine Vermutunggefunden, so wird die Vermutung als richtig interpretiert.

- 47 -

mann durch ein junge anhand von vier möglichen Wortketten getestet

werden).

Dieses Vorgehen ähnelt dem von Dagan et al., die zur Lösung des „Data

Sparseness“- Problems vorschlagen, nicht nur nach Wortpaaren, sondern

auch nach „ähnlichen“ Wortpaaren zu suchen, und dadurch deutliche

Verbesserung erzielen: „if word w'1 is „similar“ to word w1, then w'1 can

yield information about the probability of unseen word pairs involving

w1“ (Dagan et al. 1998:5).

3.3 SOG als Agentensystem

Die Idee, das im Internet verfügbare Material an Texten jeglicher

Kategorie für maschinelle Sprachverarbeitung einzusetzen, ist nicht neu.

So demonstriert bereits eine Arbeit des Google - Mitgründers Sergey Brin

anhand des Index dieser (sich damals noch in der Entwicklung

befindenden) Suchmaschine, wie sich durch iteratives Pattern - Matching

Autor- Werk- Paare auffinden lassen (Brin:1998) und Duclaye et al.(2002)

nutzen das Internet, um einem natürliche Sprache verarbeitenden

Question- Answering- System die Möglichkeit der Paraphrasierung zu

geben. Beide Untersuchungen nutzen jedoch stark formalisierte

Methoden des Pattern - Matching, die sich in dem hier gegebenen Szenario

nicht einsetzen lassen, da sie manuell erstellte Regeln benötigen, die im

SOG- Modell nicht verfügbar sind.

Als Agent wird in der Softwaretechnologie eine Applikation mit

(begrenzt) pseudo - intelligentem Verhalten bezeichnet, die in der Lage ist,

selbstständig Aufgaben zu erfüllen, und definiert somit zunächst nicht

mehr als ein Konzept, welches sich beispielsweise von dem eines

Roboters (engl. bot ), dem Selbstständigkeit und künstliche Intelligenz

fehlt, unterscheidet (vgl. Heaton 2002:3f). Im Kontext des Information

Retrieval werden Roboter beispielsweise eingesetzt, um die Indexierung

von Internetseiten durchzuführen: Sogenannte Spider verfolgen

- 48 -

ununterbrochen Hyperlinks (die sich als „Fäden“ im „Spinnennetz

Internet“ interpretieren lassen) und indexieren die Inhalte der

entsprechenden Seiten – ohne dabei jedoch Entscheidungen bezüglich des

Inhalts der Seiten zu treffen. Die Funktionalität eines Agenten dagegen

geht über diese einfachen Aufgaben hinaus – so existieren bspw.

agentengestütz te Systeme, welche versuchen, im Internet gezielt

Informationen über bestimmte Ereignisse zu finden. Während eine

Internet - Suchmaschine letztlich einen reinen Roboterservice anbietet,

ließe sich das Verhalten eines Benutzers, der diese nutzt, um eine

spezielle Information zu erhalten, als Verhalten eines Agenten

interpretieren. Ein solches Verhalten soll – in eingeschränkter

Funktionalität – auch das hier entworfene System zeigen: Bei

„Klärungsbedarf “ bzgl. einer Hypothese, also dann, wenn die über den

Kontext berechnete Qualität der Hypothese als zu niedrig eingestuft wird,

um sie ohne weiteres zu übernehmen (vgl. Kapitel 3.1.3 ), wird ein Agent

damit beauftragt, nach Indizien zu suchen, die diese Hypothese

unterstü tzen. In gewisser Weise wird durch dieses Vorgehen eine

Rückmeldung eines Lehrers simuliert, um die Nachteile, die SOG als

unüberwachtes System gegenüber einem überwacht lernenden System

aufweist, abzuschwächen. Allerdings ändert der Rückgriff auf das WWW

nichts daran, dass das System ausschließlich aus positiven Beispielen

lernen kann, und dass das Data- Sparseness - Problem letztlich nur

verkleinert, aber nicht gelöst werden kann, denn das Verhältnis zwischen

Performanz und Kompetenz ändert sich selbstverständlich auch bei

einem größeren Korpus nicht 41 .

Wenn SOG nicht darüber urteilen kann, ob es sich bei [P1 | P2] um zwei in

paradigmatischer Relation stehende Wortketten handelt, weil die

Kontextinformationen X1 und X2 nicht ausreichend sind,

(9a) START k 1,1 k 1,2 ... k 1,n X1 P1 X2 k 2,1 k 2,2 ... k 2,m END

(9b) START k 3,1 k 3,2 ... k 3,o X1 P2 X2 k 4,1 k 4,2 ... k 4,p END

41 Allerdings bietet das Korpus Internet den Vorteil, dass verschiedenste Textsortenebenso wie stilistisch stark voneinander abweichende Formulierungen einer Aussage(vgl. bspw. Duclaye et al. 2002:3) dort vorzufinden sind.

- 49 -

so werden P1 und P2 im „hypothetischen“ Kontext eingesetzt und

überprüf t, indem Vorkommen dieser konstruierten Wortkette gesucht

werden. In der Regel ist nicht zu erwarten, dass der durch SOG gebildete

neue Satz in ganzer Länge auf einer WWW-Seite auftaucht. Daher wird

nur ein Teil dieses Satzes gesucht, um anschließend – falls dieser

Ausschnitt gefunden wurde – nach einem größeren Teilstück zu suchen.

Dieses Vorgehen wird so lange wiederholt, bis keine Erweiterung mehr

möglich ist, weil die Satzgrenzen erreicht oder keine weiteren Ergebnisse

mehr gefunden wurden. Die Richtung der Kontexterweiterung (d.h. ob die

Wortkette links, rechts oder auf beiden Seiten verlängert wird) wird dabei

von den Ergebnissen der vorherigen Suche abhängig gemacht, wobei die

beidseitige Erweiterung favorisiert wird. Schlägt diese jedoch fehl, so wird

die Wortkette in weiteren Suchvorgängen einmal nur noch auf der linken

und einmal nur noch auf der rechten Seite erweitert. Ein Beispiel für die

Funktionsweise des Agentensystems soll anhand der von SOG gebildeten

Hypothese [ist | sei]42 gegeben werden. Die Hypothese beruhte darauf,

dass innerhalb des SZ- Korpus unter anderem die in Tabelle 4

dargestellten Ketten gefunden wurden (die Position der Hypothese ist mit

„X“ gekennzeichnet).

START es Xbesser

START deshalb X es dies X aber auch

zudem X es klar X dass zudem X der

Tabelle 4 Gemeinsamer Kontext der Wörter ist und sei im SZ- Korpus

Das Wort sei wurde (wie an dem abstrakten Beispiel in 9 erklärt) an Stelle

des Wortes ist in die entsprechenden Sätze eingefügt, anschließend

versuchte das Agentensystem, eine möglichst lange Teilkette der so

konstruierten Wortketten zu finden. Analog wurde für das Wort ist im

Kontext von sei vorgegangen – die Ergebnisse sind in den Tabellen 5 und

6 dargestellt (Der erweiterte Kontext ist durch Unterstreichung markiert).

42 Die hier wiedergegebenen Daten sind der Datei „post_clean_preparas.csv“ imVerzeichnis „SZ/length 3 iter 1/“entnom men (Zeile 166, siehe auch Anhang B). Nichtgefundene Kontexte wurden ausgelassen.

- 50 -

es sei besser ihnzu

deshalb sei es unsere dies sei aber auch dereinzige

zudem sei es den - - zudem sei der staat

Tabelle 5 Korpusexterne Belege für die Substituierbarkeit des Wortes ist durch sei .

- - deshalb ist es nichtrichtig

- -

zudem ist es eine klar ist dass die spd zudem ist deraußenminister im

Tabelle 6 Korpusexterne Belege für die Substituierbarkeit des Wortes sei durch ist.

Auf Grundlage dieser Ergebnisse, d.h. anhand der längsten so gefundenen

Wortketten, wird die Qualität der Hypothese mit der in Kapitel 3.1.1

beschriebenen Formel (3) neu berechnet und für die endgültige

Entscheidung, ob die Hypothese in den Graphen integriert werden soll

oder nicht, herangezogen. Das Beispiel zeigt, dass das Data- Sparseness -

Problem nur in geringem Maße umgangen werden kann, denn die

Kontexte konnten nur leicht erweitert werden. Zudem verdeutlicht es

auch, weshalb die Überprüfung nicht für jede Hypothese durchgeführ t

werden kann, wie bereits in Kapitel 3.1.3 erwähnt wurde: Allein die in

Tabelle 4 dargestellten Daten, bei denen es sich nur um einen Ausschnitt

der gefundenen Kontexte handelt, verursachten 26 Suchanfragen (je eine

Anfrage pro Wort der Erweiterung sowie pro Wortkette eine Anfrage mit

negativem Ergebnis, die die Untersuchung der jeweiligen Wortkette

abbricht). Da in der ersten Iteration von SOG ungefähr 230.000

Hypothesen aus dem SZ- Korpus extrahiert wurden und die Suche nach

einer Wortkette relativ zeitaufwändig ist, muss die Menge der zu

überprüfenden Hypothesen deutlich reduziert werden.

3.3.1 Anwendung des Agentensystems

Die zu untersuchenden Wortketten werden an ein parallel arbeitendes

- 51 -

Programm namens Agency übergeben und von diesem verarbeitet. Erhält

dieses Programm eine Anfrage, so sollte diese zunächst an die intern zu

Verfügung stehende Suchmaschine weitergeleitet und die absolute Zahl

der gefundenen Vorkommen und /oder ein Array mit allen gefundenen

Sätzen zurückgegeben werden. Gleichzeitig sollte, sofern dies noch nicht

geschehen ist, ein Agent beauftragt werden, weitere Evidenz für die

gesuchte Wortkette zu finden.

Prinzipiell ist das für diese Arbeit implementierte Zusatzprogramm dazu

in der Lage, diese Funktionalität selbst zu übernehmen, indem,

ausgehend von einer beliebigen Menge von WWW- Seiten, sämtliche dort

gefundenen URLs verfolgt, die entsprechenden Dokumente indexiert und

die in diesen gefundenen URLs der abzuarbeitenden Liste hinzugefügt

werden, so dass ein eigenständiger Index von Teilen des WWW aufgebaut

werden kann. Allerdings wurde lediglich die Grundfunktionalität des

Programms implementiert, denn sowohl die Verwaltung des Index

(Aktualisierung, Entfernung von identischen Inhalten etc.) als auch die

eigentliche Datenaggregation (Berücksichtigung von Time- outs ,

verschiedenen Dateiformaten, der auf der jeweiligen Seite benutz ten

Sprache u.ä.) erfordert neben anderen Details (wie der Interpretation von

Verhaltensregeln und Metadaten, vgl. Heaton 2002:375) großen Aufwand,

der im Verhältnis zum eher sekundären Einsatz des Programms im

Kontext dieser Arbeit nicht angemessen erschien. Daher wurde in der

hier benutz ten Implementation der Agency auf die Erzeugung eines

eigenen Index verzichtet und stattdessen auf die Fähigkeiten der

Suchmaschine Google (www.google.de ) zurückgegriffen 43 . Nachteilig an

diesem Vorgehen ist allerdings, dass die Formulierung der Suchabfragen

auf das begrenzte Potential der von Google interpretierten Ausdrücke

beschränkt ist, während in einer selbst implementierten Lösung

komplexere Suchmöglichkeiten zur Verfügung stehen können 44 .

43 Eine Suchabfrage nach den Wörtern der und das auf Googles Internetseite ergab,dass diese Wörter in je ca. 18 Millionen Dokumenten gefunden wurden. Unter derAnnahme, dass Googles Index also ca. 18 Millionen deutschsprachige Dokumenteenthält, würde ein ähnlich großer eigener Index selbst dann, wenn pro Dokumentdurchschnit tlich 1 KB Speicherplatz benötigt wird (was eine sehr optimistischeSchätzung ist, da der vollständige Text des Dokuments mitgespeichert werdensollte), eine Größe von mehr als 17 GB besitzen.

44 Bspw. erlaubt die frei verfügbare Java- API Lucene des Jakarta - Projekts (Download -

- 52 -

Die URLs der ersten zehn Treffer (soweit vorhanden) sowie die von

Google geschätz te Anzahl aller Dokumente, welche die Wortkette

enthalten, werden dann lokal im Agency- Cache abgelegt, so dass die

Dienste von Google nicht öfter als nötig genutzt werden müssen 45 .

Um die Ergebnisse einer Suchanfrage nutzen zu können, müssten diese

eigentlich zunächst von Rauschen befreit werden, denn teilweise

enthalten Internetseiten viele Fehler in Grammatik und Ortographie – ist

die zu suchende Wortkette fehlerhaft, so kann nicht davon ausgegangen

werden, dass sie nicht gefunden wird. So liefert Google bspw. für die

ungrammatische Wortkette „für der“ (am 27. 6. 2004) immerhin ca.

118.000 Fundstellen, von denen einige zwar zeigen, dass diese

Konstruktion unter gewissen Umständen korrekt sein kann (z.B. dann,

wenn es sich, wie in „Referat für 'der Exorzist '“ 46 , um einen Eigennamen

bzw. eine named entity handelt ), viele jedoch eindeutig falsch sind

(„Dabei bleibt für der Handwerker viel mehr übrig...“47).

In der Praxis erwies sich die relativ hohe Fehlerquote von WWW-Seiten

jedoch als nahezu irrelevant, da die zu suchenden Wortketten durch

Neukombination von Wortketten aus dem Korpus konstruiert werden

und so mit hoher Wahrscheinlichkeit bezüglich der Rechtschreibung

korrekt sind. So zeigte sich in der praktischen Anwendung dann auch,

dass bereits eine binäre Rückmeldung des Agentensystems (Wortkette

gefunden oder nicht gefunden) genügte, um die Ergebnisse des gesamten

Systems verbessern zu können – diese Feststellung deckt sich auch mit

der in Kapitel 3 erwähnten Entscheidung zuguns ten einer qualitativen

Datenverarbeitung, welche die Quantität der Phänomene unberücksichtigt

lässt.

Möglichkeit unter http: / / j akar ta.apache.org / lucene / docs / in dex.html) reguläreAusdrücke in Anfragen, ebenso die Formulierung von Positionsabhängigkeitenzwischen mehreren Wortketten.

45 Die Nutzungsbedingungen von Google untersagen eine automatisierte Nutzung desDienstes, gleichzeitig wird jedoch eine API angeboten, deren Einsatz die Integrationder Funktionalität erleichter t, aber durch einen personalisierten, von Google zubeziehenden Schlüssel auf 1000 Abfragen pro Tag und Anwender beschränkt wird.Da die Aktualität der Suchergebnisse in diesem Szenario nicht relevant ist, lässt sichdieses Limit durch Einsatz eines Caches umgehen. Alternativ wäre es natürlich auchmöglich, die Ergebnisse eines weniger restriktiven Dienstes zu nutzen.

46 http: / /www.referate - drucken.de / referat_fuer_der_exorzist_33.html (30.06.2004)47 http: / /www.waschmaschinendoktor.de / reparieren_tabelle.html (30.06.2004)

- 53 -

Natürlich ist die zu erwartende Verbesserung der Ergebnisse abhängig

von der Sprache des Korpus: Für seltene (bzw. selten im Internet

verwendete) Sprachen ist die Wahrscheinlichkeit, eine grammatisch

korrekte Wortkette zu finden, zwangsläufig geringer als beispielsweise

für das Deutsche oder Englische. Trotzdem zeigt die hier exemplarisch

durchgeführte Integration externer Datenquellen, dass allein aufgrund

der Quantität des dadurch zu Verfügung stehenden Materials eine Option

zur „Validierung“ von Hypothesen vorhanden ist, die die Simulation eines

„Lehrers“ auch in unüberwacht lernenden Systemen ermöglicht.

4. Empirische Daten

Nachdem in den vorherigen Kapiteln in erster Linie nur die

Vorgehensweise des SOG- Modells dargestellt wurde, soll in diesem

Kapitel ein eher datenorientierter Blickwinkel eingenommen werden.

Daher werden zunächst die in dieser Arbeit prozessierten Korpora

vorgestellt, um in Kapitel 4.2 die Ergebnisse der Datenverarbeitung zu

analysieren.

4.1 Beschreibung der Korpora

Das SOG- Modell wurde an zwei verschiedenen Korpora getestet: Zum

einen wurde ein ca. 25.000 Sätze enthaltender Ausschnitt der

Nachrichten der Süddeutschen Zeitung des Jahres 2001 prozessiert, zum

anderen die zusammen ca. 30.000 Sätze umfassenden ersten drei Bücher

„Winnetou “ von Karl May.

Das SZ- Korpus wurde im Rahmen des SemGen- Projekts aus einer

Archiv- CD extrahiert, die einzelnen Artikel wurden in ihrer Rohform im

Korpus - Format des SemGen- Projekts mit Hilfe der XML-Datenbank

Tamino gespeichert und enthalten neben dem eigentlichen Text

- 54 -

Metadaten bzgl. Quelle, Datum und Kategorie (wie News , Science oder

Society ). Annotation innerhalb eines Textabschnitts wurde nicht

vorgenommen, da diese, sofern sie nicht manuell durchgeführt wird, eine

zu hohe Fehlerquote aufweist und sich ebenfalls das Problem ergeben

würde, dass das Korpus durch Tags gekennzeichnet würde, die nicht

theorieunabhängig sind (vgl. Benden und Hermes 2004), was im

Widerspruch zu den Zielen des SemGen- Projekts stünde. Auch Sinclair

stellt fest:„The safest policy is to keep the text as it is, unprocessed and

clean of any other codes. These can be added for particular

investigations “ (Sinclair 1991:21). Weil insbesondere der Versuch, den

SOG- Algorithmus auf Artikel, die überdurchschnit t lich viele Zahlen

enthielten (wie etwa Aktienkurse oder Lottozahlen) anzuwenden, zu

keinem sinnvollen Ergebnis führte 48 , wurde die Auswahl der zu

verarbeitenden Artikel auf diejenigen reduziert, die der Kategorie News

zugeschrieben wurden.

Das May- Korpus wurde aus der frei zugänglichen Literatursammlung

„Gutenberg- Projekt“ 49 kopiert, manuell leicht aufbereitet 50 und in das

SemGen- Format gebracht.

Die für die weitere Datenprozessierung notwendige Satz- und

Worterkennung wurde durch das SEMALD- Modul Preprocessor 51

durchgeführt, welches Sätze anhand von Satzendzeichen (Punkt,

Ausrufezeichen etc) und einigen Regeln (kein Satzende nach St., Dr. usw)

zu identifizieren versucht. Um grobe Fehler bei der Satzerkennung

auszuschließen, wurden alle Sätze verworfen, die zwei oder weniger bzw.

mehr als 30 Wörter lang waren, zudem alle Sätze, die mehr als 5

arabische Zahlen (durch Wörter oder Leerzeichen getrennt) enthielten.

Zusätzlich wurden Sätze entfernt, die mit von begannen und aus 3

Wörtern bestanden, da es sich bei diesen meist nur um Autorangaben

(von Ulrich Meier ) handelte, ebenso aus ähnlichem Grund Sätze, die mit

48 Bei einer funktionierenden Vorhersage der Lottozahlen wäre diese Arbeit vermutlichnicht oder mit massiver Verspätung zustande gekommen.

49 http: / / g u tenberg.spiegel.de /50 Dies betraf im wesentlichen die Online - Ausgabe des ersten Bands, in welchem

Verweise auf Zeichnungen der Printausgabe und Rechtschreibkorrekturen vorhandenwaren, sowie einige Ersetzungen von Sonderzeichen in allen drei Romanen.

51 Der in Benden und Hermes (2004) vorgestellte erweiterte Präprozessor XPre standwährend der Implementation von SOG noch nicht zur Verfügung.

- 55 -

Siehe Seite begannen. Schließlich wurden alle Vorkommen arabischer

Zahlen durch das Schlüsselwort NUMERICAL ersetzt und alle Satzzeichen

entfernt. Außerdem wurden Großbuchstaben durch die entsprechende

Kleinschreibung ersetzt – zwar würde eine Regel, welche die Schreibweise

von Wörtern diesbezüglich untersucht, in deutschsprachigen Korpora

Nomen leichter erkennen, doch wäre ein solches Vorgehen zum einen

stark sprachabhängig, zum anderen würden sich aufgrund der

Abhängigkeit zwischen Satzposition und Groß/Kleinschreibung

unerwünschte Differenzierungen ergeben. Beide Korpora wurden auf

gleiche Art und Weise präprozessiert , auch wenn die hier beschriebenen

Sonderregeln für das May- Korpus zum großen Teil irrelevant waren.

Bei der Analyse der generierten Hypothesen fiel eine besondere

Eigenschaft des SZ- Korpus auf: Sätze wie die in Kapitel 1.3 konstruierten

Beispiele der Form Der X geht in die Y wurden – wie zu erwarten war –

nicht ein Mal gefunden, geschweige denn mehrmals, wie es zur Bildung

von Paradigmen um X bzw. Y notwendig gewesen wäre. Allerdings

wurden unerwartet häufig Sätze im SZ- Korpus gefunden, die sich

lediglich in einer Wortkette unterschieden, wie beispielsweise

(10 a)die deutschen Aktienmärkte haben am Montag leichte

[Kursgewinne | Zugewinne] verzeichnet

(10 b) [Feuchte | Kalte] Luft bestimmt

das Wetter.

(10 c)Der [Finanzminister | Bundesfinanzminister], der am

Dienstagabend von einer dienstlichen Asienreise zurückerwartet

wurde, will am heutigen Nachmittag den Abgeordneten Rede

und Antwort stehen.

(10 d) Verstöße gegen das Verbot von

Tiermehl sollen künftig härter [geahndet | bestraft] werden

- 56 -

Für diese auffällige Ähnlichkeit sind verschiedene Phänomene

verantwortlich: Bei (10 a) und (10 b) handelt es sich um häufig auftretende

Ereignisse und um oft genutz te Formulierungen – der Wetterbericht ist in

jeder Ausgabe enthalten, Börsenmeldungen stehen in jeder Werktags-

Ausgabe. Bei (10 c) handelt es sich um eine minimale Differenz zwischen

zwei ansonsten völlig identischen Artikeln in unterschiedlichen

Regionalausgaben der SZ52, und die Ähnlichkeit der Sätze in (10 d) basiert

darauf, dass die Formulierung leicht abgewandelt in zwei verschiedenen

Artikeln genutzt wurde 53 .

Die Anzahl der Vorkommen extrem ähnlicher Sätze lag deutlich über den

Erwartungen: So fanden sich im untersuchten Korpusausschnit t während

der ersten SOG- Iteration über 120 Paradigmen, die aufgrund der Länge

des gemeinsamen Kontexts als korrekt eingestuft werden konnten.

Im May- Korpus hingegen fanden sich zwar auch häufig Sätze, die sich

nur in einer kurzen Wortkette voneinander unterschieden, doch war die

Gesamtlänge dieser Sätze meist deutlich kürzer, denn i.d.R. handelte es

sich um kurze Phrasen aus Dialogen zwischen den Figuren des Romans

wie in (11 ), aus welchen sich nicht paradigmatische Beziehungen herleiten

lassen.

(11 a) Ja, aber wann und wie!

(11 b) Ja, aber warum?

(11 c) Ja, aber für Napoleon.

Durch das in Kapitel 3.1.1 beschriebene Punktsystem konnte die

Paradigmenbildung um solche Sätze größtenteils vermieden werden.

Grundsätzlich wirkt sich das Vorkommen stark ähnlicher Sätze im

Korpus jedoch sehr positiv auf die Güte der Ergebnisse aus – daher wäre

es nützlich, die Ähnlichkeit der Sätze weiter zu erhöhen. Bei einem

Korpus aus Zeitungsartikeln bietet es sich an, das Korpus um Artikel

anderer Zeitungen aus demselben Zeitfenster zu erweitern. In diesem

52 Der entsprechende Artikel stand auf Seite 5 der SZ vom 17.1.2001, in der Ausgabe„M“ wurde das Wort Finanzminister , in Ausgabe „F“ Bundesfinanz ministerverwendet.

53 SZ vom 15.1.2001, S. 1

- 57 -

Zusammenhang stellt bspw. Sekine (2001:2) bei einer Untersuchung eines

Systems zur automatischen Paraphrasierung fest, dass „Each news source

sometimes contains slightly different versions of the same articles “ – die

oben beschriebene Auffälligkeit scheint also auch für andere Zeitungen

zu gelten. Während Sekine allerdings Artikel, die zu ähnlich sind,

entfernt, weil sie für seine Zwecke nicht nutzbar sind, wären hier gerade

diese Artikel zu untersuchen.

Die untersuchten Korpusausschnitte sind nicht repräsentativ für das

Deutsche, denn zum einen reichen 25.000 bis 30.000 Sätze dafür nicht

aus, zum anderen verursacht sowohl die Selektion nur einer Quelle als

auch die weitere Beschränkung dieser Auswahl anhand der Kategorie der

einzelnen Texte eine starke inhaltliche und stilistisch- syntaktische

Vereinfachung – beispielsweise wird echte gesprochene Sprache (im

Gegensatz zu den konstruierten Dialogen im May- Korpus) ebenso wenig

berücksichtigt wie moderne Literatur, und auch wissenschaftliche,

philosophische oder alltägliche Inhalte sind nicht im Korpus vorhanden 54 .

Umgekehrt lässt sich jedoch argumentieren, dass eine kategorielle

Ausweitung des prozessierten Korpus, also eine Integration anderer

Textformen , die Prozessierung der hier untersuchten Daten nicht oder

nur wenig beeinflussen würde, denn die Ähnlichkeit zwischen zwei

Sätzen wird durch die Erweiterung des Korpus selbstverständlich nicht

modifiziert, ebenfalls ist es nicht zu er warten, dass in Texten einer

anderen Gattung in relevantem Maß Sätze vorkommen, die den SOG-

Algorithmus während der Paradigmenerkennung bezüglich der hier

untersuchten Sätze beeinflussen würden. Offen bleibt durch die hier

vorgenommene Beschränkung jedoch zwangsläufig, wie SOG innerhalb

anderer Textsorten arbeitet.

Im Vergleich mit den in Kapitel 2 vorgestellten Ansätzen ist die für diese

Arbeit vorgenommene Korpusauswahl , insbesondere durch das SZ-

Korpus, jedoch näher an der Realität, denn sowohl die von van Zaanen

54 Für eine ausführliche Diskussion der Korpusrepräsenta tivität siehe McEnery undWilson 2003:77ff.

- 58 -

benutz ten Korpora ATIS55 und OVIS56 als auch das in ADIOS genutzte

CHILDES- Korpus sind sowohl inhaltlich als auch syntaktisch stärker

restringiert, lediglich im SPM wird (neben dem manuell konstruierten

„Tierkorpus “) eine Textauswahl prozessiert, die zwar nicht inhaltlich,

aber syntaktisch mit den Texten der SZ vergleichbar ist (allerdings, wie

abgesehen von OVIS alle Korpora, in englischer Sprache). Zudem bietet

die Verwendung von Zeitungstexten den Vorteil, dass das Korpus täglich

wächst und bereits jetzt eine extrem große Menge von Texten zu

Verfügung steht 57, die mit der Integration anderer Zeitungen noch

vervielfacht werden könnte.

4.2 Auswertung der empirischen Daten

Die Auswertung der Daten erweist sich als nicht einfach. Zumindest der

Recall, d.h. das Verhältnis zwischen gefundenen und insgesamt im

Korpusausschnitt vorhandenen Paradigmen lässt sich nicht bestimmen:

Dazu hätten diese manuell gebildet werden müssen, was den zeitlichen

Rahmen der Arbeit gesprengt hätte, wenn es denn überhaupt möglich

ist 58. Ferner ließen sich die Ergebnisse nur schlecht mit den Resultaten,

die von SP, ADIOS oder ABL geliefert wurden, vergleichen, da alle vier

Systeme unterschiedliche Korpora unterschiedlicher Größe nutzten und

zudem auch die Zielsetzungen der Systeme stark voneinander

abweichen 59. Auch die Precision lässt sich nur schwer bestimmen, denn

55 Air Traffic Information System (englisch), siehe56 Openbaar Vervoer Informatic Systeem (niederländisch), siehe57 So sind inzwischen die SZ- Jahrgänge 1994 bis 2003 verfügbar (siehe www.diz -

muenchen.de /h t ml / dvd.html).58 Dies ist ein Nachteil im Vergleich zu den in Kapitel 2 vorgestellten Modellen, der sich

als Konsequenz aus der Entscheidung für ein nicht linguistisch ausgezeichnetesKorpus ergibt.

59 Zudem ist die Art und Weise der Bestimmung von Recall und Precision in jedemAnsatz, wenn überhaupt durchgeführt, unterschiedlich, was ein grundsätzlichesProblem der quantitativen Linguistik zu sein scheint, wie auch Mason anhand der –noch relativ simplen – „Part - Of- Speech“- Tagger feststellt: „Modern part - of- speechtaggers [...] achieve an accuracy rate of around 95+ percent; however, the calculationof this rate is sometimes doubtful [...] and methods of evaluation differ betweenauthors“ (Mason 2004:2).

- 59 -

um zu entscheiden, ob eine Hypothese richtig ist, muss diese in ihrem

Kontext betrachtet werden. Ist dort jedoch eine zweite Hypothese

enthalten, so ist es möglich, dass Teile beider Hypothesen einander

ausschließen. Bspw. ist die zweite fakultative Hypothese in Abbildung 12

nur dann als korrekt einzustufen, wenn in der ersten fakultativen

Hypothese der Ausdruck umgerechnet mehr als drei gewählt wird. Wird

der Kontext hingegen nicht berücksichtigt, so ergeben sich u.a.

korpusbedingte Probleme, wie in (12 a) und (12 b) veranschaulicht.

Während (12 a) ein Beispiel für sehr starke Kontextabhängigkeit und die

Allgemeingültigkeit der Hypothese eher gering ist, handelt es sich in (12 b)

um einen Rechtschreibfehler, der in einer späteren Auflage der SZ

behoben wurde. Aus diesen Gründen wurden nur die nach der ersten

Iteration des Algorithmus generierten Relationen ausgewertet (da in

deren Kontexten noch keine Hypothesen vorhanden sein können) und

lediglich syntaktische Fehlkonstruktionen wie in (12 c) und starke

semantische Fehler wie in (12 d ) als „falsch“ ausgezeichnet.

(12 a) ... zeigte sich zuversichtlich über einen erfolg [{des antrags} | {in

karlsruhe}] END

(12 b) ... weil er um dessen vorbehalte gegen derartige [geschäft | geschäfte]

wusste END

(12 c) ... unter fortzahlung der vergütung wie [{das bei seinen} | seine]

verheirateten kollegen ...

(12 d) START sie [sind | wissen] es END

So wurde die in Tabelle 7 zusammengefass te Auswertung erzeugt. 60 Die

deutlich schlechteren Ergebnisse bei der Verarbeitung des May- Korpus

hängen damit zusammen, dass die Sätze in diesem Korpus oftmals

kürzer sind als im SZ- Korpus (durchschnittlich betrug die Länge eines

Satzes 12,5 Wörter im May- Korpus und 14,7 Wörterim SZ- Korpus) und

der Effekt der in Kapitel 4.1 erläuterten minimalen Abweichungen von

60 Die zugrundeliegenden Daten befinden sich auf der CD, die dieser Arbeit beiliegt.Ausgewertet wurden die Dateien post_clean_preparas.csv , post_clean_nullparas.csvund sentences.csv in den entsprechenden Verzeichnissen (siehe Anhang B). Kopiendieser Dateien, in denen falsche und richtige Paradigmen markiert sind, finden sich(als Excel- und OpenOffice - Tabellen) ebenfalls in diesen Verzeichnissen.

- 60 -

zwei Sätzen nicht so häufig (und insbesondere nicht bei langen Sätzen)

auftrat. Um zu prüfen, in wie weit die SOG- Ergebnisse für den May-

Korpus verbessert werden können, wurde dieses durch eine leicht

modifizierte Version von SOG erneut prozessiert – der Unterschied

bestand darin, dass die minimale Länge eines Satzes auf 5 festgesetz t

wurde (was dazu führte, dass die Anzahl aller Sätze auf etwas über

25.000 zurückging und die durchschnittliche Satzlänge auf 13,8 Wörter

stieg) und die Verbesserung der Bewertung einer Hypothese, falls der

gemeinsame Kontext den komplet ten Satz mit einbezieht, reduziert

wurde. Die Ergebnisse dieser Analyse sind in der Zeile May2 festgehalten.

Korpus

Gesamt Richtig(abs. )

Richtig (%) Falsch(abs.)

Falsch (%) Sätze falsch(%)

SZ 288 263 91,3% 25 8,7% 12,0%

May 240 162 67,5% 78 32,5% 32,0%

May2 124 39 73,6% 33 26,6% 31,3%

Tabelle 7 Auswertung der SOG- Prozessierung

Die letzte Spalte der Tabelle enthält die Auswertung einer Stichprobe von

150 Sätzen des jeweiligen Korpus – so wird die Häufigkeit der Integration

von Hypothesen berücksichtigt, was in den anderen Spalten nicht

geschieht.

Zwar sind auch die Ergebnisse der angepassten Analyse etwa um den

Faktor 3 schlechter als die der Prozessierung des SZ- Korpus, doch lässt

die durch die grobe Anpassung des Algorithmus erlangte Verbesserung

vermuten, dass weitere Optimierungen möglich sind – zugleich wird beim

Vergleich der Ergebnisse von May und May2 auch deutlich, dass eine

bessere Methode zur Trennung von guten und schlechten Hypothesen

entwickelt werden muss. Dies wird Kapitel 6 thematisiert, auf den

folgenden Seiten dieses Kapitels sollen einige Einzelbeispiele vorgestellt

und diskutiert werden.

- 61 -

Dieses Beispiel ist zwar nicht fehlerfrei, denn die Phrase Verhältnis der

beiden Städte steht in diesem Kontext nicht in paradigmatischer Relation

zu den übrigen Phrasen des Paradigmas und auch die Fakultativität der

Paradigmen, die das Element NOTHING enthalten, ist nicht in jeder

Kombination korrekt. Trotzdem zeigt Abbildung 12 , dass die Idee, auf

der SOG beruht, vielversprechend und der Algorithmus dazu in der Lage

ist, die Paradigmen unter der Berücksichtigung syntagmatischer

Strukturen zu bilden. Auch ist Abbildung 12 ein weiteres Beispiel für die

in Kapitel 3 festgehaltene Beobachtung, dass SOG nicht nur ein

Paradigmen erkennendes, sondern gleichzeitig auch ein

sprachgenerierendes System sein kann, indem Sätze anhand der Syntax

eines Satzes aus dem Korpus aus verschiedenen in paradigmatischer

Relation stehenden Bausteinen zusammengesetz t werden. Allerdings wird

anhand dieses Beispiels ebenfalls deutlich, dass Harris' Beobachtung zur

Akzeptanz einer Formulierung und die daraus resultierende Forderung,

Kontext über Satzgrenzen hinaus zu betrachten (vgl. Kapitel 1.3 ),

spätestens bei der Sprachgenerierung berücksichtigt werden müsste.

In Abbildung 12 zeigt sich zudem das Potential des Systems, „lokale

Grammatiken“ (Local Grammars , LG) zu generieren. Dabei handelt es sich

um eine Beschreibungsmethode , die es ermöglicht, das syntaktische

Zusammenspiel einzelner Elemente zu erklären, was mit

Phrasenstrukturregeln u.U. nur schwierig zu lösen wäre, insbesondere

dann, wenn es sich um „ungewöhnliche“ Gebrauchsmuster oder

syntaktische Ausnahmen handelt (vgl. Mason 2004). Die Modellierung

- 62 -

steuerausfall

kern-budget

folgeschaden in höhe

verhältnis der beiden städte

plus

minustransaktionsvolumen

knapp

NOTHINGnumerical

umgerechnet mehr als drei

jährlich etwa milliardenmillionen

NOTHING

im

pro

dollar

mark

jahr

in einer internen berechnung rechnet das finanzministerium mit einem

von

Abbildung 12 Beispiel der Fähigkeit des SOG zur Sprachgenerierung

einer LG ist in solchen Fällen (wie bspw. der Beschreibung der Syntax

einer Datumsangabe) nicht nur einfacher als die Konstruktion einer

„Phrasenstruktur - Ausnahmeregel “, sondern hat zusätzlich auch den

Vorteil, dass sich zum einen semantische Aspekte leicht berücksichtigen

lassen und sich LGs – zumindest teilweise – automatisch generieren

lassen. So könnte eine Erweiterung des SZ- Korpusausschnit ts in

Kombination mit einer Verbesserung der Paradigmen- Erkennung dazu

führen, dass sich eine lokale Grammatik für Geldbeträge bildet, wenn die

drei mittleren Knoten aus Abbildung 12 zusammen mit weiteren,

ähnlichen Formulierungen in einem Paradigma gekapselt werden. Dies ist

bisher lediglich eine Vermutung, doch insbesondere in häufig

vorkommenden Satzvarianten , wie bspw. auch in Abbildung 13 , tritt der

Effekt der „Satzcluster - Bildung“ so auf, wie es vor der Implementierung

von SOG erhofft war.

Abbildung 13 Potential zur Bildung lokaler Gram m atiken: Weitere ähnliche Sätzewürden eine LG für Temperaturangaben entstehen lassen.

Trotz der schlechten Gesamtauswertung lieferte die Anwendung von SOG

auf das May- Korpus zufriedenstellende Einzelergebnisse. Im Vergleich

mit den Ergebnissen der SZ- Prozessierung fiel auf, dass die gebildeten

Paradigmen häufiger sinnverwandte Verben wie in (13 ) gruppierten.

(13 )

• [brummte | fragte | antworte te | sagte | {unterbrach ihn}]

(May/3 /3:1641)

• [weiß | denke | glaube | hoffe] (May/3 / 3:1633)

- 63 -

minus

drei

zwei

drei

NUMERICAL

bisplus

NOTHINGNUMERICAL grad

minussechs

zweibis

plus

NOTHINGgrad

• [meinte | fragte | rief | antworte te] (May/3 /3:1251)

• [schüttel te | erhob | senkte] langsam (May/3 /3:1542)

• { [verstehe | kenne] {[euch | {meinen bruder sam}]} } | {begreife [ihn | sie

| euch]}

(May/3 /3:1667)

Dies hängt selbstverständlich mit der häufigen Verwendung wörtlicher

Rede zusammen, die in der SZ so nicht gegeben ist. Doch auch Nomen

wurden korrekt gruppiert, wie (14 ) zeigt.

(14 )

• [{weiße biber} | okanada] (May/3 /3: 1629)

• [comanchen | apachen] (May/3 /3: 925)

• [häuptlinge | krieger | söhne] (May/3 /3: 1261)

• [{diese krieger} {meine roten brüder}] (May/3 /3: 691)

Dies sind nur einige positive Auszüge aus den Ergebnissen,

selbstverständlich lieferte der Algorithmus neben weiteren korrekten

Paradigmen auch fehlerhafte Hypothesen – hier sei erneut auf die CD

verwiesen.

Die häufigsten Fehlentscheidungen des Algorithmus lassen sich durch

nicht erkannte Modifikationen in der Wortstellung erklären. Passiv vs.

Aktiv, Auxiliar + Infinitiv vs. Präsens oder Indikativ, aber auch

Partikelverben verursachten häufig Fehlannahmen , die es erforderten, die

in Kapitel 3.1 erläuterten Qualitätsschranken relativ restriktiv zu setzen,

wodurch gleichzeitig auch gute Hypothesen verworfen wurden.

Dennoch zeigt sich bereits hier, dass das Potential des Ansatzes recht

hoch ist und dem Ziel der automatischen Paradigmenbildung gerecht

werden kann, sofern vom Anspruch auf Vollständigkeit, den keiner der

hier vorgestellten Ansätze erfüllen kann, Abstand genommen wird.

Verbesserungen bezüglich der Erkennung dieser Zusammenhänge würden

das System jedoch deutlich produktiver machen und zudem von einem

nur auf unmittelbarer Kontextähnlichkeit aufbauenden Ansatz zu einem

elaborierten , komplexere Strukturen erkennenden Verfahren führen. Die

- 64 -

Frage, wie syntagmatische Abhängigkeiten besser erkannt werden

können, lässt sich hier nicht beantworten, da dies nicht ohne Entwicklung

und Integration eines (optimalerweise selbstlernenden)

Grammatikmodells funktionieren kann, was jedoch ein äußerst

komplexes Thema ist, das in dieser Arbeit nicht weiter behandelt werden

kann. Stattdessen soll im folgenden Kapitel ein einfaches

Grammatikmodell vorgestellt werden, welches zwar nicht als

selbstlernendes System entwickelt wurde, welches aber so deutliche

Parallelen sowohl zu dem in SOG genutz ten Datenmodell als auch zu

lokalen Grammatiken aufweist, dass es als theoretisch - formale

Grundlage für eine „SOG- Grammatik“ dienen könnte.

5. Transition Networks

Die syntaktischen Informationen, die in dem durch SOG erzeugten

Graphen enthalten sind, wurden in den vorherigen Kapiteln nur als

Hilfsmittel für die Analyse semantischer Ähnlichkeit benutz t. Dies lässt

sich jedoch auch umkehren, denn die gewonnenen Informationen über

Paradigmen lassen sich dazu nutzen, eine Art selbstlernenden

Syntaxparser zu konstruieren, indem der Graph in ein Transition Network

(Übergangsnetzwerk , im Folgenden auch als TN abgekürz t) überführt

wird. Unter einem TN wird ein Graph verstanden, dessen Knoten

verschiedene Zustände (insbesondere auch speziell ausgezeichnete Start -

und Endzustände) und dessen Kanten Zustandsübergänge repräsentieren.

Dabei sind die Kanten mit Kategorie- Informationen gelabelt. Wird ein

Satz geparst , so beginnt der Parser im Startknoten des Graphen und

wählt entsprechend des ersten Wortes des zu parsenden Satzes eine vom

Startknoten ausgehende Kante, um in einen neuen Zustand überzugehen.

Dabei ist es durchaus möglich, dass mehrere Kanten gewählt werden

können, also verschiedene Zustände durch ein Wort erreichbar sind.

Dieser Vorgang wird wiederholt, bis alle Wörter des Satzes abgearbeitet

wurden oder bis keine Kante gefunden wird, die mit aktuellem

- 65 -

Zustandsknoten und dem zu parsenden Wort kompatibel ist – in diesem

Fall wird das Ende des bereits zurückgelegten Wegs verworfen und nach

einem alternativen Pfad gesucht (Backtracking ), existiert dieser nicht, so

schlägt das Parsen des Satzes fehl und der Satz wird als ungrammatisch

bewertet. Die folgende Abbildung zeigt ein einfaches Transition Network,

welches in der Lage ist, die grammatischen Beispielsätze aus (1) zu

parsen, während das ungrammatische Beispiel (1c) (Ein Hund läuft in die

geht ) abgelehnt würde:

Abbildung 14 Ein einfaches TN, welches in der Lage ist, zwei syntaktischunterschiedliche Satzformen zu parsen

Dieses TN ist jedoch offensichtlich zum Parsen natürlicher Sprache nicht

ausreichend, da es ungrammatische Sätze wie (15 b) erfolgreich parst und

grammatische Sätze wie (15 a) fälschlicherweise als inkorrekt auszeichnet

– einfache TNs verhalten sich wie endliche Automaten und können

folglich nur reguläre Sprachen (Typ- 3- Sprachen) parsen.

(15 a) Der kleine Junge läuft in die Schule.

(15 b) * Das Junge laufen in der Schule.

Um komplexere Sprachen zu parsen, wurde das rekursive

Übergangsnetzwerk (Recursive Transition Network , RTN) entwickelt,

dessen wesentliche Erweiterung darin besteht, dass die Kanten in diesem

nun nicht mehr ausschließlich mit einfachen, sondern auch mit

komplexen Kategoriebezeichnungen (wie NP oder VP) gelabelt werden

können – außerdem wurde auch eine leere Kante eingeführt, die gewählt

werden kann, ohne dass ein Wort geparst werden muss. Abbildung 15

- 66 -

S aDet

bN

c d e fV P Det N

E.

.

Der Junge läuft in die Schule .

Ein Hund läuft in die Straße .

Der Motor läuft .

zeigt ein solches RTN für einige Phrasentypen des Englischen. Mit Hilfe

von RTNs lassen sich zusätzlich zu Typ- 3- Sprachen auch Typ- 2-

Sprachen, also kontextfreie Sprache parsen.

Die Struktur von RTNs ist der des SOG- Datenmodells äußerst ähnlich: In

beiden Graphen gibt es sowohl leere als auch – theoretisch – rekursive

Elemente 61 und die Graphen unterscheiden sich letztlich nur dadurch,

dass im SOG- Graphen Kategorien in Knoten, im RTN hingegen in Kanten

repräsentiert sind und die Zustandsüberführungen in SOG nur implizit

durch die Menge der Kanten eines Pfades enthalten sind. Um das

Datenmodell von SOG in ein RTN zu konvertieren, ist also fast nur eine

„kosmetische“ Änderung durchzufü hren, auch wenn sich dadurch

selbstverständlich nicht automatisch eine präzisere Abbildung der

syntagmatischen und paradigmatischen Zusammenhänge ergibt. Doch je

besser die Ergebnisse von SOG werden, desto hochwertiger wäre auch ein

aus dem SOG- Graph generiertes RTN.

61 Prinzipiell kann SOG rekursive Strukturen erzeugen, bei den im Rahmen dieserArbeit durchgeführten Testläufen ergaben sich diese jedoch nicht.

- 67 -

Abbildung 15 RTN und äquivalente kontextfreie Gram matik (aus Winograd1983:197). Die mit „Jump“ bezeichneten Kanten ermöglichen Fakultativ -Konstruktionen, Rekursion lässt sich durch Schleifen (wie an den Knoten d, fund g) abbilden.

6. Zusammenfassung und Fazit

Der Titel dieser Arbeit enthält zu Recht den Begriff „Entwurf“, denn es

kann selbstverständlich nicht behauptet werden, dass hier alle Probleme

der automatischen Paradigmenerkennung gelöst werden konnten. Dies

war jedoch auch nicht das Ziel, vielmehr ging es darum, die Machbarkeit

eines solchen Ansatzes zu untersuchen und zu prüfen, ob und in wie

weit sich paradigmatische Relationen automatisiert und ohne Rückgriff

auf linguistisches Wissen aus einem Korpus extrahieren lassen – wie in

Kapitel 4.2 gezeigt werden konnte, ist dies grundsätzlich möglich, auch

wenn eine qualitative und quantitative Verbesserung der Erkennungsrate

für eine Anwendung außerhalb einer Machbarkeitsstudie notwendig wäre.

Zwar ist die Grundidee des SOG- Modells nicht grundsätzlich neu, wie der

Vergleich mit den in Kapitel 2 vorgestellten Ansätzen zeigte, doch sowohl

der Anspruch an das System als auch die Realisierung sind im Vergleich

zu den alternativen Ansätzen stärker elaboriert. Im Gegensatz zu diesen

drei Modellen war es das Ziel von SOG, linguistisch adäquate Kategorien

zu bilden (und nicht lediglich unspezifizierte Äquivalenzklassen wie in

ADIOS oder rein syntaktische Kategorien wie in ABL) – dieser Anspruch

konnte zumindest teilweise erreicht werden, was wiederum auf die

erweiterten Fähigkeiten von SOG zurückzuführen ist: Der Zugriff auf

externe Textquellen erlaubte es, generierte Hypothesen (wenn auch nur

eingeschränkt) zu überprüfen und damit den durch das verarbeitete

Korpus begrenzten Rahmen zu verlassen. Auch die Kombination der

Bewertungsfunktion (3) aus Kapitel 3.1.1 mit den in Kapitel 3.1.2

beschriebenen Filterfunktionen ist in diesem Zusammenhang zu nennen,

denn so wurde es ermöglicht, konkordanz - und strukturbasierte Daten

zu verbinden. Hier sind allerdings weitere Untersuchungen notwendig –

es soll nicht behaupte t werden, dass Formel (3) optimale Ergebnisse

liefert, evtl. lassen sich dort weitere Faktoren berücksichtigen, ebenso wie

die Implementation zusätzlicher Strukturregeln zu untersuchen ist.

Generell gilt, dass die bisherigen Bewertungsfunktionen verbessert

- 68 -

werden müssen – Formel (3) ebenso wie die Filterfunktionen und das in

Kapitel 3.1.3 vorgestellte Stufensystem. Manuell gesetzte Grenzwerte (wie

bspw. im Rang- Filter) ermöglichen zwar eine einfache Anpassung an die

vorhandenen Korpora, sind jedoch zwangsläufig für jedes neue Korpus

neu zu justieren, was offensichtlich nicht mit dem Ziel der automatischen

Paradigmenbildung vereinbar sein kann.

Grundsätzlich lassen sich Verbesserungen des SOG- Algorithmus in zwei

Gruppen aufteilen: Technische und linguistisch- statistische Methoden.

Die technischen Verbesserungen äußern sich dadurch, dass ein größeres

Korpus schneller verarbeitet werden könnte, als dies jetzt geschieht. Wie

bereits in Kapitel 3.1.5 erwähnt, enthält der SOG- Algorithmus dadurch,

dass während der Paradigmenerkennung jeder Satz mit jedem anderen

Satz verglichen wird, einen „Flaschenhals“ bezüglich des

Laufzeitverhaltens – die benötigte Rechenzeit allein in diesem

Programmschrit t verhält sich ungefähr quadratisch zur Anzahl der Sätze

des Korpus. Gleichzeitig steigt auch die Anzahl der in der

Erkennungsphase generierten Hypothesen mit jedem Satz stark an, so

dass nicht nur die Prozessorleistung, sondern auch der verfügbare

Arbeitsspeicher den Umfang des zu untersuchenden Korpus

beschränken. Prinzipbedingt lässt sich dies – wie bereits teilweise, u.a.

durch parallele Verarbeitung auf einem Mehrprozessor - Rechner und

durch Nutzung von zeit - und speicheroptimierten Bibliotheken 62 – nur

begrenzt optimieren, um deutlich größere Korpora zu prozessieren, ist

eine Änderung der Architektur von SOG nötig. Zum einen ließe sich durch

Zugriff auf eine Datenbank das Speicherproblem lösen (wenn auch zu

Ungunsten des Laufzeitverhaltens), zum anderen wäre zu untersuchen,

ob der Prozessierung eine Auswahl „geeigneter“ Sätze vorangestellt

werden kann, so dass die Menge der zu verarbeitenden Daten reduziert

werden kann. Auch ein dynamisches System, welches es erlaubt, während

der Prozessierung das Korpus zu erweitern, so dass bspw. nur die

vielversprechendsten Hypothesen verarbeitet und mit neuen Sätze

kombiniert werden, würde die Einschränkungen der Hardware umgehen.

Auf linguistischer Seite ist insbesondere der Einsatz einer

62 Vgl. Anhang C

- 69 -

strukturoptimierenden Komponente zu forcieren, um aus partieller

Redundanz innerhalb einer PH (oder auch zwischen zwei PHs, wie in

Abbildung 13 auf Seite 63 ) auf eine Grundform der Struktur zu schließen.

So ist sich bspw. die interne Struktur der Subparadigmen innerhalb des

von SOG generierten Paradigmas in Abbildung 16 so ähnlich, dass sie

algorithmisch erkannt und das Paradigma in die Struktur in Abbildung 17

überführt werden könnte.

Abbildung 16 Paradigma mit ähnlich strukturiertenSubparadigmen (May/3 / 3: 1530)

Abbildung 17 (Manuell) optimierte Struktur desParadigmas aus Abbildung 16

Das Beispiel zeigt, dass eine Restrukturierung gleichzeitig auch zu

weiteren syntagmatischen Erkenntnissen führen könnte, denn in

Abbildung 16 ist die Information, dass es sich bei gar und natürlich um

fakultative Elemente handelt, nur implizit enthalten, während dies in 17

explizit in dem entsprechenden Paradigma abgebildet ist.

Prinzipiell zeigen beide Abbildungen auch, dass sich strukturelle

Informationen aus Null- Paradigmen ableiten lassen, denn die

fakultativen Wörter müssen aufgrund ihrer Fakultativität in der Struktur

- 70 -

keinemmir nicht

ihrihnen

nicht

garnatürlich

im traumeNOTHING

nichtmir

ihrihnenmir

garnatürlich

NOTHING

im traumeNOTHING

nicht

keinem

des jeweiligen Satzes eine untergeordnete Rolle spielen. Dies könnte es

ermöglichen, Baumstrukturen aufzubauen, die denen von

Phrasenstrukturgrammatiken ähneln bzw. sogar äquivalent zu ihnen

sind. Allerdings lässt sich an der Abbildung gleichzeitig ein Problem

erkennen, das die Konstruktion von Baumstrukturen erschwert: Zum

einen kann das Verhältnis zwischen mehreren Null- Paradigmen (wie [gar

| natürlich | ∅ ] und [nicht | ∅ ]) so nicht aufgelöst werden, zum

anderen wird in dieser Struktur das Verb, von dem beide Null-

Paradigmen abhängig sind, nicht berücksichtigt.

Schließlich wäre zu prüfen, wie weit sich die Ergebnisse verbessern

lassen, wenn SOG als Komponente des SEMALD- Frameworks arbeitet und

so mit anderen Komponenten interagieren kann. Bspw. könnte der

Kontext von Sätzen, der bisher ignoriert wurde, durch die Ermittlung

semantischer Nähe (z.B. durch eine SOM) berücksichtigt werden, ebenso

könnte durch statistische Vorverarbeitung (wie Named- Entity- Extraction ,

um Konstruktionen wie {[andrea | joschka ] fischer } und {old [death |

firehand ]} zu vermeiden) der Alignment - Vorgang während der

Paradigmenerkennung optimiert werden.

Mit Hilfe dieser Optimierungen könnte es möglich sein, den „Entwurf

SOG“ zu einer praktisch einzusetzenden Anwendung zu machen – ob

lediglich als kontextabhängiger Thesaurus, als unterstüt zendes System

für andere, weniger robuste sprachverarbeitende Systeme oder als

Hintergrund - Applikation im Information Retrieval, um automatisch

generierte paradigmatische Relationen in den Retrieval - Prozess mit

einfließen zu lassen – die Anwendungsmöglichkeiten für ein solches

System sind vielseitig.

Dazu ist es jedoch notwendig, eine bessere Trennung von guten und

schlechten Hypothesen vornehmen zu können. Eine Fehlerquote von über

30 % (wie die Prozessierung des May- Korpus) ist – insbesondere für ein

iterativ arbeitendes System – inakzeptabel, ebenso wie es eine leichte

Verbesserung der Quote bei einer Halbierung des Outputs ist. Solange die

Gefahr besteht, dass – so in der Entwicklungsphase geschehen –

Paradigmen generiert werden wie [schweine | r inderhirn | cdu ], ist von

- 71 -

einem professionellen Einsatz abzura ten.

- 72 -

7. Literatur

Benden, Christoph und Jürgen Hermes (to appear): Präprozessierung mitNebenwirkungen: Dynamische Annotation .

Benden, Christoph (to appear): Automated detection of morphemes usingdistributional measurements.

Bird, Steven, David Day, John Garofolo, John Henderson, ChristopheLaprun, Mark Liberman (2000): ATLAS: A Flexible and ExtensibleArchitecture for Linguistic Annotation . online unterhttp: / / c iteseer.ist.psu.edu /bird00atlas.html

Brin, Sergey (1999): Extracting Patterns and Relations from the World WideWeb . online unter http: / / dbpubs.stanford.edu:8090 / p ub / 1999 - 65.

Burgess, Curt, Key Livesay, Kevin Lund (1998): Explorations in ContextSpace: Words, Sentences, Discourse . online unter http: / / locutus.ucr.edu / reprintPDFs/bll98dp.pdf

Bußman, Hadumod (1990): Lexikon der Sprachwissenschaft . 2. Auflage.Alfred Kröner Verlag, Stuttgart.

Dagan, Ido, Lillian Lee, Fernando C. N. Pereira (1998): Similarity- BasedModels of Word Coocurrence Probabilities. online unter http: / /www.cis.upenn.edu /%7epereira /papers / s im -mlj.pdf

Deligne, Sabine und Yoshinori Sagisaka (1998): Learning a syntagmaticand paradigmatic structure from language data with a bi- multigrammodel . online unter http: / / ci teseer.ist.psu.edu / deligne98learning.html

Dennis, Simon & Harrington, M (2001). The Syntagmatic ParadigmaticModel: An distributed instance- based model of sentence processing .online unter http: / / l sa.colorado.edu / ~ s i mon /NLPNN2001.pdf

Dennis, Simon (2003): A Comparison of Statistical Models for theExtraction of Lexical Information from Text Corpora . online unter http: / / l sa.colorado.edu / ~ s imon /CogSci2003%20LexicalSemantics2.pdf

Dennis, Simon (2004). A Memory- based Theory of Verbal Cognition . onlineunterhttp: / / l sa.colorado.edu / ~ s i mon /SyntagmaticParadigmaticModel.pdf

Duclaye, Florence, Francois Yvon, Olivier Collin (2002): Using the Web as aLinguistic Resource for Learning Reformulations Automatically . onlineunter http: / / ci teseer.ist.psu.edu /558153.html

- 73 -

Edelman, Shimon, Zach Solan, David Horn, Eytan Ruppin (2004): Bridgingcomputational, formal and psycholonguistic approaches to language . online unter http: / / kybele.psych.cornell.edu / ~ e delman /cogsci04.pdf

Haegeman, Liliane (1999): Introduction to Government & Binding Theory.Second Edition . Oxford, Cambridge (MA): Blackwell Publishers.

Harris, Zelig Sabbettai (1976): Vom Morphem zur Äusserung . In:Beschreibungsmethoden des amerikanischen Strukturalismus. VonElisabeth Bense, Peter Eisenberg, Hartmut Haberland (Hrsg.).Linguistische Reihe – Band 16. München: Max Hueber Verlag.

Harris, Zelig Sabbettai (1979): Mathematical structures of language . 2.Auflage. Huntington, New York: Robert E. Krieger Publishing Company.

Heaton, Jeff (2002): Programming Spiders, Bots and Aggregators in Java .Alameda : Sybex.

Hindle, Donald (1990): Noun classification from predicate- argumentstructures . online unter http: / /www.spinfo.uni -koeln.de/ forschung / papers /P90 - 1034.pdf

Kohonen, Teuvo (1995): Self- Organizing Maps . Berlin, Heidelberg, NewYork: Springer.

Lohnstein, Horst (1996): Formale Semantik und natürliche Sprache:einführendes Lehrbuch . Opladen: Westdeutscher Verlag.

Lyons, John (1995): Einführung in die moderne Linguistik. München:C.H.Beck.

Manning, Christopher und Hinrich Schütze (1999): Foundations ofStatistical Natural Language Processing . Cambridge (MA), London: MITPress.

Mason, Oliver (2004): Automatic Processing of Local Grammar Patterns .Online unter www.cs.bham.ac.uk / ~ m gl /cluk / pa pers / mason.pdf

McEnery, Tony und Andrew Wilson (2003): Corpus Linguistics. AnIntroduction . 2. Auflage. Edinburgh: Edinburgh University Press.

Riloff, Ellen und Rosie Jones (1999): Learning dictionaries for informationextraction by multi - level bootstrapping . online unter http: / /www.cs.utah.edu / ~ r i loff /psfiles / aaai99.pdf

Rolshoven, Jürgen (2004): Strategies of Licensing in Natural LanguageProcessing. In: Reinhard Köhler, Alexander Mehler (Hrsg.): Aspects of

- 74 -

Automatic Text Analysis. (Festschrift in Honour of Burghard Rieger).Berlin, Heidelberg: Springer.(erscheint).

Sankoff, David und Joseph B. Kruskal (1983): Time warps, string edits andmacromolecules: the theory and practise of sequence comparison .Reading (MA): Addison Wesley.

Schneidermeier, Lutz (2003): SemGen Projektphase 1: Korpus undSEMALD . online unter http: / /www.spinfo.uni -koeln.de/ forschung / papers /SemGenTaks1.pdf

Sekine, Satoshi (2000): Extracting synonymous expressions from multiplenewspaper documents . online unter http: / / nlp.cs.nyu.edu /%7Esekine/papers / pa raphrase01.pdf

Sinclair, John (1991). Corpus, Concordance, Collocation . Oxford: OxfordUniversity Press.

Solan, Zach, Eytan Ruppin, David Horn, Shimon Edelman (2002):Automatic acquisition and efficient representation of syntacticstructures . online unterhttp: / /www.tau.ac.il / ~ z solan /pa pers / s oletalb2002.pdf

Solan, Zach, David Horn, Eytan Ruppin, Shimon Edelman (2003):Unsupervised efficient learning and representation of languagestructure . online unterhttp: / / neuron. tau.ac.il / ~ horn / p ublications / solan - cogsci03- final.pdf

Solan, Zach, David Horn, Eytan Ruppin, Shimon Edelman (2004):Unsupervised context sensitive language acquisition from a largecorpus . online unterhttp: / / neuron. tau.ac.il / ~ horn / p ublications /nips031.pdf

van Zaanen, Menno Matthias (1999): Bootstrapping Structure usingSimilarity . online unter http: / / i lk.uvt.nl / ~ mvzaanen / docs / p_clin99.pdf

van Zaanen, Menno Matthias und Pieter Adriaans (2001): Comparing twounsupervised grammar induction systems: Alignment - based learningvs. EMILE. online unterhttp: / / ilk.uvt.nl / ~ mvzaanen / d ocs / p_bnaic01.pdf

van Zaanen, Menno Matthias (2003): Alignment - Based Learning versusData- Oriented Parsing . online unterhttp: / / ilk.uvt.nl / ~ mvzaanen / d ocs /c_dop03.pdf

Winograd, Terry (1983): Language as a cognitive Process. Vol. 1: Syntax .Reading (MA): Addison - Wesley.

- 75 -

Anhang A: Übersicht der häufigsten Wörter des Korpus

Häufigste Wörter im SZ- Korpus Häufigste Wörter im Winnetou -Korpus

Wort Rang abs.Häufigkeit

Wort Rang abs.Häufigkeit

der 1 14973die 2 13958in 3 7954und 4 6819NUMERICAL 5 5840den 6 4720von 7 4710das 8 3648zu 9 3560im 10 3468des 11 3277mit 12 3214für 13 3132auf 14 2974sich 15 2890nicht 16 2741dem 17 2724ein 18 2489eine 19 2343als 20 2236nach 21 2208er 22 2181es 23 2164an 24 2024am 25 2015dass 26 1956auch 27 1931ist 28 1865werden 29 1713bei 30 1692sie 31 1676aus 32 1634vor 33 1581hat 34 1492sagte 35 1424sei 36 1364einer 37 1353über 38 1264einem 39 1243um 40 1149einen 41 1129hatte 42 1126habe 43 1100gegen 44 1085wie 45 1026aber 46 1001noch 47 976war 48 937wird 49 931haben 50 871

und 1 14165ich 2 11350die 3 9997der 4 8728zu 5 7718er 6 6654nicht 7 6477es 8 5949das 9 5602den 10 5538sie 11 5163in 12 4921wir 13 4729daß 14 4274so 15 4141sich 16 3985mit 17 3937ihr 18 3902ein 19 3875von 20 3599ist 21 3594war 22 3343aber 23 3303auf 24 3240mir 25 3100uns 26 2914mich 27 2867dem 28 2700an 29 2578als 30 2548eine 31 2373wie 32 2201euch 33 2127auch 34 2126nach 35 2057hatte 36 2028da 37 2016um 38 1918wenn 39 1873sein 40 1860einen 41 1814ihm 42 1805noch 43 1774des 44 1742ihn 45 1727was 46 1711dann 47 1533haben 48 1491hat 49 1441nur 49 1441denn 50 1421

- 76 -