10. Mehrgliedrige lexikalische Einheiten

http://ilias.sfs.uni-tuebingen.de/ilias/le_print.php

1 of 8 18.06.2003 11:37

(Wählen Sie nun "Drucken" aus dem Datei-Menü Ihres Browsers;)

10 - Multi-word terms -

10. Mehrgliedrige lexikalische EinheitenZusammenfassung:In dieser Kurseinheit werden wir die Handhabung, d.h. die Erkennung und lexikographische Behandlung von mehrgliedrigen lexikalischen Einheiten darstellen. Wir werden uns nach einer allgemeineren Übersicht auf Kollokationen und Phraseme konzentrieren.

10.1 - Übersicht über das Thema und Klassifikation von MLE -

10.1 Allgemeine Übersicht und Klassifikation10.1.1 Einleitung

Wir haben bereits in Kapitel 9 von den paradigmatischen und den syntagmatischen Relationen gesprochen, durch welche sich die Bedeutung lexikalischerZeichen zumindest teilweise bestimmen lässt. Nachdem wir in Kurseinheit 6 - in Zusammenhang mit GermaNet - ausführlich auf die paradigmatischen, nämlichlexikalisch-semantischen und konzeptuellen, Relationen zwischen sprachlichen Zeichen eingegangen sind, wollen wir in dieser Lehreinheit auf einigesyntagmatische Relationen zu sprechen kommen. Wenn wir von einem Modell ausgehen, in dem sprachliche Zeichen, allenfalls eingeschränkt durch ihresyntaktische Kombinierbarkeit, frei distribuiert auftreten können, dann beschreiben wir im Folgenden für einzelne sprachliche Zeichen oder auch für Klassensprachlicher Zeichen typische Distributionsbeschränkungen. Diese sind aber wiederum so idiosynkratisch, dass sie im Lexikon beschrieben werden sollten.

Wir knüpfen damit an den letzten Abschnitt der Kurseinheit 9 an, in dem aus der Sicht der lexikalischen Akquisition Selektionsbeschränkungen als eine Form derDistributionsbeschränkung für lexikalische Zeichen beschrieben wurden.

Gegenstände dieser Kurseinheit sind die syntakto-semantische Beziehung der Kollokation, die wir zwischen Paaren von lexikalischen Zeichen ansetzen wollen,und die etwas weiter gefasste, vor allem statistisch definierte Beziehung der Kookkurrenz.

Wir werden uns außerdem mit Phrasemen befassen, die eine Klasse komplexer Lexeme darstellen. Das Charakteristische an Phrasemen ist, dass sie eineGesamtbedeutung haben, die aus den Bedeutungen der einzelnen Konstituenten nicht erschließbar ist. Darüber hinaus sind viele Phraseme syntaktisch nichtwohlgeformt.

10.1.2 Begriffsdefinition(en)

Verschiedentlich wurden und werden die hier beschriebenen lexikalischen Kombinationen unter dem Begriff "Mehrwortlexeme" zusammengefasst. Der Begriff"Mehrwortlexem" ist allerdings problematisch. Wenn wir uns an der terminologischen Unterscheidung zwischen Zeichenkette, (Text-)Wort und lexikalische Einheit orientieren, die wir in Kurseinheit 9 eingeführt haben, dann können wir einzelne Bestandteile von Mehrwortlexemen (z.B. unikale Komponenten wie gäbein gang und gäbe ) nicht als Textwörter bezeichnen, da sie keine eigene Bedeutung tragen (außerhalb dieses komplexen Lexems).

Man spricht deshalb besser von mehrgliedrigen lexikalischen Einheiten (MLE). Die Glieder können dabei einmal Morphe sein, wie bei den meisten deutschenKomposita (vgl. Zahn-bürste) oder aber Zeichenketten, wie bei vielen englischen oder spanischen Komposita (vgl. tooth brush, cepillo de dientes). Wenn wir vonZeichenketten reden, ersparen wir uns die auf jeden Fall schwierige Entscheidung, ob diese, wenn sie ein mehrgliedriges Lexem instantiieren, wirklich Wörter indem von uns bestimmten Sinn sind.

10.1.3 Klassifikation

Wir wollen die Klasse der mehrgliedrigen lexikalischen Einheiten (MLE) weiter untergliedern. Die verschiedenen Arten von MLE werden sowohl inPrintwörterbüchern als auch in elektronischen Wörterbüchern unterschiedlich behandelt, wobei sich bei einigen Arten spezifische Unterschiede derRepräsentation in beiden Medien ergeben. Wir unterscheiden also:

Phraseme (engl.: idioms). Die Gesamtbedeutung des Zeichens ist nicht aus den Bedeutungen seiner Teile erschließbar.Kollokationen. Die Bedeutung von Kollokationen ist in fast allen Fällen aus den Bedeutungen ihrer Bestandteile erschließbar. Das Besondere undIdiosynkratische dieser Konstruktionen besteht darin, dass meistens zwei lexikalische Zeichen eine Kombination bilden, die andere, theoretisch möglicheKombinationen zwischen synonymen lexikalischen Zeichen ausschließen oder markiert erscheinen lassen (z.B. deutsch schütteres Haar = englisch thin hair). mehrgliedrige Komposita. Diese findet man im Englischen und in den romanischen Sprachen, selten im Deutschen. Einige Komposita sind transparent,also aus ihren Bestandteilen erschließbar (tooth brush), andere sind dies nicht.Phrasale Verben und Partikelverben. Verben dieser Klasse bestehen aus einem Basisverb und einem Funktionswort oder Adverb (englisch (to) throw up; deutsch aufstoßen). Während diese lexikalischen Zeichen in der deutschen Tradition einelementig repräsentiert werden, werden im Englischen Verb undPartikel beim Ansetzen einer Grundform getrennt.Mehrgliedrige Funktionswörter . Lexikalische Zeichen dieser Klasse bestehen aus Folgen von Präpositionen, Adverbien etc. Diese Bestandteile müssen imText nicht unmittelbar aufeinander folgen (vgl. deutsch um NP(gen) willen)

Wir werden uns im Folgenden auf die beiden wichtigsten und schwierigsten Gruppen beschränken: die Phraseme und die Kollokationen.

(Anmerkung: in diesem Semester werden wir uns ausschließlich mit den Kollokationen beschäftigen.)

10.2 - Kollokationen in der linguistischen Theorie -

10.2 Kollokationen in der linguistischen Theorie


2 of 8 18.06.2003 11:37

10.2.1 Kollokationen

Wir werden im Folgenden drei unterschiedliche Auffassungen von Kollokationen darstellen:

Die Auffassung des britischen Kontextualismus, vor allem vertreten durch R. Firth (vgl. Firth, 1957; Firth, 1968a; Firth, 1968b)1.Die Auffassung der kontinentaleuropäischen (Meta)-Lexikographie, vertreten hier durch die Schriften von Hausmann (vgl. Hausmann, 1985)2.die Auffassung von Kollokationen als "Lexical Functions", die Mel’

�uk im Rahmen seiner Meaning-Text-Theory entwickelt hat (vgl. Mel’cuk, 1998,

Wanner, Mel’cuk, 1996).3.

Wir werden dabei so wenig wie möglich auf den jeweiligen sprachtheoretischen Rahmen eingehen, sondern uns auf die jeweilige Auffassung von "Kollokation"und die praktischen Folgen dieser Sichtweise im Kontext der Computerlexikographie konzentrieren. Der weitere theoretische Hintergrund kann aus den obenangegebenen Texten erschlossen werden.

10.2.2 Der britische Kontextualismus

Die linguistische Forschung des britischen Kontextualismus ist stark empirisch ausgerichtet. Im Mittelpunkt der Untersuchung steht der Text. Ein wichtigerGegenstand der Untersuchung sind Wörter. Dabei werden Wörter einerseits, aus paradigmatischer Perspektive, als Systemwörter charakterisiert, andererseits,aus syntagmatischer Perspektive, als Strukturwörter .

Dieser Zusammenhang soll in Abbildung 1 verdeutlicht werden. W1 und W2 stehen als Strukturwörter in einer syntagmatischen Beziehung zueinander (inunserem Beispiel: harte Währung ). W1 kann zugleich als Systemwort betrachtet werden (hier: S2) und steht mit anderen Systemwörtern in einerparadigmatischen Beziehung (S1, S3, S4, in unserem Beispiel: stabile, feste, solide).

Das Interesse des Kontextualismus liegt eindeutig auf den syntagmatischen Beziehungen zwischen Strukturwörtern. So heißt es bei Firth programmatisch:

"I propose to split up meaning or function into a series of component functions. Each function will be defined as the use of some language form orelement in relation to some context. Meaning, that is to say, is to be regarded as a complex of contextual relations, and phonetics, grammar,lexicography and semantics each handles its own components of the complex in its appropriate contexts." Firth, 1968a, S. 24

Der Begriff der Kollokation bleibt dabei erstaunlich unscharf:

"The habitual collocations in which words under study appear are quite simply the mere word accompaniment, the other word-material in which theyare most commonly or most characteristically embedded..." Firth, 1968b, S. 180

Im Prinzip kann in einem Text von 101 Wörtern jedes Wort mit jedem eine Kollokation bilden, was 5500 Kollokationen entspricht. Dass dieses Verfahren soweder linguistisch noch lexikographisch operationalisierbar ist, liegt auf der Hand. In der Praxis werden Kollokationen deshalb so bestimmt, dass die in einemText enthaltenen Strukturwörter direkt aufeinander folgen müssen oder dass ein einzelnes Strukturwort zur Ausgangseinheit bestimmt wird und die für dieBeschreibung seiner kollokativen Bedeutung als wichtig erachteten Strukturwörter hinzugenommen werden (vgl hierzu Lehr, 1996, S. 22f). Firth selber schränktseinen Begriff der Kollokation durch das Prädikt "habitual" ein (s. das Zitat oben; danach wäre die in Abb. 1 hervorgehobene Verbindung von W1 und W2habituell). Ein anderer Vertreter des Kontextualismus bringt einen quantitativen Aspekt hinein:

"In this study we are only concerned with the first category which we shall call co-occurrents in the narrow sense of collocations which arestatistically positive and extremely relevant." Geffroy, Lafon, Seidel, Tournier, 1973, S. 115

Wie wir später sehen werden ist der Begriff der "Signifikanz" des Kovorkommens zweier Textwörter statistisch auf verschiedene Weisen operationalisierbar.Zugleich ist uns mit dem Term co-occurence (deutsch: Kovorkommen) ein Mittel zur weiteren Differenzierung gegeben. "Kollokation" qualifiziert danach einWortpaar, das in statistisch signifikanter Weise zusammen vorkommt. Aber nicht jedes signifikant kovorkommende Wortpaar ist eine Kollokation. Die weiterelinguistische Qualifikation leistet z.B. der Ansatz von Hausmann, den wir im nächsten Ansatz vorstellen werden. Zunächst wollen wir jedoch auf einige weiterePräzisierungen im Umfeld des Kontextualismus eingehen.

Greenbaum (s. Greenbaum, 1970) möchte syntaktische Beziehungen zwischen den Kollokationspartnern berücksichtigt wissen:

"A more valuable, if more modest, contribution might be made to the study of collocations if a relatively homogenous class of items were selectedand an investigation undertaken of the collocation of each item in the class with other items that are related syntactically in a given way."Greenbaum, 1970, S. 13

Die ursprünglich ungerichtete Beziehung der beiden Kollokationspartner zueinander wird später als gerichtet betrachtet. So unterscheidet z.B. Sinclair zwischennode und collocate. Wir werden diesem Vorschlag bei Hausmann wiederbegegnen.

Die Idee der Klassifizierung von lexikalischen Einheiten nach Ähnlichkeiten in ihrem "collocational range" wird im Konzept der lexical sets wiederaufgenommen


3 of 8 18.06.2003 11:37

(vgl. Sinclair, 1991 und Abbildung 2).

Weitghend ungeklärt bleibt die Frage, welcher Grad der Ähnlichkeit des Kontextes für die Etablierung eines "lexical set" vorausgesetzt werden muss.

10.2.3 Hausmann und die deutsche / französische Lexikographie

Sowohl in der Praxis als auch in der Theorie hat Franz Josef Hausmann sich vor allem in der deutschen und romanischen Lexikographie einen Namen gemacht.Sein Ansatz, Kollokationen zu bestimmen und zu beschreiben stützt sich stark auf die linguistische Theorie der Romanistik, z.B. auf Coseriu.

Kollokationen sind nach seiner Auffassung nicht ein Phänomen der parole, also des empirisch erfassbaren Sprachgebrauchs, sondern, in der TerminologieCoserius, der Norm. Sie sind damit einen Abstraktionsschritt höher angesiedelt als im britischen Kontextualismus. Hausmann richtet sich denn auch gegen denbritischen Kontextualismus und dessen Frequenzfetischismus. Kollokationen, die seiner Meinung nach interessant und deshalb verzeichnenswert sind, könnenin Texten selten auftreten (wir werden aber später sehen, dass es durchaus statistische Verfahren gibt, die diesen Zusammenhang berücksichtigen).

Hausmann führt den Unterschied zwischen Basis und Kollokator ein. Zwischen diesen beiden Elementen besteht eine gerichtete Beziehung; die Basis bestimmtden Kollokator. Welche Konsequenzen für die Lexikografie das hat, wollen wir an dem Beispiel der Kollokation schütteres Haar erläutern. Wenn ein Sprecheroder Schreiber einen Text produzieren möchte, dann ist ihm daran gelegen zu erfahren, welche Prädikate dem Gegenstand "Haar(e)" sprachlich zugeschriebenwerden können ( lang, kurz, blond, rot, braun, graumeliert, strähnig, voll, dicht, schütter etc.). Dieser potenzielle Benutzer eines Wörterbuchs wird bei der Basis(Haar) nachschlagen, um Unsicherheiten bei der Wortwahl zu klären. Wenn jemand hingegen einen Text liest, dann wird er vermutlich über das Wort schütterstolpern und unter diesem Stichwort nachschlagen, um eine lexikalische Lücke zu schließen. Je nach Verwendungszweck eines Wörterbuches müssenKollokationen also an unterschiedlichen Stellen eingeordnet werden. Um diesen wörterbuchpraktischen bzw. wörterbuchkritischen Aspekt, und um dieVerbesserung der lexikographischen Praxis, geht es Hausmann.

10.2.4 Kollokationen als "Lexical Functions"

Die Behandlung von Kollokationen als lexikalischen Funktionen erfolgt im Rahmen der "Meaning Text Theory". Wir werden nicht weiter auf diesen theoretischenRahmen eingehen. Dieser ist z.B. in Mel’cuk, 1981 dargestellt.

Seinen lexikographischen Niederschlag fand und findet dieser theoretische Ansatz in den "Explanatory Combinatorial Dictionaries" (ECD), die für das Russischeund für das Französische erschienen sind (vgl. Mel’cuk, Zolkovskij (Hrsg.), 1984-1992, Mel’cuk (Hrsg.), 1984-1992). Diese Wörterbücher stellen gewisermaßeneinen Typus in der Mitte zwischen dem traditionellen Printwörterbuch und einer lexikalischen Ressource für NLP dar. Zwar sind die o.g. Wörterbücher alsPrintwörterbücher erschienen. Die lexikographischen Beschreibungen sind aber so stark formalisiert, dass sie einen überaus geübten und eingearbeitetenBenutzer voraussetzen. Andererseits ist diese starke Formalisierung ein Aspekt, der diese Ressourcen für die maschinelle Verarbeitung interessant macht. DerArtikel "Colère" (s. Abbildung 3) mag diesen Aspekt veranschaulichen.


4 of 8 18.06.2003 11:37

Ein Eintrag im ECD besteht aus einer semantischen Zone mit den semantischen Kommentaren, einer syntaktischen Zone, in der Rektionsverhältnisse("Government Patterns") spezifiziert werden, und einer Beschreibung der lexikalischen Kookkurrenz (vgl. Wanner, Mel’cuk, 1996, Abschnitt 2).

Der uns hier interessierende "kombinatorische" Askpekt der lexikalischen Beschreibung ist Gegenstand des dritten Bereichs der lexikalischen Beschreibung.Der Anspruch hier ist kein geringerer als eine systematische Abdeckung der Kovorkommens-Restriktionen, die für ein Lexem gelten. Diese Restriktionen sindnun genau eine alternative Formulierung für das Kollokationspotenzial eines Lexems. Das Mittel hierfür ist eine begrenzte Menge von lexikalischen Funktionen,wobei es neben einer kleinen Anzahl von Standard-Funktionen noch eine offene Erweiterungsklasse (non-standard lexical functions) gibt. Die formale Definitioneiner lexikalischen Funktion ist wie folgt:

"An LF f is a dependency that associates with a Lexeme L, called the keyword of f, a set of (quasi-)synonymous lexemes {L(i)}, called the value of f; an L(i) expresses - with respect to L - an abstract meaning which corresponds to f." Wanner, Mel’cuk, 1996

Wenn man die Terminologien der drei Ansätze vergleicht, dann entspricht dem "keyword" in diesem Kontext der "collocator" oder die Kollokationsbasis und derLexemmenge L(i), die hier der Wert der Funktion genannt wird, entspricht die Kollokantenmenge. Das Neue und Interessante des "Lexical Function"-Ansatzesist genau die Tatsache, dass Gruppen von Kollokanten im Hinblick auf ihre Funktion, die sie in Bezug zur Kollokationsbasis ausüben, zusammengefasst werden.Man beachte aber auch hier die konzeptuelle Nähe zu den "lexical sets" bei John Sinclair. Bei diesen geht die Perspektive allerdings von den Kollokationsbasenaus.

Die Standardfunktionen sind, z.B. im Vorwort des "Dictionnaire explicatif et combinatoire du français contemporain", definiert. Die Definition zur Funktion "Magn"etwa lautet wie folgt:

"Magn: provides for its keyword (which is a lexeme with a scalable meaning) an adjectival or adverbial phrase that expresses the meaning ’intense(ly)’" Wanner, Mel’cuk, 1996

Wir haben die Lexikalische Funktion Magn in dem Artikel in Abbildung 3 markiert.

Lexikalische Funktionen können kombiniert und konfiguriert werden, so dass sich aus dem Basisvokabular von ca. 60 Standardfunktionen ein weit größeresInventar von Funktionen bilden lässt.

Die Datenquellen, die mit dem beschriebenen Instrumentarium entwickelt wurden, also die vorhandenen Wörterbücher, sind eine nützliche Quelle für dieSprachproduktion: Man hat, von der gewünschten Funktion eines Kollokanten ausgehend, Zugriff auf die sprachlichen Einheiten, die diese Funktion in Bezug aufdas Basiswort erfüllen.

10.3 - Extraktion von Kollokationen - quantitative Aspekte -


5 of 8 18.06.2003 11:37

10.3 Extraktion von Kollokationen - quantitative Aspekte10.3.1 Einführung

In den verschiedenen linguistischen und lexikographischen Theorien, die Kollokationen beschreiben, tauchen immer wieder Prädikationen auf, über die wir inden letzten Abschnitten erfahren haben, dass diese sich quantitativ und statistisch operationalisieren lassen. Wir haben zugleich festgestellt, dass sich der Begriff der Kollokation nicht vollständig quantitativ herleiten lässt. Auch aus diesem Grunde haben wir den Term Kovorkommen eingeführt. Dieser lässt sichzusammen mit weiteren Prädikationen (z.B. signifikant) auf verschiedene Weise quantifizieren. Wir werden im Folgenden auf einige bisher angewendeteVerfahren eingehen, wobei wir uns an Kapitel 5 von "Foundations of Statistical Language Processing" (Manning, SchÃ¼tze, 1999) orientieren.

10.3.2 Frequenz von Bigrammen oder Trigrammen

Dieses recht einfache Verfahren wird wie folgt auf ein Textkorpus angewendet. Man zerlegt die Textbasis in Bigramme bzw. Trigramme (in desem Fall Folgenvon zwei oder drei Zeichenketten), filtert aus diesen Bi-/Trigrammen die Zeichenketten heraus, in denen das zu untersuchende Wort (oder eine Wortform des zuuntersuchenden Lemmas) vorkommt und ordnet diese Ketten nach der Häufigkeit des Vorkommens in der Textbasis. Man hat auf diese Weise Gruppen -Paare, Tripel - von unmittelbar aufeinander folgenden Wörtern bzw. lexikalischen Zeichen im Blick. Der Recall dieses Verfahrens ist nur dann gut, wenn sich diestrukturelle Beziehung zwischen Kollokant und Kollokator in deren räumlicher Nähe niederschlägt wie z.B. bei Adjektiv-Substantivpaaren. Die Precision dürfteeher gering ausfallen, da auch Wortpaare hoch gewertet werden, die lexikographisch uninteressant sind. Dies ist z.B. bei hochfrequenten Kollokanten (der, undetc.) der Fall. Da diese generell häufig vorkommen, werden sie wahrscheinlich auch im Umfeld des Kollokators vorkommen. Mit anderen Worten: Die globaleFrequenz der Kollokanten wird nicht berücksichtigt und gewichtet. Die folgenden Beispiele zeigen die Kollokanten des Kollokators essen, einmal in unbereinigter,einmal in manuell bereinigter Form. Liste vorangehender Kollokanten zu "essen" - unbereinigt Liste vorangehender Kollokanten zu "essen" - manuell bereinigtListe folgender Kollokanten zu "essen" - unbereinigt Liste folgender Kollokanten zu "essen" - manuell bereinigt

10.3.3 Durchschnitt und Varianz

In der zweiten Versuchsanordnung wird ein Fenster von Wörtern um ein Schlüsselwort herum betrachtet. Jedes Textwort innerhalb dieses Fensters wird alsKollokator betrachtet. Es wird nicht nur die Häufigkeit des Kovorkommens von Schlüsselwort und Umgebungswort betrachtet, sondern auch die räumlicheDistanz der beiden zueinander in jedem Beleg. Über allen Distanzwerten werden für jedes Paar der Mittelwert und die Varianz berechnet.

Der Varianzwert ist der Indikator für die Güte einer Verbindung. Je niedriger die Varianz, desto konstanter der Abstand von Schlüsselwort undUmgebungswort.Wenn die Varianz niedrig ist, dann gibt der Mittelwert die "typische Position" des Umgebungswortes im Verhältnis zum Schlüsselwort an. Ist die Varianzgroß, dann ist der Mittelwert ohne Belang.

Das Verfahren oder Maß wurde von Smadja eingeführt und ist in Smadja, 1992 beschrieben.

Die folgende Tabelle enthält die Umgebungs"werte" der Kollokanten des Kollokators Mäusen .

Liste von Kollokanten zu Mäusen und deren Verteilungsmuster

Man sieht, dass das Verteilungsmuster von von, mit den unspezifisch ist, wohingegen die Kollokanten Menschen, transgenen, zerfressen eine klare Präferenzfür eine Position aufweisen. Wir haben damit aber noch nichts über weitere linguistische Kriterien gesagt, die diese Kollokanten in Verbindung mit Mäusen zu einer Kollokation im engeren Sinn qualifizieren könnten.

10.3.4 Testverfahren

Was wir eigentlich wissen wollen ist nicht, ob zwei Wörter in einem Korpus oft miteinander vorkommen, sondern, ob sie deutlich öfter vorkommen als sie dastäten, wenn alle Wörter zufällig verteilt wären ("more often than chance").

Die Annahme (Hypothese H(0)) ist die, dass das Vorkommen der zwei untersuchten Wörter unabhängig voneinander ist:

(H(0)) P(w(1),w(2)) = P(w1)P(w2) für zwei Wörter w1 und w2

Es wird die "Sicherheit" bestimmt, mit der diese Hypothese zurückgewiesen werden kann. Wir werden uns im Folgenden einige Testverfahren ansehen.

10.3.5 Der t-Test

Es werden Mittelwert und Varianz einer Stichprobe untersucht unter der Hypothese, dass diese Stichprobe aus einer zugrundeliegenden Verteilung mit demMittelwert � stammt. Der ermittelte Kennwert t der tatsächlich beobachteten Verteilung gibt an, wie wahrscheinlich es ist, dass die Stichprobe aus der zugrundeliegenden Verteilung stammt.

Interpretation: Es geht nur die Varianz der Stichprobe in die Berechnung von t ein. Je größer die Varianz, umso kleiner t. Je größer die Abweichung der beidenMittelwerte von einander, umso größer ist t. Je größer t, um so sicherer können wir sein, dass die Stichprobe nicht aus der zugrunde liegenden Verteilungstammt, d.h. die Wahrscheinlichkeit, dass diese Behauptung falsch ist, sinkt.

Bezogen auf unser Beispiel bedeutet das: Der t-Test berücksichtigt die Anzahl der Kovorkommen zweier Wörter w1 und w2 ( f(w1, w2)) relativ zur Gesamtzahlder Vorkommen beider einzelner Wörter.

Der t-Test eignet sich besonders gut dafür, zwei Verteilungen miteinander zu vergleichen.


6 of 8 18.06.2003 11:37

In diese Gleichung (s. Manning, SchÃ¼tze, 1999, S. 167) gehen die Varianzen beider Verteilungen ein.

Anwendung dieses Verfahrens ist die Ermittlung von Differenzen im "collocational range" zweier bedeutungsähnlicher Wörter (und damit auch die Ermittlungsubtiler Bedeutungsdifferenzen). Church et al. etwa verwenden das Verfahren, um die idiosynkratischen Differenzen im Kollokantenpotenzial derbedeutungsnahen Adjektive strong und powerful zu beschreiben (vgl. Church, Gale, Hanks, Hindle, 1991). Ein Beispiel aus dem Deutschen sind die beidenSubstantive Handeln und Tun. Wenn man das Kollokantenpotenzial der beiden lexikalischen Zeichen vergleicht, dann wird man feststellen, dass Tun negativere Kollokanten (verbrecherisch, hinterhältig ) an sich bindet als Handeln (verantwortungsvoll, überlegt).

10.3.6 Der chi-Quadrat Test

Der chi-Quadrat-Test basiert auf einer Binomialverteilung. Das klassische Beispiel für diese Verteilung ist der wiederholte Wurf einer Münze. Für jedes Ereignis ineiner Folge von Ereignissen wird festgestellt, welcher von zwei Klassen es zugeordnet werden kann. Beim Münzwurf sind die beiden Klassen zum Beispiel"Kopf" und "Zahl".

Übertragen auf die Beobachtung des Vorkommens eines Wortes in einer Textbasis lässt sich dies so formulieren: für jedes Textwort wird festgestellt, ob es sichum das gesuchte Wort handelt oder nicht. Da es sich hier um Paare von Textwörtern handelt, die wir beobachten anhand der Fragestellung, ob ihrtatsächliches Ko-Vorkommen ihr erwartetes Ko-Vorkommen signifikant übersteigt, haben wir es mit vier verschiedenen möglichen Ergebnissen zu tun. In einemfesten Kontext, zum Beispiel einem "Fenster" von fünf Textwörtern,

kommen w1 und w2 gemeinsam vor (das uns interessierende Kovorkommen)kommt w1 vor, nicht aber w2kommt w2 vor, nicht aber w1kommen weder w1 noch w2 vor

Die Ergebnisse kann man in eine Vierfeldertafel eintragen. Das abstrakte Schema einer Vierfeldertafel ist in Abbildung 6 dargestellt. Neben den vier Feldern mitden Vorkommenshäufigkeiten bzw. Wahrscheinlichkeiten der vier möglichen Kombinationen enthält die Tafel Randsummen, zu denen jeweils zwei Werte(einer Spalte oder Zeile) aufaddiert sind.

Wir haben den chi-Square Test einmal auf eine Paar von Textwörtern angewendet, das wir bereits an anderer Stelle gründlicher untersucht haben (Kapitel 5.2 inLemnitzer, 1997). Es handelt sich um die Wörter harten und Bandagen. Die möglichen Kombinationen sind in diesem Fall

(11) harte + Bandagen(12) harte + nicht(Bandagen)(21) nicht(harte) + Bandagen(22) nicht(harte) + nicht(Bandagen)

Dabei ergab sich folgende Verteilung, die durch die Vierfeldertafel in Abbildung 7 dargestellt wird.

Setzt man die Werte in die Formel in Abbildung 8 ein, dann erhält man einen Wert von 172 705,5.

Der Wert ist wie folgt zu interpretieren: je höher er ist, umso stärker weicht die beobachtete Verteilung (hier das Kovorkommen der beiden Ereignisse) von einerzufälligen Verteilung der Daten ab.

Ein entscheidender Nachteil für die Anwendung dieses Tests in unseren Szenarien ist, dass er "störanfällig" ist und verzerrte Ergebnisse wiedergeben kann,wenn in einer oder mehreren Zellen sehr kleine Werte stehen. Wie wir oben gesehen haben, fallen in den Bereich der Kollokationen aber auch Paare vonTextwörtern, die relativ selten vorkommen.

Wer sich weitergehend für diese Teststatistik interessiert, denen sei das Chi-square Tutorial von Prof. Connor-Linton empfohlen.

10.3.7 Likelihood ratios

Die maximum likelihood ratio ist ein Wert, der das Verhältnis zweier Ereignisräume zueinander ausdrückt - den gesamten Parameterraum und einen Teil diesesRaums. Es wird gegen die Hypothese der Gleichverteilung in beiden Räumen geprüft. Er baut ebenfalls auf der Vierfeldertafel auf. Der Test ist verlässlicher alsder soeben beschriebene, vor allem wenn sehr kleine Zahlen in einigen Zellen stehen. Die Funktion ist asymptotisch chi-Quadrat verteilt. Anders ausgedrücktkann so auf die Gleichheit der zweier Binomialverteilungen zugrunde liegenden Parameter geprüft werden.

" Ähnlich kann auch die Gleichheit der Parameter p(j) von s Binomialverteilungen B(n(j),p(j)) getestet werden. Dazu schreibe man in die erste Zeileeiner 2 x s-Tafel jeweils die Anzahl der Erfolge v(j) ... und in die zweite Zeile die Anzahl der Misserfolge n(j) - v(j). Der Test auf Unabhängigkeit indieser Kontingenztafel bedeutet dann gerade das Testen der Hypothese H(0): p(1) = ... p(n)" Hartung, 1993, S. 496

Dies kann man für eine Vierfeldertafel mit der folgenden Gleichung ausdrücken (Abbildung 9):


7 of 8 18.06.2003 11:37

Meine eigenen Untersuchungen haben ergeben, dass man mithilfe der maximum likelihood ratio verlässliche und intuitiv einleuchtende Ordnungsstatistiken überden Kollokanten eines Kollokators erreicht. Auf die Problematik von Konfidenzwerten für Tests werden wir weiter unten näher eingehen.

10.3.8 Mutual information

Das ursprüngliche Anwendungsfeld dieses Verfahrens sind Messungen über zwei Zufallsvariablen. Die Kennziffer quantifiziert die Größe, um die unsereUnsicherheit über die Verteilung der möglichen Ausprägungen einer Zufallsvariable abnimmt, wenn wir die Verteilung der jeweils anderen Zufallsvariablenkennen. Das Maß ist symmetrisch. ("It is the reduction in uncertainty of one random variable due to knowing about another" [Manning, SchÃ¼tze, 1999, S. 66]).

Dieser generelle Ansatz kann wie folgt auf unsere Fragestellung nach der Kollokabilität von zwei beliebigen Textwörtern übertragen werden: Zwei Textwörtersind desto enger aufeinander bezogen, je mehr Informationen wir aus den Vorkommen des einen Textwortes über das Vorkommen des anderen Textwortesentnehmen können.

Als Findeprozedur für Kollokationen wird allerdings die spezifischere "pointwise mutual information" zwischen zwei Ereignissen als Maß angewendet. Gemeinhinwird dieser Wert in bits gemessen, also mit logarithmus zur Basis 2.

Man kann nun recht einfach zeigen, dass dieses Maß seltene Ereignisse bevorzugt: Zwei Ereignisse x und y, die jeweils nur einmal beobachtet werden, dannaber gemeinsam, haben den größten Kennwert, nämlich einen der etwa dem Logarithmus dualis von T entspricht (T sei hier die Größe des untersuchtenKorpus). Diese Bevorzugung seltener Ereignisse führt auch dazu, dass, aus der Sicht der Kollokationssuche, "uninteresting correspondendes" bevorzugt werden(vgl. Manning, SchÃ¼tze, 1999, S. 179).

Abbildung 10 zeigt die MI-Formel:

Wenn man die Frequenzen als Schätzer für die Wahrscheinlichkeiten einsetzt, erhält man:

In dem Falle, dass die Vorkommensfrequenz immer 1 ist (also: a und b kommen im Korpus je einmal vor und in diesem einen Fall gemeinsam), dann erhältman, wie man durch Umformung zeigen kann, als Maximalwert den Logarithmus dualis von T.

Fazit: MI ist ein gutes Maß für statistische Unabhängigkeit, aber ein schlechtes für statistische Abhängigkeit.

Um die Unterschiede deutlich zu machen, zeigen wir zum Schluss eine Liste von Kollokanten zur Basis essen. Die Kollokanten sind geordnet nach denKennziffern, die einmal mittels des "likelihood ratio"-Verfahrens ermittelt wurden (Liste 1), und zum anderen mittels des mutual information index (Liste 2). Liste 1 ("maximum likelihood ratio")Liste 2 ("mutual information index")

10.3.9 Ordnungs- vs. Teststatistiken

Die hier beschriebenen statistischen Testverfahren gehen von bestimmten Verteilungshypothesen aus. Die wichtigste und kritischste Annahme ist die, dass dieWörter in den beobachteten Texten zufällig verteilt sind. Von dieser Annahme ausgehend werden die Abweichungen in den tatsächlich aufgetretenenVerteilungen beobachtet. Der Sinn einer Teststatistik ist nun der, einen Schwellenwert festzulegen. Wird dieser überschritten, dann kann man mit einerbestimmten Sicherheit sagen, dass die beobachtete Stichprobe nicht mit der Grundgesamtheit, für die diese Verteilungsannahme postuliert wird, übereinstimmt.Die Abweichung ist "signifikant". Es ist aber bekannt, dass die meisten Texte kein Produkt von Zufallsprozessen sind. Legt man nun ein gängigesKonfidenzintervall zugrunde, dann sind fast alle beobachteten Erscheinungen "signifikant abweichend" von der hypostasierten Grundgesamtheit. Teststatistikensind deshalb als solche nicht geeignet, um den Ereignisraum schlüssig in "interessante" und "nicht interessante" Phänomene aufzuteilen. Mit ihrer Hilfe gelingtes aber, eine Ordnung in die große Zahl kovorkommender Textwörter zu bringen. Sie sind deshalb als Ordnungsstatistiken eine große Hilfe, den Weizen vonder Spreu zu trennen bzw. die Aufmerksamkeit der Lexikographen auf die Phänomene zu lenken, die interessant und verzeichnenswert sein dürften.

10.4 - Übung -

Übung zu Kurseinheit 101. Vergleichen Sie Zerniks Auffassung, dass die Kombinationen eines lexikalischen Zeichens mit anderen lexikalischen Zeichens keine Schlüsse über dieBedeutung dieses lexikalischen Zeichen erlauben (Zernik 1991a, S. 19f, der Text wurde als Lektüre in Kureinheit 9 empfohlen), mit der berühmten Aussage desbritischen Linguisten Firth: "you shall know a word by the company it keeps". Welche unterschiedlichen Auffassungen über die Bedeutung eines Wortes kommenin diesen beiden Aussagen zum Ausdruck? Welcher der beiden Positionen würden Sie eher zustimmen?

Mel’cuk führt in seinem Inventar lexikalischer Funktionen auch die Funktionen "Incep" ( ~ einsetzen, beginnen) und "Fin" (~ aufhören, zu Ende gehen) auf. DieLexikalische Funktion "Magn" ist bereits im Lehrtext beschrieben worden. Wenn sie diese drei Lexikalischen Funktionen auf die folgenden Lexeme anwenden: Wut, Ärger, Lust, Freude, Wind, welche Kollokatoren können Sie nennen, die diese Funktion(en) erfüllen (Hinweis: wenn Sie dies wünschen, dann können Siedie Funktionen auch auf die englischen Äquivalente der genannten Lexema anwenden).

10.5 - Bibliographie -


8 of 8 18.06.2003 11:37

Church, Kenneth Ward/Gale, William/Hanks, Patrick/Hindle, Donald, "Using statistics in lexical analysisin: Exploiting On-Line Resources to Build a Lexicon".New York:Lawrence Erlbaum, 1991.

Firth, John Rupert, "Modes of Meaningin: Papers in Linguistics 1934-1951".London:Longmans, 1957.

Firth, John Rupert, "Descriptive Linguistics and the Study of Englishin: Selected papers of J.R. Firth 1952-1959".London:Longmans, 1968a.

Firth, John Rupert, "A synopsis of Linguistic Theoryin: Selected papers of J.R. Firth 1952-1959".London:Longmans, 1968b.

Geffroy, Annie/Lafon, P./Seidel, Gill/Tournier, M., "Lexicometric Analysis of Co-occurrencesin: The Computer and Literary Studies".Edinburgh, 1973.

Greenbaum, Sydney, "Verb-Intensifier Collocations in English. An experimental approach".Den Haag and Paris, 1970.

Hartung, Joachim, "Statistik. Lehr- und Handbuch der angewandten Statistik". München and Wien, 1993.

Hausmann, Franz Josef, "Kollokationen im deutschen Wörterbuch. Ein Beitrag zur Theorie des lexikographischen Beispielsin: Lexikographie und Grammatik.Akten des Essener Kolloquiums zur Grammatik im Wörterbuch, 28.--30.6 1984".Tübingen:Niemeyer, 1985.

Lehr, Andrea, "Kollokationen in maschinenlesbaren Korpora. Ein operationales Analysemodell zum Aufbau lexikalischer Netze".Tübingen:Niemeyer, 1996.

Lemnitzer, Lothar, "Extraktion komplexer Lexeme aus Textkorpora".Niemeyer, Tübingen, 1997.

Manning, Christopher D./Schütze, Hinrich, "Foundations of Statistical Natural Language Processing".Cambridge (Mass.) and London, The M.I.T. Press, 1999.

Mel’cuk, Igor A./Zolkovskij, A. K. (Hrsg.), "Explanatory Combinatorial Dictionary of Modern Russian".Wien:Wiener Slawistischer Almanach, 1984-1992.

Mel’cuk, Igor A. (Hrsg.), "Dictionnaire explicatif et combinatoire du francais contemporain. 3 Vol.".Montreal: Presse de l’Universite de Montreal, 1984-1992.

Mel’cuk, Igor A., "Meaning-text Models: a Recent Trend in Soviet Linguistics", 1981.

Mel’cuk, Igor A., "Collocations and Lexical Functionsin: Phraseology: Theory, Analysis, and Applications".Oxford:Clarendon Press, 1998.

Sinclair, John, "Corpus, Concordance, Collocation".Oxford, 1991.

Smadja, Frank, "{XTRACT}: An Overview", 1992.

Wanner, Leo/Mel’cuk, Igor A., "Lexical Co-occurrence and Lexical Inheritance. Emotion Lexemes in German: {A} Lexicographic Case Studyin: Lexical Functions in Lexicography and Natural Language Processing".Amsterdam:Benjamins, 1996.

Documents

10. Mehrgliedrige lexikalische Einheiten