27
Universität Augsburg Lehrstuhl für Romanische Sprachwissenschaft Unter besonderer Berücksichtigung des Französischen Sommersemester 2012 Proseminar: Synchronische Sprachwissenschaft: Korpuslinguistik Dozent: Dr. Frank Paulikat Seminararbeit vom 17.09.2012 zum Thema Die Aufarbeitung und Analyse der Daten in Lernerkorpora Vorgelegt von: Neele Künzel (BacANIS 6. Semester) zzt. Mühlenstr.11 59423 Unna Tel. 01709078059 E-Mail: [email protected]

Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

Universität Augsburg

Lehrstuhl für Romanische Sprachwissenschaft

Unter besonderer Berücksichtigung des Französischen

Sommersemester 2012

Proseminar: Synchronische Sprachwissenschaft: Korpuslinguistik

Dozent: Dr. Frank Paulikat

Seminararbeit vom 17.09.2012 zum Thema

Die Aufarbeitung und Analyse der

Daten in Lernerkorpora

Vorgelegt von:

Neele Künzel

(BacANIS 6. Semester)

zzt. Mühlenstr.11

59423 Unna

Tel. 01709078059

E-Mail: [email protected]

Page 2: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

2

Inhaltsverzeichnis

1. Einleitung 3

2. Lernerkorpora 3

2.1. Definition 3

2.2. Überblick über den Forschungsstand 5

3. Aufbereitung eines Korpus 6

3.1. Annotation 7

3.1.1. Part-of-Speech Tagging 9

3.1.2. Fehlerannotation 10

4. Analysemethoden von Lernerkorpora 12

4.1. Computergestützte Fehleranalyse 12

4.2. Kontrastive Analyse von Interimssprache 13

5. Part-of-Speech Tagging mit dem TreeTagger 14

5.1. Vorstellung des Annotationsprogramms TreeTagger 14

5.2. Annotation zweier Beispieltexte 16

5.3. Auswertung 18

5.4. Schlussfolgerung 20

6. Schlussbemerkung 20

7. Bibliografie 21

8. Anhang 23

8.1. Beispieltext I 23

8.2. Beispieltext II 23

8.3. Annotierter Beispieltext I 24

8.4. Annotierter Beispieltext II 24

Page 3: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

3

1. Einleitung

Die vorliegende Arbeit befasst sich mit der Aufarbeitung und der Untersuchung der

in einem Korpus enthaltenen Daten. Dabei konzentriere ich mich auf die Kategorie

der Lernerkorpora und gehe insbesondere auf deren Analysemöglichkeiten ein. Im

Zusammenhang der Aufbereitung von Korpusdaten wird das Thema der linguisti-

schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die

für die Analyse von Lernerkorpora besonders relevanten Annotationsarten des Part-

of-Speech Taggings und der Fehlerannotation betrachtet. Im Anschluss wird das An-

notationsprogramm TreeTagger, dessen Hauptfunktion das Part-of-Speech Tagging

ist, vorgestellt. Desweiteren soll die Annotation mit dem TreeTagger anhand zweier

Beispieltexte, einer in einer französischen Zeitung erschienenen Filmkritik und eines

von einem Französischlerner verfassten Textes, demonstriert werden. Dabei soll die

Frage erörtert werden, ob dem TreeTagger aufgrund der in dem Text des

Französischlerners enthaltenen fehlerhaften Wortformen bei der Annotation mehr

Fehler unterlaufen als bei der Annotation eines sprachlich korrekten Textes. So soll

beispielhaft untersucht werden, inwiefern die automatische Annotation von

Lernerdaten möglich ist.

2. Lernerkorpora

2.1. Definition

Der Begriff Lernerkorpus kann folgendermaßen definiert werden:

„Computer learner corpora are electronic collections of authentic FL/SL [foreign lan-

guage/second language] textual data assembled according to explicit design criteria for a par-

ticular SLA/FLT [second language acquisition/ foreign language teaching] purpose. They are

encoded in a standardised and homogeneous way and documented as to their origin and

provenance” (Granger 2002: 7).

In Bezug auf die Authentizität des Sprachmaterials ist anzumerken, dass die Sprach-

daten in Lernerkorpora generell weniger authentisch sind als die in den meisten Kor-

pora, die Daten von Muttersprachlern enthalten. Dies hängt damit zusammen, dass

Texte, die in einer Klassenzimmersituation entstehen, immer in irgendeiner Form

künstlich sind, da sie nicht in einer natürlichen und ungesteuerten Kommunikations-

situation entstehen (vgl. Granger 2002: 8). Trotzdem wird versucht, einen maximalen

Grad an Authentizität zu erreichen, indem zum Beispiel Texte aus freier Textproduk-

tion in das Korpus aufgenommen werden. Die in Lernerkorpora am stärksten vertre-

tenen Textsorten sind Aufsätze und akademische Textsorten wie zum Beispiel Haus-

Page 4: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

4

arbeiten (vgl. Nesselhauf 2002: 130). Was den Begriff Lerner betrifft, werden unter

ihm drei verschiedene Nicht-Muttersprachlervarietäten der betreffenden Sprache

zusammengefasst (vgl. Granger 2002: 8). Hierzu zählt, wenn die betreffende Sprache

in einem Land die offizielle Sprache ist und von den Bewohnern gelernt wird so wie

Französisch als offizielle Sprache im Senegal. Die zweite Varietät betrifft den Zweit-

spracherwerb, der sich auf die Situation bezieht, wenn zum Beispiel Immigranten in

Frankreich oder einem anderen französischsprachigen Land Französisch lernen. Die

dritte Varietät umfasst den Fremdsprachenerwerb, bei dem zum Beispiel Französisch

in einem nicht-französischsprachigen Land meist in einer Klassenzimmersituation

erlernt wird (vgl. Granger 2002: 8).

Die Untersuchung von Lernerkorpora soll Aufschluss über die Sprache von Fremd-

sprachenlernern und über deren Schwierigkeiten in der betreffenden Fremdsprache

geben. Auf diese Weise erhofft man sich, den Fremdsprachenunterricht und die Un-

terrichtsmaterialien verbessern zu können (vgl. Granger 2002: 4). Außerdem können

Fragen wie der Einfluss der Muttersprache auf die betreffende Fremdsprache unter-

sucht werden. Damit das Lernerkorpus auch seinem Zweck nachkommt, ist es ent-

scheidend, dass das Korpus mit Sorgfalt und anhand bestimmter Kriterien zusam-

mengestellt wird (vgl. Granger 2002: 9). Gerade weil der Fremd- und Zweitsprach-

erwerb verschiedene Personengruppen umfasst, sind strikte Kriterien für die Erstel-

lung eines Lernerkorpus wichtig. „A random collection of heterogeneous learner data

does not qualify as a learner corpus“ (Granger 2002: 9). In Bezug auf den Lerner

gehören zu diesen Kriterien zum Beispiel der Lernkontext, seine Muttersprache, an-

dere Fremdsprachen und das Niveau seiner Fremdsprachenkenntnisse. Im Hinblick

auf die Aufgabenstellung ist die zeitliche Begrenzung, der Gebrauch von Hilfsmitteln

wie Wörterbüchern oder Grammatiken, das Publikum oder der Kommunikations-

partner und ob es sich um eine Prüfungssituation handelt, zu beachten (vgl. Granger

2002: 9).

Desweiteren können Lernerkorpora anhand von vier Dichotomien klassifiziert wer-

den (vgl. Granger 2002: 10). So ist die Mehrheit der Lernerkorpora einsprachig. Es

gibt aber auch wenige mehrsprachige Lernerkorpora, zu denen zum Beispiel Lerner-

Übersetzungskorpora zählen. Außerdem enthalten Lernerkorpora tendenziell eher

allgemeine nichtspezialisierte Sprache als zum Beispiel Fachsprachen (vgl. Granger

Page 5: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

5

2002: 11). Darüber hinaus sind Lernerkorpora zumeist synchron und nicht diachron,

das heißt, sie beschreiben den Sprachgebrauch von Lernern zu einem bestimmten

Zeitpunkt. So gibt es im Bereich der Lernerkorpora nur wenige Longitudinal-Studien

(vgl. Granger 2002: 11). Eine von ihnen ist zum Beispiel die Studie von Malin Ågren

von 2008, die mit dem Lernerkorpus Corpus Écrit de Français Langue Étrangère der

Universität Lund arbeitet und die Entwicklung der Französischkenntnisse von

schwedischen Schülern über ein Schuljahr beschreibt. „L’analyse longitudinale […]

présentera le développement morphologique individuel de quinze apprenants du

français L2 dans trois tâches écrites reparties sur une année scolaire“ (Ågren 2008:

229). Außerdem enthalten Lernerkorpora zumeist geschriebene und nicht gesproche-

ne Sprache (vgl. Granger 2002: 11). Lernerkorpora unterscheiden sich auch in Bezug

auf die Aufarbeitung der Sprachdaten. So gibt es sowohl Lernerkorpora, die nur rei-

nen unbearbeiteten Text enthalten, als auch Lernerkorpora, zu deren Texten Informa-

tionen über zum Beispiel grammatikalische Kategorien oder syntaktische Funktionen

hinzugefügt wurden (vgl. Granger 2002: 10). Auf das Thema der Annotation von

Lernerkorpora wird in Kapitel drei näher eingegangen.

2.2. Überblick über den Forschungsstand

Die Korpuslinguistik begann erst in den späten 1980er Jahren, sich mit von Sprach-

lernern produzierten Sprachdaten zu beschäftigen und somit eine Brücke zwischen

der Korpuslinguistik und der Fremd- und Zweitsprachenerwerbsforschung zu schla-

gen (vgl. Granger 2002: 4). Die Idee authentisches Sprachmaterial von Fremdspra-

chenlernern zu sammeln und zu untersuchen entstand allerdings schon früher. So

wurden vor allem in den 1960er und 1970er Jahren Sammlungen von

Fremdsprachenlernerdaten zusammengestellt, um diese besonders auf Fehler zu un-

tersuchen. Im Vergleich zu Lernerkorpora wurden diese Sammlungen jedoch nur als

Informationsquelle von Fehlern betrachtet und die Sammlung der Texte selbst wurde,

nachdem die Fehler aus ihnen extrahiert wurden, außer Acht gelassen (vgl. Nessel-

hauf 2004: 128). Außerdem waren diese Datensammlungen verhältnismäßig klein, da

vor der Erfindung spezieller Softwareprogramme zur Verwaltung von großen Da-

tenmengen die Zusammenstellung und Untersuchung von Sprachdaten sehr arbeits-

und zeitaufwändig war (vgl. Granger 2002: 7). Obwohl die Nutzung von

Lernerkorpora zu den neueren linguistischen Methoden gehört, wurde bereits eine

Reihe Lernerkorpora erstellt, beziehungsweise sie befinden sich noch im Prozess der

Page 6: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

6

Erstellung. Es ist allerdings anzumerken, dass die überwiegende Mehrheit der

Lernerkorpora geschriebene Sprache von Englischlernern einer bestimmten Mutter-

sprache enthalten (vgl. Nesselhauf 2004: 129). Einer der größten Lernerkorpora des

Englischen ist das Korpus der Universität für Wissenschaft und Technik in Hong

Kong, HKUST, das ungefähr 25 Millionen Wörter umfasst (vgl. Nesselhauf 2004:

129). Lernerkorpora für gesprochene Sprache gibt es deutlich weniger und sie sind

weitaus kleiner. Ein Beispiel für ein Lernerkorpus für gesprochenes Englisch ist

LINDSEI (Louvain International Database of Spoken English Interlanguage), das an

der Universität Louvain entstand (vgl. Nesselhauf 2004: 129). Lernerkorpora, die

sich mit einer anderen Sprache als dem Englischen beschäftigen, sind selten und

meist klein (vgl. Nesselhauf 2004: 129). Eines der größeren französischen

Lernerkorpora ist FRIDA (French Interlanguage Database), das ungefähr 200 000

Wörter umfasst (vgl. Nesselhauf 2004: 130). Desweiteren ist anzumerken, dass ob-

wohl es mittlerweile viele Lernerkorpora gibt, nur wenige von ihnen öffentlich zu-

gänglich sind (vgl. Granger 2002: 27). So werden die von Verlagen erstellten Korpo-

ra wie das Longman Learners‘ Corpus nur zu verlagseigenen Zwecken verwendet,

um zum Beispiel Grammatiken und Wörterbücher zu verbessern (vgl. Granger 2002:

27). Auch von Universitäten entwickelte Korpora sind häufig nur für interne For-

schung verfügbar.

3. Aufbereitung eines Korpus

Damit ein Korpus hinsichtlich einer Fragestellung untersucht werden kann, müssen

die Korpusdaten aufbereitet werden. Bei der Aufbereitung kann das Korpus mit tex-

tuellen Informationen zum Beispiel über die Text- oder Satzstruktur und kontextuel-

len Informationen zum Beispiel über die Textsorte und den Autor oder Sprecher an-

gereichert werden (vgl. McEnery/Xiao/Yukio 2006: 74). Kontextuelle Informationen

dienen dazu, die Situation, in der ein bestimmter im Korpus enthaltener Text ent-

standen ist, wiederherzustellen. So können die Sprachdaten mit den äußeren Um-

ständen, in denen sie entstanden sind, in Beziehung gesetzt werden. Textuelle Infor-

mationen erleichtern die Untersuchung der sprachlichen Strukturen. „Je nach Art der

Untersuchung wird dabei entweder eine Korpusannotation oder eine Belegklassifika-

tion vorgenommen“ (Scherer 2006: 58). Bei einer Belegklassifikation werden nur die

für die Fragestellung relevanten Wörter klassifiziert. Bei der Korpusannotation wer-

den hingegen alle Wörter des Korpus annotiert (vgl. Scherer 2006: 58). Mit welchen

Page 7: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

7

und mit wie vielen zusätzlichen Informationen das Korpus bei der Aufbereitung ver-

sehen werden soll, hängt direkt mit der Fragestellung der Untersuchung zusammen

(vgl. McEnery/Xiao/Yukio 2006: 75). So muss ein Korpus gesprochener Sprache,

das zur Untersuchung diastratischer Varietäten erstellt wurde, relevante Informatio-

nen über die Sprecher, deren Alter und deren sozialen Hintergrund enthalten. Bevor

das Korpus aufbereitet wird, sollten die Primärdaten zunächst jedoch einmal in der

originalen Erscheinungsform gespeichert werden (vgl. Gerstenberg 2009: 105). So

sollte eine Kopie des Korpus nur reinen Text enthalten. Dies hat den Vorteil, dass

das Korpus auch von anderen Forschern wiederverwendet werden kann, die mögli-

cherweise andere Standards und andere Programme verwenden, die mit einer bereits

annotierten Version des Korpus nicht kompatibel sind (vgl. Nelson 2010: 63).

3.1. Annotation

Annotation kann folgendermaßen definiert werden:

„The practice of adding interpretative (especially linguistic) information to an existing corpus

of spoken and/or written language by some kind of coding attached to, or interspersed with,

the electronic representation of the language material itself“ (Leech 1993 zit. n. Granger

2002: 16).

Da annotierte Korpora nicht nur die Primärdaten, sondern auch Informationen über

Grammatik, Struktur und Inhalt enthalten, erleichtern sie das Auffinden der für die

Fragestellung benötigten Informationen (vgl. Scherer 2006: 58). Wie schon erwähnt,

sollte bei der Annotation darauf geachtet werden, dass das Korpus jederzeit wieder-

verwendet werden kann. Da die Annotation von Korpora zeitaufwändig ist, kann

durch die Wiederverwendung eines bereits annotierten Korpus viel Zeit und Arbeits-

aufwand erspart werden (vgl. Lemnitzer/Zinsmeister 2006: 62). Darüber hinaus kann

ein Korpus in vielen Fällen zu einem anderen Zweck, als für den es erstellt wurde,

wiederverwendet werden. So kann ein Korpus, das zum Beispiel für eine lexikografi-

sche Untersuchung erstellt wurde, auch von Computerlinguisten zur Entwicklung

computerlinguistischer Software genutzt werden (vgl. Lemnitzer/Zinsmeister 2006:

63). Um die Wiederverwendung sicherzustellen, empfiehlt es sich, bestimmte Stan-

dards zu beachten. So stellte Geoffrey Leech eine Reihe von Annotationsmaximen

auf:

„1. Annotation sollte so eingetragen sein, dass man den Ursprungstext wiederherstellen kann.

2. Es sollte möglich sein, die Annotation unabhängig vom Ursprungstext abzuspeichern und

auszuwerten.

3. Die Annotation sollte dokumentiert werden […]. Die Dokumentation sollte dem späteren

Nutzer zur Verfügung stehen. […]

Page 8: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

8

4. Das Annotationsschema sollte so weit wie möglich theorieneutral sein.

5. Kein Annotationsschema kann a priori als Standard gelten – Standards bilden sich durch

Konsens der Nutzer heraus“ (Lemnitzer/Zinsmeister 2006: 96).

Vor der eigentlichen Annotation müssen die im Korpus enthaltenen Texte in ihre

Bestandteile zerlegt werden, damit die Einheiten, zu denen eine Annotation hinzuge-

fügt werden soll, identifiziert werden können (vgl. Lemnitzer/Zinsmeister 2006: 64).

Diese Segmentierung kann den Text zunächst in Strukturelemente wie „Kapitel,

Überschrift, Vorspann, Grundtext, Bildtext, Fußnote, Paragraph“ (Lemnitzer/ Zins-

meister 2006: 64) unterteilen. In den letzten zwei Segmentierungsschritten, die auch

als Tokenisierung bekannt sind, werden die Texte in Sätze zerlegt, die wiederum in

einzelne Textwörter aufgegliedert werden (vgl. Lemnitzer/Zinsmeister 2006: 64).

Nach der Tokenisierung werden bei der Lemmatisierung die einzelnen Textwörter,

Tokens, dem entsprechenden Lemma-Type zugeordnet (vgl. Scherer 2006: 58). So

würde zum Beispiel das Token chevaux zu dem Type cheval zugeordnet. Die Lem-

matisierung ist die Voraussetzung für die Annotation, da es sonst nicht möglich ist,

„die Flexionsmerkmale oder die syntaktische Funktion eines Textwortes zu bestim-

men“ (Scherer 2006: 58). Die Lemmatisierung kann mittlerweise für viele Sprachen

wie dem Französischen und dem Englischen relativ zuverlässig automatisch von

Computerprogrammen ausgeführt werden (vgl. McEnery/Xiao/Yukio 2006: 36). Wie

sinnvoll die Lemmatisierung ist, hängt allerdings davon ab, wie stark flektierend die

jeweilige Sprache ist. So ist die Lemmatisierung besonders wertvoll für stark flektie-

rende Sprachen wie dem Spanischen und dem Russischen, bei denen unter ein Lem-

ma viele Varianten fallen. Für nicht-flektierende Sprachen wie dem Chinesischen hat

die Lemmatisierung jedoch einen weitaus geringeren Nutzen. Dies erklärt auch, wa-

rum nur wenige Korpora des Englischen als nur schwach flektierender Sprache lem-

matisiert sind (vgl. McEnery/Xiao/Yukio 2006: 36). Der eigentliche Vorgang der

Annotation ist häufig in zwei Arbeitsschritte geteilt (vgl. Lemnitzer/Zinsmeister

2006: 63). Im ersten Schritt wird ein computerlinguistisches Softwareprogramm zur

automatischen Vorverarbeitung verwendet. Das Programm ist so konfiguriert, dass es

nach bestimmten Kriterien Korpusdaten mit Annotationen versieht. Da Programme

allerdings nicht vollständig exakt annotieren können, werden in einem zweiten

Schritt die Annotationen von Annotatoren manuell korrigiert (vgl. Lemnitzer/ Zins-

meister 2006: 63).

Page 9: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

9

Die Annotation kann auf verschiedenen Ebenen erfolgen. So kann auf der Ebene der

Morphosyntax, der Morphologie, des Lemmas, der Syntax, der Semantik und der

Pragmatik annotiert werden. Außerdem gibt es noch weitere speziellere Formen der

Annotation wie der Annotation von Textstruktur, Orthographie, Fehlern, phoneti-

schen und prosodischen Merkmalen und von sprachbegleitenden Merkmalen wie

Gestik und Mimik (vgl. Lemnitzer/Zinsmeister 2006: 64). Im Folgenden gehe ich auf

zwei Annotationsarten, die für die Analyse von Lernerkorpora besonders wertvoll

sind, genauer ein: Das Part-of-Speech Tagging und die Fehlerannotation.

3.1.1. Part-of-Speech Tagging

Das Part-of-Speech Tagging (im Weiteren: POS Tagging), auch bekannt als

morphosyntaktische Annotation, ist die am weitesten verbreitete Form der Annotati-

on (vgl. Lemnitzer/Zinsmeister 2006: 66). Bei dem POS Tagging wird jede Wort-

form im Korpus mit einem Tag versehen, das seine Wortart angibt. Die Gesamtheit

aller verwendeten Tags wird als Tagset bezeichnet. Der Umfang eines Tagsets vari-

iert je nach Taggingprogramm, Tagger, zwischen zirka 50 bis über 250 Tags (vgl.

Granger 2002: 17). Diese große Variation erklärt sich dadurch, dass Tagger über die

Informationen zu den Wortklassen hinaus unterschiedlich detaillierte Informationen

zu weiteren Eigenschaften wie der syntaktischen Position des Wortes, seiner gram-

matischen Funktion und morphologische und semantische Eigenschaften markieren

(vgl. Lemnitzer/Zinsmeister 2006: 66). Die Tagger arbeiten daher unterschiedlich

genau. Das POS Tagging ist außerdem die grundlegendste Art der Annotation, die

die Voraussetzung für weitere Annotationen wie zum Beispiel der syntaktischen und

semantischen Annotation bildet (vgl. McEnery/Xiao/Yukio 2006: 34).

POS Tagging kann für viele Sprachen von Taggern automatisch durchgeführt wer-

den. Automatische Tagger arbeiten mit einer Genauigkeit von 95 bis 98 Prozent, die

für die Beantwortung der meisten Forschungsfragen ausreicht (vgl. Lemnitzer/

Zinsmeister 2006: 72). Für die Tagger ist die Disambiguierung von Homographen

das größte Problem. Da sie dieses Problem unterschiedlich lösen, können die Tagger

anhand ihres Vorgehens in drei verschiedene Kategorien eingeteilt werden (vgl.

Lemnitzer/Zinsmeister 2006: 73). Die Klasse der symbolischen Tagger arbeitet mit

handgeschriebenen Regeln wie „Wenn ein Wort zwischen Artikel- und Verblesart

ambig ist (z.B. einen), dann wähle das Verb-Tag, wenn das vorangehende Wort zu

Page 10: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

10

ist“ [Hervorhebung im Original] (Lemnitzer/Zinsmeister 2006: 73). „Stochastische

Tagger werden trainiert, indem sie automatisch die Frequenzen von Wörtern und

Tags eines vorannotierten Trainingskorpus zählen und daraus Wahrscheinlichkeiten

berechnen“ [Hervorhebung im Original] (Lemnitzer/Zinsmeister 2006: 73). Hierbei

handelt es sich um lexikalische Wahrscheinlichkeit, „das wahrscheinlichste Tag für

ein Token“, und um kontextuelle Wahrscheinlichkeit, „das wahrscheinlichste Tag für

ein Token bei einem bestimmten Kontext“, durch deren Kombination der Tagger das

optimale Ergebnis berechnet (Lemnitzer/Zinsmeister 2006: 73). Der TreeTagger, der

in Kapitel fünf vorgestellt wird, gehört der Kategorie der stochastischen Tagger an.

Die Klasse der Hybriden Tagger kombiniert die Methoden der symbolischen und der

stochastischen Tagger (vgl. Lemnitzer/Zinsmeister 2006: 73).

Der Nutzen von POS Tagging für die Untersuchung von Lernerkorpora besteht darin,

dass ein annotiertes Korpus Forschern ermöglicht, nach bestimmten Wortarten, ins-

besondere nach solchen, mit denen Lerner häufig Schwierigkeiten haben, zu suchen

(vgl. Granger 2002: 16). Granger nennt als Beispiel eine Untersuchung zu der Frage,

welche Wörter von Lernern des Englischen mit höherer beziehungsweise niedrigerer

Frequenz verwendet werden als von englischen Muttersprachlern. Der Wert des POS

Taggings wird an dem Beispiel von to demonstriert, das zwar als Partikel von Ler-

nern und Muttersprachlern des Englischen mit gleicher Häufigkeit benutzt wird, das

aber als Präposition von Lernern seltener verwendet wird als von Muttersprachlern

(vgl. Granger 2002: 18). Mit einem nicht POS annotierten Korpus wäre diese Unter-

scheidung zwischen to als Partikel und to als Präposition nicht möglich und es könn-

te daher auch nicht separat nach dem Partikel und der Präposition gesucht werden.

Somit ermöglicht das POS Tagging eine präzisere Suche.

3.1.2. Fehlerannotation

Da Lernerkorpora spezialisierte Korpora sind, werden für ihre Untersuchung speziel-

le Analysemethoden benötigt. Auch wenn herkömmliche Arten der Annotation wie

POS Tagging die Untersuchung von Lernerkorpora erleichtern, müssen sie doch

durch andere auf die Analyse der Sprache von Lernern spezialisierte Formen der

Annotation ergänzt werden (vgl. Granger 2002: 18). Hierzu gehört die Fehlerannota-

tion, bei der je nach Annotationsschema die in einem Lernerkorpus auftretenden Feh-

ler mit einem Tag versehen werden, der den Fehlertyp angibt (vgl.

Page 11: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

11

McEnery/Xiao/Yukio 2006: 42). Auf diese Weise wird die Fehleranalyse systemati-

siert und erleichtert. Die verschiedenen Annotationsschemata der Fehlerannotation

unterscheiden sich zum Teil erheblich voneinander (vgl. McEnery/Xiao/Yukio 2006:

42). „One major decision to make is whether to tag errors in terms of their nature

(grammatical, lexical, etc.) or their source (interlingual, intralingual, etc.)” (Granger

2002: 19). Hierbei ist allerdings die Klassifikation nach dem Fehlertyp vorzuziehen,

da sie weniger von Interpretationen abhängig und daher objektiver ist (vgl. Granger

2002: 19). Als Beispiel für ein Annotationsschema soll hier das Schema der Univer-

sität Louvain vorgestellt werden. Dieses Schema ist hierarchisch aufgebaut (vgl.

Granger 2002: 19). So wird jedem Fehler ein Tag in Form eines Codes hinzugefügt,

bei dem der erste Buchstabe die Fehlerkategorie angibt und die folgenden Buchsta-

ben den Fehler näher bestimmen. Die ersten Buchstaben der Codes, die jeweils die

Kategorie angeben, sind: G für grammatikalisch, L für lexikalisch, X für lexiko-

grammatikalisch, F für formal, R für Register, W für Syntax und S für Stil (vgl.

Granger 2002: 19). Die folgenden Buchstaben des Codes präzisieren den Fehler. So

bekommen zum Beispiel alle grammatikalischen Fehler, die Verben betreffen, den

Code GV, der wiederum unterteilt ist in GVAUX für Hilfsverb, GVM für morpholo-

gischer Fehler, GVN für Numerusfehler, GVNF für finite beziehungsweise nicht-

finite Fehler, GVT für Tempusfehler und GVV für Genus-verbi-Fehler (vgl. Granger

2002: 19). Im Text werden die Tags in runden Klammern vor den Fehler gesetzt.

Darüber hinaus wird auch die Berichtigung des Fehlers angegeben. Sie wird nach

dem Fehler durch zwei Dollarzeichen abgetrennt eingefügt (vgl. Granger 2002: 19).

Nachdem das Lernerkorpus anhand dieses Schemas annotiert wurde, ist es möglich,

durch die Tags nach jeder Fehlerkategorie zu suchen und diese auf unterschiedliche

Weisen zu sortieren (vgl. Granger 2002: 19). Eine Schwierigkeit der Fehlerannotati-

on ist jedoch, dass in manchen Fällen so wie im folgenden Beispiel ein Fehler nicht

eindeutig einer Fehlerkategorie zugeordnet werden kann (vgl. Lemnitzer/Zinsmeister

2006: 87). „Die Erklärung für diese Phänomen“ (Lemnitzer/Zinsmeister 2006: 88).

So lässt sich hier nicht bestimmen, ob der Fehler nun diese oder Phänomen ist, da

sowohl diese fälschlicherweise als feminin flektiert sein könnte oder Phänomen ei-

gentlich im Plural stehen müsste (vgl. Lemnitzer/Zinsmeister 2006: 87). Darüber

hinaus ist die Fehlerannotation sehr arbeits- und zeitaufwändig, da ein automatisches

Annotieren durch Programme nur sehr begrenzt möglich ist (vgl.

McEnery/Xiao/Yukio 2006: 43).

Page 12: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

12

4. Analysemethoden von Lernerkorpora

Im Folgenden sollen zwei Methoden zur Untersuchung von Lernerkorpora und ihre

Vor- und Nachteile vorgestellt werden. Bei der ersten Methode der computergestütz-

ten Fehleranalyse spielt die oben vorgestellte Fehlerannotation eine wichtige Rolle.

Die zweite Methode ist nicht computergestützt, sondern kontrastiv und beinhaltet

qualitative und quantitative Vergleiche zwischen Sprachdaten von Lernern und Mut-

tersprachlern und zwischen Sprachdaten verschiedener Lernergruppen (vgl. Granger

2002: 12).

4.1. Computergestützte Fehleranalyse

Im Vergleich zu kontrastiven Methoden erfordern computergestützte Analysen ein

höheres Maß an Standardisierung. Außerdem ermöglicht die computergestützte Auf-

arbeitung eines Lernerkorpus, dass die Fehler nebst der Berichtigung dieser Fehler in

ihrem Kontext angezeigt werden können (vgl. Granger 2002: 13). Bei der computer-

gestützten Fehleranalyse lassen sich wiederum zwei verschiedene Vorgehensweisen

unterscheiden, die mit einem unterschiedlichen Maß an Arbeitsaufwand verbunden

sind. Der Vorteil der ersten Möglichkeit ist, dass man sehr schnell ein Ergebnis er-

hält. Allerdings beschränkt sich die Untersuchung auf eine fehleranfällige sprachli-

che Kategorie wie zum Beispiel eine Wortklasse. Das Korpus wird mithilfe her-

kömmlicher Textsuchprogramme, Textretrieval-Programme, auf jegliche Fehler im

Gebrauch der vorher ausgewählten Kategorie durchsucht (vgl. Granger 2002: 14).

Bei dieser Methode besteht jedoch die Gefahr, dass der Forscher durch die Voraus-

wahl der Kategorie, die er für fehleranfällig hält, die Untersuchung und ihr Ergebnis

im Vorhinein beeinflusst (vgl. Granger 2002: 14). Dieses Problem besteht bei der

zweiten Vorgehensweise nicht. Dafür ist sie jedoch zeit- und arbeitsaufwändiger, da

anhand eines standardisierten Annotationsschemas das gesamte Korpus fehleranno-

tiert wird (vgl. Granger 2002: 14). Der Vorteil dieser Methode ist, dass man ein voll-

ständig annotiertes Korpus erhält, das für unterschiedliche Forschungsfragen wieder-

verwendet werden kann. Außerdem ermöglicht die moderne computergestützte Feh-

leranalyse, im Gegensatz zu früheren Methoden der Fehleranalyse in den 1970er

Jahren, die Untersuchung der Fehler in ihrem Kontext (vgl. Granger 2002: 14). So

können sowohl der Kotext als auch die Kommunikationssituation bei der Untersu-

chung der Fehler in Betracht gezogen werden (vgl. Granger 2002: 14). Daher können

durch die computergestützte Fehleranalyse neue Erkenntnisse über die Interimsspra-

Page 13: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

13

che und die Schwierigkeiten von Sprachlernern gewonnen werden, durch die wiede-

rum Unterrichtsmethoden und –materialien verbessert werden können (vgl. Granger

2002: 14). Problematisch bei der computergestützten Fehleranalyse ist allerdings,

dass es immer noch schwierig ist automatische Tagger zu entwickeln, die die Fehler

erkennen, da es nicht genug Informationen über die Muster gibt, in denen Fehler auf-

treten (vgl. McEnery/Xiao/Yukio 2006: 43).

4.2. Kontrastive Analyse von Interimssprache

Diese kontrastive Methode, mit der Lernerkorpora untersucht werden können, um-

fasst zwei Arten von Vergleichen (vgl. Granger 2002: 12). Bei der ersten Vorge-

hensweise werden die Sprachdaten aus dem Lernerkorpus mit Daten von Mutter-

sprachlern aus einem Vergleichskorpus verglichen. Auf diese Weise sollen Merkma-

le des Sprachgebrauchs von Lernern herausgearbeitet werden (vgl. Granger 2002:

12). Wichtig bei dieser Methode ist die Wahl des Vergleichskorpus. So sollten die im

Vergleichskorpus enthaltenen Texte den Texten des Lernerkorpus hinsichtlich ver-

schiedener Aspekte wie Formalitätsgrad, Themenbereich und Entstehungsumständen

ähneln, damit die am Ende herausgefilterten sprachlichen Merkmale auch wirklich

typisch für den Gebrauch von Nicht-Muttersprachlern sind und nicht auf anderen

Variablen wie einer anderen Textsorte beruhen. Diese Art von Vergleichen eignet

sich dazu, eine Reihe von Merkmalen von Interimssprache herauszuarbeiten. Der

Vorteil dieser Methode ist, dass nicht nur Fehler betrachtet werden können, sondern

auch der im Vergleich zur Muttersprachler-Norm zu häufige beziehungsweise zu

seltene Gebrauch bestimmter Wörter oder syntaktischer Strukturen (vgl. Granger

2002: 12). Desweiteren ist der Vergleich des Sprachgebrauchs von Lernern und Mut-

tersprachlern insofern wichtig, als dass es das Ziel des Fremdsprachenunterrichts ist,

den Sprachgebrauch der Lerner so weit wie möglich an die Muttersprachler-Norm

anzunähern (vgl. Granger 2002: 13).

Die kontrastive Analyse von Interimssprache beinhaltet außerdem Vergleiche der

Sprachdaten verschiedener Lernergruppen untereinander. Diese Methode gibt zum

Beispiel Aufschluss über die Unterschiede zwischen der Sprachverwendung von

Lernern einer Fremdsprache mit unterschiedlicher Muttersprache (vgl. Granger 2002:

13). So kann erforscht werden, welche Merkmale des Sprachgebrauchs allen

Lernergruppen gemeinsam sind und welche typisch für eine Gruppe mit einer be-

Page 14: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

14

stimmten Muttersprache sind. Für die genaue Untersuchung der Gründe, warum eine

Lernergruppe mit einer bestimmten Muttersprache bestimmte Fehler macht, ist es

nützlich, Zugang zu einem bilingualen Korpus zu haben, der sowohl Texte in der

Fremdsprache als auch in der Muttersprache des Lerners enthält, um festzustellen, ob

der Lerner Strukturen seiner Muttersprache auf die Fremdsprache überträgt (vgl.

Granger 2002: 13).

5. POS Tagging mit dem TreeTagger

Im Folgenden soll zunächst das Annotationsprogramm Treetagger vorgestellt wer-

den. Desweiteren soll das POS Tagging anhand zweier französischer Beispieltexte,

eines Ausschnitts einer Filmkritik und eines Textes von einem Französischlerner,

demonstriert werden. Dabei soll der Frage nachgegangen werden, inwiefern sich die

Fehlerquoten der Annotation der beiden Texte unterscheiden und ob das automati-

sche POS Tagging von Lernerdaten sinnvoll ist.

5.1. Vorstellung des Annotationsprogramms TreeTagger

Der TreeTagger wurde von Helmut Schmid am Institut für maschinelle Sprachverar-

beitung der Universität Stuttgart entwickelt (vgl. Hanl 2012a: 1). „The TreeTagger is

a tool for annotating text with part-of-speech and lemma information” (Schmid:

2011). Er kann mit Windows, Linux, Mac und Sparc ausgeführt werden, für die die

jeweiligen Downloaddateien auf der Seite des Herstellers, http://www.ims.uni-

stuttgart.de/projekte/corplex/TreeTagger/, kostenfrei erhältlich sind. Auch wenn der

TreeTagger bei der Anwendung auf das Englische die geringste Fehlerquote auf-

weist, lässt er sich auch für die Annotation des Deutschen, Französischen, Spani-

schen, Italienischen, Portugiesischen, Lateinischen, Altfranzösischen, Niederländi-

schen, Bulgarischen, Russischen, Griechischen, Chinesischen, Estnischen und Swa-

hili verwenden (vgl. Hanl 2012a: 1). Darüber hinaus ist die Verwendung des

TreeTaggers für weitere Sprachen möglich, indem der Tagger durch ein manuell

annotiertes Trainingskorpus einer unbekannten Sprache trainiert wird und er so ein

neues zusätzliches Lexikon anlegt (vgl. Hanl 2012a: 1). Dies geschieht durch die

Funktion des TrainTreeTagger. Neben der Tokenisierung, der Lemmatisierung und

dem POS Tagging, auf die sich diese Arbeit konzentriert, verfügt der TreeTagger

auch über andere Funktionen wie dem Chunking, bei dem ein Satz in Phrasen wie

zum Beispiel Verbalphrasen und Präpositionalphrasen unterteilt wird. „The addition-

Page 15: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

15

al feature to the standard word by word tagging process is the syntactic annotation of

phrasal groups“ (Hanl 2012b: 3). Der TreeTagger wurde für die Bearbeitung von

Sprachdaten in mehreren Korpora wie zum Beispiel dem British National Corpus,

Reuters, British News Corpus und dem deutschen Falko Korpus eingesetzt (vgl.

Hanl 2012a: 1).

Bei dem TreeTagger handelt es sich, wie bereits erwähnt, um einen stochastischen

Tagger. Die Schritte, die der Tagger beim POS Tagging durchläuft, lassen sich fol-

gendermaßen beschreiben (vgl. Lemnitzer/Zinsmeister 2006: 72). Nachdem der rohe

Text im Nur-Text-Format als txt-Datei abgespeichert wurde, wird er zunächst

tokenisiert. „The TreeTagger requires text for tagging to be in a one-per-line format,

ie. each token must be on a separate line” (Ó Duibhín: 2010). Auch Satzzeichen wer-

den als Token behandelt und ebenfalls in eine separate Zeile geschrieben. Der Zei-

chensatz des zu bearbeitenden Textes sollte der gleiche sein wie derjenige der Daten,

mit denen der Tagger für die jeweilige Sprache trainiert wurde. Für die meisten

Sprachen wird der Zeichensatz Latin-1 verwendet, für einige andere Unicode UTF8

(vgl. Ó Duibhín: 2010). Nachdem der Text tokenisiert wurde, schlägt der Tagger die

einzelnen Tokens in seinem Lexikon nach, um ihnen einen Tag zuzuweisen (vgl.

Lemnitzer/Zinsmeister 2006: 72). Das Lexikon besteht aus Wortlisten, mit denen der

Tagger trainiert wurde. „It [the lexicon] has three parts: a fullform lexicon, a suffix

lexicon and a default entry“ [Hervorhebung im Original] (Schmid 1994: 4). Beim

Nachschlagen wird zunächst das fullform lexicon durchsucht und wenn das Token

gefunden wird, werden ihm alle möglichen Wortartenlabels hinzugefügt (vgl.

Schmid 1994: 4). Falls das Token beim ersten Suchlauf nicht gefunden wird, wird

die Suche im fullform lexicon wiederholt. Falls die Suche beim zweiten Mal erfolglos

bleibt, wird das suffix lexicon durchsucht. Das suffix lexicon ist als Baumstruktur

aufgebaut, durch die anhand des Suffixes des Tokens der wahrscheinlichste Tag für

das Token berechnet wird (vgl. Schmid 1994: 4). Falls auch dieser Versuch scheitert,

wird das default entry aktiviert und werden die unbekannten Wörter analysiert. Dabei

verwendet der Tagger morphologische Heuristiken und errät so die Wortart des To-

kens (vgl. Lemnitzer/Zinsmeister 2006: 72)

„The default entry is constructed by subtracting the tag frequencies at all leaves of the pruned

suffix tree from the tag frequencies at the root node and normalizing the resulting frequen-

cies. Thereby, relative frequencies are obtained which sum to one” [Hervorhebung im Origi-

nal] (Schmid 1994: 6).

Page 16: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

16

Allerdings bleibt das Problem bestehen, dass viele Tokens mehr als nur ein Wortar-

tenlabel erhalten haben (vgl. Lemnitzer/Zinsmeister 2006: 72). So kann zum Beispiel

montre ein Substantiv- und ein Verbtag hinzugefügt werden. Auch für die Disambi-

guierung, die Berechnung des richtigen Tags, nutzt der TreeTagger eine binäre

Baumstruktur (vgl. Schmid 1994: 2). Diese Wahrscheinlichkeitsberechnung basiert

zum einen auf den Tokens, die dem zu berechnenden Token vorangehen und denen

bereits ein richtiges Tag hinzugefügt wurde, und zum anderen auf Kenntnissen über

die wahrscheinlichste Verteilung der Tags, über die der Tagger durch das Korpus,

mit dem er trainiert wurde, verfügt (vgl. Schmid 1995: 3). „[…] unambiguous classi-

fications at the terminal nodes of the decision tree are replaced by probability distri-

butions which reflect the tag distribution of the training set which corresponds to the

respective node“ (Schmid 1995: 3). Am Ende des Taggingprozesses liefert der

TreeTagger einen vollständig getaggten Text. Der TreeTagger arbeitet mit einer Kor-

rektheitsquote von zirka 97,5 Prozent (vgl. Schmid 1995: 8).

5.2. Annotation zweier Beispieltexte

An dieser Stelle soll das methodische Vorgehen bei dem POS Tagging mit dem

TreeTagger beschrieben und anhand zweier Beispieltexte demonstriert werden. Bei

Beispieltext I handelt es sich um einen Ausschnitt aus einer Filmkritik, die in der

Online-Ausgabe von Le Monde erschienen ist. Beispieltext II wurde aus dem

Lernerkorpus Corpus Écrit de Français Langue Étrangère, der an der Universität

Lund erstellt wurde, entnommen. Der Text wurde von einem/einer Schüler/in mit

dem Pseudonym Camille verfasst. Pseudonyme mit dem Anfangsbuchstaben C ste-

hen für das Sprachniveau C, das dritte von fünf Niveaus. Dies bedeutet, dass der Ver-

fasser oder die Verfasserin des Textes sich zwischen Anfänger- und Fortgeschritte-

nenstadium befindet. Die Wahl der Beispieltexte erscheint sinnvoll, um die Frage zu

erörtern, ob dem TreeTagger bei der Annotation eines von einem Französischlerner

verfassten Textes im Vergleich zu der Annotation eines von einem Muttersprachler

verfassten Textes mehr Fehler unterlaufen. Dabei sollen die annotierten Beispieltexte

miteinander verglichen und auf Fehler bei der Annotation hin untersucht werden. Die

Annahme, dass der TreeTagger bei der Annotation des aus dem Lernerkorpus ent-

nommenen Textes eine höhere Fehlerquote aufweist als bei der Annotation von Bei-

spieltext I, lässt sich dadurch begründen, dass der TreeTagger nur mit korrekten

Sprachdaten des Französischen trainiert wurde und dass er daher fehlerhafte Wort-

Page 17: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

17

formen nicht erkennen kann. Außerdem kann die Berechnung der wahrscheinlichsten

Tags durch eine nicht korrekte oder unübliche Syntax erschwert werden.

Nachdem der TreeTagger von der Herstellerseite heruntergeladen wurde, erhält man

folgende Ordnerstruktur: …/TreeTagger, …/TreeTagger/bin, …/TreeTagger/cmd und

…/TreeTagger/lib. Dies ist insofern von Bedeutung, als dass sich der eigentliche

Tagger im Ordner …/TreeTagger/bin und das Lexikon des Taggers in

…/TreeTagger/lib befinden. Da der TreeTagger auf verschiedene Sprachen anwend-

bar ist, muss für die Sprache, die untersucht werden soll, zusätzlich eine Parameter-

datei installiert werden, damit der TreeTagger den zu analysierenden Text mit

Sprachdaten der jeweiligen Sprache vergleichen kann (vgl. Hanl 2012a: 3). Die Pa-

rameterdatei für das Französische sollte mit french.par benannt sein und muss, sollte

dies nicht der Fall sein, zu french.par umbenannt werden (vgl. Hanl 2012a: 3). Au-

ßerdem muss diese Parameterdatei im Ordner …/TreeTagger/lib gespeichert werden.

Bevor mit dem Tagging begonnen wird, empfiehlt es sich im Ordner …/TreeTagger

zwei Ordner für die Input-Texte und die Output-Texte anzulegen, in denen die zu

taggenden Texte beziehungsweise das Ergebnis, der getaggte Text, im Nur-Text-

Format gespeichert werden.

Startmaske des TreeTaggers

Page 18: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

18

Auf der Startmaske des TreeTaggers (siehe Screenshot) muss nun zunächst die Spra-

che, die untersucht werden soll, gewählt werden. Desweiteren lassen sich bezüglich

des Input, des Output, der Tokenisierung und des Taggings verschiedene Optionen

wählen. Für ein möglichst optimales Ergebnis des getaggten Textes ist es wichtig,

dass die Option best tag only markiert ist. Außerdem ist es für die Fragestellung, wie

viele Tokens der Tagger identifiziert, entscheidend, dass die Option the lemma und

nicht the token in place of unknown lemma markiert ist, da es sonst schwierig nach-

zuvollziehen ist, welches Token der Tagger nicht erkannt hat. Desweiteren sollten

bei der Tokenisierung die Option built-in angekreuzt sein, da bei den anderen Optio-

nen entweder gar keine Tokenisierung vorgenommen wird oder ein eigenes

Tokenisierungsprogramm benutzt werden kann. Um mit dem Tagging zu beginnen,

müssen nun die Dateipfade, der Input File des zu taggenden Textes und der Output

File des getaggten Textes, angegeben werden. Für diesen Zweck ist es wie oben auf-

geführt sinnvoll zwei separate Ordner anzulegen, um die Arbeit übersichtlicher zu

gestalten. Wenn alle nötigen Informationen angegeben sind, kann das Programm

durch Run gestartet werden. Der getaggte und tokenisierte Text wird automatisch im

Output-Ordner gespeichert. Der Output-Text ist in drei Spalten gegliedert. Die erste

Spalte ist der ursprüngliche Text, bei dem jedes Token in einer separaten Zeile unter-

einander geschrieben ist. Die zweite Spalte enthält die Part-of-Speech Tags, die je-

dem Token des Ursprungstextes zugeordnet sind. Die dritte Spalte enthält die Lem-

mata, die wiederum den Tokens zugeordnet sind. In den Fällen, in denen das Token

nicht im Lexikon gefunden wurde und der Part-of-Speech Tag nur über Wahrschein-

lichkeitsrechnung identifiziert werden konnte, steht anstelle des Lemmas

<unknown>.

5.3. Auswertung

Um nun die Frage zu erörtern, ob der TreeTagger bei der Annotation des

Lernertextes eine höhere Fehlerquote erzielt als bei Beispieltext II, bietet es sich an,

die nicht identifizierten Lemmata, die durch <unknown> gekennzeichnet sind, beider

Texte zu zählen und den Anteil an der jeweiligen Gesamtheit der Tokens zu berech-

nen. Für diese Berechnung kann ein herkömmliches Tabellenkalkulationsprogramm

wie Microsoft Office Excel verwendet werden. Diese Vorgehensweise empfiehlt sich,

da die Output-Datei mit Excel geöffnet werden kann und so die Daten nach Spalte C,

Page 19: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

19

die die Lemmata enthält, sortiert werden können. Auf diese Weise werden in Spalte

C folglich alle nicht identifizierten Lemmata untereinander aufgelistet angezeigt.

Nach Betrachtung beider annotierter Beispieltexte lassen sich folgende Beobachtun-

gen festhalten. Der erste Beispieltext, die Filmkritik, besteht aus 142 Wörtern, bezie-

hungsweise 165 Tokens. Von diesen Tokens konnten 16, das heißt 9,69 Prozent der

Tokens, nicht lemmatisiert werden und wurden somit als <unknown> gekennzeich-

net. Da der TreeTagger, auch wenn er ein Token zu keinem Lemma zu ordnen kann,

trotzdem den wahrscheinlichsten Tag berechnet, erhalten alle nicht lemmatisierten

Tokens einen Tag. Allerdings wählt der TreeTagger in 12 von 16 Fällen einen fal-

schen Tag. So erhält zum Beispiel der Eigenname Kasia, dem eigentlich das Label

NAM hinzugefügt werden müsste, das Verblabel VER:simp. Erstaunlich ist, dass in

fünf Fällen die Tokens aufgrund von Fehlern bei der Tokenisierung nicht lemmati-

siert werden konnten. So zählte der TreeTagger zum Beispiel avait suscité und

pétition qui als jeweils ein Token und konnte daher kein passendes Lemma finden.

Desweiteren ordnete der TreeTagger dem Token qu‘ den falschen Tag zu, obwohl er

das passende Lemma que gefunden hatte. So markiert er qu‘ in il n'y a cette année

qu'un film als Relativpronomen, PRO:REL, obwohl es in diesem Fall Teil der Ver-

neinungsklammer ist. Der von einem Französischlerner verfasste Text, Beispieltext

II, enthält 140 Wörter und ebenfalls 165 Tokens, von denen 26, das heißt 15,76 Pro-

zent der Tokens, nicht lemmatisiert werden konnten. Dieser höhere Anteil an nicht

lemmatisierten Tokens ist auf die vom Verfasser des Textes gemachten Fehler zu-

rückzuführen, da 24 der 26 nicht lemmatisierten Tokens fehlerhafte Wortformen

sind, die der TreeTagger somit nicht erkennen konnte. Für 16 dieser fehlerhaften

Wortformen berechnet er einen falschen Tag. So erhält das mehrmals verwendete

allent, das der Verfasser fälschlicherweise als dritte Person Plural Indikativ Präsens

von aller gebraucht, verschiedene Tags, darunter VER:subp (Verb Subjonctif

Présent), ADJ (Adjektiv) und richtigerweise VER:pres (Verb Präsens). In vielen Fäl-

len erkennt der TreeTagger falsch gebildete Verbformen zwar als Verb, aber weist

ihnen fälschlicherweise den Tag VER:subp für Subjonctif zu. In acht Fällen gelingt

es dem TreeTagger auch einer fehlerhaften Wortform den richtigen Tag zu geben. So

kennzeichnet er interesants als Adjektiv. Interessanterweise unterliefen dem

TreeTagger bei Beispieltext II allerdings keine Fehler bei der Tokenisierung.

Page 20: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

20

5.4. Schlussfolgerung

Abschließend lässt sich festhalten, dass der TreeTagger bei der Annotation von Bei-

spieltext II wie erwartet eine höhere Fehlerquote aufweist. Allerdings unterliefen ihm

auch bei der Annotation von Beispieltext II unerwartet viele Fehler. Dies verdeut-

licht, dass die manuelle Korrektur eines annotierten Textes unerlässlich ist. Darüber

hinaus zeigt die Annotation von Beispieltext II, dass sich die automatische Annotati-

on für Sprachdaten von Französischlernern weniger eignet als für sprachlich korrekte

Texte, da zunächst häufiger Tokens nicht lemmatisiert werden können und Tokens

häufiger ein falsches Tag zugeordnet wird. Außerdem kann ein POS getaggter Text

weder zur Analyse von Syntaxfehlern noch zur Untersuchung von unidiomatischem

Sprachgebrauch beitragen. Für die Beantwortung bestimmter Fragestellungen wie

zum Beispiel der Untersuchung von Artikelfehlern kann allerdings ein automatisch

getaggter Text bereits nützlich sein, da Rechtschreibfehler bei Artikeln äußerst selten

sind und so der Tagger zumindest den Artikeln immer den korrekten Artikeltag zu-

weist.

6. Schlussbemerkung

Heutzutage kann ein großer Anteil der Aufbereitung von Korpora wie der Annotation

von Softwareprogrammen automatisiert durchgeführt werden. Damit ein Computer-

programm jedoch Wortformen erkennen kann, muss es zuvor mit Sprachdaten trai-

niert werden. Dabei ist entscheidend, dass das Programm die Regelmäßigkeit der

sprachlichen Strukturen erkennt, damit es sie schließlich wiedererkennen, bezie-

hungsweise vor dem Hintergrund dieser Regelmäßigkeiten Wahrscheinlichkeiten

berechnen kann. In Hinblick auf die Klasse der Lernerkorpora handelt es sich aller-

dings um spezielle Korpora, die neben herkömmlichen Analysemethoden zusätzliche

Techniken erfordern. Die besondere Schwierigkeit bei der Untersuchung von

Lernerkorpora liegt darin, dass sie fehlerhafte Sprache enthalten, die somit von den

Sprachdaten, mit denen das Programm trainiert wurde, abweichen. Daher haben

Softwareprogramme Schwierigkeiten, fehlerhafte Wortformen wiederzuerkennen

und zu annotieren. Damit die Programme eine fehlerhafte Wortform trotzdem erken-

nen, könnte man sie mit fehlerhaften Daten trainieren. Dies scheint jedoch wenig

sinnvoll, da Fehler von Lerner zu Lerner trotz gewisser Gemeinsamkeiten stark vari-

ieren können und dem Programm daher theoretisch für jede Wortform alle theore-

tisch möglichen falschen Formen antrainiert werden müssten, was praktisch unmög-

Page 21: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

21

lich erscheint. Abschließend lässt sich festhalten, dass die computergestützte Analy-

se von Lernerkorpora bis zu einem gewissen Grad möglich und arbeitserleichternd

ist, eine manuelle Korrektur aber unumgänglich ist. Zudem können Computerpro-

gramme nicht alle Besonderheiten von Lernersprache erfassen.

7. Bibliografie

Gerstenberg, Annette (2009): Arbeitstechniken für Romanisten. Eine Anleitung für

den Bereich Linguistik, Tübingen: Niemeyer (= Romanistische Arbeitshefte 53).

Granger, Sylviane (2002): „A Bird’s eye view of learner corpus research”, in:

Granger, Sylviane et al (eds.) (2002): Computer learner corpora, second language

acquisition and foreign language teaching, vol. 6: Language learning and language

teaching, Amsterdam: Benjamins.

Lemnitzer, Lothar / Zinsmeister, Heike (2006): Korpuslinguistik. Eine Einführung,

Tübingen: Narr.

McEnery, Tony / Xiao, Richard / Yukio, Tono (2006): Corpus-based language stud-

ies. An advanced resource book, London: Routledge.

Nelson, Mike (2010): „Building a written corpus. What are the basics“, in: O’Keeffe,

Anne/McCarthy, Michael (ed.) (2010): The Routledge Handbook of Corpus Linguis-

tics, London: Routledge (= Routledge Handbooks in Applied Linguistics), 53-65.

Nesselhauf, Nadja (2004): „Learner corpora and their potential for language teach-

ing”, in: Sinclair, John McHardy (ed.) (2004): How to use corpora in language

teaching, Amsterdam: Benjamins (= studies in corpus linguistics 12) 125-157.

Scherer, Carmen (2006): Korpuslinguistik, Heidelberg: Winter (= Kurze Einführung

in die germanistische Linguistik 2).

Page 22: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

22

Internetquellen

Ågren, Malin (2008): À la recherche de la morphologie silencieuse. Sur le dévelop-

pement du pluriel en français L2 écrit, Études Romanes de Lund 84, Thèse de docto-

rat, Université de Lund.

<http://lup.lub.lu.se/luur/download?func=downloadFile&recordOId=1267092&fileO

Id=1267127 > (29.08.2012).

Hanl, Michael (2012a): „Beginner’s Guide to the TreeTagger – Probabilistic tagging

of linguistic data”,

<http://linglit194.linglit.tu-

darmstadt.de/linguisticsweb/pub/LinguisticsWeb/TreeTagger/TreeTagger.pdf>

(04.09.2012).

Hanl, Michael (2012b): „TreeTagger – Probablistic Tagging of linguistic data – Ad-

vanced Tutorial”,

<http://linglit194.linglit.tu-

darmstadt.de/linguisticsweb/pub/LinguisticsWeb/TreeTagger-

Adv/TreeTagger_Advanced.pdf> (04.09.2012).

Ó Duibhín, Ciarán (2010): „Windows Interface for Stuttgart TreeTagger”,

<http://www.smo.uhi.ac.uk/~oduibhin/oideasra/interfaces/winttinterface.htm>

(05.09.2012).

Schmid, Helmut (1994): „ Probabilistic Part-of-Speech Tagging Using Decision

Trees“, <ftp://ftp.ims.uni-stuttgart.de/pub/corpora/tree-tagger1.pdf> (04.09.2012).

Schmid, Helmut (1995): „Improvements in Part-of-Speech Tagging with an Applica-

tion to German”,

<ftp://ftp.ims.uni-stuttgart.de/pub/corpora/tree-tagger2.pdf> (04.09.2012).

Schmid, Helmut (2011): „TreeTagger – a language independent part-of-speech tag-

ger”, <http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/> (04.09.2012).

Page 23: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

23

Beispieltexte

Beispieltext I: „Venise 2012 Paradoxe féminin entre Tel Aviv et Riyad“,

<http://sotinel.blog.lemonde.fr/2012/09/02/venise-2012-paradoxe-feminin-entre-tel-

aviv-et-riyad/> (12.09.2012).

Beispieltext II: „Stade C - Camille“ <http://project.ht.lu.se/cefle/textes/le-sous-

corpus-transversal/stade-c/> (12.09.2012).

8. Anhang

8.1. Beispieltext I

Pendant la cérémonie d'ouverture de cette 69e Mostra, la présentatrice, l'actrice polo-

naise Kasia Smutniak n'avait pu s'empêcher de faire remarquer que 21 réalisatrices

avaient été sélectionnées dans les diverses section du festival. Au printemps précé-

dent, l'absence totale de femme parmi les cinéastes prétendant à la Palme d'or à

Cannes avait suscité une pétition qui avait elle-même entraîné un débat. A Venise, en

compétition, il n'y a cette année qu'un film réalisé par une femme. Le premier long

métrage de l'Israélienne Rama Burshtein, Lemale et ha'halal (comble le vide). Sa

projection, samedi soir, en a pris plus d'un(e) par surprise. Comédie romantique au-

tour d'un mariage arrangé entre un veuf et la soeur de la disparue, Comble le vide est

une apologie avouée du mode de vie mis en scène, celui d'une communauté ortho-

doxe de Tel Aviv, à laquelle appartient la réalisatrice Rama Burshtein.

8.2. Beispieltext II

Deux filles decident aller à Italie. Elles voulent rancontre la famille et fait le

soleil. Elles rolent à Italie avec une voiture verte. La voiture est petite. Elles res-

tent dans un hôtel. L'hôtel est fantastique, les filles sont contentes. Leur chambre

est grande et belle. Elles allent à la playa. Ils allent à la mer et font la soleil. Le

soir elles allent à une restaurant. Elles mangent et boivent. Trop tard elles allent

à une bar. Il y a deux garcons interesants. Ils devent copains. Ils dansent et chan-

tent. Au matin, les filles et les garcons allent au sightseeing. Le garcon gross est

amoureau dans la fille petit. Ils regardent le soleil denscent. Le garcon petit est

amoureau dans la fille gross. Ils mangent dans une restaurant trés romantique.

Depuis ils allent à la maison. Ils sont trés hereaux.

Page 24: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

24

8.3. Annotierter Beispieltext I 8.4. Annotierter Beispieltext II

Pendant PRP Pendant Deux NUM deux

La DET:ART Le Filles NOM fille

Cérémonie NOM Cérémonie Decident VER:pres <unknown>

d' PRP De Aller VER:infi aller

Ouverture NOM Ouverture À PRP à

De PRP De Italie NAM Italie

Cette PRO:DEM Ce . SENT .

69e NOM <unknown> Elles PRO:PER elle

Mostra VER:simp <unknown> Voulent VER:subp <unknown>

, PUN , rancontre NOM <unknown>

La DET:ART Le La DET:ART le

présentatrice NOM présentateur Famille NOM famille

, PUN , et KON et

l' DET:ART Le Fait VER:pres faire

Actrice NOM acteur|actrice Le DET:ART le

Polonaise ADJ Polonais Soleil NOM soleil

Kasia VER:simp <unknown> . SENT .

Smutniak NOM <unknown> Elles PRO:PER elle

n' ADV ne Rolent VER:subp <unknown>

Avait VER:impf avoir À PRP à

Pu VER:pper pouvoir Italie NAM Italie

s' PRO:PER se Avec PRP avec

Empêcher VER:infi empêcher Une DET:ART un

De PRP de Voiture NOM voiture

Faire VER:infi faire Verte ADJ vert

Remarquer VER:infi remarquer . SENT .

Que KON que La DET:ART le

21 NUM @card@ Voiture NOM voiture

réalisatrices NOM réalisateur Est VER:pres être

Avaient VER:impf avoir Petite ADJ petit

Été VER:pper être . SENT .

sélectionnées VER:pper sélectionner Elles PRO:PER elle

Dans PRP dans Restent VER:pres rester

Les DET:ART le Dans PRP dans

Diverses ADJ divers Un DET:ART un

Section NOM section Hôtel NOM hôtel

Du PRP:det du . SENT .

Festival NOM festival L' DET:ART le

. SENT . Hôtel NOM hôtel

Au PRP:det au Est VER:pres être

Printemps NOM printemps fantastique ADJ fantastique

Précédent ADJ précédent , PUN ,

, PUN , les DET:ART le

l' DET:ART le Filles NOM fille

Absence NOM absence Sont VER:pres être

Page 25: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

25

Totale ADJ total Contentes ADJ content

De PRP de . SENT .

Femme NOM femme Leur DET:POS leur

Parmi PRP parmi Chambre NOM chambre

Les DET:ART le Est VER:pres être

Cinéastes NOM cinéaste Grande ADJ grand

Prétendant VER:ppre prétendre Et KON et

À PRP à Belle ADJ beau

La DET:ART le . SENT .

Palme NOM palme Elles PRO:PER elle

d' PRP de Allent VER:subp <unknown>

Or NOM or À PRP à

À PRP à La DET:ART le

Cannes NAM Cannes Playa NOM <unknown>

avait suscité NOM <unknown> . SENT .

Une DET:ART un Ils PRO:PER il

pétition qui NOM <unknown> Allent VER:subp <unknown>

Avait VER:impf avoir Á PRP à

elle-même PRO:PER elle-même La DET:ART le

Entraîné VER:pper entraîner Mer NOM mer

Un DET:ART un Et KON et

Débat NOM débat Font VER:pres faire

. SENT . La DET:ART le

A PRP à Soleil NOM soleil

Venise NAM Venise . SENT .

, PUN , Le DET:ART le

En PRP en Soir NOM soir

compétition NOM compétition Elles PRO:PER elle

, PUN , allent VER:pres <unknown>

Il PRO:PER il À PRP à

n' ADV ne Une DET:ART un

Y PRO:PER y restaurant NOM restaurant

A VER:pres avoir . SENT .

Cette PRO:DEM ce Elles PRO:PER elle

Année NOM année Mangent VER:pres manger

qu' PRO:REL que Et KON et

Un DET:ART un Boivent VER:pres boire

Film NOM film . SENT .

Réalisé VER:pper réaliser Trop ADV trop

Par PRP par Tard ADV tard

Une DET:ART un Elles PRO:PER elle

Femme NOM femme Allent VER:subp <unknown>

. SENT . À PRP à

Le DET:ART le Une DET:ART un

Premier NUM premier Bar NOM bar

Long ADJ long . SENT .

Page 26: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

26

Métrage NOM métrage Il PRO:PER il

De PRP de Y PRO:PER y

l' DET:ART le A VER:pres avoir

Israélienne ADJ israélien Deux NUM deux

Rama NOM <unknown> Garcons NOM <unknown>

Burshtein, Lemale ADJ <unknown> interesants ADJ <unknown>

Et KON et . SENT .

ha'halal (comble ADJ <unknown> Ils PRO:PER il

Le DET:ART le Devent VER:impf <unknown>

Vide ADJ vide Copains ADJ copain

) PUN ) . SENT .

. SENT . Ils PRO:PER il

Sa DET:POS son Dansent VER:pres danser

Projection NOM projection Et KON et

, PUN , chantent VER:pres chanter

Samedi NOM samedi . SENT .

Soir NOM soir Au PRP:det au

, PUN , matin NOM matin

En PRO:PER en , PUN ,

a VER:pres avoir Les DET:ART le

Pris VER:pper prendre Filles NOM fille

Plus ADV plus Et KON et

d' PRP de Les DET:ART le

un(e NOM <unknown> Garcons NOM <unknown>

) PUN ) Allent ADJ <unknown>

Par PRP par au PRP:det au

Surprise NOM surprise sightseeing NOM <unknown>

. SENT . . SENT .

Comédie NOM comédie Le DET:ART le

romantique ADJ romantique garcon NOM <unknown>

Autour ADV autour gross NOM <unknown>

d' PRP de est VER:pres être

Un DET:ART un amoureau NOM <unknown>

Mariage NOM mariage dans PRP dans

Arrangé VER:pper arranger la DET:ART le

Entre PRP entre Fille NOM fille

Un DET:ART un petit ADJ petit

Veuf NOM veuf . SENT .

Et KON et Ils PRO:PER il

La DET:ART le regardent VER:pres regarder

Soeur NOM sœur le DET:ART le

De PRP de soleil NOM soleil

La DET:ART le denscent ADJ <unknown>

disparue, Comble NOM <unknown> . SENT .

Le DET:ART le Le DET:ART le

vide est NOM <unknown> garcon NOM <unknown>

Page 27: Die Aufarbeitung und Analyse der Daten in Lernerkorpora · schen Annotation vertieft und es werden neben der Annotation im Allgemeinen die für die Analyse von Lernerkorpora besonders

27

Une DET:ART un petit ADJ petit

Apologie NOM apologie est VER:pres être

Avouée VER:pper avouer amoureau NOM <unknown>

Du PRP:det du dans PRP dans

Mode NOM mode la DET:ART le

De PRP de fille NOM fille

Vie NOM vie gross NOM <unknown>

Mis VER:pper mettre . SENT .

En PRP en Ils PRO:PER il

Scène NOM scène mangent VER:pres manger

, PUN , dans PRP dans

Celui PRO:DEM celui une DET:ART un

d' PRP de restaurant NOM restaurant

Une DET:ART un trés VER:futu <unknown>

communauté NOM communauté romantique ADJ romantique

Orthodoxe ADJ orthodoxe . SENT .

De PRP de Depuis PRP depuis

Tel NAM <unknown> ils PRO:PER il

Aviv NAM <unknown> allent VER:pres <unknown>

, PUN , à PRP à

À PRP à la DET:ART le

Laquelle PRO:REL lequel maison NOM maison

Appartient VER:pres appartenir . SENT .

La DET:ART le Ils PRO:PER il

Réalisatrice NOM réalisateur sont VER:pres être

Rama NAM <unknown> trés VER:pper <unknown>

Burshtein NAM <unknown> hereaux NOM <unknown>

. SENT . . SENT .