9
Multilinguale Anreicherung monolingualer Textdaten * Felix Sasaki Zusammenfassung Beschrieben wird ein System, welches japanischsprachige Korpora durch die Anrei- cherung mit deutschsprachigen Informationen (Einzelwortübersetzungen, morpho- logische Kategorien und Lateinumschrift) für die „westliche“, sprachbezogene For- schung erschließt. Zum Einsatz kommen über das WWW frei verfügbare Lexika. Eine erste Anwendung des Ansatzes besteht in einer Datenbank japanischer Satz- und Äußerungsmuster, die für nicht-japanische Benutzer konzipiert wurde. Die ab- strahierte Architektur, die dem System zu Grunde liegt, könnte unter Verwendung eines generellen Datenaustauschformates weitere Sprachen mit komplexen Schrift- systemen der Forschung zugänglich machen. 11.1. Einleitung Für sprachtypologisch oder sprachvergleichend arbeitende Wissenschaftler ergibt sich ein häufiges Problem. Viele Daten sind aufgrund mangelnder Sprach- und oft auch Schriftkenntnisse unzu- gänglich. Während es bei Sprachen mit alphabetbasierter Schrift die Möglichkeit gibt, mittels Wörterbüchern und Grammatiken sich die nötigen Kenntnisse anzueignen, erfordern Sprachen mit anderen Schriftsystemen einen extremen Aufwand, der selten zu rechtfertigen ist. Die An- strengung, um Sprachkorpora des Chinesischen, Koreanischen oder Japanischen zu erschließen, steht in keinem Verhältnis mehr zum wissenschaftlichen Output. Mit der Verbreitung des Internet steht seit einigen Jahren eine Vielzahl von Tools frei zur Verfügung, die Abhilfe schaen könnten. 1 So lassen sich semi-automatisch Wort-für-Wort Über- setzungen, grammatikalische Kategorisierungen und eine Wiedergabe der Daten in lateinischer Schrift erstellen. Die Anwendung dieser Tools fällt allerdings schwer, wenn der Benutzer nicht bereits die jeweilige Sprache beziehungsweise Schrift bis zu einem gewissen Grad beherrscht. Der hier vorgestellte Ansatz verbindet Tools und Korpora zu einem System, welches ohne nähere Kenntnisse des Japanischen die Analyse von Korpora in dieser Sprache erlaubt und dessen Struktur leicht für andere Sprachen angepasst werden kann, sowohl was die zu untersuchende Sprache angeht als auch die Sprache des Benutzers. * Erschienen in: Proceedings der GLDV-Frühjahrstagung 2001, Henning Lobin (Hrsg.), Universität Gießen, 28.–30. März 2001, Seite 105–113. http://www.uni-giessen.de/fb09/ascl/gldv2001/ 1 Eine Sammlung derartiger Tools für das Japanische bietet Jim Breen, vgl. http://www.csse.monash.edu.au/ ~jwb/japanese.html . 105

Multilinguale Anreicherung monolingualer Textdaten · 11.1. Einleitung Für sprachtypologisch oder sprachvergleichend arbeitende Wissenschaftler ergibt sich ein häuges ... (Schritt

Embed Size (px)

Citation preview

Page 1: Multilinguale Anreicherung monolingualer Textdaten · 11.1. Einleitung Für sprachtypologisch oder sprachvergleichend arbeitende Wissenschaftler ergibt sich ein häuges ... (Schritt

Multilinguale Anreicherung

monolingualer Textdaten∗

Felix Sasaki

ZusammenfassungBeschrieben wird ein System, welches japanischsprachige Korpora durch die Anrei-cherung mit deutschsprachigen Informationen (Einzelwortübersetzungen, morpho-logische Kategorien und Lateinumschrift) für die „westliche“, sprachbezogene For-schung erschließt. Zum Einsatz kommen über das WWW frei verfügbare Lexika.Eine erste Anwendung des Ansatzes besteht in einer Datenbank japanischer Satz-und Äußerungsmuster, die für nicht-japanische Benutzer konzipiert wurde. Die ab-strahierte Architektur, die dem System zu Grunde liegt, könnte unter Verwendungeines generellen Datenaustauschformates weitere Sprachen mit komplexen Schrift-systemen der Forschung zugänglich machen.

11.1. Einleitung

Für sprachtypologisch oder sprachvergleichend arbeitende Wissenschaftler ergibt sich ein häufigesProblem. Viele Daten sind aufgrund mangelnder Sprach- und oft auch Schriftkenntnisse unzu-gänglich. Während es bei Sprachen mit alphabetbasierter Schrift die Möglichkeit gibt, mittelsWörterbüchern und Grammatiken sich die nötigen Kenntnisse anzueignen, erfordern Sprachenmit anderen Schriftsystemen einen extremen Aufwand, der selten zu rechtfertigen ist. Die An-strengung, um Sprachkorpora des Chinesischen, Koreanischen oder Japanischen zu erschließen,steht in keinem Verhältnis mehr zum wissenschaftlichen Output.

Mit der Verbreitung des Internet steht seit einigen Jahren eine Vielzahl von Tools frei zurVerfügung, die Abhilfe schaffen könnten.1 So lassen sich semi-automatisch Wort-für-Wort Über-setzungen, grammatikalische Kategorisierungen und eine Wiedergabe der Daten in lateinischerSchrift erstellen. Die Anwendung dieser Tools fällt allerdings schwer, wenn der Benutzer nichtbereits die jeweilige Sprache beziehungsweise Schrift bis zu einem gewissen Grad beherrscht.

Der hier vorgestellte Ansatz verbindet Tools und Korpora zu einem System, welches ohnenähere Kenntnisse des Japanischen die Analyse von Korpora in dieser Sprache erlaubt und dessenStruktur leicht für andere Sprachen angepasst werden kann, sowohl was die zu untersuchendeSprache angeht als auch die Sprache des Benutzers.

∗ Erschienen in: Proceedings der GLDV-Frühjahrstagung 2001, Henning Lobin (Hrsg.), Universität Gießen, 28.–30.März 2001, Seite 105–113. http://www.uni-giessen.de/fb09/ascl/gldv2001/

1 Eine Sammlung derartiger Tools für das Japanische bietet Jim Breen, vgl. http://www.csse.monash.edu.au/~jwb/japanese.html.

105

Page 2: Multilinguale Anreicherung monolingualer Textdaten · 11.1. Einleitung Für sprachtypologisch oder sprachvergleichend arbeitende Wissenschaftler ergibt sich ein häuges ... (Schritt

Multilinguale Anreicherung monolingualer Textdaten

11.2. Die Datenbasis

Die Datengrundlage bilden zum einen Dialog-Korpora. Verwendet werden Ausschnitte aus dem„Tinkertoy-Korpus“, welches zwischen April und August 2000 nach dem Muster des Tinkertoy-Experimentiersets vom Max-Planck Institut in Nijmegen (vgl. Senft, 1995) an der UniversitätTokyo erstellt wurde; Ausschnitte aus dem Korpus „Danwa taiwa kenkyuu“ mit verschiedenenaufgabenorientierten Dialogen (vgl. Aono et al., 1994, Anderson et al., 1991); und das „Hyper-media Corpus of Spoken Japanese“ vom Fukuoka Institute of Technology, welches Interviews mitJapaner enthält und mit Sprechern, die Japanisch als Fremdsprache erlernen.

Zum anderen werden Texte aus der japanischen Zeitung „Asahi Shinbun“ verwendet. DieTexte sind im Internet frei erhältlich und kommen aus den Ressorts Politik, Wirtschaft, Kulturund Gesellschaft. Die Verwendung von Zeitungstexten und Dialogen entspringt dem Ziel einerersten Anwendung der angereicherten Korpora in einer Datenbank für Satz- und Äußerungsmus-ter (vgl. Abschnitt 11.4).

11.3. Das System

Die Transkriptionen liegen als XML- und HTML-Dokumente vor, welche automatisch aus einerVerschriftlichung der Audiodaten erzeugt wurden. Zur Anwendung kam dabei ein System, dessenAufbau im Folgenden beschrieben wird.

11.3.1. Verarbeitungsschritte des Systems

Das japanische Korpus wird zunächst vorbearbeitet (Schritt 1). Hierbei werden Formatierun-gen wie die Trennung zwischen Äußerungen derart angepasst, dass sie für die weiteren Schritteverwendbar sind. Zudem werden Informationen wie Dialogaktannotationen aus dem Korpusentfernt, um die weitere Verarbeitung durch geringere Datenmengen zu erleichtern. Als nächs-tes werden die Korpora umcodiert (Schritt 2). Dies ist insbesondere aufgrund der Vielzahl vonCodierungsstandards für das Japanische nötig (vgl. Lunde, 1999, Gippert, 1999a). Reguläre Aus-drücke, welche für die Einbindung der Einzelwortübersetzungen (vgl. Schritt 4a) eingesetzt wer-den, bereiten Probleme, wenn die Suche auf der Basis einzelner Bytes durchgeführt werden. Dafür die Codierung des Japanischen wenigstens zwei Byte eingesetzt werden, können Fehler nachdem Muster entstehen, das in Tabelle 11.1 dargestellt ist. Die Trennung der Doppelbyte-Zeichengeschieht hier an der falschen Stelle, so dass aus den Zeichen ‘CCBE’ (in EUC-JP) und ‘A4C8’fälschlicherweise die Zeichen ‘CCA4’ und ‘C8BE’ werden.

Es bieten sich zwei Lösungsmöglichkeiten für derartige Probleme an. Zum einen gibt esPatches – etwa für Perl –, welche die Verwendung von EUC-codierten Doppelbyte-Zeichen inregulären Ausdrücken ermöglichen.2 Eine Sprache wie Perl bietet sich für die anstehenden Auf-gaben an, weil sie vielfältige Möglichkeiten zur Textmanipulation besitzt. Allerdings laufen diesePatches nur auf japanischsprachigen Systemen, somit sind sie für die hier beschriebenen Zweckeungeeignet. Zum anderen kann man unicodebasierte Sprachen wie Java einsetzten. Hier bestehtallerdings der Nachteil, dass Programme wie „Chasen“ keinen Unicode verarbeiten.3

2 Vgl. http://www.shonanblue.ne.jp/~kipp/jperl/index.html.3 Neuere Versionen von Perl verarbeiten auch Unicode-Codierungen, mit denen die Suche nach Doppelbyte-Zeichen

erleichtert wird.

106

Page 3: Multilinguale Anreicherung monolingualer Textdaten · 11.1. Einleitung Für sprachtypologisch oder sprachvergleichend arbeitende Wissenschaftler ergibt sich ein häuges ... (Schritt

Felix Sasaki

Tabelle 11.1.: Mögliche Fehler bei regulären Ausdrücken auf der Basis einzelner Bytes

Tabelle 11.2.: Beispiele für unterschiedliche Lautungen der gleichen Kanji

Nach der Umcodierung wird der Morphemtagger „Chasen“ in Schritt 3 eingesetzt. „Chasen“erkennt die Morphemgrenzen und ordnet ihnen eine Kategorie zu (vgl. Matsumoto, 1999). Ins-gesamt stehen 11 Kategorien zur Verfügung, die zum Teil noch weiter ausdifferenziert werden.4

Bei Stammmorphemen gibt „Chasen“ zusätzlich das finale Suffix der unmarkierten Form wieder,also zum Beispiel „gehen“ mit dem Suffix „ “ „Präsens – Affirmativ“.

Die Kategorisierung von „Chasen“ orientiert sich nicht konsequent an morphologischen Kri-terien. So wird etwa die Kopula mit ihren verschiedenen morphologischen Ausprägungen denHilfsverben zugerechnet, ebenso aber auch das Negationsmorphem oder das Präteritumsmor-phem. Diese Analyse beruht auf japanischer (traditioneller) Linguistik („Kokugogaku“) und stelltneben der Schrift eine weitere Anforderung dar, der sich nicht-japanische Forscher stellen müs-sen. Um den Zugang zu den Daten zu erleichtern, wird die Morphemkategorisierung deshalbin der deutschen Fassung abgewandelt und allein nach morphologischen Kriterien vorgenommen(vgl. Schritt 4b).

Zusätzlich zur Morphemkategorisierung erzeugt „Chasen“ eine Lautumschrift für die Bild-schriftzeichen („Kanji“). Die Lautung von Bildschriftzeichen ist im Japanischen äußerst hetero-gen. Insbesondere bei Personennamen lässt sich nur ein geringer Prozentsatz der Zeichen ein-deutig einer Lautung zuordnen. „Chasen“ nutzt deshalb ein Lexikon, welches die Lautung inentsprechenden Kontexten zuordnet (siehe Tabelle 11.2).

Die bisherigen Schritte operieren ausschließlich auf japanischen Daten. An dieser Stelle folgtdie Anreicherung mit deutschsprachigen Informationen. Zunächst kommt das „wadoku-jiten“von Apel (1999) zum Einsatz (Schritt 4a). Es ist ein frei verfügbares Japanisch-Deutsches Wör-

4 Zum Beispiel werden die Nomina nach semantischen Kriterien (Personennamen, Firmennamen, Ortsnamen, . . . )getrennt.

107

Page 4: Multilinguale Anreicherung monolingualer Textdaten · 11.1. Einleitung Für sprachtypologisch oder sprachvergleichend arbeitende Wissenschaftler ergibt sich ein häuges ... (Schritt

Multilinguale Anreicherung monolingualer Textdaten

Tabelle 11.3.: Veränderte Kategorisierung der Morpheme

terbuch in elektronischer Form, mit zur Zeit 110 000 Datensätzen. Das Konzept von „wado-ku“ gründet auf dem japanisch-englischen Wörterbuch von Jim Breen5: Via Internet wird eineWörterbuch-Datei durch Einträge von Forschern ergänzt. Um den Kontakt zu diesem Projekt zuerleichtern, ermöglicht Apel die Speicherung der Lexikoneinträge in dem gleichen Format namens„edict“. Das vorliegende System bedient sich ebenfalls dem „edict“-Format, unter der Annahme,dass die Einbindung weiterer Sprachen neben Englisch und Deutsch dadurch erleichtert wird.Einträge aus dem Wörterbuch werden genutzt, um für die Grundformen der bedeutungstragen-den Lexeme Einzelwortübersetzungen in das Korpus einzufügen. Parallel zur Übersetzung derEinzelwörter werden die grammatischen Kategorien ins Deutsche übertragen (Schritt 4b). ZumEinsatz kommt dabei das Schema aus Tabelle 11.3, welches vom oben beschriebenen Japanischenabweicht. Die Daten werden in einem letzten Schritt um eine Lautumschrift mit lateinischenZeichen erweitert (Schritt 4c). Die Transkription erfolgt nach dem Hepburn-System, da dieses inder Deutsch-Japanisch kontrastiv arbeitenden Linguistik am meisten Verbreitung gefunden hat(vgl. Lewin, 1990, S. 32 ff.).

5 Eine Online-Dokumentation zu diesem Projekt findet sich unter http://www.csse.monash.edu.au/~jwb/

edict.html.

108

Page 5: Multilinguale Anreicherung monolingualer Textdaten · 11.1. Einleitung Für sprachtypologisch oder sprachvergleichend arbeitende Wissenschaftler ergibt sich ein häuges ... (Schritt

Felix Sasaki

Tabelle 11.4.: Schritte bei der Korpusbearbeitung

11.3.2. Output

Die Übersicht in Tabelle 11.4 stellt die beschriebenen Bearbeitungsschritte dar und zeigt denjeweiligen Zustand der Daten.

Zur Koordination der einzelnen Teilschritte wird ein Perlskript verwendet, welches verschie-dene Programme – zum Beispiel „Chasen“ oder ein Umcodierungsprogramm – aufruft und dieerzeugten Daten zusammenführt. Das Skript erkennt Marken im annotierten Text, welche denjeweiligen Sprecher repräsentieren, und erzeugt dementsprechend mit IDs versehene Äußerungs-tags „<u>“. Perl bietet den Vorteil des direkten Zugriffs auf die Textdaten. Sollen komplexereDokument-Strukturen als die vorliegende erzeugt werden, so lässt sich zum Beispiel DSSSL oderXSLT einsetzen (vgl. Witt, 1999, Sasaki und Witt, in diesem Band).

11.4. Eine Datenbank japanischer Satz- undÄußerungsmuster

Die mit deutschsprachigen Informationen angereicherten Korpora bilden eine Datenbank fürjapanische Satz- und Äußerungsmuster, die demnächst an der Universität Bielefeld abrufbar seinwird.6 Der Benutzer kann nach dem Muster der deutschsprachigen Korpussammlung „Cosmas“(vgl. al Wadi, 1994) einzelne Lexeme, Cluster von Lexemen, grammatikalische Elemente oderMuster aus den Datensätzen abrufen. Präsentiert werden jene Einträge in der Datenbank, welchedie gesuchten Elemente enthalten. Die Eingabe geschieht über das in Abbildung 11.1 (Seite 110)dargestellte Formular.

Der Benutzer kann bis zu sechs Elemente suchen. Eine Sucheinheit entspricht einem Mor-phem nach der beschriebenen, deutschsprachigen Kategorisierung. Da die Morpheme teilweisenur in Verbindung mit bestimmten Lexemen vorkommen, lassen sich auch bestimmte Wortmus-ter finden. Das Passivmorphem etwa agglutiniert ausschließlich unmittelbar auf den verbalen

6 Vgl. http://coli.lili.uni-bielefeld.de/~felix/japkorp/datenbank.html.

109

Page 6: Multilinguale Anreicherung monolingualer Textdaten · 11.1. Einleitung Für sprachtypologisch oder sprachvergleichend arbeitende Wissenschaftler ergibt sich ein häuges ... (Schritt

Multilinguale Anreicherung monolingualer Textdaten

Abbildung 11.1.: Suchmaske für die Datenbank

Abbildung 11.2.: Ergebnis einer Abfrage

110

Page 7: Multilinguale Anreicherung monolingualer Textdaten · 11.1. Einleitung Für sprachtypologisch oder sprachvergleichend arbeitende Wissenschaftler ergibt sich ein häuges ... (Schritt

Felix Sasaki

Abbildung 11.3.: Abstraktion des Systems für die Einbindung anderer Sprachen

Stamm folgend, das Negationsmorphem steht dahinter, und das Präteritumsmorphem kommtnur als finales Morphem vor. Das Negationsmorphem wird in Verbindung mit Verben, Adjekti-ven und Kopulaformen verwendet, eine entsprechende Anfrage beinhaltet also eine Suche nachdiesen drei Wortarten. Die Elemente werden standardmäßig mit „und“ verknüpft, als weitere lo-gische Operatoren stehen „oder“ beziehungsweise „nicht“ zur Verfügung. Als zusätzliche Optionkann die Aussprache der Elemente eingetragen werden, was auch die Angabe deutscher Wörterumfasst. So kann der Benutzer nach Verben suchen, deren Übersetzung „gehen“ bedeutet, gleich-zeitig auch nach dem japanischen Ausgangswort, zum Beispiel „iku“. Der Suchbereich kannalle Daten umfassen oder auf Sätze beziehungsweise Äußerungen beschränkt werden (vgl. Ab-schnitt 11.2). Das Ergebnis für die beispielhafte Suchabfrage „Kategorie: pronomen, Lautung-Deutsch: kochira“ wird präsentiert wie in Abbildung 11.2 dargestellt.

11.5. Die Abstraktion des Systems

Das vorgestellte System dient der Aufbereitung japanischen Korpora durch deutschen Da-ten. Zudem lässt es sich als ein Vorschlag für eine Architektur begreifen, mit der Texte undtranskribierte Sprachdaten der linguistischen Forschung zugänglich gemacht werden, auch wennsie andere Schriftsysteme als das lateinische verwenden. Abbildung 11.3 stellt den Aufbau einessolchen Systems schematisch dar.

Zur Verwendung kommen in diesem System zum Teil über das Internet frei verfügbare Res-sourcen. Lexika in verschiedenen anderen europäischen Sprachen können so benutzt werden, um

111

Page 8: Multilinguale Anreicherung monolingualer Textdaten · 11.1. Einleitung Für sprachtypologisch oder sprachvergleichend arbeitende Wissenschaftler ergibt sich ein häuges ... (Schritt

Multilinguale Anreicherung monolingualer Textdaten

die japanischen, chinesischen oder koreanischen Korpora – um nur ein paar Beispiele zu nennen –aufzubereiten. In Abbildung 11.3 sind sie durch „Lexikon A“ wiedergegeben. Je nach Anwen-dungszweck beziehungsweise eingesetzter linguistischer Theorie sind verschiedene morphologi-sche Kategorisierungen nötig. Dies wird durch das „Lexikon B“ bewerkstelligt. Das „Lexikon C“schließlich wird für die verschiedenen Lateinisierungssysteme eingesetzt.

Die Verwendung von XML für multilinguale Korpora ist ein bereits beschrittener Weg (vgl.Rösner, 1999). Mittels XML kann der Korpusersteller gleichzeitig eine eigene Struktur für dieKorpusdaten vorgeben und sie mittels XSL-Stylesheets für die verschiedenen Zwecke präsentieren.Werden die Daten z. B. mit mehreren Lexika angereichert, kann das Stylesheet dazu dienen, eineAbfrageschnittstelle in der jeweiligen Sprache bereitzustellen.

Sollten Systeme wie das beschriebene für andere Ausgangsprachen (Chinesisch etc.) konstru-iert werden, so bietet XML ein standardisiertes Datenaustauschformat (vgl. Heyer und Wolff,1999, zu multimedialen Lexika). Daten von anderen, ähnlichen Systemen (vgl. Gamper undDongilli, 1999) können unter Verwendung von Annotationsstandards wie CES7 leicht parallelgenutzt werden. Für tiefergehende Korpusanalysen oder Transformationen, sind Architekturenoder Transformationssprachen wie XSLT einsetzbar (vgl. Lobin, 2000 sowie Sasaki und Witt indiesem Band).

Literaturverzeichnis

W, D. (1994): “COSMAS – Ein Computersystem für den Zugriff auf Textkorpora”. VersionR.1.3-1. Benutzerhandbuch. Mannheim: Institut für Deutsche Sprache.

A, A. H.; B, M.; B, E.G.; D, G.; G, S.; I, S.; K, J.;M, J.; M, J.; S, C.; T, H. W, R. (1991): “The HCRCMap Task Corpus”. Language and Speech 34: S. 351–366.

A, M.; I, A.; K, H.; S, S.; N, M.; T, S.; Y, K.; W,N.; I, M.; O, M.; S, H.; N, Y. N, K. (1994): “The JapaneseMap Task Corpus: An interim Report”. In: Spoken Language understanding and discourse processing, Tokyo:Japanese Society for Artificial Intelligence.

A, U. (1999): “Wadoku-Jiten. Japanisch-deutsche Wörterbuch-Datenbank-Anwendung”. School ofHuman Sciences, Osaka University (http://userpage.fu-berlin.de/~japano/dic/).

G, H. D, P. (1999): “Primary Data Encoding of a Bilingual Corpus”. In: Gippert(1999b).

G, J. (1999a): “Language-specific encoding in multilingual corpora: Requirements and solutions”.In: Gippert (1999b).

G, J. (Herausgeber) (1999b): Multilinguale Corpora – Codierung, Strukturierung, Analyse, Prag.Enigma.

H, G. W, C. (1999): “Modellierung multilingualer Ressourcen”. In: Gippert (1999b).

L, B. (1990): Abriß der japanischen Grammatik. Wiesbaden: Harrassowitz.

L, H. (2000): Informationsmodellierung in XML und SGML. Berlin, Heidelberg, New York etc.:Springer, 2. Auflage.

L, K. (1999): CJKV Information Processing. Cambridge: O’Reilly.

7 Corpus Encoding Standard (http://cs.vassar.edu/CES/).

112

Page 9: Multilinguale Anreicherung monolingualer Textdaten · 11.1. Einleitung Für sprachtypologisch oder sprachvergleichend arbeitende Wissenschaftler ergibt sich ein häuges ... (Schritt

Felix Sasaki

M, Y. (1999): “Japanese Morphological Analysis System. ChaSen Version 2.0 Manual, 2ndEdition”. Nara Institute of Science and Technology (http://cl.aist-nara.ac.jp/lab/nlt/chasen/manual2/manual.pdf).

R, D. (1999): “XML-basierte Werkzeuge für multilinguale Korpora”. In: Gippert (1999b).

S, G. (1995): “Mit Tinkertoy in die Tiefe(n) des Raumes: Zum räumlichen Verweisen im Kilivila– eine Fallstudie”. In: Untersuchungen zur Kommunikationsstruktur, herausgegeben von Fiehler, R. undMetzing, D., Bielefeld: Aisthesis.

W, A. (1999): “DSSSL zur Verarbeitung linguistischer Korpora”. In: Gippert (1999b).

113