26
Institut für Computerlinguistik Integration von Finite-State Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit im Seminar «Maschinelle Übersetzung» Herbstsemester 2011 Vorgelegt von Hernani Marques 15. Juni 2012 Betreuer Anne Göhring Magdalena Jitca Prof. Dr. Michael Hess

Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

Institut fuumlr Computerlinguistik

Integration von Finite-StateTransducer-Technologien inApertium zur MaschinellenUumlbersetzung morphologischkomplexer SprachenSeminararbeit im SeminarlaquoMaschinelle UumlbersetzungraquoHerbstsemester 2011

Vorgelegt vonHernani Marques

15 Juni 2012

BetreuerAnne GoumlhringMagdalena JitcaProf Dr Michael Hess

Zusammenfassung

Diese Seminararbeit liefert einen Uumlberblick uumlber die Apertium-Plattformzur Maschinellen Uumlbersetzung - mit besonderem Augenmerk auf die mor-phologische Analyse- und Generierungsphase der Transfer-Pipelinein der es moumlglich ist das Helsinki Finite-State Technology-Framework(HFST) zur Anwendung zu bringen um Morphologien von Sprachenzu verwalten die mit linguistischer Systematik rein konkatenativ (mitden Apertium-Bordmitteln) nur schwer zu erfassen sind Diskutiertwird die Integration am Beispiel des Sprachpaars sme-nob (Nordsamischzu Norwegisch) das mit Abschluss dieser Arbeit den Einzug in die sta-bilen (produktiv-nutzbaren) Sprachpaare von Apertium geschafft hat

2

Inhaltsverzeichnis

1 Einfuumlhrung 4

11 Motivation und Thema 4

12 Verwendete Umgebung und Konfiguration 5

2 Grundlagen Zu Apertium und HFST 7

21 Wesen und Entwicklungsstand von Apertium 7

22 Wesen und Entwicklungsstand von HFST 11

3 Hauptteil Die Integration von HFST in Apertium 14

31 Theorie Zweck und Nutzen der Integration 14

32 Empirie Die Integration am Beispiel eines Sprachpaars 16

4 Schluss 22

41 Zusammenfassung und Ausblick 22

42 Danksagungen 23

Literaturverzeichnis 24

Abbildungsverzeichnis 25

Anhang 26

3

1 Einfuumlhrung

11 Motivation und ThemaIm Rahmen des Seminars ldquoMaschinelle Uumlbersetzungrdquo bei Prof Dr Mi-chael Hess Anne Goumlhring und Magdalena Jitca im Herbstsemester 2011haben wir uns mit verschiedenen Aspekten der automatischen Uumlber-setzung natuumlrlichsprachlicher Texte beschaumlftigt darunter auch mit Sys-temen welche regelbasiert (RBMT) und anderen die statistikbasiert(SBMT) arbeiten Zusammen mit Simon Hafner habe ich mich damalsdazu entschieden zwei Systeme mit einem Vortrag zu beleuchten wel-che frei im Quellcode verfuumlgbar und nutzbar sind Apertium als RBMT-und Moses als SBMT-System Insbesondere haben wir die Vorteile vonFOSS-MUuml-Systemen 1 fuumlr Minderheitensprachen beleuchtet In meinemTeil zu Apertium habe ich das Gesellschaftliche zu stark gewichtet sodass das Technische dementsprechend auf der Strecke geblieben istMit dieser Seminararbeit moumlchte ich das nun ausraumlumen Ich fokussie-re mich auf Apertium als eine offene Plattform und wie sie genutztwerden kann um mit Sprachen umzugehen die eine komplexe Mor-phologie aufweisen

Was soll gezeigt werden

Apertium ist ein RBMT-System das insbesondere dafuumlr bekannt istmittels Shallow-Transfer zwischen linguistisch aumlhnlichen Sprachpaarenzu uumlbersetzen Bei den urspruumlnglich involvierten Sprachen handelt essich daruumlber hinaus um solche die uumlber eine (vergleichsweise) ein-fache Morphologie aufweisen und indoeuropaumlischen Ursprungs sindIm Zuge nun der Uumlbersetzung morphologisch komplexer und weitervoneinander entfernten Sprachpaaren kann das Helsinki Finite- StateTechnology - Framework (HFST) eingesetzt werden auf das wird ins-besondere im Kapitel 22 eingegangen Das Framework bietet Schnitt-stellen zu bestehenden Finite-State Transducer-Technologien (z B Fo-ma oder OpenFST) an und ermoumlglicht somit eine Wiederverwendung

1 MUuml-Systeme die Free and Open Source Software sind

4

(morphologischer) sprachtechnologischer Ressourcen fuumlr den Bereichder Maschinellen Uumlbersetzung zwischen Sprachen von der zumindesteine gepraumlgt ist von einem agglutinierenden oder stark flektierendenSprachbau

In meiner Seminararbeit moumlchte ich also zunaumlchst aufzeigen was Aper-tium und HFST sind (in Kapitel 2) und dann wie sie zueinander stehenund integriert werden koumlnnen um mehr Sprachpaare uumlbersetzen zukoumlnnen Diese Integration mit HFST theoretisch und empirisch auf-zudecken ist Inhalt von Kapitel 3 Die entsprechenden Illustrationenliefere ich anhand des Sprachpaars sme-nob (Nordsamisch zu Norwe-gisch) das zum einen gut dokumentiert ist und mir zum anderen einenZirkelschluss zu meinem Ursprungsthema des Seminars erlaubt naumlm-lich Aufzuzeigen wie Apertium dazu genutzt werden kann Minder-heitensprachen zu unterstuumltzen - nur diesmal bedeutend mehr in dertechnischen Beleuchtung der Sache Interessant an diesem Sprachpaarist zudem dass eine der involvierten Sprachen naumlmlich das Nordsa-mische morphologisch komplex ist und mit dem Norwegischen weniggemein hat d h das Sprachpaar ist von hoher linguistischer DistanzDas ist ein Bereich fuumlr den die Apertium-Plattform urspruumlnglich nichtkonzipiert wurde In einem Uumlberblick zu zeigen wie mit diesen An-forderungen an das RBMT-System umgegangen wird ist Ziel meinerArbeit

Kapitel 4 - der Schluss - setze ich mit einer Zusammenfassung der be-handelten Materie um und stelle die wichtigsten Erkenntnissen meinerSeminararbeit in den Raum Auch ist das der Platz um einen Blick indie Zukunft zu wagen was in Apertium in der naumlchsten Zeit einfliessenwird In dem Zusammenhang sind Chatgespraumlche und Hinweise dieich von (wohl bekannten) Apertium-Entwicklern erhalten habe wert-voll

12 Verwendete Umgebung und KonfigurationAlle meine hier beschriebenen Versuche habe ich auf einem amd64-System durchgefuumlhrt auf das die stabile Debian-Veroumlffentlichung 605(ldquoSqueezerdquo) 2 installiert ist Waumlhrend Apertium bei vielen Distributio-nen von GNULinux paketiert vorliegt gilt das fuumlr das HFST-Frameworknicht dieses wird allerdings benoumltigt um mit morphologisch komple-xen Sprachen zu arbeiten

Will man Apertium zunaumlchst aber nur in den stabilen und fuumlr die Ver-oumlffentlichung herausgegebenen Sprachpaaren testen so kann unter De-bian das Paket apertium installiert werden Zur Installation der Dateienfuumlr eine konkrete (stabile) Uumlbersetzungsrichtung wie z B fr-ca (vonFranzoumlsisch nach Katalanisch) muss zusaumltzlich das Paket apertium-fr-cainstalliert werden In diesem Paket sind die effektiven Lexika in binaumlrerFassung fuumlr diese Sprachrichtung einschliesslich den Transferregelnund anderen benoumltigten Dateien enthalten

2 Debian-Webseite httpwwwdebianorgNews201220120512 (letzter Zugriff08062012)

5

Ist das geschehen kann Apertium auf der Kommandozeile wie folgtgetestet werden

$ echo Jrsquoaime manger du chocolat | apertium fr-ca 1Estima menjar de la xocolata$ echo Ils aiment manger du chocolat | apertium fr-ca 2Estimen menjar de la xocolata

Beide Saumltze 1 3 und 2 4 zeigen auf dass Apertium bei (einfachen)Saumltzen der vorgezeigten Uumlbersetzungsrichtung korrekt arbeitet

Fuumlr weitergehende Versuche insbesondere mit experimentellen Sprach-paaren ist mit den vorkompilierten Paketen aus dem Debian-Paketsystemwenig zu erreichen Fuumlr die meisten der neuesten Sprachpaare wirdApertium in Version 32 benoumltigt 5 Es ist angeraten die aktuellstenPakete manuell zu kompilieren und dem System hinzuzufuumlgen zuletzthabe ich folgende Umgebung auf meinem System erfolgreich getestet

bull Apertium 32 und davon abhaumlngig lttoolbox 32

bull HFST 3311 und davon abhaumlngig OpenFST 132 sowie Foma0916alpha

bull VISL CG-3 0978357

Das meiste Kopfzerbrechen mag HFST bereiten Die Nutzung mit Aper-tium erfolgreich zu konfigurieren erfordert sowohl das ldquoHFST READ-MErdquo auf dem Wiki des Projekts 6 als auch das Apertium-Wiki zumThema HFST 7 zu studieren

Die anderen Pakete (OpenFST Foma und VISL GC-3) sind - den In-struktionen in den jeweiligen README-Dateien befolgend - leicht instal-liert

Wie Apertium selber kompiliert werden kann und beliebige (auch ex-perimentelle) Sprachpaare installiert werden koumlnnen wird ebenfallsim Wiki des Projekts 8 genau erlaumlutert und funktioniert in aller Regelproblemlos Im Falle dass ein Sprachpaar gerade nicht kompilierbarist helfen die Apertium-Entwickler im IRC-Chatkanal 9 apertium aufFreenode 10 meinen Erfahrungen gemaumlss gerne und unkompliziert wei-ter

3 Dt ldquoIch mag es Schokolade zu essenrdquo4 Dt ldquoSie moumlgen es Schokolade zu essenrdquo5 Die juumlngste fuumlr Debian verfuumlgbare Fassung die vorkompiliert paketiert ist stelltVersion 31 dar6 HFST-Wiki httpskitwikicscfitwikibinviewKitWikiHfstReadme(letzter Zugriff 08062012)7 Apertium-Wiki httpwikiapertiumorgwikiHfst (letzter Zugriff08062012)8 Installation von Apertium aus dem SVN-Repository httpwikiapertiumorgwikiApertium_on_UbuntuInstalling_the_newest_version_from_SVN_28more_complicated29 (letzter Zugriff 14062012)9 Internet Relay Chat10 ircircfreenodenetapertium

6

2 Grundlagen Zu Apertiumund HFST

21 Wesen und Entwicklungsstand von ApertiumAn der ersten FreeRBMT-Konferenz1 rekapitulieren Forcada et al [3]2009 unter dem Titel ldquoThe Apertium machine translation plattform fiveyears onrdquo die Entwicklung hin zu einem regelbasierten Uumlbersetzungs-system das schon damals uumlber 20 funktionale Uumlbersetzungsrichtungenaufweist

Was aber war fuumlnf Jahre vorher und was ist jetzt - insgesamt acht Jahrespaumlter

Apertium als solches wurde 2004 als Projekt - finanziert von einemKonsortium aus Staat und Wirtschaft - gegruumlndet um zunaumlchst dieSprachpaare esharrca (Spanisch und Katalanisch) sowie Spanisch undGalicisch als das Paar esharrgl in beidseitige Uumlbersetzungsrichtungen zurealisieren Angesiedelt wurde das Projekt zur Umsetzung an der Uni-versitaumlt von Alicante 2

Zu diesem Zeitpunkt existieren bereits zwei regelbasierte MUuml-Systemedie als Transfersysteme relativ oberflaumlchlich ohne tiefe Syntaxanaly-se zwischen aumlhnlichen Sprachpaaren zu uumlbersetzen faumlhig sind inter-NOSTRUM und Tradutor Universia Dieser Ansatz wird als Shallow-Transfer bezeichnet und bedeutet im einfachsten Fall dass ausser einemlexikalischen Transfer kaum weitere Arbeit fuumlr das System anfaumlllt eineUumlbersetzung relativ erfolgreich zu vollziehen An diesem Ansatz hatsich im Grundsatz nichts geaumlndert Und Dieser Ansatz in seiner ein-fachsten Transferform funktioniert nur fuumlr sehr aumlhnliche Sprachpaaregut Das letztere System (Tradutor Universia) ist spezialisiert auf das

1 Eine Konferenz fuumlr freie RBMT-Systeme httpxixonadlsiuaesfreerbmt09 (letzter Zugriff 14062012)2 Webseite der Universitaumlt httpwwwuaes (letzter Zugriff 14062012)

7

Sprachpaar esharrpt also Spanisch zu Portugiesisch (und umgekehrt) - alssolches ebenso ein Sprachpaar das eine geringe linguistische Distanzaufweist Die groumlssten Unterschiede sind lexikalischer Art

Vor insgesamt acht Jahren wurde angefangen die zwei o g Systeme zuvereinigen Im Zuge dieser Reimplementation wurde auch der Quell-code unter einer freien Lizenz im Sinne der Open Source Initiative 3

veroumlffentlicht Jede Person hat somit die Moumlglichkeit an der Entwick-lung von Apertium mitzuwirken Forcada selber war damals leitendmit dabei und mischt heute weiterhin zentral mit Es sind mittlerweileweitere wichtige Namen in der Apertium-Entwicklung involviert dieals Mentoren 4 fuumlr Interessierte an der Mitarbeit am Projekt fungierenDeren unmittelbare und zeitweise staumlndige Erreichbarkeit kann ich auseigener Erfahrung bestaumltigen

Forcada erwaumlhnt [3] dass fuumlr die Sprachpaare esharrca und es-gl diesprachtechnologischen Ressourcen teils selber (in seinem akademischenUmfeld) erstellt oder - wo moumlglich - aus frei verfuumlgbaren anderen Res-sourcen die frei lizenziert sind bezogen wurden um Apertium initialaufzubauen

Angefangen mit Version 10 welche fuumlr aumlhnliche Sprachpaare wieesharrca und es-pt ausgelegt ist bietet Version 20 bereits die Moumlglich-keit zwischen linguistisch weiter entfernten Sprachen zu uumlbersetzenAls Beispiele hierbei werden frharrca 5 oder enharrca 6 genannt Dafuumlr wur-de der Transferprozess ausgebaut denn es genuumlgt bei diesen Sprachennicht mehr (in vereinfachter Darstellung) die Woumlrter zu ersetzen Einmehrstufiger Strukturtransfer wird erforderlich ohne aber (bis heu-te) eine vollstaumlndige Syntaxanalyse zu betreiben Der juumlngste Major-Versionssprung zur Version 3 markiert dass Apertium vollstaumlndigUNICODE-faumlhig geworden ist und mit allen im Zeichensatz enthalte-nen Symbolen operieren kann

Technologisch setzt Apertium auf bewaumlhrte Technologien Die linguis-tischen Daten sowohl die Lexika als auch die Transferregeln werdenje Sprachpaar in XML-Dateien nach einem klaren Schema abgelegt 7Das erhoumlht die Interoperabilitaumlt zu anderen Systemen die sich diesenRessourcen bedienen moumlchten Ein eigens entwickeltes Toolset exis-tiert (lttoolbox) das die XML-Dateien in ein binaumlres Format uumlberset-zen kann das als ein Finite-State-Transduktor (FST) 8 realisiert wirdAus den Lexika und Transferregeln werden fuumlr jedes Sprachpaar letz-ten Endes drei Transduktoren erstellt welche folgenden drei Bereichengewidmet sind die im Grundsatz den Uumlbersetzungsprozess von Aper-tium ausmachen

3 Webseite der Initiative httpwwwopensourceorg (letzter Zugriff 14062012)4 Apertium-Wiki httpwikiapertiumorgwikiList_of_Apertium_mentors(letzter Zugriff 14062012)5 Franzoumlsisch zu Katalanisch und umgekehrt6 Englisch zu Katalanisch und umgekehrt7 Beispiel der Schemata anhand des Woumlrterbuchschemas httpwikiapertiumorgwikiMonodix_basics (letzter Zugriff 14062012)8 In diesem konkreten Anwendungsfall genauer bekannt als augmented letter trans-ducer

8

1 Lexikalische Analyse (der Quellsprachenwoumlrter)

2 Lexikalischer Transfer (anhand der Wortlemmata mit lexikali-schen Wortmarkierungen)

3 Lexikalische Generierung (der Zielsprachenwoumlrter)

Um die Lemmata fuumlr den Transferprozess erfolgreich lexikalisch zumarkieren sind natuumlrlich Zwischenschritte notwendig wie die morpho-logische Analyse der vorgefundenen Wortform PoS-Tagging 9 zur Wort-artenbestimmung und Word Sense Disambiguation um das (kontextuell)adaumlquate Lemma auszuwaumlhlen und zu taggen Je nach Sprachpaar undSprachbau der involvierten Sprachen ist der dafuumlr erforderliche Auf-wand unterschiedlich gross

Der Einsatz von HFST welcher zur morphologischen Verarbeitung indieser Hinsicht schwieriger Sprachen genutzt wird findet im extensivs-ten Einsatz bei der lexikalischen Analyse (1) und Generierung statt (2) -und das auch nur wenn beide Sprachen der Betrachtung HFST zur mor-phologischen Bewaumlltigung erforderlich machen Ist nur die Quellspra-che morphologisch mit den lttoolbox-Werkzeugen nicht zu bewaumlltigenso findet da der Einsatz von HFST statt ansonsten bei der Zielspra-che In Faumlllen wo sowohl die Zielsprache als auch die Quellsprachegroumlsstenteils mit Konkatenativer Morphologie 10 bewaumlltigt werden kannmacht der Einsatz von HFST wenig Sinn Da wird dann in aller Regellttoolbox fuumlr alles verwendet Das trifft etwa auf alle urspruumlnglichenSprachpaare zu wie ich sie weiter oben erwaumlhnt habe

Apertium ist der UNIX-Philosophie 11 verschrieben dass Programmeim Einzelnen klein und simpel zu sein haben und erst miteinander inInteraktion befindlich Komplexes schaffen sollen Durch das verwen-dete Pipelining kann jeder Analyse- Transfer- und Generierungsschrittin seinem In- und Output genau beobachtet werden Das und die freieVerfuumlgbarkeit des Quellcodes hilft beim Verstaumlndnis der Prozesse un-gemein und macht wissenschaftliche Ergebnisse nachvollziehbar Ge-nauer kann die Pipeline anhand der Abbildung 21 illustriert werden12

Die (relative) Unabhaumlngigkeit der einzelnen Komponenten erlaubt esApertium nur in Teilen zu verwenden z B zum PoS-Tagging eigenerTexte ungeachtet der weitergehenden und (eigentlichen) Hauptfunk-tionalitaumlt der Maschinellen Uumlbersetzung Somit ist Apertium nicht einfach

9 Das PoS-Tagging wird generell statistisch mit trainierten Daten im Einsatz vonHidden-Markov-Modellen (HMM) gemacht oder in Faumlllen wo zu wenig Datenmaterialvorliegt oder der Statistik zugunsten der Linguistik weniger Spielraum gelassen werdensoll faumlllt auf dass auch der Constraint Grammar-Formalismus (CG) eingesetzt wirdDas ist beim Sprachpaar sme-nob das in Kapitel 32 betrachtetet wird der Fall10 Dazu in 31 Genaueres11 Vgl hierzu Wikipedia httpsenwikipediaorgwikiUnix_philosophy(letzter Zugriff 14062012)12 Die schematische Darstellung entspringt den TeX-Quellen der Apertium-Dokumentation fuumlr Version 30 die in Arbeit ist URL httpapertiumsvnsourceforgenetviewvcapertiumbranchesapertium-documentationapertium-30endocumentationtexview=logamppathrev=38833 (letzter Zugriff14062012)

9

Quellsprachedarr

Deform rarr MorphAnal

rarrPoS-Tagging rarr

StruktTrans

rarrMorphGen

rarrPost-Gen

rarr Reform

l darr

LexTrans

Zielsprache

Abbildung 21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen

ein abgeschlossenes MUuml-System im Sinne einer Blackbox sondern ei-ne offene Plattform die hilft freie sprachtechnologische Ressourcen zumehren

Apertium fuumlhrt die Sprachpaare im SVN-Repository 13 abhaumlngig vomEntwicklungsstand in verschiedenen Ordnern

bull In incubator befinden sich kuumlrzlich angesetzte Sprachpaare

bull In nursery befinden sich noch wenig funktionale Sprachpaare

bull In staging befinden sich bereits fortgeschrittene Sprachpaare

bull In trunk befinden sich stabile Sprachpaare die produktiv ge-nutzt werden koumlnnen

Mittlerweile sind im Vergleich zu 2004 zahlreiche weitere Sprachpaa-re hinzukommen entstanden durch Forschungs-Entwicklungsprojektevon Studierenden 14 Arbeiten von Forschungsgruppen an anderenForschungseinrichtungen als Community-Projekte seitens Interessier-ter der Freien Software-Szene und auch mit Entwicklungsunterstuumltzungvon Unternehmen mit kommerziellen Interessen z B Prompsit wel-che Dienstleistungen um Apertium anbietet 15

Zum Zeitpunkt des Abschlusses dieser Arbeit Mitte Juni 201216 befin-den sich 138 () Sprachpaare in incubator 17 28 Sprachpaare in nursery5 Sprachpaare in staging und 37 Sprachpaare in trunk womit rund 40Sprachpaare produktiv genutzt werden koumlnnen Forschungs- und Ent-wicklungsarbeiten hingegen sind schon heute in rund 200 Sprachpaarenmoumlglich und weitere koumlnnen nach Absprache mit den Hauptentwick-lern beliebig hinzugefuumlgt werden

13 SVN-Webview des Repositories httpapertiumsvnsourceforgenetviewvc (letzter Zugriff 14062012)14 Z B im Rahmen des Google Summer of Code (GSoC) httpwikiapertiumorgwikiGoogle_Summer_of_CodeActive_projects (letzter Zugriff 14062012)15 Prompsit-Webseite httpwwwprompsitcomsomos-prompsit (letzter Zu-griff 14062012)16 SVN-Repository des Projekts in Revision 38833 httpapertiumsvnsourceforgenetviewvcapertiumpathrev=38833 (letzter Zugriff 14062012)17 Sowie einige Morphologien im Ansatz die keinem konkreten Sprachpaar gewid-met sind

10

Wichtig fuumlr einen Start sind die freie Verfuumlgbarkeit von Woumlrterbuumlchernund gegebenenfalls Morphologien fuumlr die involvierten Sprachen EineListe solcher Ressourcen fuumlr viele Sprachen wird im Apertium-Wikigefuumlhrt 18

Durch das Hinzukommen von Sprachpaaren deren Sprachen linguis-tisch wenig gemein haben ist der Shallow-Transfer inzwischen staumlrkerausgebaut Fuumlr en-ca (Englisch zu Katalanisch) wird ein dreistufigerStrukturtransfer angewandt in der Reihenfolge Chunking Inter- undPost-Chunking Dabei ist zu beachten dass das Inter-Chunking in (noch)komplexeren Faumlllen mehrstufig sein kann So ist mir das Sprachpaarsme-smj (vom Nordsamischen 32 in das Lulesamische 19) aufgefallen20 das uumlber drei Inter-Chunking-Dateien verfuumlgt 21 die Regeln daruumlberenthalten Chunks (in drei Phasen) zu vertauschen

22 Wesen und Entwicklungsstand von HFSTBeim Helsinki Finite-State Transducer - Framework (HFST) handelt essich um eine in C++ geschriebene Open Source-Softwarekollektion auswelche die Nutzung verschiedener FST-Technologien und -Formalismenheraus einheitlich moumlglich ist die ihrerseits frei (implementiert) verfuumlg-bar sind Es sind dies zum aktuellen Zeitpunkt

bull Die Stuttgart Finite-State Transducer Tools (SFST) mit einer Basis-Unterstuumltzung von Finite-State Transducer mit gewichteten Kan-tenuumlbergaumlngen 22 23

bull Das Foma-Paket das eine freie Implementation der XFSTLEXC-Formalismen darstellt gewichtete Transduktoren koumlnnen nichterstellt werden 24

bull Die OpenFST-Bibliothek es wird die Schaffung von Finite-StateTransducer mit gewichteten Kantenuumlbergaumlngen unterstuumltzt 25

Insbesondere bietet HFST das Tool hfst-twolc an das einen Two-LevelRule Compiler fuumlr den Xerox-TWOLC-Formalismus darstellt Damitkoumlnnen Transduktoren erstellt werden die eine parallele Ersetzung so-wohl der Ober- als auch der Unterseite des Transduktors gleichzeitigerlauben Die Reihenfolge der entsprechenden Deklarationen ist damit

18 Apertium-Wiki httpwikiapertiumorgwikiSpecific_resources_per_language (letzter Zugriff 14062012)19 Ethnologue-Eintrag fuumlr smj httpswwwethnologuecomshow_languageaspcode=smj (letzter Zugriff 14062012)20 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-sme-smj (letzter Zugriff 14062012)21 Die Dateien mit den Endungen ldquot2xrdquo ldquot3xrdquo und ldquot4xrdquo - besonderes Augenmerkkann auf den Bereich ab ltsection-rulesgt gelegt werden22 Webseite httpwwwimsuni-stuttgartdeprojektegramotronSOFTWARESFSThtml (letzter Zugriff 14062012)23 Gemaumlss Angaben von Francis M Tyers im IRC wird auf diese Tools den entspre-chenden Bibliotheken in Apertium kaum zugegriffen24 Dateien mit Endungen ldquoxfstrdquo ldquofomardquo und ldquolexcrdquo werden in aller Regel damitverarbeitet25 Dateien mit Endungen ldquotwolrdquo werden damit prozessiert wobei von gewichtetenKantenuumlbergaumlngen kein Gebrauch gemacht wird

11

unwichtig Im Gegensatz dazu muss beim (klassischen) Xerox Finite-State Tools-Formalismus (XFST) welcher Foma als Compiler frei imple-mentiert der Reihenfolge der Deklarationen Beachtung geschenkt wer-den weil es sich beim XFST-Formalismus um Rewriting-Regeln handeltdie sequentiell immer nur auf die Unterseite (bzw dem ldquozweitenrdquo oderldquorechtenrdquo Band) des Transduktors angewandt werden

Eine umfassende Einfuumlhrung von Finite-State-Automaten und -Transduktorenwuumlrde den Rahmen dieser Arbeit sprengen es sei allerdings darauf hin-gewiesen dass im Apertium-Wiki26 das Thema im Zusammenhang mitden morphologischen Woumlrterbuumlcher die mittels den eigenen lttoolbox-Werkzeugen erstellt werden ausreichend eingefuumlhrt wird

Auf der Seite wird ebenfalls plausibel erklaumlrt dass es zur Uumlbersichtlich-keit und dem Verstaumlndnis der Morphologie beitraumlgt die Deklarationderselben von den Algorithmen zu trennen die sie umsetzen Sowohlder lttoolbox-Formalismus als auch die Formalismen die durch dasHFST-Framework unterstuumltzt werden erfordern die blosse Deklarati-on der Morphologie ohne dass man sich um die (effiziente) Verarbei-tung der Ausdruumlcke selber kuumlmmern muss Die prozeduralen Schritteerledigen lttoolbox und HFST bei der Verarbeitung der jeweiligen De-klarationen in den Dateien 27 selbststaumlndig Damit wird eine Trennungvon morphologischer Deklaration und Programmcode erreicht

Das ist aumlhnlich wie bei der deklarativen (logischen) Programmierspra-che Prolog wo sich die Inferenzmaschine eigenstaumlndig um die effizienteBeweisfuumlhrung des Ziels (engl des ldquogoalsrdquo) kuumlmmert Das Gegenteildieses Ansatzes wird auf der Webseite mit Python-Code demonstriertwelcher im gegebenen Beispiel dafuumlr verwendet wird das Wort ldquobeerrdquound ldquobeersrdquo morphologisch zu analysieren - als ein Substantiv das imSingular oder Plural steht Das wird durch prozedurale Schritte direkterledigt Bei der Implementation sprachvollstaumlndiger Morphologien aufdiese Art gestaltet sich die Wartung der Morphologie als tendenziell un-uumlbersichtlich Hinzu koumlnnen sich bei einem solchen Ansatz in schlechterImplementation Laufzeitprobleme gesellenDer wichtigste Vorteil aber bleibt bis hierhin unerwaumlhnt Transdukto-ren koumlnnen nicht nur zur Analyse von Wortformen in ihre Lemmatasamt lexikalischer Markierungen genutzt werden 28 sondern markierteLemmata (im gegebenen Format) koumlnnen zur Generierung von Wortfor-men genutzt werden 29 In einer prozeduralen Implementation muumlsstesowohl Programmcode fuumlr die Generierung als auch (separat) fuumlr dieAnalyse geschrieben werden Das ist umstaumlndlich

26 Vgl das Apertium-Wiki httpwikiapertiumorgwikiMorphological_dictionaries (letzter Zugriff 14062012)27 Es handelt sich fuumlr Dateien die durch lttoolbox prozessiert werden um die Datei-en in den Ordner der Sprachpaare mit den Endungen ldquodixrdquo fuumlr das morphologischeWoumlrterbuch ldquot1xrdquo bis (maximal) ldquot5xrdquo (je nach Anzahl der Stufen) fuumlr die Transferre-geln und gegebenenfalls den ldquolexcrdquo- und ldquotwolrdquo-Dateien falls bei einer involviertenSprache die Morphologie durch HFST erfasst wird In wenigen Faumlllen sind auch ldquoxfstrdquo-oder ldquofomardquo-Dateien anzutreffen28 Der Transduktor wird in einem solchen Fall in der Regel von links nach rechtsbzw von oben nach unten angewandt29 Der Transduktor wird von rechts nach links bzw von unten nach oben angewandt

12

Ein praktisches Beispiel der Nutzung der resultierenden Transdukto-ren zur Analyse oder Generierung liefert das Apertium-Wiki auf derSeite uumlber lttoolbox 30

Falls bei einer speziellen Anwendung mit Apertium eine (im Einzelfall)weitergehende prozedurale Verarbeitung der Ausgabe aus den Trans-duktoren notwendig wird dann besteht die Moumlglichkeit HFST aus zB Python heraus zu nutzen 31

30 Vgl Apertium-Wiki httpwikiapertiumorgwikiLttoolbox (letzter Zu-griff 14062012)31 Vgl Beitrag auf der nltk-dev-Mailingliste httpsgroupsgooglecomgroupnltk-devbrowse_threadthreadfdb53482cad56234 (letzter Zugriff 14062012)

13

3 Hauptteil Die Integrationvon HFST in Apertium

31 Theorie Zweck und Nutzen der IntegrationFinite-State-Technologien koumlnnen in der Computerlinguistik dafuumlr ge-nutzt werden um Woumlrterbuumlcher elegant aufzubauen oder die mor-phologische Analyse und Generierung von Woumlrtern systematisch zubetreiben und das insbesondere auch in Faumlllen wo die Morphologie derbetrachteten Sprache nicht relativ einfach durch z B Prauml- oder Suffixe(also konkatenativ durch rsquoAneinanderreihenrsquo von Morphemen) erfasstwerden kann sondern gerade auch in Faumlllen wo auch andere Affixewie Infixe zur Anwendung kommen

Nicht mehr simpel sind Morphologien beispielsweise in Faumlllen wo esfuumlr gegebene Wortstaumlmme 1 Faumllle gibt wo Morpheme fuumlr eine Flexi-on inmitten des Stamms eingepflanzt werden muumlssen oder wo Vokaleinmitten von Staumlmmen wegfallen oder durch andere ersetzt werdenmuumlssen um guumlltige Wortformen analysieren oder generieren zu koumln-nen Morphologien fuumlr Sprachen die komplexe Anpassungen an Staumlm-men oder fortgesetzten Wortklassen in bestimmten (z B grammatikali-schen) Faumlllen erfordern werden auch Nicht-Konkatenative Morphologien(NKM) (vgl Clematide 2007 104ff) genannt oder zumindest waumlre dieKonkatenation nach vorwiegend erkennbaren systematischen Regelnder betrachteten Sprache nicht mehr (sinnvoll) nachvollziehbar wuumlrdeman eine Konkatenative Morphologie erzwingen wollen ebenfalls ist dieGefahr von Redundanz sehr hoch wenn jeder nur denkbare Stamm ineine Morphologie einfliesst

Eine saubere Morphologie mit klaren Regeln und in (moumlglichst) schlan-ker Ausfuumlhrung ist eine Anforderung von der gerade ein MaschinellesUumlbersetzungssystem wie Apertium fundamental profitiert um schnell zu

1 Minimaloberflaumlche von Woumlrtern aus der durch Morpheme die vor- um - oderangehaumlngt werden koumlnnen weitere wichtige (weitere) Wortformen entstehen

14

arbeiten und (linguistisch nachvollziehbar) gepflegt werden zu koumlnnen

Wie bereits in Kapitel 21 angedeutet ist es nicht erst das HFST-Frameworkdas Finite-State-Technologien in Apertium einfuumlhrt Die lexikalischenWerkzeuge lttoolbox mit Anwendungen wie lt-comp 2 oder lt-proc 3

werden dazu genutzt die in XML abgefassten Woumlrterbuumlcher in Trans-duktoren umzuwandeln - fuumlr eine schnellere Verarbeitung Mit denMoumlglichkeiten verglichen die das HFST-Framework liefert sind die lt-toolbox-Werkezuge am ehesten mit dem LEXC-Formalismus vergleich-bar welcher Foma beherrscht und auf die Idee fusst Woumlrterbuumlcher an-hand von Staumlmmen (von z B Verben oder Nomen) anhand von Fort-setzungsklassen (durch das Anhaumlngen von Morphemen) aufzubauenSimon Clematide fuumlhrt auch das in seinem Vorlesungsskript von 2007(93ff) genauer aus Darin ist es moumlglich die Morphotaktik der Sprachezu erfassen Schwieriger umzusetzen mit diesen Apertium-Bordmittelnist die Morphophonemik worunter Lautanpassungen oder die Infigierung 4

fallen Diese (u U seltenen aber fuumlr die Korrektheit notwendigen) An-passungen der Morphotaktik berechtigen den Beizug zusaumltzlicher (wohlbekannter und anerkannter) Formalismen wie XFST 5 oder TWOLC

Die wenigsten natuumlrlichen Sprachen sind (vollstaumlndig) KonkatenativerMorphologie Im Rahmen einer kuumlrzlichen Veranstaltung zu Finite-State-Methoden (bei Simon Clematide) haben Simon Hafner und ich die Moumlg-lichkeit erhalten eine (konzeptionelle) Morphologie 6 fuumlr die Planspra-che ldquoKlingonischrdquo 7 anzulegen Diese laumlsst sich tatsaumlchlich fast vollstaumln-dig mit Fortsetzungsklassen auf Basis der Wortstaumlmme und anzuhaumln-genden Morphemen und damit dem LEXC-Formalismus erfassen istaber auch nur ein akademisches Beispiel einer Sprache wo es nie zu(natuumlrlichen) Lautverschiebungen oder anderen komplexen Phaumlnome-nen kam

Die Dokumentation daruumlber wie HFST in Apertium genau genutztwird ist spaumlrlich Gerade in der Apertium-Dokumentation (aktuellnachgefuumlhrt und veroumlffentlicht bis Version 20) seitens Forcada et al[2] wird nichts uumlber die Nutzung von HFST ausgesagt - auch nicht inden neuesten (versionskontrollierten) Fassungen8 im SVN-Repository

Gluumlcklicherweise waren wichtige Apertium-Entwickler mir eine grosseHilfe dabei die noumltigen Einstiegspunkte zu finden Ein Beispiel einer ty-pischen Hilfeleistung ist im Anhang als ldquoIRC-Konversation zu HFSTrdquo9 zu finden die ich mit freundlicher Unterstuumltzung der involviertenPersonen in dieser Seminararbeit in der Form publizieren darf

2 Zur Kompilation von Woumlrterbuumlchern von einem XML- in ein FST-Format3 Zur Prozessierung der Daten im vorgaumlngig generierten FST-Format und der Aus-gabe in einem menschenlesbaren lexikalischen Tagging-Format4 Einfuumlgen eines Affixes in einen Wortstamm auch Infix genannt5 Von Foma implementiert6 Code und Anwendungsbeispiele bei github im git-Repository httpsgithubcom2mhklingomorph (letzter Zugriff 14062012)7 Ethnologue-Eintrag tlh httpswwwethnologuecomshow_languageaspcode=tlh (letzter Zugriff 14062012)8 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-documentationapertium-20en (letzter Zugriff 12062012)9 Siehe Anhang auf Seite 26

15

Zudem Es sind im Apertium-Wiki Informationen daruumlber vorhandenwie ein neues Sprachpaar fuumlr die Nutzung mit HFST angelegt werdenkann 10 Beim gegebenen Beispiel wird schematisch das Sprachpaar tur-tuk angesetzt (real im SVN-Repository existiert das Sprachpaar tuk-tur11) wobei tuk 12fuumlr Turkmenisch und tur 13 fuumlr Tuumlrkisch steht

Generell wird bei Sprachpaaren die mit HFST analysiert (und gene-riert) werden versucht den lexikalischen Transfer moumlglichst auf Ba-sis der Morpheme vorzunehmen Idealerweise kann der groumlsste Teilim LEXC-Formalismus abgedeckt werden Wo das nicht (im Ansatz)gelingt werden TWOLC-Regeln definiert welche die noumltigen Anpas-sungen an den lexikalischen Markierungen und Oberflaumlchenformen derWoumlrter vornehmen

Gruumlnde weshalb TWOLC- gegenuumlber XFST-Deklarationen bevorzugtwerden sind gemaumlss wichtigen Apertium-Entwicklern 14 (1) das uumlber-sichtlichere Format und (2) die einfachere Handhabung von linguisti-schen Phaumlnomenen wie der Vokalharmonie mit dem TWOLC-Formalismus

Ein weiterer wichtiger Grund welcher die mangelnde Verbreitung desXFST-Formalismus bei Apertium erklaumlrt ist vermutlich auch dass Fo-ma erst seit Version 30 von HFST (veroumlffentlicht in 2011) vollstaumlndigunterstuumltzt wird

32 Empirie Die Integration am Beispiel eines SprachpaarsDaruumlber wie ein neues Sprachpaar unter Nutzung von HFST zu Aper-tium hinzugefuumlgt werden kann gibt ein Wiki-Artikel 15 Auskunft ImSinne eines Tutorials wird dabei Schritt fuumlr Schritt im Ansatz gezeigtwie die Implementation einer RBMT von der Turkmenischen Spracheins Tuumlrkische (Sprachpaar tk-tr) umgesetzt werden kann Bei beidenverwandten Sprachen handelt es sich um stark agglutinierende Spra-chen

Das (wissenschaftlich) am besten dokumentierte Beispiel der Nutzungvon HFST im Zusammenhang mit Apertium wird im noch nicht pu-blizierten Paper ldquoEvaluating North Saacutemi to Norwegian assimilationRBMTrdquo [4] beschrieben das von Trond Trosterud und seinem Kollegen

10 Vgl hierzu httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 12062012)11 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-tuk-tur (letzter Zugriff 12062012)12 Ethnologue-Eintrag fuumlr tuk httpswwwethnologuecomshow_languageaspcode=tuk (letzter Zugriff 12062012)13 Ethnologue-Eintrag fuumlr tur httpswwwethnologuecomshow_languageaspcode=tur (letzter Zugriff 12062012)14 Gemaumlss Francis M Tyers und Jonathan North Washington im IRC15 Apertium-Wiki httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 11062012)

16

Kevin Brubeck Unhammer Mitte Juni 2012 an der FreeRBMT 2012 erst-mals oumlffentlich vorgetragen wird 16

Die Nordsamische Sprache 17 (sme) verfuumlgt uumlber geschaumltzte 15rsquo000 bis25rsquo000 Sprecher und wird in Norwegen Schweden und Finnland ge-sprochen Die Sprache wird von den Autoren als stark flektierend undagglutinierend eingeteilt

Die Standardvarietaumlt 18 des Norwegischen in die uumlbersetzt wird ver-fuumlgt gemaumlss Ethnologue 19 uumlber rund 45 Millionen Sprecher und gehoumlrtder indogermanischen Sprachfamilie an Die Sprache wird von Troste-rud und Unhammer [4] als morphologisch wenig komplex angegeben

Dieses Sprachpaar gehoumlrt zu den wenigen wo eine indoeuropaumlische(oder -germanische) Sprache unter Einsatz von HFST mit Apertiumuumlbersetzt wird

Bei den meisten anderen Sprachpaaren wo HFST genutzt wird han-delt es sich beidseitig um Sprachen mit komplexer Morphologie

Bezuumlglich des Sprachpaars unserer Betrachtung fokussieren die Auto-ren auf die Uumlbersetzungsrichtung ins Norwegische weil der Anspruchbloss ist dass Nur-Norwegischsprechende Texte aus dem Nordsami-schen verstehen koumlnnen sollen Umgekehrt wuumlrden die meisten Spre-cher des Nordsamischen bereits Norwegisch verstehen womit der Nut-zen der umgekehrten Uumlbersetzungsrichtung als (zum aktuellen Zeit-punkt) gering eingeschaumltzt wird

Als Motivation fuumlr den Einsatz von HFST gegenuumlber lttoolbox wirdbeispielhaft der Stufenwechsel der Konsonanten des Nordsamischen inQuantitaumlt als auch Qualitaumlt angefuumlhrt 20 Generalisiert betrachtet befuumlr-worten die Autoren die Verwendung von HFST wenn Morphologienzu verarbeiten sind die nicht rein konkatenativ sind - wie ich in Kapitel31 zum Zweck von HFST bereits ausgefuumlhrt habe

Grundsaumltzlich wird gemaumlss Entwickler Unhammer 21 (schematisch) diefolgende UNIX-Pipeline fuumlr sme-nob angewandt

$ echo words|hfst-proc sme-analyserhfst|| 1lt-proc sme-to-nob-dixbin|| 2lt-proc nob-generator-dixbin 3

Im Falle von sme-nob wird HFST alleine fuumlr die Analyse (1) von smegenutzt dann wird wieder generell auf lttoolbox gesetzt in wichtigsterHinsicht im Rahmen des lexikalischen Transfers (2) und der Generierung

16 Information gemaumlss einem Gespraumlch mit Kevin Brubeck Unhammer im IRC Kon-ferenzseite mit Programm httpwwwmolto-projecteufreerbmt-programhtml(letzter Zugriff 14062012)17 Engl ldquoNorth Saacutemirdquo18 Als Buchsprache ldquoBokmaringlrdquo19 Ethnologue-Eintrag zu den Sprachen Norwegens httpswwwethnologuecomshow_countryaspname=no (letzter Zugriff 11062012)20 Vgl hierzu Wikipedia httpsdewikipediaorgwikiStufenwechsel (letzterZugriff 14062012)21 Chatgespraumlch im IRC

17

(3) der Zielsprache nob

Der morphologische sme-Analyzer ist dabei in den Formalismen LEXCund TWOLC geschrieben und fusst auf bereits verfuumlgbare Ressourcen22 zuruumlck was aufzeigt dass HFST im Einsatz fuumlr Apertium auch des-halb interessant ist weil viele Morphologien bereits existieren die inFormalismen geschrieben sind die HFST verarbeiten kann Fuumlr dasAnlegen vieler Sprachpaare ist es nicht notwendig alles from scratch zubeginnen

Auch beim nob-Generator konnte auf (eigene fruumlhere) Ressourcen zu-ruumlckgegriffen werden wie diese im Sprachpaar nn-nb 23 verfuumlgbar sindbei dem Sprachpaar wird zwischen zwei norwegischen Sprachverietauml-ten uumlbersetzt Wichtig ist noch einmal zu betonen dass der nob-Teil (zurGeneration der Norwegischen Wortformen) auf lttoolbox setzt und mitHFST nichts zu schaffen hat

Interessant ist der Einsatz der von Trosterud und Unhammer von Grundauf selber geschriebene Constraint Grammar (CG) 24 zur Wortartendisam-biguierung in dem die Auswahl der Woumlrter (fuumlr die Zielsprache) anhandvon (lokalen) grammatikalischen Kontexten (in der Quellsprache) ge-schieht Das ist auch der Grund weshalb ich eingangs in Kapitel 12VISL CG-3 als obligat zu installierendes Paket anfuumlhre Ohne dieseSoftware ist es nicht moumlglich das Sprachpaar sme-nob zu kompilieren25

Zwischen der morphologischen Analyse (von sme) und der morphologischenGenerierung von nob findet der strukturelle Transfer statt der 4-phasig istdie Autoren Trosterud und Unhammer machen hierbei folgende Anga-ben

1 63 Chunk-Regeln (t1x-Datei)

2 26 Interchunk1-Regeln (t2x-Datei)

3 39 Interchunk2-Regeln (t3x-Datei)

4 29 Postchunk-Regeln (t4x-Datei)

Es reicht also nicht bloss aus Wortformen oder Morpheme zu ersetzensondern es sind komplexe Verschiebungen der markierten Lemmata

22 SVN-Repository des Giellatekno-Projekts httpsvictoriouitnolangtechtrunkgtsme (letzter Zugriff 14062012)23 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-nn-nb (letzter Zugriff 14062012)24 Vgl fuumlr einen kurzen Uumlberblick eine CLab-Seite httpkittcluzhchclabconstraintGrammarilap_visl (letzter Zugriff 14062012)25 Zu erwaumlhnen ist in dem Zusammenhang dass bei den meisten SprachpaarenHidden-Markov-Modelle zum Einsatz kommen um die Wortarten zu bestimmen da-fuumlr wird Sprachmaterial trainiert Im Falle von sme-nob deuten die Autoren allerdingsdarauf hin dass mangels repraumlsentativen Sprachmaterials diese Option keine ist diebefriedigen kann Sie stellen allerdings in Aussicht dass eine Kombination von lin-guistischen CG- und statistischen HMM-Ansaumltzen ein Versuch wert waumlre Dabei wuumlrdezuerst mittels CG ein Kontext eingegrenzt und danach statistisch verfahren

18

notwendig um in das Norwegische zu uumlbersetzen obschon beide Spra-chen der Subjekt-Verb-Objekt-Satzstellung sind

Die Evaluationsergebnisse der Autoren deuten darauf hin dass dasSprachpaar sme-nob funktionalen Charakter hat Post-Editing-Qualitaumltist nicht das Ziel und wird auch nicht erreicht allerdings koumlnnen Nor-wegischsprechende die kein Nordsamisch verstehen in vielen Faumlllenausmachen was die Bedeutung eines Satzes ist - insbesondere dannwenn er kontextualisiert vorliegt

Im Folgenden soll eine praktische Nutzung des Sprachpaars sme-nobin Apertium illustriert werden Als Beispiel diene der einleitende Be-gruumlssungssatz zur Nordsamischen Wikipedia 26 ausgewaumlhlt

$ echo rsquoBures boahtin Wikipediai friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen til Wikipedia til den frie informasjonsordboken

Die resultierende nob-Uumlbersetzung lautet gemaumlss Google Translate 27

auf Deutsch

Willkommen bei Wikipedia dem freien Woumlrterbuch Infor-mationen

Die Uumlbersetzung ist verstaumlndlich abgesehen von der Semantik des Aus-drucks ldquoWoumlrterbuch Informationenrdquo Hier sollte meiner Ansicht nachldquoEnzyklopaumldierdquo stehen Es ist wahrscheinlich dass bereits die Quellenicht den optimalen Begriff fuumlhrt und da das eigentliche Problem liegt

Interessanter ist was passiert wenn wir das ominoumlse i-Suffix bei ldquoWi-kipediairdquo im Nordsamischen entfernen

$ echo rsquoBures boahtin Wikipedia friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen Wikipedia til den frie informasjonsordboken

Wir koumlnnen feststellen dass der Satz einen anderen personalen Bezugherstellt denn gemaumlss Google Translate 28 bedeutet die zweite nob-Uumlbersetzung auf Deutsch

Willkommen Wikipedia dem freien Woumlrterbuch Informa-tionen

Wir werden nun also als ldquoWikipediardquo angesprochen

26 Webseite httpssewikipediaorgwikiVC3A1ldosiidu (letzter Zugriff14062012)27 Vgl hierzu httptranslategooglecomno|de|Velkommen20til20Wikipedia2C20til20den20frie20informasjonsordboken (letzter Zugriff14062012)28 Vgl hierzu httptranslategooglecomno|de|0AVelkommen20Wikipedia2C20til20den20frie20informasjonsordbokenmskip-thinmuskip (letzter Zugriff 14062012)

19

Eine morphologische Analyse der beiden Wortformen ldquoWikipediardquo undldquoWikipediairdquo erhaumlrtet die Vermutungen dass es sich beim i-Suffix umeinen Illativ 29 handelt einem Lokalkasus der dazu genutzt werdenkann eine ldquoHineinbewegungrdquo auszudruumlcken respektive in diesem Falldie entsprechende Praumlposition ldquoaufrdquo in das Substantiv der Named En-tity ldquoWikipediardquo einzugliedern

$ echo Wikipedia | apertium -d sme-nob-morph1^WikipediaWikipedialtNgtltPropgtltOrggtltSggtltAccgtWikipedialtNgtltPropgtltOrggtltSggtltGengtWikipedialtNgtltPropgtltOrggtltSggtltNomgt$^ltCLBgt$

2$ echo Wikipediai | apertium -d sme-nob-morph^WikipediaiWikipedialtNgtltPropgtltOrggtltSggtltIllgt$^ltCLBgt$

Bei Analyse 1 wird ldquoWikipediardquo als ein Substantiv eine Named Entityund (semantisch) als Organisation im Singular markiert Uneinigkeitherrscht fuumlr den Tagger auf dieser Transferstufe noch uumlber den KasusEs ist nicht klar ob ldquoWikipediardquo im Nominativ Akkusativ oder Genitivsteht Das Symbol ltCLBgt steht fuumlr ldquoClause Boundaryrdquo und spielt insbe-sondere fuumlr den Chunker (im Zuge des spaumlteren Transfers) eine Rolle zB zur (groben) Abgrenzung von Nominal- und Verbalphrasen

Analyse 2 faumlllt knapper aus da der Kasusfall keine Rolle mehr spielt -an dessen Stelle tritt nun der Illativ (Symbol ltIllgt) Der Rest bleibt sichgleich

Da aber die Illativ-Markierung in diesem spezifischen Fall auf dernob-Seite zur Oberflaumlchengenerierung des norwegischen Wortes ldquotilrdquo30 fuumlhrt aumlndert sich die Semantik des Satzes merklich

Der Transferprozess bei Apertium kann generell beliebig fein beobach-tet werden fuumlr unser spezifisches Sprachpaar sme-nob sei fuumlr weitereVersuche auf das Apertium-Wiki 31 verwiesen das extensiv Informa-tionen daruumlber fuumlhrt

Es existieren weitere interessante Sprachpaare bei der nur eine Sei-te jeweils stark agglutierend ist und auf entsprechende Formalismen(LEXC- und TWOLC-Formalismen) zuruumlckgegriffen wird So etwa die

29 Vgl Wikipedia httpsdewikipediaorgwikiIllativ (letzter Zugriff14062012)30 Dt ldquoaufrdquo31 httpwikiapertiumorgwikiNorthern_SC3A1mi_and_Norwegian (letzterZugriff 14062012)

20

Sprachpaare quz-spa (Quecha-Castellano) 32 udm-rus (Udmuritische Sprache-Russisch) 33 und kaz-eng (Kasachisch-Englisch) 34 Noch ist der Entwick-lungsstand all dieser Uumlbersetzungsrichtungen aber gering und fuumlr einenproduktiven Einsatz oder eine Evaluation demnach ungeeignet 35

32 Apertium-Wikiseite httpwikiapertiumorgwikiQuechua_cuzqueC3B1o_y_castellano (letzter Zugriff 14062012)33 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-udm-rus (letzter Zugriff 14062012)34 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumincubatorapertium-eng-kaz (letzter Zugriff 14062012)35 Alle drei Sprachpaare sind in den SVN-Ordnern incubator oder nursery un-tergebracht

21

4 Schluss

41 Zusammenfassung und AusblickIn abschliessender Betrachtung ist festzuhalten Die Nutzung von HFSTverleiht Apertium die Faumlhigkeit zu und von Sprachen mit (stark) Nicht-Konkatenativer Morphologie zu uumlbersetzen Dafuumlr muumlssen die Aperti-um-eigenen lttoolbox-Werkzeuge umgangen werden die ansonstenzur morphologischen Analyse und morphologischen Generierung von Wort-formen verwendet werden Der Einsatz von HFST liefert aber keinenMehrwert an anderen Stellen in der Transfer-Pipeline Der lexikalischeTransfer oder strukturelle Anpassungen um der Syntax der Zielsprachenaumlher zu kommen sind Schritte fuumlr die sich die lttoolbox-Werkzeugeweiterhin bewaumlhren

Diskutiert wird eine staumlrkere Integration von HFST in Apertium damitHFST nicht laumlnger der Charakter eines ldquoFremdkoumlrpersrdquo in der Aper-tium-Plattform anhaftet Es existiert die Idee ein Projekt in diese Rich-tung anzustossen um es z B moumlglich zu machen lexc-Dateien anstattmit den HFST-Binaries mit den lttoolbox-Kommandos zu prozessierenDieses Projekt koumlnnte von einem interessierten Studierenden etwa imRahmen des naumlchsten Google Summer of Code (2013) initiiert werden 1

Ein weitere Herausforderung die in der Natur von Apertium als Shallow-Transfer-System begruumlndet liegt 2 hat mit den Bilexika zu tun Apertiummuss fuumlr jedes Sprachpaar ein Bilexikon fuumlhren um den lexikalischenTransfer mittels den lttoolbox-Werkzeugen zu vollziehen Da fuumlr jedeneue Sprachkombination das Bilexikon neu aufgebaut werden mussbesteht hier ein gewisser (manueller) Aufwand bei jedem neuen Sprach-paar das angesetzt wird dieser kann zwar durch Einsatz von Werkzeu-ge aus den apertium-dixtools minimiert werden die Vollautomation

1 Idee zum Projekt httpwikiapertiumorgwikiIdeas_for_Google_Summer_of_CodeCloser_integration_with_HFST (letzter Zugriff 14062012)2 Apertium verwendet keinen sog Interlingua-Ansatz um eine sprachunabhaumlngigeRepraumlsentation von Wortbedeutungen zu fuumlhren

22

funktioniert aber noch nicht 3 4

Weiterhin bleibt Apertium im Grundsatz ein Shallow-Transfer-Systemdas keinen vollstaumlndigen Parse der Quellsprache vornimmt und sietiefen-analysiert Dadurch ist es auch in Zukunft nicht breit moumlglichSemantik uumlber weite Distanzen zu transferieren

Bezuumlglich weiterer Moumlglichkeiten fuumlr Apertium morphologisch zu ana-lysieren generieren kann das Augenmerk auch auf neuere Formalis-men als jene von Xerox 5 gelegt werden So existiert hunmorph 6 dases erlaubt in OCaml 7 - in einem objekt-orientierten Paradigma - Mor-phologien zu beschreiben und dazu eine (relativ) einfache Syntax auf-zuweisen scheint Beispiele explorativer Versuche mit hunmorph fuumlrApertium sind im Wiki des Projekts bereits heute dokumentiert 8 Aus-serdem ist hunmoph morphologisch-analytische Basis des bekanntenSpellcheckers HunSpell das der standardmaumlssige Spellchecker in Libre-Office OpenOfficeorg und einigen Softwareprodukten der MozillaFoundation ist 9

Selber hat es mir Freude bereitet mich in dieses komplexe Gebiet hin-ein zu begeben und ich bin fuumlr die Zukunft interessiert daran michan Apertium nach Kraumlften zu beteiligen da ich die dahinterstehendeCommunity als eine kennen gelernt habe die aufgeschlossen humor-voll und im houmlchsten Masse kompetent ist

42 DanksagungenIch moumlchte mich an dieser Stelle herzlichst im Besonderen bei folgen-den Personen des Apertium-Projekts bedanken dass sie sich Zeit ge-nommen haben sich mit mir im IRC ausgiebig zu unterhalten und denDschungel in und um Apertium zu durchleuchten Mikel L ForcadaFrancis M Tyers Kevin Brubeck Unhammer und Jonathan North Wa-shington

Ohne sie waumlre diese Arbeit in der Form nicht entstanden und vielesQuellmaterial das ich hier verwende schwierg auffindbar gewesen

3 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-dixtools (letzter Zugriff 14062012)4 Vgl hierzu httpwikiapertiumorgwikiCrossdics (letzter Zugriff14062012)5 Namentlich XFST TWOLC und LEXC6 Webseite httpmokkbmehuresourceshunmorph (letzter Zugriff 14062012)7 Webseite httpcamlinriafr (letzter Zugriff 14062012)8 Apertium-Wiki httpwikiapertiumorgwikiHunmorph (letzter Zugriff14062012)9 Webseite httphunspellsourceforgenet (letzter Zugriff 14062012)

23

Literaturverzeichnis

[1] S Clematide Morphologie und Lexikographie Vorlesungs-skript Institut fuumlr Computerlinguistik Universitaumlt Zuumlrich 2007URL httpfilesifiuzhchclsiclematlehress07mulscriptscriptpdf

[2] ML Forcada BI Bonev S Ortiz-Rojas JA Peacuterez-OrtizG Ramiacuterez-Saacutenchez F Saacutenchez-Martiacutenez C Armentano-OllerMA Montava FM Tyers und U dA Departament de Llenguatges iSistemes Informagravetics Documentation of the open-source shallow-transfer machine translation platform apertium 2010 URL httpxixonadlsiuaes~franapertium2-documentationpdf

[3] ML Forcada FM Tyers und G Ramiacuterez-Saacutenchez The Apertiummachine translation platform five years on In Proceedings of the FirstInternational Workshop on FreeOpen-Source Rule-Based Machine Trans-lation 3ndash10 2009 URL httpxixonadlsiuaesfreerbmt09presentationsforcada_freerbmt09_5yrsonpdf

[4] T Trosterud und KB Unhammer Evaluating North Saacutemi to Nor-wegian assimilation RBMT In Proceedings of the Third InternationalWorkshop on FreeOpen-Source Rule-Based Machine Translation 2012URL httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-sme-nobpaperpathrev=38833 (noch kein of-fizielles Paper (im PDF) verfuumlgbar)

24

Abbildungsverzeichnis

21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen 10

25

Anhang

IRC-Konversation zu HFSTTypisches Beispiel einer Konversation 10 mit Jonathan North Washing-ton (ldquofirespeakerrdquo) und Mikel L Forcada (ldquomlforcadardquo) welche we-sentliche Beitraumlge zu Apertium leisten gefuumlhrt im IRC 11

1921 lt h2mgt At which stage of the pipeline is HFST employed1921 lt h2mgt I couldnrsquot get that1921 lt mlforcadagt h2m generation of Kazakh[]1922 lt h2mgt Is this process described somewhere in detailsuch that I can read that up1922 lt mlforcadagt is something that looks like lttoolbox butmore powerful1922 lt mlforcadagt h2m firespeaker can help probably1922 lt h2mgt I can only see lexc and twol files wo reallygetting the point[]1922 lt firespeakergt h2m HFST takes a string of text and turnsit into lemmas + tags1922 lt firespeakergt h2m or1922 lt firespeakergt h2m it takes lemmas + tags and turns itinto a string of text[]1923 lt firespeakergt h2m lexc is the morphotactics1923 lt mlforcadagt firespeaker yoursquore right1923 lt h2mgt Ah OK1923 lt firespeakergt h2m twol is the morphophonology

10 Selber bin ich als ldquoh2mrdquo unterwegs11 ircircfreenodenetapertium

26

  • Einfuumlhrung
    • Motivation und Thema
    • Verwendete Umgebung und Konfiguration
      • Grundlagen Zu Apertium und HFST
        • Wesen und Entwicklungsstand von Apertium
        • Wesen und Entwicklungsstand von HFST
          • Hauptteil Die Integration von HFST in Apertium
            • Theorie Zweck und Nutzen der Integration
            • Empirie Die Integration am Beispiel eines Sprachpaars
              • Schluss
                • Zusammenfassung und Ausblick
                • Danksagungen
                  • Literaturverzeichnis
                  • Abbildungsverzeichnis
                  • Anhang
Page 2: Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

Zusammenfassung

Diese Seminararbeit liefert einen Uumlberblick uumlber die Apertium-Plattformzur Maschinellen Uumlbersetzung - mit besonderem Augenmerk auf die mor-phologische Analyse- und Generierungsphase der Transfer-Pipelinein der es moumlglich ist das Helsinki Finite-State Technology-Framework(HFST) zur Anwendung zu bringen um Morphologien von Sprachenzu verwalten die mit linguistischer Systematik rein konkatenativ (mitden Apertium-Bordmitteln) nur schwer zu erfassen sind Diskutiertwird die Integration am Beispiel des Sprachpaars sme-nob (Nordsamischzu Norwegisch) das mit Abschluss dieser Arbeit den Einzug in die sta-bilen (produktiv-nutzbaren) Sprachpaare von Apertium geschafft hat

2

Inhaltsverzeichnis

1 Einfuumlhrung 4

11 Motivation und Thema 4

12 Verwendete Umgebung und Konfiguration 5

2 Grundlagen Zu Apertium und HFST 7

21 Wesen und Entwicklungsstand von Apertium 7

22 Wesen und Entwicklungsstand von HFST 11

3 Hauptteil Die Integration von HFST in Apertium 14

31 Theorie Zweck und Nutzen der Integration 14

32 Empirie Die Integration am Beispiel eines Sprachpaars 16

4 Schluss 22

41 Zusammenfassung und Ausblick 22

42 Danksagungen 23

Literaturverzeichnis 24

Abbildungsverzeichnis 25

Anhang 26

3

1 Einfuumlhrung

11 Motivation und ThemaIm Rahmen des Seminars ldquoMaschinelle Uumlbersetzungrdquo bei Prof Dr Mi-chael Hess Anne Goumlhring und Magdalena Jitca im Herbstsemester 2011haben wir uns mit verschiedenen Aspekten der automatischen Uumlber-setzung natuumlrlichsprachlicher Texte beschaumlftigt darunter auch mit Sys-temen welche regelbasiert (RBMT) und anderen die statistikbasiert(SBMT) arbeiten Zusammen mit Simon Hafner habe ich mich damalsdazu entschieden zwei Systeme mit einem Vortrag zu beleuchten wel-che frei im Quellcode verfuumlgbar und nutzbar sind Apertium als RBMT-und Moses als SBMT-System Insbesondere haben wir die Vorteile vonFOSS-MUuml-Systemen 1 fuumlr Minderheitensprachen beleuchtet In meinemTeil zu Apertium habe ich das Gesellschaftliche zu stark gewichtet sodass das Technische dementsprechend auf der Strecke geblieben istMit dieser Seminararbeit moumlchte ich das nun ausraumlumen Ich fokussie-re mich auf Apertium als eine offene Plattform und wie sie genutztwerden kann um mit Sprachen umzugehen die eine komplexe Mor-phologie aufweisen

Was soll gezeigt werden

Apertium ist ein RBMT-System das insbesondere dafuumlr bekannt istmittels Shallow-Transfer zwischen linguistisch aumlhnlichen Sprachpaarenzu uumlbersetzen Bei den urspruumlnglich involvierten Sprachen handelt essich daruumlber hinaus um solche die uumlber eine (vergleichsweise) ein-fache Morphologie aufweisen und indoeuropaumlischen Ursprungs sindIm Zuge nun der Uumlbersetzung morphologisch komplexer und weitervoneinander entfernten Sprachpaaren kann das Helsinki Finite- StateTechnology - Framework (HFST) eingesetzt werden auf das wird ins-besondere im Kapitel 22 eingegangen Das Framework bietet Schnitt-stellen zu bestehenden Finite-State Transducer-Technologien (z B Fo-ma oder OpenFST) an und ermoumlglicht somit eine Wiederverwendung

1 MUuml-Systeme die Free and Open Source Software sind

4

(morphologischer) sprachtechnologischer Ressourcen fuumlr den Bereichder Maschinellen Uumlbersetzung zwischen Sprachen von der zumindesteine gepraumlgt ist von einem agglutinierenden oder stark flektierendenSprachbau

In meiner Seminararbeit moumlchte ich also zunaumlchst aufzeigen was Aper-tium und HFST sind (in Kapitel 2) und dann wie sie zueinander stehenund integriert werden koumlnnen um mehr Sprachpaare uumlbersetzen zukoumlnnen Diese Integration mit HFST theoretisch und empirisch auf-zudecken ist Inhalt von Kapitel 3 Die entsprechenden Illustrationenliefere ich anhand des Sprachpaars sme-nob (Nordsamisch zu Norwe-gisch) das zum einen gut dokumentiert ist und mir zum anderen einenZirkelschluss zu meinem Ursprungsthema des Seminars erlaubt naumlm-lich Aufzuzeigen wie Apertium dazu genutzt werden kann Minder-heitensprachen zu unterstuumltzen - nur diesmal bedeutend mehr in dertechnischen Beleuchtung der Sache Interessant an diesem Sprachpaarist zudem dass eine der involvierten Sprachen naumlmlich das Nordsa-mische morphologisch komplex ist und mit dem Norwegischen weniggemein hat d h das Sprachpaar ist von hoher linguistischer DistanzDas ist ein Bereich fuumlr den die Apertium-Plattform urspruumlnglich nichtkonzipiert wurde In einem Uumlberblick zu zeigen wie mit diesen An-forderungen an das RBMT-System umgegangen wird ist Ziel meinerArbeit

Kapitel 4 - der Schluss - setze ich mit einer Zusammenfassung der be-handelten Materie um und stelle die wichtigsten Erkenntnissen meinerSeminararbeit in den Raum Auch ist das der Platz um einen Blick indie Zukunft zu wagen was in Apertium in der naumlchsten Zeit einfliessenwird In dem Zusammenhang sind Chatgespraumlche und Hinweise dieich von (wohl bekannten) Apertium-Entwicklern erhalten habe wert-voll

12 Verwendete Umgebung und KonfigurationAlle meine hier beschriebenen Versuche habe ich auf einem amd64-System durchgefuumlhrt auf das die stabile Debian-Veroumlffentlichung 605(ldquoSqueezerdquo) 2 installiert ist Waumlhrend Apertium bei vielen Distributio-nen von GNULinux paketiert vorliegt gilt das fuumlr das HFST-Frameworknicht dieses wird allerdings benoumltigt um mit morphologisch komple-xen Sprachen zu arbeiten

Will man Apertium zunaumlchst aber nur in den stabilen und fuumlr die Ver-oumlffentlichung herausgegebenen Sprachpaaren testen so kann unter De-bian das Paket apertium installiert werden Zur Installation der Dateienfuumlr eine konkrete (stabile) Uumlbersetzungsrichtung wie z B fr-ca (vonFranzoumlsisch nach Katalanisch) muss zusaumltzlich das Paket apertium-fr-cainstalliert werden In diesem Paket sind die effektiven Lexika in binaumlrerFassung fuumlr diese Sprachrichtung einschliesslich den Transferregelnund anderen benoumltigten Dateien enthalten

2 Debian-Webseite httpwwwdebianorgNews201220120512 (letzter Zugriff08062012)

5

Ist das geschehen kann Apertium auf der Kommandozeile wie folgtgetestet werden

$ echo Jrsquoaime manger du chocolat | apertium fr-ca 1Estima menjar de la xocolata$ echo Ils aiment manger du chocolat | apertium fr-ca 2Estimen menjar de la xocolata

Beide Saumltze 1 3 und 2 4 zeigen auf dass Apertium bei (einfachen)Saumltzen der vorgezeigten Uumlbersetzungsrichtung korrekt arbeitet

Fuumlr weitergehende Versuche insbesondere mit experimentellen Sprach-paaren ist mit den vorkompilierten Paketen aus dem Debian-Paketsystemwenig zu erreichen Fuumlr die meisten der neuesten Sprachpaare wirdApertium in Version 32 benoumltigt 5 Es ist angeraten die aktuellstenPakete manuell zu kompilieren und dem System hinzuzufuumlgen zuletzthabe ich folgende Umgebung auf meinem System erfolgreich getestet

bull Apertium 32 und davon abhaumlngig lttoolbox 32

bull HFST 3311 und davon abhaumlngig OpenFST 132 sowie Foma0916alpha

bull VISL CG-3 0978357

Das meiste Kopfzerbrechen mag HFST bereiten Die Nutzung mit Aper-tium erfolgreich zu konfigurieren erfordert sowohl das ldquoHFST READ-MErdquo auf dem Wiki des Projekts 6 als auch das Apertium-Wiki zumThema HFST 7 zu studieren

Die anderen Pakete (OpenFST Foma und VISL GC-3) sind - den In-struktionen in den jeweiligen README-Dateien befolgend - leicht instal-liert

Wie Apertium selber kompiliert werden kann und beliebige (auch ex-perimentelle) Sprachpaare installiert werden koumlnnen wird ebenfallsim Wiki des Projekts 8 genau erlaumlutert und funktioniert in aller Regelproblemlos Im Falle dass ein Sprachpaar gerade nicht kompilierbarist helfen die Apertium-Entwickler im IRC-Chatkanal 9 apertium aufFreenode 10 meinen Erfahrungen gemaumlss gerne und unkompliziert wei-ter

3 Dt ldquoIch mag es Schokolade zu essenrdquo4 Dt ldquoSie moumlgen es Schokolade zu essenrdquo5 Die juumlngste fuumlr Debian verfuumlgbare Fassung die vorkompiliert paketiert ist stelltVersion 31 dar6 HFST-Wiki httpskitwikicscfitwikibinviewKitWikiHfstReadme(letzter Zugriff 08062012)7 Apertium-Wiki httpwikiapertiumorgwikiHfst (letzter Zugriff08062012)8 Installation von Apertium aus dem SVN-Repository httpwikiapertiumorgwikiApertium_on_UbuntuInstalling_the_newest_version_from_SVN_28more_complicated29 (letzter Zugriff 14062012)9 Internet Relay Chat10 ircircfreenodenetapertium

6

2 Grundlagen Zu Apertiumund HFST

21 Wesen und Entwicklungsstand von ApertiumAn der ersten FreeRBMT-Konferenz1 rekapitulieren Forcada et al [3]2009 unter dem Titel ldquoThe Apertium machine translation plattform fiveyears onrdquo die Entwicklung hin zu einem regelbasierten Uumlbersetzungs-system das schon damals uumlber 20 funktionale Uumlbersetzungsrichtungenaufweist

Was aber war fuumlnf Jahre vorher und was ist jetzt - insgesamt acht Jahrespaumlter

Apertium als solches wurde 2004 als Projekt - finanziert von einemKonsortium aus Staat und Wirtschaft - gegruumlndet um zunaumlchst dieSprachpaare esharrca (Spanisch und Katalanisch) sowie Spanisch undGalicisch als das Paar esharrgl in beidseitige Uumlbersetzungsrichtungen zurealisieren Angesiedelt wurde das Projekt zur Umsetzung an der Uni-versitaumlt von Alicante 2

Zu diesem Zeitpunkt existieren bereits zwei regelbasierte MUuml-Systemedie als Transfersysteme relativ oberflaumlchlich ohne tiefe Syntaxanaly-se zwischen aumlhnlichen Sprachpaaren zu uumlbersetzen faumlhig sind inter-NOSTRUM und Tradutor Universia Dieser Ansatz wird als Shallow-Transfer bezeichnet und bedeutet im einfachsten Fall dass ausser einemlexikalischen Transfer kaum weitere Arbeit fuumlr das System anfaumlllt eineUumlbersetzung relativ erfolgreich zu vollziehen An diesem Ansatz hatsich im Grundsatz nichts geaumlndert Und Dieser Ansatz in seiner ein-fachsten Transferform funktioniert nur fuumlr sehr aumlhnliche Sprachpaaregut Das letztere System (Tradutor Universia) ist spezialisiert auf das

1 Eine Konferenz fuumlr freie RBMT-Systeme httpxixonadlsiuaesfreerbmt09 (letzter Zugriff 14062012)2 Webseite der Universitaumlt httpwwwuaes (letzter Zugriff 14062012)

7

Sprachpaar esharrpt also Spanisch zu Portugiesisch (und umgekehrt) - alssolches ebenso ein Sprachpaar das eine geringe linguistische Distanzaufweist Die groumlssten Unterschiede sind lexikalischer Art

Vor insgesamt acht Jahren wurde angefangen die zwei o g Systeme zuvereinigen Im Zuge dieser Reimplementation wurde auch der Quell-code unter einer freien Lizenz im Sinne der Open Source Initiative 3

veroumlffentlicht Jede Person hat somit die Moumlglichkeit an der Entwick-lung von Apertium mitzuwirken Forcada selber war damals leitendmit dabei und mischt heute weiterhin zentral mit Es sind mittlerweileweitere wichtige Namen in der Apertium-Entwicklung involviert dieals Mentoren 4 fuumlr Interessierte an der Mitarbeit am Projekt fungierenDeren unmittelbare und zeitweise staumlndige Erreichbarkeit kann ich auseigener Erfahrung bestaumltigen

Forcada erwaumlhnt [3] dass fuumlr die Sprachpaare esharrca und es-gl diesprachtechnologischen Ressourcen teils selber (in seinem akademischenUmfeld) erstellt oder - wo moumlglich - aus frei verfuumlgbaren anderen Res-sourcen die frei lizenziert sind bezogen wurden um Apertium initialaufzubauen

Angefangen mit Version 10 welche fuumlr aumlhnliche Sprachpaare wieesharrca und es-pt ausgelegt ist bietet Version 20 bereits die Moumlglich-keit zwischen linguistisch weiter entfernten Sprachen zu uumlbersetzenAls Beispiele hierbei werden frharrca 5 oder enharrca 6 genannt Dafuumlr wur-de der Transferprozess ausgebaut denn es genuumlgt bei diesen Sprachennicht mehr (in vereinfachter Darstellung) die Woumlrter zu ersetzen Einmehrstufiger Strukturtransfer wird erforderlich ohne aber (bis heu-te) eine vollstaumlndige Syntaxanalyse zu betreiben Der juumlngste Major-Versionssprung zur Version 3 markiert dass Apertium vollstaumlndigUNICODE-faumlhig geworden ist und mit allen im Zeichensatz enthalte-nen Symbolen operieren kann

Technologisch setzt Apertium auf bewaumlhrte Technologien Die linguis-tischen Daten sowohl die Lexika als auch die Transferregeln werdenje Sprachpaar in XML-Dateien nach einem klaren Schema abgelegt 7Das erhoumlht die Interoperabilitaumlt zu anderen Systemen die sich diesenRessourcen bedienen moumlchten Ein eigens entwickeltes Toolset exis-tiert (lttoolbox) das die XML-Dateien in ein binaumlres Format uumlberset-zen kann das als ein Finite-State-Transduktor (FST) 8 realisiert wirdAus den Lexika und Transferregeln werden fuumlr jedes Sprachpaar letz-ten Endes drei Transduktoren erstellt welche folgenden drei Bereichengewidmet sind die im Grundsatz den Uumlbersetzungsprozess von Aper-tium ausmachen

3 Webseite der Initiative httpwwwopensourceorg (letzter Zugriff 14062012)4 Apertium-Wiki httpwikiapertiumorgwikiList_of_Apertium_mentors(letzter Zugriff 14062012)5 Franzoumlsisch zu Katalanisch und umgekehrt6 Englisch zu Katalanisch und umgekehrt7 Beispiel der Schemata anhand des Woumlrterbuchschemas httpwikiapertiumorgwikiMonodix_basics (letzter Zugriff 14062012)8 In diesem konkreten Anwendungsfall genauer bekannt als augmented letter trans-ducer

8

1 Lexikalische Analyse (der Quellsprachenwoumlrter)

2 Lexikalischer Transfer (anhand der Wortlemmata mit lexikali-schen Wortmarkierungen)

3 Lexikalische Generierung (der Zielsprachenwoumlrter)

Um die Lemmata fuumlr den Transferprozess erfolgreich lexikalisch zumarkieren sind natuumlrlich Zwischenschritte notwendig wie die morpho-logische Analyse der vorgefundenen Wortform PoS-Tagging 9 zur Wort-artenbestimmung und Word Sense Disambiguation um das (kontextuell)adaumlquate Lemma auszuwaumlhlen und zu taggen Je nach Sprachpaar undSprachbau der involvierten Sprachen ist der dafuumlr erforderliche Auf-wand unterschiedlich gross

Der Einsatz von HFST welcher zur morphologischen Verarbeitung indieser Hinsicht schwieriger Sprachen genutzt wird findet im extensivs-ten Einsatz bei der lexikalischen Analyse (1) und Generierung statt (2) -und das auch nur wenn beide Sprachen der Betrachtung HFST zur mor-phologischen Bewaumlltigung erforderlich machen Ist nur die Quellspra-che morphologisch mit den lttoolbox-Werkzeugen nicht zu bewaumlltigenso findet da der Einsatz von HFST statt ansonsten bei der Zielspra-che In Faumlllen wo sowohl die Zielsprache als auch die Quellsprachegroumlsstenteils mit Konkatenativer Morphologie 10 bewaumlltigt werden kannmacht der Einsatz von HFST wenig Sinn Da wird dann in aller Regellttoolbox fuumlr alles verwendet Das trifft etwa auf alle urspruumlnglichenSprachpaare zu wie ich sie weiter oben erwaumlhnt habe

Apertium ist der UNIX-Philosophie 11 verschrieben dass Programmeim Einzelnen klein und simpel zu sein haben und erst miteinander inInteraktion befindlich Komplexes schaffen sollen Durch das verwen-dete Pipelining kann jeder Analyse- Transfer- und Generierungsschrittin seinem In- und Output genau beobachtet werden Das und die freieVerfuumlgbarkeit des Quellcodes hilft beim Verstaumlndnis der Prozesse un-gemein und macht wissenschaftliche Ergebnisse nachvollziehbar Ge-nauer kann die Pipeline anhand der Abbildung 21 illustriert werden12

Die (relative) Unabhaumlngigkeit der einzelnen Komponenten erlaubt esApertium nur in Teilen zu verwenden z B zum PoS-Tagging eigenerTexte ungeachtet der weitergehenden und (eigentlichen) Hauptfunk-tionalitaumlt der Maschinellen Uumlbersetzung Somit ist Apertium nicht einfach

9 Das PoS-Tagging wird generell statistisch mit trainierten Daten im Einsatz vonHidden-Markov-Modellen (HMM) gemacht oder in Faumlllen wo zu wenig Datenmaterialvorliegt oder der Statistik zugunsten der Linguistik weniger Spielraum gelassen werdensoll faumlllt auf dass auch der Constraint Grammar-Formalismus (CG) eingesetzt wirdDas ist beim Sprachpaar sme-nob das in Kapitel 32 betrachtetet wird der Fall10 Dazu in 31 Genaueres11 Vgl hierzu Wikipedia httpsenwikipediaorgwikiUnix_philosophy(letzter Zugriff 14062012)12 Die schematische Darstellung entspringt den TeX-Quellen der Apertium-Dokumentation fuumlr Version 30 die in Arbeit ist URL httpapertiumsvnsourceforgenetviewvcapertiumbranchesapertium-documentationapertium-30endocumentationtexview=logamppathrev=38833 (letzter Zugriff14062012)

9

Quellsprachedarr

Deform rarr MorphAnal

rarrPoS-Tagging rarr

StruktTrans

rarrMorphGen

rarrPost-Gen

rarr Reform

l darr

LexTrans

Zielsprache

Abbildung 21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen

ein abgeschlossenes MUuml-System im Sinne einer Blackbox sondern ei-ne offene Plattform die hilft freie sprachtechnologische Ressourcen zumehren

Apertium fuumlhrt die Sprachpaare im SVN-Repository 13 abhaumlngig vomEntwicklungsstand in verschiedenen Ordnern

bull In incubator befinden sich kuumlrzlich angesetzte Sprachpaare

bull In nursery befinden sich noch wenig funktionale Sprachpaare

bull In staging befinden sich bereits fortgeschrittene Sprachpaare

bull In trunk befinden sich stabile Sprachpaare die produktiv ge-nutzt werden koumlnnen

Mittlerweile sind im Vergleich zu 2004 zahlreiche weitere Sprachpaa-re hinzukommen entstanden durch Forschungs-Entwicklungsprojektevon Studierenden 14 Arbeiten von Forschungsgruppen an anderenForschungseinrichtungen als Community-Projekte seitens Interessier-ter der Freien Software-Szene und auch mit Entwicklungsunterstuumltzungvon Unternehmen mit kommerziellen Interessen z B Prompsit wel-che Dienstleistungen um Apertium anbietet 15

Zum Zeitpunkt des Abschlusses dieser Arbeit Mitte Juni 201216 befin-den sich 138 () Sprachpaare in incubator 17 28 Sprachpaare in nursery5 Sprachpaare in staging und 37 Sprachpaare in trunk womit rund 40Sprachpaare produktiv genutzt werden koumlnnen Forschungs- und Ent-wicklungsarbeiten hingegen sind schon heute in rund 200 Sprachpaarenmoumlglich und weitere koumlnnen nach Absprache mit den Hauptentwick-lern beliebig hinzugefuumlgt werden

13 SVN-Webview des Repositories httpapertiumsvnsourceforgenetviewvc (letzter Zugriff 14062012)14 Z B im Rahmen des Google Summer of Code (GSoC) httpwikiapertiumorgwikiGoogle_Summer_of_CodeActive_projects (letzter Zugriff 14062012)15 Prompsit-Webseite httpwwwprompsitcomsomos-prompsit (letzter Zu-griff 14062012)16 SVN-Repository des Projekts in Revision 38833 httpapertiumsvnsourceforgenetviewvcapertiumpathrev=38833 (letzter Zugriff 14062012)17 Sowie einige Morphologien im Ansatz die keinem konkreten Sprachpaar gewid-met sind

10

Wichtig fuumlr einen Start sind die freie Verfuumlgbarkeit von Woumlrterbuumlchernund gegebenenfalls Morphologien fuumlr die involvierten Sprachen EineListe solcher Ressourcen fuumlr viele Sprachen wird im Apertium-Wikigefuumlhrt 18

Durch das Hinzukommen von Sprachpaaren deren Sprachen linguis-tisch wenig gemein haben ist der Shallow-Transfer inzwischen staumlrkerausgebaut Fuumlr en-ca (Englisch zu Katalanisch) wird ein dreistufigerStrukturtransfer angewandt in der Reihenfolge Chunking Inter- undPost-Chunking Dabei ist zu beachten dass das Inter-Chunking in (noch)komplexeren Faumlllen mehrstufig sein kann So ist mir das Sprachpaarsme-smj (vom Nordsamischen 32 in das Lulesamische 19) aufgefallen20 das uumlber drei Inter-Chunking-Dateien verfuumlgt 21 die Regeln daruumlberenthalten Chunks (in drei Phasen) zu vertauschen

22 Wesen und Entwicklungsstand von HFSTBeim Helsinki Finite-State Transducer - Framework (HFST) handelt essich um eine in C++ geschriebene Open Source-Softwarekollektion auswelche die Nutzung verschiedener FST-Technologien und -Formalismenheraus einheitlich moumlglich ist die ihrerseits frei (implementiert) verfuumlg-bar sind Es sind dies zum aktuellen Zeitpunkt

bull Die Stuttgart Finite-State Transducer Tools (SFST) mit einer Basis-Unterstuumltzung von Finite-State Transducer mit gewichteten Kan-tenuumlbergaumlngen 22 23

bull Das Foma-Paket das eine freie Implementation der XFSTLEXC-Formalismen darstellt gewichtete Transduktoren koumlnnen nichterstellt werden 24

bull Die OpenFST-Bibliothek es wird die Schaffung von Finite-StateTransducer mit gewichteten Kantenuumlbergaumlngen unterstuumltzt 25

Insbesondere bietet HFST das Tool hfst-twolc an das einen Two-LevelRule Compiler fuumlr den Xerox-TWOLC-Formalismus darstellt Damitkoumlnnen Transduktoren erstellt werden die eine parallele Ersetzung so-wohl der Ober- als auch der Unterseite des Transduktors gleichzeitigerlauben Die Reihenfolge der entsprechenden Deklarationen ist damit

18 Apertium-Wiki httpwikiapertiumorgwikiSpecific_resources_per_language (letzter Zugriff 14062012)19 Ethnologue-Eintrag fuumlr smj httpswwwethnologuecomshow_languageaspcode=smj (letzter Zugriff 14062012)20 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-sme-smj (letzter Zugriff 14062012)21 Die Dateien mit den Endungen ldquot2xrdquo ldquot3xrdquo und ldquot4xrdquo - besonderes Augenmerkkann auf den Bereich ab ltsection-rulesgt gelegt werden22 Webseite httpwwwimsuni-stuttgartdeprojektegramotronSOFTWARESFSThtml (letzter Zugriff 14062012)23 Gemaumlss Angaben von Francis M Tyers im IRC wird auf diese Tools den entspre-chenden Bibliotheken in Apertium kaum zugegriffen24 Dateien mit Endungen ldquoxfstrdquo ldquofomardquo und ldquolexcrdquo werden in aller Regel damitverarbeitet25 Dateien mit Endungen ldquotwolrdquo werden damit prozessiert wobei von gewichtetenKantenuumlbergaumlngen kein Gebrauch gemacht wird

11

unwichtig Im Gegensatz dazu muss beim (klassischen) Xerox Finite-State Tools-Formalismus (XFST) welcher Foma als Compiler frei imple-mentiert der Reihenfolge der Deklarationen Beachtung geschenkt wer-den weil es sich beim XFST-Formalismus um Rewriting-Regeln handeltdie sequentiell immer nur auf die Unterseite (bzw dem ldquozweitenrdquo oderldquorechtenrdquo Band) des Transduktors angewandt werden

Eine umfassende Einfuumlhrung von Finite-State-Automaten und -Transduktorenwuumlrde den Rahmen dieser Arbeit sprengen es sei allerdings darauf hin-gewiesen dass im Apertium-Wiki26 das Thema im Zusammenhang mitden morphologischen Woumlrterbuumlcher die mittels den eigenen lttoolbox-Werkzeugen erstellt werden ausreichend eingefuumlhrt wird

Auf der Seite wird ebenfalls plausibel erklaumlrt dass es zur Uumlbersichtlich-keit und dem Verstaumlndnis der Morphologie beitraumlgt die Deklarationderselben von den Algorithmen zu trennen die sie umsetzen Sowohlder lttoolbox-Formalismus als auch die Formalismen die durch dasHFST-Framework unterstuumltzt werden erfordern die blosse Deklarati-on der Morphologie ohne dass man sich um die (effiziente) Verarbei-tung der Ausdruumlcke selber kuumlmmern muss Die prozeduralen Schritteerledigen lttoolbox und HFST bei der Verarbeitung der jeweiligen De-klarationen in den Dateien 27 selbststaumlndig Damit wird eine Trennungvon morphologischer Deklaration und Programmcode erreicht

Das ist aumlhnlich wie bei der deklarativen (logischen) Programmierspra-che Prolog wo sich die Inferenzmaschine eigenstaumlndig um die effizienteBeweisfuumlhrung des Ziels (engl des ldquogoalsrdquo) kuumlmmert Das Gegenteildieses Ansatzes wird auf der Webseite mit Python-Code demonstriertwelcher im gegebenen Beispiel dafuumlr verwendet wird das Wort ldquobeerrdquound ldquobeersrdquo morphologisch zu analysieren - als ein Substantiv das imSingular oder Plural steht Das wird durch prozedurale Schritte direkterledigt Bei der Implementation sprachvollstaumlndiger Morphologien aufdiese Art gestaltet sich die Wartung der Morphologie als tendenziell un-uumlbersichtlich Hinzu koumlnnen sich bei einem solchen Ansatz in schlechterImplementation Laufzeitprobleme gesellenDer wichtigste Vorteil aber bleibt bis hierhin unerwaumlhnt Transdukto-ren koumlnnen nicht nur zur Analyse von Wortformen in ihre Lemmatasamt lexikalischer Markierungen genutzt werden 28 sondern markierteLemmata (im gegebenen Format) koumlnnen zur Generierung von Wortfor-men genutzt werden 29 In einer prozeduralen Implementation muumlsstesowohl Programmcode fuumlr die Generierung als auch (separat) fuumlr dieAnalyse geschrieben werden Das ist umstaumlndlich

26 Vgl das Apertium-Wiki httpwikiapertiumorgwikiMorphological_dictionaries (letzter Zugriff 14062012)27 Es handelt sich fuumlr Dateien die durch lttoolbox prozessiert werden um die Datei-en in den Ordner der Sprachpaare mit den Endungen ldquodixrdquo fuumlr das morphologischeWoumlrterbuch ldquot1xrdquo bis (maximal) ldquot5xrdquo (je nach Anzahl der Stufen) fuumlr die Transferre-geln und gegebenenfalls den ldquolexcrdquo- und ldquotwolrdquo-Dateien falls bei einer involviertenSprache die Morphologie durch HFST erfasst wird In wenigen Faumlllen sind auch ldquoxfstrdquo-oder ldquofomardquo-Dateien anzutreffen28 Der Transduktor wird in einem solchen Fall in der Regel von links nach rechtsbzw von oben nach unten angewandt29 Der Transduktor wird von rechts nach links bzw von unten nach oben angewandt

12

Ein praktisches Beispiel der Nutzung der resultierenden Transdukto-ren zur Analyse oder Generierung liefert das Apertium-Wiki auf derSeite uumlber lttoolbox 30

Falls bei einer speziellen Anwendung mit Apertium eine (im Einzelfall)weitergehende prozedurale Verarbeitung der Ausgabe aus den Trans-duktoren notwendig wird dann besteht die Moumlglichkeit HFST aus zB Python heraus zu nutzen 31

30 Vgl Apertium-Wiki httpwikiapertiumorgwikiLttoolbox (letzter Zu-griff 14062012)31 Vgl Beitrag auf der nltk-dev-Mailingliste httpsgroupsgooglecomgroupnltk-devbrowse_threadthreadfdb53482cad56234 (letzter Zugriff 14062012)

13

3 Hauptteil Die Integrationvon HFST in Apertium

31 Theorie Zweck und Nutzen der IntegrationFinite-State-Technologien koumlnnen in der Computerlinguistik dafuumlr ge-nutzt werden um Woumlrterbuumlcher elegant aufzubauen oder die mor-phologische Analyse und Generierung von Woumlrtern systematisch zubetreiben und das insbesondere auch in Faumlllen wo die Morphologie derbetrachteten Sprache nicht relativ einfach durch z B Prauml- oder Suffixe(also konkatenativ durch rsquoAneinanderreihenrsquo von Morphemen) erfasstwerden kann sondern gerade auch in Faumlllen wo auch andere Affixewie Infixe zur Anwendung kommen

Nicht mehr simpel sind Morphologien beispielsweise in Faumlllen wo esfuumlr gegebene Wortstaumlmme 1 Faumllle gibt wo Morpheme fuumlr eine Flexi-on inmitten des Stamms eingepflanzt werden muumlssen oder wo Vokaleinmitten von Staumlmmen wegfallen oder durch andere ersetzt werdenmuumlssen um guumlltige Wortformen analysieren oder generieren zu koumln-nen Morphologien fuumlr Sprachen die komplexe Anpassungen an Staumlm-men oder fortgesetzten Wortklassen in bestimmten (z B grammatikali-schen) Faumlllen erfordern werden auch Nicht-Konkatenative Morphologien(NKM) (vgl Clematide 2007 104ff) genannt oder zumindest waumlre dieKonkatenation nach vorwiegend erkennbaren systematischen Regelnder betrachteten Sprache nicht mehr (sinnvoll) nachvollziehbar wuumlrdeman eine Konkatenative Morphologie erzwingen wollen ebenfalls ist dieGefahr von Redundanz sehr hoch wenn jeder nur denkbare Stamm ineine Morphologie einfliesst

Eine saubere Morphologie mit klaren Regeln und in (moumlglichst) schlan-ker Ausfuumlhrung ist eine Anforderung von der gerade ein MaschinellesUumlbersetzungssystem wie Apertium fundamental profitiert um schnell zu

1 Minimaloberflaumlche von Woumlrtern aus der durch Morpheme die vor- um - oderangehaumlngt werden koumlnnen weitere wichtige (weitere) Wortformen entstehen

14

arbeiten und (linguistisch nachvollziehbar) gepflegt werden zu koumlnnen

Wie bereits in Kapitel 21 angedeutet ist es nicht erst das HFST-Frameworkdas Finite-State-Technologien in Apertium einfuumlhrt Die lexikalischenWerkzeuge lttoolbox mit Anwendungen wie lt-comp 2 oder lt-proc 3

werden dazu genutzt die in XML abgefassten Woumlrterbuumlcher in Trans-duktoren umzuwandeln - fuumlr eine schnellere Verarbeitung Mit denMoumlglichkeiten verglichen die das HFST-Framework liefert sind die lt-toolbox-Werkezuge am ehesten mit dem LEXC-Formalismus vergleich-bar welcher Foma beherrscht und auf die Idee fusst Woumlrterbuumlcher an-hand von Staumlmmen (von z B Verben oder Nomen) anhand von Fort-setzungsklassen (durch das Anhaumlngen von Morphemen) aufzubauenSimon Clematide fuumlhrt auch das in seinem Vorlesungsskript von 2007(93ff) genauer aus Darin ist es moumlglich die Morphotaktik der Sprachezu erfassen Schwieriger umzusetzen mit diesen Apertium-Bordmittelnist die Morphophonemik worunter Lautanpassungen oder die Infigierung 4

fallen Diese (u U seltenen aber fuumlr die Korrektheit notwendigen) An-passungen der Morphotaktik berechtigen den Beizug zusaumltzlicher (wohlbekannter und anerkannter) Formalismen wie XFST 5 oder TWOLC

Die wenigsten natuumlrlichen Sprachen sind (vollstaumlndig) KonkatenativerMorphologie Im Rahmen einer kuumlrzlichen Veranstaltung zu Finite-State-Methoden (bei Simon Clematide) haben Simon Hafner und ich die Moumlg-lichkeit erhalten eine (konzeptionelle) Morphologie 6 fuumlr die Planspra-che ldquoKlingonischrdquo 7 anzulegen Diese laumlsst sich tatsaumlchlich fast vollstaumln-dig mit Fortsetzungsklassen auf Basis der Wortstaumlmme und anzuhaumln-genden Morphemen und damit dem LEXC-Formalismus erfassen istaber auch nur ein akademisches Beispiel einer Sprache wo es nie zu(natuumlrlichen) Lautverschiebungen oder anderen komplexen Phaumlnome-nen kam

Die Dokumentation daruumlber wie HFST in Apertium genau genutztwird ist spaumlrlich Gerade in der Apertium-Dokumentation (aktuellnachgefuumlhrt und veroumlffentlicht bis Version 20) seitens Forcada et al[2] wird nichts uumlber die Nutzung von HFST ausgesagt - auch nicht inden neuesten (versionskontrollierten) Fassungen8 im SVN-Repository

Gluumlcklicherweise waren wichtige Apertium-Entwickler mir eine grosseHilfe dabei die noumltigen Einstiegspunkte zu finden Ein Beispiel einer ty-pischen Hilfeleistung ist im Anhang als ldquoIRC-Konversation zu HFSTrdquo9 zu finden die ich mit freundlicher Unterstuumltzung der involviertenPersonen in dieser Seminararbeit in der Form publizieren darf

2 Zur Kompilation von Woumlrterbuumlchern von einem XML- in ein FST-Format3 Zur Prozessierung der Daten im vorgaumlngig generierten FST-Format und der Aus-gabe in einem menschenlesbaren lexikalischen Tagging-Format4 Einfuumlgen eines Affixes in einen Wortstamm auch Infix genannt5 Von Foma implementiert6 Code und Anwendungsbeispiele bei github im git-Repository httpsgithubcom2mhklingomorph (letzter Zugriff 14062012)7 Ethnologue-Eintrag tlh httpswwwethnologuecomshow_languageaspcode=tlh (letzter Zugriff 14062012)8 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-documentationapertium-20en (letzter Zugriff 12062012)9 Siehe Anhang auf Seite 26

15

Zudem Es sind im Apertium-Wiki Informationen daruumlber vorhandenwie ein neues Sprachpaar fuumlr die Nutzung mit HFST angelegt werdenkann 10 Beim gegebenen Beispiel wird schematisch das Sprachpaar tur-tuk angesetzt (real im SVN-Repository existiert das Sprachpaar tuk-tur11) wobei tuk 12fuumlr Turkmenisch und tur 13 fuumlr Tuumlrkisch steht

Generell wird bei Sprachpaaren die mit HFST analysiert (und gene-riert) werden versucht den lexikalischen Transfer moumlglichst auf Ba-sis der Morpheme vorzunehmen Idealerweise kann der groumlsste Teilim LEXC-Formalismus abgedeckt werden Wo das nicht (im Ansatz)gelingt werden TWOLC-Regeln definiert welche die noumltigen Anpas-sungen an den lexikalischen Markierungen und Oberflaumlchenformen derWoumlrter vornehmen

Gruumlnde weshalb TWOLC- gegenuumlber XFST-Deklarationen bevorzugtwerden sind gemaumlss wichtigen Apertium-Entwicklern 14 (1) das uumlber-sichtlichere Format und (2) die einfachere Handhabung von linguisti-schen Phaumlnomenen wie der Vokalharmonie mit dem TWOLC-Formalismus

Ein weiterer wichtiger Grund welcher die mangelnde Verbreitung desXFST-Formalismus bei Apertium erklaumlrt ist vermutlich auch dass Fo-ma erst seit Version 30 von HFST (veroumlffentlicht in 2011) vollstaumlndigunterstuumltzt wird

32 Empirie Die Integration am Beispiel eines SprachpaarsDaruumlber wie ein neues Sprachpaar unter Nutzung von HFST zu Aper-tium hinzugefuumlgt werden kann gibt ein Wiki-Artikel 15 Auskunft ImSinne eines Tutorials wird dabei Schritt fuumlr Schritt im Ansatz gezeigtwie die Implementation einer RBMT von der Turkmenischen Spracheins Tuumlrkische (Sprachpaar tk-tr) umgesetzt werden kann Bei beidenverwandten Sprachen handelt es sich um stark agglutinierende Spra-chen

Das (wissenschaftlich) am besten dokumentierte Beispiel der Nutzungvon HFST im Zusammenhang mit Apertium wird im noch nicht pu-blizierten Paper ldquoEvaluating North Saacutemi to Norwegian assimilationRBMTrdquo [4] beschrieben das von Trond Trosterud und seinem Kollegen

10 Vgl hierzu httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 12062012)11 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-tuk-tur (letzter Zugriff 12062012)12 Ethnologue-Eintrag fuumlr tuk httpswwwethnologuecomshow_languageaspcode=tuk (letzter Zugriff 12062012)13 Ethnologue-Eintrag fuumlr tur httpswwwethnologuecomshow_languageaspcode=tur (letzter Zugriff 12062012)14 Gemaumlss Francis M Tyers und Jonathan North Washington im IRC15 Apertium-Wiki httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 11062012)

16

Kevin Brubeck Unhammer Mitte Juni 2012 an der FreeRBMT 2012 erst-mals oumlffentlich vorgetragen wird 16

Die Nordsamische Sprache 17 (sme) verfuumlgt uumlber geschaumltzte 15rsquo000 bis25rsquo000 Sprecher und wird in Norwegen Schweden und Finnland ge-sprochen Die Sprache wird von den Autoren als stark flektierend undagglutinierend eingeteilt

Die Standardvarietaumlt 18 des Norwegischen in die uumlbersetzt wird ver-fuumlgt gemaumlss Ethnologue 19 uumlber rund 45 Millionen Sprecher und gehoumlrtder indogermanischen Sprachfamilie an Die Sprache wird von Troste-rud und Unhammer [4] als morphologisch wenig komplex angegeben

Dieses Sprachpaar gehoumlrt zu den wenigen wo eine indoeuropaumlische(oder -germanische) Sprache unter Einsatz von HFST mit Apertiumuumlbersetzt wird

Bei den meisten anderen Sprachpaaren wo HFST genutzt wird han-delt es sich beidseitig um Sprachen mit komplexer Morphologie

Bezuumlglich des Sprachpaars unserer Betrachtung fokussieren die Auto-ren auf die Uumlbersetzungsrichtung ins Norwegische weil der Anspruchbloss ist dass Nur-Norwegischsprechende Texte aus dem Nordsami-schen verstehen koumlnnen sollen Umgekehrt wuumlrden die meisten Spre-cher des Nordsamischen bereits Norwegisch verstehen womit der Nut-zen der umgekehrten Uumlbersetzungsrichtung als (zum aktuellen Zeit-punkt) gering eingeschaumltzt wird

Als Motivation fuumlr den Einsatz von HFST gegenuumlber lttoolbox wirdbeispielhaft der Stufenwechsel der Konsonanten des Nordsamischen inQuantitaumlt als auch Qualitaumlt angefuumlhrt 20 Generalisiert betrachtet befuumlr-worten die Autoren die Verwendung von HFST wenn Morphologienzu verarbeiten sind die nicht rein konkatenativ sind - wie ich in Kapitel31 zum Zweck von HFST bereits ausgefuumlhrt habe

Grundsaumltzlich wird gemaumlss Entwickler Unhammer 21 (schematisch) diefolgende UNIX-Pipeline fuumlr sme-nob angewandt

$ echo words|hfst-proc sme-analyserhfst|| 1lt-proc sme-to-nob-dixbin|| 2lt-proc nob-generator-dixbin 3

Im Falle von sme-nob wird HFST alleine fuumlr die Analyse (1) von smegenutzt dann wird wieder generell auf lttoolbox gesetzt in wichtigsterHinsicht im Rahmen des lexikalischen Transfers (2) und der Generierung

16 Information gemaumlss einem Gespraumlch mit Kevin Brubeck Unhammer im IRC Kon-ferenzseite mit Programm httpwwwmolto-projecteufreerbmt-programhtml(letzter Zugriff 14062012)17 Engl ldquoNorth Saacutemirdquo18 Als Buchsprache ldquoBokmaringlrdquo19 Ethnologue-Eintrag zu den Sprachen Norwegens httpswwwethnologuecomshow_countryaspname=no (letzter Zugriff 11062012)20 Vgl hierzu Wikipedia httpsdewikipediaorgwikiStufenwechsel (letzterZugriff 14062012)21 Chatgespraumlch im IRC

17

(3) der Zielsprache nob

Der morphologische sme-Analyzer ist dabei in den Formalismen LEXCund TWOLC geschrieben und fusst auf bereits verfuumlgbare Ressourcen22 zuruumlck was aufzeigt dass HFST im Einsatz fuumlr Apertium auch des-halb interessant ist weil viele Morphologien bereits existieren die inFormalismen geschrieben sind die HFST verarbeiten kann Fuumlr dasAnlegen vieler Sprachpaare ist es nicht notwendig alles from scratch zubeginnen

Auch beim nob-Generator konnte auf (eigene fruumlhere) Ressourcen zu-ruumlckgegriffen werden wie diese im Sprachpaar nn-nb 23 verfuumlgbar sindbei dem Sprachpaar wird zwischen zwei norwegischen Sprachverietauml-ten uumlbersetzt Wichtig ist noch einmal zu betonen dass der nob-Teil (zurGeneration der Norwegischen Wortformen) auf lttoolbox setzt und mitHFST nichts zu schaffen hat

Interessant ist der Einsatz der von Trosterud und Unhammer von Grundauf selber geschriebene Constraint Grammar (CG) 24 zur Wortartendisam-biguierung in dem die Auswahl der Woumlrter (fuumlr die Zielsprache) anhandvon (lokalen) grammatikalischen Kontexten (in der Quellsprache) ge-schieht Das ist auch der Grund weshalb ich eingangs in Kapitel 12VISL CG-3 als obligat zu installierendes Paket anfuumlhre Ohne dieseSoftware ist es nicht moumlglich das Sprachpaar sme-nob zu kompilieren25

Zwischen der morphologischen Analyse (von sme) und der morphologischenGenerierung von nob findet der strukturelle Transfer statt der 4-phasig istdie Autoren Trosterud und Unhammer machen hierbei folgende Anga-ben

1 63 Chunk-Regeln (t1x-Datei)

2 26 Interchunk1-Regeln (t2x-Datei)

3 39 Interchunk2-Regeln (t3x-Datei)

4 29 Postchunk-Regeln (t4x-Datei)

Es reicht also nicht bloss aus Wortformen oder Morpheme zu ersetzensondern es sind komplexe Verschiebungen der markierten Lemmata

22 SVN-Repository des Giellatekno-Projekts httpsvictoriouitnolangtechtrunkgtsme (letzter Zugriff 14062012)23 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-nn-nb (letzter Zugriff 14062012)24 Vgl fuumlr einen kurzen Uumlberblick eine CLab-Seite httpkittcluzhchclabconstraintGrammarilap_visl (letzter Zugriff 14062012)25 Zu erwaumlhnen ist in dem Zusammenhang dass bei den meisten SprachpaarenHidden-Markov-Modelle zum Einsatz kommen um die Wortarten zu bestimmen da-fuumlr wird Sprachmaterial trainiert Im Falle von sme-nob deuten die Autoren allerdingsdarauf hin dass mangels repraumlsentativen Sprachmaterials diese Option keine ist diebefriedigen kann Sie stellen allerdings in Aussicht dass eine Kombination von lin-guistischen CG- und statistischen HMM-Ansaumltzen ein Versuch wert waumlre Dabei wuumlrdezuerst mittels CG ein Kontext eingegrenzt und danach statistisch verfahren

18

notwendig um in das Norwegische zu uumlbersetzen obschon beide Spra-chen der Subjekt-Verb-Objekt-Satzstellung sind

Die Evaluationsergebnisse der Autoren deuten darauf hin dass dasSprachpaar sme-nob funktionalen Charakter hat Post-Editing-Qualitaumltist nicht das Ziel und wird auch nicht erreicht allerdings koumlnnen Nor-wegischsprechende die kein Nordsamisch verstehen in vielen Faumlllenausmachen was die Bedeutung eines Satzes ist - insbesondere dannwenn er kontextualisiert vorliegt

Im Folgenden soll eine praktische Nutzung des Sprachpaars sme-nobin Apertium illustriert werden Als Beispiel diene der einleitende Be-gruumlssungssatz zur Nordsamischen Wikipedia 26 ausgewaumlhlt

$ echo rsquoBures boahtin Wikipediai friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen til Wikipedia til den frie informasjonsordboken

Die resultierende nob-Uumlbersetzung lautet gemaumlss Google Translate 27

auf Deutsch

Willkommen bei Wikipedia dem freien Woumlrterbuch Infor-mationen

Die Uumlbersetzung ist verstaumlndlich abgesehen von der Semantik des Aus-drucks ldquoWoumlrterbuch Informationenrdquo Hier sollte meiner Ansicht nachldquoEnzyklopaumldierdquo stehen Es ist wahrscheinlich dass bereits die Quellenicht den optimalen Begriff fuumlhrt und da das eigentliche Problem liegt

Interessanter ist was passiert wenn wir das ominoumlse i-Suffix bei ldquoWi-kipediairdquo im Nordsamischen entfernen

$ echo rsquoBures boahtin Wikipedia friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen Wikipedia til den frie informasjonsordboken

Wir koumlnnen feststellen dass der Satz einen anderen personalen Bezugherstellt denn gemaumlss Google Translate 28 bedeutet die zweite nob-Uumlbersetzung auf Deutsch

Willkommen Wikipedia dem freien Woumlrterbuch Informa-tionen

Wir werden nun also als ldquoWikipediardquo angesprochen

26 Webseite httpssewikipediaorgwikiVC3A1ldosiidu (letzter Zugriff14062012)27 Vgl hierzu httptranslategooglecomno|de|Velkommen20til20Wikipedia2C20til20den20frie20informasjonsordboken (letzter Zugriff14062012)28 Vgl hierzu httptranslategooglecomno|de|0AVelkommen20Wikipedia2C20til20den20frie20informasjonsordbokenmskip-thinmuskip (letzter Zugriff 14062012)

19

Eine morphologische Analyse der beiden Wortformen ldquoWikipediardquo undldquoWikipediairdquo erhaumlrtet die Vermutungen dass es sich beim i-Suffix umeinen Illativ 29 handelt einem Lokalkasus der dazu genutzt werdenkann eine ldquoHineinbewegungrdquo auszudruumlcken respektive in diesem Falldie entsprechende Praumlposition ldquoaufrdquo in das Substantiv der Named En-tity ldquoWikipediardquo einzugliedern

$ echo Wikipedia | apertium -d sme-nob-morph1^WikipediaWikipedialtNgtltPropgtltOrggtltSggtltAccgtWikipedialtNgtltPropgtltOrggtltSggtltGengtWikipedialtNgtltPropgtltOrggtltSggtltNomgt$^ltCLBgt$

2$ echo Wikipediai | apertium -d sme-nob-morph^WikipediaiWikipedialtNgtltPropgtltOrggtltSggtltIllgt$^ltCLBgt$

Bei Analyse 1 wird ldquoWikipediardquo als ein Substantiv eine Named Entityund (semantisch) als Organisation im Singular markiert Uneinigkeitherrscht fuumlr den Tagger auf dieser Transferstufe noch uumlber den KasusEs ist nicht klar ob ldquoWikipediardquo im Nominativ Akkusativ oder Genitivsteht Das Symbol ltCLBgt steht fuumlr ldquoClause Boundaryrdquo und spielt insbe-sondere fuumlr den Chunker (im Zuge des spaumlteren Transfers) eine Rolle zB zur (groben) Abgrenzung von Nominal- und Verbalphrasen

Analyse 2 faumlllt knapper aus da der Kasusfall keine Rolle mehr spielt -an dessen Stelle tritt nun der Illativ (Symbol ltIllgt) Der Rest bleibt sichgleich

Da aber die Illativ-Markierung in diesem spezifischen Fall auf dernob-Seite zur Oberflaumlchengenerierung des norwegischen Wortes ldquotilrdquo30 fuumlhrt aumlndert sich die Semantik des Satzes merklich

Der Transferprozess bei Apertium kann generell beliebig fein beobach-tet werden fuumlr unser spezifisches Sprachpaar sme-nob sei fuumlr weitereVersuche auf das Apertium-Wiki 31 verwiesen das extensiv Informa-tionen daruumlber fuumlhrt

Es existieren weitere interessante Sprachpaare bei der nur eine Sei-te jeweils stark agglutierend ist und auf entsprechende Formalismen(LEXC- und TWOLC-Formalismen) zuruumlckgegriffen wird So etwa die

29 Vgl Wikipedia httpsdewikipediaorgwikiIllativ (letzter Zugriff14062012)30 Dt ldquoaufrdquo31 httpwikiapertiumorgwikiNorthern_SC3A1mi_and_Norwegian (letzterZugriff 14062012)

20

Sprachpaare quz-spa (Quecha-Castellano) 32 udm-rus (Udmuritische Sprache-Russisch) 33 und kaz-eng (Kasachisch-Englisch) 34 Noch ist der Entwick-lungsstand all dieser Uumlbersetzungsrichtungen aber gering und fuumlr einenproduktiven Einsatz oder eine Evaluation demnach ungeeignet 35

32 Apertium-Wikiseite httpwikiapertiumorgwikiQuechua_cuzqueC3B1o_y_castellano (letzter Zugriff 14062012)33 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-udm-rus (letzter Zugriff 14062012)34 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumincubatorapertium-eng-kaz (letzter Zugriff 14062012)35 Alle drei Sprachpaare sind in den SVN-Ordnern incubator oder nursery un-tergebracht

21

4 Schluss

41 Zusammenfassung und AusblickIn abschliessender Betrachtung ist festzuhalten Die Nutzung von HFSTverleiht Apertium die Faumlhigkeit zu und von Sprachen mit (stark) Nicht-Konkatenativer Morphologie zu uumlbersetzen Dafuumlr muumlssen die Aperti-um-eigenen lttoolbox-Werkzeuge umgangen werden die ansonstenzur morphologischen Analyse und morphologischen Generierung von Wort-formen verwendet werden Der Einsatz von HFST liefert aber keinenMehrwert an anderen Stellen in der Transfer-Pipeline Der lexikalischeTransfer oder strukturelle Anpassungen um der Syntax der Zielsprachenaumlher zu kommen sind Schritte fuumlr die sich die lttoolbox-Werkzeugeweiterhin bewaumlhren

Diskutiert wird eine staumlrkere Integration von HFST in Apertium damitHFST nicht laumlnger der Charakter eines ldquoFremdkoumlrpersrdquo in der Aper-tium-Plattform anhaftet Es existiert die Idee ein Projekt in diese Rich-tung anzustossen um es z B moumlglich zu machen lexc-Dateien anstattmit den HFST-Binaries mit den lttoolbox-Kommandos zu prozessierenDieses Projekt koumlnnte von einem interessierten Studierenden etwa imRahmen des naumlchsten Google Summer of Code (2013) initiiert werden 1

Ein weitere Herausforderung die in der Natur von Apertium als Shallow-Transfer-System begruumlndet liegt 2 hat mit den Bilexika zu tun Apertiummuss fuumlr jedes Sprachpaar ein Bilexikon fuumlhren um den lexikalischenTransfer mittels den lttoolbox-Werkzeugen zu vollziehen Da fuumlr jedeneue Sprachkombination das Bilexikon neu aufgebaut werden mussbesteht hier ein gewisser (manueller) Aufwand bei jedem neuen Sprach-paar das angesetzt wird dieser kann zwar durch Einsatz von Werkzeu-ge aus den apertium-dixtools minimiert werden die Vollautomation

1 Idee zum Projekt httpwikiapertiumorgwikiIdeas_for_Google_Summer_of_CodeCloser_integration_with_HFST (letzter Zugriff 14062012)2 Apertium verwendet keinen sog Interlingua-Ansatz um eine sprachunabhaumlngigeRepraumlsentation von Wortbedeutungen zu fuumlhren

22

funktioniert aber noch nicht 3 4

Weiterhin bleibt Apertium im Grundsatz ein Shallow-Transfer-Systemdas keinen vollstaumlndigen Parse der Quellsprache vornimmt und sietiefen-analysiert Dadurch ist es auch in Zukunft nicht breit moumlglichSemantik uumlber weite Distanzen zu transferieren

Bezuumlglich weiterer Moumlglichkeiten fuumlr Apertium morphologisch zu ana-lysieren generieren kann das Augenmerk auch auf neuere Formalis-men als jene von Xerox 5 gelegt werden So existiert hunmorph 6 dases erlaubt in OCaml 7 - in einem objekt-orientierten Paradigma - Mor-phologien zu beschreiben und dazu eine (relativ) einfache Syntax auf-zuweisen scheint Beispiele explorativer Versuche mit hunmorph fuumlrApertium sind im Wiki des Projekts bereits heute dokumentiert 8 Aus-serdem ist hunmoph morphologisch-analytische Basis des bekanntenSpellcheckers HunSpell das der standardmaumlssige Spellchecker in Libre-Office OpenOfficeorg und einigen Softwareprodukten der MozillaFoundation ist 9

Selber hat es mir Freude bereitet mich in dieses komplexe Gebiet hin-ein zu begeben und ich bin fuumlr die Zukunft interessiert daran michan Apertium nach Kraumlften zu beteiligen da ich die dahinterstehendeCommunity als eine kennen gelernt habe die aufgeschlossen humor-voll und im houmlchsten Masse kompetent ist

42 DanksagungenIch moumlchte mich an dieser Stelle herzlichst im Besonderen bei folgen-den Personen des Apertium-Projekts bedanken dass sie sich Zeit ge-nommen haben sich mit mir im IRC ausgiebig zu unterhalten und denDschungel in und um Apertium zu durchleuchten Mikel L ForcadaFrancis M Tyers Kevin Brubeck Unhammer und Jonathan North Wa-shington

Ohne sie waumlre diese Arbeit in der Form nicht entstanden und vielesQuellmaterial das ich hier verwende schwierg auffindbar gewesen

3 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-dixtools (letzter Zugriff 14062012)4 Vgl hierzu httpwikiapertiumorgwikiCrossdics (letzter Zugriff14062012)5 Namentlich XFST TWOLC und LEXC6 Webseite httpmokkbmehuresourceshunmorph (letzter Zugriff 14062012)7 Webseite httpcamlinriafr (letzter Zugriff 14062012)8 Apertium-Wiki httpwikiapertiumorgwikiHunmorph (letzter Zugriff14062012)9 Webseite httphunspellsourceforgenet (letzter Zugriff 14062012)

23

Literaturverzeichnis

[1] S Clematide Morphologie und Lexikographie Vorlesungs-skript Institut fuumlr Computerlinguistik Universitaumlt Zuumlrich 2007URL httpfilesifiuzhchclsiclematlehress07mulscriptscriptpdf

[2] ML Forcada BI Bonev S Ortiz-Rojas JA Peacuterez-OrtizG Ramiacuterez-Saacutenchez F Saacutenchez-Martiacutenez C Armentano-OllerMA Montava FM Tyers und U dA Departament de Llenguatges iSistemes Informagravetics Documentation of the open-source shallow-transfer machine translation platform apertium 2010 URL httpxixonadlsiuaes~franapertium2-documentationpdf

[3] ML Forcada FM Tyers und G Ramiacuterez-Saacutenchez The Apertiummachine translation platform five years on In Proceedings of the FirstInternational Workshop on FreeOpen-Source Rule-Based Machine Trans-lation 3ndash10 2009 URL httpxixonadlsiuaesfreerbmt09presentationsforcada_freerbmt09_5yrsonpdf

[4] T Trosterud und KB Unhammer Evaluating North Saacutemi to Nor-wegian assimilation RBMT In Proceedings of the Third InternationalWorkshop on FreeOpen-Source Rule-Based Machine Translation 2012URL httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-sme-nobpaperpathrev=38833 (noch kein of-fizielles Paper (im PDF) verfuumlgbar)

24

Abbildungsverzeichnis

21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen 10

25

Anhang

IRC-Konversation zu HFSTTypisches Beispiel einer Konversation 10 mit Jonathan North Washing-ton (ldquofirespeakerrdquo) und Mikel L Forcada (ldquomlforcadardquo) welche we-sentliche Beitraumlge zu Apertium leisten gefuumlhrt im IRC 11

1921 lt h2mgt At which stage of the pipeline is HFST employed1921 lt h2mgt I couldnrsquot get that1921 lt mlforcadagt h2m generation of Kazakh[]1922 lt h2mgt Is this process described somewhere in detailsuch that I can read that up1922 lt mlforcadagt is something that looks like lttoolbox butmore powerful1922 lt mlforcadagt h2m firespeaker can help probably1922 lt h2mgt I can only see lexc and twol files wo reallygetting the point[]1922 lt firespeakergt h2m HFST takes a string of text and turnsit into lemmas + tags1922 lt firespeakergt h2m or1922 lt firespeakergt h2m it takes lemmas + tags and turns itinto a string of text[]1923 lt firespeakergt h2m lexc is the morphotactics1923 lt mlforcadagt firespeaker yoursquore right1923 lt h2mgt Ah OK1923 lt firespeakergt h2m twol is the morphophonology

10 Selber bin ich als ldquoh2mrdquo unterwegs11 ircircfreenodenetapertium

26

  • Einfuumlhrung
    • Motivation und Thema
    • Verwendete Umgebung und Konfiguration
      • Grundlagen Zu Apertium und HFST
        • Wesen und Entwicklungsstand von Apertium
        • Wesen und Entwicklungsstand von HFST
          • Hauptteil Die Integration von HFST in Apertium
            • Theorie Zweck und Nutzen der Integration
            • Empirie Die Integration am Beispiel eines Sprachpaars
              • Schluss
                • Zusammenfassung und Ausblick
                • Danksagungen
                  • Literaturverzeichnis
                  • Abbildungsverzeichnis
                  • Anhang
Page 3: Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

Inhaltsverzeichnis

1 Einfuumlhrung 4

11 Motivation und Thema 4

12 Verwendete Umgebung und Konfiguration 5

2 Grundlagen Zu Apertium und HFST 7

21 Wesen und Entwicklungsstand von Apertium 7

22 Wesen und Entwicklungsstand von HFST 11

3 Hauptteil Die Integration von HFST in Apertium 14

31 Theorie Zweck und Nutzen der Integration 14

32 Empirie Die Integration am Beispiel eines Sprachpaars 16

4 Schluss 22

41 Zusammenfassung und Ausblick 22

42 Danksagungen 23

Literaturverzeichnis 24

Abbildungsverzeichnis 25

Anhang 26

3

1 Einfuumlhrung

11 Motivation und ThemaIm Rahmen des Seminars ldquoMaschinelle Uumlbersetzungrdquo bei Prof Dr Mi-chael Hess Anne Goumlhring und Magdalena Jitca im Herbstsemester 2011haben wir uns mit verschiedenen Aspekten der automatischen Uumlber-setzung natuumlrlichsprachlicher Texte beschaumlftigt darunter auch mit Sys-temen welche regelbasiert (RBMT) und anderen die statistikbasiert(SBMT) arbeiten Zusammen mit Simon Hafner habe ich mich damalsdazu entschieden zwei Systeme mit einem Vortrag zu beleuchten wel-che frei im Quellcode verfuumlgbar und nutzbar sind Apertium als RBMT-und Moses als SBMT-System Insbesondere haben wir die Vorteile vonFOSS-MUuml-Systemen 1 fuumlr Minderheitensprachen beleuchtet In meinemTeil zu Apertium habe ich das Gesellschaftliche zu stark gewichtet sodass das Technische dementsprechend auf der Strecke geblieben istMit dieser Seminararbeit moumlchte ich das nun ausraumlumen Ich fokussie-re mich auf Apertium als eine offene Plattform und wie sie genutztwerden kann um mit Sprachen umzugehen die eine komplexe Mor-phologie aufweisen

Was soll gezeigt werden

Apertium ist ein RBMT-System das insbesondere dafuumlr bekannt istmittels Shallow-Transfer zwischen linguistisch aumlhnlichen Sprachpaarenzu uumlbersetzen Bei den urspruumlnglich involvierten Sprachen handelt essich daruumlber hinaus um solche die uumlber eine (vergleichsweise) ein-fache Morphologie aufweisen und indoeuropaumlischen Ursprungs sindIm Zuge nun der Uumlbersetzung morphologisch komplexer und weitervoneinander entfernten Sprachpaaren kann das Helsinki Finite- StateTechnology - Framework (HFST) eingesetzt werden auf das wird ins-besondere im Kapitel 22 eingegangen Das Framework bietet Schnitt-stellen zu bestehenden Finite-State Transducer-Technologien (z B Fo-ma oder OpenFST) an und ermoumlglicht somit eine Wiederverwendung

1 MUuml-Systeme die Free and Open Source Software sind

4

(morphologischer) sprachtechnologischer Ressourcen fuumlr den Bereichder Maschinellen Uumlbersetzung zwischen Sprachen von der zumindesteine gepraumlgt ist von einem agglutinierenden oder stark flektierendenSprachbau

In meiner Seminararbeit moumlchte ich also zunaumlchst aufzeigen was Aper-tium und HFST sind (in Kapitel 2) und dann wie sie zueinander stehenund integriert werden koumlnnen um mehr Sprachpaare uumlbersetzen zukoumlnnen Diese Integration mit HFST theoretisch und empirisch auf-zudecken ist Inhalt von Kapitel 3 Die entsprechenden Illustrationenliefere ich anhand des Sprachpaars sme-nob (Nordsamisch zu Norwe-gisch) das zum einen gut dokumentiert ist und mir zum anderen einenZirkelschluss zu meinem Ursprungsthema des Seminars erlaubt naumlm-lich Aufzuzeigen wie Apertium dazu genutzt werden kann Minder-heitensprachen zu unterstuumltzen - nur diesmal bedeutend mehr in dertechnischen Beleuchtung der Sache Interessant an diesem Sprachpaarist zudem dass eine der involvierten Sprachen naumlmlich das Nordsa-mische morphologisch komplex ist und mit dem Norwegischen weniggemein hat d h das Sprachpaar ist von hoher linguistischer DistanzDas ist ein Bereich fuumlr den die Apertium-Plattform urspruumlnglich nichtkonzipiert wurde In einem Uumlberblick zu zeigen wie mit diesen An-forderungen an das RBMT-System umgegangen wird ist Ziel meinerArbeit

Kapitel 4 - der Schluss - setze ich mit einer Zusammenfassung der be-handelten Materie um und stelle die wichtigsten Erkenntnissen meinerSeminararbeit in den Raum Auch ist das der Platz um einen Blick indie Zukunft zu wagen was in Apertium in der naumlchsten Zeit einfliessenwird In dem Zusammenhang sind Chatgespraumlche und Hinweise dieich von (wohl bekannten) Apertium-Entwicklern erhalten habe wert-voll

12 Verwendete Umgebung und KonfigurationAlle meine hier beschriebenen Versuche habe ich auf einem amd64-System durchgefuumlhrt auf das die stabile Debian-Veroumlffentlichung 605(ldquoSqueezerdquo) 2 installiert ist Waumlhrend Apertium bei vielen Distributio-nen von GNULinux paketiert vorliegt gilt das fuumlr das HFST-Frameworknicht dieses wird allerdings benoumltigt um mit morphologisch komple-xen Sprachen zu arbeiten

Will man Apertium zunaumlchst aber nur in den stabilen und fuumlr die Ver-oumlffentlichung herausgegebenen Sprachpaaren testen so kann unter De-bian das Paket apertium installiert werden Zur Installation der Dateienfuumlr eine konkrete (stabile) Uumlbersetzungsrichtung wie z B fr-ca (vonFranzoumlsisch nach Katalanisch) muss zusaumltzlich das Paket apertium-fr-cainstalliert werden In diesem Paket sind die effektiven Lexika in binaumlrerFassung fuumlr diese Sprachrichtung einschliesslich den Transferregelnund anderen benoumltigten Dateien enthalten

2 Debian-Webseite httpwwwdebianorgNews201220120512 (letzter Zugriff08062012)

5

Ist das geschehen kann Apertium auf der Kommandozeile wie folgtgetestet werden

$ echo Jrsquoaime manger du chocolat | apertium fr-ca 1Estima menjar de la xocolata$ echo Ils aiment manger du chocolat | apertium fr-ca 2Estimen menjar de la xocolata

Beide Saumltze 1 3 und 2 4 zeigen auf dass Apertium bei (einfachen)Saumltzen der vorgezeigten Uumlbersetzungsrichtung korrekt arbeitet

Fuumlr weitergehende Versuche insbesondere mit experimentellen Sprach-paaren ist mit den vorkompilierten Paketen aus dem Debian-Paketsystemwenig zu erreichen Fuumlr die meisten der neuesten Sprachpaare wirdApertium in Version 32 benoumltigt 5 Es ist angeraten die aktuellstenPakete manuell zu kompilieren und dem System hinzuzufuumlgen zuletzthabe ich folgende Umgebung auf meinem System erfolgreich getestet

bull Apertium 32 und davon abhaumlngig lttoolbox 32

bull HFST 3311 und davon abhaumlngig OpenFST 132 sowie Foma0916alpha

bull VISL CG-3 0978357

Das meiste Kopfzerbrechen mag HFST bereiten Die Nutzung mit Aper-tium erfolgreich zu konfigurieren erfordert sowohl das ldquoHFST READ-MErdquo auf dem Wiki des Projekts 6 als auch das Apertium-Wiki zumThema HFST 7 zu studieren

Die anderen Pakete (OpenFST Foma und VISL GC-3) sind - den In-struktionen in den jeweiligen README-Dateien befolgend - leicht instal-liert

Wie Apertium selber kompiliert werden kann und beliebige (auch ex-perimentelle) Sprachpaare installiert werden koumlnnen wird ebenfallsim Wiki des Projekts 8 genau erlaumlutert und funktioniert in aller Regelproblemlos Im Falle dass ein Sprachpaar gerade nicht kompilierbarist helfen die Apertium-Entwickler im IRC-Chatkanal 9 apertium aufFreenode 10 meinen Erfahrungen gemaumlss gerne und unkompliziert wei-ter

3 Dt ldquoIch mag es Schokolade zu essenrdquo4 Dt ldquoSie moumlgen es Schokolade zu essenrdquo5 Die juumlngste fuumlr Debian verfuumlgbare Fassung die vorkompiliert paketiert ist stelltVersion 31 dar6 HFST-Wiki httpskitwikicscfitwikibinviewKitWikiHfstReadme(letzter Zugriff 08062012)7 Apertium-Wiki httpwikiapertiumorgwikiHfst (letzter Zugriff08062012)8 Installation von Apertium aus dem SVN-Repository httpwikiapertiumorgwikiApertium_on_UbuntuInstalling_the_newest_version_from_SVN_28more_complicated29 (letzter Zugriff 14062012)9 Internet Relay Chat10 ircircfreenodenetapertium

6

2 Grundlagen Zu Apertiumund HFST

21 Wesen und Entwicklungsstand von ApertiumAn der ersten FreeRBMT-Konferenz1 rekapitulieren Forcada et al [3]2009 unter dem Titel ldquoThe Apertium machine translation plattform fiveyears onrdquo die Entwicklung hin zu einem regelbasierten Uumlbersetzungs-system das schon damals uumlber 20 funktionale Uumlbersetzungsrichtungenaufweist

Was aber war fuumlnf Jahre vorher und was ist jetzt - insgesamt acht Jahrespaumlter

Apertium als solches wurde 2004 als Projekt - finanziert von einemKonsortium aus Staat und Wirtschaft - gegruumlndet um zunaumlchst dieSprachpaare esharrca (Spanisch und Katalanisch) sowie Spanisch undGalicisch als das Paar esharrgl in beidseitige Uumlbersetzungsrichtungen zurealisieren Angesiedelt wurde das Projekt zur Umsetzung an der Uni-versitaumlt von Alicante 2

Zu diesem Zeitpunkt existieren bereits zwei regelbasierte MUuml-Systemedie als Transfersysteme relativ oberflaumlchlich ohne tiefe Syntaxanaly-se zwischen aumlhnlichen Sprachpaaren zu uumlbersetzen faumlhig sind inter-NOSTRUM und Tradutor Universia Dieser Ansatz wird als Shallow-Transfer bezeichnet und bedeutet im einfachsten Fall dass ausser einemlexikalischen Transfer kaum weitere Arbeit fuumlr das System anfaumlllt eineUumlbersetzung relativ erfolgreich zu vollziehen An diesem Ansatz hatsich im Grundsatz nichts geaumlndert Und Dieser Ansatz in seiner ein-fachsten Transferform funktioniert nur fuumlr sehr aumlhnliche Sprachpaaregut Das letztere System (Tradutor Universia) ist spezialisiert auf das

1 Eine Konferenz fuumlr freie RBMT-Systeme httpxixonadlsiuaesfreerbmt09 (letzter Zugriff 14062012)2 Webseite der Universitaumlt httpwwwuaes (letzter Zugriff 14062012)

7

Sprachpaar esharrpt also Spanisch zu Portugiesisch (und umgekehrt) - alssolches ebenso ein Sprachpaar das eine geringe linguistische Distanzaufweist Die groumlssten Unterschiede sind lexikalischer Art

Vor insgesamt acht Jahren wurde angefangen die zwei o g Systeme zuvereinigen Im Zuge dieser Reimplementation wurde auch der Quell-code unter einer freien Lizenz im Sinne der Open Source Initiative 3

veroumlffentlicht Jede Person hat somit die Moumlglichkeit an der Entwick-lung von Apertium mitzuwirken Forcada selber war damals leitendmit dabei und mischt heute weiterhin zentral mit Es sind mittlerweileweitere wichtige Namen in der Apertium-Entwicklung involviert dieals Mentoren 4 fuumlr Interessierte an der Mitarbeit am Projekt fungierenDeren unmittelbare und zeitweise staumlndige Erreichbarkeit kann ich auseigener Erfahrung bestaumltigen

Forcada erwaumlhnt [3] dass fuumlr die Sprachpaare esharrca und es-gl diesprachtechnologischen Ressourcen teils selber (in seinem akademischenUmfeld) erstellt oder - wo moumlglich - aus frei verfuumlgbaren anderen Res-sourcen die frei lizenziert sind bezogen wurden um Apertium initialaufzubauen

Angefangen mit Version 10 welche fuumlr aumlhnliche Sprachpaare wieesharrca und es-pt ausgelegt ist bietet Version 20 bereits die Moumlglich-keit zwischen linguistisch weiter entfernten Sprachen zu uumlbersetzenAls Beispiele hierbei werden frharrca 5 oder enharrca 6 genannt Dafuumlr wur-de der Transferprozess ausgebaut denn es genuumlgt bei diesen Sprachennicht mehr (in vereinfachter Darstellung) die Woumlrter zu ersetzen Einmehrstufiger Strukturtransfer wird erforderlich ohne aber (bis heu-te) eine vollstaumlndige Syntaxanalyse zu betreiben Der juumlngste Major-Versionssprung zur Version 3 markiert dass Apertium vollstaumlndigUNICODE-faumlhig geworden ist und mit allen im Zeichensatz enthalte-nen Symbolen operieren kann

Technologisch setzt Apertium auf bewaumlhrte Technologien Die linguis-tischen Daten sowohl die Lexika als auch die Transferregeln werdenje Sprachpaar in XML-Dateien nach einem klaren Schema abgelegt 7Das erhoumlht die Interoperabilitaumlt zu anderen Systemen die sich diesenRessourcen bedienen moumlchten Ein eigens entwickeltes Toolset exis-tiert (lttoolbox) das die XML-Dateien in ein binaumlres Format uumlberset-zen kann das als ein Finite-State-Transduktor (FST) 8 realisiert wirdAus den Lexika und Transferregeln werden fuumlr jedes Sprachpaar letz-ten Endes drei Transduktoren erstellt welche folgenden drei Bereichengewidmet sind die im Grundsatz den Uumlbersetzungsprozess von Aper-tium ausmachen

3 Webseite der Initiative httpwwwopensourceorg (letzter Zugriff 14062012)4 Apertium-Wiki httpwikiapertiumorgwikiList_of_Apertium_mentors(letzter Zugriff 14062012)5 Franzoumlsisch zu Katalanisch und umgekehrt6 Englisch zu Katalanisch und umgekehrt7 Beispiel der Schemata anhand des Woumlrterbuchschemas httpwikiapertiumorgwikiMonodix_basics (letzter Zugriff 14062012)8 In diesem konkreten Anwendungsfall genauer bekannt als augmented letter trans-ducer

8

1 Lexikalische Analyse (der Quellsprachenwoumlrter)

2 Lexikalischer Transfer (anhand der Wortlemmata mit lexikali-schen Wortmarkierungen)

3 Lexikalische Generierung (der Zielsprachenwoumlrter)

Um die Lemmata fuumlr den Transferprozess erfolgreich lexikalisch zumarkieren sind natuumlrlich Zwischenschritte notwendig wie die morpho-logische Analyse der vorgefundenen Wortform PoS-Tagging 9 zur Wort-artenbestimmung und Word Sense Disambiguation um das (kontextuell)adaumlquate Lemma auszuwaumlhlen und zu taggen Je nach Sprachpaar undSprachbau der involvierten Sprachen ist der dafuumlr erforderliche Auf-wand unterschiedlich gross

Der Einsatz von HFST welcher zur morphologischen Verarbeitung indieser Hinsicht schwieriger Sprachen genutzt wird findet im extensivs-ten Einsatz bei der lexikalischen Analyse (1) und Generierung statt (2) -und das auch nur wenn beide Sprachen der Betrachtung HFST zur mor-phologischen Bewaumlltigung erforderlich machen Ist nur die Quellspra-che morphologisch mit den lttoolbox-Werkzeugen nicht zu bewaumlltigenso findet da der Einsatz von HFST statt ansonsten bei der Zielspra-che In Faumlllen wo sowohl die Zielsprache als auch die Quellsprachegroumlsstenteils mit Konkatenativer Morphologie 10 bewaumlltigt werden kannmacht der Einsatz von HFST wenig Sinn Da wird dann in aller Regellttoolbox fuumlr alles verwendet Das trifft etwa auf alle urspruumlnglichenSprachpaare zu wie ich sie weiter oben erwaumlhnt habe

Apertium ist der UNIX-Philosophie 11 verschrieben dass Programmeim Einzelnen klein und simpel zu sein haben und erst miteinander inInteraktion befindlich Komplexes schaffen sollen Durch das verwen-dete Pipelining kann jeder Analyse- Transfer- und Generierungsschrittin seinem In- und Output genau beobachtet werden Das und die freieVerfuumlgbarkeit des Quellcodes hilft beim Verstaumlndnis der Prozesse un-gemein und macht wissenschaftliche Ergebnisse nachvollziehbar Ge-nauer kann die Pipeline anhand der Abbildung 21 illustriert werden12

Die (relative) Unabhaumlngigkeit der einzelnen Komponenten erlaubt esApertium nur in Teilen zu verwenden z B zum PoS-Tagging eigenerTexte ungeachtet der weitergehenden und (eigentlichen) Hauptfunk-tionalitaumlt der Maschinellen Uumlbersetzung Somit ist Apertium nicht einfach

9 Das PoS-Tagging wird generell statistisch mit trainierten Daten im Einsatz vonHidden-Markov-Modellen (HMM) gemacht oder in Faumlllen wo zu wenig Datenmaterialvorliegt oder der Statistik zugunsten der Linguistik weniger Spielraum gelassen werdensoll faumlllt auf dass auch der Constraint Grammar-Formalismus (CG) eingesetzt wirdDas ist beim Sprachpaar sme-nob das in Kapitel 32 betrachtetet wird der Fall10 Dazu in 31 Genaueres11 Vgl hierzu Wikipedia httpsenwikipediaorgwikiUnix_philosophy(letzter Zugriff 14062012)12 Die schematische Darstellung entspringt den TeX-Quellen der Apertium-Dokumentation fuumlr Version 30 die in Arbeit ist URL httpapertiumsvnsourceforgenetviewvcapertiumbranchesapertium-documentationapertium-30endocumentationtexview=logamppathrev=38833 (letzter Zugriff14062012)

9

Quellsprachedarr

Deform rarr MorphAnal

rarrPoS-Tagging rarr

StruktTrans

rarrMorphGen

rarrPost-Gen

rarr Reform

l darr

LexTrans

Zielsprache

Abbildung 21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen

ein abgeschlossenes MUuml-System im Sinne einer Blackbox sondern ei-ne offene Plattform die hilft freie sprachtechnologische Ressourcen zumehren

Apertium fuumlhrt die Sprachpaare im SVN-Repository 13 abhaumlngig vomEntwicklungsstand in verschiedenen Ordnern

bull In incubator befinden sich kuumlrzlich angesetzte Sprachpaare

bull In nursery befinden sich noch wenig funktionale Sprachpaare

bull In staging befinden sich bereits fortgeschrittene Sprachpaare

bull In trunk befinden sich stabile Sprachpaare die produktiv ge-nutzt werden koumlnnen

Mittlerweile sind im Vergleich zu 2004 zahlreiche weitere Sprachpaa-re hinzukommen entstanden durch Forschungs-Entwicklungsprojektevon Studierenden 14 Arbeiten von Forschungsgruppen an anderenForschungseinrichtungen als Community-Projekte seitens Interessier-ter der Freien Software-Szene und auch mit Entwicklungsunterstuumltzungvon Unternehmen mit kommerziellen Interessen z B Prompsit wel-che Dienstleistungen um Apertium anbietet 15

Zum Zeitpunkt des Abschlusses dieser Arbeit Mitte Juni 201216 befin-den sich 138 () Sprachpaare in incubator 17 28 Sprachpaare in nursery5 Sprachpaare in staging und 37 Sprachpaare in trunk womit rund 40Sprachpaare produktiv genutzt werden koumlnnen Forschungs- und Ent-wicklungsarbeiten hingegen sind schon heute in rund 200 Sprachpaarenmoumlglich und weitere koumlnnen nach Absprache mit den Hauptentwick-lern beliebig hinzugefuumlgt werden

13 SVN-Webview des Repositories httpapertiumsvnsourceforgenetviewvc (letzter Zugriff 14062012)14 Z B im Rahmen des Google Summer of Code (GSoC) httpwikiapertiumorgwikiGoogle_Summer_of_CodeActive_projects (letzter Zugriff 14062012)15 Prompsit-Webseite httpwwwprompsitcomsomos-prompsit (letzter Zu-griff 14062012)16 SVN-Repository des Projekts in Revision 38833 httpapertiumsvnsourceforgenetviewvcapertiumpathrev=38833 (letzter Zugriff 14062012)17 Sowie einige Morphologien im Ansatz die keinem konkreten Sprachpaar gewid-met sind

10

Wichtig fuumlr einen Start sind die freie Verfuumlgbarkeit von Woumlrterbuumlchernund gegebenenfalls Morphologien fuumlr die involvierten Sprachen EineListe solcher Ressourcen fuumlr viele Sprachen wird im Apertium-Wikigefuumlhrt 18

Durch das Hinzukommen von Sprachpaaren deren Sprachen linguis-tisch wenig gemein haben ist der Shallow-Transfer inzwischen staumlrkerausgebaut Fuumlr en-ca (Englisch zu Katalanisch) wird ein dreistufigerStrukturtransfer angewandt in der Reihenfolge Chunking Inter- undPost-Chunking Dabei ist zu beachten dass das Inter-Chunking in (noch)komplexeren Faumlllen mehrstufig sein kann So ist mir das Sprachpaarsme-smj (vom Nordsamischen 32 in das Lulesamische 19) aufgefallen20 das uumlber drei Inter-Chunking-Dateien verfuumlgt 21 die Regeln daruumlberenthalten Chunks (in drei Phasen) zu vertauschen

22 Wesen und Entwicklungsstand von HFSTBeim Helsinki Finite-State Transducer - Framework (HFST) handelt essich um eine in C++ geschriebene Open Source-Softwarekollektion auswelche die Nutzung verschiedener FST-Technologien und -Formalismenheraus einheitlich moumlglich ist die ihrerseits frei (implementiert) verfuumlg-bar sind Es sind dies zum aktuellen Zeitpunkt

bull Die Stuttgart Finite-State Transducer Tools (SFST) mit einer Basis-Unterstuumltzung von Finite-State Transducer mit gewichteten Kan-tenuumlbergaumlngen 22 23

bull Das Foma-Paket das eine freie Implementation der XFSTLEXC-Formalismen darstellt gewichtete Transduktoren koumlnnen nichterstellt werden 24

bull Die OpenFST-Bibliothek es wird die Schaffung von Finite-StateTransducer mit gewichteten Kantenuumlbergaumlngen unterstuumltzt 25

Insbesondere bietet HFST das Tool hfst-twolc an das einen Two-LevelRule Compiler fuumlr den Xerox-TWOLC-Formalismus darstellt Damitkoumlnnen Transduktoren erstellt werden die eine parallele Ersetzung so-wohl der Ober- als auch der Unterseite des Transduktors gleichzeitigerlauben Die Reihenfolge der entsprechenden Deklarationen ist damit

18 Apertium-Wiki httpwikiapertiumorgwikiSpecific_resources_per_language (letzter Zugriff 14062012)19 Ethnologue-Eintrag fuumlr smj httpswwwethnologuecomshow_languageaspcode=smj (letzter Zugriff 14062012)20 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-sme-smj (letzter Zugriff 14062012)21 Die Dateien mit den Endungen ldquot2xrdquo ldquot3xrdquo und ldquot4xrdquo - besonderes Augenmerkkann auf den Bereich ab ltsection-rulesgt gelegt werden22 Webseite httpwwwimsuni-stuttgartdeprojektegramotronSOFTWARESFSThtml (letzter Zugriff 14062012)23 Gemaumlss Angaben von Francis M Tyers im IRC wird auf diese Tools den entspre-chenden Bibliotheken in Apertium kaum zugegriffen24 Dateien mit Endungen ldquoxfstrdquo ldquofomardquo und ldquolexcrdquo werden in aller Regel damitverarbeitet25 Dateien mit Endungen ldquotwolrdquo werden damit prozessiert wobei von gewichtetenKantenuumlbergaumlngen kein Gebrauch gemacht wird

11

unwichtig Im Gegensatz dazu muss beim (klassischen) Xerox Finite-State Tools-Formalismus (XFST) welcher Foma als Compiler frei imple-mentiert der Reihenfolge der Deklarationen Beachtung geschenkt wer-den weil es sich beim XFST-Formalismus um Rewriting-Regeln handeltdie sequentiell immer nur auf die Unterseite (bzw dem ldquozweitenrdquo oderldquorechtenrdquo Band) des Transduktors angewandt werden

Eine umfassende Einfuumlhrung von Finite-State-Automaten und -Transduktorenwuumlrde den Rahmen dieser Arbeit sprengen es sei allerdings darauf hin-gewiesen dass im Apertium-Wiki26 das Thema im Zusammenhang mitden morphologischen Woumlrterbuumlcher die mittels den eigenen lttoolbox-Werkzeugen erstellt werden ausreichend eingefuumlhrt wird

Auf der Seite wird ebenfalls plausibel erklaumlrt dass es zur Uumlbersichtlich-keit und dem Verstaumlndnis der Morphologie beitraumlgt die Deklarationderselben von den Algorithmen zu trennen die sie umsetzen Sowohlder lttoolbox-Formalismus als auch die Formalismen die durch dasHFST-Framework unterstuumltzt werden erfordern die blosse Deklarati-on der Morphologie ohne dass man sich um die (effiziente) Verarbei-tung der Ausdruumlcke selber kuumlmmern muss Die prozeduralen Schritteerledigen lttoolbox und HFST bei der Verarbeitung der jeweiligen De-klarationen in den Dateien 27 selbststaumlndig Damit wird eine Trennungvon morphologischer Deklaration und Programmcode erreicht

Das ist aumlhnlich wie bei der deklarativen (logischen) Programmierspra-che Prolog wo sich die Inferenzmaschine eigenstaumlndig um die effizienteBeweisfuumlhrung des Ziels (engl des ldquogoalsrdquo) kuumlmmert Das Gegenteildieses Ansatzes wird auf der Webseite mit Python-Code demonstriertwelcher im gegebenen Beispiel dafuumlr verwendet wird das Wort ldquobeerrdquound ldquobeersrdquo morphologisch zu analysieren - als ein Substantiv das imSingular oder Plural steht Das wird durch prozedurale Schritte direkterledigt Bei der Implementation sprachvollstaumlndiger Morphologien aufdiese Art gestaltet sich die Wartung der Morphologie als tendenziell un-uumlbersichtlich Hinzu koumlnnen sich bei einem solchen Ansatz in schlechterImplementation Laufzeitprobleme gesellenDer wichtigste Vorteil aber bleibt bis hierhin unerwaumlhnt Transdukto-ren koumlnnen nicht nur zur Analyse von Wortformen in ihre Lemmatasamt lexikalischer Markierungen genutzt werden 28 sondern markierteLemmata (im gegebenen Format) koumlnnen zur Generierung von Wortfor-men genutzt werden 29 In einer prozeduralen Implementation muumlsstesowohl Programmcode fuumlr die Generierung als auch (separat) fuumlr dieAnalyse geschrieben werden Das ist umstaumlndlich

26 Vgl das Apertium-Wiki httpwikiapertiumorgwikiMorphological_dictionaries (letzter Zugriff 14062012)27 Es handelt sich fuumlr Dateien die durch lttoolbox prozessiert werden um die Datei-en in den Ordner der Sprachpaare mit den Endungen ldquodixrdquo fuumlr das morphologischeWoumlrterbuch ldquot1xrdquo bis (maximal) ldquot5xrdquo (je nach Anzahl der Stufen) fuumlr die Transferre-geln und gegebenenfalls den ldquolexcrdquo- und ldquotwolrdquo-Dateien falls bei einer involviertenSprache die Morphologie durch HFST erfasst wird In wenigen Faumlllen sind auch ldquoxfstrdquo-oder ldquofomardquo-Dateien anzutreffen28 Der Transduktor wird in einem solchen Fall in der Regel von links nach rechtsbzw von oben nach unten angewandt29 Der Transduktor wird von rechts nach links bzw von unten nach oben angewandt

12

Ein praktisches Beispiel der Nutzung der resultierenden Transdukto-ren zur Analyse oder Generierung liefert das Apertium-Wiki auf derSeite uumlber lttoolbox 30

Falls bei einer speziellen Anwendung mit Apertium eine (im Einzelfall)weitergehende prozedurale Verarbeitung der Ausgabe aus den Trans-duktoren notwendig wird dann besteht die Moumlglichkeit HFST aus zB Python heraus zu nutzen 31

30 Vgl Apertium-Wiki httpwikiapertiumorgwikiLttoolbox (letzter Zu-griff 14062012)31 Vgl Beitrag auf der nltk-dev-Mailingliste httpsgroupsgooglecomgroupnltk-devbrowse_threadthreadfdb53482cad56234 (letzter Zugriff 14062012)

13

3 Hauptteil Die Integrationvon HFST in Apertium

31 Theorie Zweck und Nutzen der IntegrationFinite-State-Technologien koumlnnen in der Computerlinguistik dafuumlr ge-nutzt werden um Woumlrterbuumlcher elegant aufzubauen oder die mor-phologische Analyse und Generierung von Woumlrtern systematisch zubetreiben und das insbesondere auch in Faumlllen wo die Morphologie derbetrachteten Sprache nicht relativ einfach durch z B Prauml- oder Suffixe(also konkatenativ durch rsquoAneinanderreihenrsquo von Morphemen) erfasstwerden kann sondern gerade auch in Faumlllen wo auch andere Affixewie Infixe zur Anwendung kommen

Nicht mehr simpel sind Morphologien beispielsweise in Faumlllen wo esfuumlr gegebene Wortstaumlmme 1 Faumllle gibt wo Morpheme fuumlr eine Flexi-on inmitten des Stamms eingepflanzt werden muumlssen oder wo Vokaleinmitten von Staumlmmen wegfallen oder durch andere ersetzt werdenmuumlssen um guumlltige Wortformen analysieren oder generieren zu koumln-nen Morphologien fuumlr Sprachen die komplexe Anpassungen an Staumlm-men oder fortgesetzten Wortklassen in bestimmten (z B grammatikali-schen) Faumlllen erfordern werden auch Nicht-Konkatenative Morphologien(NKM) (vgl Clematide 2007 104ff) genannt oder zumindest waumlre dieKonkatenation nach vorwiegend erkennbaren systematischen Regelnder betrachteten Sprache nicht mehr (sinnvoll) nachvollziehbar wuumlrdeman eine Konkatenative Morphologie erzwingen wollen ebenfalls ist dieGefahr von Redundanz sehr hoch wenn jeder nur denkbare Stamm ineine Morphologie einfliesst

Eine saubere Morphologie mit klaren Regeln und in (moumlglichst) schlan-ker Ausfuumlhrung ist eine Anforderung von der gerade ein MaschinellesUumlbersetzungssystem wie Apertium fundamental profitiert um schnell zu

1 Minimaloberflaumlche von Woumlrtern aus der durch Morpheme die vor- um - oderangehaumlngt werden koumlnnen weitere wichtige (weitere) Wortformen entstehen

14

arbeiten und (linguistisch nachvollziehbar) gepflegt werden zu koumlnnen

Wie bereits in Kapitel 21 angedeutet ist es nicht erst das HFST-Frameworkdas Finite-State-Technologien in Apertium einfuumlhrt Die lexikalischenWerkzeuge lttoolbox mit Anwendungen wie lt-comp 2 oder lt-proc 3

werden dazu genutzt die in XML abgefassten Woumlrterbuumlcher in Trans-duktoren umzuwandeln - fuumlr eine schnellere Verarbeitung Mit denMoumlglichkeiten verglichen die das HFST-Framework liefert sind die lt-toolbox-Werkezuge am ehesten mit dem LEXC-Formalismus vergleich-bar welcher Foma beherrscht und auf die Idee fusst Woumlrterbuumlcher an-hand von Staumlmmen (von z B Verben oder Nomen) anhand von Fort-setzungsklassen (durch das Anhaumlngen von Morphemen) aufzubauenSimon Clematide fuumlhrt auch das in seinem Vorlesungsskript von 2007(93ff) genauer aus Darin ist es moumlglich die Morphotaktik der Sprachezu erfassen Schwieriger umzusetzen mit diesen Apertium-Bordmittelnist die Morphophonemik worunter Lautanpassungen oder die Infigierung 4

fallen Diese (u U seltenen aber fuumlr die Korrektheit notwendigen) An-passungen der Morphotaktik berechtigen den Beizug zusaumltzlicher (wohlbekannter und anerkannter) Formalismen wie XFST 5 oder TWOLC

Die wenigsten natuumlrlichen Sprachen sind (vollstaumlndig) KonkatenativerMorphologie Im Rahmen einer kuumlrzlichen Veranstaltung zu Finite-State-Methoden (bei Simon Clematide) haben Simon Hafner und ich die Moumlg-lichkeit erhalten eine (konzeptionelle) Morphologie 6 fuumlr die Planspra-che ldquoKlingonischrdquo 7 anzulegen Diese laumlsst sich tatsaumlchlich fast vollstaumln-dig mit Fortsetzungsklassen auf Basis der Wortstaumlmme und anzuhaumln-genden Morphemen und damit dem LEXC-Formalismus erfassen istaber auch nur ein akademisches Beispiel einer Sprache wo es nie zu(natuumlrlichen) Lautverschiebungen oder anderen komplexen Phaumlnome-nen kam

Die Dokumentation daruumlber wie HFST in Apertium genau genutztwird ist spaumlrlich Gerade in der Apertium-Dokumentation (aktuellnachgefuumlhrt und veroumlffentlicht bis Version 20) seitens Forcada et al[2] wird nichts uumlber die Nutzung von HFST ausgesagt - auch nicht inden neuesten (versionskontrollierten) Fassungen8 im SVN-Repository

Gluumlcklicherweise waren wichtige Apertium-Entwickler mir eine grosseHilfe dabei die noumltigen Einstiegspunkte zu finden Ein Beispiel einer ty-pischen Hilfeleistung ist im Anhang als ldquoIRC-Konversation zu HFSTrdquo9 zu finden die ich mit freundlicher Unterstuumltzung der involviertenPersonen in dieser Seminararbeit in der Form publizieren darf

2 Zur Kompilation von Woumlrterbuumlchern von einem XML- in ein FST-Format3 Zur Prozessierung der Daten im vorgaumlngig generierten FST-Format und der Aus-gabe in einem menschenlesbaren lexikalischen Tagging-Format4 Einfuumlgen eines Affixes in einen Wortstamm auch Infix genannt5 Von Foma implementiert6 Code und Anwendungsbeispiele bei github im git-Repository httpsgithubcom2mhklingomorph (letzter Zugriff 14062012)7 Ethnologue-Eintrag tlh httpswwwethnologuecomshow_languageaspcode=tlh (letzter Zugriff 14062012)8 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-documentationapertium-20en (letzter Zugriff 12062012)9 Siehe Anhang auf Seite 26

15

Zudem Es sind im Apertium-Wiki Informationen daruumlber vorhandenwie ein neues Sprachpaar fuumlr die Nutzung mit HFST angelegt werdenkann 10 Beim gegebenen Beispiel wird schematisch das Sprachpaar tur-tuk angesetzt (real im SVN-Repository existiert das Sprachpaar tuk-tur11) wobei tuk 12fuumlr Turkmenisch und tur 13 fuumlr Tuumlrkisch steht

Generell wird bei Sprachpaaren die mit HFST analysiert (und gene-riert) werden versucht den lexikalischen Transfer moumlglichst auf Ba-sis der Morpheme vorzunehmen Idealerweise kann der groumlsste Teilim LEXC-Formalismus abgedeckt werden Wo das nicht (im Ansatz)gelingt werden TWOLC-Regeln definiert welche die noumltigen Anpas-sungen an den lexikalischen Markierungen und Oberflaumlchenformen derWoumlrter vornehmen

Gruumlnde weshalb TWOLC- gegenuumlber XFST-Deklarationen bevorzugtwerden sind gemaumlss wichtigen Apertium-Entwicklern 14 (1) das uumlber-sichtlichere Format und (2) die einfachere Handhabung von linguisti-schen Phaumlnomenen wie der Vokalharmonie mit dem TWOLC-Formalismus

Ein weiterer wichtiger Grund welcher die mangelnde Verbreitung desXFST-Formalismus bei Apertium erklaumlrt ist vermutlich auch dass Fo-ma erst seit Version 30 von HFST (veroumlffentlicht in 2011) vollstaumlndigunterstuumltzt wird

32 Empirie Die Integration am Beispiel eines SprachpaarsDaruumlber wie ein neues Sprachpaar unter Nutzung von HFST zu Aper-tium hinzugefuumlgt werden kann gibt ein Wiki-Artikel 15 Auskunft ImSinne eines Tutorials wird dabei Schritt fuumlr Schritt im Ansatz gezeigtwie die Implementation einer RBMT von der Turkmenischen Spracheins Tuumlrkische (Sprachpaar tk-tr) umgesetzt werden kann Bei beidenverwandten Sprachen handelt es sich um stark agglutinierende Spra-chen

Das (wissenschaftlich) am besten dokumentierte Beispiel der Nutzungvon HFST im Zusammenhang mit Apertium wird im noch nicht pu-blizierten Paper ldquoEvaluating North Saacutemi to Norwegian assimilationRBMTrdquo [4] beschrieben das von Trond Trosterud und seinem Kollegen

10 Vgl hierzu httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 12062012)11 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-tuk-tur (letzter Zugriff 12062012)12 Ethnologue-Eintrag fuumlr tuk httpswwwethnologuecomshow_languageaspcode=tuk (letzter Zugriff 12062012)13 Ethnologue-Eintrag fuumlr tur httpswwwethnologuecomshow_languageaspcode=tur (letzter Zugriff 12062012)14 Gemaumlss Francis M Tyers und Jonathan North Washington im IRC15 Apertium-Wiki httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 11062012)

16

Kevin Brubeck Unhammer Mitte Juni 2012 an der FreeRBMT 2012 erst-mals oumlffentlich vorgetragen wird 16

Die Nordsamische Sprache 17 (sme) verfuumlgt uumlber geschaumltzte 15rsquo000 bis25rsquo000 Sprecher und wird in Norwegen Schweden und Finnland ge-sprochen Die Sprache wird von den Autoren als stark flektierend undagglutinierend eingeteilt

Die Standardvarietaumlt 18 des Norwegischen in die uumlbersetzt wird ver-fuumlgt gemaumlss Ethnologue 19 uumlber rund 45 Millionen Sprecher und gehoumlrtder indogermanischen Sprachfamilie an Die Sprache wird von Troste-rud und Unhammer [4] als morphologisch wenig komplex angegeben

Dieses Sprachpaar gehoumlrt zu den wenigen wo eine indoeuropaumlische(oder -germanische) Sprache unter Einsatz von HFST mit Apertiumuumlbersetzt wird

Bei den meisten anderen Sprachpaaren wo HFST genutzt wird han-delt es sich beidseitig um Sprachen mit komplexer Morphologie

Bezuumlglich des Sprachpaars unserer Betrachtung fokussieren die Auto-ren auf die Uumlbersetzungsrichtung ins Norwegische weil der Anspruchbloss ist dass Nur-Norwegischsprechende Texte aus dem Nordsami-schen verstehen koumlnnen sollen Umgekehrt wuumlrden die meisten Spre-cher des Nordsamischen bereits Norwegisch verstehen womit der Nut-zen der umgekehrten Uumlbersetzungsrichtung als (zum aktuellen Zeit-punkt) gering eingeschaumltzt wird

Als Motivation fuumlr den Einsatz von HFST gegenuumlber lttoolbox wirdbeispielhaft der Stufenwechsel der Konsonanten des Nordsamischen inQuantitaumlt als auch Qualitaumlt angefuumlhrt 20 Generalisiert betrachtet befuumlr-worten die Autoren die Verwendung von HFST wenn Morphologienzu verarbeiten sind die nicht rein konkatenativ sind - wie ich in Kapitel31 zum Zweck von HFST bereits ausgefuumlhrt habe

Grundsaumltzlich wird gemaumlss Entwickler Unhammer 21 (schematisch) diefolgende UNIX-Pipeline fuumlr sme-nob angewandt

$ echo words|hfst-proc sme-analyserhfst|| 1lt-proc sme-to-nob-dixbin|| 2lt-proc nob-generator-dixbin 3

Im Falle von sme-nob wird HFST alleine fuumlr die Analyse (1) von smegenutzt dann wird wieder generell auf lttoolbox gesetzt in wichtigsterHinsicht im Rahmen des lexikalischen Transfers (2) und der Generierung

16 Information gemaumlss einem Gespraumlch mit Kevin Brubeck Unhammer im IRC Kon-ferenzseite mit Programm httpwwwmolto-projecteufreerbmt-programhtml(letzter Zugriff 14062012)17 Engl ldquoNorth Saacutemirdquo18 Als Buchsprache ldquoBokmaringlrdquo19 Ethnologue-Eintrag zu den Sprachen Norwegens httpswwwethnologuecomshow_countryaspname=no (letzter Zugriff 11062012)20 Vgl hierzu Wikipedia httpsdewikipediaorgwikiStufenwechsel (letzterZugriff 14062012)21 Chatgespraumlch im IRC

17

(3) der Zielsprache nob

Der morphologische sme-Analyzer ist dabei in den Formalismen LEXCund TWOLC geschrieben und fusst auf bereits verfuumlgbare Ressourcen22 zuruumlck was aufzeigt dass HFST im Einsatz fuumlr Apertium auch des-halb interessant ist weil viele Morphologien bereits existieren die inFormalismen geschrieben sind die HFST verarbeiten kann Fuumlr dasAnlegen vieler Sprachpaare ist es nicht notwendig alles from scratch zubeginnen

Auch beim nob-Generator konnte auf (eigene fruumlhere) Ressourcen zu-ruumlckgegriffen werden wie diese im Sprachpaar nn-nb 23 verfuumlgbar sindbei dem Sprachpaar wird zwischen zwei norwegischen Sprachverietauml-ten uumlbersetzt Wichtig ist noch einmal zu betonen dass der nob-Teil (zurGeneration der Norwegischen Wortformen) auf lttoolbox setzt und mitHFST nichts zu schaffen hat

Interessant ist der Einsatz der von Trosterud und Unhammer von Grundauf selber geschriebene Constraint Grammar (CG) 24 zur Wortartendisam-biguierung in dem die Auswahl der Woumlrter (fuumlr die Zielsprache) anhandvon (lokalen) grammatikalischen Kontexten (in der Quellsprache) ge-schieht Das ist auch der Grund weshalb ich eingangs in Kapitel 12VISL CG-3 als obligat zu installierendes Paket anfuumlhre Ohne dieseSoftware ist es nicht moumlglich das Sprachpaar sme-nob zu kompilieren25

Zwischen der morphologischen Analyse (von sme) und der morphologischenGenerierung von nob findet der strukturelle Transfer statt der 4-phasig istdie Autoren Trosterud und Unhammer machen hierbei folgende Anga-ben

1 63 Chunk-Regeln (t1x-Datei)

2 26 Interchunk1-Regeln (t2x-Datei)

3 39 Interchunk2-Regeln (t3x-Datei)

4 29 Postchunk-Regeln (t4x-Datei)

Es reicht also nicht bloss aus Wortformen oder Morpheme zu ersetzensondern es sind komplexe Verschiebungen der markierten Lemmata

22 SVN-Repository des Giellatekno-Projekts httpsvictoriouitnolangtechtrunkgtsme (letzter Zugriff 14062012)23 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-nn-nb (letzter Zugriff 14062012)24 Vgl fuumlr einen kurzen Uumlberblick eine CLab-Seite httpkittcluzhchclabconstraintGrammarilap_visl (letzter Zugriff 14062012)25 Zu erwaumlhnen ist in dem Zusammenhang dass bei den meisten SprachpaarenHidden-Markov-Modelle zum Einsatz kommen um die Wortarten zu bestimmen da-fuumlr wird Sprachmaterial trainiert Im Falle von sme-nob deuten die Autoren allerdingsdarauf hin dass mangels repraumlsentativen Sprachmaterials diese Option keine ist diebefriedigen kann Sie stellen allerdings in Aussicht dass eine Kombination von lin-guistischen CG- und statistischen HMM-Ansaumltzen ein Versuch wert waumlre Dabei wuumlrdezuerst mittels CG ein Kontext eingegrenzt und danach statistisch verfahren

18

notwendig um in das Norwegische zu uumlbersetzen obschon beide Spra-chen der Subjekt-Verb-Objekt-Satzstellung sind

Die Evaluationsergebnisse der Autoren deuten darauf hin dass dasSprachpaar sme-nob funktionalen Charakter hat Post-Editing-Qualitaumltist nicht das Ziel und wird auch nicht erreicht allerdings koumlnnen Nor-wegischsprechende die kein Nordsamisch verstehen in vielen Faumlllenausmachen was die Bedeutung eines Satzes ist - insbesondere dannwenn er kontextualisiert vorliegt

Im Folgenden soll eine praktische Nutzung des Sprachpaars sme-nobin Apertium illustriert werden Als Beispiel diene der einleitende Be-gruumlssungssatz zur Nordsamischen Wikipedia 26 ausgewaumlhlt

$ echo rsquoBures boahtin Wikipediai friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen til Wikipedia til den frie informasjonsordboken

Die resultierende nob-Uumlbersetzung lautet gemaumlss Google Translate 27

auf Deutsch

Willkommen bei Wikipedia dem freien Woumlrterbuch Infor-mationen

Die Uumlbersetzung ist verstaumlndlich abgesehen von der Semantik des Aus-drucks ldquoWoumlrterbuch Informationenrdquo Hier sollte meiner Ansicht nachldquoEnzyklopaumldierdquo stehen Es ist wahrscheinlich dass bereits die Quellenicht den optimalen Begriff fuumlhrt und da das eigentliche Problem liegt

Interessanter ist was passiert wenn wir das ominoumlse i-Suffix bei ldquoWi-kipediairdquo im Nordsamischen entfernen

$ echo rsquoBures boahtin Wikipedia friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen Wikipedia til den frie informasjonsordboken

Wir koumlnnen feststellen dass der Satz einen anderen personalen Bezugherstellt denn gemaumlss Google Translate 28 bedeutet die zweite nob-Uumlbersetzung auf Deutsch

Willkommen Wikipedia dem freien Woumlrterbuch Informa-tionen

Wir werden nun also als ldquoWikipediardquo angesprochen

26 Webseite httpssewikipediaorgwikiVC3A1ldosiidu (letzter Zugriff14062012)27 Vgl hierzu httptranslategooglecomno|de|Velkommen20til20Wikipedia2C20til20den20frie20informasjonsordboken (letzter Zugriff14062012)28 Vgl hierzu httptranslategooglecomno|de|0AVelkommen20Wikipedia2C20til20den20frie20informasjonsordbokenmskip-thinmuskip (letzter Zugriff 14062012)

19

Eine morphologische Analyse der beiden Wortformen ldquoWikipediardquo undldquoWikipediairdquo erhaumlrtet die Vermutungen dass es sich beim i-Suffix umeinen Illativ 29 handelt einem Lokalkasus der dazu genutzt werdenkann eine ldquoHineinbewegungrdquo auszudruumlcken respektive in diesem Falldie entsprechende Praumlposition ldquoaufrdquo in das Substantiv der Named En-tity ldquoWikipediardquo einzugliedern

$ echo Wikipedia | apertium -d sme-nob-morph1^WikipediaWikipedialtNgtltPropgtltOrggtltSggtltAccgtWikipedialtNgtltPropgtltOrggtltSggtltGengtWikipedialtNgtltPropgtltOrggtltSggtltNomgt$^ltCLBgt$

2$ echo Wikipediai | apertium -d sme-nob-morph^WikipediaiWikipedialtNgtltPropgtltOrggtltSggtltIllgt$^ltCLBgt$

Bei Analyse 1 wird ldquoWikipediardquo als ein Substantiv eine Named Entityund (semantisch) als Organisation im Singular markiert Uneinigkeitherrscht fuumlr den Tagger auf dieser Transferstufe noch uumlber den KasusEs ist nicht klar ob ldquoWikipediardquo im Nominativ Akkusativ oder Genitivsteht Das Symbol ltCLBgt steht fuumlr ldquoClause Boundaryrdquo und spielt insbe-sondere fuumlr den Chunker (im Zuge des spaumlteren Transfers) eine Rolle zB zur (groben) Abgrenzung von Nominal- und Verbalphrasen

Analyse 2 faumlllt knapper aus da der Kasusfall keine Rolle mehr spielt -an dessen Stelle tritt nun der Illativ (Symbol ltIllgt) Der Rest bleibt sichgleich

Da aber die Illativ-Markierung in diesem spezifischen Fall auf dernob-Seite zur Oberflaumlchengenerierung des norwegischen Wortes ldquotilrdquo30 fuumlhrt aumlndert sich die Semantik des Satzes merklich

Der Transferprozess bei Apertium kann generell beliebig fein beobach-tet werden fuumlr unser spezifisches Sprachpaar sme-nob sei fuumlr weitereVersuche auf das Apertium-Wiki 31 verwiesen das extensiv Informa-tionen daruumlber fuumlhrt

Es existieren weitere interessante Sprachpaare bei der nur eine Sei-te jeweils stark agglutierend ist und auf entsprechende Formalismen(LEXC- und TWOLC-Formalismen) zuruumlckgegriffen wird So etwa die

29 Vgl Wikipedia httpsdewikipediaorgwikiIllativ (letzter Zugriff14062012)30 Dt ldquoaufrdquo31 httpwikiapertiumorgwikiNorthern_SC3A1mi_and_Norwegian (letzterZugriff 14062012)

20

Sprachpaare quz-spa (Quecha-Castellano) 32 udm-rus (Udmuritische Sprache-Russisch) 33 und kaz-eng (Kasachisch-Englisch) 34 Noch ist der Entwick-lungsstand all dieser Uumlbersetzungsrichtungen aber gering und fuumlr einenproduktiven Einsatz oder eine Evaluation demnach ungeeignet 35

32 Apertium-Wikiseite httpwikiapertiumorgwikiQuechua_cuzqueC3B1o_y_castellano (letzter Zugriff 14062012)33 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-udm-rus (letzter Zugriff 14062012)34 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumincubatorapertium-eng-kaz (letzter Zugriff 14062012)35 Alle drei Sprachpaare sind in den SVN-Ordnern incubator oder nursery un-tergebracht

21

4 Schluss

41 Zusammenfassung und AusblickIn abschliessender Betrachtung ist festzuhalten Die Nutzung von HFSTverleiht Apertium die Faumlhigkeit zu und von Sprachen mit (stark) Nicht-Konkatenativer Morphologie zu uumlbersetzen Dafuumlr muumlssen die Aperti-um-eigenen lttoolbox-Werkzeuge umgangen werden die ansonstenzur morphologischen Analyse und morphologischen Generierung von Wort-formen verwendet werden Der Einsatz von HFST liefert aber keinenMehrwert an anderen Stellen in der Transfer-Pipeline Der lexikalischeTransfer oder strukturelle Anpassungen um der Syntax der Zielsprachenaumlher zu kommen sind Schritte fuumlr die sich die lttoolbox-Werkzeugeweiterhin bewaumlhren

Diskutiert wird eine staumlrkere Integration von HFST in Apertium damitHFST nicht laumlnger der Charakter eines ldquoFremdkoumlrpersrdquo in der Aper-tium-Plattform anhaftet Es existiert die Idee ein Projekt in diese Rich-tung anzustossen um es z B moumlglich zu machen lexc-Dateien anstattmit den HFST-Binaries mit den lttoolbox-Kommandos zu prozessierenDieses Projekt koumlnnte von einem interessierten Studierenden etwa imRahmen des naumlchsten Google Summer of Code (2013) initiiert werden 1

Ein weitere Herausforderung die in der Natur von Apertium als Shallow-Transfer-System begruumlndet liegt 2 hat mit den Bilexika zu tun Apertiummuss fuumlr jedes Sprachpaar ein Bilexikon fuumlhren um den lexikalischenTransfer mittels den lttoolbox-Werkzeugen zu vollziehen Da fuumlr jedeneue Sprachkombination das Bilexikon neu aufgebaut werden mussbesteht hier ein gewisser (manueller) Aufwand bei jedem neuen Sprach-paar das angesetzt wird dieser kann zwar durch Einsatz von Werkzeu-ge aus den apertium-dixtools minimiert werden die Vollautomation

1 Idee zum Projekt httpwikiapertiumorgwikiIdeas_for_Google_Summer_of_CodeCloser_integration_with_HFST (letzter Zugriff 14062012)2 Apertium verwendet keinen sog Interlingua-Ansatz um eine sprachunabhaumlngigeRepraumlsentation von Wortbedeutungen zu fuumlhren

22

funktioniert aber noch nicht 3 4

Weiterhin bleibt Apertium im Grundsatz ein Shallow-Transfer-Systemdas keinen vollstaumlndigen Parse der Quellsprache vornimmt und sietiefen-analysiert Dadurch ist es auch in Zukunft nicht breit moumlglichSemantik uumlber weite Distanzen zu transferieren

Bezuumlglich weiterer Moumlglichkeiten fuumlr Apertium morphologisch zu ana-lysieren generieren kann das Augenmerk auch auf neuere Formalis-men als jene von Xerox 5 gelegt werden So existiert hunmorph 6 dases erlaubt in OCaml 7 - in einem objekt-orientierten Paradigma - Mor-phologien zu beschreiben und dazu eine (relativ) einfache Syntax auf-zuweisen scheint Beispiele explorativer Versuche mit hunmorph fuumlrApertium sind im Wiki des Projekts bereits heute dokumentiert 8 Aus-serdem ist hunmoph morphologisch-analytische Basis des bekanntenSpellcheckers HunSpell das der standardmaumlssige Spellchecker in Libre-Office OpenOfficeorg und einigen Softwareprodukten der MozillaFoundation ist 9

Selber hat es mir Freude bereitet mich in dieses komplexe Gebiet hin-ein zu begeben und ich bin fuumlr die Zukunft interessiert daran michan Apertium nach Kraumlften zu beteiligen da ich die dahinterstehendeCommunity als eine kennen gelernt habe die aufgeschlossen humor-voll und im houmlchsten Masse kompetent ist

42 DanksagungenIch moumlchte mich an dieser Stelle herzlichst im Besonderen bei folgen-den Personen des Apertium-Projekts bedanken dass sie sich Zeit ge-nommen haben sich mit mir im IRC ausgiebig zu unterhalten und denDschungel in und um Apertium zu durchleuchten Mikel L ForcadaFrancis M Tyers Kevin Brubeck Unhammer und Jonathan North Wa-shington

Ohne sie waumlre diese Arbeit in der Form nicht entstanden und vielesQuellmaterial das ich hier verwende schwierg auffindbar gewesen

3 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-dixtools (letzter Zugriff 14062012)4 Vgl hierzu httpwikiapertiumorgwikiCrossdics (letzter Zugriff14062012)5 Namentlich XFST TWOLC und LEXC6 Webseite httpmokkbmehuresourceshunmorph (letzter Zugriff 14062012)7 Webseite httpcamlinriafr (letzter Zugriff 14062012)8 Apertium-Wiki httpwikiapertiumorgwikiHunmorph (letzter Zugriff14062012)9 Webseite httphunspellsourceforgenet (letzter Zugriff 14062012)

23

Literaturverzeichnis

[1] S Clematide Morphologie und Lexikographie Vorlesungs-skript Institut fuumlr Computerlinguistik Universitaumlt Zuumlrich 2007URL httpfilesifiuzhchclsiclematlehress07mulscriptscriptpdf

[2] ML Forcada BI Bonev S Ortiz-Rojas JA Peacuterez-OrtizG Ramiacuterez-Saacutenchez F Saacutenchez-Martiacutenez C Armentano-OllerMA Montava FM Tyers und U dA Departament de Llenguatges iSistemes Informagravetics Documentation of the open-source shallow-transfer machine translation platform apertium 2010 URL httpxixonadlsiuaes~franapertium2-documentationpdf

[3] ML Forcada FM Tyers und G Ramiacuterez-Saacutenchez The Apertiummachine translation platform five years on In Proceedings of the FirstInternational Workshop on FreeOpen-Source Rule-Based Machine Trans-lation 3ndash10 2009 URL httpxixonadlsiuaesfreerbmt09presentationsforcada_freerbmt09_5yrsonpdf

[4] T Trosterud und KB Unhammer Evaluating North Saacutemi to Nor-wegian assimilation RBMT In Proceedings of the Third InternationalWorkshop on FreeOpen-Source Rule-Based Machine Translation 2012URL httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-sme-nobpaperpathrev=38833 (noch kein of-fizielles Paper (im PDF) verfuumlgbar)

24

Abbildungsverzeichnis

21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen 10

25

Anhang

IRC-Konversation zu HFSTTypisches Beispiel einer Konversation 10 mit Jonathan North Washing-ton (ldquofirespeakerrdquo) und Mikel L Forcada (ldquomlforcadardquo) welche we-sentliche Beitraumlge zu Apertium leisten gefuumlhrt im IRC 11

1921 lt h2mgt At which stage of the pipeline is HFST employed1921 lt h2mgt I couldnrsquot get that1921 lt mlforcadagt h2m generation of Kazakh[]1922 lt h2mgt Is this process described somewhere in detailsuch that I can read that up1922 lt mlforcadagt is something that looks like lttoolbox butmore powerful1922 lt mlforcadagt h2m firespeaker can help probably1922 lt h2mgt I can only see lexc and twol files wo reallygetting the point[]1922 lt firespeakergt h2m HFST takes a string of text and turnsit into lemmas + tags1922 lt firespeakergt h2m or1922 lt firespeakergt h2m it takes lemmas + tags and turns itinto a string of text[]1923 lt firespeakergt h2m lexc is the morphotactics1923 lt mlforcadagt firespeaker yoursquore right1923 lt h2mgt Ah OK1923 lt firespeakergt h2m twol is the morphophonology

10 Selber bin ich als ldquoh2mrdquo unterwegs11 ircircfreenodenetapertium

26

  • Einfuumlhrung
    • Motivation und Thema
    • Verwendete Umgebung und Konfiguration
      • Grundlagen Zu Apertium und HFST
        • Wesen und Entwicklungsstand von Apertium
        • Wesen und Entwicklungsstand von HFST
          • Hauptteil Die Integration von HFST in Apertium
            • Theorie Zweck und Nutzen der Integration
            • Empirie Die Integration am Beispiel eines Sprachpaars
              • Schluss
                • Zusammenfassung und Ausblick
                • Danksagungen
                  • Literaturverzeichnis
                  • Abbildungsverzeichnis
                  • Anhang
Page 4: Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

1 Einfuumlhrung

11 Motivation und ThemaIm Rahmen des Seminars ldquoMaschinelle Uumlbersetzungrdquo bei Prof Dr Mi-chael Hess Anne Goumlhring und Magdalena Jitca im Herbstsemester 2011haben wir uns mit verschiedenen Aspekten der automatischen Uumlber-setzung natuumlrlichsprachlicher Texte beschaumlftigt darunter auch mit Sys-temen welche regelbasiert (RBMT) und anderen die statistikbasiert(SBMT) arbeiten Zusammen mit Simon Hafner habe ich mich damalsdazu entschieden zwei Systeme mit einem Vortrag zu beleuchten wel-che frei im Quellcode verfuumlgbar und nutzbar sind Apertium als RBMT-und Moses als SBMT-System Insbesondere haben wir die Vorteile vonFOSS-MUuml-Systemen 1 fuumlr Minderheitensprachen beleuchtet In meinemTeil zu Apertium habe ich das Gesellschaftliche zu stark gewichtet sodass das Technische dementsprechend auf der Strecke geblieben istMit dieser Seminararbeit moumlchte ich das nun ausraumlumen Ich fokussie-re mich auf Apertium als eine offene Plattform und wie sie genutztwerden kann um mit Sprachen umzugehen die eine komplexe Mor-phologie aufweisen

Was soll gezeigt werden

Apertium ist ein RBMT-System das insbesondere dafuumlr bekannt istmittels Shallow-Transfer zwischen linguistisch aumlhnlichen Sprachpaarenzu uumlbersetzen Bei den urspruumlnglich involvierten Sprachen handelt essich daruumlber hinaus um solche die uumlber eine (vergleichsweise) ein-fache Morphologie aufweisen und indoeuropaumlischen Ursprungs sindIm Zuge nun der Uumlbersetzung morphologisch komplexer und weitervoneinander entfernten Sprachpaaren kann das Helsinki Finite- StateTechnology - Framework (HFST) eingesetzt werden auf das wird ins-besondere im Kapitel 22 eingegangen Das Framework bietet Schnitt-stellen zu bestehenden Finite-State Transducer-Technologien (z B Fo-ma oder OpenFST) an und ermoumlglicht somit eine Wiederverwendung

1 MUuml-Systeme die Free and Open Source Software sind

4

(morphologischer) sprachtechnologischer Ressourcen fuumlr den Bereichder Maschinellen Uumlbersetzung zwischen Sprachen von der zumindesteine gepraumlgt ist von einem agglutinierenden oder stark flektierendenSprachbau

In meiner Seminararbeit moumlchte ich also zunaumlchst aufzeigen was Aper-tium und HFST sind (in Kapitel 2) und dann wie sie zueinander stehenund integriert werden koumlnnen um mehr Sprachpaare uumlbersetzen zukoumlnnen Diese Integration mit HFST theoretisch und empirisch auf-zudecken ist Inhalt von Kapitel 3 Die entsprechenden Illustrationenliefere ich anhand des Sprachpaars sme-nob (Nordsamisch zu Norwe-gisch) das zum einen gut dokumentiert ist und mir zum anderen einenZirkelschluss zu meinem Ursprungsthema des Seminars erlaubt naumlm-lich Aufzuzeigen wie Apertium dazu genutzt werden kann Minder-heitensprachen zu unterstuumltzen - nur diesmal bedeutend mehr in dertechnischen Beleuchtung der Sache Interessant an diesem Sprachpaarist zudem dass eine der involvierten Sprachen naumlmlich das Nordsa-mische morphologisch komplex ist und mit dem Norwegischen weniggemein hat d h das Sprachpaar ist von hoher linguistischer DistanzDas ist ein Bereich fuumlr den die Apertium-Plattform urspruumlnglich nichtkonzipiert wurde In einem Uumlberblick zu zeigen wie mit diesen An-forderungen an das RBMT-System umgegangen wird ist Ziel meinerArbeit

Kapitel 4 - der Schluss - setze ich mit einer Zusammenfassung der be-handelten Materie um und stelle die wichtigsten Erkenntnissen meinerSeminararbeit in den Raum Auch ist das der Platz um einen Blick indie Zukunft zu wagen was in Apertium in der naumlchsten Zeit einfliessenwird In dem Zusammenhang sind Chatgespraumlche und Hinweise dieich von (wohl bekannten) Apertium-Entwicklern erhalten habe wert-voll

12 Verwendete Umgebung und KonfigurationAlle meine hier beschriebenen Versuche habe ich auf einem amd64-System durchgefuumlhrt auf das die stabile Debian-Veroumlffentlichung 605(ldquoSqueezerdquo) 2 installiert ist Waumlhrend Apertium bei vielen Distributio-nen von GNULinux paketiert vorliegt gilt das fuumlr das HFST-Frameworknicht dieses wird allerdings benoumltigt um mit morphologisch komple-xen Sprachen zu arbeiten

Will man Apertium zunaumlchst aber nur in den stabilen und fuumlr die Ver-oumlffentlichung herausgegebenen Sprachpaaren testen so kann unter De-bian das Paket apertium installiert werden Zur Installation der Dateienfuumlr eine konkrete (stabile) Uumlbersetzungsrichtung wie z B fr-ca (vonFranzoumlsisch nach Katalanisch) muss zusaumltzlich das Paket apertium-fr-cainstalliert werden In diesem Paket sind die effektiven Lexika in binaumlrerFassung fuumlr diese Sprachrichtung einschliesslich den Transferregelnund anderen benoumltigten Dateien enthalten

2 Debian-Webseite httpwwwdebianorgNews201220120512 (letzter Zugriff08062012)

5

Ist das geschehen kann Apertium auf der Kommandozeile wie folgtgetestet werden

$ echo Jrsquoaime manger du chocolat | apertium fr-ca 1Estima menjar de la xocolata$ echo Ils aiment manger du chocolat | apertium fr-ca 2Estimen menjar de la xocolata

Beide Saumltze 1 3 und 2 4 zeigen auf dass Apertium bei (einfachen)Saumltzen der vorgezeigten Uumlbersetzungsrichtung korrekt arbeitet

Fuumlr weitergehende Versuche insbesondere mit experimentellen Sprach-paaren ist mit den vorkompilierten Paketen aus dem Debian-Paketsystemwenig zu erreichen Fuumlr die meisten der neuesten Sprachpaare wirdApertium in Version 32 benoumltigt 5 Es ist angeraten die aktuellstenPakete manuell zu kompilieren und dem System hinzuzufuumlgen zuletzthabe ich folgende Umgebung auf meinem System erfolgreich getestet

bull Apertium 32 und davon abhaumlngig lttoolbox 32

bull HFST 3311 und davon abhaumlngig OpenFST 132 sowie Foma0916alpha

bull VISL CG-3 0978357

Das meiste Kopfzerbrechen mag HFST bereiten Die Nutzung mit Aper-tium erfolgreich zu konfigurieren erfordert sowohl das ldquoHFST READ-MErdquo auf dem Wiki des Projekts 6 als auch das Apertium-Wiki zumThema HFST 7 zu studieren

Die anderen Pakete (OpenFST Foma und VISL GC-3) sind - den In-struktionen in den jeweiligen README-Dateien befolgend - leicht instal-liert

Wie Apertium selber kompiliert werden kann und beliebige (auch ex-perimentelle) Sprachpaare installiert werden koumlnnen wird ebenfallsim Wiki des Projekts 8 genau erlaumlutert und funktioniert in aller Regelproblemlos Im Falle dass ein Sprachpaar gerade nicht kompilierbarist helfen die Apertium-Entwickler im IRC-Chatkanal 9 apertium aufFreenode 10 meinen Erfahrungen gemaumlss gerne und unkompliziert wei-ter

3 Dt ldquoIch mag es Schokolade zu essenrdquo4 Dt ldquoSie moumlgen es Schokolade zu essenrdquo5 Die juumlngste fuumlr Debian verfuumlgbare Fassung die vorkompiliert paketiert ist stelltVersion 31 dar6 HFST-Wiki httpskitwikicscfitwikibinviewKitWikiHfstReadme(letzter Zugriff 08062012)7 Apertium-Wiki httpwikiapertiumorgwikiHfst (letzter Zugriff08062012)8 Installation von Apertium aus dem SVN-Repository httpwikiapertiumorgwikiApertium_on_UbuntuInstalling_the_newest_version_from_SVN_28more_complicated29 (letzter Zugriff 14062012)9 Internet Relay Chat10 ircircfreenodenetapertium

6

2 Grundlagen Zu Apertiumund HFST

21 Wesen und Entwicklungsstand von ApertiumAn der ersten FreeRBMT-Konferenz1 rekapitulieren Forcada et al [3]2009 unter dem Titel ldquoThe Apertium machine translation plattform fiveyears onrdquo die Entwicklung hin zu einem regelbasierten Uumlbersetzungs-system das schon damals uumlber 20 funktionale Uumlbersetzungsrichtungenaufweist

Was aber war fuumlnf Jahre vorher und was ist jetzt - insgesamt acht Jahrespaumlter

Apertium als solches wurde 2004 als Projekt - finanziert von einemKonsortium aus Staat und Wirtschaft - gegruumlndet um zunaumlchst dieSprachpaare esharrca (Spanisch und Katalanisch) sowie Spanisch undGalicisch als das Paar esharrgl in beidseitige Uumlbersetzungsrichtungen zurealisieren Angesiedelt wurde das Projekt zur Umsetzung an der Uni-versitaumlt von Alicante 2

Zu diesem Zeitpunkt existieren bereits zwei regelbasierte MUuml-Systemedie als Transfersysteme relativ oberflaumlchlich ohne tiefe Syntaxanaly-se zwischen aumlhnlichen Sprachpaaren zu uumlbersetzen faumlhig sind inter-NOSTRUM und Tradutor Universia Dieser Ansatz wird als Shallow-Transfer bezeichnet und bedeutet im einfachsten Fall dass ausser einemlexikalischen Transfer kaum weitere Arbeit fuumlr das System anfaumlllt eineUumlbersetzung relativ erfolgreich zu vollziehen An diesem Ansatz hatsich im Grundsatz nichts geaumlndert Und Dieser Ansatz in seiner ein-fachsten Transferform funktioniert nur fuumlr sehr aumlhnliche Sprachpaaregut Das letztere System (Tradutor Universia) ist spezialisiert auf das

1 Eine Konferenz fuumlr freie RBMT-Systeme httpxixonadlsiuaesfreerbmt09 (letzter Zugriff 14062012)2 Webseite der Universitaumlt httpwwwuaes (letzter Zugriff 14062012)

7

Sprachpaar esharrpt also Spanisch zu Portugiesisch (und umgekehrt) - alssolches ebenso ein Sprachpaar das eine geringe linguistische Distanzaufweist Die groumlssten Unterschiede sind lexikalischer Art

Vor insgesamt acht Jahren wurde angefangen die zwei o g Systeme zuvereinigen Im Zuge dieser Reimplementation wurde auch der Quell-code unter einer freien Lizenz im Sinne der Open Source Initiative 3

veroumlffentlicht Jede Person hat somit die Moumlglichkeit an der Entwick-lung von Apertium mitzuwirken Forcada selber war damals leitendmit dabei und mischt heute weiterhin zentral mit Es sind mittlerweileweitere wichtige Namen in der Apertium-Entwicklung involviert dieals Mentoren 4 fuumlr Interessierte an der Mitarbeit am Projekt fungierenDeren unmittelbare und zeitweise staumlndige Erreichbarkeit kann ich auseigener Erfahrung bestaumltigen

Forcada erwaumlhnt [3] dass fuumlr die Sprachpaare esharrca und es-gl diesprachtechnologischen Ressourcen teils selber (in seinem akademischenUmfeld) erstellt oder - wo moumlglich - aus frei verfuumlgbaren anderen Res-sourcen die frei lizenziert sind bezogen wurden um Apertium initialaufzubauen

Angefangen mit Version 10 welche fuumlr aumlhnliche Sprachpaare wieesharrca und es-pt ausgelegt ist bietet Version 20 bereits die Moumlglich-keit zwischen linguistisch weiter entfernten Sprachen zu uumlbersetzenAls Beispiele hierbei werden frharrca 5 oder enharrca 6 genannt Dafuumlr wur-de der Transferprozess ausgebaut denn es genuumlgt bei diesen Sprachennicht mehr (in vereinfachter Darstellung) die Woumlrter zu ersetzen Einmehrstufiger Strukturtransfer wird erforderlich ohne aber (bis heu-te) eine vollstaumlndige Syntaxanalyse zu betreiben Der juumlngste Major-Versionssprung zur Version 3 markiert dass Apertium vollstaumlndigUNICODE-faumlhig geworden ist und mit allen im Zeichensatz enthalte-nen Symbolen operieren kann

Technologisch setzt Apertium auf bewaumlhrte Technologien Die linguis-tischen Daten sowohl die Lexika als auch die Transferregeln werdenje Sprachpaar in XML-Dateien nach einem klaren Schema abgelegt 7Das erhoumlht die Interoperabilitaumlt zu anderen Systemen die sich diesenRessourcen bedienen moumlchten Ein eigens entwickeltes Toolset exis-tiert (lttoolbox) das die XML-Dateien in ein binaumlres Format uumlberset-zen kann das als ein Finite-State-Transduktor (FST) 8 realisiert wirdAus den Lexika und Transferregeln werden fuumlr jedes Sprachpaar letz-ten Endes drei Transduktoren erstellt welche folgenden drei Bereichengewidmet sind die im Grundsatz den Uumlbersetzungsprozess von Aper-tium ausmachen

3 Webseite der Initiative httpwwwopensourceorg (letzter Zugriff 14062012)4 Apertium-Wiki httpwikiapertiumorgwikiList_of_Apertium_mentors(letzter Zugriff 14062012)5 Franzoumlsisch zu Katalanisch und umgekehrt6 Englisch zu Katalanisch und umgekehrt7 Beispiel der Schemata anhand des Woumlrterbuchschemas httpwikiapertiumorgwikiMonodix_basics (letzter Zugriff 14062012)8 In diesem konkreten Anwendungsfall genauer bekannt als augmented letter trans-ducer

8

1 Lexikalische Analyse (der Quellsprachenwoumlrter)

2 Lexikalischer Transfer (anhand der Wortlemmata mit lexikali-schen Wortmarkierungen)

3 Lexikalische Generierung (der Zielsprachenwoumlrter)

Um die Lemmata fuumlr den Transferprozess erfolgreich lexikalisch zumarkieren sind natuumlrlich Zwischenschritte notwendig wie die morpho-logische Analyse der vorgefundenen Wortform PoS-Tagging 9 zur Wort-artenbestimmung und Word Sense Disambiguation um das (kontextuell)adaumlquate Lemma auszuwaumlhlen und zu taggen Je nach Sprachpaar undSprachbau der involvierten Sprachen ist der dafuumlr erforderliche Auf-wand unterschiedlich gross

Der Einsatz von HFST welcher zur morphologischen Verarbeitung indieser Hinsicht schwieriger Sprachen genutzt wird findet im extensivs-ten Einsatz bei der lexikalischen Analyse (1) und Generierung statt (2) -und das auch nur wenn beide Sprachen der Betrachtung HFST zur mor-phologischen Bewaumlltigung erforderlich machen Ist nur die Quellspra-che morphologisch mit den lttoolbox-Werkzeugen nicht zu bewaumlltigenso findet da der Einsatz von HFST statt ansonsten bei der Zielspra-che In Faumlllen wo sowohl die Zielsprache als auch die Quellsprachegroumlsstenteils mit Konkatenativer Morphologie 10 bewaumlltigt werden kannmacht der Einsatz von HFST wenig Sinn Da wird dann in aller Regellttoolbox fuumlr alles verwendet Das trifft etwa auf alle urspruumlnglichenSprachpaare zu wie ich sie weiter oben erwaumlhnt habe

Apertium ist der UNIX-Philosophie 11 verschrieben dass Programmeim Einzelnen klein und simpel zu sein haben und erst miteinander inInteraktion befindlich Komplexes schaffen sollen Durch das verwen-dete Pipelining kann jeder Analyse- Transfer- und Generierungsschrittin seinem In- und Output genau beobachtet werden Das und die freieVerfuumlgbarkeit des Quellcodes hilft beim Verstaumlndnis der Prozesse un-gemein und macht wissenschaftliche Ergebnisse nachvollziehbar Ge-nauer kann die Pipeline anhand der Abbildung 21 illustriert werden12

Die (relative) Unabhaumlngigkeit der einzelnen Komponenten erlaubt esApertium nur in Teilen zu verwenden z B zum PoS-Tagging eigenerTexte ungeachtet der weitergehenden und (eigentlichen) Hauptfunk-tionalitaumlt der Maschinellen Uumlbersetzung Somit ist Apertium nicht einfach

9 Das PoS-Tagging wird generell statistisch mit trainierten Daten im Einsatz vonHidden-Markov-Modellen (HMM) gemacht oder in Faumlllen wo zu wenig Datenmaterialvorliegt oder der Statistik zugunsten der Linguistik weniger Spielraum gelassen werdensoll faumlllt auf dass auch der Constraint Grammar-Formalismus (CG) eingesetzt wirdDas ist beim Sprachpaar sme-nob das in Kapitel 32 betrachtetet wird der Fall10 Dazu in 31 Genaueres11 Vgl hierzu Wikipedia httpsenwikipediaorgwikiUnix_philosophy(letzter Zugriff 14062012)12 Die schematische Darstellung entspringt den TeX-Quellen der Apertium-Dokumentation fuumlr Version 30 die in Arbeit ist URL httpapertiumsvnsourceforgenetviewvcapertiumbranchesapertium-documentationapertium-30endocumentationtexview=logamppathrev=38833 (letzter Zugriff14062012)

9

Quellsprachedarr

Deform rarr MorphAnal

rarrPoS-Tagging rarr

StruktTrans

rarrMorphGen

rarrPost-Gen

rarr Reform

l darr

LexTrans

Zielsprache

Abbildung 21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen

ein abgeschlossenes MUuml-System im Sinne einer Blackbox sondern ei-ne offene Plattform die hilft freie sprachtechnologische Ressourcen zumehren

Apertium fuumlhrt die Sprachpaare im SVN-Repository 13 abhaumlngig vomEntwicklungsstand in verschiedenen Ordnern

bull In incubator befinden sich kuumlrzlich angesetzte Sprachpaare

bull In nursery befinden sich noch wenig funktionale Sprachpaare

bull In staging befinden sich bereits fortgeschrittene Sprachpaare

bull In trunk befinden sich stabile Sprachpaare die produktiv ge-nutzt werden koumlnnen

Mittlerweile sind im Vergleich zu 2004 zahlreiche weitere Sprachpaa-re hinzukommen entstanden durch Forschungs-Entwicklungsprojektevon Studierenden 14 Arbeiten von Forschungsgruppen an anderenForschungseinrichtungen als Community-Projekte seitens Interessier-ter der Freien Software-Szene und auch mit Entwicklungsunterstuumltzungvon Unternehmen mit kommerziellen Interessen z B Prompsit wel-che Dienstleistungen um Apertium anbietet 15

Zum Zeitpunkt des Abschlusses dieser Arbeit Mitte Juni 201216 befin-den sich 138 () Sprachpaare in incubator 17 28 Sprachpaare in nursery5 Sprachpaare in staging und 37 Sprachpaare in trunk womit rund 40Sprachpaare produktiv genutzt werden koumlnnen Forschungs- und Ent-wicklungsarbeiten hingegen sind schon heute in rund 200 Sprachpaarenmoumlglich und weitere koumlnnen nach Absprache mit den Hauptentwick-lern beliebig hinzugefuumlgt werden

13 SVN-Webview des Repositories httpapertiumsvnsourceforgenetviewvc (letzter Zugriff 14062012)14 Z B im Rahmen des Google Summer of Code (GSoC) httpwikiapertiumorgwikiGoogle_Summer_of_CodeActive_projects (letzter Zugriff 14062012)15 Prompsit-Webseite httpwwwprompsitcomsomos-prompsit (letzter Zu-griff 14062012)16 SVN-Repository des Projekts in Revision 38833 httpapertiumsvnsourceforgenetviewvcapertiumpathrev=38833 (letzter Zugriff 14062012)17 Sowie einige Morphologien im Ansatz die keinem konkreten Sprachpaar gewid-met sind

10

Wichtig fuumlr einen Start sind die freie Verfuumlgbarkeit von Woumlrterbuumlchernund gegebenenfalls Morphologien fuumlr die involvierten Sprachen EineListe solcher Ressourcen fuumlr viele Sprachen wird im Apertium-Wikigefuumlhrt 18

Durch das Hinzukommen von Sprachpaaren deren Sprachen linguis-tisch wenig gemein haben ist der Shallow-Transfer inzwischen staumlrkerausgebaut Fuumlr en-ca (Englisch zu Katalanisch) wird ein dreistufigerStrukturtransfer angewandt in der Reihenfolge Chunking Inter- undPost-Chunking Dabei ist zu beachten dass das Inter-Chunking in (noch)komplexeren Faumlllen mehrstufig sein kann So ist mir das Sprachpaarsme-smj (vom Nordsamischen 32 in das Lulesamische 19) aufgefallen20 das uumlber drei Inter-Chunking-Dateien verfuumlgt 21 die Regeln daruumlberenthalten Chunks (in drei Phasen) zu vertauschen

22 Wesen und Entwicklungsstand von HFSTBeim Helsinki Finite-State Transducer - Framework (HFST) handelt essich um eine in C++ geschriebene Open Source-Softwarekollektion auswelche die Nutzung verschiedener FST-Technologien und -Formalismenheraus einheitlich moumlglich ist die ihrerseits frei (implementiert) verfuumlg-bar sind Es sind dies zum aktuellen Zeitpunkt

bull Die Stuttgart Finite-State Transducer Tools (SFST) mit einer Basis-Unterstuumltzung von Finite-State Transducer mit gewichteten Kan-tenuumlbergaumlngen 22 23

bull Das Foma-Paket das eine freie Implementation der XFSTLEXC-Formalismen darstellt gewichtete Transduktoren koumlnnen nichterstellt werden 24

bull Die OpenFST-Bibliothek es wird die Schaffung von Finite-StateTransducer mit gewichteten Kantenuumlbergaumlngen unterstuumltzt 25

Insbesondere bietet HFST das Tool hfst-twolc an das einen Two-LevelRule Compiler fuumlr den Xerox-TWOLC-Formalismus darstellt Damitkoumlnnen Transduktoren erstellt werden die eine parallele Ersetzung so-wohl der Ober- als auch der Unterseite des Transduktors gleichzeitigerlauben Die Reihenfolge der entsprechenden Deklarationen ist damit

18 Apertium-Wiki httpwikiapertiumorgwikiSpecific_resources_per_language (letzter Zugriff 14062012)19 Ethnologue-Eintrag fuumlr smj httpswwwethnologuecomshow_languageaspcode=smj (letzter Zugriff 14062012)20 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-sme-smj (letzter Zugriff 14062012)21 Die Dateien mit den Endungen ldquot2xrdquo ldquot3xrdquo und ldquot4xrdquo - besonderes Augenmerkkann auf den Bereich ab ltsection-rulesgt gelegt werden22 Webseite httpwwwimsuni-stuttgartdeprojektegramotronSOFTWARESFSThtml (letzter Zugriff 14062012)23 Gemaumlss Angaben von Francis M Tyers im IRC wird auf diese Tools den entspre-chenden Bibliotheken in Apertium kaum zugegriffen24 Dateien mit Endungen ldquoxfstrdquo ldquofomardquo und ldquolexcrdquo werden in aller Regel damitverarbeitet25 Dateien mit Endungen ldquotwolrdquo werden damit prozessiert wobei von gewichtetenKantenuumlbergaumlngen kein Gebrauch gemacht wird

11

unwichtig Im Gegensatz dazu muss beim (klassischen) Xerox Finite-State Tools-Formalismus (XFST) welcher Foma als Compiler frei imple-mentiert der Reihenfolge der Deklarationen Beachtung geschenkt wer-den weil es sich beim XFST-Formalismus um Rewriting-Regeln handeltdie sequentiell immer nur auf die Unterseite (bzw dem ldquozweitenrdquo oderldquorechtenrdquo Band) des Transduktors angewandt werden

Eine umfassende Einfuumlhrung von Finite-State-Automaten und -Transduktorenwuumlrde den Rahmen dieser Arbeit sprengen es sei allerdings darauf hin-gewiesen dass im Apertium-Wiki26 das Thema im Zusammenhang mitden morphologischen Woumlrterbuumlcher die mittels den eigenen lttoolbox-Werkzeugen erstellt werden ausreichend eingefuumlhrt wird

Auf der Seite wird ebenfalls plausibel erklaumlrt dass es zur Uumlbersichtlich-keit und dem Verstaumlndnis der Morphologie beitraumlgt die Deklarationderselben von den Algorithmen zu trennen die sie umsetzen Sowohlder lttoolbox-Formalismus als auch die Formalismen die durch dasHFST-Framework unterstuumltzt werden erfordern die blosse Deklarati-on der Morphologie ohne dass man sich um die (effiziente) Verarbei-tung der Ausdruumlcke selber kuumlmmern muss Die prozeduralen Schritteerledigen lttoolbox und HFST bei der Verarbeitung der jeweiligen De-klarationen in den Dateien 27 selbststaumlndig Damit wird eine Trennungvon morphologischer Deklaration und Programmcode erreicht

Das ist aumlhnlich wie bei der deklarativen (logischen) Programmierspra-che Prolog wo sich die Inferenzmaschine eigenstaumlndig um die effizienteBeweisfuumlhrung des Ziels (engl des ldquogoalsrdquo) kuumlmmert Das Gegenteildieses Ansatzes wird auf der Webseite mit Python-Code demonstriertwelcher im gegebenen Beispiel dafuumlr verwendet wird das Wort ldquobeerrdquound ldquobeersrdquo morphologisch zu analysieren - als ein Substantiv das imSingular oder Plural steht Das wird durch prozedurale Schritte direkterledigt Bei der Implementation sprachvollstaumlndiger Morphologien aufdiese Art gestaltet sich die Wartung der Morphologie als tendenziell un-uumlbersichtlich Hinzu koumlnnen sich bei einem solchen Ansatz in schlechterImplementation Laufzeitprobleme gesellenDer wichtigste Vorteil aber bleibt bis hierhin unerwaumlhnt Transdukto-ren koumlnnen nicht nur zur Analyse von Wortformen in ihre Lemmatasamt lexikalischer Markierungen genutzt werden 28 sondern markierteLemmata (im gegebenen Format) koumlnnen zur Generierung von Wortfor-men genutzt werden 29 In einer prozeduralen Implementation muumlsstesowohl Programmcode fuumlr die Generierung als auch (separat) fuumlr dieAnalyse geschrieben werden Das ist umstaumlndlich

26 Vgl das Apertium-Wiki httpwikiapertiumorgwikiMorphological_dictionaries (letzter Zugriff 14062012)27 Es handelt sich fuumlr Dateien die durch lttoolbox prozessiert werden um die Datei-en in den Ordner der Sprachpaare mit den Endungen ldquodixrdquo fuumlr das morphologischeWoumlrterbuch ldquot1xrdquo bis (maximal) ldquot5xrdquo (je nach Anzahl der Stufen) fuumlr die Transferre-geln und gegebenenfalls den ldquolexcrdquo- und ldquotwolrdquo-Dateien falls bei einer involviertenSprache die Morphologie durch HFST erfasst wird In wenigen Faumlllen sind auch ldquoxfstrdquo-oder ldquofomardquo-Dateien anzutreffen28 Der Transduktor wird in einem solchen Fall in der Regel von links nach rechtsbzw von oben nach unten angewandt29 Der Transduktor wird von rechts nach links bzw von unten nach oben angewandt

12

Ein praktisches Beispiel der Nutzung der resultierenden Transdukto-ren zur Analyse oder Generierung liefert das Apertium-Wiki auf derSeite uumlber lttoolbox 30

Falls bei einer speziellen Anwendung mit Apertium eine (im Einzelfall)weitergehende prozedurale Verarbeitung der Ausgabe aus den Trans-duktoren notwendig wird dann besteht die Moumlglichkeit HFST aus zB Python heraus zu nutzen 31

30 Vgl Apertium-Wiki httpwikiapertiumorgwikiLttoolbox (letzter Zu-griff 14062012)31 Vgl Beitrag auf der nltk-dev-Mailingliste httpsgroupsgooglecomgroupnltk-devbrowse_threadthreadfdb53482cad56234 (letzter Zugriff 14062012)

13

3 Hauptteil Die Integrationvon HFST in Apertium

31 Theorie Zweck und Nutzen der IntegrationFinite-State-Technologien koumlnnen in der Computerlinguistik dafuumlr ge-nutzt werden um Woumlrterbuumlcher elegant aufzubauen oder die mor-phologische Analyse und Generierung von Woumlrtern systematisch zubetreiben und das insbesondere auch in Faumlllen wo die Morphologie derbetrachteten Sprache nicht relativ einfach durch z B Prauml- oder Suffixe(also konkatenativ durch rsquoAneinanderreihenrsquo von Morphemen) erfasstwerden kann sondern gerade auch in Faumlllen wo auch andere Affixewie Infixe zur Anwendung kommen

Nicht mehr simpel sind Morphologien beispielsweise in Faumlllen wo esfuumlr gegebene Wortstaumlmme 1 Faumllle gibt wo Morpheme fuumlr eine Flexi-on inmitten des Stamms eingepflanzt werden muumlssen oder wo Vokaleinmitten von Staumlmmen wegfallen oder durch andere ersetzt werdenmuumlssen um guumlltige Wortformen analysieren oder generieren zu koumln-nen Morphologien fuumlr Sprachen die komplexe Anpassungen an Staumlm-men oder fortgesetzten Wortklassen in bestimmten (z B grammatikali-schen) Faumlllen erfordern werden auch Nicht-Konkatenative Morphologien(NKM) (vgl Clematide 2007 104ff) genannt oder zumindest waumlre dieKonkatenation nach vorwiegend erkennbaren systematischen Regelnder betrachteten Sprache nicht mehr (sinnvoll) nachvollziehbar wuumlrdeman eine Konkatenative Morphologie erzwingen wollen ebenfalls ist dieGefahr von Redundanz sehr hoch wenn jeder nur denkbare Stamm ineine Morphologie einfliesst

Eine saubere Morphologie mit klaren Regeln und in (moumlglichst) schlan-ker Ausfuumlhrung ist eine Anforderung von der gerade ein MaschinellesUumlbersetzungssystem wie Apertium fundamental profitiert um schnell zu

1 Minimaloberflaumlche von Woumlrtern aus der durch Morpheme die vor- um - oderangehaumlngt werden koumlnnen weitere wichtige (weitere) Wortformen entstehen

14

arbeiten und (linguistisch nachvollziehbar) gepflegt werden zu koumlnnen

Wie bereits in Kapitel 21 angedeutet ist es nicht erst das HFST-Frameworkdas Finite-State-Technologien in Apertium einfuumlhrt Die lexikalischenWerkzeuge lttoolbox mit Anwendungen wie lt-comp 2 oder lt-proc 3

werden dazu genutzt die in XML abgefassten Woumlrterbuumlcher in Trans-duktoren umzuwandeln - fuumlr eine schnellere Verarbeitung Mit denMoumlglichkeiten verglichen die das HFST-Framework liefert sind die lt-toolbox-Werkezuge am ehesten mit dem LEXC-Formalismus vergleich-bar welcher Foma beherrscht und auf die Idee fusst Woumlrterbuumlcher an-hand von Staumlmmen (von z B Verben oder Nomen) anhand von Fort-setzungsklassen (durch das Anhaumlngen von Morphemen) aufzubauenSimon Clematide fuumlhrt auch das in seinem Vorlesungsskript von 2007(93ff) genauer aus Darin ist es moumlglich die Morphotaktik der Sprachezu erfassen Schwieriger umzusetzen mit diesen Apertium-Bordmittelnist die Morphophonemik worunter Lautanpassungen oder die Infigierung 4

fallen Diese (u U seltenen aber fuumlr die Korrektheit notwendigen) An-passungen der Morphotaktik berechtigen den Beizug zusaumltzlicher (wohlbekannter und anerkannter) Formalismen wie XFST 5 oder TWOLC

Die wenigsten natuumlrlichen Sprachen sind (vollstaumlndig) KonkatenativerMorphologie Im Rahmen einer kuumlrzlichen Veranstaltung zu Finite-State-Methoden (bei Simon Clematide) haben Simon Hafner und ich die Moumlg-lichkeit erhalten eine (konzeptionelle) Morphologie 6 fuumlr die Planspra-che ldquoKlingonischrdquo 7 anzulegen Diese laumlsst sich tatsaumlchlich fast vollstaumln-dig mit Fortsetzungsklassen auf Basis der Wortstaumlmme und anzuhaumln-genden Morphemen und damit dem LEXC-Formalismus erfassen istaber auch nur ein akademisches Beispiel einer Sprache wo es nie zu(natuumlrlichen) Lautverschiebungen oder anderen komplexen Phaumlnome-nen kam

Die Dokumentation daruumlber wie HFST in Apertium genau genutztwird ist spaumlrlich Gerade in der Apertium-Dokumentation (aktuellnachgefuumlhrt und veroumlffentlicht bis Version 20) seitens Forcada et al[2] wird nichts uumlber die Nutzung von HFST ausgesagt - auch nicht inden neuesten (versionskontrollierten) Fassungen8 im SVN-Repository

Gluumlcklicherweise waren wichtige Apertium-Entwickler mir eine grosseHilfe dabei die noumltigen Einstiegspunkte zu finden Ein Beispiel einer ty-pischen Hilfeleistung ist im Anhang als ldquoIRC-Konversation zu HFSTrdquo9 zu finden die ich mit freundlicher Unterstuumltzung der involviertenPersonen in dieser Seminararbeit in der Form publizieren darf

2 Zur Kompilation von Woumlrterbuumlchern von einem XML- in ein FST-Format3 Zur Prozessierung der Daten im vorgaumlngig generierten FST-Format und der Aus-gabe in einem menschenlesbaren lexikalischen Tagging-Format4 Einfuumlgen eines Affixes in einen Wortstamm auch Infix genannt5 Von Foma implementiert6 Code und Anwendungsbeispiele bei github im git-Repository httpsgithubcom2mhklingomorph (letzter Zugriff 14062012)7 Ethnologue-Eintrag tlh httpswwwethnologuecomshow_languageaspcode=tlh (letzter Zugriff 14062012)8 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-documentationapertium-20en (letzter Zugriff 12062012)9 Siehe Anhang auf Seite 26

15

Zudem Es sind im Apertium-Wiki Informationen daruumlber vorhandenwie ein neues Sprachpaar fuumlr die Nutzung mit HFST angelegt werdenkann 10 Beim gegebenen Beispiel wird schematisch das Sprachpaar tur-tuk angesetzt (real im SVN-Repository existiert das Sprachpaar tuk-tur11) wobei tuk 12fuumlr Turkmenisch und tur 13 fuumlr Tuumlrkisch steht

Generell wird bei Sprachpaaren die mit HFST analysiert (und gene-riert) werden versucht den lexikalischen Transfer moumlglichst auf Ba-sis der Morpheme vorzunehmen Idealerweise kann der groumlsste Teilim LEXC-Formalismus abgedeckt werden Wo das nicht (im Ansatz)gelingt werden TWOLC-Regeln definiert welche die noumltigen Anpas-sungen an den lexikalischen Markierungen und Oberflaumlchenformen derWoumlrter vornehmen

Gruumlnde weshalb TWOLC- gegenuumlber XFST-Deklarationen bevorzugtwerden sind gemaumlss wichtigen Apertium-Entwicklern 14 (1) das uumlber-sichtlichere Format und (2) die einfachere Handhabung von linguisti-schen Phaumlnomenen wie der Vokalharmonie mit dem TWOLC-Formalismus

Ein weiterer wichtiger Grund welcher die mangelnde Verbreitung desXFST-Formalismus bei Apertium erklaumlrt ist vermutlich auch dass Fo-ma erst seit Version 30 von HFST (veroumlffentlicht in 2011) vollstaumlndigunterstuumltzt wird

32 Empirie Die Integration am Beispiel eines SprachpaarsDaruumlber wie ein neues Sprachpaar unter Nutzung von HFST zu Aper-tium hinzugefuumlgt werden kann gibt ein Wiki-Artikel 15 Auskunft ImSinne eines Tutorials wird dabei Schritt fuumlr Schritt im Ansatz gezeigtwie die Implementation einer RBMT von der Turkmenischen Spracheins Tuumlrkische (Sprachpaar tk-tr) umgesetzt werden kann Bei beidenverwandten Sprachen handelt es sich um stark agglutinierende Spra-chen

Das (wissenschaftlich) am besten dokumentierte Beispiel der Nutzungvon HFST im Zusammenhang mit Apertium wird im noch nicht pu-blizierten Paper ldquoEvaluating North Saacutemi to Norwegian assimilationRBMTrdquo [4] beschrieben das von Trond Trosterud und seinem Kollegen

10 Vgl hierzu httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 12062012)11 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-tuk-tur (letzter Zugriff 12062012)12 Ethnologue-Eintrag fuumlr tuk httpswwwethnologuecomshow_languageaspcode=tuk (letzter Zugriff 12062012)13 Ethnologue-Eintrag fuumlr tur httpswwwethnologuecomshow_languageaspcode=tur (letzter Zugriff 12062012)14 Gemaumlss Francis M Tyers und Jonathan North Washington im IRC15 Apertium-Wiki httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 11062012)

16

Kevin Brubeck Unhammer Mitte Juni 2012 an der FreeRBMT 2012 erst-mals oumlffentlich vorgetragen wird 16

Die Nordsamische Sprache 17 (sme) verfuumlgt uumlber geschaumltzte 15rsquo000 bis25rsquo000 Sprecher und wird in Norwegen Schweden und Finnland ge-sprochen Die Sprache wird von den Autoren als stark flektierend undagglutinierend eingeteilt

Die Standardvarietaumlt 18 des Norwegischen in die uumlbersetzt wird ver-fuumlgt gemaumlss Ethnologue 19 uumlber rund 45 Millionen Sprecher und gehoumlrtder indogermanischen Sprachfamilie an Die Sprache wird von Troste-rud und Unhammer [4] als morphologisch wenig komplex angegeben

Dieses Sprachpaar gehoumlrt zu den wenigen wo eine indoeuropaumlische(oder -germanische) Sprache unter Einsatz von HFST mit Apertiumuumlbersetzt wird

Bei den meisten anderen Sprachpaaren wo HFST genutzt wird han-delt es sich beidseitig um Sprachen mit komplexer Morphologie

Bezuumlglich des Sprachpaars unserer Betrachtung fokussieren die Auto-ren auf die Uumlbersetzungsrichtung ins Norwegische weil der Anspruchbloss ist dass Nur-Norwegischsprechende Texte aus dem Nordsami-schen verstehen koumlnnen sollen Umgekehrt wuumlrden die meisten Spre-cher des Nordsamischen bereits Norwegisch verstehen womit der Nut-zen der umgekehrten Uumlbersetzungsrichtung als (zum aktuellen Zeit-punkt) gering eingeschaumltzt wird

Als Motivation fuumlr den Einsatz von HFST gegenuumlber lttoolbox wirdbeispielhaft der Stufenwechsel der Konsonanten des Nordsamischen inQuantitaumlt als auch Qualitaumlt angefuumlhrt 20 Generalisiert betrachtet befuumlr-worten die Autoren die Verwendung von HFST wenn Morphologienzu verarbeiten sind die nicht rein konkatenativ sind - wie ich in Kapitel31 zum Zweck von HFST bereits ausgefuumlhrt habe

Grundsaumltzlich wird gemaumlss Entwickler Unhammer 21 (schematisch) diefolgende UNIX-Pipeline fuumlr sme-nob angewandt

$ echo words|hfst-proc sme-analyserhfst|| 1lt-proc sme-to-nob-dixbin|| 2lt-proc nob-generator-dixbin 3

Im Falle von sme-nob wird HFST alleine fuumlr die Analyse (1) von smegenutzt dann wird wieder generell auf lttoolbox gesetzt in wichtigsterHinsicht im Rahmen des lexikalischen Transfers (2) und der Generierung

16 Information gemaumlss einem Gespraumlch mit Kevin Brubeck Unhammer im IRC Kon-ferenzseite mit Programm httpwwwmolto-projecteufreerbmt-programhtml(letzter Zugriff 14062012)17 Engl ldquoNorth Saacutemirdquo18 Als Buchsprache ldquoBokmaringlrdquo19 Ethnologue-Eintrag zu den Sprachen Norwegens httpswwwethnologuecomshow_countryaspname=no (letzter Zugriff 11062012)20 Vgl hierzu Wikipedia httpsdewikipediaorgwikiStufenwechsel (letzterZugriff 14062012)21 Chatgespraumlch im IRC

17

(3) der Zielsprache nob

Der morphologische sme-Analyzer ist dabei in den Formalismen LEXCund TWOLC geschrieben und fusst auf bereits verfuumlgbare Ressourcen22 zuruumlck was aufzeigt dass HFST im Einsatz fuumlr Apertium auch des-halb interessant ist weil viele Morphologien bereits existieren die inFormalismen geschrieben sind die HFST verarbeiten kann Fuumlr dasAnlegen vieler Sprachpaare ist es nicht notwendig alles from scratch zubeginnen

Auch beim nob-Generator konnte auf (eigene fruumlhere) Ressourcen zu-ruumlckgegriffen werden wie diese im Sprachpaar nn-nb 23 verfuumlgbar sindbei dem Sprachpaar wird zwischen zwei norwegischen Sprachverietauml-ten uumlbersetzt Wichtig ist noch einmal zu betonen dass der nob-Teil (zurGeneration der Norwegischen Wortformen) auf lttoolbox setzt und mitHFST nichts zu schaffen hat

Interessant ist der Einsatz der von Trosterud und Unhammer von Grundauf selber geschriebene Constraint Grammar (CG) 24 zur Wortartendisam-biguierung in dem die Auswahl der Woumlrter (fuumlr die Zielsprache) anhandvon (lokalen) grammatikalischen Kontexten (in der Quellsprache) ge-schieht Das ist auch der Grund weshalb ich eingangs in Kapitel 12VISL CG-3 als obligat zu installierendes Paket anfuumlhre Ohne dieseSoftware ist es nicht moumlglich das Sprachpaar sme-nob zu kompilieren25

Zwischen der morphologischen Analyse (von sme) und der morphologischenGenerierung von nob findet der strukturelle Transfer statt der 4-phasig istdie Autoren Trosterud und Unhammer machen hierbei folgende Anga-ben

1 63 Chunk-Regeln (t1x-Datei)

2 26 Interchunk1-Regeln (t2x-Datei)

3 39 Interchunk2-Regeln (t3x-Datei)

4 29 Postchunk-Regeln (t4x-Datei)

Es reicht also nicht bloss aus Wortformen oder Morpheme zu ersetzensondern es sind komplexe Verschiebungen der markierten Lemmata

22 SVN-Repository des Giellatekno-Projekts httpsvictoriouitnolangtechtrunkgtsme (letzter Zugriff 14062012)23 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-nn-nb (letzter Zugriff 14062012)24 Vgl fuumlr einen kurzen Uumlberblick eine CLab-Seite httpkittcluzhchclabconstraintGrammarilap_visl (letzter Zugriff 14062012)25 Zu erwaumlhnen ist in dem Zusammenhang dass bei den meisten SprachpaarenHidden-Markov-Modelle zum Einsatz kommen um die Wortarten zu bestimmen da-fuumlr wird Sprachmaterial trainiert Im Falle von sme-nob deuten die Autoren allerdingsdarauf hin dass mangels repraumlsentativen Sprachmaterials diese Option keine ist diebefriedigen kann Sie stellen allerdings in Aussicht dass eine Kombination von lin-guistischen CG- und statistischen HMM-Ansaumltzen ein Versuch wert waumlre Dabei wuumlrdezuerst mittels CG ein Kontext eingegrenzt und danach statistisch verfahren

18

notwendig um in das Norwegische zu uumlbersetzen obschon beide Spra-chen der Subjekt-Verb-Objekt-Satzstellung sind

Die Evaluationsergebnisse der Autoren deuten darauf hin dass dasSprachpaar sme-nob funktionalen Charakter hat Post-Editing-Qualitaumltist nicht das Ziel und wird auch nicht erreicht allerdings koumlnnen Nor-wegischsprechende die kein Nordsamisch verstehen in vielen Faumlllenausmachen was die Bedeutung eines Satzes ist - insbesondere dannwenn er kontextualisiert vorliegt

Im Folgenden soll eine praktische Nutzung des Sprachpaars sme-nobin Apertium illustriert werden Als Beispiel diene der einleitende Be-gruumlssungssatz zur Nordsamischen Wikipedia 26 ausgewaumlhlt

$ echo rsquoBures boahtin Wikipediai friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen til Wikipedia til den frie informasjonsordboken

Die resultierende nob-Uumlbersetzung lautet gemaumlss Google Translate 27

auf Deutsch

Willkommen bei Wikipedia dem freien Woumlrterbuch Infor-mationen

Die Uumlbersetzung ist verstaumlndlich abgesehen von der Semantik des Aus-drucks ldquoWoumlrterbuch Informationenrdquo Hier sollte meiner Ansicht nachldquoEnzyklopaumldierdquo stehen Es ist wahrscheinlich dass bereits die Quellenicht den optimalen Begriff fuumlhrt und da das eigentliche Problem liegt

Interessanter ist was passiert wenn wir das ominoumlse i-Suffix bei ldquoWi-kipediairdquo im Nordsamischen entfernen

$ echo rsquoBures boahtin Wikipedia friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen Wikipedia til den frie informasjonsordboken

Wir koumlnnen feststellen dass der Satz einen anderen personalen Bezugherstellt denn gemaumlss Google Translate 28 bedeutet die zweite nob-Uumlbersetzung auf Deutsch

Willkommen Wikipedia dem freien Woumlrterbuch Informa-tionen

Wir werden nun also als ldquoWikipediardquo angesprochen

26 Webseite httpssewikipediaorgwikiVC3A1ldosiidu (letzter Zugriff14062012)27 Vgl hierzu httptranslategooglecomno|de|Velkommen20til20Wikipedia2C20til20den20frie20informasjonsordboken (letzter Zugriff14062012)28 Vgl hierzu httptranslategooglecomno|de|0AVelkommen20Wikipedia2C20til20den20frie20informasjonsordbokenmskip-thinmuskip (letzter Zugriff 14062012)

19

Eine morphologische Analyse der beiden Wortformen ldquoWikipediardquo undldquoWikipediairdquo erhaumlrtet die Vermutungen dass es sich beim i-Suffix umeinen Illativ 29 handelt einem Lokalkasus der dazu genutzt werdenkann eine ldquoHineinbewegungrdquo auszudruumlcken respektive in diesem Falldie entsprechende Praumlposition ldquoaufrdquo in das Substantiv der Named En-tity ldquoWikipediardquo einzugliedern

$ echo Wikipedia | apertium -d sme-nob-morph1^WikipediaWikipedialtNgtltPropgtltOrggtltSggtltAccgtWikipedialtNgtltPropgtltOrggtltSggtltGengtWikipedialtNgtltPropgtltOrggtltSggtltNomgt$^ltCLBgt$

2$ echo Wikipediai | apertium -d sme-nob-morph^WikipediaiWikipedialtNgtltPropgtltOrggtltSggtltIllgt$^ltCLBgt$

Bei Analyse 1 wird ldquoWikipediardquo als ein Substantiv eine Named Entityund (semantisch) als Organisation im Singular markiert Uneinigkeitherrscht fuumlr den Tagger auf dieser Transferstufe noch uumlber den KasusEs ist nicht klar ob ldquoWikipediardquo im Nominativ Akkusativ oder Genitivsteht Das Symbol ltCLBgt steht fuumlr ldquoClause Boundaryrdquo und spielt insbe-sondere fuumlr den Chunker (im Zuge des spaumlteren Transfers) eine Rolle zB zur (groben) Abgrenzung von Nominal- und Verbalphrasen

Analyse 2 faumlllt knapper aus da der Kasusfall keine Rolle mehr spielt -an dessen Stelle tritt nun der Illativ (Symbol ltIllgt) Der Rest bleibt sichgleich

Da aber die Illativ-Markierung in diesem spezifischen Fall auf dernob-Seite zur Oberflaumlchengenerierung des norwegischen Wortes ldquotilrdquo30 fuumlhrt aumlndert sich die Semantik des Satzes merklich

Der Transferprozess bei Apertium kann generell beliebig fein beobach-tet werden fuumlr unser spezifisches Sprachpaar sme-nob sei fuumlr weitereVersuche auf das Apertium-Wiki 31 verwiesen das extensiv Informa-tionen daruumlber fuumlhrt

Es existieren weitere interessante Sprachpaare bei der nur eine Sei-te jeweils stark agglutierend ist und auf entsprechende Formalismen(LEXC- und TWOLC-Formalismen) zuruumlckgegriffen wird So etwa die

29 Vgl Wikipedia httpsdewikipediaorgwikiIllativ (letzter Zugriff14062012)30 Dt ldquoaufrdquo31 httpwikiapertiumorgwikiNorthern_SC3A1mi_and_Norwegian (letzterZugriff 14062012)

20

Sprachpaare quz-spa (Quecha-Castellano) 32 udm-rus (Udmuritische Sprache-Russisch) 33 und kaz-eng (Kasachisch-Englisch) 34 Noch ist der Entwick-lungsstand all dieser Uumlbersetzungsrichtungen aber gering und fuumlr einenproduktiven Einsatz oder eine Evaluation demnach ungeeignet 35

32 Apertium-Wikiseite httpwikiapertiumorgwikiQuechua_cuzqueC3B1o_y_castellano (letzter Zugriff 14062012)33 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-udm-rus (letzter Zugriff 14062012)34 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumincubatorapertium-eng-kaz (letzter Zugriff 14062012)35 Alle drei Sprachpaare sind in den SVN-Ordnern incubator oder nursery un-tergebracht

21

4 Schluss

41 Zusammenfassung und AusblickIn abschliessender Betrachtung ist festzuhalten Die Nutzung von HFSTverleiht Apertium die Faumlhigkeit zu und von Sprachen mit (stark) Nicht-Konkatenativer Morphologie zu uumlbersetzen Dafuumlr muumlssen die Aperti-um-eigenen lttoolbox-Werkzeuge umgangen werden die ansonstenzur morphologischen Analyse und morphologischen Generierung von Wort-formen verwendet werden Der Einsatz von HFST liefert aber keinenMehrwert an anderen Stellen in der Transfer-Pipeline Der lexikalischeTransfer oder strukturelle Anpassungen um der Syntax der Zielsprachenaumlher zu kommen sind Schritte fuumlr die sich die lttoolbox-Werkzeugeweiterhin bewaumlhren

Diskutiert wird eine staumlrkere Integration von HFST in Apertium damitHFST nicht laumlnger der Charakter eines ldquoFremdkoumlrpersrdquo in der Aper-tium-Plattform anhaftet Es existiert die Idee ein Projekt in diese Rich-tung anzustossen um es z B moumlglich zu machen lexc-Dateien anstattmit den HFST-Binaries mit den lttoolbox-Kommandos zu prozessierenDieses Projekt koumlnnte von einem interessierten Studierenden etwa imRahmen des naumlchsten Google Summer of Code (2013) initiiert werden 1

Ein weitere Herausforderung die in der Natur von Apertium als Shallow-Transfer-System begruumlndet liegt 2 hat mit den Bilexika zu tun Apertiummuss fuumlr jedes Sprachpaar ein Bilexikon fuumlhren um den lexikalischenTransfer mittels den lttoolbox-Werkzeugen zu vollziehen Da fuumlr jedeneue Sprachkombination das Bilexikon neu aufgebaut werden mussbesteht hier ein gewisser (manueller) Aufwand bei jedem neuen Sprach-paar das angesetzt wird dieser kann zwar durch Einsatz von Werkzeu-ge aus den apertium-dixtools minimiert werden die Vollautomation

1 Idee zum Projekt httpwikiapertiumorgwikiIdeas_for_Google_Summer_of_CodeCloser_integration_with_HFST (letzter Zugriff 14062012)2 Apertium verwendet keinen sog Interlingua-Ansatz um eine sprachunabhaumlngigeRepraumlsentation von Wortbedeutungen zu fuumlhren

22

funktioniert aber noch nicht 3 4

Weiterhin bleibt Apertium im Grundsatz ein Shallow-Transfer-Systemdas keinen vollstaumlndigen Parse der Quellsprache vornimmt und sietiefen-analysiert Dadurch ist es auch in Zukunft nicht breit moumlglichSemantik uumlber weite Distanzen zu transferieren

Bezuumlglich weiterer Moumlglichkeiten fuumlr Apertium morphologisch zu ana-lysieren generieren kann das Augenmerk auch auf neuere Formalis-men als jene von Xerox 5 gelegt werden So existiert hunmorph 6 dases erlaubt in OCaml 7 - in einem objekt-orientierten Paradigma - Mor-phologien zu beschreiben und dazu eine (relativ) einfache Syntax auf-zuweisen scheint Beispiele explorativer Versuche mit hunmorph fuumlrApertium sind im Wiki des Projekts bereits heute dokumentiert 8 Aus-serdem ist hunmoph morphologisch-analytische Basis des bekanntenSpellcheckers HunSpell das der standardmaumlssige Spellchecker in Libre-Office OpenOfficeorg und einigen Softwareprodukten der MozillaFoundation ist 9

Selber hat es mir Freude bereitet mich in dieses komplexe Gebiet hin-ein zu begeben und ich bin fuumlr die Zukunft interessiert daran michan Apertium nach Kraumlften zu beteiligen da ich die dahinterstehendeCommunity als eine kennen gelernt habe die aufgeschlossen humor-voll und im houmlchsten Masse kompetent ist

42 DanksagungenIch moumlchte mich an dieser Stelle herzlichst im Besonderen bei folgen-den Personen des Apertium-Projekts bedanken dass sie sich Zeit ge-nommen haben sich mit mir im IRC ausgiebig zu unterhalten und denDschungel in und um Apertium zu durchleuchten Mikel L ForcadaFrancis M Tyers Kevin Brubeck Unhammer und Jonathan North Wa-shington

Ohne sie waumlre diese Arbeit in der Form nicht entstanden und vielesQuellmaterial das ich hier verwende schwierg auffindbar gewesen

3 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-dixtools (letzter Zugriff 14062012)4 Vgl hierzu httpwikiapertiumorgwikiCrossdics (letzter Zugriff14062012)5 Namentlich XFST TWOLC und LEXC6 Webseite httpmokkbmehuresourceshunmorph (letzter Zugriff 14062012)7 Webseite httpcamlinriafr (letzter Zugriff 14062012)8 Apertium-Wiki httpwikiapertiumorgwikiHunmorph (letzter Zugriff14062012)9 Webseite httphunspellsourceforgenet (letzter Zugriff 14062012)

23

Literaturverzeichnis

[1] S Clematide Morphologie und Lexikographie Vorlesungs-skript Institut fuumlr Computerlinguistik Universitaumlt Zuumlrich 2007URL httpfilesifiuzhchclsiclematlehress07mulscriptscriptpdf

[2] ML Forcada BI Bonev S Ortiz-Rojas JA Peacuterez-OrtizG Ramiacuterez-Saacutenchez F Saacutenchez-Martiacutenez C Armentano-OllerMA Montava FM Tyers und U dA Departament de Llenguatges iSistemes Informagravetics Documentation of the open-source shallow-transfer machine translation platform apertium 2010 URL httpxixonadlsiuaes~franapertium2-documentationpdf

[3] ML Forcada FM Tyers und G Ramiacuterez-Saacutenchez The Apertiummachine translation platform five years on In Proceedings of the FirstInternational Workshop on FreeOpen-Source Rule-Based Machine Trans-lation 3ndash10 2009 URL httpxixonadlsiuaesfreerbmt09presentationsforcada_freerbmt09_5yrsonpdf

[4] T Trosterud und KB Unhammer Evaluating North Saacutemi to Nor-wegian assimilation RBMT In Proceedings of the Third InternationalWorkshop on FreeOpen-Source Rule-Based Machine Translation 2012URL httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-sme-nobpaperpathrev=38833 (noch kein of-fizielles Paper (im PDF) verfuumlgbar)

24

Abbildungsverzeichnis

21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen 10

25

Anhang

IRC-Konversation zu HFSTTypisches Beispiel einer Konversation 10 mit Jonathan North Washing-ton (ldquofirespeakerrdquo) und Mikel L Forcada (ldquomlforcadardquo) welche we-sentliche Beitraumlge zu Apertium leisten gefuumlhrt im IRC 11

1921 lt h2mgt At which stage of the pipeline is HFST employed1921 lt h2mgt I couldnrsquot get that1921 lt mlforcadagt h2m generation of Kazakh[]1922 lt h2mgt Is this process described somewhere in detailsuch that I can read that up1922 lt mlforcadagt is something that looks like lttoolbox butmore powerful1922 lt mlforcadagt h2m firespeaker can help probably1922 lt h2mgt I can only see lexc and twol files wo reallygetting the point[]1922 lt firespeakergt h2m HFST takes a string of text and turnsit into lemmas + tags1922 lt firespeakergt h2m or1922 lt firespeakergt h2m it takes lemmas + tags and turns itinto a string of text[]1923 lt firespeakergt h2m lexc is the morphotactics1923 lt mlforcadagt firespeaker yoursquore right1923 lt h2mgt Ah OK1923 lt firespeakergt h2m twol is the morphophonology

10 Selber bin ich als ldquoh2mrdquo unterwegs11 ircircfreenodenetapertium

26

  • Einfuumlhrung
    • Motivation und Thema
    • Verwendete Umgebung und Konfiguration
      • Grundlagen Zu Apertium und HFST
        • Wesen und Entwicklungsstand von Apertium
        • Wesen und Entwicklungsstand von HFST
          • Hauptteil Die Integration von HFST in Apertium
            • Theorie Zweck und Nutzen der Integration
            • Empirie Die Integration am Beispiel eines Sprachpaars
              • Schluss
                • Zusammenfassung und Ausblick
                • Danksagungen
                  • Literaturverzeichnis
                  • Abbildungsverzeichnis
                  • Anhang
Page 5: Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

(morphologischer) sprachtechnologischer Ressourcen fuumlr den Bereichder Maschinellen Uumlbersetzung zwischen Sprachen von der zumindesteine gepraumlgt ist von einem agglutinierenden oder stark flektierendenSprachbau

In meiner Seminararbeit moumlchte ich also zunaumlchst aufzeigen was Aper-tium und HFST sind (in Kapitel 2) und dann wie sie zueinander stehenund integriert werden koumlnnen um mehr Sprachpaare uumlbersetzen zukoumlnnen Diese Integration mit HFST theoretisch und empirisch auf-zudecken ist Inhalt von Kapitel 3 Die entsprechenden Illustrationenliefere ich anhand des Sprachpaars sme-nob (Nordsamisch zu Norwe-gisch) das zum einen gut dokumentiert ist und mir zum anderen einenZirkelschluss zu meinem Ursprungsthema des Seminars erlaubt naumlm-lich Aufzuzeigen wie Apertium dazu genutzt werden kann Minder-heitensprachen zu unterstuumltzen - nur diesmal bedeutend mehr in dertechnischen Beleuchtung der Sache Interessant an diesem Sprachpaarist zudem dass eine der involvierten Sprachen naumlmlich das Nordsa-mische morphologisch komplex ist und mit dem Norwegischen weniggemein hat d h das Sprachpaar ist von hoher linguistischer DistanzDas ist ein Bereich fuumlr den die Apertium-Plattform urspruumlnglich nichtkonzipiert wurde In einem Uumlberblick zu zeigen wie mit diesen An-forderungen an das RBMT-System umgegangen wird ist Ziel meinerArbeit

Kapitel 4 - der Schluss - setze ich mit einer Zusammenfassung der be-handelten Materie um und stelle die wichtigsten Erkenntnissen meinerSeminararbeit in den Raum Auch ist das der Platz um einen Blick indie Zukunft zu wagen was in Apertium in der naumlchsten Zeit einfliessenwird In dem Zusammenhang sind Chatgespraumlche und Hinweise dieich von (wohl bekannten) Apertium-Entwicklern erhalten habe wert-voll

12 Verwendete Umgebung und KonfigurationAlle meine hier beschriebenen Versuche habe ich auf einem amd64-System durchgefuumlhrt auf das die stabile Debian-Veroumlffentlichung 605(ldquoSqueezerdquo) 2 installiert ist Waumlhrend Apertium bei vielen Distributio-nen von GNULinux paketiert vorliegt gilt das fuumlr das HFST-Frameworknicht dieses wird allerdings benoumltigt um mit morphologisch komple-xen Sprachen zu arbeiten

Will man Apertium zunaumlchst aber nur in den stabilen und fuumlr die Ver-oumlffentlichung herausgegebenen Sprachpaaren testen so kann unter De-bian das Paket apertium installiert werden Zur Installation der Dateienfuumlr eine konkrete (stabile) Uumlbersetzungsrichtung wie z B fr-ca (vonFranzoumlsisch nach Katalanisch) muss zusaumltzlich das Paket apertium-fr-cainstalliert werden In diesem Paket sind die effektiven Lexika in binaumlrerFassung fuumlr diese Sprachrichtung einschliesslich den Transferregelnund anderen benoumltigten Dateien enthalten

2 Debian-Webseite httpwwwdebianorgNews201220120512 (letzter Zugriff08062012)

5

Ist das geschehen kann Apertium auf der Kommandozeile wie folgtgetestet werden

$ echo Jrsquoaime manger du chocolat | apertium fr-ca 1Estima menjar de la xocolata$ echo Ils aiment manger du chocolat | apertium fr-ca 2Estimen menjar de la xocolata

Beide Saumltze 1 3 und 2 4 zeigen auf dass Apertium bei (einfachen)Saumltzen der vorgezeigten Uumlbersetzungsrichtung korrekt arbeitet

Fuumlr weitergehende Versuche insbesondere mit experimentellen Sprach-paaren ist mit den vorkompilierten Paketen aus dem Debian-Paketsystemwenig zu erreichen Fuumlr die meisten der neuesten Sprachpaare wirdApertium in Version 32 benoumltigt 5 Es ist angeraten die aktuellstenPakete manuell zu kompilieren und dem System hinzuzufuumlgen zuletzthabe ich folgende Umgebung auf meinem System erfolgreich getestet

bull Apertium 32 und davon abhaumlngig lttoolbox 32

bull HFST 3311 und davon abhaumlngig OpenFST 132 sowie Foma0916alpha

bull VISL CG-3 0978357

Das meiste Kopfzerbrechen mag HFST bereiten Die Nutzung mit Aper-tium erfolgreich zu konfigurieren erfordert sowohl das ldquoHFST READ-MErdquo auf dem Wiki des Projekts 6 als auch das Apertium-Wiki zumThema HFST 7 zu studieren

Die anderen Pakete (OpenFST Foma und VISL GC-3) sind - den In-struktionen in den jeweiligen README-Dateien befolgend - leicht instal-liert

Wie Apertium selber kompiliert werden kann und beliebige (auch ex-perimentelle) Sprachpaare installiert werden koumlnnen wird ebenfallsim Wiki des Projekts 8 genau erlaumlutert und funktioniert in aller Regelproblemlos Im Falle dass ein Sprachpaar gerade nicht kompilierbarist helfen die Apertium-Entwickler im IRC-Chatkanal 9 apertium aufFreenode 10 meinen Erfahrungen gemaumlss gerne und unkompliziert wei-ter

3 Dt ldquoIch mag es Schokolade zu essenrdquo4 Dt ldquoSie moumlgen es Schokolade zu essenrdquo5 Die juumlngste fuumlr Debian verfuumlgbare Fassung die vorkompiliert paketiert ist stelltVersion 31 dar6 HFST-Wiki httpskitwikicscfitwikibinviewKitWikiHfstReadme(letzter Zugriff 08062012)7 Apertium-Wiki httpwikiapertiumorgwikiHfst (letzter Zugriff08062012)8 Installation von Apertium aus dem SVN-Repository httpwikiapertiumorgwikiApertium_on_UbuntuInstalling_the_newest_version_from_SVN_28more_complicated29 (letzter Zugriff 14062012)9 Internet Relay Chat10 ircircfreenodenetapertium

6

2 Grundlagen Zu Apertiumund HFST

21 Wesen und Entwicklungsstand von ApertiumAn der ersten FreeRBMT-Konferenz1 rekapitulieren Forcada et al [3]2009 unter dem Titel ldquoThe Apertium machine translation plattform fiveyears onrdquo die Entwicklung hin zu einem regelbasierten Uumlbersetzungs-system das schon damals uumlber 20 funktionale Uumlbersetzungsrichtungenaufweist

Was aber war fuumlnf Jahre vorher und was ist jetzt - insgesamt acht Jahrespaumlter

Apertium als solches wurde 2004 als Projekt - finanziert von einemKonsortium aus Staat und Wirtschaft - gegruumlndet um zunaumlchst dieSprachpaare esharrca (Spanisch und Katalanisch) sowie Spanisch undGalicisch als das Paar esharrgl in beidseitige Uumlbersetzungsrichtungen zurealisieren Angesiedelt wurde das Projekt zur Umsetzung an der Uni-versitaumlt von Alicante 2

Zu diesem Zeitpunkt existieren bereits zwei regelbasierte MUuml-Systemedie als Transfersysteme relativ oberflaumlchlich ohne tiefe Syntaxanaly-se zwischen aumlhnlichen Sprachpaaren zu uumlbersetzen faumlhig sind inter-NOSTRUM und Tradutor Universia Dieser Ansatz wird als Shallow-Transfer bezeichnet und bedeutet im einfachsten Fall dass ausser einemlexikalischen Transfer kaum weitere Arbeit fuumlr das System anfaumlllt eineUumlbersetzung relativ erfolgreich zu vollziehen An diesem Ansatz hatsich im Grundsatz nichts geaumlndert Und Dieser Ansatz in seiner ein-fachsten Transferform funktioniert nur fuumlr sehr aumlhnliche Sprachpaaregut Das letztere System (Tradutor Universia) ist spezialisiert auf das

1 Eine Konferenz fuumlr freie RBMT-Systeme httpxixonadlsiuaesfreerbmt09 (letzter Zugriff 14062012)2 Webseite der Universitaumlt httpwwwuaes (letzter Zugriff 14062012)

7

Sprachpaar esharrpt also Spanisch zu Portugiesisch (und umgekehrt) - alssolches ebenso ein Sprachpaar das eine geringe linguistische Distanzaufweist Die groumlssten Unterschiede sind lexikalischer Art

Vor insgesamt acht Jahren wurde angefangen die zwei o g Systeme zuvereinigen Im Zuge dieser Reimplementation wurde auch der Quell-code unter einer freien Lizenz im Sinne der Open Source Initiative 3

veroumlffentlicht Jede Person hat somit die Moumlglichkeit an der Entwick-lung von Apertium mitzuwirken Forcada selber war damals leitendmit dabei und mischt heute weiterhin zentral mit Es sind mittlerweileweitere wichtige Namen in der Apertium-Entwicklung involviert dieals Mentoren 4 fuumlr Interessierte an der Mitarbeit am Projekt fungierenDeren unmittelbare und zeitweise staumlndige Erreichbarkeit kann ich auseigener Erfahrung bestaumltigen

Forcada erwaumlhnt [3] dass fuumlr die Sprachpaare esharrca und es-gl diesprachtechnologischen Ressourcen teils selber (in seinem akademischenUmfeld) erstellt oder - wo moumlglich - aus frei verfuumlgbaren anderen Res-sourcen die frei lizenziert sind bezogen wurden um Apertium initialaufzubauen

Angefangen mit Version 10 welche fuumlr aumlhnliche Sprachpaare wieesharrca und es-pt ausgelegt ist bietet Version 20 bereits die Moumlglich-keit zwischen linguistisch weiter entfernten Sprachen zu uumlbersetzenAls Beispiele hierbei werden frharrca 5 oder enharrca 6 genannt Dafuumlr wur-de der Transferprozess ausgebaut denn es genuumlgt bei diesen Sprachennicht mehr (in vereinfachter Darstellung) die Woumlrter zu ersetzen Einmehrstufiger Strukturtransfer wird erforderlich ohne aber (bis heu-te) eine vollstaumlndige Syntaxanalyse zu betreiben Der juumlngste Major-Versionssprung zur Version 3 markiert dass Apertium vollstaumlndigUNICODE-faumlhig geworden ist und mit allen im Zeichensatz enthalte-nen Symbolen operieren kann

Technologisch setzt Apertium auf bewaumlhrte Technologien Die linguis-tischen Daten sowohl die Lexika als auch die Transferregeln werdenje Sprachpaar in XML-Dateien nach einem klaren Schema abgelegt 7Das erhoumlht die Interoperabilitaumlt zu anderen Systemen die sich diesenRessourcen bedienen moumlchten Ein eigens entwickeltes Toolset exis-tiert (lttoolbox) das die XML-Dateien in ein binaumlres Format uumlberset-zen kann das als ein Finite-State-Transduktor (FST) 8 realisiert wirdAus den Lexika und Transferregeln werden fuumlr jedes Sprachpaar letz-ten Endes drei Transduktoren erstellt welche folgenden drei Bereichengewidmet sind die im Grundsatz den Uumlbersetzungsprozess von Aper-tium ausmachen

3 Webseite der Initiative httpwwwopensourceorg (letzter Zugriff 14062012)4 Apertium-Wiki httpwikiapertiumorgwikiList_of_Apertium_mentors(letzter Zugriff 14062012)5 Franzoumlsisch zu Katalanisch und umgekehrt6 Englisch zu Katalanisch und umgekehrt7 Beispiel der Schemata anhand des Woumlrterbuchschemas httpwikiapertiumorgwikiMonodix_basics (letzter Zugriff 14062012)8 In diesem konkreten Anwendungsfall genauer bekannt als augmented letter trans-ducer

8

1 Lexikalische Analyse (der Quellsprachenwoumlrter)

2 Lexikalischer Transfer (anhand der Wortlemmata mit lexikali-schen Wortmarkierungen)

3 Lexikalische Generierung (der Zielsprachenwoumlrter)

Um die Lemmata fuumlr den Transferprozess erfolgreich lexikalisch zumarkieren sind natuumlrlich Zwischenschritte notwendig wie die morpho-logische Analyse der vorgefundenen Wortform PoS-Tagging 9 zur Wort-artenbestimmung und Word Sense Disambiguation um das (kontextuell)adaumlquate Lemma auszuwaumlhlen und zu taggen Je nach Sprachpaar undSprachbau der involvierten Sprachen ist der dafuumlr erforderliche Auf-wand unterschiedlich gross

Der Einsatz von HFST welcher zur morphologischen Verarbeitung indieser Hinsicht schwieriger Sprachen genutzt wird findet im extensivs-ten Einsatz bei der lexikalischen Analyse (1) und Generierung statt (2) -und das auch nur wenn beide Sprachen der Betrachtung HFST zur mor-phologischen Bewaumlltigung erforderlich machen Ist nur die Quellspra-che morphologisch mit den lttoolbox-Werkzeugen nicht zu bewaumlltigenso findet da der Einsatz von HFST statt ansonsten bei der Zielspra-che In Faumlllen wo sowohl die Zielsprache als auch die Quellsprachegroumlsstenteils mit Konkatenativer Morphologie 10 bewaumlltigt werden kannmacht der Einsatz von HFST wenig Sinn Da wird dann in aller Regellttoolbox fuumlr alles verwendet Das trifft etwa auf alle urspruumlnglichenSprachpaare zu wie ich sie weiter oben erwaumlhnt habe

Apertium ist der UNIX-Philosophie 11 verschrieben dass Programmeim Einzelnen klein und simpel zu sein haben und erst miteinander inInteraktion befindlich Komplexes schaffen sollen Durch das verwen-dete Pipelining kann jeder Analyse- Transfer- und Generierungsschrittin seinem In- und Output genau beobachtet werden Das und die freieVerfuumlgbarkeit des Quellcodes hilft beim Verstaumlndnis der Prozesse un-gemein und macht wissenschaftliche Ergebnisse nachvollziehbar Ge-nauer kann die Pipeline anhand der Abbildung 21 illustriert werden12

Die (relative) Unabhaumlngigkeit der einzelnen Komponenten erlaubt esApertium nur in Teilen zu verwenden z B zum PoS-Tagging eigenerTexte ungeachtet der weitergehenden und (eigentlichen) Hauptfunk-tionalitaumlt der Maschinellen Uumlbersetzung Somit ist Apertium nicht einfach

9 Das PoS-Tagging wird generell statistisch mit trainierten Daten im Einsatz vonHidden-Markov-Modellen (HMM) gemacht oder in Faumlllen wo zu wenig Datenmaterialvorliegt oder der Statistik zugunsten der Linguistik weniger Spielraum gelassen werdensoll faumlllt auf dass auch der Constraint Grammar-Formalismus (CG) eingesetzt wirdDas ist beim Sprachpaar sme-nob das in Kapitel 32 betrachtetet wird der Fall10 Dazu in 31 Genaueres11 Vgl hierzu Wikipedia httpsenwikipediaorgwikiUnix_philosophy(letzter Zugriff 14062012)12 Die schematische Darstellung entspringt den TeX-Quellen der Apertium-Dokumentation fuumlr Version 30 die in Arbeit ist URL httpapertiumsvnsourceforgenetviewvcapertiumbranchesapertium-documentationapertium-30endocumentationtexview=logamppathrev=38833 (letzter Zugriff14062012)

9

Quellsprachedarr

Deform rarr MorphAnal

rarrPoS-Tagging rarr

StruktTrans

rarrMorphGen

rarrPost-Gen

rarr Reform

l darr

LexTrans

Zielsprache

Abbildung 21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen

ein abgeschlossenes MUuml-System im Sinne einer Blackbox sondern ei-ne offene Plattform die hilft freie sprachtechnologische Ressourcen zumehren

Apertium fuumlhrt die Sprachpaare im SVN-Repository 13 abhaumlngig vomEntwicklungsstand in verschiedenen Ordnern

bull In incubator befinden sich kuumlrzlich angesetzte Sprachpaare

bull In nursery befinden sich noch wenig funktionale Sprachpaare

bull In staging befinden sich bereits fortgeschrittene Sprachpaare

bull In trunk befinden sich stabile Sprachpaare die produktiv ge-nutzt werden koumlnnen

Mittlerweile sind im Vergleich zu 2004 zahlreiche weitere Sprachpaa-re hinzukommen entstanden durch Forschungs-Entwicklungsprojektevon Studierenden 14 Arbeiten von Forschungsgruppen an anderenForschungseinrichtungen als Community-Projekte seitens Interessier-ter der Freien Software-Szene und auch mit Entwicklungsunterstuumltzungvon Unternehmen mit kommerziellen Interessen z B Prompsit wel-che Dienstleistungen um Apertium anbietet 15

Zum Zeitpunkt des Abschlusses dieser Arbeit Mitte Juni 201216 befin-den sich 138 () Sprachpaare in incubator 17 28 Sprachpaare in nursery5 Sprachpaare in staging und 37 Sprachpaare in trunk womit rund 40Sprachpaare produktiv genutzt werden koumlnnen Forschungs- und Ent-wicklungsarbeiten hingegen sind schon heute in rund 200 Sprachpaarenmoumlglich und weitere koumlnnen nach Absprache mit den Hauptentwick-lern beliebig hinzugefuumlgt werden

13 SVN-Webview des Repositories httpapertiumsvnsourceforgenetviewvc (letzter Zugriff 14062012)14 Z B im Rahmen des Google Summer of Code (GSoC) httpwikiapertiumorgwikiGoogle_Summer_of_CodeActive_projects (letzter Zugriff 14062012)15 Prompsit-Webseite httpwwwprompsitcomsomos-prompsit (letzter Zu-griff 14062012)16 SVN-Repository des Projekts in Revision 38833 httpapertiumsvnsourceforgenetviewvcapertiumpathrev=38833 (letzter Zugriff 14062012)17 Sowie einige Morphologien im Ansatz die keinem konkreten Sprachpaar gewid-met sind

10

Wichtig fuumlr einen Start sind die freie Verfuumlgbarkeit von Woumlrterbuumlchernund gegebenenfalls Morphologien fuumlr die involvierten Sprachen EineListe solcher Ressourcen fuumlr viele Sprachen wird im Apertium-Wikigefuumlhrt 18

Durch das Hinzukommen von Sprachpaaren deren Sprachen linguis-tisch wenig gemein haben ist der Shallow-Transfer inzwischen staumlrkerausgebaut Fuumlr en-ca (Englisch zu Katalanisch) wird ein dreistufigerStrukturtransfer angewandt in der Reihenfolge Chunking Inter- undPost-Chunking Dabei ist zu beachten dass das Inter-Chunking in (noch)komplexeren Faumlllen mehrstufig sein kann So ist mir das Sprachpaarsme-smj (vom Nordsamischen 32 in das Lulesamische 19) aufgefallen20 das uumlber drei Inter-Chunking-Dateien verfuumlgt 21 die Regeln daruumlberenthalten Chunks (in drei Phasen) zu vertauschen

22 Wesen und Entwicklungsstand von HFSTBeim Helsinki Finite-State Transducer - Framework (HFST) handelt essich um eine in C++ geschriebene Open Source-Softwarekollektion auswelche die Nutzung verschiedener FST-Technologien und -Formalismenheraus einheitlich moumlglich ist die ihrerseits frei (implementiert) verfuumlg-bar sind Es sind dies zum aktuellen Zeitpunkt

bull Die Stuttgart Finite-State Transducer Tools (SFST) mit einer Basis-Unterstuumltzung von Finite-State Transducer mit gewichteten Kan-tenuumlbergaumlngen 22 23

bull Das Foma-Paket das eine freie Implementation der XFSTLEXC-Formalismen darstellt gewichtete Transduktoren koumlnnen nichterstellt werden 24

bull Die OpenFST-Bibliothek es wird die Schaffung von Finite-StateTransducer mit gewichteten Kantenuumlbergaumlngen unterstuumltzt 25

Insbesondere bietet HFST das Tool hfst-twolc an das einen Two-LevelRule Compiler fuumlr den Xerox-TWOLC-Formalismus darstellt Damitkoumlnnen Transduktoren erstellt werden die eine parallele Ersetzung so-wohl der Ober- als auch der Unterseite des Transduktors gleichzeitigerlauben Die Reihenfolge der entsprechenden Deklarationen ist damit

18 Apertium-Wiki httpwikiapertiumorgwikiSpecific_resources_per_language (letzter Zugriff 14062012)19 Ethnologue-Eintrag fuumlr smj httpswwwethnologuecomshow_languageaspcode=smj (letzter Zugriff 14062012)20 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-sme-smj (letzter Zugriff 14062012)21 Die Dateien mit den Endungen ldquot2xrdquo ldquot3xrdquo und ldquot4xrdquo - besonderes Augenmerkkann auf den Bereich ab ltsection-rulesgt gelegt werden22 Webseite httpwwwimsuni-stuttgartdeprojektegramotronSOFTWARESFSThtml (letzter Zugriff 14062012)23 Gemaumlss Angaben von Francis M Tyers im IRC wird auf diese Tools den entspre-chenden Bibliotheken in Apertium kaum zugegriffen24 Dateien mit Endungen ldquoxfstrdquo ldquofomardquo und ldquolexcrdquo werden in aller Regel damitverarbeitet25 Dateien mit Endungen ldquotwolrdquo werden damit prozessiert wobei von gewichtetenKantenuumlbergaumlngen kein Gebrauch gemacht wird

11

unwichtig Im Gegensatz dazu muss beim (klassischen) Xerox Finite-State Tools-Formalismus (XFST) welcher Foma als Compiler frei imple-mentiert der Reihenfolge der Deklarationen Beachtung geschenkt wer-den weil es sich beim XFST-Formalismus um Rewriting-Regeln handeltdie sequentiell immer nur auf die Unterseite (bzw dem ldquozweitenrdquo oderldquorechtenrdquo Band) des Transduktors angewandt werden

Eine umfassende Einfuumlhrung von Finite-State-Automaten und -Transduktorenwuumlrde den Rahmen dieser Arbeit sprengen es sei allerdings darauf hin-gewiesen dass im Apertium-Wiki26 das Thema im Zusammenhang mitden morphologischen Woumlrterbuumlcher die mittels den eigenen lttoolbox-Werkzeugen erstellt werden ausreichend eingefuumlhrt wird

Auf der Seite wird ebenfalls plausibel erklaumlrt dass es zur Uumlbersichtlich-keit und dem Verstaumlndnis der Morphologie beitraumlgt die Deklarationderselben von den Algorithmen zu trennen die sie umsetzen Sowohlder lttoolbox-Formalismus als auch die Formalismen die durch dasHFST-Framework unterstuumltzt werden erfordern die blosse Deklarati-on der Morphologie ohne dass man sich um die (effiziente) Verarbei-tung der Ausdruumlcke selber kuumlmmern muss Die prozeduralen Schritteerledigen lttoolbox und HFST bei der Verarbeitung der jeweiligen De-klarationen in den Dateien 27 selbststaumlndig Damit wird eine Trennungvon morphologischer Deklaration und Programmcode erreicht

Das ist aumlhnlich wie bei der deklarativen (logischen) Programmierspra-che Prolog wo sich die Inferenzmaschine eigenstaumlndig um die effizienteBeweisfuumlhrung des Ziels (engl des ldquogoalsrdquo) kuumlmmert Das Gegenteildieses Ansatzes wird auf der Webseite mit Python-Code demonstriertwelcher im gegebenen Beispiel dafuumlr verwendet wird das Wort ldquobeerrdquound ldquobeersrdquo morphologisch zu analysieren - als ein Substantiv das imSingular oder Plural steht Das wird durch prozedurale Schritte direkterledigt Bei der Implementation sprachvollstaumlndiger Morphologien aufdiese Art gestaltet sich die Wartung der Morphologie als tendenziell un-uumlbersichtlich Hinzu koumlnnen sich bei einem solchen Ansatz in schlechterImplementation Laufzeitprobleme gesellenDer wichtigste Vorteil aber bleibt bis hierhin unerwaumlhnt Transdukto-ren koumlnnen nicht nur zur Analyse von Wortformen in ihre Lemmatasamt lexikalischer Markierungen genutzt werden 28 sondern markierteLemmata (im gegebenen Format) koumlnnen zur Generierung von Wortfor-men genutzt werden 29 In einer prozeduralen Implementation muumlsstesowohl Programmcode fuumlr die Generierung als auch (separat) fuumlr dieAnalyse geschrieben werden Das ist umstaumlndlich

26 Vgl das Apertium-Wiki httpwikiapertiumorgwikiMorphological_dictionaries (letzter Zugriff 14062012)27 Es handelt sich fuumlr Dateien die durch lttoolbox prozessiert werden um die Datei-en in den Ordner der Sprachpaare mit den Endungen ldquodixrdquo fuumlr das morphologischeWoumlrterbuch ldquot1xrdquo bis (maximal) ldquot5xrdquo (je nach Anzahl der Stufen) fuumlr die Transferre-geln und gegebenenfalls den ldquolexcrdquo- und ldquotwolrdquo-Dateien falls bei einer involviertenSprache die Morphologie durch HFST erfasst wird In wenigen Faumlllen sind auch ldquoxfstrdquo-oder ldquofomardquo-Dateien anzutreffen28 Der Transduktor wird in einem solchen Fall in der Regel von links nach rechtsbzw von oben nach unten angewandt29 Der Transduktor wird von rechts nach links bzw von unten nach oben angewandt

12

Ein praktisches Beispiel der Nutzung der resultierenden Transdukto-ren zur Analyse oder Generierung liefert das Apertium-Wiki auf derSeite uumlber lttoolbox 30

Falls bei einer speziellen Anwendung mit Apertium eine (im Einzelfall)weitergehende prozedurale Verarbeitung der Ausgabe aus den Trans-duktoren notwendig wird dann besteht die Moumlglichkeit HFST aus zB Python heraus zu nutzen 31

30 Vgl Apertium-Wiki httpwikiapertiumorgwikiLttoolbox (letzter Zu-griff 14062012)31 Vgl Beitrag auf der nltk-dev-Mailingliste httpsgroupsgooglecomgroupnltk-devbrowse_threadthreadfdb53482cad56234 (letzter Zugriff 14062012)

13

3 Hauptteil Die Integrationvon HFST in Apertium

31 Theorie Zweck und Nutzen der IntegrationFinite-State-Technologien koumlnnen in der Computerlinguistik dafuumlr ge-nutzt werden um Woumlrterbuumlcher elegant aufzubauen oder die mor-phologische Analyse und Generierung von Woumlrtern systematisch zubetreiben und das insbesondere auch in Faumlllen wo die Morphologie derbetrachteten Sprache nicht relativ einfach durch z B Prauml- oder Suffixe(also konkatenativ durch rsquoAneinanderreihenrsquo von Morphemen) erfasstwerden kann sondern gerade auch in Faumlllen wo auch andere Affixewie Infixe zur Anwendung kommen

Nicht mehr simpel sind Morphologien beispielsweise in Faumlllen wo esfuumlr gegebene Wortstaumlmme 1 Faumllle gibt wo Morpheme fuumlr eine Flexi-on inmitten des Stamms eingepflanzt werden muumlssen oder wo Vokaleinmitten von Staumlmmen wegfallen oder durch andere ersetzt werdenmuumlssen um guumlltige Wortformen analysieren oder generieren zu koumln-nen Morphologien fuumlr Sprachen die komplexe Anpassungen an Staumlm-men oder fortgesetzten Wortklassen in bestimmten (z B grammatikali-schen) Faumlllen erfordern werden auch Nicht-Konkatenative Morphologien(NKM) (vgl Clematide 2007 104ff) genannt oder zumindest waumlre dieKonkatenation nach vorwiegend erkennbaren systematischen Regelnder betrachteten Sprache nicht mehr (sinnvoll) nachvollziehbar wuumlrdeman eine Konkatenative Morphologie erzwingen wollen ebenfalls ist dieGefahr von Redundanz sehr hoch wenn jeder nur denkbare Stamm ineine Morphologie einfliesst

Eine saubere Morphologie mit klaren Regeln und in (moumlglichst) schlan-ker Ausfuumlhrung ist eine Anforderung von der gerade ein MaschinellesUumlbersetzungssystem wie Apertium fundamental profitiert um schnell zu

1 Minimaloberflaumlche von Woumlrtern aus der durch Morpheme die vor- um - oderangehaumlngt werden koumlnnen weitere wichtige (weitere) Wortformen entstehen

14

arbeiten und (linguistisch nachvollziehbar) gepflegt werden zu koumlnnen

Wie bereits in Kapitel 21 angedeutet ist es nicht erst das HFST-Frameworkdas Finite-State-Technologien in Apertium einfuumlhrt Die lexikalischenWerkzeuge lttoolbox mit Anwendungen wie lt-comp 2 oder lt-proc 3

werden dazu genutzt die in XML abgefassten Woumlrterbuumlcher in Trans-duktoren umzuwandeln - fuumlr eine schnellere Verarbeitung Mit denMoumlglichkeiten verglichen die das HFST-Framework liefert sind die lt-toolbox-Werkezuge am ehesten mit dem LEXC-Formalismus vergleich-bar welcher Foma beherrscht und auf die Idee fusst Woumlrterbuumlcher an-hand von Staumlmmen (von z B Verben oder Nomen) anhand von Fort-setzungsklassen (durch das Anhaumlngen von Morphemen) aufzubauenSimon Clematide fuumlhrt auch das in seinem Vorlesungsskript von 2007(93ff) genauer aus Darin ist es moumlglich die Morphotaktik der Sprachezu erfassen Schwieriger umzusetzen mit diesen Apertium-Bordmittelnist die Morphophonemik worunter Lautanpassungen oder die Infigierung 4

fallen Diese (u U seltenen aber fuumlr die Korrektheit notwendigen) An-passungen der Morphotaktik berechtigen den Beizug zusaumltzlicher (wohlbekannter und anerkannter) Formalismen wie XFST 5 oder TWOLC

Die wenigsten natuumlrlichen Sprachen sind (vollstaumlndig) KonkatenativerMorphologie Im Rahmen einer kuumlrzlichen Veranstaltung zu Finite-State-Methoden (bei Simon Clematide) haben Simon Hafner und ich die Moumlg-lichkeit erhalten eine (konzeptionelle) Morphologie 6 fuumlr die Planspra-che ldquoKlingonischrdquo 7 anzulegen Diese laumlsst sich tatsaumlchlich fast vollstaumln-dig mit Fortsetzungsklassen auf Basis der Wortstaumlmme und anzuhaumln-genden Morphemen und damit dem LEXC-Formalismus erfassen istaber auch nur ein akademisches Beispiel einer Sprache wo es nie zu(natuumlrlichen) Lautverschiebungen oder anderen komplexen Phaumlnome-nen kam

Die Dokumentation daruumlber wie HFST in Apertium genau genutztwird ist spaumlrlich Gerade in der Apertium-Dokumentation (aktuellnachgefuumlhrt und veroumlffentlicht bis Version 20) seitens Forcada et al[2] wird nichts uumlber die Nutzung von HFST ausgesagt - auch nicht inden neuesten (versionskontrollierten) Fassungen8 im SVN-Repository

Gluumlcklicherweise waren wichtige Apertium-Entwickler mir eine grosseHilfe dabei die noumltigen Einstiegspunkte zu finden Ein Beispiel einer ty-pischen Hilfeleistung ist im Anhang als ldquoIRC-Konversation zu HFSTrdquo9 zu finden die ich mit freundlicher Unterstuumltzung der involviertenPersonen in dieser Seminararbeit in der Form publizieren darf

2 Zur Kompilation von Woumlrterbuumlchern von einem XML- in ein FST-Format3 Zur Prozessierung der Daten im vorgaumlngig generierten FST-Format und der Aus-gabe in einem menschenlesbaren lexikalischen Tagging-Format4 Einfuumlgen eines Affixes in einen Wortstamm auch Infix genannt5 Von Foma implementiert6 Code und Anwendungsbeispiele bei github im git-Repository httpsgithubcom2mhklingomorph (letzter Zugriff 14062012)7 Ethnologue-Eintrag tlh httpswwwethnologuecomshow_languageaspcode=tlh (letzter Zugriff 14062012)8 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-documentationapertium-20en (letzter Zugriff 12062012)9 Siehe Anhang auf Seite 26

15

Zudem Es sind im Apertium-Wiki Informationen daruumlber vorhandenwie ein neues Sprachpaar fuumlr die Nutzung mit HFST angelegt werdenkann 10 Beim gegebenen Beispiel wird schematisch das Sprachpaar tur-tuk angesetzt (real im SVN-Repository existiert das Sprachpaar tuk-tur11) wobei tuk 12fuumlr Turkmenisch und tur 13 fuumlr Tuumlrkisch steht

Generell wird bei Sprachpaaren die mit HFST analysiert (und gene-riert) werden versucht den lexikalischen Transfer moumlglichst auf Ba-sis der Morpheme vorzunehmen Idealerweise kann der groumlsste Teilim LEXC-Formalismus abgedeckt werden Wo das nicht (im Ansatz)gelingt werden TWOLC-Regeln definiert welche die noumltigen Anpas-sungen an den lexikalischen Markierungen und Oberflaumlchenformen derWoumlrter vornehmen

Gruumlnde weshalb TWOLC- gegenuumlber XFST-Deklarationen bevorzugtwerden sind gemaumlss wichtigen Apertium-Entwicklern 14 (1) das uumlber-sichtlichere Format und (2) die einfachere Handhabung von linguisti-schen Phaumlnomenen wie der Vokalharmonie mit dem TWOLC-Formalismus

Ein weiterer wichtiger Grund welcher die mangelnde Verbreitung desXFST-Formalismus bei Apertium erklaumlrt ist vermutlich auch dass Fo-ma erst seit Version 30 von HFST (veroumlffentlicht in 2011) vollstaumlndigunterstuumltzt wird

32 Empirie Die Integration am Beispiel eines SprachpaarsDaruumlber wie ein neues Sprachpaar unter Nutzung von HFST zu Aper-tium hinzugefuumlgt werden kann gibt ein Wiki-Artikel 15 Auskunft ImSinne eines Tutorials wird dabei Schritt fuumlr Schritt im Ansatz gezeigtwie die Implementation einer RBMT von der Turkmenischen Spracheins Tuumlrkische (Sprachpaar tk-tr) umgesetzt werden kann Bei beidenverwandten Sprachen handelt es sich um stark agglutinierende Spra-chen

Das (wissenschaftlich) am besten dokumentierte Beispiel der Nutzungvon HFST im Zusammenhang mit Apertium wird im noch nicht pu-blizierten Paper ldquoEvaluating North Saacutemi to Norwegian assimilationRBMTrdquo [4] beschrieben das von Trond Trosterud und seinem Kollegen

10 Vgl hierzu httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 12062012)11 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-tuk-tur (letzter Zugriff 12062012)12 Ethnologue-Eintrag fuumlr tuk httpswwwethnologuecomshow_languageaspcode=tuk (letzter Zugriff 12062012)13 Ethnologue-Eintrag fuumlr tur httpswwwethnologuecomshow_languageaspcode=tur (letzter Zugriff 12062012)14 Gemaumlss Francis M Tyers und Jonathan North Washington im IRC15 Apertium-Wiki httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 11062012)

16

Kevin Brubeck Unhammer Mitte Juni 2012 an der FreeRBMT 2012 erst-mals oumlffentlich vorgetragen wird 16

Die Nordsamische Sprache 17 (sme) verfuumlgt uumlber geschaumltzte 15rsquo000 bis25rsquo000 Sprecher und wird in Norwegen Schweden und Finnland ge-sprochen Die Sprache wird von den Autoren als stark flektierend undagglutinierend eingeteilt

Die Standardvarietaumlt 18 des Norwegischen in die uumlbersetzt wird ver-fuumlgt gemaumlss Ethnologue 19 uumlber rund 45 Millionen Sprecher und gehoumlrtder indogermanischen Sprachfamilie an Die Sprache wird von Troste-rud und Unhammer [4] als morphologisch wenig komplex angegeben

Dieses Sprachpaar gehoumlrt zu den wenigen wo eine indoeuropaumlische(oder -germanische) Sprache unter Einsatz von HFST mit Apertiumuumlbersetzt wird

Bei den meisten anderen Sprachpaaren wo HFST genutzt wird han-delt es sich beidseitig um Sprachen mit komplexer Morphologie

Bezuumlglich des Sprachpaars unserer Betrachtung fokussieren die Auto-ren auf die Uumlbersetzungsrichtung ins Norwegische weil der Anspruchbloss ist dass Nur-Norwegischsprechende Texte aus dem Nordsami-schen verstehen koumlnnen sollen Umgekehrt wuumlrden die meisten Spre-cher des Nordsamischen bereits Norwegisch verstehen womit der Nut-zen der umgekehrten Uumlbersetzungsrichtung als (zum aktuellen Zeit-punkt) gering eingeschaumltzt wird

Als Motivation fuumlr den Einsatz von HFST gegenuumlber lttoolbox wirdbeispielhaft der Stufenwechsel der Konsonanten des Nordsamischen inQuantitaumlt als auch Qualitaumlt angefuumlhrt 20 Generalisiert betrachtet befuumlr-worten die Autoren die Verwendung von HFST wenn Morphologienzu verarbeiten sind die nicht rein konkatenativ sind - wie ich in Kapitel31 zum Zweck von HFST bereits ausgefuumlhrt habe

Grundsaumltzlich wird gemaumlss Entwickler Unhammer 21 (schematisch) diefolgende UNIX-Pipeline fuumlr sme-nob angewandt

$ echo words|hfst-proc sme-analyserhfst|| 1lt-proc sme-to-nob-dixbin|| 2lt-proc nob-generator-dixbin 3

Im Falle von sme-nob wird HFST alleine fuumlr die Analyse (1) von smegenutzt dann wird wieder generell auf lttoolbox gesetzt in wichtigsterHinsicht im Rahmen des lexikalischen Transfers (2) und der Generierung

16 Information gemaumlss einem Gespraumlch mit Kevin Brubeck Unhammer im IRC Kon-ferenzseite mit Programm httpwwwmolto-projecteufreerbmt-programhtml(letzter Zugriff 14062012)17 Engl ldquoNorth Saacutemirdquo18 Als Buchsprache ldquoBokmaringlrdquo19 Ethnologue-Eintrag zu den Sprachen Norwegens httpswwwethnologuecomshow_countryaspname=no (letzter Zugriff 11062012)20 Vgl hierzu Wikipedia httpsdewikipediaorgwikiStufenwechsel (letzterZugriff 14062012)21 Chatgespraumlch im IRC

17

(3) der Zielsprache nob

Der morphologische sme-Analyzer ist dabei in den Formalismen LEXCund TWOLC geschrieben und fusst auf bereits verfuumlgbare Ressourcen22 zuruumlck was aufzeigt dass HFST im Einsatz fuumlr Apertium auch des-halb interessant ist weil viele Morphologien bereits existieren die inFormalismen geschrieben sind die HFST verarbeiten kann Fuumlr dasAnlegen vieler Sprachpaare ist es nicht notwendig alles from scratch zubeginnen

Auch beim nob-Generator konnte auf (eigene fruumlhere) Ressourcen zu-ruumlckgegriffen werden wie diese im Sprachpaar nn-nb 23 verfuumlgbar sindbei dem Sprachpaar wird zwischen zwei norwegischen Sprachverietauml-ten uumlbersetzt Wichtig ist noch einmal zu betonen dass der nob-Teil (zurGeneration der Norwegischen Wortformen) auf lttoolbox setzt und mitHFST nichts zu schaffen hat

Interessant ist der Einsatz der von Trosterud und Unhammer von Grundauf selber geschriebene Constraint Grammar (CG) 24 zur Wortartendisam-biguierung in dem die Auswahl der Woumlrter (fuumlr die Zielsprache) anhandvon (lokalen) grammatikalischen Kontexten (in der Quellsprache) ge-schieht Das ist auch der Grund weshalb ich eingangs in Kapitel 12VISL CG-3 als obligat zu installierendes Paket anfuumlhre Ohne dieseSoftware ist es nicht moumlglich das Sprachpaar sme-nob zu kompilieren25

Zwischen der morphologischen Analyse (von sme) und der morphologischenGenerierung von nob findet der strukturelle Transfer statt der 4-phasig istdie Autoren Trosterud und Unhammer machen hierbei folgende Anga-ben

1 63 Chunk-Regeln (t1x-Datei)

2 26 Interchunk1-Regeln (t2x-Datei)

3 39 Interchunk2-Regeln (t3x-Datei)

4 29 Postchunk-Regeln (t4x-Datei)

Es reicht also nicht bloss aus Wortformen oder Morpheme zu ersetzensondern es sind komplexe Verschiebungen der markierten Lemmata

22 SVN-Repository des Giellatekno-Projekts httpsvictoriouitnolangtechtrunkgtsme (letzter Zugriff 14062012)23 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-nn-nb (letzter Zugriff 14062012)24 Vgl fuumlr einen kurzen Uumlberblick eine CLab-Seite httpkittcluzhchclabconstraintGrammarilap_visl (letzter Zugriff 14062012)25 Zu erwaumlhnen ist in dem Zusammenhang dass bei den meisten SprachpaarenHidden-Markov-Modelle zum Einsatz kommen um die Wortarten zu bestimmen da-fuumlr wird Sprachmaterial trainiert Im Falle von sme-nob deuten die Autoren allerdingsdarauf hin dass mangels repraumlsentativen Sprachmaterials diese Option keine ist diebefriedigen kann Sie stellen allerdings in Aussicht dass eine Kombination von lin-guistischen CG- und statistischen HMM-Ansaumltzen ein Versuch wert waumlre Dabei wuumlrdezuerst mittels CG ein Kontext eingegrenzt und danach statistisch verfahren

18

notwendig um in das Norwegische zu uumlbersetzen obschon beide Spra-chen der Subjekt-Verb-Objekt-Satzstellung sind

Die Evaluationsergebnisse der Autoren deuten darauf hin dass dasSprachpaar sme-nob funktionalen Charakter hat Post-Editing-Qualitaumltist nicht das Ziel und wird auch nicht erreicht allerdings koumlnnen Nor-wegischsprechende die kein Nordsamisch verstehen in vielen Faumlllenausmachen was die Bedeutung eines Satzes ist - insbesondere dannwenn er kontextualisiert vorliegt

Im Folgenden soll eine praktische Nutzung des Sprachpaars sme-nobin Apertium illustriert werden Als Beispiel diene der einleitende Be-gruumlssungssatz zur Nordsamischen Wikipedia 26 ausgewaumlhlt

$ echo rsquoBures boahtin Wikipediai friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen til Wikipedia til den frie informasjonsordboken

Die resultierende nob-Uumlbersetzung lautet gemaumlss Google Translate 27

auf Deutsch

Willkommen bei Wikipedia dem freien Woumlrterbuch Infor-mationen

Die Uumlbersetzung ist verstaumlndlich abgesehen von der Semantik des Aus-drucks ldquoWoumlrterbuch Informationenrdquo Hier sollte meiner Ansicht nachldquoEnzyklopaumldierdquo stehen Es ist wahrscheinlich dass bereits die Quellenicht den optimalen Begriff fuumlhrt und da das eigentliche Problem liegt

Interessanter ist was passiert wenn wir das ominoumlse i-Suffix bei ldquoWi-kipediairdquo im Nordsamischen entfernen

$ echo rsquoBures boahtin Wikipedia friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen Wikipedia til den frie informasjonsordboken

Wir koumlnnen feststellen dass der Satz einen anderen personalen Bezugherstellt denn gemaumlss Google Translate 28 bedeutet die zweite nob-Uumlbersetzung auf Deutsch

Willkommen Wikipedia dem freien Woumlrterbuch Informa-tionen

Wir werden nun also als ldquoWikipediardquo angesprochen

26 Webseite httpssewikipediaorgwikiVC3A1ldosiidu (letzter Zugriff14062012)27 Vgl hierzu httptranslategooglecomno|de|Velkommen20til20Wikipedia2C20til20den20frie20informasjonsordboken (letzter Zugriff14062012)28 Vgl hierzu httptranslategooglecomno|de|0AVelkommen20Wikipedia2C20til20den20frie20informasjonsordbokenmskip-thinmuskip (letzter Zugriff 14062012)

19

Eine morphologische Analyse der beiden Wortformen ldquoWikipediardquo undldquoWikipediairdquo erhaumlrtet die Vermutungen dass es sich beim i-Suffix umeinen Illativ 29 handelt einem Lokalkasus der dazu genutzt werdenkann eine ldquoHineinbewegungrdquo auszudruumlcken respektive in diesem Falldie entsprechende Praumlposition ldquoaufrdquo in das Substantiv der Named En-tity ldquoWikipediardquo einzugliedern

$ echo Wikipedia | apertium -d sme-nob-morph1^WikipediaWikipedialtNgtltPropgtltOrggtltSggtltAccgtWikipedialtNgtltPropgtltOrggtltSggtltGengtWikipedialtNgtltPropgtltOrggtltSggtltNomgt$^ltCLBgt$

2$ echo Wikipediai | apertium -d sme-nob-morph^WikipediaiWikipedialtNgtltPropgtltOrggtltSggtltIllgt$^ltCLBgt$

Bei Analyse 1 wird ldquoWikipediardquo als ein Substantiv eine Named Entityund (semantisch) als Organisation im Singular markiert Uneinigkeitherrscht fuumlr den Tagger auf dieser Transferstufe noch uumlber den KasusEs ist nicht klar ob ldquoWikipediardquo im Nominativ Akkusativ oder Genitivsteht Das Symbol ltCLBgt steht fuumlr ldquoClause Boundaryrdquo und spielt insbe-sondere fuumlr den Chunker (im Zuge des spaumlteren Transfers) eine Rolle zB zur (groben) Abgrenzung von Nominal- und Verbalphrasen

Analyse 2 faumlllt knapper aus da der Kasusfall keine Rolle mehr spielt -an dessen Stelle tritt nun der Illativ (Symbol ltIllgt) Der Rest bleibt sichgleich

Da aber die Illativ-Markierung in diesem spezifischen Fall auf dernob-Seite zur Oberflaumlchengenerierung des norwegischen Wortes ldquotilrdquo30 fuumlhrt aumlndert sich die Semantik des Satzes merklich

Der Transferprozess bei Apertium kann generell beliebig fein beobach-tet werden fuumlr unser spezifisches Sprachpaar sme-nob sei fuumlr weitereVersuche auf das Apertium-Wiki 31 verwiesen das extensiv Informa-tionen daruumlber fuumlhrt

Es existieren weitere interessante Sprachpaare bei der nur eine Sei-te jeweils stark agglutierend ist und auf entsprechende Formalismen(LEXC- und TWOLC-Formalismen) zuruumlckgegriffen wird So etwa die

29 Vgl Wikipedia httpsdewikipediaorgwikiIllativ (letzter Zugriff14062012)30 Dt ldquoaufrdquo31 httpwikiapertiumorgwikiNorthern_SC3A1mi_and_Norwegian (letzterZugriff 14062012)

20

Sprachpaare quz-spa (Quecha-Castellano) 32 udm-rus (Udmuritische Sprache-Russisch) 33 und kaz-eng (Kasachisch-Englisch) 34 Noch ist der Entwick-lungsstand all dieser Uumlbersetzungsrichtungen aber gering und fuumlr einenproduktiven Einsatz oder eine Evaluation demnach ungeeignet 35

32 Apertium-Wikiseite httpwikiapertiumorgwikiQuechua_cuzqueC3B1o_y_castellano (letzter Zugriff 14062012)33 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-udm-rus (letzter Zugriff 14062012)34 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumincubatorapertium-eng-kaz (letzter Zugriff 14062012)35 Alle drei Sprachpaare sind in den SVN-Ordnern incubator oder nursery un-tergebracht

21

4 Schluss

41 Zusammenfassung und AusblickIn abschliessender Betrachtung ist festzuhalten Die Nutzung von HFSTverleiht Apertium die Faumlhigkeit zu und von Sprachen mit (stark) Nicht-Konkatenativer Morphologie zu uumlbersetzen Dafuumlr muumlssen die Aperti-um-eigenen lttoolbox-Werkzeuge umgangen werden die ansonstenzur morphologischen Analyse und morphologischen Generierung von Wort-formen verwendet werden Der Einsatz von HFST liefert aber keinenMehrwert an anderen Stellen in der Transfer-Pipeline Der lexikalischeTransfer oder strukturelle Anpassungen um der Syntax der Zielsprachenaumlher zu kommen sind Schritte fuumlr die sich die lttoolbox-Werkzeugeweiterhin bewaumlhren

Diskutiert wird eine staumlrkere Integration von HFST in Apertium damitHFST nicht laumlnger der Charakter eines ldquoFremdkoumlrpersrdquo in der Aper-tium-Plattform anhaftet Es existiert die Idee ein Projekt in diese Rich-tung anzustossen um es z B moumlglich zu machen lexc-Dateien anstattmit den HFST-Binaries mit den lttoolbox-Kommandos zu prozessierenDieses Projekt koumlnnte von einem interessierten Studierenden etwa imRahmen des naumlchsten Google Summer of Code (2013) initiiert werden 1

Ein weitere Herausforderung die in der Natur von Apertium als Shallow-Transfer-System begruumlndet liegt 2 hat mit den Bilexika zu tun Apertiummuss fuumlr jedes Sprachpaar ein Bilexikon fuumlhren um den lexikalischenTransfer mittels den lttoolbox-Werkzeugen zu vollziehen Da fuumlr jedeneue Sprachkombination das Bilexikon neu aufgebaut werden mussbesteht hier ein gewisser (manueller) Aufwand bei jedem neuen Sprach-paar das angesetzt wird dieser kann zwar durch Einsatz von Werkzeu-ge aus den apertium-dixtools minimiert werden die Vollautomation

1 Idee zum Projekt httpwikiapertiumorgwikiIdeas_for_Google_Summer_of_CodeCloser_integration_with_HFST (letzter Zugriff 14062012)2 Apertium verwendet keinen sog Interlingua-Ansatz um eine sprachunabhaumlngigeRepraumlsentation von Wortbedeutungen zu fuumlhren

22

funktioniert aber noch nicht 3 4

Weiterhin bleibt Apertium im Grundsatz ein Shallow-Transfer-Systemdas keinen vollstaumlndigen Parse der Quellsprache vornimmt und sietiefen-analysiert Dadurch ist es auch in Zukunft nicht breit moumlglichSemantik uumlber weite Distanzen zu transferieren

Bezuumlglich weiterer Moumlglichkeiten fuumlr Apertium morphologisch zu ana-lysieren generieren kann das Augenmerk auch auf neuere Formalis-men als jene von Xerox 5 gelegt werden So existiert hunmorph 6 dases erlaubt in OCaml 7 - in einem objekt-orientierten Paradigma - Mor-phologien zu beschreiben und dazu eine (relativ) einfache Syntax auf-zuweisen scheint Beispiele explorativer Versuche mit hunmorph fuumlrApertium sind im Wiki des Projekts bereits heute dokumentiert 8 Aus-serdem ist hunmoph morphologisch-analytische Basis des bekanntenSpellcheckers HunSpell das der standardmaumlssige Spellchecker in Libre-Office OpenOfficeorg und einigen Softwareprodukten der MozillaFoundation ist 9

Selber hat es mir Freude bereitet mich in dieses komplexe Gebiet hin-ein zu begeben und ich bin fuumlr die Zukunft interessiert daran michan Apertium nach Kraumlften zu beteiligen da ich die dahinterstehendeCommunity als eine kennen gelernt habe die aufgeschlossen humor-voll und im houmlchsten Masse kompetent ist

42 DanksagungenIch moumlchte mich an dieser Stelle herzlichst im Besonderen bei folgen-den Personen des Apertium-Projekts bedanken dass sie sich Zeit ge-nommen haben sich mit mir im IRC ausgiebig zu unterhalten und denDschungel in und um Apertium zu durchleuchten Mikel L ForcadaFrancis M Tyers Kevin Brubeck Unhammer und Jonathan North Wa-shington

Ohne sie waumlre diese Arbeit in der Form nicht entstanden und vielesQuellmaterial das ich hier verwende schwierg auffindbar gewesen

3 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-dixtools (letzter Zugriff 14062012)4 Vgl hierzu httpwikiapertiumorgwikiCrossdics (letzter Zugriff14062012)5 Namentlich XFST TWOLC und LEXC6 Webseite httpmokkbmehuresourceshunmorph (letzter Zugriff 14062012)7 Webseite httpcamlinriafr (letzter Zugriff 14062012)8 Apertium-Wiki httpwikiapertiumorgwikiHunmorph (letzter Zugriff14062012)9 Webseite httphunspellsourceforgenet (letzter Zugriff 14062012)

23

Literaturverzeichnis

[1] S Clematide Morphologie und Lexikographie Vorlesungs-skript Institut fuumlr Computerlinguistik Universitaumlt Zuumlrich 2007URL httpfilesifiuzhchclsiclematlehress07mulscriptscriptpdf

[2] ML Forcada BI Bonev S Ortiz-Rojas JA Peacuterez-OrtizG Ramiacuterez-Saacutenchez F Saacutenchez-Martiacutenez C Armentano-OllerMA Montava FM Tyers und U dA Departament de Llenguatges iSistemes Informagravetics Documentation of the open-source shallow-transfer machine translation platform apertium 2010 URL httpxixonadlsiuaes~franapertium2-documentationpdf

[3] ML Forcada FM Tyers und G Ramiacuterez-Saacutenchez The Apertiummachine translation platform five years on In Proceedings of the FirstInternational Workshop on FreeOpen-Source Rule-Based Machine Trans-lation 3ndash10 2009 URL httpxixonadlsiuaesfreerbmt09presentationsforcada_freerbmt09_5yrsonpdf

[4] T Trosterud und KB Unhammer Evaluating North Saacutemi to Nor-wegian assimilation RBMT In Proceedings of the Third InternationalWorkshop on FreeOpen-Source Rule-Based Machine Translation 2012URL httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-sme-nobpaperpathrev=38833 (noch kein of-fizielles Paper (im PDF) verfuumlgbar)

24

Abbildungsverzeichnis

21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen 10

25

Anhang

IRC-Konversation zu HFSTTypisches Beispiel einer Konversation 10 mit Jonathan North Washing-ton (ldquofirespeakerrdquo) und Mikel L Forcada (ldquomlforcadardquo) welche we-sentliche Beitraumlge zu Apertium leisten gefuumlhrt im IRC 11

1921 lt h2mgt At which stage of the pipeline is HFST employed1921 lt h2mgt I couldnrsquot get that1921 lt mlforcadagt h2m generation of Kazakh[]1922 lt h2mgt Is this process described somewhere in detailsuch that I can read that up1922 lt mlforcadagt is something that looks like lttoolbox butmore powerful1922 lt mlforcadagt h2m firespeaker can help probably1922 lt h2mgt I can only see lexc and twol files wo reallygetting the point[]1922 lt firespeakergt h2m HFST takes a string of text and turnsit into lemmas + tags1922 lt firespeakergt h2m or1922 lt firespeakergt h2m it takes lemmas + tags and turns itinto a string of text[]1923 lt firespeakergt h2m lexc is the morphotactics1923 lt mlforcadagt firespeaker yoursquore right1923 lt h2mgt Ah OK1923 lt firespeakergt h2m twol is the morphophonology

10 Selber bin ich als ldquoh2mrdquo unterwegs11 ircircfreenodenetapertium

26

  • Einfuumlhrung
    • Motivation und Thema
    • Verwendete Umgebung und Konfiguration
      • Grundlagen Zu Apertium und HFST
        • Wesen und Entwicklungsstand von Apertium
        • Wesen und Entwicklungsstand von HFST
          • Hauptteil Die Integration von HFST in Apertium
            • Theorie Zweck und Nutzen der Integration
            • Empirie Die Integration am Beispiel eines Sprachpaars
              • Schluss
                • Zusammenfassung und Ausblick
                • Danksagungen
                  • Literaturverzeichnis
                  • Abbildungsverzeichnis
                  • Anhang
Page 6: Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

Ist das geschehen kann Apertium auf der Kommandozeile wie folgtgetestet werden

$ echo Jrsquoaime manger du chocolat | apertium fr-ca 1Estima menjar de la xocolata$ echo Ils aiment manger du chocolat | apertium fr-ca 2Estimen menjar de la xocolata

Beide Saumltze 1 3 und 2 4 zeigen auf dass Apertium bei (einfachen)Saumltzen der vorgezeigten Uumlbersetzungsrichtung korrekt arbeitet

Fuumlr weitergehende Versuche insbesondere mit experimentellen Sprach-paaren ist mit den vorkompilierten Paketen aus dem Debian-Paketsystemwenig zu erreichen Fuumlr die meisten der neuesten Sprachpaare wirdApertium in Version 32 benoumltigt 5 Es ist angeraten die aktuellstenPakete manuell zu kompilieren und dem System hinzuzufuumlgen zuletzthabe ich folgende Umgebung auf meinem System erfolgreich getestet

bull Apertium 32 und davon abhaumlngig lttoolbox 32

bull HFST 3311 und davon abhaumlngig OpenFST 132 sowie Foma0916alpha

bull VISL CG-3 0978357

Das meiste Kopfzerbrechen mag HFST bereiten Die Nutzung mit Aper-tium erfolgreich zu konfigurieren erfordert sowohl das ldquoHFST READ-MErdquo auf dem Wiki des Projekts 6 als auch das Apertium-Wiki zumThema HFST 7 zu studieren

Die anderen Pakete (OpenFST Foma und VISL GC-3) sind - den In-struktionen in den jeweiligen README-Dateien befolgend - leicht instal-liert

Wie Apertium selber kompiliert werden kann und beliebige (auch ex-perimentelle) Sprachpaare installiert werden koumlnnen wird ebenfallsim Wiki des Projekts 8 genau erlaumlutert und funktioniert in aller Regelproblemlos Im Falle dass ein Sprachpaar gerade nicht kompilierbarist helfen die Apertium-Entwickler im IRC-Chatkanal 9 apertium aufFreenode 10 meinen Erfahrungen gemaumlss gerne und unkompliziert wei-ter

3 Dt ldquoIch mag es Schokolade zu essenrdquo4 Dt ldquoSie moumlgen es Schokolade zu essenrdquo5 Die juumlngste fuumlr Debian verfuumlgbare Fassung die vorkompiliert paketiert ist stelltVersion 31 dar6 HFST-Wiki httpskitwikicscfitwikibinviewKitWikiHfstReadme(letzter Zugriff 08062012)7 Apertium-Wiki httpwikiapertiumorgwikiHfst (letzter Zugriff08062012)8 Installation von Apertium aus dem SVN-Repository httpwikiapertiumorgwikiApertium_on_UbuntuInstalling_the_newest_version_from_SVN_28more_complicated29 (letzter Zugriff 14062012)9 Internet Relay Chat10 ircircfreenodenetapertium

6

2 Grundlagen Zu Apertiumund HFST

21 Wesen und Entwicklungsstand von ApertiumAn der ersten FreeRBMT-Konferenz1 rekapitulieren Forcada et al [3]2009 unter dem Titel ldquoThe Apertium machine translation plattform fiveyears onrdquo die Entwicklung hin zu einem regelbasierten Uumlbersetzungs-system das schon damals uumlber 20 funktionale Uumlbersetzungsrichtungenaufweist

Was aber war fuumlnf Jahre vorher und was ist jetzt - insgesamt acht Jahrespaumlter

Apertium als solches wurde 2004 als Projekt - finanziert von einemKonsortium aus Staat und Wirtschaft - gegruumlndet um zunaumlchst dieSprachpaare esharrca (Spanisch und Katalanisch) sowie Spanisch undGalicisch als das Paar esharrgl in beidseitige Uumlbersetzungsrichtungen zurealisieren Angesiedelt wurde das Projekt zur Umsetzung an der Uni-versitaumlt von Alicante 2

Zu diesem Zeitpunkt existieren bereits zwei regelbasierte MUuml-Systemedie als Transfersysteme relativ oberflaumlchlich ohne tiefe Syntaxanaly-se zwischen aumlhnlichen Sprachpaaren zu uumlbersetzen faumlhig sind inter-NOSTRUM und Tradutor Universia Dieser Ansatz wird als Shallow-Transfer bezeichnet und bedeutet im einfachsten Fall dass ausser einemlexikalischen Transfer kaum weitere Arbeit fuumlr das System anfaumlllt eineUumlbersetzung relativ erfolgreich zu vollziehen An diesem Ansatz hatsich im Grundsatz nichts geaumlndert Und Dieser Ansatz in seiner ein-fachsten Transferform funktioniert nur fuumlr sehr aumlhnliche Sprachpaaregut Das letztere System (Tradutor Universia) ist spezialisiert auf das

1 Eine Konferenz fuumlr freie RBMT-Systeme httpxixonadlsiuaesfreerbmt09 (letzter Zugriff 14062012)2 Webseite der Universitaumlt httpwwwuaes (letzter Zugriff 14062012)

7

Sprachpaar esharrpt also Spanisch zu Portugiesisch (und umgekehrt) - alssolches ebenso ein Sprachpaar das eine geringe linguistische Distanzaufweist Die groumlssten Unterschiede sind lexikalischer Art

Vor insgesamt acht Jahren wurde angefangen die zwei o g Systeme zuvereinigen Im Zuge dieser Reimplementation wurde auch der Quell-code unter einer freien Lizenz im Sinne der Open Source Initiative 3

veroumlffentlicht Jede Person hat somit die Moumlglichkeit an der Entwick-lung von Apertium mitzuwirken Forcada selber war damals leitendmit dabei und mischt heute weiterhin zentral mit Es sind mittlerweileweitere wichtige Namen in der Apertium-Entwicklung involviert dieals Mentoren 4 fuumlr Interessierte an der Mitarbeit am Projekt fungierenDeren unmittelbare und zeitweise staumlndige Erreichbarkeit kann ich auseigener Erfahrung bestaumltigen

Forcada erwaumlhnt [3] dass fuumlr die Sprachpaare esharrca und es-gl diesprachtechnologischen Ressourcen teils selber (in seinem akademischenUmfeld) erstellt oder - wo moumlglich - aus frei verfuumlgbaren anderen Res-sourcen die frei lizenziert sind bezogen wurden um Apertium initialaufzubauen

Angefangen mit Version 10 welche fuumlr aumlhnliche Sprachpaare wieesharrca und es-pt ausgelegt ist bietet Version 20 bereits die Moumlglich-keit zwischen linguistisch weiter entfernten Sprachen zu uumlbersetzenAls Beispiele hierbei werden frharrca 5 oder enharrca 6 genannt Dafuumlr wur-de der Transferprozess ausgebaut denn es genuumlgt bei diesen Sprachennicht mehr (in vereinfachter Darstellung) die Woumlrter zu ersetzen Einmehrstufiger Strukturtransfer wird erforderlich ohne aber (bis heu-te) eine vollstaumlndige Syntaxanalyse zu betreiben Der juumlngste Major-Versionssprung zur Version 3 markiert dass Apertium vollstaumlndigUNICODE-faumlhig geworden ist und mit allen im Zeichensatz enthalte-nen Symbolen operieren kann

Technologisch setzt Apertium auf bewaumlhrte Technologien Die linguis-tischen Daten sowohl die Lexika als auch die Transferregeln werdenje Sprachpaar in XML-Dateien nach einem klaren Schema abgelegt 7Das erhoumlht die Interoperabilitaumlt zu anderen Systemen die sich diesenRessourcen bedienen moumlchten Ein eigens entwickeltes Toolset exis-tiert (lttoolbox) das die XML-Dateien in ein binaumlres Format uumlberset-zen kann das als ein Finite-State-Transduktor (FST) 8 realisiert wirdAus den Lexika und Transferregeln werden fuumlr jedes Sprachpaar letz-ten Endes drei Transduktoren erstellt welche folgenden drei Bereichengewidmet sind die im Grundsatz den Uumlbersetzungsprozess von Aper-tium ausmachen

3 Webseite der Initiative httpwwwopensourceorg (letzter Zugriff 14062012)4 Apertium-Wiki httpwikiapertiumorgwikiList_of_Apertium_mentors(letzter Zugriff 14062012)5 Franzoumlsisch zu Katalanisch und umgekehrt6 Englisch zu Katalanisch und umgekehrt7 Beispiel der Schemata anhand des Woumlrterbuchschemas httpwikiapertiumorgwikiMonodix_basics (letzter Zugriff 14062012)8 In diesem konkreten Anwendungsfall genauer bekannt als augmented letter trans-ducer

8

1 Lexikalische Analyse (der Quellsprachenwoumlrter)

2 Lexikalischer Transfer (anhand der Wortlemmata mit lexikali-schen Wortmarkierungen)

3 Lexikalische Generierung (der Zielsprachenwoumlrter)

Um die Lemmata fuumlr den Transferprozess erfolgreich lexikalisch zumarkieren sind natuumlrlich Zwischenschritte notwendig wie die morpho-logische Analyse der vorgefundenen Wortform PoS-Tagging 9 zur Wort-artenbestimmung und Word Sense Disambiguation um das (kontextuell)adaumlquate Lemma auszuwaumlhlen und zu taggen Je nach Sprachpaar undSprachbau der involvierten Sprachen ist der dafuumlr erforderliche Auf-wand unterschiedlich gross

Der Einsatz von HFST welcher zur morphologischen Verarbeitung indieser Hinsicht schwieriger Sprachen genutzt wird findet im extensivs-ten Einsatz bei der lexikalischen Analyse (1) und Generierung statt (2) -und das auch nur wenn beide Sprachen der Betrachtung HFST zur mor-phologischen Bewaumlltigung erforderlich machen Ist nur die Quellspra-che morphologisch mit den lttoolbox-Werkzeugen nicht zu bewaumlltigenso findet da der Einsatz von HFST statt ansonsten bei der Zielspra-che In Faumlllen wo sowohl die Zielsprache als auch die Quellsprachegroumlsstenteils mit Konkatenativer Morphologie 10 bewaumlltigt werden kannmacht der Einsatz von HFST wenig Sinn Da wird dann in aller Regellttoolbox fuumlr alles verwendet Das trifft etwa auf alle urspruumlnglichenSprachpaare zu wie ich sie weiter oben erwaumlhnt habe

Apertium ist der UNIX-Philosophie 11 verschrieben dass Programmeim Einzelnen klein und simpel zu sein haben und erst miteinander inInteraktion befindlich Komplexes schaffen sollen Durch das verwen-dete Pipelining kann jeder Analyse- Transfer- und Generierungsschrittin seinem In- und Output genau beobachtet werden Das und die freieVerfuumlgbarkeit des Quellcodes hilft beim Verstaumlndnis der Prozesse un-gemein und macht wissenschaftliche Ergebnisse nachvollziehbar Ge-nauer kann die Pipeline anhand der Abbildung 21 illustriert werden12

Die (relative) Unabhaumlngigkeit der einzelnen Komponenten erlaubt esApertium nur in Teilen zu verwenden z B zum PoS-Tagging eigenerTexte ungeachtet der weitergehenden und (eigentlichen) Hauptfunk-tionalitaumlt der Maschinellen Uumlbersetzung Somit ist Apertium nicht einfach

9 Das PoS-Tagging wird generell statistisch mit trainierten Daten im Einsatz vonHidden-Markov-Modellen (HMM) gemacht oder in Faumlllen wo zu wenig Datenmaterialvorliegt oder der Statistik zugunsten der Linguistik weniger Spielraum gelassen werdensoll faumlllt auf dass auch der Constraint Grammar-Formalismus (CG) eingesetzt wirdDas ist beim Sprachpaar sme-nob das in Kapitel 32 betrachtetet wird der Fall10 Dazu in 31 Genaueres11 Vgl hierzu Wikipedia httpsenwikipediaorgwikiUnix_philosophy(letzter Zugriff 14062012)12 Die schematische Darstellung entspringt den TeX-Quellen der Apertium-Dokumentation fuumlr Version 30 die in Arbeit ist URL httpapertiumsvnsourceforgenetviewvcapertiumbranchesapertium-documentationapertium-30endocumentationtexview=logamppathrev=38833 (letzter Zugriff14062012)

9

Quellsprachedarr

Deform rarr MorphAnal

rarrPoS-Tagging rarr

StruktTrans

rarrMorphGen

rarrPost-Gen

rarr Reform

l darr

LexTrans

Zielsprache

Abbildung 21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen

ein abgeschlossenes MUuml-System im Sinne einer Blackbox sondern ei-ne offene Plattform die hilft freie sprachtechnologische Ressourcen zumehren

Apertium fuumlhrt die Sprachpaare im SVN-Repository 13 abhaumlngig vomEntwicklungsstand in verschiedenen Ordnern

bull In incubator befinden sich kuumlrzlich angesetzte Sprachpaare

bull In nursery befinden sich noch wenig funktionale Sprachpaare

bull In staging befinden sich bereits fortgeschrittene Sprachpaare

bull In trunk befinden sich stabile Sprachpaare die produktiv ge-nutzt werden koumlnnen

Mittlerweile sind im Vergleich zu 2004 zahlreiche weitere Sprachpaa-re hinzukommen entstanden durch Forschungs-Entwicklungsprojektevon Studierenden 14 Arbeiten von Forschungsgruppen an anderenForschungseinrichtungen als Community-Projekte seitens Interessier-ter der Freien Software-Szene und auch mit Entwicklungsunterstuumltzungvon Unternehmen mit kommerziellen Interessen z B Prompsit wel-che Dienstleistungen um Apertium anbietet 15

Zum Zeitpunkt des Abschlusses dieser Arbeit Mitte Juni 201216 befin-den sich 138 () Sprachpaare in incubator 17 28 Sprachpaare in nursery5 Sprachpaare in staging und 37 Sprachpaare in trunk womit rund 40Sprachpaare produktiv genutzt werden koumlnnen Forschungs- und Ent-wicklungsarbeiten hingegen sind schon heute in rund 200 Sprachpaarenmoumlglich und weitere koumlnnen nach Absprache mit den Hauptentwick-lern beliebig hinzugefuumlgt werden

13 SVN-Webview des Repositories httpapertiumsvnsourceforgenetviewvc (letzter Zugriff 14062012)14 Z B im Rahmen des Google Summer of Code (GSoC) httpwikiapertiumorgwikiGoogle_Summer_of_CodeActive_projects (letzter Zugriff 14062012)15 Prompsit-Webseite httpwwwprompsitcomsomos-prompsit (letzter Zu-griff 14062012)16 SVN-Repository des Projekts in Revision 38833 httpapertiumsvnsourceforgenetviewvcapertiumpathrev=38833 (letzter Zugriff 14062012)17 Sowie einige Morphologien im Ansatz die keinem konkreten Sprachpaar gewid-met sind

10

Wichtig fuumlr einen Start sind die freie Verfuumlgbarkeit von Woumlrterbuumlchernund gegebenenfalls Morphologien fuumlr die involvierten Sprachen EineListe solcher Ressourcen fuumlr viele Sprachen wird im Apertium-Wikigefuumlhrt 18

Durch das Hinzukommen von Sprachpaaren deren Sprachen linguis-tisch wenig gemein haben ist der Shallow-Transfer inzwischen staumlrkerausgebaut Fuumlr en-ca (Englisch zu Katalanisch) wird ein dreistufigerStrukturtransfer angewandt in der Reihenfolge Chunking Inter- undPost-Chunking Dabei ist zu beachten dass das Inter-Chunking in (noch)komplexeren Faumlllen mehrstufig sein kann So ist mir das Sprachpaarsme-smj (vom Nordsamischen 32 in das Lulesamische 19) aufgefallen20 das uumlber drei Inter-Chunking-Dateien verfuumlgt 21 die Regeln daruumlberenthalten Chunks (in drei Phasen) zu vertauschen

22 Wesen und Entwicklungsstand von HFSTBeim Helsinki Finite-State Transducer - Framework (HFST) handelt essich um eine in C++ geschriebene Open Source-Softwarekollektion auswelche die Nutzung verschiedener FST-Technologien und -Formalismenheraus einheitlich moumlglich ist die ihrerseits frei (implementiert) verfuumlg-bar sind Es sind dies zum aktuellen Zeitpunkt

bull Die Stuttgart Finite-State Transducer Tools (SFST) mit einer Basis-Unterstuumltzung von Finite-State Transducer mit gewichteten Kan-tenuumlbergaumlngen 22 23

bull Das Foma-Paket das eine freie Implementation der XFSTLEXC-Formalismen darstellt gewichtete Transduktoren koumlnnen nichterstellt werden 24

bull Die OpenFST-Bibliothek es wird die Schaffung von Finite-StateTransducer mit gewichteten Kantenuumlbergaumlngen unterstuumltzt 25

Insbesondere bietet HFST das Tool hfst-twolc an das einen Two-LevelRule Compiler fuumlr den Xerox-TWOLC-Formalismus darstellt Damitkoumlnnen Transduktoren erstellt werden die eine parallele Ersetzung so-wohl der Ober- als auch der Unterseite des Transduktors gleichzeitigerlauben Die Reihenfolge der entsprechenden Deklarationen ist damit

18 Apertium-Wiki httpwikiapertiumorgwikiSpecific_resources_per_language (letzter Zugriff 14062012)19 Ethnologue-Eintrag fuumlr smj httpswwwethnologuecomshow_languageaspcode=smj (letzter Zugriff 14062012)20 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-sme-smj (letzter Zugriff 14062012)21 Die Dateien mit den Endungen ldquot2xrdquo ldquot3xrdquo und ldquot4xrdquo - besonderes Augenmerkkann auf den Bereich ab ltsection-rulesgt gelegt werden22 Webseite httpwwwimsuni-stuttgartdeprojektegramotronSOFTWARESFSThtml (letzter Zugriff 14062012)23 Gemaumlss Angaben von Francis M Tyers im IRC wird auf diese Tools den entspre-chenden Bibliotheken in Apertium kaum zugegriffen24 Dateien mit Endungen ldquoxfstrdquo ldquofomardquo und ldquolexcrdquo werden in aller Regel damitverarbeitet25 Dateien mit Endungen ldquotwolrdquo werden damit prozessiert wobei von gewichtetenKantenuumlbergaumlngen kein Gebrauch gemacht wird

11

unwichtig Im Gegensatz dazu muss beim (klassischen) Xerox Finite-State Tools-Formalismus (XFST) welcher Foma als Compiler frei imple-mentiert der Reihenfolge der Deklarationen Beachtung geschenkt wer-den weil es sich beim XFST-Formalismus um Rewriting-Regeln handeltdie sequentiell immer nur auf die Unterseite (bzw dem ldquozweitenrdquo oderldquorechtenrdquo Band) des Transduktors angewandt werden

Eine umfassende Einfuumlhrung von Finite-State-Automaten und -Transduktorenwuumlrde den Rahmen dieser Arbeit sprengen es sei allerdings darauf hin-gewiesen dass im Apertium-Wiki26 das Thema im Zusammenhang mitden morphologischen Woumlrterbuumlcher die mittels den eigenen lttoolbox-Werkzeugen erstellt werden ausreichend eingefuumlhrt wird

Auf der Seite wird ebenfalls plausibel erklaumlrt dass es zur Uumlbersichtlich-keit und dem Verstaumlndnis der Morphologie beitraumlgt die Deklarationderselben von den Algorithmen zu trennen die sie umsetzen Sowohlder lttoolbox-Formalismus als auch die Formalismen die durch dasHFST-Framework unterstuumltzt werden erfordern die blosse Deklarati-on der Morphologie ohne dass man sich um die (effiziente) Verarbei-tung der Ausdruumlcke selber kuumlmmern muss Die prozeduralen Schritteerledigen lttoolbox und HFST bei der Verarbeitung der jeweiligen De-klarationen in den Dateien 27 selbststaumlndig Damit wird eine Trennungvon morphologischer Deklaration und Programmcode erreicht

Das ist aumlhnlich wie bei der deklarativen (logischen) Programmierspra-che Prolog wo sich die Inferenzmaschine eigenstaumlndig um die effizienteBeweisfuumlhrung des Ziels (engl des ldquogoalsrdquo) kuumlmmert Das Gegenteildieses Ansatzes wird auf der Webseite mit Python-Code demonstriertwelcher im gegebenen Beispiel dafuumlr verwendet wird das Wort ldquobeerrdquound ldquobeersrdquo morphologisch zu analysieren - als ein Substantiv das imSingular oder Plural steht Das wird durch prozedurale Schritte direkterledigt Bei der Implementation sprachvollstaumlndiger Morphologien aufdiese Art gestaltet sich die Wartung der Morphologie als tendenziell un-uumlbersichtlich Hinzu koumlnnen sich bei einem solchen Ansatz in schlechterImplementation Laufzeitprobleme gesellenDer wichtigste Vorteil aber bleibt bis hierhin unerwaumlhnt Transdukto-ren koumlnnen nicht nur zur Analyse von Wortformen in ihre Lemmatasamt lexikalischer Markierungen genutzt werden 28 sondern markierteLemmata (im gegebenen Format) koumlnnen zur Generierung von Wortfor-men genutzt werden 29 In einer prozeduralen Implementation muumlsstesowohl Programmcode fuumlr die Generierung als auch (separat) fuumlr dieAnalyse geschrieben werden Das ist umstaumlndlich

26 Vgl das Apertium-Wiki httpwikiapertiumorgwikiMorphological_dictionaries (letzter Zugriff 14062012)27 Es handelt sich fuumlr Dateien die durch lttoolbox prozessiert werden um die Datei-en in den Ordner der Sprachpaare mit den Endungen ldquodixrdquo fuumlr das morphologischeWoumlrterbuch ldquot1xrdquo bis (maximal) ldquot5xrdquo (je nach Anzahl der Stufen) fuumlr die Transferre-geln und gegebenenfalls den ldquolexcrdquo- und ldquotwolrdquo-Dateien falls bei einer involviertenSprache die Morphologie durch HFST erfasst wird In wenigen Faumlllen sind auch ldquoxfstrdquo-oder ldquofomardquo-Dateien anzutreffen28 Der Transduktor wird in einem solchen Fall in der Regel von links nach rechtsbzw von oben nach unten angewandt29 Der Transduktor wird von rechts nach links bzw von unten nach oben angewandt

12

Ein praktisches Beispiel der Nutzung der resultierenden Transdukto-ren zur Analyse oder Generierung liefert das Apertium-Wiki auf derSeite uumlber lttoolbox 30

Falls bei einer speziellen Anwendung mit Apertium eine (im Einzelfall)weitergehende prozedurale Verarbeitung der Ausgabe aus den Trans-duktoren notwendig wird dann besteht die Moumlglichkeit HFST aus zB Python heraus zu nutzen 31

30 Vgl Apertium-Wiki httpwikiapertiumorgwikiLttoolbox (letzter Zu-griff 14062012)31 Vgl Beitrag auf der nltk-dev-Mailingliste httpsgroupsgooglecomgroupnltk-devbrowse_threadthreadfdb53482cad56234 (letzter Zugriff 14062012)

13

3 Hauptteil Die Integrationvon HFST in Apertium

31 Theorie Zweck und Nutzen der IntegrationFinite-State-Technologien koumlnnen in der Computerlinguistik dafuumlr ge-nutzt werden um Woumlrterbuumlcher elegant aufzubauen oder die mor-phologische Analyse und Generierung von Woumlrtern systematisch zubetreiben und das insbesondere auch in Faumlllen wo die Morphologie derbetrachteten Sprache nicht relativ einfach durch z B Prauml- oder Suffixe(also konkatenativ durch rsquoAneinanderreihenrsquo von Morphemen) erfasstwerden kann sondern gerade auch in Faumlllen wo auch andere Affixewie Infixe zur Anwendung kommen

Nicht mehr simpel sind Morphologien beispielsweise in Faumlllen wo esfuumlr gegebene Wortstaumlmme 1 Faumllle gibt wo Morpheme fuumlr eine Flexi-on inmitten des Stamms eingepflanzt werden muumlssen oder wo Vokaleinmitten von Staumlmmen wegfallen oder durch andere ersetzt werdenmuumlssen um guumlltige Wortformen analysieren oder generieren zu koumln-nen Morphologien fuumlr Sprachen die komplexe Anpassungen an Staumlm-men oder fortgesetzten Wortklassen in bestimmten (z B grammatikali-schen) Faumlllen erfordern werden auch Nicht-Konkatenative Morphologien(NKM) (vgl Clematide 2007 104ff) genannt oder zumindest waumlre dieKonkatenation nach vorwiegend erkennbaren systematischen Regelnder betrachteten Sprache nicht mehr (sinnvoll) nachvollziehbar wuumlrdeman eine Konkatenative Morphologie erzwingen wollen ebenfalls ist dieGefahr von Redundanz sehr hoch wenn jeder nur denkbare Stamm ineine Morphologie einfliesst

Eine saubere Morphologie mit klaren Regeln und in (moumlglichst) schlan-ker Ausfuumlhrung ist eine Anforderung von der gerade ein MaschinellesUumlbersetzungssystem wie Apertium fundamental profitiert um schnell zu

1 Minimaloberflaumlche von Woumlrtern aus der durch Morpheme die vor- um - oderangehaumlngt werden koumlnnen weitere wichtige (weitere) Wortformen entstehen

14

arbeiten und (linguistisch nachvollziehbar) gepflegt werden zu koumlnnen

Wie bereits in Kapitel 21 angedeutet ist es nicht erst das HFST-Frameworkdas Finite-State-Technologien in Apertium einfuumlhrt Die lexikalischenWerkzeuge lttoolbox mit Anwendungen wie lt-comp 2 oder lt-proc 3

werden dazu genutzt die in XML abgefassten Woumlrterbuumlcher in Trans-duktoren umzuwandeln - fuumlr eine schnellere Verarbeitung Mit denMoumlglichkeiten verglichen die das HFST-Framework liefert sind die lt-toolbox-Werkezuge am ehesten mit dem LEXC-Formalismus vergleich-bar welcher Foma beherrscht und auf die Idee fusst Woumlrterbuumlcher an-hand von Staumlmmen (von z B Verben oder Nomen) anhand von Fort-setzungsklassen (durch das Anhaumlngen von Morphemen) aufzubauenSimon Clematide fuumlhrt auch das in seinem Vorlesungsskript von 2007(93ff) genauer aus Darin ist es moumlglich die Morphotaktik der Sprachezu erfassen Schwieriger umzusetzen mit diesen Apertium-Bordmittelnist die Morphophonemik worunter Lautanpassungen oder die Infigierung 4

fallen Diese (u U seltenen aber fuumlr die Korrektheit notwendigen) An-passungen der Morphotaktik berechtigen den Beizug zusaumltzlicher (wohlbekannter und anerkannter) Formalismen wie XFST 5 oder TWOLC

Die wenigsten natuumlrlichen Sprachen sind (vollstaumlndig) KonkatenativerMorphologie Im Rahmen einer kuumlrzlichen Veranstaltung zu Finite-State-Methoden (bei Simon Clematide) haben Simon Hafner und ich die Moumlg-lichkeit erhalten eine (konzeptionelle) Morphologie 6 fuumlr die Planspra-che ldquoKlingonischrdquo 7 anzulegen Diese laumlsst sich tatsaumlchlich fast vollstaumln-dig mit Fortsetzungsklassen auf Basis der Wortstaumlmme und anzuhaumln-genden Morphemen und damit dem LEXC-Formalismus erfassen istaber auch nur ein akademisches Beispiel einer Sprache wo es nie zu(natuumlrlichen) Lautverschiebungen oder anderen komplexen Phaumlnome-nen kam

Die Dokumentation daruumlber wie HFST in Apertium genau genutztwird ist spaumlrlich Gerade in der Apertium-Dokumentation (aktuellnachgefuumlhrt und veroumlffentlicht bis Version 20) seitens Forcada et al[2] wird nichts uumlber die Nutzung von HFST ausgesagt - auch nicht inden neuesten (versionskontrollierten) Fassungen8 im SVN-Repository

Gluumlcklicherweise waren wichtige Apertium-Entwickler mir eine grosseHilfe dabei die noumltigen Einstiegspunkte zu finden Ein Beispiel einer ty-pischen Hilfeleistung ist im Anhang als ldquoIRC-Konversation zu HFSTrdquo9 zu finden die ich mit freundlicher Unterstuumltzung der involviertenPersonen in dieser Seminararbeit in der Form publizieren darf

2 Zur Kompilation von Woumlrterbuumlchern von einem XML- in ein FST-Format3 Zur Prozessierung der Daten im vorgaumlngig generierten FST-Format und der Aus-gabe in einem menschenlesbaren lexikalischen Tagging-Format4 Einfuumlgen eines Affixes in einen Wortstamm auch Infix genannt5 Von Foma implementiert6 Code und Anwendungsbeispiele bei github im git-Repository httpsgithubcom2mhklingomorph (letzter Zugriff 14062012)7 Ethnologue-Eintrag tlh httpswwwethnologuecomshow_languageaspcode=tlh (letzter Zugriff 14062012)8 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-documentationapertium-20en (letzter Zugriff 12062012)9 Siehe Anhang auf Seite 26

15

Zudem Es sind im Apertium-Wiki Informationen daruumlber vorhandenwie ein neues Sprachpaar fuumlr die Nutzung mit HFST angelegt werdenkann 10 Beim gegebenen Beispiel wird schematisch das Sprachpaar tur-tuk angesetzt (real im SVN-Repository existiert das Sprachpaar tuk-tur11) wobei tuk 12fuumlr Turkmenisch und tur 13 fuumlr Tuumlrkisch steht

Generell wird bei Sprachpaaren die mit HFST analysiert (und gene-riert) werden versucht den lexikalischen Transfer moumlglichst auf Ba-sis der Morpheme vorzunehmen Idealerweise kann der groumlsste Teilim LEXC-Formalismus abgedeckt werden Wo das nicht (im Ansatz)gelingt werden TWOLC-Regeln definiert welche die noumltigen Anpas-sungen an den lexikalischen Markierungen und Oberflaumlchenformen derWoumlrter vornehmen

Gruumlnde weshalb TWOLC- gegenuumlber XFST-Deklarationen bevorzugtwerden sind gemaumlss wichtigen Apertium-Entwicklern 14 (1) das uumlber-sichtlichere Format und (2) die einfachere Handhabung von linguisti-schen Phaumlnomenen wie der Vokalharmonie mit dem TWOLC-Formalismus

Ein weiterer wichtiger Grund welcher die mangelnde Verbreitung desXFST-Formalismus bei Apertium erklaumlrt ist vermutlich auch dass Fo-ma erst seit Version 30 von HFST (veroumlffentlicht in 2011) vollstaumlndigunterstuumltzt wird

32 Empirie Die Integration am Beispiel eines SprachpaarsDaruumlber wie ein neues Sprachpaar unter Nutzung von HFST zu Aper-tium hinzugefuumlgt werden kann gibt ein Wiki-Artikel 15 Auskunft ImSinne eines Tutorials wird dabei Schritt fuumlr Schritt im Ansatz gezeigtwie die Implementation einer RBMT von der Turkmenischen Spracheins Tuumlrkische (Sprachpaar tk-tr) umgesetzt werden kann Bei beidenverwandten Sprachen handelt es sich um stark agglutinierende Spra-chen

Das (wissenschaftlich) am besten dokumentierte Beispiel der Nutzungvon HFST im Zusammenhang mit Apertium wird im noch nicht pu-blizierten Paper ldquoEvaluating North Saacutemi to Norwegian assimilationRBMTrdquo [4] beschrieben das von Trond Trosterud und seinem Kollegen

10 Vgl hierzu httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 12062012)11 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-tuk-tur (letzter Zugriff 12062012)12 Ethnologue-Eintrag fuumlr tuk httpswwwethnologuecomshow_languageaspcode=tuk (letzter Zugriff 12062012)13 Ethnologue-Eintrag fuumlr tur httpswwwethnologuecomshow_languageaspcode=tur (letzter Zugriff 12062012)14 Gemaumlss Francis M Tyers und Jonathan North Washington im IRC15 Apertium-Wiki httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 11062012)

16

Kevin Brubeck Unhammer Mitte Juni 2012 an der FreeRBMT 2012 erst-mals oumlffentlich vorgetragen wird 16

Die Nordsamische Sprache 17 (sme) verfuumlgt uumlber geschaumltzte 15rsquo000 bis25rsquo000 Sprecher und wird in Norwegen Schweden und Finnland ge-sprochen Die Sprache wird von den Autoren als stark flektierend undagglutinierend eingeteilt

Die Standardvarietaumlt 18 des Norwegischen in die uumlbersetzt wird ver-fuumlgt gemaumlss Ethnologue 19 uumlber rund 45 Millionen Sprecher und gehoumlrtder indogermanischen Sprachfamilie an Die Sprache wird von Troste-rud und Unhammer [4] als morphologisch wenig komplex angegeben

Dieses Sprachpaar gehoumlrt zu den wenigen wo eine indoeuropaumlische(oder -germanische) Sprache unter Einsatz von HFST mit Apertiumuumlbersetzt wird

Bei den meisten anderen Sprachpaaren wo HFST genutzt wird han-delt es sich beidseitig um Sprachen mit komplexer Morphologie

Bezuumlglich des Sprachpaars unserer Betrachtung fokussieren die Auto-ren auf die Uumlbersetzungsrichtung ins Norwegische weil der Anspruchbloss ist dass Nur-Norwegischsprechende Texte aus dem Nordsami-schen verstehen koumlnnen sollen Umgekehrt wuumlrden die meisten Spre-cher des Nordsamischen bereits Norwegisch verstehen womit der Nut-zen der umgekehrten Uumlbersetzungsrichtung als (zum aktuellen Zeit-punkt) gering eingeschaumltzt wird

Als Motivation fuumlr den Einsatz von HFST gegenuumlber lttoolbox wirdbeispielhaft der Stufenwechsel der Konsonanten des Nordsamischen inQuantitaumlt als auch Qualitaumlt angefuumlhrt 20 Generalisiert betrachtet befuumlr-worten die Autoren die Verwendung von HFST wenn Morphologienzu verarbeiten sind die nicht rein konkatenativ sind - wie ich in Kapitel31 zum Zweck von HFST bereits ausgefuumlhrt habe

Grundsaumltzlich wird gemaumlss Entwickler Unhammer 21 (schematisch) diefolgende UNIX-Pipeline fuumlr sme-nob angewandt

$ echo words|hfst-proc sme-analyserhfst|| 1lt-proc sme-to-nob-dixbin|| 2lt-proc nob-generator-dixbin 3

Im Falle von sme-nob wird HFST alleine fuumlr die Analyse (1) von smegenutzt dann wird wieder generell auf lttoolbox gesetzt in wichtigsterHinsicht im Rahmen des lexikalischen Transfers (2) und der Generierung

16 Information gemaumlss einem Gespraumlch mit Kevin Brubeck Unhammer im IRC Kon-ferenzseite mit Programm httpwwwmolto-projecteufreerbmt-programhtml(letzter Zugriff 14062012)17 Engl ldquoNorth Saacutemirdquo18 Als Buchsprache ldquoBokmaringlrdquo19 Ethnologue-Eintrag zu den Sprachen Norwegens httpswwwethnologuecomshow_countryaspname=no (letzter Zugriff 11062012)20 Vgl hierzu Wikipedia httpsdewikipediaorgwikiStufenwechsel (letzterZugriff 14062012)21 Chatgespraumlch im IRC

17

(3) der Zielsprache nob

Der morphologische sme-Analyzer ist dabei in den Formalismen LEXCund TWOLC geschrieben und fusst auf bereits verfuumlgbare Ressourcen22 zuruumlck was aufzeigt dass HFST im Einsatz fuumlr Apertium auch des-halb interessant ist weil viele Morphologien bereits existieren die inFormalismen geschrieben sind die HFST verarbeiten kann Fuumlr dasAnlegen vieler Sprachpaare ist es nicht notwendig alles from scratch zubeginnen

Auch beim nob-Generator konnte auf (eigene fruumlhere) Ressourcen zu-ruumlckgegriffen werden wie diese im Sprachpaar nn-nb 23 verfuumlgbar sindbei dem Sprachpaar wird zwischen zwei norwegischen Sprachverietauml-ten uumlbersetzt Wichtig ist noch einmal zu betonen dass der nob-Teil (zurGeneration der Norwegischen Wortformen) auf lttoolbox setzt und mitHFST nichts zu schaffen hat

Interessant ist der Einsatz der von Trosterud und Unhammer von Grundauf selber geschriebene Constraint Grammar (CG) 24 zur Wortartendisam-biguierung in dem die Auswahl der Woumlrter (fuumlr die Zielsprache) anhandvon (lokalen) grammatikalischen Kontexten (in der Quellsprache) ge-schieht Das ist auch der Grund weshalb ich eingangs in Kapitel 12VISL CG-3 als obligat zu installierendes Paket anfuumlhre Ohne dieseSoftware ist es nicht moumlglich das Sprachpaar sme-nob zu kompilieren25

Zwischen der morphologischen Analyse (von sme) und der morphologischenGenerierung von nob findet der strukturelle Transfer statt der 4-phasig istdie Autoren Trosterud und Unhammer machen hierbei folgende Anga-ben

1 63 Chunk-Regeln (t1x-Datei)

2 26 Interchunk1-Regeln (t2x-Datei)

3 39 Interchunk2-Regeln (t3x-Datei)

4 29 Postchunk-Regeln (t4x-Datei)

Es reicht also nicht bloss aus Wortformen oder Morpheme zu ersetzensondern es sind komplexe Verschiebungen der markierten Lemmata

22 SVN-Repository des Giellatekno-Projekts httpsvictoriouitnolangtechtrunkgtsme (letzter Zugriff 14062012)23 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-nn-nb (letzter Zugriff 14062012)24 Vgl fuumlr einen kurzen Uumlberblick eine CLab-Seite httpkittcluzhchclabconstraintGrammarilap_visl (letzter Zugriff 14062012)25 Zu erwaumlhnen ist in dem Zusammenhang dass bei den meisten SprachpaarenHidden-Markov-Modelle zum Einsatz kommen um die Wortarten zu bestimmen da-fuumlr wird Sprachmaterial trainiert Im Falle von sme-nob deuten die Autoren allerdingsdarauf hin dass mangels repraumlsentativen Sprachmaterials diese Option keine ist diebefriedigen kann Sie stellen allerdings in Aussicht dass eine Kombination von lin-guistischen CG- und statistischen HMM-Ansaumltzen ein Versuch wert waumlre Dabei wuumlrdezuerst mittels CG ein Kontext eingegrenzt und danach statistisch verfahren

18

notwendig um in das Norwegische zu uumlbersetzen obschon beide Spra-chen der Subjekt-Verb-Objekt-Satzstellung sind

Die Evaluationsergebnisse der Autoren deuten darauf hin dass dasSprachpaar sme-nob funktionalen Charakter hat Post-Editing-Qualitaumltist nicht das Ziel und wird auch nicht erreicht allerdings koumlnnen Nor-wegischsprechende die kein Nordsamisch verstehen in vielen Faumlllenausmachen was die Bedeutung eines Satzes ist - insbesondere dannwenn er kontextualisiert vorliegt

Im Folgenden soll eine praktische Nutzung des Sprachpaars sme-nobin Apertium illustriert werden Als Beispiel diene der einleitende Be-gruumlssungssatz zur Nordsamischen Wikipedia 26 ausgewaumlhlt

$ echo rsquoBures boahtin Wikipediai friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen til Wikipedia til den frie informasjonsordboken

Die resultierende nob-Uumlbersetzung lautet gemaumlss Google Translate 27

auf Deutsch

Willkommen bei Wikipedia dem freien Woumlrterbuch Infor-mationen

Die Uumlbersetzung ist verstaumlndlich abgesehen von der Semantik des Aus-drucks ldquoWoumlrterbuch Informationenrdquo Hier sollte meiner Ansicht nachldquoEnzyklopaumldierdquo stehen Es ist wahrscheinlich dass bereits die Quellenicht den optimalen Begriff fuumlhrt und da das eigentliche Problem liegt

Interessanter ist was passiert wenn wir das ominoumlse i-Suffix bei ldquoWi-kipediairdquo im Nordsamischen entfernen

$ echo rsquoBures boahtin Wikipedia friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen Wikipedia til den frie informasjonsordboken

Wir koumlnnen feststellen dass der Satz einen anderen personalen Bezugherstellt denn gemaumlss Google Translate 28 bedeutet die zweite nob-Uumlbersetzung auf Deutsch

Willkommen Wikipedia dem freien Woumlrterbuch Informa-tionen

Wir werden nun also als ldquoWikipediardquo angesprochen

26 Webseite httpssewikipediaorgwikiVC3A1ldosiidu (letzter Zugriff14062012)27 Vgl hierzu httptranslategooglecomno|de|Velkommen20til20Wikipedia2C20til20den20frie20informasjonsordboken (letzter Zugriff14062012)28 Vgl hierzu httptranslategooglecomno|de|0AVelkommen20Wikipedia2C20til20den20frie20informasjonsordbokenmskip-thinmuskip (letzter Zugriff 14062012)

19

Eine morphologische Analyse der beiden Wortformen ldquoWikipediardquo undldquoWikipediairdquo erhaumlrtet die Vermutungen dass es sich beim i-Suffix umeinen Illativ 29 handelt einem Lokalkasus der dazu genutzt werdenkann eine ldquoHineinbewegungrdquo auszudruumlcken respektive in diesem Falldie entsprechende Praumlposition ldquoaufrdquo in das Substantiv der Named En-tity ldquoWikipediardquo einzugliedern

$ echo Wikipedia | apertium -d sme-nob-morph1^WikipediaWikipedialtNgtltPropgtltOrggtltSggtltAccgtWikipedialtNgtltPropgtltOrggtltSggtltGengtWikipedialtNgtltPropgtltOrggtltSggtltNomgt$^ltCLBgt$

2$ echo Wikipediai | apertium -d sme-nob-morph^WikipediaiWikipedialtNgtltPropgtltOrggtltSggtltIllgt$^ltCLBgt$

Bei Analyse 1 wird ldquoWikipediardquo als ein Substantiv eine Named Entityund (semantisch) als Organisation im Singular markiert Uneinigkeitherrscht fuumlr den Tagger auf dieser Transferstufe noch uumlber den KasusEs ist nicht klar ob ldquoWikipediardquo im Nominativ Akkusativ oder Genitivsteht Das Symbol ltCLBgt steht fuumlr ldquoClause Boundaryrdquo und spielt insbe-sondere fuumlr den Chunker (im Zuge des spaumlteren Transfers) eine Rolle zB zur (groben) Abgrenzung von Nominal- und Verbalphrasen

Analyse 2 faumlllt knapper aus da der Kasusfall keine Rolle mehr spielt -an dessen Stelle tritt nun der Illativ (Symbol ltIllgt) Der Rest bleibt sichgleich

Da aber die Illativ-Markierung in diesem spezifischen Fall auf dernob-Seite zur Oberflaumlchengenerierung des norwegischen Wortes ldquotilrdquo30 fuumlhrt aumlndert sich die Semantik des Satzes merklich

Der Transferprozess bei Apertium kann generell beliebig fein beobach-tet werden fuumlr unser spezifisches Sprachpaar sme-nob sei fuumlr weitereVersuche auf das Apertium-Wiki 31 verwiesen das extensiv Informa-tionen daruumlber fuumlhrt

Es existieren weitere interessante Sprachpaare bei der nur eine Sei-te jeweils stark agglutierend ist und auf entsprechende Formalismen(LEXC- und TWOLC-Formalismen) zuruumlckgegriffen wird So etwa die

29 Vgl Wikipedia httpsdewikipediaorgwikiIllativ (letzter Zugriff14062012)30 Dt ldquoaufrdquo31 httpwikiapertiumorgwikiNorthern_SC3A1mi_and_Norwegian (letzterZugriff 14062012)

20

Sprachpaare quz-spa (Quecha-Castellano) 32 udm-rus (Udmuritische Sprache-Russisch) 33 und kaz-eng (Kasachisch-Englisch) 34 Noch ist der Entwick-lungsstand all dieser Uumlbersetzungsrichtungen aber gering und fuumlr einenproduktiven Einsatz oder eine Evaluation demnach ungeeignet 35

32 Apertium-Wikiseite httpwikiapertiumorgwikiQuechua_cuzqueC3B1o_y_castellano (letzter Zugriff 14062012)33 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-udm-rus (letzter Zugriff 14062012)34 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumincubatorapertium-eng-kaz (letzter Zugriff 14062012)35 Alle drei Sprachpaare sind in den SVN-Ordnern incubator oder nursery un-tergebracht

21

4 Schluss

41 Zusammenfassung und AusblickIn abschliessender Betrachtung ist festzuhalten Die Nutzung von HFSTverleiht Apertium die Faumlhigkeit zu und von Sprachen mit (stark) Nicht-Konkatenativer Morphologie zu uumlbersetzen Dafuumlr muumlssen die Aperti-um-eigenen lttoolbox-Werkzeuge umgangen werden die ansonstenzur morphologischen Analyse und morphologischen Generierung von Wort-formen verwendet werden Der Einsatz von HFST liefert aber keinenMehrwert an anderen Stellen in der Transfer-Pipeline Der lexikalischeTransfer oder strukturelle Anpassungen um der Syntax der Zielsprachenaumlher zu kommen sind Schritte fuumlr die sich die lttoolbox-Werkzeugeweiterhin bewaumlhren

Diskutiert wird eine staumlrkere Integration von HFST in Apertium damitHFST nicht laumlnger der Charakter eines ldquoFremdkoumlrpersrdquo in der Aper-tium-Plattform anhaftet Es existiert die Idee ein Projekt in diese Rich-tung anzustossen um es z B moumlglich zu machen lexc-Dateien anstattmit den HFST-Binaries mit den lttoolbox-Kommandos zu prozessierenDieses Projekt koumlnnte von einem interessierten Studierenden etwa imRahmen des naumlchsten Google Summer of Code (2013) initiiert werden 1

Ein weitere Herausforderung die in der Natur von Apertium als Shallow-Transfer-System begruumlndet liegt 2 hat mit den Bilexika zu tun Apertiummuss fuumlr jedes Sprachpaar ein Bilexikon fuumlhren um den lexikalischenTransfer mittels den lttoolbox-Werkzeugen zu vollziehen Da fuumlr jedeneue Sprachkombination das Bilexikon neu aufgebaut werden mussbesteht hier ein gewisser (manueller) Aufwand bei jedem neuen Sprach-paar das angesetzt wird dieser kann zwar durch Einsatz von Werkzeu-ge aus den apertium-dixtools minimiert werden die Vollautomation

1 Idee zum Projekt httpwikiapertiumorgwikiIdeas_for_Google_Summer_of_CodeCloser_integration_with_HFST (letzter Zugriff 14062012)2 Apertium verwendet keinen sog Interlingua-Ansatz um eine sprachunabhaumlngigeRepraumlsentation von Wortbedeutungen zu fuumlhren

22

funktioniert aber noch nicht 3 4

Weiterhin bleibt Apertium im Grundsatz ein Shallow-Transfer-Systemdas keinen vollstaumlndigen Parse der Quellsprache vornimmt und sietiefen-analysiert Dadurch ist es auch in Zukunft nicht breit moumlglichSemantik uumlber weite Distanzen zu transferieren

Bezuumlglich weiterer Moumlglichkeiten fuumlr Apertium morphologisch zu ana-lysieren generieren kann das Augenmerk auch auf neuere Formalis-men als jene von Xerox 5 gelegt werden So existiert hunmorph 6 dases erlaubt in OCaml 7 - in einem objekt-orientierten Paradigma - Mor-phologien zu beschreiben und dazu eine (relativ) einfache Syntax auf-zuweisen scheint Beispiele explorativer Versuche mit hunmorph fuumlrApertium sind im Wiki des Projekts bereits heute dokumentiert 8 Aus-serdem ist hunmoph morphologisch-analytische Basis des bekanntenSpellcheckers HunSpell das der standardmaumlssige Spellchecker in Libre-Office OpenOfficeorg und einigen Softwareprodukten der MozillaFoundation ist 9

Selber hat es mir Freude bereitet mich in dieses komplexe Gebiet hin-ein zu begeben und ich bin fuumlr die Zukunft interessiert daran michan Apertium nach Kraumlften zu beteiligen da ich die dahinterstehendeCommunity als eine kennen gelernt habe die aufgeschlossen humor-voll und im houmlchsten Masse kompetent ist

42 DanksagungenIch moumlchte mich an dieser Stelle herzlichst im Besonderen bei folgen-den Personen des Apertium-Projekts bedanken dass sie sich Zeit ge-nommen haben sich mit mir im IRC ausgiebig zu unterhalten und denDschungel in und um Apertium zu durchleuchten Mikel L ForcadaFrancis M Tyers Kevin Brubeck Unhammer und Jonathan North Wa-shington

Ohne sie waumlre diese Arbeit in der Form nicht entstanden und vielesQuellmaterial das ich hier verwende schwierg auffindbar gewesen

3 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-dixtools (letzter Zugriff 14062012)4 Vgl hierzu httpwikiapertiumorgwikiCrossdics (letzter Zugriff14062012)5 Namentlich XFST TWOLC und LEXC6 Webseite httpmokkbmehuresourceshunmorph (letzter Zugriff 14062012)7 Webseite httpcamlinriafr (letzter Zugriff 14062012)8 Apertium-Wiki httpwikiapertiumorgwikiHunmorph (letzter Zugriff14062012)9 Webseite httphunspellsourceforgenet (letzter Zugriff 14062012)

23

Literaturverzeichnis

[1] S Clematide Morphologie und Lexikographie Vorlesungs-skript Institut fuumlr Computerlinguistik Universitaumlt Zuumlrich 2007URL httpfilesifiuzhchclsiclematlehress07mulscriptscriptpdf

[2] ML Forcada BI Bonev S Ortiz-Rojas JA Peacuterez-OrtizG Ramiacuterez-Saacutenchez F Saacutenchez-Martiacutenez C Armentano-OllerMA Montava FM Tyers und U dA Departament de Llenguatges iSistemes Informagravetics Documentation of the open-source shallow-transfer machine translation platform apertium 2010 URL httpxixonadlsiuaes~franapertium2-documentationpdf

[3] ML Forcada FM Tyers und G Ramiacuterez-Saacutenchez The Apertiummachine translation platform five years on In Proceedings of the FirstInternational Workshop on FreeOpen-Source Rule-Based Machine Trans-lation 3ndash10 2009 URL httpxixonadlsiuaesfreerbmt09presentationsforcada_freerbmt09_5yrsonpdf

[4] T Trosterud und KB Unhammer Evaluating North Saacutemi to Nor-wegian assimilation RBMT In Proceedings of the Third InternationalWorkshop on FreeOpen-Source Rule-Based Machine Translation 2012URL httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-sme-nobpaperpathrev=38833 (noch kein of-fizielles Paper (im PDF) verfuumlgbar)

24

Abbildungsverzeichnis

21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen 10

25

Anhang

IRC-Konversation zu HFSTTypisches Beispiel einer Konversation 10 mit Jonathan North Washing-ton (ldquofirespeakerrdquo) und Mikel L Forcada (ldquomlforcadardquo) welche we-sentliche Beitraumlge zu Apertium leisten gefuumlhrt im IRC 11

1921 lt h2mgt At which stage of the pipeline is HFST employed1921 lt h2mgt I couldnrsquot get that1921 lt mlforcadagt h2m generation of Kazakh[]1922 lt h2mgt Is this process described somewhere in detailsuch that I can read that up1922 lt mlforcadagt is something that looks like lttoolbox butmore powerful1922 lt mlforcadagt h2m firespeaker can help probably1922 lt h2mgt I can only see lexc and twol files wo reallygetting the point[]1922 lt firespeakergt h2m HFST takes a string of text and turnsit into lemmas + tags1922 lt firespeakergt h2m or1922 lt firespeakergt h2m it takes lemmas + tags and turns itinto a string of text[]1923 lt firespeakergt h2m lexc is the morphotactics1923 lt mlforcadagt firespeaker yoursquore right1923 lt h2mgt Ah OK1923 lt firespeakergt h2m twol is the morphophonology

10 Selber bin ich als ldquoh2mrdquo unterwegs11 ircircfreenodenetapertium

26

  • Einfuumlhrung
    • Motivation und Thema
    • Verwendete Umgebung und Konfiguration
      • Grundlagen Zu Apertium und HFST
        • Wesen und Entwicklungsstand von Apertium
        • Wesen und Entwicklungsstand von HFST
          • Hauptteil Die Integration von HFST in Apertium
            • Theorie Zweck und Nutzen der Integration
            • Empirie Die Integration am Beispiel eines Sprachpaars
              • Schluss
                • Zusammenfassung und Ausblick
                • Danksagungen
                  • Literaturverzeichnis
                  • Abbildungsverzeichnis
                  • Anhang
Page 7: Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

2 Grundlagen Zu Apertiumund HFST

21 Wesen und Entwicklungsstand von ApertiumAn der ersten FreeRBMT-Konferenz1 rekapitulieren Forcada et al [3]2009 unter dem Titel ldquoThe Apertium machine translation plattform fiveyears onrdquo die Entwicklung hin zu einem regelbasierten Uumlbersetzungs-system das schon damals uumlber 20 funktionale Uumlbersetzungsrichtungenaufweist

Was aber war fuumlnf Jahre vorher und was ist jetzt - insgesamt acht Jahrespaumlter

Apertium als solches wurde 2004 als Projekt - finanziert von einemKonsortium aus Staat und Wirtschaft - gegruumlndet um zunaumlchst dieSprachpaare esharrca (Spanisch und Katalanisch) sowie Spanisch undGalicisch als das Paar esharrgl in beidseitige Uumlbersetzungsrichtungen zurealisieren Angesiedelt wurde das Projekt zur Umsetzung an der Uni-versitaumlt von Alicante 2

Zu diesem Zeitpunkt existieren bereits zwei regelbasierte MUuml-Systemedie als Transfersysteme relativ oberflaumlchlich ohne tiefe Syntaxanaly-se zwischen aumlhnlichen Sprachpaaren zu uumlbersetzen faumlhig sind inter-NOSTRUM und Tradutor Universia Dieser Ansatz wird als Shallow-Transfer bezeichnet und bedeutet im einfachsten Fall dass ausser einemlexikalischen Transfer kaum weitere Arbeit fuumlr das System anfaumlllt eineUumlbersetzung relativ erfolgreich zu vollziehen An diesem Ansatz hatsich im Grundsatz nichts geaumlndert Und Dieser Ansatz in seiner ein-fachsten Transferform funktioniert nur fuumlr sehr aumlhnliche Sprachpaaregut Das letztere System (Tradutor Universia) ist spezialisiert auf das

1 Eine Konferenz fuumlr freie RBMT-Systeme httpxixonadlsiuaesfreerbmt09 (letzter Zugriff 14062012)2 Webseite der Universitaumlt httpwwwuaes (letzter Zugriff 14062012)

7

Sprachpaar esharrpt also Spanisch zu Portugiesisch (und umgekehrt) - alssolches ebenso ein Sprachpaar das eine geringe linguistische Distanzaufweist Die groumlssten Unterschiede sind lexikalischer Art

Vor insgesamt acht Jahren wurde angefangen die zwei o g Systeme zuvereinigen Im Zuge dieser Reimplementation wurde auch der Quell-code unter einer freien Lizenz im Sinne der Open Source Initiative 3

veroumlffentlicht Jede Person hat somit die Moumlglichkeit an der Entwick-lung von Apertium mitzuwirken Forcada selber war damals leitendmit dabei und mischt heute weiterhin zentral mit Es sind mittlerweileweitere wichtige Namen in der Apertium-Entwicklung involviert dieals Mentoren 4 fuumlr Interessierte an der Mitarbeit am Projekt fungierenDeren unmittelbare und zeitweise staumlndige Erreichbarkeit kann ich auseigener Erfahrung bestaumltigen

Forcada erwaumlhnt [3] dass fuumlr die Sprachpaare esharrca und es-gl diesprachtechnologischen Ressourcen teils selber (in seinem akademischenUmfeld) erstellt oder - wo moumlglich - aus frei verfuumlgbaren anderen Res-sourcen die frei lizenziert sind bezogen wurden um Apertium initialaufzubauen

Angefangen mit Version 10 welche fuumlr aumlhnliche Sprachpaare wieesharrca und es-pt ausgelegt ist bietet Version 20 bereits die Moumlglich-keit zwischen linguistisch weiter entfernten Sprachen zu uumlbersetzenAls Beispiele hierbei werden frharrca 5 oder enharrca 6 genannt Dafuumlr wur-de der Transferprozess ausgebaut denn es genuumlgt bei diesen Sprachennicht mehr (in vereinfachter Darstellung) die Woumlrter zu ersetzen Einmehrstufiger Strukturtransfer wird erforderlich ohne aber (bis heu-te) eine vollstaumlndige Syntaxanalyse zu betreiben Der juumlngste Major-Versionssprung zur Version 3 markiert dass Apertium vollstaumlndigUNICODE-faumlhig geworden ist und mit allen im Zeichensatz enthalte-nen Symbolen operieren kann

Technologisch setzt Apertium auf bewaumlhrte Technologien Die linguis-tischen Daten sowohl die Lexika als auch die Transferregeln werdenje Sprachpaar in XML-Dateien nach einem klaren Schema abgelegt 7Das erhoumlht die Interoperabilitaumlt zu anderen Systemen die sich diesenRessourcen bedienen moumlchten Ein eigens entwickeltes Toolset exis-tiert (lttoolbox) das die XML-Dateien in ein binaumlres Format uumlberset-zen kann das als ein Finite-State-Transduktor (FST) 8 realisiert wirdAus den Lexika und Transferregeln werden fuumlr jedes Sprachpaar letz-ten Endes drei Transduktoren erstellt welche folgenden drei Bereichengewidmet sind die im Grundsatz den Uumlbersetzungsprozess von Aper-tium ausmachen

3 Webseite der Initiative httpwwwopensourceorg (letzter Zugriff 14062012)4 Apertium-Wiki httpwikiapertiumorgwikiList_of_Apertium_mentors(letzter Zugriff 14062012)5 Franzoumlsisch zu Katalanisch und umgekehrt6 Englisch zu Katalanisch und umgekehrt7 Beispiel der Schemata anhand des Woumlrterbuchschemas httpwikiapertiumorgwikiMonodix_basics (letzter Zugriff 14062012)8 In diesem konkreten Anwendungsfall genauer bekannt als augmented letter trans-ducer

8

1 Lexikalische Analyse (der Quellsprachenwoumlrter)

2 Lexikalischer Transfer (anhand der Wortlemmata mit lexikali-schen Wortmarkierungen)

3 Lexikalische Generierung (der Zielsprachenwoumlrter)

Um die Lemmata fuumlr den Transferprozess erfolgreich lexikalisch zumarkieren sind natuumlrlich Zwischenschritte notwendig wie die morpho-logische Analyse der vorgefundenen Wortform PoS-Tagging 9 zur Wort-artenbestimmung und Word Sense Disambiguation um das (kontextuell)adaumlquate Lemma auszuwaumlhlen und zu taggen Je nach Sprachpaar undSprachbau der involvierten Sprachen ist der dafuumlr erforderliche Auf-wand unterschiedlich gross

Der Einsatz von HFST welcher zur morphologischen Verarbeitung indieser Hinsicht schwieriger Sprachen genutzt wird findet im extensivs-ten Einsatz bei der lexikalischen Analyse (1) und Generierung statt (2) -und das auch nur wenn beide Sprachen der Betrachtung HFST zur mor-phologischen Bewaumlltigung erforderlich machen Ist nur die Quellspra-che morphologisch mit den lttoolbox-Werkzeugen nicht zu bewaumlltigenso findet da der Einsatz von HFST statt ansonsten bei der Zielspra-che In Faumlllen wo sowohl die Zielsprache als auch die Quellsprachegroumlsstenteils mit Konkatenativer Morphologie 10 bewaumlltigt werden kannmacht der Einsatz von HFST wenig Sinn Da wird dann in aller Regellttoolbox fuumlr alles verwendet Das trifft etwa auf alle urspruumlnglichenSprachpaare zu wie ich sie weiter oben erwaumlhnt habe

Apertium ist der UNIX-Philosophie 11 verschrieben dass Programmeim Einzelnen klein und simpel zu sein haben und erst miteinander inInteraktion befindlich Komplexes schaffen sollen Durch das verwen-dete Pipelining kann jeder Analyse- Transfer- und Generierungsschrittin seinem In- und Output genau beobachtet werden Das und die freieVerfuumlgbarkeit des Quellcodes hilft beim Verstaumlndnis der Prozesse un-gemein und macht wissenschaftliche Ergebnisse nachvollziehbar Ge-nauer kann die Pipeline anhand der Abbildung 21 illustriert werden12

Die (relative) Unabhaumlngigkeit der einzelnen Komponenten erlaubt esApertium nur in Teilen zu verwenden z B zum PoS-Tagging eigenerTexte ungeachtet der weitergehenden und (eigentlichen) Hauptfunk-tionalitaumlt der Maschinellen Uumlbersetzung Somit ist Apertium nicht einfach

9 Das PoS-Tagging wird generell statistisch mit trainierten Daten im Einsatz vonHidden-Markov-Modellen (HMM) gemacht oder in Faumlllen wo zu wenig Datenmaterialvorliegt oder der Statistik zugunsten der Linguistik weniger Spielraum gelassen werdensoll faumlllt auf dass auch der Constraint Grammar-Formalismus (CG) eingesetzt wirdDas ist beim Sprachpaar sme-nob das in Kapitel 32 betrachtetet wird der Fall10 Dazu in 31 Genaueres11 Vgl hierzu Wikipedia httpsenwikipediaorgwikiUnix_philosophy(letzter Zugriff 14062012)12 Die schematische Darstellung entspringt den TeX-Quellen der Apertium-Dokumentation fuumlr Version 30 die in Arbeit ist URL httpapertiumsvnsourceforgenetviewvcapertiumbranchesapertium-documentationapertium-30endocumentationtexview=logamppathrev=38833 (letzter Zugriff14062012)

9

Quellsprachedarr

Deform rarr MorphAnal

rarrPoS-Tagging rarr

StruktTrans

rarrMorphGen

rarrPost-Gen

rarr Reform

l darr

LexTrans

Zielsprache

Abbildung 21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen

ein abgeschlossenes MUuml-System im Sinne einer Blackbox sondern ei-ne offene Plattform die hilft freie sprachtechnologische Ressourcen zumehren

Apertium fuumlhrt die Sprachpaare im SVN-Repository 13 abhaumlngig vomEntwicklungsstand in verschiedenen Ordnern

bull In incubator befinden sich kuumlrzlich angesetzte Sprachpaare

bull In nursery befinden sich noch wenig funktionale Sprachpaare

bull In staging befinden sich bereits fortgeschrittene Sprachpaare

bull In trunk befinden sich stabile Sprachpaare die produktiv ge-nutzt werden koumlnnen

Mittlerweile sind im Vergleich zu 2004 zahlreiche weitere Sprachpaa-re hinzukommen entstanden durch Forschungs-Entwicklungsprojektevon Studierenden 14 Arbeiten von Forschungsgruppen an anderenForschungseinrichtungen als Community-Projekte seitens Interessier-ter der Freien Software-Szene und auch mit Entwicklungsunterstuumltzungvon Unternehmen mit kommerziellen Interessen z B Prompsit wel-che Dienstleistungen um Apertium anbietet 15

Zum Zeitpunkt des Abschlusses dieser Arbeit Mitte Juni 201216 befin-den sich 138 () Sprachpaare in incubator 17 28 Sprachpaare in nursery5 Sprachpaare in staging und 37 Sprachpaare in trunk womit rund 40Sprachpaare produktiv genutzt werden koumlnnen Forschungs- und Ent-wicklungsarbeiten hingegen sind schon heute in rund 200 Sprachpaarenmoumlglich und weitere koumlnnen nach Absprache mit den Hauptentwick-lern beliebig hinzugefuumlgt werden

13 SVN-Webview des Repositories httpapertiumsvnsourceforgenetviewvc (letzter Zugriff 14062012)14 Z B im Rahmen des Google Summer of Code (GSoC) httpwikiapertiumorgwikiGoogle_Summer_of_CodeActive_projects (letzter Zugriff 14062012)15 Prompsit-Webseite httpwwwprompsitcomsomos-prompsit (letzter Zu-griff 14062012)16 SVN-Repository des Projekts in Revision 38833 httpapertiumsvnsourceforgenetviewvcapertiumpathrev=38833 (letzter Zugriff 14062012)17 Sowie einige Morphologien im Ansatz die keinem konkreten Sprachpaar gewid-met sind

10

Wichtig fuumlr einen Start sind die freie Verfuumlgbarkeit von Woumlrterbuumlchernund gegebenenfalls Morphologien fuumlr die involvierten Sprachen EineListe solcher Ressourcen fuumlr viele Sprachen wird im Apertium-Wikigefuumlhrt 18

Durch das Hinzukommen von Sprachpaaren deren Sprachen linguis-tisch wenig gemein haben ist der Shallow-Transfer inzwischen staumlrkerausgebaut Fuumlr en-ca (Englisch zu Katalanisch) wird ein dreistufigerStrukturtransfer angewandt in der Reihenfolge Chunking Inter- undPost-Chunking Dabei ist zu beachten dass das Inter-Chunking in (noch)komplexeren Faumlllen mehrstufig sein kann So ist mir das Sprachpaarsme-smj (vom Nordsamischen 32 in das Lulesamische 19) aufgefallen20 das uumlber drei Inter-Chunking-Dateien verfuumlgt 21 die Regeln daruumlberenthalten Chunks (in drei Phasen) zu vertauschen

22 Wesen und Entwicklungsstand von HFSTBeim Helsinki Finite-State Transducer - Framework (HFST) handelt essich um eine in C++ geschriebene Open Source-Softwarekollektion auswelche die Nutzung verschiedener FST-Technologien und -Formalismenheraus einheitlich moumlglich ist die ihrerseits frei (implementiert) verfuumlg-bar sind Es sind dies zum aktuellen Zeitpunkt

bull Die Stuttgart Finite-State Transducer Tools (SFST) mit einer Basis-Unterstuumltzung von Finite-State Transducer mit gewichteten Kan-tenuumlbergaumlngen 22 23

bull Das Foma-Paket das eine freie Implementation der XFSTLEXC-Formalismen darstellt gewichtete Transduktoren koumlnnen nichterstellt werden 24

bull Die OpenFST-Bibliothek es wird die Schaffung von Finite-StateTransducer mit gewichteten Kantenuumlbergaumlngen unterstuumltzt 25

Insbesondere bietet HFST das Tool hfst-twolc an das einen Two-LevelRule Compiler fuumlr den Xerox-TWOLC-Formalismus darstellt Damitkoumlnnen Transduktoren erstellt werden die eine parallele Ersetzung so-wohl der Ober- als auch der Unterseite des Transduktors gleichzeitigerlauben Die Reihenfolge der entsprechenden Deklarationen ist damit

18 Apertium-Wiki httpwikiapertiumorgwikiSpecific_resources_per_language (letzter Zugriff 14062012)19 Ethnologue-Eintrag fuumlr smj httpswwwethnologuecomshow_languageaspcode=smj (letzter Zugriff 14062012)20 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-sme-smj (letzter Zugriff 14062012)21 Die Dateien mit den Endungen ldquot2xrdquo ldquot3xrdquo und ldquot4xrdquo - besonderes Augenmerkkann auf den Bereich ab ltsection-rulesgt gelegt werden22 Webseite httpwwwimsuni-stuttgartdeprojektegramotronSOFTWARESFSThtml (letzter Zugriff 14062012)23 Gemaumlss Angaben von Francis M Tyers im IRC wird auf diese Tools den entspre-chenden Bibliotheken in Apertium kaum zugegriffen24 Dateien mit Endungen ldquoxfstrdquo ldquofomardquo und ldquolexcrdquo werden in aller Regel damitverarbeitet25 Dateien mit Endungen ldquotwolrdquo werden damit prozessiert wobei von gewichtetenKantenuumlbergaumlngen kein Gebrauch gemacht wird

11

unwichtig Im Gegensatz dazu muss beim (klassischen) Xerox Finite-State Tools-Formalismus (XFST) welcher Foma als Compiler frei imple-mentiert der Reihenfolge der Deklarationen Beachtung geschenkt wer-den weil es sich beim XFST-Formalismus um Rewriting-Regeln handeltdie sequentiell immer nur auf die Unterseite (bzw dem ldquozweitenrdquo oderldquorechtenrdquo Band) des Transduktors angewandt werden

Eine umfassende Einfuumlhrung von Finite-State-Automaten und -Transduktorenwuumlrde den Rahmen dieser Arbeit sprengen es sei allerdings darauf hin-gewiesen dass im Apertium-Wiki26 das Thema im Zusammenhang mitden morphologischen Woumlrterbuumlcher die mittels den eigenen lttoolbox-Werkzeugen erstellt werden ausreichend eingefuumlhrt wird

Auf der Seite wird ebenfalls plausibel erklaumlrt dass es zur Uumlbersichtlich-keit und dem Verstaumlndnis der Morphologie beitraumlgt die Deklarationderselben von den Algorithmen zu trennen die sie umsetzen Sowohlder lttoolbox-Formalismus als auch die Formalismen die durch dasHFST-Framework unterstuumltzt werden erfordern die blosse Deklarati-on der Morphologie ohne dass man sich um die (effiziente) Verarbei-tung der Ausdruumlcke selber kuumlmmern muss Die prozeduralen Schritteerledigen lttoolbox und HFST bei der Verarbeitung der jeweiligen De-klarationen in den Dateien 27 selbststaumlndig Damit wird eine Trennungvon morphologischer Deklaration und Programmcode erreicht

Das ist aumlhnlich wie bei der deklarativen (logischen) Programmierspra-che Prolog wo sich die Inferenzmaschine eigenstaumlndig um die effizienteBeweisfuumlhrung des Ziels (engl des ldquogoalsrdquo) kuumlmmert Das Gegenteildieses Ansatzes wird auf der Webseite mit Python-Code demonstriertwelcher im gegebenen Beispiel dafuumlr verwendet wird das Wort ldquobeerrdquound ldquobeersrdquo morphologisch zu analysieren - als ein Substantiv das imSingular oder Plural steht Das wird durch prozedurale Schritte direkterledigt Bei der Implementation sprachvollstaumlndiger Morphologien aufdiese Art gestaltet sich die Wartung der Morphologie als tendenziell un-uumlbersichtlich Hinzu koumlnnen sich bei einem solchen Ansatz in schlechterImplementation Laufzeitprobleme gesellenDer wichtigste Vorteil aber bleibt bis hierhin unerwaumlhnt Transdukto-ren koumlnnen nicht nur zur Analyse von Wortformen in ihre Lemmatasamt lexikalischer Markierungen genutzt werden 28 sondern markierteLemmata (im gegebenen Format) koumlnnen zur Generierung von Wortfor-men genutzt werden 29 In einer prozeduralen Implementation muumlsstesowohl Programmcode fuumlr die Generierung als auch (separat) fuumlr dieAnalyse geschrieben werden Das ist umstaumlndlich

26 Vgl das Apertium-Wiki httpwikiapertiumorgwikiMorphological_dictionaries (letzter Zugriff 14062012)27 Es handelt sich fuumlr Dateien die durch lttoolbox prozessiert werden um die Datei-en in den Ordner der Sprachpaare mit den Endungen ldquodixrdquo fuumlr das morphologischeWoumlrterbuch ldquot1xrdquo bis (maximal) ldquot5xrdquo (je nach Anzahl der Stufen) fuumlr die Transferre-geln und gegebenenfalls den ldquolexcrdquo- und ldquotwolrdquo-Dateien falls bei einer involviertenSprache die Morphologie durch HFST erfasst wird In wenigen Faumlllen sind auch ldquoxfstrdquo-oder ldquofomardquo-Dateien anzutreffen28 Der Transduktor wird in einem solchen Fall in der Regel von links nach rechtsbzw von oben nach unten angewandt29 Der Transduktor wird von rechts nach links bzw von unten nach oben angewandt

12

Ein praktisches Beispiel der Nutzung der resultierenden Transdukto-ren zur Analyse oder Generierung liefert das Apertium-Wiki auf derSeite uumlber lttoolbox 30

Falls bei einer speziellen Anwendung mit Apertium eine (im Einzelfall)weitergehende prozedurale Verarbeitung der Ausgabe aus den Trans-duktoren notwendig wird dann besteht die Moumlglichkeit HFST aus zB Python heraus zu nutzen 31

30 Vgl Apertium-Wiki httpwikiapertiumorgwikiLttoolbox (letzter Zu-griff 14062012)31 Vgl Beitrag auf der nltk-dev-Mailingliste httpsgroupsgooglecomgroupnltk-devbrowse_threadthreadfdb53482cad56234 (letzter Zugriff 14062012)

13

3 Hauptteil Die Integrationvon HFST in Apertium

31 Theorie Zweck und Nutzen der IntegrationFinite-State-Technologien koumlnnen in der Computerlinguistik dafuumlr ge-nutzt werden um Woumlrterbuumlcher elegant aufzubauen oder die mor-phologische Analyse und Generierung von Woumlrtern systematisch zubetreiben und das insbesondere auch in Faumlllen wo die Morphologie derbetrachteten Sprache nicht relativ einfach durch z B Prauml- oder Suffixe(also konkatenativ durch rsquoAneinanderreihenrsquo von Morphemen) erfasstwerden kann sondern gerade auch in Faumlllen wo auch andere Affixewie Infixe zur Anwendung kommen

Nicht mehr simpel sind Morphologien beispielsweise in Faumlllen wo esfuumlr gegebene Wortstaumlmme 1 Faumllle gibt wo Morpheme fuumlr eine Flexi-on inmitten des Stamms eingepflanzt werden muumlssen oder wo Vokaleinmitten von Staumlmmen wegfallen oder durch andere ersetzt werdenmuumlssen um guumlltige Wortformen analysieren oder generieren zu koumln-nen Morphologien fuumlr Sprachen die komplexe Anpassungen an Staumlm-men oder fortgesetzten Wortklassen in bestimmten (z B grammatikali-schen) Faumlllen erfordern werden auch Nicht-Konkatenative Morphologien(NKM) (vgl Clematide 2007 104ff) genannt oder zumindest waumlre dieKonkatenation nach vorwiegend erkennbaren systematischen Regelnder betrachteten Sprache nicht mehr (sinnvoll) nachvollziehbar wuumlrdeman eine Konkatenative Morphologie erzwingen wollen ebenfalls ist dieGefahr von Redundanz sehr hoch wenn jeder nur denkbare Stamm ineine Morphologie einfliesst

Eine saubere Morphologie mit klaren Regeln und in (moumlglichst) schlan-ker Ausfuumlhrung ist eine Anforderung von der gerade ein MaschinellesUumlbersetzungssystem wie Apertium fundamental profitiert um schnell zu

1 Minimaloberflaumlche von Woumlrtern aus der durch Morpheme die vor- um - oderangehaumlngt werden koumlnnen weitere wichtige (weitere) Wortformen entstehen

14

arbeiten und (linguistisch nachvollziehbar) gepflegt werden zu koumlnnen

Wie bereits in Kapitel 21 angedeutet ist es nicht erst das HFST-Frameworkdas Finite-State-Technologien in Apertium einfuumlhrt Die lexikalischenWerkzeuge lttoolbox mit Anwendungen wie lt-comp 2 oder lt-proc 3

werden dazu genutzt die in XML abgefassten Woumlrterbuumlcher in Trans-duktoren umzuwandeln - fuumlr eine schnellere Verarbeitung Mit denMoumlglichkeiten verglichen die das HFST-Framework liefert sind die lt-toolbox-Werkezuge am ehesten mit dem LEXC-Formalismus vergleich-bar welcher Foma beherrscht und auf die Idee fusst Woumlrterbuumlcher an-hand von Staumlmmen (von z B Verben oder Nomen) anhand von Fort-setzungsklassen (durch das Anhaumlngen von Morphemen) aufzubauenSimon Clematide fuumlhrt auch das in seinem Vorlesungsskript von 2007(93ff) genauer aus Darin ist es moumlglich die Morphotaktik der Sprachezu erfassen Schwieriger umzusetzen mit diesen Apertium-Bordmittelnist die Morphophonemik worunter Lautanpassungen oder die Infigierung 4

fallen Diese (u U seltenen aber fuumlr die Korrektheit notwendigen) An-passungen der Morphotaktik berechtigen den Beizug zusaumltzlicher (wohlbekannter und anerkannter) Formalismen wie XFST 5 oder TWOLC

Die wenigsten natuumlrlichen Sprachen sind (vollstaumlndig) KonkatenativerMorphologie Im Rahmen einer kuumlrzlichen Veranstaltung zu Finite-State-Methoden (bei Simon Clematide) haben Simon Hafner und ich die Moumlg-lichkeit erhalten eine (konzeptionelle) Morphologie 6 fuumlr die Planspra-che ldquoKlingonischrdquo 7 anzulegen Diese laumlsst sich tatsaumlchlich fast vollstaumln-dig mit Fortsetzungsklassen auf Basis der Wortstaumlmme und anzuhaumln-genden Morphemen und damit dem LEXC-Formalismus erfassen istaber auch nur ein akademisches Beispiel einer Sprache wo es nie zu(natuumlrlichen) Lautverschiebungen oder anderen komplexen Phaumlnome-nen kam

Die Dokumentation daruumlber wie HFST in Apertium genau genutztwird ist spaumlrlich Gerade in der Apertium-Dokumentation (aktuellnachgefuumlhrt und veroumlffentlicht bis Version 20) seitens Forcada et al[2] wird nichts uumlber die Nutzung von HFST ausgesagt - auch nicht inden neuesten (versionskontrollierten) Fassungen8 im SVN-Repository

Gluumlcklicherweise waren wichtige Apertium-Entwickler mir eine grosseHilfe dabei die noumltigen Einstiegspunkte zu finden Ein Beispiel einer ty-pischen Hilfeleistung ist im Anhang als ldquoIRC-Konversation zu HFSTrdquo9 zu finden die ich mit freundlicher Unterstuumltzung der involviertenPersonen in dieser Seminararbeit in der Form publizieren darf

2 Zur Kompilation von Woumlrterbuumlchern von einem XML- in ein FST-Format3 Zur Prozessierung der Daten im vorgaumlngig generierten FST-Format und der Aus-gabe in einem menschenlesbaren lexikalischen Tagging-Format4 Einfuumlgen eines Affixes in einen Wortstamm auch Infix genannt5 Von Foma implementiert6 Code und Anwendungsbeispiele bei github im git-Repository httpsgithubcom2mhklingomorph (letzter Zugriff 14062012)7 Ethnologue-Eintrag tlh httpswwwethnologuecomshow_languageaspcode=tlh (letzter Zugriff 14062012)8 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-documentationapertium-20en (letzter Zugriff 12062012)9 Siehe Anhang auf Seite 26

15

Zudem Es sind im Apertium-Wiki Informationen daruumlber vorhandenwie ein neues Sprachpaar fuumlr die Nutzung mit HFST angelegt werdenkann 10 Beim gegebenen Beispiel wird schematisch das Sprachpaar tur-tuk angesetzt (real im SVN-Repository existiert das Sprachpaar tuk-tur11) wobei tuk 12fuumlr Turkmenisch und tur 13 fuumlr Tuumlrkisch steht

Generell wird bei Sprachpaaren die mit HFST analysiert (und gene-riert) werden versucht den lexikalischen Transfer moumlglichst auf Ba-sis der Morpheme vorzunehmen Idealerweise kann der groumlsste Teilim LEXC-Formalismus abgedeckt werden Wo das nicht (im Ansatz)gelingt werden TWOLC-Regeln definiert welche die noumltigen Anpas-sungen an den lexikalischen Markierungen und Oberflaumlchenformen derWoumlrter vornehmen

Gruumlnde weshalb TWOLC- gegenuumlber XFST-Deklarationen bevorzugtwerden sind gemaumlss wichtigen Apertium-Entwicklern 14 (1) das uumlber-sichtlichere Format und (2) die einfachere Handhabung von linguisti-schen Phaumlnomenen wie der Vokalharmonie mit dem TWOLC-Formalismus

Ein weiterer wichtiger Grund welcher die mangelnde Verbreitung desXFST-Formalismus bei Apertium erklaumlrt ist vermutlich auch dass Fo-ma erst seit Version 30 von HFST (veroumlffentlicht in 2011) vollstaumlndigunterstuumltzt wird

32 Empirie Die Integration am Beispiel eines SprachpaarsDaruumlber wie ein neues Sprachpaar unter Nutzung von HFST zu Aper-tium hinzugefuumlgt werden kann gibt ein Wiki-Artikel 15 Auskunft ImSinne eines Tutorials wird dabei Schritt fuumlr Schritt im Ansatz gezeigtwie die Implementation einer RBMT von der Turkmenischen Spracheins Tuumlrkische (Sprachpaar tk-tr) umgesetzt werden kann Bei beidenverwandten Sprachen handelt es sich um stark agglutinierende Spra-chen

Das (wissenschaftlich) am besten dokumentierte Beispiel der Nutzungvon HFST im Zusammenhang mit Apertium wird im noch nicht pu-blizierten Paper ldquoEvaluating North Saacutemi to Norwegian assimilationRBMTrdquo [4] beschrieben das von Trond Trosterud und seinem Kollegen

10 Vgl hierzu httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 12062012)11 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-tuk-tur (letzter Zugriff 12062012)12 Ethnologue-Eintrag fuumlr tuk httpswwwethnologuecomshow_languageaspcode=tuk (letzter Zugriff 12062012)13 Ethnologue-Eintrag fuumlr tur httpswwwethnologuecomshow_languageaspcode=tur (letzter Zugriff 12062012)14 Gemaumlss Francis M Tyers und Jonathan North Washington im IRC15 Apertium-Wiki httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 11062012)

16

Kevin Brubeck Unhammer Mitte Juni 2012 an der FreeRBMT 2012 erst-mals oumlffentlich vorgetragen wird 16

Die Nordsamische Sprache 17 (sme) verfuumlgt uumlber geschaumltzte 15rsquo000 bis25rsquo000 Sprecher und wird in Norwegen Schweden und Finnland ge-sprochen Die Sprache wird von den Autoren als stark flektierend undagglutinierend eingeteilt

Die Standardvarietaumlt 18 des Norwegischen in die uumlbersetzt wird ver-fuumlgt gemaumlss Ethnologue 19 uumlber rund 45 Millionen Sprecher und gehoumlrtder indogermanischen Sprachfamilie an Die Sprache wird von Troste-rud und Unhammer [4] als morphologisch wenig komplex angegeben

Dieses Sprachpaar gehoumlrt zu den wenigen wo eine indoeuropaumlische(oder -germanische) Sprache unter Einsatz von HFST mit Apertiumuumlbersetzt wird

Bei den meisten anderen Sprachpaaren wo HFST genutzt wird han-delt es sich beidseitig um Sprachen mit komplexer Morphologie

Bezuumlglich des Sprachpaars unserer Betrachtung fokussieren die Auto-ren auf die Uumlbersetzungsrichtung ins Norwegische weil der Anspruchbloss ist dass Nur-Norwegischsprechende Texte aus dem Nordsami-schen verstehen koumlnnen sollen Umgekehrt wuumlrden die meisten Spre-cher des Nordsamischen bereits Norwegisch verstehen womit der Nut-zen der umgekehrten Uumlbersetzungsrichtung als (zum aktuellen Zeit-punkt) gering eingeschaumltzt wird

Als Motivation fuumlr den Einsatz von HFST gegenuumlber lttoolbox wirdbeispielhaft der Stufenwechsel der Konsonanten des Nordsamischen inQuantitaumlt als auch Qualitaumlt angefuumlhrt 20 Generalisiert betrachtet befuumlr-worten die Autoren die Verwendung von HFST wenn Morphologienzu verarbeiten sind die nicht rein konkatenativ sind - wie ich in Kapitel31 zum Zweck von HFST bereits ausgefuumlhrt habe

Grundsaumltzlich wird gemaumlss Entwickler Unhammer 21 (schematisch) diefolgende UNIX-Pipeline fuumlr sme-nob angewandt

$ echo words|hfst-proc sme-analyserhfst|| 1lt-proc sme-to-nob-dixbin|| 2lt-proc nob-generator-dixbin 3

Im Falle von sme-nob wird HFST alleine fuumlr die Analyse (1) von smegenutzt dann wird wieder generell auf lttoolbox gesetzt in wichtigsterHinsicht im Rahmen des lexikalischen Transfers (2) und der Generierung

16 Information gemaumlss einem Gespraumlch mit Kevin Brubeck Unhammer im IRC Kon-ferenzseite mit Programm httpwwwmolto-projecteufreerbmt-programhtml(letzter Zugriff 14062012)17 Engl ldquoNorth Saacutemirdquo18 Als Buchsprache ldquoBokmaringlrdquo19 Ethnologue-Eintrag zu den Sprachen Norwegens httpswwwethnologuecomshow_countryaspname=no (letzter Zugriff 11062012)20 Vgl hierzu Wikipedia httpsdewikipediaorgwikiStufenwechsel (letzterZugriff 14062012)21 Chatgespraumlch im IRC

17

(3) der Zielsprache nob

Der morphologische sme-Analyzer ist dabei in den Formalismen LEXCund TWOLC geschrieben und fusst auf bereits verfuumlgbare Ressourcen22 zuruumlck was aufzeigt dass HFST im Einsatz fuumlr Apertium auch des-halb interessant ist weil viele Morphologien bereits existieren die inFormalismen geschrieben sind die HFST verarbeiten kann Fuumlr dasAnlegen vieler Sprachpaare ist es nicht notwendig alles from scratch zubeginnen

Auch beim nob-Generator konnte auf (eigene fruumlhere) Ressourcen zu-ruumlckgegriffen werden wie diese im Sprachpaar nn-nb 23 verfuumlgbar sindbei dem Sprachpaar wird zwischen zwei norwegischen Sprachverietauml-ten uumlbersetzt Wichtig ist noch einmal zu betonen dass der nob-Teil (zurGeneration der Norwegischen Wortformen) auf lttoolbox setzt und mitHFST nichts zu schaffen hat

Interessant ist der Einsatz der von Trosterud und Unhammer von Grundauf selber geschriebene Constraint Grammar (CG) 24 zur Wortartendisam-biguierung in dem die Auswahl der Woumlrter (fuumlr die Zielsprache) anhandvon (lokalen) grammatikalischen Kontexten (in der Quellsprache) ge-schieht Das ist auch der Grund weshalb ich eingangs in Kapitel 12VISL CG-3 als obligat zu installierendes Paket anfuumlhre Ohne dieseSoftware ist es nicht moumlglich das Sprachpaar sme-nob zu kompilieren25

Zwischen der morphologischen Analyse (von sme) und der morphologischenGenerierung von nob findet der strukturelle Transfer statt der 4-phasig istdie Autoren Trosterud und Unhammer machen hierbei folgende Anga-ben

1 63 Chunk-Regeln (t1x-Datei)

2 26 Interchunk1-Regeln (t2x-Datei)

3 39 Interchunk2-Regeln (t3x-Datei)

4 29 Postchunk-Regeln (t4x-Datei)

Es reicht also nicht bloss aus Wortformen oder Morpheme zu ersetzensondern es sind komplexe Verschiebungen der markierten Lemmata

22 SVN-Repository des Giellatekno-Projekts httpsvictoriouitnolangtechtrunkgtsme (letzter Zugriff 14062012)23 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-nn-nb (letzter Zugriff 14062012)24 Vgl fuumlr einen kurzen Uumlberblick eine CLab-Seite httpkittcluzhchclabconstraintGrammarilap_visl (letzter Zugriff 14062012)25 Zu erwaumlhnen ist in dem Zusammenhang dass bei den meisten SprachpaarenHidden-Markov-Modelle zum Einsatz kommen um die Wortarten zu bestimmen da-fuumlr wird Sprachmaterial trainiert Im Falle von sme-nob deuten die Autoren allerdingsdarauf hin dass mangels repraumlsentativen Sprachmaterials diese Option keine ist diebefriedigen kann Sie stellen allerdings in Aussicht dass eine Kombination von lin-guistischen CG- und statistischen HMM-Ansaumltzen ein Versuch wert waumlre Dabei wuumlrdezuerst mittels CG ein Kontext eingegrenzt und danach statistisch verfahren

18

notwendig um in das Norwegische zu uumlbersetzen obschon beide Spra-chen der Subjekt-Verb-Objekt-Satzstellung sind

Die Evaluationsergebnisse der Autoren deuten darauf hin dass dasSprachpaar sme-nob funktionalen Charakter hat Post-Editing-Qualitaumltist nicht das Ziel und wird auch nicht erreicht allerdings koumlnnen Nor-wegischsprechende die kein Nordsamisch verstehen in vielen Faumlllenausmachen was die Bedeutung eines Satzes ist - insbesondere dannwenn er kontextualisiert vorliegt

Im Folgenden soll eine praktische Nutzung des Sprachpaars sme-nobin Apertium illustriert werden Als Beispiel diene der einleitende Be-gruumlssungssatz zur Nordsamischen Wikipedia 26 ausgewaumlhlt

$ echo rsquoBures boahtin Wikipediai friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen til Wikipedia til den frie informasjonsordboken

Die resultierende nob-Uumlbersetzung lautet gemaumlss Google Translate 27

auf Deutsch

Willkommen bei Wikipedia dem freien Woumlrterbuch Infor-mationen

Die Uumlbersetzung ist verstaumlndlich abgesehen von der Semantik des Aus-drucks ldquoWoumlrterbuch Informationenrdquo Hier sollte meiner Ansicht nachldquoEnzyklopaumldierdquo stehen Es ist wahrscheinlich dass bereits die Quellenicht den optimalen Begriff fuumlhrt und da das eigentliche Problem liegt

Interessanter ist was passiert wenn wir das ominoumlse i-Suffix bei ldquoWi-kipediairdquo im Nordsamischen entfernen

$ echo rsquoBures boahtin Wikipedia friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen Wikipedia til den frie informasjonsordboken

Wir koumlnnen feststellen dass der Satz einen anderen personalen Bezugherstellt denn gemaumlss Google Translate 28 bedeutet die zweite nob-Uumlbersetzung auf Deutsch

Willkommen Wikipedia dem freien Woumlrterbuch Informa-tionen

Wir werden nun also als ldquoWikipediardquo angesprochen

26 Webseite httpssewikipediaorgwikiVC3A1ldosiidu (letzter Zugriff14062012)27 Vgl hierzu httptranslategooglecomno|de|Velkommen20til20Wikipedia2C20til20den20frie20informasjonsordboken (letzter Zugriff14062012)28 Vgl hierzu httptranslategooglecomno|de|0AVelkommen20Wikipedia2C20til20den20frie20informasjonsordbokenmskip-thinmuskip (letzter Zugriff 14062012)

19

Eine morphologische Analyse der beiden Wortformen ldquoWikipediardquo undldquoWikipediairdquo erhaumlrtet die Vermutungen dass es sich beim i-Suffix umeinen Illativ 29 handelt einem Lokalkasus der dazu genutzt werdenkann eine ldquoHineinbewegungrdquo auszudruumlcken respektive in diesem Falldie entsprechende Praumlposition ldquoaufrdquo in das Substantiv der Named En-tity ldquoWikipediardquo einzugliedern

$ echo Wikipedia | apertium -d sme-nob-morph1^WikipediaWikipedialtNgtltPropgtltOrggtltSggtltAccgtWikipedialtNgtltPropgtltOrggtltSggtltGengtWikipedialtNgtltPropgtltOrggtltSggtltNomgt$^ltCLBgt$

2$ echo Wikipediai | apertium -d sme-nob-morph^WikipediaiWikipedialtNgtltPropgtltOrggtltSggtltIllgt$^ltCLBgt$

Bei Analyse 1 wird ldquoWikipediardquo als ein Substantiv eine Named Entityund (semantisch) als Organisation im Singular markiert Uneinigkeitherrscht fuumlr den Tagger auf dieser Transferstufe noch uumlber den KasusEs ist nicht klar ob ldquoWikipediardquo im Nominativ Akkusativ oder Genitivsteht Das Symbol ltCLBgt steht fuumlr ldquoClause Boundaryrdquo und spielt insbe-sondere fuumlr den Chunker (im Zuge des spaumlteren Transfers) eine Rolle zB zur (groben) Abgrenzung von Nominal- und Verbalphrasen

Analyse 2 faumlllt knapper aus da der Kasusfall keine Rolle mehr spielt -an dessen Stelle tritt nun der Illativ (Symbol ltIllgt) Der Rest bleibt sichgleich

Da aber die Illativ-Markierung in diesem spezifischen Fall auf dernob-Seite zur Oberflaumlchengenerierung des norwegischen Wortes ldquotilrdquo30 fuumlhrt aumlndert sich die Semantik des Satzes merklich

Der Transferprozess bei Apertium kann generell beliebig fein beobach-tet werden fuumlr unser spezifisches Sprachpaar sme-nob sei fuumlr weitereVersuche auf das Apertium-Wiki 31 verwiesen das extensiv Informa-tionen daruumlber fuumlhrt

Es existieren weitere interessante Sprachpaare bei der nur eine Sei-te jeweils stark agglutierend ist und auf entsprechende Formalismen(LEXC- und TWOLC-Formalismen) zuruumlckgegriffen wird So etwa die

29 Vgl Wikipedia httpsdewikipediaorgwikiIllativ (letzter Zugriff14062012)30 Dt ldquoaufrdquo31 httpwikiapertiumorgwikiNorthern_SC3A1mi_and_Norwegian (letzterZugriff 14062012)

20

Sprachpaare quz-spa (Quecha-Castellano) 32 udm-rus (Udmuritische Sprache-Russisch) 33 und kaz-eng (Kasachisch-Englisch) 34 Noch ist der Entwick-lungsstand all dieser Uumlbersetzungsrichtungen aber gering und fuumlr einenproduktiven Einsatz oder eine Evaluation demnach ungeeignet 35

32 Apertium-Wikiseite httpwikiapertiumorgwikiQuechua_cuzqueC3B1o_y_castellano (letzter Zugriff 14062012)33 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-udm-rus (letzter Zugriff 14062012)34 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumincubatorapertium-eng-kaz (letzter Zugriff 14062012)35 Alle drei Sprachpaare sind in den SVN-Ordnern incubator oder nursery un-tergebracht

21

4 Schluss

41 Zusammenfassung und AusblickIn abschliessender Betrachtung ist festzuhalten Die Nutzung von HFSTverleiht Apertium die Faumlhigkeit zu und von Sprachen mit (stark) Nicht-Konkatenativer Morphologie zu uumlbersetzen Dafuumlr muumlssen die Aperti-um-eigenen lttoolbox-Werkzeuge umgangen werden die ansonstenzur morphologischen Analyse und morphologischen Generierung von Wort-formen verwendet werden Der Einsatz von HFST liefert aber keinenMehrwert an anderen Stellen in der Transfer-Pipeline Der lexikalischeTransfer oder strukturelle Anpassungen um der Syntax der Zielsprachenaumlher zu kommen sind Schritte fuumlr die sich die lttoolbox-Werkzeugeweiterhin bewaumlhren

Diskutiert wird eine staumlrkere Integration von HFST in Apertium damitHFST nicht laumlnger der Charakter eines ldquoFremdkoumlrpersrdquo in der Aper-tium-Plattform anhaftet Es existiert die Idee ein Projekt in diese Rich-tung anzustossen um es z B moumlglich zu machen lexc-Dateien anstattmit den HFST-Binaries mit den lttoolbox-Kommandos zu prozessierenDieses Projekt koumlnnte von einem interessierten Studierenden etwa imRahmen des naumlchsten Google Summer of Code (2013) initiiert werden 1

Ein weitere Herausforderung die in der Natur von Apertium als Shallow-Transfer-System begruumlndet liegt 2 hat mit den Bilexika zu tun Apertiummuss fuumlr jedes Sprachpaar ein Bilexikon fuumlhren um den lexikalischenTransfer mittels den lttoolbox-Werkzeugen zu vollziehen Da fuumlr jedeneue Sprachkombination das Bilexikon neu aufgebaut werden mussbesteht hier ein gewisser (manueller) Aufwand bei jedem neuen Sprach-paar das angesetzt wird dieser kann zwar durch Einsatz von Werkzeu-ge aus den apertium-dixtools minimiert werden die Vollautomation

1 Idee zum Projekt httpwikiapertiumorgwikiIdeas_for_Google_Summer_of_CodeCloser_integration_with_HFST (letzter Zugriff 14062012)2 Apertium verwendet keinen sog Interlingua-Ansatz um eine sprachunabhaumlngigeRepraumlsentation von Wortbedeutungen zu fuumlhren

22

funktioniert aber noch nicht 3 4

Weiterhin bleibt Apertium im Grundsatz ein Shallow-Transfer-Systemdas keinen vollstaumlndigen Parse der Quellsprache vornimmt und sietiefen-analysiert Dadurch ist es auch in Zukunft nicht breit moumlglichSemantik uumlber weite Distanzen zu transferieren

Bezuumlglich weiterer Moumlglichkeiten fuumlr Apertium morphologisch zu ana-lysieren generieren kann das Augenmerk auch auf neuere Formalis-men als jene von Xerox 5 gelegt werden So existiert hunmorph 6 dases erlaubt in OCaml 7 - in einem objekt-orientierten Paradigma - Mor-phologien zu beschreiben und dazu eine (relativ) einfache Syntax auf-zuweisen scheint Beispiele explorativer Versuche mit hunmorph fuumlrApertium sind im Wiki des Projekts bereits heute dokumentiert 8 Aus-serdem ist hunmoph morphologisch-analytische Basis des bekanntenSpellcheckers HunSpell das der standardmaumlssige Spellchecker in Libre-Office OpenOfficeorg und einigen Softwareprodukten der MozillaFoundation ist 9

Selber hat es mir Freude bereitet mich in dieses komplexe Gebiet hin-ein zu begeben und ich bin fuumlr die Zukunft interessiert daran michan Apertium nach Kraumlften zu beteiligen da ich die dahinterstehendeCommunity als eine kennen gelernt habe die aufgeschlossen humor-voll und im houmlchsten Masse kompetent ist

42 DanksagungenIch moumlchte mich an dieser Stelle herzlichst im Besonderen bei folgen-den Personen des Apertium-Projekts bedanken dass sie sich Zeit ge-nommen haben sich mit mir im IRC ausgiebig zu unterhalten und denDschungel in und um Apertium zu durchleuchten Mikel L ForcadaFrancis M Tyers Kevin Brubeck Unhammer und Jonathan North Wa-shington

Ohne sie waumlre diese Arbeit in der Form nicht entstanden und vielesQuellmaterial das ich hier verwende schwierg auffindbar gewesen

3 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-dixtools (letzter Zugriff 14062012)4 Vgl hierzu httpwikiapertiumorgwikiCrossdics (letzter Zugriff14062012)5 Namentlich XFST TWOLC und LEXC6 Webseite httpmokkbmehuresourceshunmorph (letzter Zugriff 14062012)7 Webseite httpcamlinriafr (letzter Zugriff 14062012)8 Apertium-Wiki httpwikiapertiumorgwikiHunmorph (letzter Zugriff14062012)9 Webseite httphunspellsourceforgenet (letzter Zugriff 14062012)

23

Literaturverzeichnis

[1] S Clematide Morphologie und Lexikographie Vorlesungs-skript Institut fuumlr Computerlinguistik Universitaumlt Zuumlrich 2007URL httpfilesifiuzhchclsiclematlehress07mulscriptscriptpdf

[2] ML Forcada BI Bonev S Ortiz-Rojas JA Peacuterez-OrtizG Ramiacuterez-Saacutenchez F Saacutenchez-Martiacutenez C Armentano-OllerMA Montava FM Tyers und U dA Departament de Llenguatges iSistemes Informagravetics Documentation of the open-source shallow-transfer machine translation platform apertium 2010 URL httpxixonadlsiuaes~franapertium2-documentationpdf

[3] ML Forcada FM Tyers und G Ramiacuterez-Saacutenchez The Apertiummachine translation platform five years on In Proceedings of the FirstInternational Workshop on FreeOpen-Source Rule-Based Machine Trans-lation 3ndash10 2009 URL httpxixonadlsiuaesfreerbmt09presentationsforcada_freerbmt09_5yrsonpdf

[4] T Trosterud und KB Unhammer Evaluating North Saacutemi to Nor-wegian assimilation RBMT In Proceedings of the Third InternationalWorkshop on FreeOpen-Source Rule-Based Machine Translation 2012URL httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-sme-nobpaperpathrev=38833 (noch kein of-fizielles Paper (im PDF) verfuumlgbar)

24

Abbildungsverzeichnis

21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen 10

25

Anhang

IRC-Konversation zu HFSTTypisches Beispiel einer Konversation 10 mit Jonathan North Washing-ton (ldquofirespeakerrdquo) und Mikel L Forcada (ldquomlforcadardquo) welche we-sentliche Beitraumlge zu Apertium leisten gefuumlhrt im IRC 11

1921 lt h2mgt At which stage of the pipeline is HFST employed1921 lt h2mgt I couldnrsquot get that1921 lt mlforcadagt h2m generation of Kazakh[]1922 lt h2mgt Is this process described somewhere in detailsuch that I can read that up1922 lt mlforcadagt is something that looks like lttoolbox butmore powerful1922 lt mlforcadagt h2m firespeaker can help probably1922 lt h2mgt I can only see lexc and twol files wo reallygetting the point[]1922 lt firespeakergt h2m HFST takes a string of text and turnsit into lemmas + tags1922 lt firespeakergt h2m or1922 lt firespeakergt h2m it takes lemmas + tags and turns itinto a string of text[]1923 lt firespeakergt h2m lexc is the morphotactics1923 lt mlforcadagt firespeaker yoursquore right1923 lt h2mgt Ah OK1923 lt firespeakergt h2m twol is the morphophonology

10 Selber bin ich als ldquoh2mrdquo unterwegs11 ircircfreenodenetapertium

26

  • Einfuumlhrung
    • Motivation und Thema
    • Verwendete Umgebung und Konfiguration
      • Grundlagen Zu Apertium und HFST
        • Wesen und Entwicklungsstand von Apertium
        • Wesen und Entwicklungsstand von HFST
          • Hauptteil Die Integration von HFST in Apertium
            • Theorie Zweck und Nutzen der Integration
            • Empirie Die Integration am Beispiel eines Sprachpaars
              • Schluss
                • Zusammenfassung und Ausblick
                • Danksagungen
                  • Literaturverzeichnis
                  • Abbildungsverzeichnis
                  • Anhang
Page 8: Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

Sprachpaar esharrpt also Spanisch zu Portugiesisch (und umgekehrt) - alssolches ebenso ein Sprachpaar das eine geringe linguistische Distanzaufweist Die groumlssten Unterschiede sind lexikalischer Art

Vor insgesamt acht Jahren wurde angefangen die zwei o g Systeme zuvereinigen Im Zuge dieser Reimplementation wurde auch der Quell-code unter einer freien Lizenz im Sinne der Open Source Initiative 3

veroumlffentlicht Jede Person hat somit die Moumlglichkeit an der Entwick-lung von Apertium mitzuwirken Forcada selber war damals leitendmit dabei und mischt heute weiterhin zentral mit Es sind mittlerweileweitere wichtige Namen in der Apertium-Entwicklung involviert dieals Mentoren 4 fuumlr Interessierte an der Mitarbeit am Projekt fungierenDeren unmittelbare und zeitweise staumlndige Erreichbarkeit kann ich auseigener Erfahrung bestaumltigen

Forcada erwaumlhnt [3] dass fuumlr die Sprachpaare esharrca und es-gl diesprachtechnologischen Ressourcen teils selber (in seinem akademischenUmfeld) erstellt oder - wo moumlglich - aus frei verfuumlgbaren anderen Res-sourcen die frei lizenziert sind bezogen wurden um Apertium initialaufzubauen

Angefangen mit Version 10 welche fuumlr aumlhnliche Sprachpaare wieesharrca und es-pt ausgelegt ist bietet Version 20 bereits die Moumlglich-keit zwischen linguistisch weiter entfernten Sprachen zu uumlbersetzenAls Beispiele hierbei werden frharrca 5 oder enharrca 6 genannt Dafuumlr wur-de der Transferprozess ausgebaut denn es genuumlgt bei diesen Sprachennicht mehr (in vereinfachter Darstellung) die Woumlrter zu ersetzen Einmehrstufiger Strukturtransfer wird erforderlich ohne aber (bis heu-te) eine vollstaumlndige Syntaxanalyse zu betreiben Der juumlngste Major-Versionssprung zur Version 3 markiert dass Apertium vollstaumlndigUNICODE-faumlhig geworden ist und mit allen im Zeichensatz enthalte-nen Symbolen operieren kann

Technologisch setzt Apertium auf bewaumlhrte Technologien Die linguis-tischen Daten sowohl die Lexika als auch die Transferregeln werdenje Sprachpaar in XML-Dateien nach einem klaren Schema abgelegt 7Das erhoumlht die Interoperabilitaumlt zu anderen Systemen die sich diesenRessourcen bedienen moumlchten Ein eigens entwickeltes Toolset exis-tiert (lttoolbox) das die XML-Dateien in ein binaumlres Format uumlberset-zen kann das als ein Finite-State-Transduktor (FST) 8 realisiert wirdAus den Lexika und Transferregeln werden fuumlr jedes Sprachpaar letz-ten Endes drei Transduktoren erstellt welche folgenden drei Bereichengewidmet sind die im Grundsatz den Uumlbersetzungsprozess von Aper-tium ausmachen

3 Webseite der Initiative httpwwwopensourceorg (letzter Zugriff 14062012)4 Apertium-Wiki httpwikiapertiumorgwikiList_of_Apertium_mentors(letzter Zugriff 14062012)5 Franzoumlsisch zu Katalanisch und umgekehrt6 Englisch zu Katalanisch und umgekehrt7 Beispiel der Schemata anhand des Woumlrterbuchschemas httpwikiapertiumorgwikiMonodix_basics (letzter Zugriff 14062012)8 In diesem konkreten Anwendungsfall genauer bekannt als augmented letter trans-ducer

8

1 Lexikalische Analyse (der Quellsprachenwoumlrter)

2 Lexikalischer Transfer (anhand der Wortlemmata mit lexikali-schen Wortmarkierungen)

3 Lexikalische Generierung (der Zielsprachenwoumlrter)

Um die Lemmata fuumlr den Transferprozess erfolgreich lexikalisch zumarkieren sind natuumlrlich Zwischenschritte notwendig wie die morpho-logische Analyse der vorgefundenen Wortform PoS-Tagging 9 zur Wort-artenbestimmung und Word Sense Disambiguation um das (kontextuell)adaumlquate Lemma auszuwaumlhlen und zu taggen Je nach Sprachpaar undSprachbau der involvierten Sprachen ist der dafuumlr erforderliche Auf-wand unterschiedlich gross

Der Einsatz von HFST welcher zur morphologischen Verarbeitung indieser Hinsicht schwieriger Sprachen genutzt wird findet im extensivs-ten Einsatz bei der lexikalischen Analyse (1) und Generierung statt (2) -und das auch nur wenn beide Sprachen der Betrachtung HFST zur mor-phologischen Bewaumlltigung erforderlich machen Ist nur die Quellspra-che morphologisch mit den lttoolbox-Werkzeugen nicht zu bewaumlltigenso findet da der Einsatz von HFST statt ansonsten bei der Zielspra-che In Faumlllen wo sowohl die Zielsprache als auch die Quellsprachegroumlsstenteils mit Konkatenativer Morphologie 10 bewaumlltigt werden kannmacht der Einsatz von HFST wenig Sinn Da wird dann in aller Regellttoolbox fuumlr alles verwendet Das trifft etwa auf alle urspruumlnglichenSprachpaare zu wie ich sie weiter oben erwaumlhnt habe

Apertium ist der UNIX-Philosophie 11 verschrieben dass Programmeim Einzelnen klein und simpel zu sein haben und erst miteinander inInteraktion befindlich Komplexes schaffen sollen Durch das verwen-dete Pipelining kann jeder Analyse- Transfer- und Generierungsschrittin seinem In- und Output genau beobachtet werden Das und die freieVerfuumlgbarkeit des Quellcodes hilft beim Verstaumlndnis der Prozesse un-gemein und macht wissenschaftliche Ergebnisse nachvollziehbar Ge-nauer kann die Pipeline anhand der Abbildung 21 illustriert werden12

Die (relative) Unabhaumlngigkeit der einzelnen Komponenten erlaubt esApertium nur in Teilen zu verwenden z B zum PoS-Tagging eigenerTexte ungeachtet der weitergehenden und (eigentlichen) Hauptfunk-tionalitaumlt der Maschinellen Uumlbersetzung Somit ist Apertium nicht einfach

9 Das PoS-Tagging wird generell statistisch mit trainierten Daten im Einsatz vonHidden-Markov-Modellen (HMM) gemacht oder in Faumlllen wo zu wenig Datenmaterialvorliegt oder der Statistik zugunsten der Linguistik weniger Spielraum gelassen werdensoll faumlllt auf dass auch der Constraint Grammar-Formalismus (CG) eingesetzt wirdDas ist beim Sprachpaar sme-nob das in Kapitel 32 betrachtetet wird der Fall10 Dazu in 31 Genaueres11 Vgl hierzu Wikipedia httpsenwikipediaorgwikiUnix_philosophy(letzter Zugriff 14062012)12 Die schematische Darstellung entspringt den TeX-Quellen der Apertium-Dokumentation fuumlr Version 30 die in Arbeit ist URL httpapertiumsvnsourceforgenetviewvcapertiumbranchesapertium-documentationapertium-30endocumentationtexview=logamppathrev=38833 (letzter Zugriff14062012)

9

Quellsprachedarr

Deform rarr MorphAnal

rarrPoS-Tagging rarr

StruktTrans

rarrMorphGen

rarrPost-Gen

rarr Reform

l darr

LexTrans

Zielsprache

Abbildung 21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen

ein abgeschlossenes MUuml-System im Sinne einer Blackbox sondern ei-ne offene Plattform die hilft freie sprachtechnologische Ressourcen zumehren

Apertium fuumlhrt die Sprachpaare im SVN-Repository 13 abhaumlngig vomEntwicklungsstand in verschiedenen Ordnern

bull In incubator befinden sich kuumlrzlich angesetzte Sprachpaare

bull In nursery befinden sich noch wenig funktionale Sprachpaare

bull In staging befinden sich bereits fortgeschrittene Sprachpaare

bull In trunk befinden sich stabile Sprachpaare die produktiv ge-nutzt werden koumlnnen

Mittlerweile sind im Vergleich zu 2004 zahlreiche weitere Sprachpaa-re hinzukommen entstanden durch Forschungs-Entwicklungsprojektevon Studierenden 14 Arbeiten von Forschungsgruppen an anderenForschungseinrichtungen als Community-Projekte seitens Interessier-ter der Freien Software-Szene und auch mit Entwicklungsunterstuumltzungvon Unternehmen mit kommerziellen Interessen z B Prompsit wel-che Dienstleistungen um Apertium anbietet 15

Zum Zeitpunkt des Abschlusses dieser Arbeit Mitte Juni 201216 befin-den sich 138 () Sprachpaare in incubator 17 28 Sprachpaare in nursery5 Sprachpaare in staging und 37 Sprachpaare in trunk womit rund 40Sprachpaare produktiv genutzt werden koumlnnen Forschungs- und Ent-wicklungsarbeiten hingegen sind schon heute in rund 200 Sprachpaarenmoumlglich und weitere koumlnnen nach Absprache mit den Hauptentwick-lern beliebig hinzugefuumlgt werden

13 SVN-Webview des Repositories httpapertiumsvnsourceforgenetviewvc (letzter Zugriff 14062012)14 Z B im Rahmen des Google Summer of Code (GSoC) httpwikiapertiumorgwikiGoogle_Summer_of_CodeActive_projects (letzter Zugriff 14062012)15 Prompsit-Webseite httpwwwprompsitcomsomos-prompsit (letzter Zu-griff 14062012)16 SVN-Repository des Projekts in Revision 38833 httpapertiumsvnsourceforgenetviewvcapertiumpathrev=38833 (letzter Zugriff 14062012)17 Sowie einige Morphologien im Ansatz die keinem konkreten Sprachpaar gewid-met sind

10

Wichtig fuumlr einen Start sind die freie Verfuumlgbarkeit von Woumlrterbuumlchernund gegebenenfalls Morphologien fuumlr die involvierten Sprachen EineListe solcher Ressourcen fuumlr viele Sprachen wird im Apertium-Wikigefuumlhrt 18

Durch das Hinzukommen von Sprachpaaren deren Sprachen linguis-tisch wenig gemein haben ist der Shallow-Transfer inzwischen staumlrkerausgebaut Fuumlr en-ca (Englisch zu Katalanisch) wird ein dreistufigerStrukturtransfer angewandt in der Reihenfolge Chunking Inter- undPost-Chunking Dabei ist zu beachten dass das Inter-Chunking in (noch)komplexeren Faumlllen mehrstufig sein kann So ist mir das Sprachpaarsme-smj (vom Nordsamischen 32 in das Lulesamische 19) aufgefallen20 das uumlber drei Inter-Chunking-Dateien verfuumlgt 21 die Regeln daruumlberenthalten Chunks (in drei Phasen) zu vertauschen

22 Wesen und Entwicklungsstand von HFSTBeim Helsinki Finite-State Transducer - Framework (HFST) handelt essich um eine in C++ geschriebene Open Source-Softwarekollektion auswelche die Nutzung verschiedener FST-Technologien und -Formalismenheraus einheitlich moumlglich ist die ihrerseits frei (implementiert) verfuumlg-bar sind Es sind dies zum aktuellen Zeitpunkt

bull Die Stuttgart Finite-State Transducer Tools (SFST) mit einer Basis-Unterstuumltzung von Finite-State Transducer mit gewichteten Kan-tenuumlbergaumlngen 22 23

bull Das Foma-Paket das eine freie Implementation der XFSTLEXC-Formalismen darstellt gewichtete Transduktoren koumlnnen nichterstellt werden 24

bull Die OpenFST-Bibliothek es wird die Schaffung von Finite-StateTransducer mit gewichteten Kantenuumlbergaumlngen unterstuumltzt 25

Insbesondere bietet HFST das Tool hfst-twolc an das einen Two-LevelRule Compiler fuumlr den Xerox-TWOLC-Formalismus darstellt Damitkoumlnnen Transduktoren erstellt werden die eine parallele Ersetzung so-wohl der Ober- als auch der Unterseite des Transduktors gleichzeitigerlauben Die Reihenfolge der entsprechenden Deklarationen ist damit

18 Apertium-Wiki httpwikiapertiumorgwikiSpecific_resources_per_language (letzter Zugriff 14062012)19 Ethnologue-Eintrag fuumlr smj httpswwwethnologuecomshow_languageaspcode=smj (letzter Zugriff 14062012)20 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-sme-smj (letzter Zugriff 14062012)21 Die Dateien mit den Endungen ldquot2xrdquo ldquot3xrdquo und ldquot4xrdquo - besonderes Augenmerkkann auf den Bereich ab ltsection-rulesgt gelegt werden22 Webseite httpwwwimsuni-stuttgartdeprojektegramotronSOFTWARESFSThtml (letzter Zugriff 14062012)23 Gemaumlss Angaben von Francis M Tyers im IRC wird auf diese Tools den entspre-chenden Bibliotheken in Apertium kaum zugegriffen24 Dateien mit Endungen ldquoxfstrdquo ldquofomardquo und ldquolexcrdquo werden in aller Regel damitverarbeitet25 Dateien mit Endungen ldquotwolrdquo werden damit prozessiert wobei von gewichtetenKantenuumlbergaumlngen kein Gebrauch gemacht wird

11

unwichtig Im Gegensatz dazu muss beim (klassischen) Xerox Finite-State Tools-Formalismus (XFST) welcher Foma als Compiler frei imple-mentiert der Reihenfolge der Deklarationen Beachtung geschenkt wer-den weil es sich beim XFST-Formalismus um Rewriting-Regeln handeltdie sequentiell immer nur auf die Unterseite (bzw dem ldquozweitenrdquo oderldquorechtenrdquo Band) des Transduktors angewandt werden

Eine umfassende Einfuumlhrung von Finite-State-Automaten und -Transduktorenwuumlrde den Rahmen dieser Arbeit sprengen es sei allerdings darauf hin-gewiesen dass im Apertium-Wiki26 das Thema im Zusammenhang mitden morphologischen Woumlrterbuumlcher die mittels den eigenen lttoolbox-Werkzeugen erstellt werden ausreichend eingefuumlhrt wird

Auf der Seite wird ebenfalls plausibel erklaumlrt dass es zur Uumlbersichtlich-keit und dem Verstaumlndnis der Morphologie beitraumlgt die Deklarationderselben von den Algorithmen zu trennen die sie umsetzen Sowohlder lttoolbox-Formalismus als auch die Formalismen die durch dasHFST-Framework unterstuumltzt werden erfordern die blosse Deklarati-on der Morphologie ohne dass man sich um die (effiziente) Verarbei-tung der Ausdruumlcke selber kuumlmmern muss Die prozeduralen Schritteerledigen lttoolbox und HFST bei der Verarbeitung der jeweiligen De-klarationen in den Dateien 27 selbststaumlndig Damit wird eine Trennungvon morphologischer Deklaration und Programmcode erreicht

Das ist aumlhnlich wie bei der deklarativen (logischen) Programmierspra-che Prolog wo sich die Inferenzmaschine eigenstaumlndig um die effizienteBeweisfuumlhrung des Ziels (engl des ldquogoalsrdquo) kuumlmmert Das Gegenteildieses Ansatzes wird auf der Webseite mit Python-Code demonstriertwelcher im gegebenen Beispiel dafuumlr verwendet wird das Wort ldquobeerrdquound ldquobeersrdquo morphologisch zu analysieren - als ein Substantiv das imSingular oder Plural steht Das wird durch prozedurale Schritte direkterledigt Bei der Implementation sprachvollstaumlndiger Morphologien aufdiese Art gestaltet sich die Wartung der Morphologie als tendenziell un-uumlbersichtlich Hinzu koumlnnen sich bei einem solchen Ansatz in schlechterImplementation Laufzeitprobleme gesellenDer wichtigste Vorteil aber bleibt bis hierhin unerwaumlhnt Transdukto-ren koumlnnen nicht nur zur Analyse von Wortformen in ihre Lemmatasamt lexikalischer Markierungen genutzt werden 28 sondern markierteLemmata (im gegebenen Format) koumlnnen zur Generierung von Wortfor-men genutzt werden 29 In einer prozeduralen Implementation muumlsstesowohl Programmcode fuumlr die Generierung als auch (separat) fuumlr dieAnalyse geschrieben werden Das ist umstaumlndlich

26 Vgl das Apertium-Wiki httpwikiapertiumorgwikiMorphological_dictionaries (letzter Zugriff 14062012)27 Es handelt sich fuumlr Dateien die durch lttoolbox prozessiert werden um die Datei-en in den Ordner der Sprachpaare mit den Endungen ldquodixrdquo fuumlr das morphologischeWoumlrterbuch ldquot1xrdquo bis (maximal) ldquot5xrdquo (je nach Anzahl der Stufen) fuumlr die Transferre-geln und gegebenenfalls den ldquolexcrdquo- und ldquotwolrdquo-Dateien falls bei einer involviertenSprache die Morphologie durch HFST erfasst wird In wenigen Faumlllen sind auch ldquoxfstrdquo-oder ldquofomardquo-Dateien anzutreffen28 Der Transduktor wird in einem solchen Fall in der Regel von links nach rechtsbzw von oben nach unten angewandt29 Der Transduktor wird von rechts nach links bzw von unten nach oben angewandt

12

Ein praktisches Beispiel der Nutzung der resultierenden Transdukto-ren zur Analyse oder Generierung liefert das Apertium-Wiki auf derSeite uumlber lttoolbox 30

Falls bei einer speziellen Anwendung mit Apertium eine (im Einzelfall)weitergehende prozedurale Verarbeitung der Ausgabe aus den Trans-duktoren notwendig wird dann besteht die Moumlglichkeit HFST aus zB Python heraus zu nutzen 31

30 Vgl Apertium-Wiki httpwikiapertiumorgwikiLttoolbox (letzter Zu-griff 14062012)31 Vgl Beitrag auf der nltk-dev-Mailingliste httpsgroupsgooglecomgroupnltk-devbrowse_threadthreadfdb53482cad56234 (letzter Zugriff 14062012)

13

3 Hauptteil Die Integrationvon HFST in Apertium

31 Theorie Zweck und Nutzen der IntegrationFinite-State-Technologien koumlnnen in der Computerlinguistik dafuumlr ge-nutzt werden um Woumlrterbuumlcher elegant aufzubauen oder die mor-phologische Analyse und Generierung von Woumlrtern systematisch zubetreiben und das insbesondere auch in Faumlllen wo die Morphologie derbetrachteten Sprache nicht relativ einfach durch z B Prauml- oder Suffixe(also konkatenativ durch rsquoAneinanderreihenrsquo von Morphemen) erfasstwerden kann sondern gerade auch in Faumlllen wo auch andere Affixewie Infixe zur Anwendung kommen

Nicht mehr simpel sind Morphologien beispielsweise in Faumlllen wo esfuumlr gegebene Wortstaumlmme 1 Faumllle gibt wo Morpheme fuumlr eine Flexi-on inmitten des Stamms eingepflanzt werden muumlssen oder wo Vokaleinmitten von Staumlmmen wegfallen oder durch andere ersetzt werdenmuumlssen um guumlltige Wortformen analysieren oder generieren zu koumln-nen Morphologien fuumlr Sprachen die komplexe Anpassungen an Staumlm-men oder fortgesetzten Wortklassen in bestimmten (z B grammatikali-schen) Faumlllen erfordern werden auch Nicht-Konkatenative Morphologien(NKM) (vgl Clematide 2007 104ff) genannt oder zumindest waumlre dieKonkatenation nach vorwiegend erkennbaren systematischen Regelnder betrachteten Sprache nicht mehr (sinnvoll) nachvollziehbar wuumlrdeman eine Konkatenative Morphologie erzwingen wollen ebenfalls ist dieGefahr von Redundanz sehr hoch wenn jeder nur denkbare Stamm ineine Morphologie einfliesst

Eine saubere Morphologie mit klaren Regeln und in (moumlglichst) schlan-ker Ausfuumlhrung ist eine Anforderung von der gerade ein MaschinellesUumlbersetzungssystem wie Apertium fundamental profitiert um schnell zu

1 Minimaloberflaumlche von Woumlrtern aus der durch Morpheme die vor- um - oderangehaumlngt werden koumlnnen weitere wichtige (weitere) Wortformen entstehen

14

arbeiten und (linguistisch nachvollziehbar) gepflegt werden zu koumlnnen

Wie bereits in Kapitel 21 angedeutet ist es nicht erst das HFST-Frameworkdas Finite-State-Technologien in Apertium einfuumlhrt Die lexikalischenWerkzeuge lttoolbox mit Anwendungen wie lt-comp 2 oder lt-proc 3

werden dazu genutzt die in XML abgefassten Woumlrterbuumlcher in Trans-duktoren umzuwandeln - fuumlr eine schnellere Verarbeitung Mit denMoumlglichkeiten verglichen die das HFST-Framework liefert sind die lt-toolbox-Werkezuge am ehesten mit dem LEXC-Formalismus vergleich-bar welcher Foma beherrscht und auf die Idee fusst Woumlrterbuumlcher an-hand von Staumlmmen (von z B Verben oder Nomen) anhand von Fort-setzungsklassen (durch das Anhaumlngen von Morphemen) aufzubauenSimon Clematide fuumlhrt auch das in seinem Vorlesungsskript von 2007(93ff) genauer aus Darin ist es moumlglich die Morphotaktik der Sprachezu erfassen Schwieriger umzusetzen mit diesen Apertium-Bordmittelnist die Morphophonemik worunter Lautanpassungen oder die Infigierung 4

fallen Diese (u U seltenen aber fuumlr die Korrektheit notwendigen) An-passungen der Morphotaktik berechtigen den Beizug zusaumltzlicher (wohlbekannter und anerkannter) Formalismen wie XFST 5 oder TWOLC

Die wenigsten natuumlrlichen Sprachen sind (vollstaumlndig) KonkatenativerMorphologie Im Rahmen einer kuumlrzlichen Veranstaltung zu Finite-State-Methoden (bei Simon Clematide) haben Simon Hafner und ich die Moumlg-lichkeit erhalten eine (konzeptionelle) Morphologie 6 fuumlr die Planspra-che ldquoKlingonischrdquo 7 anzulegen Diese laumlsst sich tatsaumlchlich fast vollstaumln-dig mit Fortsetzungsklassen auf Basis der Wortstaumlmme und anzuhaumln-genden Morphemen und damit dem LEXC-Formalismus erfassen istaber auch nur ein akademisches Beispiel einer Sprache wo es nie zu(natuumlrlichen) Lautverschiebungen oder anderen komplexen Phaumlnome-nen kam

Die Dokumentation daruumlber wie HFST in Apertium genau genutztwird ist spaumlrlich Gerade in der Apertium-Dokumentation (aktuellnachgefuumlhrt und veroumlffentlicht bis Version 20) seitens Forcada et al[2] wird nichts uumlber die Nutzung von HFST ausgesagt - auch nicht inden neuesten (versionskontrollierten) Fassungen8 im SVN-Repository

Gluumlcklicherweise waren wichtige Apertium-Entwickler mir eine grosseHilfe dabei die noumltigen Einstiegspunkte zu finden Ein Beispiel einer ty-pischen Hilfeleistung ist im Anhang als ldquoIRC-Konversation zu HFSTrdquo9 zu finden die ich mit freundlicher Unterstuumltzung der involviertenPersonen in dieser Seminararbeit in der Form publizieren darf

2 Zur Kompilation von Woumlrterbuumlchern von einem XML- in ein FST-Format3 Zur Prozessierung der Daten im vorgaumlngig generierten FST-Format und der Aus-gabe in einem menschenlesbaren lexikalischen Tagging-Format4 Einfuumlgen eines Affixes in einen Wortstamm auch Infix genannt5 Von Foma implementiert6 Code und Anwendungsbeispiele bei github im git-Repository httpsgithubcom2mhklingomorph (letzter Zugriff 14062012)7 Ethnologue-Eintrag tlh httpswwwethnologuecomshow_languageaspcode=tlh (letzter Zugriff 14062012)8 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-documentationapertium-20en (letzter Zugriff 12062012)9 Siehe Anhang auf Seite 26

15

Zudem Es sind im Apertium-Wiki Informationen daruumlber vorhandenwie ein neues Sprachpaar fuumlr die Nutzung mit HFST angelegt werdenkann 10 Beim gegebenen Beispiel wird schematisch das Sprachpaar tur-tuk angesetzt (real im SVN-Repository existiert das Sprachpaar tuk-tur11) wobei tuk 12fuumlr Turkmenisch und tur 13 fuumlr Tuumlrkisch steht

Generell wird bei Sprachpaaren die mit HFST analysiert (und gene-riert) werden versucht den lexikalischen Transfer moumlglichst auf Ba-sis der Morpheme vorzunehmen Idealerweise kann der groumlsste Teilim LEXC-Formalismus abgedeckt werden Wo das nicht (im Ansatz)gelingt werden TWOLC-Regeln definiert welche die noumltigen Anpas-sungen an den lexikalischen Markierungen und Oberflaumlchenformen derWoumlrter vornehmen

Gruumlnde weshalb TWOLC- gegenuumlber XFST-Deklarationen bevorzugtwerden sind gemaumlss wichtigen Apertium-Entwicklern 14 (1) das uumlber-sichtlichere Format und (2) die einfachere Handhabung von linguisti-schen Phaumlnomenen wie der Vokalharmonie mit dem TWOLC-Formalismus

Ein weiterer wichtiger Grund welcher die mangelnde Verbreitung desXFST-Formalismus bei Apertium erklaumlrt ist vermutlich auch dass Fo-ma erst seit Version 30 von HFST (veroumlffentlicht in 2011) vollstaumlndigunterstuumltzt wird

32 Empirie Die Integration am Beispiel eines SprachpaarsDaruumlber wie ein neues Sprachpaar unter Nutzung von HFST zu Aper-tium hinzugefuumlgt werden kann gibt ein Wiki-Artikel 15 Auskunft ImSinne eines Tutorials wird dabei Schritt fuumlr Schritt im Ansatz gezeigtwie die Implementation einer RBMT von der Turkmenischen Spracheins Tuumlrkische (Sprachpaar tk-tr) umgesetzt werden kann Bei beidenverwandten Sprachen handelt es sich um stark agglutinierende Spra-chen

Das (wissenschaftlich) am besten dokumentierte Beispiel der Nutzungvon HFST im Zusammenhang mit Apertium wird im noch nicht pu-blizierten Paper ldquoEvaluating North Saacutemi to Norwegian assimilationRBMTrdquo [4] beschrieben das von Trond Trosterud und seinem Kollegen

10 Vgl hierzu httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 12062012)11 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-tuk-tur (letzter Zugriff 12062012)12 Ethnologue-Eintrag fuumlr tuk httpswwwethnologuecomshow_languageaspcode=tuk (letzter Zugriff 12062012)13 Ethnologue-Eintrag fuumlr tur httpswwwethnologuecomshow_languageaspcode=tur (letzter Zugriff 12062012)14 Gemaumlss Francis M Tyers und Jonathan North Washington im IRC15 Apertium-Wiki httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 11062012)

16

Kevin Brubeck Unhammer Mitte Juni 2012 an der FreeRBMT 2012 erst-mals oumlffentlich vorgetragen wird 16

Die Nordsamische Sprache 17 (sme) verfuumlgt uumlber geschaumltzte 15rsquo000 bis25rsquo000 Sprecher und wird in Norwegen Schweden und Finnland ge-sprochen Die Sprache wird von den Autoren als stark flektierend undagglutinierend eingeteilt

Die Standardvarietaumlt 18 des Norwegischen in die uumlbersetzt wird ver-fuumlgt gemaumlss Ethnologue 19 uumlber rund 45 Millionen Sprecher und gehoumlrtder indogermanischen Sprachfamilie an Die Sprache wird von Troste-rud und Unhammer [4] als morphologisch wenig komplex angegeben

Dieses Sprachpaar gehoumlrt zu den wenigen wo eine indoeuropaumlische(oder -germanische) Sprache unter Einsatz von HFST mit Apertiumuumlbersetzt wird

Bei den meisten anderen Sprachpaaren wo HFST genutzt wird han-delt es sich beidseitig um Sprachen mit komplexer Morphologie

Bezuumlglich des Sprachpaars unserer Betrachtung fokussieren die Auto-ren auf die Uumlbersetzungsrichtung ins Norwegische weil der Anspruchbloss ist dass Nur-Norwegischsprechende Texte aus dem Nordsami-schen verstehen koumlnnen sollen Umgekehrt wuumlrden die meisten Spre-cher des Nordsamischen bereits Norwegisch verstehen womit der Nut-zen der umgekehrten Uumlbersetzungsrichtung als (zum aktuellen Zeit-punkt) gering eingeschaumltzt wird

Als Motivation fuumlr den Einsatz von HFST gegenuumlber lttoolbox wirdbeispielhaft der Stufenwechsel der Konsonanten des Nordsamischen inQuantitaumlt als auch Qualitaumlt angefuumlhrt 20 Generalisiert betrachtet befuumlr-worten die Autoren die Verwendung von HFST wenn Morphologienzu verarbeiten sind die nicht rein konkatenativ sind - wie ich in Kapitel31 zum Zweck von HFST bereits ausgefuumlhrt habe

Grundsaumltzlich wird gemaumlss Entwickler Unhammer 21 (schematisch) diefolgende UNIX-Pipeline fuumlr sme-nob angewandt

$ echo words|hfst-proc sme-analyserhfst|| 1lt-proc sme-to-nob-dixbin|| 2lt-proc nob-generator-dixbin 3

Im Falle von sme-nob wird HFST alleine fuumlr die Analyse (1) von smegenutzt dann wird wieder generell auf lttoolbox gesetzt in wichtigsterHinsicht im Rahmen des lexikalischen Transfers (2) und der Generierung

16 Information gemaumlss einem Gespraumlch mit Kevin Brubeck Unhammer im IRC Kon-ferenzseite mit Programm httpwwwmolto-projecteufreerbmt-programhtml(letzter Zugriff 14062012)17 Engl ldquoNorth Saacutemirdquo18 Als Buchsprache ldquoBokmaringlrdquo19 Ethnologue-Eintrag zu den Sprachen Norwegens httpswwwethnologuecomshow_countryaspname=no (letzter Zugriff 11062012)20 Vgl hierzu Wikipedia httpsdewikipediaorgwikiStufenwechsel (letzterZugriff 14062012)21 Chatgespraumlch im IRC

17

(3) der Zielsprache nob

Der morphologische sme-Analyzer ist dabei in den Formalismen LEXCund TWOLC geschrieben und fusst auf bereits verfuumlgbare Ressourcen22 zuruumlck was aufzeigt dass HFST im Einsatz fuumlr Apertium auch des-halb interessant ist weil viele Morphologien bereits existieren die inFormalismen geschrieben sind die HFST verarbeiten kann Fuumlr dasAnlegen vieler Sprachpaare ist es nicht notwendig alles from scratch zubeginnen

Auch beim nob-Generator konnte auf (eigene fruumlhere) Ressourcen zu-ruumlckgegriffen werden wie diese im Sprachpaar nn-nb 23 verfuumlgbar sindbei dem Sprachpaar wird zwischen zwei norwegischen Sprachverietauml-ten uumlbersetzt Wichtig ist noch einmal zu betonen dass der nob-Teil (zurGeneration der Norwegischen Wortformen) auf lttoolbox setzt und mitHFST nichts zu schaffen hat

Interessant ist der Einsatz der von Trosterud und Unhammer von Grundauf selber geschriebene Constraint Grammar (CG) 24 zur Wortartendisam-biguierung in dem die Auswahl der Woumlrter (fuumlr die Zielsprache) anhandvon (lokalen) grammatikalischen Kontexten (in der Quellsprache) ge-schieht Das ist auch der Grund weshalb ich eingangs in Kapitel 12VISL CG-3 als obligat zu installierendes Paket anfuumlhre Ohne dieseSoftware ist es nicht moumlglich das Sprachpaar sme-nob zu kompilieren25

Zwischen der morphologischen Analyse (von sme) und der morphologischenGenerierung von nob findet der strukturelle Transfer statt der 4-phasig istdie Autoren Trosterud und Unhammer machen hierbei folgende Anga-ben

1 63 Chunk-Regeln (t1x-Datei)

2 26 Interchunk1-Regeln (t2x-Datei)

3 39 Interchunk2-Regeln (t3x-Datei)

4 29 Postchunk-Regeln (t4x-Datei)

Es reicht also nicht bloss aus Wortformen oder Morpheme zu ersetzensondern es sind komplexe Verschiebungen der markierten Lemmata

22 SVN-Repository des Giellatekno-Projekts httpsvictoriouitnolangtechtrunkgtsme (letzter Zugriff 14062012)23 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-nn-nb (letzter Zugriff 14062012)24 Vgl fuumlr einen kurzen Uumlberblick eine CLab-Seite httpkittcluzhchclabconstraintGrammarilap_visl (letzter Zugriff 14062012)25 Zu erwaumlhnen ist in dem Zusammenhang dass bei den meisten SprachpaarenHidden-Markov-Modelle zum Einsatz kommen um die Wortarten zu bestimmen da-fuumlr wird Sprachmaterial trainiert Im Falle von sme-nob deuten die Autoren allerdingsdarauf hin dass mangels repraumlsentativen Sprachmaterials diese Option keine ist diebefriedigen kann Sie stellen allerdings in Aussicht dass eine Kombination von lin-guistischen CG- und statistischen HMM-Ansaumltzen ein Versuch wert waumlre Dabei wuumlrdezuerst mittels CG ein Kontext eingegrenzt und danach statistisch verfahren

18

notwendig um in das Norwegische zu uumlbersetzen obschon beide Spra-chen der Subjekt-Verb-Objekt-Satzstellung sind

Die Evaluationsergebnisse der Autoren deuten darauf hin dass dasSprachpaar sme-nob funktionalen Charakter hat Post-Editing-Qualitaumltist nicht das Ziel und wird auch nicht erreicht allerdings koumlnnen Nor-wegischsprechende die kein Nordsamisch verstehen in vielen Faumlllenausmachen was die Bedeutung eines Satzes ist - insbesondere dannwenn er kontextualisiert vorliegt

Im Folgenden soll eine praktische Nutzung des Sprachpaars sme-nobin Apertium illustriert werden Als Beispiel diene der einleitende Be-gruumlssungssatz zur Nordsamischen Wikipedia 26 ausgewaumlhlt

$ echo rsquoBures boahtin Wikipediai friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen til Wikipedia til den frie informasjonsordboken

Die resultierende nob-Uumlbersetzung lautet gemaumlss Google Translate 27

auf Deutsch

Willkommen bei Wikipedia dem freien Woumlrterbuch Infor-mationen

Die Uumlbersetzung ist verstaumlndlich abgesehen von der Semantik des Aus-drucks ldquoWoumlrterbuch Informationenrdquo Hier sollte meiner Ansicht nachldquoEnzyklopaumldierdquo stehen Es ist wahrscheinlich dass bereits die Quellenicht den optimalen Begriff fuumlhrt und da das eigentliche Problem liegt

Interessanter ist was passiert wenn wir das ominoumlse i-Suffix bei ldquoWi-kipediairdquo im Nordsamischen entfernen

$ echo rsquoBures boahtin Wikipedia friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen Wikipedia til den frie informasjonsordboken

Wir koumlnnen feststellen dass der Satz einen anderen personalen Bezugherstellt denn gemaumlss Google Translate 28 bedeutet die zweite nob-Uumlbersetzung auf Deutsch

Willkommen Wikipedia dem freien Woumlrterbuch Informa-tionen

Wir werden nun also als ldquoWikipediardquo angesprochen

26 Webseite httpssewikipediaorgwikiVC3A1ldosiidu (letzter Zugriff14062012)27 Vgl hierzu httptranslategooglecomno|de|Velkommen20til20Wikipedia2C20til20den20frie20informasjonsordboken (letzter Zugriff14062012)28 Vgl hierzu httptranslategooglecomno|de|0AVelkommen20Wikipedia2C20til20den20frie20informasjonsordbokenmskip-thinmuskip (letzter Zugriff 14062012)

19

Eine morphologische Analyse der beiden Wortformen ldquoWikipediardquo undldquoWikipediairdquo erhaumlrtet die Vermutungen dass es sich beim i-Suffix umeinen Illativ 29 handelt einem Lokalkasus der dazu genutzt werdenkann eine ldquoHineinbewegungrdquo auszudruumlcken respektive in diesem Falldie entsprechende Praumlposition ldquoaufrdquo in das Substantiv der Named En-tity ldquoWikipediardquo einzugliedern

$ echo Wikipedia | apertium -d sme-nob-morph1^WikipediaWikipedialtNgtltPropgtltOrggtltSggtltAccgtWikipedialtNgtltPropgtltOrggtltSggtltGengtWikipedialtNgtltPropgtltOrggtltSggtltNomgt$^ltCLBgt$

2$ echo Wikipediai | apertium -d sme-nob-morph^WikipediaiWikipedialtNgtltPropgtltOrggtltSggtltIllgt$^ltCLBgt$

Bei Analyse 1 wird ldquoWikipediardquo als ein Substantiv eine Named Entityund (semantisch) als Organisation im Singular markiert Uneinigkeitherrscht fuumlr den Tagger auf dieser Transferstufe noch uumlber den KasusEs ist nicht klar ob ldquoWikipediardquo im Nominativ Akkusativ oder Genitivsteht Das Symbol ltCLBgt steht fuumlr ldquoClause Boundaryrdquo und spielt insbe-sondere fuumlr den Chunker (im Zuge des spaumlteren Transfers) eine Rolle zB zur (groben) Abgrenzung von Nominal- und Verbalphrasen

Analyse 2 faumlllt knapper aus da der Kasusfall keine Rolle mehr spielt -an dessen Stelle tritt nun der Illativ (Symbol ltIllgt) Der Rest bleibt sichgleich

Da aber die Illativ-Markierung in diesem spezifischen Fall auf dernob-Seite zur Oberflaumlchengenerierung des norwegischen Wortes ldquotilrdquo30 fuumlhrt aumlndert sich die Semantik des Satzes merklich

Der Transferprozess bei Apertium kann generell beliebig fein beobach-tet werden fuumlr unser spezifisches Sprachpaar sme-nob sei fuumlr weitereVersuche auf das Apertium-Wiki 31 verwiesen das extensiv Informa-tionen daruumlber fuumlhrt

Es existieren weitere interessante Sprachpaare bei der nur eine Sei-te jeweils stark agglutierend ist und auf entsprechende Formalismen(LEXC- und TWOLC-Formalismen) zuruumlckgegriffen wird So etwa die

29 Vgl Wikipedia httpsdewikipediaorgwikiIllativ (letzter Zugriff14062012)30 Dt ldquoaufrdquo31 httpwikiapertiumorgwikiNorthern_SC3A1mi_and_Norwegian (letzterZugriff 14062012)

20

Sprachpaare quz-spa (Quecha-Castellano) 32 udm-rus (Udmuritische Sprache-Russisch) 33 und kaz-eng (Kasachisch-Englisch) 34 Noch ist der Entwick-lungsstand all dieser Uumlbersetzungsrichtungen aber gering und fuumlr einenproduktiven Einsatz oder eine Evaluation demnach ungeeignet 35

32 Apertium-Wikiseite httpwikiapertiumorgwikiQuechua_cuzqueC3B1o_y_castellano (letzter Zugriff 14062012)33 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-udm-rus (letzter Zugriff 14062012)34 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumincubatorapertium-eng-kaz (letzter Zugriff 14062012)35 Alle drei Sprachpaare sind in den SVN-Ordnern incubator oder nursery un-tergebracht

21

4 Schluss

41 Zusammenfassung und AusblickIn abschliessender Betrachtung ist festzuhalten Die Nutzung von HFSTverleiht Apertium die Faumlhigkeit zu und von Sprachen mit (stark) Nicht-Konkatenativer Morphologie zu uumlbersetzen Dafuumlr muumlssen die Aperti-um-eigenen lttoolbox-Werkzeuge umgangen werden die ansonstenzur morphologischen Analyse und morphologischen Generierung von Wort-formen verwendet werden Der Einsatz von HFST liefert aber keinenMehrwert an anderen Stellen in der Transfer-Pipeline Der lexikalischeTransfer oder strukturelle Anpassungen um der Syntax der Zielsprachenaumlher zu kommen sind Schritte fuumlr die sich die lttoolbox-Werkzeugeweiterhin bewaumlhren

Diskutiert wird eine staumlrkere Integration von HFST in Apertium damitHFST nicht laumlnger der Charakter eines ldquoFremdkoumlrpersrdquo in der Aper-tium-Plattform anhaftet Es existiert die Idee ein Projekt in diese Rich-tung anzustossen um es z B moumlglich zu machen lexc-Dateien anstattmit den HFST-Binaries mit den lttoolbox-Kommandos zu prozessierenDieses Projekt koumlnnte von einem interessierten Studierenden etwa imRahmen des naumlchsten Google Summer of Code (2013) initiiert werden 1

Ein weitere Herausforderung die in der Natur von Apertium als Shallow-Transfer-System begruumlndet liegt 2 hat mit den Bilexika zu tun Apertiummuss fuumlr jedes Sprachpaar ein Bilexikon fuumlhren um den lexikalischenTransfer mittels den lttoolbox-Werkzeugen zu vollziehen Da fuumlr jedeneue Sprachkombination das Bilexikon neu aufgebaut werden mussbesteht hier ein gewisser (manueller) Aufwand bei jedem neuen Sprach-paar das angesetzt wird dieser kann zwar durch Einsatz von Werkzeu-ge aus den apertium-dixtools minimiert werden die Vollautomation

1 Idee zum Projekt httpwikiapertiumorgwikiIdeas_for_Google_Summer_of_CodeCloser_integration_with_HFST (letzter Zugriff 14062012)2 Apertium verwendet keinen sog Interlingua-Ansatz um eine sprachunabhaumlngigeRepraumlsentation von Wortbedeutungen zu fuumlhren

22

funktioniert aber noch nicht 3 4

Weiterhin bleibt Apertium im Grundsatz ein Shallow-Transfer-Systemdas keinen vollstaumlndigen Parse der Quellsprache vornimmt und sietiefen-analysiert Dadurch ist es auch in Zukunft nicht breit moumlglichSemantik uumlber weite Distanzen zu transferieren

Bezuumlglich weiterer Moumlglichkeiten fuumlr Apertium morphologisch zu ana-lysieren generieren kann das Augenmerk auch auf neuere Formalis-men als jene von Xerox 5 gelegt werden So existiert hunmorph 6 dases erlaubt in OCaml 7 - in einem objekt-orientierten Paradigma - Mor-phologien zu beschreiben und dazu eine (relativ) einfache Syntax auf-zuweisen scheint Beispiele explorativer Versuche mit hunmorph fuumlrApertium sind im Wiki des Projekts bereits heute dokumentiert 8 Aus-serdem ist hunmoph morphologisch-analytische Basis des bekanntenSpellcheckers HunSpell das der standardmaumlssige Spellchecker in Libre-Office OpenOfficeorg und einigen Softwareprodukten der MozillaFoundation ist 9

Selber hat es mir Freude bereitet mich in dieses komplexe Gebiet hin-ein zu begeben und ich bin fuumlr die Zukunft interessiert daran michan Apertium nach Kraumlften zu beteiligen da ich die dahinterstehendeCommunity als eine kennen gelernt habe die aufgeschlossen humor-voll und im houmlchsten Masse kompetent ist

42 DanksagungenIch moumlchte mich an dieser Stelle herzlichst im Besonderen bei folgen-den Personen des Apertium-Projekts bedanken dass sie sich Zeit ge-nommen haben sich mit mir im IRC ausgiebig zu unterhalten und denDschungel in und um Apertium zu durchleuchten Mikel L ForcadaFrancis M Tyers Kevin Brubeck Unhammer und Jonathan North Wa-shington

Ohne sie waumlre diese Arbeit in der Form nicht entstanden und vielesQuellmaterial das ich hier verwende schwierg auffindbar gewesen

3 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-dixtools (letzter Zugriff 14062012)4 Vgl hierzu httpwikiapertiumorgwikiCrossdics (letzter Zugriff14062012)5 Namentlich XFST TWOLC und LEXC6 Webseite httpmokkbmehuresourceshunmorph (letzter Zugriff 14062012)7 Webseite httpcamlinriafr (letzter Zugriff 14062012)8 Apertium-Wiki httpwikiapertiumorgwikiHunmorph (letzter Zugriff14062012)9 Webseite httphunspellsourceforgenet (letzter Zugriff 14062012)

23

Literaturverzeichnis

[1] S Clematide Morphologie und Lexikographie Vorlesungs-skript Institut fuumlr Computerlinguistik Universitaumlt Zuumlrich 2007URL httpfilesifiuzhchclsiclematlehress07mulscriptscriptpdf

[2] ML Forcada BI Bonev S Ortiz-Rojas JA Peacuterez-OrtizG Ramiacuterez-Saacutenchez F Saacutenchez-Martiacutenez C Armentano-OllerMA Montava FM Tyers und U dA Departament de Llenguatges iSistemes Informagravetics Documentation of the open-source shallow-transfer machine translation platform apertium 2010 URL httpxixonadlsiuaes~franapertium2-documentationpdf

[3] ML Forcada FM Tyers und G Ramiacuterez-Saacutenchez The Apertiummachine translation platform five years on In Proceedings of the FirstInternational Workshop on FreeOpen-Source Rule-Based Machine Trans-lation 3ndash10 2009 URL httpxixonadlsiuaesfreerbmt09presentationsforcada_freerbmt09_5yrsonpdf

[4] T Trosterud und KB Unhammer Evaluating North Saacutemi to Nor-wegian assimilation RBMT In Proceedings of the Third InternationalWorkshop on FreeOpen-Source Rule-Based Machine Translation 2012URL httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-sme-nobpaperpathrev=38833 (noch kein of-fizielles Paper (im PDF) verfuumlgbar)

24

Abbildungsverzeichnis

21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen 10

25

Anhang

IRC-Konversation zu HFSTTypisches Beispiel einer Konversation 10 mit Jonathan North Washing-ton (ldquofirespeakerrdquo) und Mikel L Forcada (ldquomlforcadardquo) welche we-sentliche Beitraumlge zu Apertium leisten gefuumlhrt im IRC 11

1921 lt h2mgt At which stage of the pipeline is HFST employed1921 lt h2mgt I couldnrsquot get that1921 lt mlforcadagt h2m generation of Kazakh[]1922 lt h2mgt Is this process described somewhere in detailsuch that I can read that up1922 lt mlforcadagt is something that looks like lttoolbox butmore powerful1922 lt mlforcadagt h2m firespeaker can help probably1922 lt h2mgt I can only see lexc and twol files wo reallygetting the point[]1922 lt firespeakergt h2m HFST takes a string of text and turnsit into lemmas + tags1922 lt firespeakergt h2m or1922 lt firespeakergt h2m it takes lemmas + tags and turns itinto a string of text[]1923 lt firespeakergt h2m lexc is the morphotactics1923 lt mlforcadagt firespeaker yoursquore right1923 lt h2mgt Ah OK1923 lt firespeakergt h2m twol is the morphophonology

10 Selber bin ich als ldquoh2mrdquo unterwegs11 ircircfreenodenetapertium

26

  • Einfuumlhrung
    • Motivation und Thema
    • Verwendete Umgebung und Konfiguration
      • Grundlagen Zu Apertium und HFST
        • Wesen und Entwicklungsstand von Apertium
        • Wesen und Entwicklungsstand von HFST
          • Hauptteil Die Integration von HFST in Apertium
            • Theorie Zweck und Nutzen der Integration
            • Empirie Die Integration am Beispiel eines Sprachpaars
              • Schluss
                • Zusammenfassung und Ausblick
                • Danksagungen
                  • Literaturverzeichnis
                  • Abbildungsverzeichnis
                  • Anhang
Page 9: Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

1 Lexikalische Analyse (der Quellsprachenwoumlrter)

2 Lexikalischer Transfer (anhand der Wortlemmata mit lexikali-schen Wortmarkierungen)

3 Lexikalische Generierung (der Zielsprachenwoumlrter)

Um die Lemmata fuumlr den Transferprozess erfolgreich lexikalisch zumarkieren sind natuumlrlich Zwischenschritte notwendig wie die morpho-logische Analyse der vorgefundenen Wortform PoS-Tagging 9 zur Wort-artenbestimmung und Word Sense Disambiguation um das (kontextuell)adaumlquate Lemma auszuwaumlhlen und zu taggen Je nach Sprachpaar undSprachbau der involvierten Sprachen ist der dafuumlr erforderliche Auf-wand unterschiedlich gross

Der Einsatz von HFST welcher zur morphologischen Verarbeitung indieser Hinsicht schwieriger Sprachen genutzt wird findet im extensivs-ten Einsatz bei der lexikalischen Analyse (1) und Generierung statt (2) -und das auch nur wenn beide Sprachen der Betrachtung HFST zur mor-phologischen Bewaumlltigung erforderlich machen Ist nur die Quellspra-che morphologisch mit den lttoolbox-Werkzeugen nicht zu bewaumlltigenso findet da der Einsatz von HFST statt ansonsten bei der Zielspra-che In Faumlllen wo sowohl die Zielsprache als auch die Quellsprachegroumlsstenteils mit Konkatenativer Morphologie 10 bewaumlltigt werden kannmacht der Einsatz von HFST wenig Sinn Da wird dann in aller Regellttoolbox fuumlr alles verwendet Das trifft etwa auf alle urspruumlnglichenSprachpaare zu wie ich sie weiter oben erwaumlhnt habe

Apertium ist der UNIX-Philosophie 11 verschrieben dass Programmeim Einzelnen klein und simpel zu sein haben und erst miteinander inInteraktion befindlich Komplexes schaffen sollen Durch das verwen-dete Pipelining kann jeder Analyse- Transfer- und Generierungsschrittin seinem In- und Output genau beobachtet werden Das und die freieVerfuumlgbarkeit des Quellcodes hilft beim Verstaumlndnis der Prozesse un-gemein und macht wissenschaftliche Ergebnisse nachvollziehbar Ge-nauer kann die Pipeline anhand der Abbildung 21 illustriert werden12

Die (relative) Unabhaumlngigkeit der einzelnen Komponenten erlaubt esApertium nur in Teilen zu verwenden z B zum PoS-Tagging eigenerTexte ungeachtet der weitergehenden und (eigentlichen) Hauptfunk-tionalitaumlt der Maschinellen Uumlbersetzung Somit ist Apertium nicht einfach

9 Das PoS-Tagging wird generell statistisch mit trainierten Daten im Einsatz vonHidden-Markov-Modellen (HMM) gemacht oder in Faumlllen wo zu wenig Datenmaterialvorliegt oder der Statistik zugunsten der Linguistik weniger Spielraum gelassen werdensoll faumlllt auf dass auch der Constraint Grammar-Formalismus (CG) eingesetzt wirdDas ist beim Sprachpaar sme-nob das in Kapitel 32 betrachtetet wird der Fall10 Dazu in 31 Genaueres11 Vgl hierzu Wikipedia httpsenwikipediaorgwikiUnix_philosophy(letzter Zugriff 14062012)12 Die schematische Darstellung entspringt den TeX-Quellen der Apertium-Dokumentation fuumlr Version 30 die in Arbeit ist URL httpapertiumsvnsourceforgenetviewvcapertiumbranchesapertium-documentationapertium-30endocumentationtexview=logamppathrev=38833 (letzter Zugriff14062012)

9

Quellsprachedarr

Deform rarr MorphAnal

rarrPoS-Tagging rarr

StruktTrans

rarrMorphGen

rarrPost-Gen

rarr Reform

l darr

LexTrans

Zielsprache

Abbildung 21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen

ein abgeschlossenes MUuml-System im Sinne einer Blackbox sondern ei-ne offene Plattform die hilft freie sprachtechnologische Ressourcen zumehren

Apertium fuumlhrt die Sprachpaare im SVN-Repository 13 abhaumlngig vomEntwicklungsstand in verschiedenen Ordnern

bull In incubator befinden sich kuumlrzlich angesetzte Sprachpaare

bull In nursery befinden sich noch wenig funktionale Sprachpaare

bull In staging befinden sich bereits fortgeschrittene Sprachpaare

bull In trunk befinden sich stabile Sprachpaare die produktiv ge-nutzt werden koumlnnen

Mittlerweile sind im Vergleich zu 2004 zahlreiche weitere Sprachpaa-re hinzukommen entstanden durch Forschungs-Entwicklungsprojektevon Studierenden 14 Arbeiten von Forschungsgruppen an anderenForschungseinrichtungen als Community-Projekte seitens Interessier-ter der Freien Software-Szene und auch mit Entwicklungsunterstuumltzungvon Unternehmen mit kommerziellen Interessen z B Prompsit wel-che Dienstleistungen um Apertium anbietet 15

Zum Zeitpunkt des Abschlusses dieser Arbeit Mitte Juni 201216 befin-den sich 138 () Sprachpaare in incubator 17 28 Sprachpaare in nursery5 Sprachpaare in staging und 37 Sprachpaare in trunk womit rund 40Sprachpaare produktiv genutzt werden koumlnnen Forschungs- und Ent-wicklungsarbeiten hingegen sind schon heute in rund 200 Sprachpaarenmoumlglich und weitere koumlnnen nach Absprache mit den Hauptentwick-lern beliebig hinzugefuumlgt werden

13 SVN-Webview des Repositories httpapertiumsvnsourceforgenetviewvc (letzter Zugriff 14062012)14 Z B im Rahmen des Google Summer of Code (GSoC) httpwikiapertiumorgwikiGoogle_Summer_of_CodeActive_projects (letzter Zugriff 14062012)15 Prompsit-Webseite httpwwwprompsitcomsomos-prompsit (letzter Zu-griff 14062012)16 SVN-Repository des Projekts in Revision 38833 httpapertiumsvnsourceforgenetviewvcapertiumpathrev=38833 (letzter Zugriff 14062012)17 Sowie einige Morphologien im Ansatz die keinem konkreten Sprachpaar gewid-met sind

10

Wichtig fuumlr einen Start sind die freie Verfuumlgbarkeit von Woumlrterbuumlchernund gegebenenfalls Morphologien fuumlr die involvierten Sprachen EineListe solcher Ressourcen fuumlr viele Sprachen wird im Apertium-Wikigefuumlhrt 18

Durch das Hinzukommen von Sprachpaaren deren Sprachen linguis-tisch wenig gemein haben ist der Shallow-Transfer inzwischen staumlrkerausgebaut Fuumlr en-ca (Englisch zu Katalanisch) wird ein dreistufigerStrukturtransfer angewandt in der Reihenfolge Chunking Inter- undPost-Chunking Dabei ist zu beachten dass das Inter-Chunking in (noch)komplexeren Faumlllen mehrstufig sein kann So ist mir das Sprachpaarsme-smj (vom Nordsamischen 32 in das Lulesamische 19) aufgefallen20 das uumlber drei Inter-Chunking-Dateien verfuumlgt 21 die Regeln daruumlberenthalten Chunks (in drei Phasen) zu vertauschen

22 Wesen und Entwicklungsstand von HFSTBeim Helsinki Finite-State Transducer - Framework (HFST) handelt essich um eine in C++ geschriebene Open Source-Softwarekollektion auswelche die Nutzung verschiedener FST-Technologien und -Formalismenheraus einheitlich moumlglich ist die ihrerseits frei (implementiert) verfuumlg-bar sind Es sind dies zum aktuellen Zeitpunkt

bull Die Stuttgart Finite-State Transducer Tools (SFST) mit einer Basis-Unterstuumltzung von Finite-State Transducer mit gewichteten Kan-tenuumlbergaumlngen 22 23

bull Das Foma-Paket das eine freie Implementation der XFSTLEXC-Formalismen darstellt gewichtete Transduktoren koumlnnen nichterstellt werden 24

bull Die OpenFST-Bibliothek es wird die Schaffung von Finite-StateTransducer mit gewichteten Kantenuumlbergaumlngen unterstuumltzt 25

Insbesondere bietet HFST das Tool hfst-twolc an das einen Two-LevelRule Compiler fuumlr den Xerox-TWOLC-Formalismus darstellt Damitkoumlnnen Transduktoren erstellt werden die eine parallele Ersetzung so-wohl der Ober- als auch der Unterseite des Transduktors gleichzeitigerlauben Die Reihenfolge der entsprechenden Deklarationen ist damit

18 Apertium-Wiki httpwikiapertiumorgwikiSpecific_resources_per_language (letzter Zugriff 14062012)19 Ethnologue-Eintrag fuumlr smj httpswwwethnologuecomshow_languageaspcode=smj (letzter Zugriff 14062012)20 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-sme-smj (letzter Zugriff 14062012)21 Die Dateien mit den Endungen ldquot2xrdquo ldquot3xrdquo und ldquot4xrdquo - besonderes Augenmerkkann auf den Bereich ab ltsection-rulesgt gelegt werden22 Webseite httpwwwimsuni-stuttgartdeprojektegramotronSOFTWARESFSThtml (letzter Zugriff 14062012)23 Gemaumlss Angaben von Francis M Tyers im IRC wird auf diese Tools den entspre-chenden Bibliotheken in Apertium kaum zugegriffen24 Dateien mit Endungen ldquoxfstrdquo ldquofomardquo und ldquolexcrdquo werden in aller Regel damitverarbeitet25 Dateien mit Endungen ldquotwolrdquo werden damit prozessiert wobei von gewichtetenKantenuumlbergaumlngen kein Gebrauch gemacht wird

11

unwichtig Im Gegensatz dazu muss beim (klassischen) Xerox Finite-State Tools-Formalismus (XFST) welcher Foma als Compiler frei imple-mentiert der Reihenfolge der Deklarationen Beachtung geschenkt wer-den weil es sich beim XFST-Formalismus um Rewriting-Regeln handeltdie sequentiell immer nur auf die Unterseite (bzw dem ldquozweitenrdquo oderldquorechtenrdquo Band) des Transduktors angewandt werden

Eine umfassende Einfuumlhrung von Finite-State-Automaten und -Transduktorenwuumlrde den Rahmen dieser Arbeit sprengen es sei allerdings darauf hin-gewiesen dass im Apertium-Wiki26 das Thema im Zusammenhang mitden morphologischen Woumlrterbuumlcher die mittels den eigenen lttoolbox-Werkzeugen erstellt werden ausreichend eingefuumlhrt wird

Auf der Seite wird ebenfalls plausibel erklaumlrt dass es zur Uumlbersichtlich-keit und dem Verstaumlndnis der Morphologie beitraumlgt die Deklarationderselben von den Algorithmen zu trennen die sie umsetzen Sowohlder lttoolbox-Formalismus als auch die Formalismen die durch dasHFST-Framework unterstuumltzt werden erfordern die blosse Deklarati-on der Morphologie ohne dass man sich um die (effiziente) Verarbei-tung der Ausdruumlcke selber kuumlmmern muss Die prozeduralen Schritteerledigen lttoolbox und HFST bei der Verarbeitung der jeweiligen De-klarationen in den Dateien 27 selbststaumlndig Damit wird eine Trennungvon morphologischer Deklaration und Programmcode erreicht

Das ist aumlhnlich wie bei der deklarativen (logischen) Programmierspra-che Prolog wo sich die Inferenzmaschine eigenstaumlndig um die effizienteBeweisfuumlhrung des Ziels (engl des ldquogoalsrdquo) kuumlmmert Das Gegenteildieses Ansatzes wird auf der Webseite mit Python-Code demonstriertwelcher im gegebenen Beispiel dafuumlr verwendet wird das Wort ldquobeerrdquound ldquobeersrdquo morphologisch zu analysieren - als ein Substantiv das imSingular oder Plural steht Das wird durch prozedurale Schritte direkterledigt Bei der Implementation sprachvollstaumlndiger Morphologien aufdiese Art gestaltet sich die Wartung der Morphologie als tendenziell un-uumlbersichtlich Hinzu koumlnnen sich bei einem solchen Ansatz in schlechterImplementation Laufzeitprobleme gesellenDer wichtigste Vorteil aber bleibt bis hierhin unerwaumlhnt Transdukto-ren koumlnnen nicht nur zur Analyse von Wortformen in ihre Lemmatasamt lexikalischer Markierungen genutzt werden 28 sondern markierteLemmata (im gegebenen Format) koumlnnen zur Generierung von Wortfor-men genutzt werden 29 In einer prozeduralen Implementation muumlsstesowohl Programmcode fuumlr die Generierung als auch (separat) fuumlr dieAnalyse geschrieben werden Das ist umstaumlndlich

26 Vgl das Apertium-Wiki httpwikiapertiumorgwikiMorphological_dictionaries (letzter Zugriff 14062012)27 Es handelt sich fuumlr Dateien die durch lttoolbox prozessiert werden um die Datei-en in den Ordner der Sprachpaare mit den Endungen ldquodixrdquo fuumlr das morphologischeWoumlrterbuch ldquot1xrdquo bis (maximal) ldquot5xrdquo (je nach Anzahl der Stufen) fuumlr die Transferre-geln und gegebenenfalls den ldquolexcrdquo- und ldquotwolrdquo-Dateien falls bei einer involviertenSprache die Morphologie durch HFST erfasst wird In wenigen Faumlllen sind auch ldquoxfstrdquo-oder ldquofomardquo-Dateien anzutreffen28 Der Transduktor wird in einem solchen Fall in der Regel von links nach rechtsbzw von oben nach unten angewandt29 Der Transduktor wird von rechts nach links bzw von unten nach oben angewandt

12

Ein praktisches Beispiel der Nutzung der resultierenden Transdukto-ren zur Analyse oder Generierung liefert das Apertium-Wiki auf derSeite uumlber lttoolbox 30

Falls bei einer speziellen Anwendung mit Apertium eine (im Einzelfall)weitergehende prozedurale Verarbeitung der Ausgabe aus den Trans-duktoren notwendig wird dann besteht die Moumlglichkeit HFST aus zB Python heraus zu nutzen 31

30 Vgl Apertium-Wiki httpwikiapertiumorgwikiLttoolbox (letzter Zu-griff 14062012)31 Vgl Beitrag auf der nltk-dev-Mailingliste httpsgroupsgooglecomgroupnltk-devbrowse_threadthreadfdb53482cad56234 (letzter Zugriff 14062012)

13

3 Hauptteil Die Integrationvon HFST in Apertium

31 Theorie Zweck und Nutzen der IntegrationFinite-State-Technologien koumlnnen in der Computerlinguistik dafuumlr ge-nutzt werden um Woumlrterbuumlcher elegant aufzubauen oder die mor-phologische Analyse und Generierung von Woumlrtern systematisch zubetreiben und das insbesondere auch in Faumlllen wo die Morphologie derbetrachteten Sprache nicht relativ einfach durch z B Prauml- oder Suffixe(also konkatenativ durch rsquoAneinanderreihenrsquo von Morphemen) erfasstwerden kann sondern gerade auch in Faumlllen wo auch andere Affixewie Infixe zur Anwendung kommen

Nicht mehr simpel sind Morphologien beispielsweise in Faumlllen wo esfuumlr gegebene Wortstaumlmme 1 Faumllle gibt wo Morpheme fuumlr eine Flexi-on inmitten des Stamms eingepflanzt werden muumlssen oder wo Vokaleinmitten von Staumlmmen wegfallen oder durch andere ersetzt werdenmuumlssen um guumlltige Wortformen analysieren oder generieren zu koumln-nen Morphologien fuumlr Sprachen die komplexe Anpassungen an Staumlm-men oder fortgesetzten Wortklassen in bestimmten (z B grammatikali-schen) Faumlllen erfordern werden auch Nicht-Konkatenative Morphologien(NKM) (vgl Clematide 2007 104ff) genannt oder zumindest waumlre dieKonkatenation nach vorwiegend erkennbaren systematischen Regelnder betrachteten Sprache nicht mehr (sinnvoll) nachvollziehbar wuumlrdeman eine Konkatenative Morphologie erzwingen wollen ebenfalls ist dieGefahr von Redundanz sehr hoch wenn jeder nur denkbare Stamm ineine Morphologie einfliesst

Eine saubere Morphologie mit klaren Regeln und in (moumlglichst) schlan-ker Ausfuumlhrung ist eine Anforderung von der gerade ein MaschinellesUumlbersetzungssystem wie Apertium fundamental profitiert um schnell zu

1 Minimaloberflaumlche von Woumlrtern aus der durch Morpheme die vor- um - oderangehaumlngt werden koumlnnen weitere wichtige (weitere) Wortformen entstehen

14

arbeiten und (linguistisch nachvollziehbar) gepflegt werden zu koumlnnen

Wie bereits in Kapitel 21 angedeutet ist es nicht erst das HFST-Frameworkdas Finite-State-Technologien in Apertium einfuumlhrt Die lexikalischenWerkzeuge lttoolbox mit Anwendungen wie lt-comp 2 oder lt-proc 3

werden dazu genutzt die in XML abgefassten Woumlrterbuumlcher in Trans-duktoren umzuwandeln - fuumlr eine schnellere Verarbeitung Mit denMoumlglichkeiten verglichen die das HFST-Framework liefert sind die lt-toolbox-Werkezuge am ehesten mit dem LEXC-Formalismus vergleich-bar welcher Foma beherrscht und auf die Idee fusst Woumlrterbuumlcher an-hand von Staumlmmen (von z B Verben oder Nomen) anhand von Fort-setzungsklassen (durch das Anhaumlngen von Morphemen) aufzubauenSimon Clematide fuumlhrt auch das in seinem Vorlesungsskript von 2007(93ff) genauer aus Darin ist es moumlglich die Morphotaktik der Sprachezu erfassen Schwieriger umzusetzen mit diesen Apertium-Bordmittelnist die Morphophonemik worunter Lautanpassungen oder die Infigierung 4

fallen Diese (u U seltenen aber fuumlr die Korrektheit notwendigen) An-passungen der Morphotaktik berechtigen den Beizug zusaumltzlicher (wohlbekannter und anerkannter) Formalismen wie XFST 5 oder TWOLC

Die wenigsten natuumlrlichen Sprachen sind (vollstaumlndig) KonkatenativerMorphologie Im Rahmen einer kuumlrzlichen Veranstaltung zu Finite-State-Methoden (bei Simon Clematide) haben Simon Hafner und ich die Moumlg-lichkeit erhalten eine (konzeptionelle) Morphologie 6 fuumlr die Planspra-che ldquoKlingonischrdquo 7 anzulegen Diese laumlsst sich tatsaumlchlich fast vollstaumln-dig mit Fortsetzungsklassen auf Basis der Wortstaumlmme und anzuhaumln-genden Morphemen und damit dem LEXC-Formalismus erfassen istaber auch nur ein akademisches Beispiel einer Sprache wo es nie zu(natuumlrlichen) Lautverschiebungen oder anderen komplexen Phaumlnome-nen kam

Die Dokumentation daruumlber wie HFST in Apertium genau genutztwird ist spaumlrlich Gerade in der Apertium-Dokumentation (aktuellnachgefuumlhrt und veroumlffentlicht bis Version 20) seitens Forcada et al[2] wird nichts uumlber die Nutzung von HFST ausgesagt - auch nicht inden neuesten (versionskontrollierten) Fassungen8 im SVN-Repository

Gluumlcklicherweise waren wichtige Apertium-Entwickler mir eine grosseHilfe dabei die noumltigen Einstiegspunkte zu finden Ein Beispiel einer ty-pischen Hilfeleistung ist im Anhang als ldquoIRC-Konversation zu HFSTrdquo9 zu finden die ich mit freundlicher Unterstuumltzung der involviertenPersonen in dieser Seminararbeit in der Form publizieren darf

2 Zur Kompilation von Woumlrterbuumlchern von einem XML- in ein FST-Format3 Zur Prozessierung der Daten im vorgaumlngig generierten FST-Format und der Aus-gabe in einem menschenlesbaren lexikalischen Tagging-Format4 Einfuumlgen eines Affixes in einen Wortstamm auch Infix genannt5 Von Foma implementiert6 Code und Anwendungsbeispiele bei github im git-Repository httpsgithubcom2mhklingomorph (letzter Zugriff 14062012)7 Ethnologue-Eintrag tlh httpswwwethnologuecomshow_languageaspcode=tlh (letzter Zugriff 14062012)8 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-documentationapertium-20en (letzter Zugriff 12062012)9 Siehe Anhang auf Seite 26

15

Zudem Es sind im Apertium-Wiki Informationen daruumlber vorhandenwie ein neues Sprachpaar fuumlr die Nutzung mit HFST angelegt werdenkann 10 Beim gegebenen Beispiel wird schematisch das Sprachpaar tur-tuk angesetzt (real im SVN-Repository existiert das Sprachpaar tuk-tur11) wobei tuk 12fuumlr Turkmenisch und tur 13 fuumlr Tuumlrkisch steht

Generell wird bei Sprachpaaren die mit HFST analysiert (und gene-riert) werden versucht den lexikalischen Transfer moumlglichst auf Ba-sis der Morpheme vorzunehmen Idealerweise kann der groumlsste Teilim LEXC-Formalismus abgedeckt werden Wo das nicht (im Ansatz)gelingt werden TWOLC-Regeln definiert welche die noumltigen Anpas-sungen an den lexikalischen Markierungen und Oberflaumlchenformen derWoumlrter vornehmen

Gruumlnde weshalb TWOLC- gegenuumlber XFST-Deklarationen bevorzugtwerden sind gemaumlss wichtigen Apertium-Entwicklern 14 (1) das uumlber-sichtlichere Format und (2) die einfachere Handhabung von linguisti-schen Phaumlnomenen wie der Vokalharmonie mit dem TWOLC-Formalismus

Ein weiterer wichtiger Grund welcher die mangelnde Verbreitung desXFST-Formalismus bei Apertium erklaumlrt ist vermutlich auch dass Fo-ma erst seit Version 30 von HFST (veroumlffentlicht in 2011) vollstaumlndigunterstuumltzt wird

32 Empirie Die Integration am Beispiel eines SprachpaarsDaruumlber wie ein neues Sprachpaar unter Nutzung von HFST zu Aper-tium hinzugefuumlgt werden kann gibt ein Wiki-Artikel 15 Auskunft ImSinne eines Tutorials wird dabei Schritt fuumlr Schritt im Ansatz gezeigtwie die Implementation einer RBMT von der Turkmenischen Spracheins Tuumlrkische (Sprachpaar tk-tr) umgesetzt werden kann Bei beidenverwandten Sprachen handelt es sich um stark agglutinierende Spra-chen

Das (wissenschaftlich) am besten dokumentierte Beispiel der Nutzungvon HFST im Zusammenhang mit Apertium wird im noch nicht pu-blizierten Paper ldquoEvaluating North Saacutemi to Norwegian assimilationRBMTrdquo [4] beschrieben das von Trond Trosterud und seinem Kollegen

10 Vgl hierzu httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 12062012)11 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-tuk-tur (letzter Zugriff 12062012)12 Ethnologue-Eintrag fuumlr tuk httpswwwethnologuecomshow_languageaspcode=tuk (letzter Zugriff 12062012)13 Ethnologue-Eintrag fuumlr tur httpswwwethnologuecomshow_languageaspcode=tur (letzter Zugriff 12062012)14 Gemaumlss Francis M Tyers und Jonathan North Washington im IRC15 Apertium-Wiki httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 11062012)

16

Kevin Brubeck Unhammer Mitte Juni 2012 an der FreeRBMT 2012 erst-mals oumlffentlich vorgetragen wird 16

Die Nordsamische Sprache 17 (sme) verfuumlgt uumlber geschaumltzte 15rsquo000 bis25rsquo000 Sprecher und wird in Norwegen Schweden und Finnland ge-sprochen Die Sprache wird von den Autoren als stark flektierend undagglutinierend eingeteilt

Die Standardvarietaumlt 18 des Norwegischen in die uumlbersetzt wird ver-fuumlgt gemaumlss Ethnologue 19 uumlber rund 45 Millionen Sprecher und gehoumlrtder indogermanischen Sprachfamilie an Die Sprache wird von Troste-rud und Unhammer [4] als morphologisch wenig komplex angegeben

Dieses Sprachpaar gehoumlrt zu den wenigen wo eine indoeuropaumlische(oder -germanische) Sprache unter Einsatz von HFST mit Apertiumuumlbersetzt wird

Bei den meisten anderen Sprachpaaren wo HFST genutzt wird han-delt es sich beidseitig um Sprachen mit komplexer Morphologie

Bezuumlglich des Sprachpaars unserer Betrachtung fokussieren die Auto-ren auf die Uumlbersetzungsrichtung ins Norwegische weil der Anspruchbloss ist dass Nur-Norwegischsprechende Texte aus dem Nordsami-schen verstehen koumlnnen sollen Umgekehrt wuumlrden die meisten Spre-cher des Nordsamischen bereits Norwegisch verstehen womit der Nut-zen der umgekehrten Uumlbersetzungsrichtung als (zum aktuellen Zeit-punkt) gering eingeschaumltzt wird

Als Motivation fuumlr den Einsatz von HFST gegenuumlber lttoolbox wirdbeispielhaft der Stufenwechsel der Konsonanten des Nordsamischen inQuantitaumlt als auch Qualitaumlt angefuumlhrt 20 Generalisiert betrachtet befuumlr-worten die Autoren die Verwendung von HFST wenn Morphologienzu verarbeiten sind die nicht rein konkatenativ sind - wie ich in Kapitel31 zum Zweck von HFST bereits ausgefuumlhrt habe

Grundsaumltzlich wird gemaumlss Entwickler Unhammer 21 (schematisch) diefolgende UNIX-Pipeline fuumlr sme-nob angewandt

$ echo words|hfst-proc sme-analyserhfst|| 1lt-proc sme-to-nob-dixbin|| 2lt-proc nob-generator-dixbin 3

Im Falle von sme-nob wird HFST alleine fuumlr die Analyse (1) von smegenutzt dann wird wieder generell auf lttoolbox gesetzt in wichtigsterHinsicht im Rahmen des lexikalischen Transfers (2) und der Generierung

16 Information gemaumlss einem Gespraumlch mit Kevin Brubeck Unhammer im IRC Kon-ferenzseite mit Programm httpwwwmolto-projecteufreerbmt-programhtml(letzter Zugriff 14062012)17 Engl ldquoNorth Saacutemirdquo18 Als Buchsprache ldquoBokmaringlrdquo19 Ethnologue-Eintrag zu den Sprachen Norwegens httpswwwethnologuecomshow_countryaspname=no (letzter Zugriff 11062012)20 Vgl hierzu Wikipedia httpsdewikipediaorgwikiStufenwechsel (letzterZugriff 14062012)21 Chatgespraumlch im IRC

17

(3) der Zielsprache nob

Der morphologische sme-Analyzer ist dabei in den Formalismen LEXCund TWOLC geschrieben und fusst auf bereits verfuumlgbare Ressourcen22 zuruumlck was aufzeigt dass HFST im Einsatz fuumlr Apertium auch des-halb interessant ist weil viele Morphologien bereits existieren die inFormalismen geschrieben sind die HFST verarbeiten kann Fuumlr dasAnlegen vieler Sprachpaare ist es nicht notwendig alles from scratch zubeginnen

Auch beim nob-Generator konnte auf (eigene fruumlhere) Ressourcen zu-ruumlckgegriffen werden wie diese im Sprachpaar nn-nb 23 verfuumlgbar sindbei dem Sprachpaar wird zwischen zwei norwegischen Sprachverietauml-ten uumlbersetzt Wichtig ist noch einmal zu betonen dass der nob-Teil (zurGeneration der Norwegischen Wortformen) auf lttoolbox setzt und mitHFST nichts zu schaffen hat

Interessant ist der Einsatz der von Trosterud und Unhammer von Grundauf selber geschriebene Constraint Grammar (CG) 24 zur Wortartendisam-biguierung in dem die Auswahl der Woumlrter (fuumlr die Zielsprache) anhandvon (lokalen) grammatikalischen Kontexten (in der Quellsprache) ge-schieht Das ist auch der Grund weshalb ich eingangs in Kapitel 12VISL CG-3 als obligat zu installierendes Paket anfuumlhre Ohne dieseSoftware ist es nicht moumlglich das Sprachpaar sme-nob zu kompilieren25

Zwischen der morphologischen Analyse (von sme) und der morphologischenGenerierung von nob findet der strukturelle Transfer statt der 4-phasig istdie Autoren Trosterud und Unhammer machen hierbei folgende Anga-ben

1 63 Chunk-Regeln (t1x-Datei)

2 26 Interchunk1-Regeln (t2x-Datei)

3 39 Interchunk2-Regeln (t3x-Datei)

4 29 Postchunk-Regeln (t4x-Datei)

Es reicht also nicht bloss aus Wortformen oder Morpheme zu ersetzensondern es sind komplexe Verschiebungen der markierten Lemmata

22 SVN-Repository des Giellatekno-Projekts httpsvictoriouitnolangtechtrunkgtsme (letzter Zugriff 14062012)23 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-nn-nb (letzter Zugriff 14062012)24 Vgl fuumlr einen kurzen Uumlberblick eine CLab-Seite httpkittcluzhchclabconstraintGrammarilap_visl (letzter Zugriff 14062012)25 Zu erwaumlhnen ist in dem Zusammenhang dass bei den meisten SprachpaarenHidden-Markov-Modelle zum Einsatz kommen um die Wortarten zu bestimmen da-fuumlr wird Sprachmaterial trainiert Im Falle von sme-nob deuten die Autoren allerdingsdarauf hin dass mangels repraumlsentativen Sprachmaterials diese Option keine ist diebefriedigen kann Sie stellen allerdings in Aussicht dass eine Kombination von lin-guistischen CG- und statistischen HMM-Ansaumltzen ein Versuch wert waumlre Dabei wuumlrdezuerst mittels CG ein Kontext eingegrenzt und danach statistisch verfahren

18

notwendig um in das Norwegische zu uumlbersetzen obschon beide Spra-chen der Subjekt-Verb-Objekt-Satzstellung sind

Die Evaluationsergebnisse der Autoren deuten darauf hin dass dasSprachpaar sme-nob funktionalen Charakter hat Post-Editing-Qualitaumltist nicht das Ziel und wird auch nicht erreicht allerdings koumlnnen Nor-wegischsprechende die kein Nordsamisch verstehen in vielen Faumlllenausmachen was die Bedeutung eines Satzes ist - insbesondere dannwenn er kontextualisiert vorliegt

Im Folgenden soll eine praktische Nutzung des Sprachpaars sme-nobin Apertium illustriert werden Als Beispiel diene der einleitende Be-gruumlssungssatz zur Nordsamischen Wikipedia 26 ausgewaumlhlt

$ echo rsquoBures boahtin Wikipediai friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen til Wikipedia til den frie informasjonsordboken

Die resultierende nob-Uumlbersetzung lautet gemaumlss Google Translate 27

auf Deutsch

Willkommen bei Wikipedia dem freien Woumlrterbuch Infor-mationen

Die Uumlbersetzung ist verstaumlndlich abgesehen von der Semantik des Aus-drucks ldquoWoumlrterbuch Informationenrdquo Hier sollte meiner Ansicht nachldquoEnzyklopaumldierdquo stehen Es ist wahrscheinlich dass bereits die Quellenicht den optimalen Begriff fuumlhrt und da das eigentliche Problem liegt

Interessanter ist was passiert wenn wir das ominoumlse i-Suffix bei ldquoWi-kipediairdquo im Nordsamischen entfernen

$ echo rsquoBures boahtin Wikipedia friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen Wikipedia til den frie informasjonsordboken

Wir koumlnnen feststellen dass der Satz einen anderen personalen Bezugherstellt denn gemaumlss Google Translate 28 bedeutet die zweite nob-Uumlbersetzung auf Deutsch

Willkommen Wikipedia dem freien Woumlrterbuch Informa-tionen

Wir werden nun also als ldquoWikipediardquo angesprochen

26 Webseite httpssewikipediaorgwikiVC3A1ldosiidu (letzter Zugriff14062012)27 Vgl hierzu httptranslategooglecomno|de|Velkommen20til20Wikipedia2C20til20den20frie20informasjonsordboken (letzter Zugriff14062012)28 Vgl hierzu httptranslategooglecomno|de|0AVelkommen20Wikipedia2C20til20den20frie20informasjonsordbokenmskip-thinmuskip (letzter Zugriff 14062012)

19

Eine morphologische Analyse der beiden Wortformen ldquoWikipediardquo undldquoWikipediairdquo erhaumlrtet die Vermutungen dass es sich beim i-Suffix umeinen Illativ 29 handelt einem Lokalkasus der dazu genutzt werdenkann eine ldquoHineinbewegungrdquo auszudruumlcken respektive in diesem Falldie entsprechende Praumlposition ldquoaufrdquo in das Substantiv der Named En-tity ldquoWikipediardquo einzugliedern

$ echo Wikipedia | apertium -d sme-nob-morph1^WikipediaWikipedialtNgtltPropgtltOrggtltSggtltAccgtWikipedialtNgtltPropgtltOrggtltSggtltGengtWikipedialtNgtltPropgtltOrggtltSggtltNomgt$^ltCLBgt$

2$ echo Wikipediai | apertium -d sme-nob-morph^WikipediaiWikipedialtNgtltPropgtltOrggtltSggtltIllgt$^ltCLBgt$

Bei Analyse 1 wird ldquoWikipediardquo als ein Substantiv eine Named Entityund (semantisch) als Organisation im Singular markiert Uneinigkeitherrscht fuumlr den Tagger auf dieser Transferstufe noch uumlber den KasusEs ist nicht klar ob ldquoWikipediardquo im Nominativ Akkusativ oder Genitivsteht Das Symbol ltCLBgt steht fuumlr ldquoClause Boundaryrdquo und spielt insbe-sondere fuumlr den Chunker (im Zuge des spaumlteren Transfers) eine Rolle zB zur (groben) Abgrenzung von Nominal- und Verbalphrasen

Analyse 2 faumlllt knapper aus da der Kasusfall keine Rolle mehr spielt -an dessen Stelle tritt nun der Illativ (Symbol ltIllgt) Der Rest bleibt sichgleich

Da aber die Illativ-Markierung in diesem spezifischen Fall auf dernob-Seite zur Oberflaumlchengenerierung des norwegischen Wortes ldquotilrdquo30 fuumlhrt aumlndert sich die Semantik des Satzes merklich

Der Transferprozess bei Apertium kann generell beliebig fein beobach-tet werden fuumlr unser spezifisches Sprachpaar sme-nob sei fuumlr weitereVersuche auf das Apertium-Wiki 31 verwiesen das extensiv Informa-tionen daruumlber fuumlhrt

Es existieren weitere interessante Sprachpaare bei der nur eine Sei-te jeweils stark agglutierend ist und auf entsprechende Formalismen(LEXC- und TWOLC-Formalismen) zuruumlckgegriffen wird So etwa die

29 Vgl Wikipedia httpsdewikipediaorgwikiIllativ (letzter Zugriff14062012)30 Dt ldquoaufrdquo31 httpwikiapertiumorgwikiNorthern_SC3A1mi_and_Norwegian (letzterZugriff 14062012)

20

Sprachpaare quz-spa (Quecha-Castellano) 32 udm-rus (Udmuritische Sprache-Russisch) 33 und kaz-eng (Kasachisch-Englisch) 34 Noch ist der Entwick-lungsstand all dieser Uumlbersetzungsrichtungen aber gering und fuumlr einenproduktiven Einsatz oder eine Evaluation demnach ungeeignet 35

32 Apertium-Wikiseite httpwikiapertiumorgwikiQuechua_cuzqueC3B1o_y_castellano (letzter Zugriff 14062012)33 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-udm-rus (letzter Zugriff 14062012)34 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumincubatorapertium-eng-kaz (letzter Zugriff 14062012)35 Alle drei Sprachpaare sind in den SVN-Ordnern incubator oder nursery un-tergebracht

21

4 Schluss

41 Zusammenfassung und AusblickIn abschliessender Betrachtung ist festzuhalten Die Nutzung von HFSTverleiht Apertium die Faumlhigkeit zu und von Sprachen mit (stark) Nicht-Konkatenativer Morphologie zu uumlbersetzen Dafuumlr muumlssen die Aperti-um-eigenen lttoolbox-Werkzeuge umgangen werden die ansonstenzur morphologischen Analyse und morphologischen Generierung von Wort-formen verwendet werden Der Einsatz von HFST liefert aber keinenMehrwert an anderen Stellen in der Transfer-Pipeline Der lexikalischeTransfer oder strukturelle Anpassungen um der Syntax der Zielsprachenaumlher zu kommen sind Schritte fuumlr die sich die lttoolbox-Werkzeugeweiterhin bewaumlhren

Diskutiert wird eine staumlrkere Integration von HFST in Apertium damitHFST nicht laumlnger der Charakter eines ldquoFremdkoumlrpersrdquo in der Aper-tium-Plattform anhaftet Es existiert die Idee ein Projekt in diese Rich-tung anzustossen um es z B moumlglich zu machen lexc-Dateien anstattmit den HFST-Binaries mit den lttoolbox-Kommandos zu prozessierenDieses Projekt koumlnnte von einem interessierten Studierenden etwa imRahmen des naumlchsten Google Summer of Code (2013) initiiert werden 1

Ein weitere Herausforderung die in der Natur von Apertium als Shallow-Transfer-System begruumlndet liegt 2 hat mit den Bilexika zu tun Apertiummuss fuumlr jedes Sprachpaar ein Bilexikon fuumlhren um den lexikalischenTransfer mittels den lttoolbox-Werkzeugen zu vollziehen Da fuumlr jedeneue Sprachkombination das Bilexikon neu aufgebaut werden mussbesteht hier ein gewisser (manueller) Aufwand bei jedem neuen Sprach-paar das angesetzt wird dieser kann zwar durch Einsatz von Werkzeu-ge aus den apertium-dixtools minimiert werden die Vollautomation

1 Idee zum Projekt httpwikiapertiumorgwikiIdeas_for_Google_Summer_of_CodeCloser_integration_with_HFST (letzter Zugriff 14062012)2 Apertium verwendet keinen sog Interlingua-Ansatz um eine sprachunabhaumlngigeRepraumlsentation von Wortbedeutungen zu fuumlhren

22

funktioniert aber noch nicht 3 4

Weiterhin bleibt Apertium im Grundsatz ein Shallow-Transfer-Systemdas keinen vollstaumlndigen Parse der Quellsprache vornimmt und sietiefen-analysiert Dadurch ist es auch in Zukunft nicht breit moumlglichSemantik uumlber weite Distanzen zu transferieren

Bezuumlglich weiterer Moumlglichkeiten fuumlr Apertium morphologisch zu ana-lysieren generieren kann das Augenmerk auch auf neuere Formalis-men als jene von Xerox 5 gelegt werden So existiert hunmorph 6 dases erlaubt in OCaml 7 - in einem objekt-orientierten Paradigma - Mor-phologien zu beschreiben und dazu eine (relativ) einfache Syntax auf-zuweisen scheint Beispiele explorativer Versuche mit hunmorph fuumlrApertium sind im Wiki des Projekts bereits heute dokumentiert 8 Aus-serdem ist hunmoph morphologisch-analytische Basis des bekanntenSpellcheckers HunSpell das der standardmaumlssige Spellchecker in Libre-Office OpenOfficeorg und einigen Softwareprodukten der MozillaFoundation ist 9

Selber hat es mir Freude bereitet mich in dieses komplexe Gebiet hin-ein zu begeben und ich bin fuumlr die Zukunft interessiert daran michan Apertium nach Kraumlften zu beteiligen da ich die dahinterstehendeCommunity als eine kennen gelernt habe die aufgeschlossen humor-voll und im houmlchsten Masse kompetent ist

42 DanksagungenIch moumlchte mich an dieser Stelle herzlichst im Besonderen bei folgen-den Personen des Apertium-Projekts bedanken dass sie sich Zeit ge-nommen haben sich mit mir im IRC ausgiebig zu unterhalten und denDschungel in und um Apertium zu durchleuchten Mikel L ForcadaFrancis M Tyers Kevin Brubeck Unhammer und Jonathan North Wa-shington

Ohne sie waumlre diese Arbeit in der Form nicht entstanden und vielesQuellmaterial das ich hier verwende schwierg auffindbar gewesen

3 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-dixtools (letzter Zugriff 14062012)4 Vgl hierzu httpwikiapertiumorgwikiCrossdics (letzter Zugriff14062012)5 Namentlich XFST TWOLC und LEXC6 Webseite httpmokkbmehuresourceshunmorph (letzter Zugriff 14062012)7 Webseite httpcamlinriafr (letzter Zugriff 14062012)8 Apertium-Wiki httpwikiapertiumorgwikiHunmorph (letzter Zugriff14062012)9 Webseite httphunspellsourceforgenet (letzter Zugriff 14062012)

23

Literaturverzeichnis

[1] S Clematide Morphologie und Lexikographie Vorlesungs-skript Institut fuumlr Computerlinguistik Universitaumlt Zuumlrich 2007URL httpfilesifiuzhchclsiclematlehress07mulscriptscriptpdf

[2] ML Forcada BI Bonev S Ortiz-Rojas JA Peacuterez-OrtizG Ramiacuterez-Saacutenchez F Saacutenchez-Martiacutenez C Armentano-OllerMA Montava FM Tyers und U dA Departament de Llenguatges iSistemes Informagravetics Documentation of the open-source shallow-transfer machine translation platform apertium 2010 URL httpxixonadlsiuaes~franapertium2-documentationpdf

[3] ML Forcada FM Tyers und G Ramiacuterez-Saacutenchez The Apertiummachine translation platform five years on In Proceedings of the FirstInternational Workshop on FreeOpen-Source Rule-Based Machine Trans-lation 3ndash10 2009 URL httpxixonadlsiuaesfreerbmt09presentationsforcada_freerbmt09_5yrsonpdf

[4] T Trosterud und KB Unhammer Evaluating North Saacutemi to Nor-wegian assimilation RBMT In Proceedings of the Third InternationalWorkshop on FreeOpen-Source Rule-Based Machine Translation 2012URL httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-sme-nobpaperpathrev=38833 (noch kein of-fizielles Paper (im PDF) verfuumlgbar)

24

Abbildungsverzeichnis

21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen 10

25

Anhang

IRC-Konversation zu HFSTTypisches Beispiel einer Konversation 10 mit Jonathan North Washing-ton (ldquofirespeakerrdquo) und Mikel L Forcada (ldquomlforcadardquo) welche we-sentliche Beitraumlge zu Apertium leisten gefuumlhrt im IRC 11

1921 lt h2mgt At which stage of the pipeline is HFST employed1921 lt h2mgt I couldnrsquot get that1921 lt mlforcadagt h2m generation of Kazakh[]1922 lt h2mgt Is this process described somewhere in detailsuch that I can read that up1922 lt mlforcadagt is something that looks like lttoolbox butmore powerful1922 lt mlforcadagt h2m firespeaker can help probably1922 lt h2mgt I can only see lexc and twol files wo reallygetting the point[]1922 lt firespeakergt h2m HFST takes a string of text and turnsit into lemmas + tags1922 lt firespeakergt h2m or1922 lt firespeakergt h2m it takes lemmas + tags and turns itinto a string of text[]1923 lt firespeakergt h2m lexc is the morphotactics1923 lt mlforcadagt firespeaker yoursquore right1923 lt h2mgt Ah OK1923 lt firespeakergt h2m twol is the morphophonology

10 Selber bin ich als ldquoh2mrdquo unterwegs11 ircircfreenodenetapertium

26

  • Einfuumlhrung
    • Motivation und Thema
    • Verwendete Umgebung und Konfiguration
      • Grundlagen Zu Apertium und HFST
        • Wesen und Entwicklungsstand von Apertium
        • Wesen und Entwicklungsstand von HFST
          • Hauptteil Die Integration von HFST in Apertium
            • Theorie Zweck und Nutzen der Integration
            • Empirie Die Integration am Beispiel eines Sprachpaars
              • Schluss
                • Zusammenfassung und Ausblick
                • Danksagungen
                  • Literaturverzeichnis
                  • Abbildungsverzeichnis
                  • Anhang
Page 10: Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

Quellsprachedarr

Deform rarr MorphAnal

rarrPoS-Tagging rarr

StruktTrans

rarrMorphGen

rarrPost-Gen

rarr Reform

l darr

LexTrans

Zielsprache

Abbildung 21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen

ein abgeschlossenes MUuml-System im Sinne einer Blackbox sondern ei-ne offene Plattform die hilft freie sprachtechnologische Ressourcen zumehren

Apertium fuumlhrt die Sprachpaare im SVN-Repository 13 abhaumlngig vomEntwicklungsstand in verschiedenen Ordnern

bull In incubator befinden sich kuumlrzlich angesetzte Sprachpaare

bull In nursery befinden sich noch wenig funktionale Sprachpaare

bull In staging befinden sich bereits fortgeschrittene Sprachpaare

bull In trunk befinden sich stabile Sprachpaare die produktiv ge-nutzt werden koumlnnen

Mittlerweile sind im Vergleich zu 2004 zahlreiche weitere Sprachpaa-re hinzukommen entstanden durch Forschungs-Entwicklungsprojektevon Studierenden 14 Arbeiten von Forschungsgruppen an anderenForschungseinrichtungen als Community-Projekte seitens Interessier-ter der Freien Software-Szene und auch mit Entwicklungsunterstuumltzungvon Unternehmen mit kommerziellen Interessen z B Prompsit wel-che Dienstleistungen um Apertium anbietet 15

Zum Zeitpunkt des Abschlusses dieser Arbeit Mitte Juni 201216 befin-den sich 138 () Sprachpaare in incubator 17 28 Sprachpaare in nursery5 Sprachpaare in staging und 37 Sprachpaare in trunk womit rund 40Sprachpaare produktiv genutzt werden koumlnnen Forschungs- und Ent-wicklungsarbeiten hingegen sind schon heute in rund 200 Sprachpaarenmoumlglich und weitere koumlnnen nach Absprache mit den Hauptentwick-lern beliebig hinzugefuumlgt werden

13 SVN-Webview des Repositories httpapertiumsvnsourceforgenetviewvc (letzter Zugriff 14062012)14 Z B im Rahmen des Google Summer of Code (GSoC) httpwikiapertiumorgwikiGoogle_Summer_of_CodeActive_projects (letzter Zugriff 14062012)15 Prompsit-Webseite httpwwwprompsitcomsomos-prompsit (letzter Zu-griff 14062012)16 SVN-Repository des Projekts in Revision 38833 httpapertiumsvnsourceforgenetviewvcapertiumpathrev=38833 (letzter Zugriff 14062012)17 Sowie einige Morphologien im Ansatz die keinem konkreten Sprachpaar gewid-met sind

10

Wichtig fuumlr einen Start sind die freie Verfuumlgbarkeit von Woumlrterbuumlchernund gegebenenfalls Morphologien fuumlr die involvierten Sprachen EineListe solcher Ressourcen fuumlr viele Sprachen wird im Apertium-Wikigefuumlhrt 18

Durch das Hinzukommen von Sprachpaaren deren Sprachen linguis-tisch wenig gemein haben ist der Shallow-Transfer inzwischen staumlrkerausgebaut Fuumlr en-ca (Englisch zu Katalanisch) wird ein dreistufigerStrukturtransfer angewandt in der Reihenfolge Chunking Inter- undPost-Chunking Dabei ist zu beachten dass das Inter-Chunking in (noch)komplexeren Faumlllen mehrstufig sein kann So ist mir das Sprachpaarsme-smj (vom Nordsamischen 32 in das Lulesamische 19) aufgefallen20 das uumlber drei Inter-Chunking-Dateien verfuumlgt 21 die Regeln daruumlberenthalten Chunks (in drei Phasen) zu vertauschen

22 Wesen und Entwicklungsstand von HFSTBeim Helsinki Finite-State Transducer - Framework (HFST) handelt essich um eine in C++ geschriebene Open Source-Softwarekollektion auswelche die Nutzung verschiedener FST-Technologien und -Formalismenheraus einheitlich moumlglich ist die ihrerseits frei (implementiert) verfuumlg-bar sind Es sind dies zum aktuellen Zeitpunkt

bull Die Stuttgart Finite-State Transducer Tools (SFST) mit einer Basis-Unterstuumltzung von Finite-State Transducer mit gewichteten Kan-tenuumlbergaumlngen 22 23

bull Das Foma-Paket das eine freie Implementation der XFSTLEXC-Formalismen darstellt gewichtete Transduktoren koumlnnen nichterstellt werden 24

bull Die OpenFST-Bibliothek es wird die Schaffung von Finite-StateTransducer mit gewichteten Kantenuumlbergaumlngen unterstuumltzt 25

Insbesondere bietet HFST das Tool hfst-twolc an das einen Two-LevelRule Compiler fuumlr den Xerox-TWOLC-Formalismus darstellt Damitkoumlnnen Transduktoren erstellt werden die eine parallele Ersetzung so-wohl der Ober- als auch der Unterseite des Transduktors gleichzeitigerlauben Die Reihenfolge der entsprechenden Deklarationen ist damit

18 Apertium-Wiki httpwikiapertiumorgwikiSpecific_resources_per_language (letzter Zugriff 14062012)19 Ethnologue-Eintrag fuumlr smj httpswwwethnologuecomshow_languageaspcode=smj (letzter Zugriff 14062012)20 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-sme-smj (letzter Zugriff 14062012)21 Die Dateien mit den Endungen ldquot2xrdquo ldquot3xrdquo und ldquot4xrdquo - besonderes Augenmerkkann auf den Bereich ab ltsection-rulesgt gelegt werden22 Webseite httpwwwimsuni-stuttgartdeprojektegramotronSOFTWARESFSThtml (letzter Zugriff 14062012)23 Gemaumlss Angaben von Francis M Tyers im IRC wird auf diese Tools den entspre-chenden Bibliotheken in Apertium kaum zugegriffen24 Dateien mit Endungen ldquoxfstrdquo ldquofomardquo und ldquolexcrdquo werden in aller Regel damitverarbeitet25 Dateien mit Endungen ldquotwolrdquo werden damit prozessiert wobei von gewichtetenKantenuumlbergaumlngen kein Gebrauch gemacht wird

11

unwichtig Im Gegensatz dazu muss beim (klassischen) Xerox Finite-State Tools-Formalismus (XFST) welcher Foma als Compiler frei imple-mentiert der Reihenfolge der Deklarationen Beachtung geschenkt wer-den weil es sich beim XFST-Formalismus um Rewriting-Regeln handeltdie sequentiell immer nur auf die Unterseite (bzw dem ldquozweitenrdquo oderldquorechtenrdquo Band) des Transduktors angewandt werden

Eine umfassende Einfuumlhrung von Finite-State-Automaten und -Transduktorenwuumlrde den Rahmen dieser Arbeit sprengen es sei allerdings darauf hin-gewiesen dass im Apertium-Wiki26 das Thema im Zusammenhang mitden morphologischen Woumlrterbuumlcher die mittels den eigenen lttoolbox-Werkzeugen erstellt werden ausreichend eingefuumlhrt wird

Auf der Seite wird ebenfalls plausibel erklaumlrt dass es zur Uumlbersichtlich-keit und dem Verstaumlndnis der Morphologie beitraumlgt die Deklarationderselben von den Algorithmen zu trennen die sie umsetzen Sowohlder lttoolbox-Formalismus als auch die Formalismen die durch dasHFST-Framework unterstuumltzt werden erfordern die blosse Deklarati-on der Morphologie ohne dass man sich um die (effiziente) Verarbei-tung der Ausdruumlcke selber kuumlmmern muss Die prozeduralen Schritteerledigen lttoolbox und HFST bei der Verarbeitung der jeweiligen De-klarationen in den Dateien 27 selbststaumlndig Damit wird eine Trennungvon morphologischer Deklaration und Programmcode erreicht

Das ist aumlhnlich wie bei der deklarativen (logischen) Programmierspra-che Prolog wo sich die Inferenzmaschine eigenstaumlndig um die effizienteBeweisfuumlhrung des Ziels (engl des ldquogoalsrdquo) kuumlmmert Das Gegenteildieses Ansatzes wird auf der Webseite mit Python-Code demonstriertwelcher im gegebenen Beispiel dafuumlr verwendet wird das Wort ldquobeerrdquound ldquobeersrdquo morphologisch zu analysieren - als ein Substantiv das imSingular oder Plural steht Das wird durch prozedurale Schritte direkterledigt Bei der Implementation sprachvollstaumlndiger Morphologien aufdiese Art gestaltet sich die Wartung der Morphologie als tendenziell un-uumlbersichtlich Hinzu koumlnnen sich bei einem solchen Ansatz in schlechterImplementation Laufzeitprobleme gesellenDer wichtigste Vorteil aber bleibt bis hierhin unerwaumlhnt Transdukto-ren koumlnnen nicht nur zur Analyse von Wortformen in ihre Lemmatasamt lexikalischer Markierungen genutzt werden 28 sondern markierteLemmata (im gegebenen Format) koumlnnen zur Generierung von Wortfor-men genutzt werden 29 In einer prozeduralen Implementation muumlsstesowohl Programmcode fuumlr die Generierung als auch (separat) fuumlr dieAnalyse geschrieben werden Das ist umstaumlndlich

26 Vgl das Apertium-Wiki httpwikiapertiumorgwikiMorphological_dictionaries (letzter Zugriff 14062012)27 Es handelt sich fuumlr Dateien die durch lttoolbox prozessiert werden um die Datei-en in den Ordner der Sprachpaare mit den Endungen ldquodixrdquo fuumlr das morphologischeWoumlrterbuch ldquot1xrdquo bis (maximal) ldquot5xrdquo (je nach Anzahl der Stufen) fuumlr die Transferre-geln und gegebenenfalls den ldquolexcrdquo- und ldquotwolrdquo-Dateien falls bei einer involviertenSprache die Morphologie durch HFST erfasst wird In wenigen Faumlllen sind auch ldquoxfstrdquo-oder ldquofomardquo-Dateien anzutreffen28 Der Transduktor wird in einem solchen Fall in der Regel von links nach rechtsbzw von oben nach unten angewandt29 Der Transduktor wird von rechts nach links bzw von unten nach oben angewandt

12

Ein praktisches Beispiel der Nutzung der resultierenden Transdukto-ren zur Analyse oder Generierung liefert das Apertium-Wiki auf derSeite uumlber lttoolbox 30

Falls bei einer speziellen Anwendung mit Apertium eine (im Einzelfall)weitergehende prozedurale Verarbeitung der Ausgabe aus den Trans-duktoren notwendig wird dann besteht die Moumlglichkeit HFST aus zB Python heraus zu nutzen 31

30 Vgl Apertium-Wiki httpwikiapertiumorgwikiLttoolbox (letzter Zu-griff 14062012)31 Vgl Beitrag auf der nltk-dev-Mailingliste httpsgroupsgooglecomgroupnltk-devbrowse_threadthreadfdb53482cad56234 (letzter Zugriff 14062012)

13

3 Hauptteil Die Integrationvon HFST in Apertium

31 Theorie Zweck und Nutzen der IntegrationFinite-State-Technologien koumlnnen in der Computerlinguistik dafuumlr ge-nutzt werden um Woumlrterbuumlcher elegant aufzubauen oder die mor-phologische Analyse und Generierung von Woumlrtern systematisch zubetreiben und das insbesondere auch in Faumlllen wo die Morphologie derbetrachteten Sprache nicht relativ einfach durch z B Prauml- oder Suffixe(also konkatenativ durch rsquoAneinanderreihenrsquo von Morphemen) erfasstwerden kann sondern gerade auch in Faumlllen wo auch andere Affixewie Infixe zur Anwendung kommen

Nicht mehr simpel sind Morphologien beispielsweise in Faumlllen wo esfuumlr gegebene Wortstaumlmme 1 Faumllle gibt wo Morpheme fuumlr eine Flexi-on inmitten des Stamms eingepflanzt werden muumlssen oder wo Vokaleinmitten von Staumlmmen wegfallen oder durch andere ersetzt werdenmuumlssen um guumlltige Wortformen analysieren oder generieren zu koumln-nen Morphologien fuumlr Sprachen die komplexe Anpassungen an Staumlm-men oder fortgesetzten Wortklassen in bestimmten (z B grammatikali-schen) Faumlllen erfordern werden auch Nicht-Konkatenative Morphologien(NKM) (vgl Clematide 2007 104ff) genannt oder zumindest waumlre dieKonkatenation nach vorwiegend erkennbaren systematischen Regelnder betrachteten Sprache nicht mehr (sinnvoll) nachvollziehbar wuumlrdeman eine Konkatenative Morphologie erzwingen wollen ebenfalls ist dieGefahr von Redundanz sehr hoch wenn jeder nur denkbare Stamm ineine Morphologie einfliesst

Eine saubere Morphologie mit klaren Regeln und in (moumlglichst) schlan-ker Ausfuumlhrung ist eine Anforderung von der gerade ein MaschinellesUumlbersetzungssystem wie Apertium fundamental profitiert um schnell zu

1 Minimaloberflaumlche von Woumlrtern aus der durch Morpheme die vor- um - oderangehaumlngt werden koumlnnen weitere wichtige (weitere) Wortformen entstehen

14

arbeiten und (linguistisch nachvollziehbar) gepflegt werden zu koumlnnen

Wie bereits in Kapitel 21 angedeutet ist es nicht erst das HFST-Frameworkdas Finite-State-Technologien in Apertium einfuumlhrt Die lexikalischenWerkzeuge lttoolbox mit Anwendungen wie lt-comp 2 oder lt-proc 3

werden dazu genutzt die in XML abgefassten Woumlrterbuumlcher in Trans-duktoren umzuwandeln - fuumlr eine schnellere Verarbeitung Mit denMoumlglichkeiten verglichen die das HFST-Framework liefert sind die lt-toolbox-Werkezuge am ehesten mit dem LEXC-Formalismus vergleich-bar welcher Foma beherrscht und auf die Idee fusst Woumlrterbuumlcher an-hand von Staumlmmen (von z B Verben oder Nomen) anhand von Fort-setzungsklassen (durch das Anhaumlngen von Morphemen) aufzubauenSimon Clematide fuumlhrt auch das in seinem Vorlesungsskript von 2007(93ff) genauer aus Darin ist es moumlglich die Morphotaktik der Sprachezu erfassen Schwieriger umzusetzen mit diesen Apertium-Bordmittelnist die Morphophonemik worunter Lautanpassungen oder die Infigierung 4

fallen Diese (u U seltenen aber fuumlr die Korrektheit notwendigen) An-passungen der Morphotaktik berechtigen den Beizug zusaumltzlicher (wohlbekannter und anerkannter) Formalismen wie XFST 5 oder TWOLC

Die wenigsten natuumlrlichen Sprachen sind (vollstaumlndig) KonkatenativerMorphologie Im Rahmen einer kuumlrzlichen Veranstaltung zu Finite-State-Methoden (bei Simon Clematide) haben Simon Hafner und ich die Moumlg-lichkeit erhalten eine (konzeptionelle) Morphologie 6 fuumlr die Planspra-che ldquoKlingonischrdquo 7 anzulegen Diese laumlsst sich tatsaumlchlich fast vollstaumln-dig mit Fortsetzungsklassen auf Basis der Wortstaumlmme und anzuhaumln-genden Morphemen und damit dem LEXC-Formalismus erfassen istaber auch nur ein akademisches Beispiel einer Sprache wo es nie zu(natuumlrlichen) Lautverschiebungen oder anderen komplexen Phaumlnome-nen kam

Die Dokumentation daruumlber wie HFST in Apertium genau genutztwird ist spaumlrlich Gerade in der Apertium-Dokumentation (aktuellnachgefuumlhrt und veroumlffentlicht bis Version 20) seitens Forcada et al[2] wird nichts uumlber die Nutzung von HFST ausgesagt - auch nicht inden neuesten (versionskontrollierten) Fassungen8 im SVN-Repository

Gluumlcklicherweise waren wichtige Apertium-Entwickler mir eine grosseHilfe dabei die noumltigen Einstiegspunkte zu finden Ein Beispiel einer ty-pischen Hilfeleistung ist im Anhang als ldquoIRC-Konversation zu HFSTrdquo9 zu finden die ich mit freundlicher Unterstuumltzung der involviertenPersonen in dieser Seminararbeit in der Form publizieren darf

2 Zur Kompilation von Woumlrterbuumlchern von einem XML- in ein FST-Format3 Zur Prozessierung der Daten im vorgaumlngig generierten FST-Format und der Aus-gabe in einem menschenlesbaren lexikalischen Tagging-Format4 Einfuumlgen eines Affixes in einen Wortstamm auch Infix genannt5 Von Foma implementiert6 Code und Anwendungsbeispiele bei github im git-Repository httpsgithubcom2mhklingomorph (letzter Zugriff 14062012)7 Ethnologue-Eintrag tlh httpswwwethnologuecomshow_languageaspcode=tlh (letzter Zugriff 14062012)8 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-documentationapertium-20en (letzter Zugriff 12062012)9 Siehe Anhang auf Seite 26

15

Zudem Es sind im Apertium-Wiki Informationen daruumlber vorhandenwie ein neues Sprachpaar fuumlr die Nutzung mit HFST angelegt werdenkann 10 Beim gegebenen Beispiel wird schematisch das Sprachpaar tur-tuk angesetzt (real im SVN-Repository existiert das Sprachpaar tuk-tur11) wobei tuk 12fuumlr Turkmenisch und tur 13 fuumlr Tuumlrkisch steht

Generell wird bei Sprachpaaren die mit HFST analysiert (und gene-riert) werden versucht den lexikalischen Transfer moumlglichst auf Ba-sis der Morpheme vorzunehmen Idealerweise kann der groumlsste Teilim LEXC-Formalismus abgedeckt werden Wo das nicht (im Ansatz)gelingt werden TWOLC-Regeln definiert welche die noumltigen Anpas-sungen an den lexikalischen Markierungen und Oberflaumlchenformen derWoumlrter vornehmen

Gruumlnde weshalb TWOLC- gegenuumlber XFST-Deklarationen bevorzugtwerden sind gemaumlss wichtigen Apertium-Entwicklern 14 (1) das uumlber-sichtlichere Format und (2) die einfachere Handhabung von linguisti-schen Phaumlnomenen wie der Vokalharmonie mit dem TWOLC-Formalismus

Ein weiterer wichtiger Grund welcher die mangelnde Verbreitung desXFST-Formalismus bei Apertium erklaumlrt ist vermutlich auch dass Fo-ma erst seit Version 30 von HFST (veroumlffentlicht in 2011) vollstaumlndigunterstuumltzt wird

32 Empirie Die Integration am Beispiel eines SprachpaarsDaruumlber wie ein neues Sprachpaar unter Nutzung von HFST zu Aper-tium hinzugefuumlgt werden kann gibt ein Wiki-Artikel 15 Auskunft ImSinne eines Tutorials wird dabei Schritt fuumlr Schritt im Ansatz gezeigtwie die Implementation einer RBMT von der Turkmenischen Spracheins Tuumlrkische (Sprachpaar tk-tr) umgesetzt werden kann Bei beidenverwandten Sprachen handelt es sich um stark agglutinierende Spra-chen

Das (wissenschaftlich) am besten dokumentierte Beispiel der Nutzungvon HFST im Zusammenhang mit Apertium wird im noch nicht pu-blizierten Paper ldquoEvaluating North Saacutemi to Norwegian assimilationRBMTrdquo [4] beschrieben das von Trond Trosterud und seinem Kollegen

10 Vgl hierzu httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 12062012)11 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-tuk-tur (letzter Zugriff 12062012)12 Ethnologue-Eintrag fuumlr tuk httpswwwethnologuecomshow_languageaspcode=tuk (letzter Zugriff 12062012)13 Ethnologue-Eintrag fuumlr tur httpswwwethnologuecomshow_languageaspcode=tur (letzter Zugriff 12062012)14 Gemaumlss Francis M Tyers und Jonathan North Washington im IRC15 Apertium-Wiki httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 11062012)

16

Kevin Brubeck Unhammer Mitte Juni 2012 an der FreeRBMT 2012 erst-mals oumlffentlich vorgetragen wird 16

Die Nordsamische Sprache 17 (sme) verfuumlgt uumlber geschaumltzte 15rsquo000 bis25rsquo000 Sprecher und wird in Norwegen Schweden und Finnland ge-sprochen Die Sprache wird von den Autoren als stark flektierend undagglutinierend eingeteilt

Die Standardvarietaumlt 18 des Norwegischen in die uumlbersetzt wird ver-fuumlgt gemaumlss Ethnologue 19 uumlber rund 45 Millionen Sprecher und gehoumlrtder indogermanischen Sprachfamilie an Die Sprache wird von Troste-rud und Unhammer [4] als morphologisch wenig komplex angegeben

Dieses Sprachpaar gehoumlrt zu den wenigen wo eine indoeuropaumlische(oder -germanische) Sprache unter Einsatz von HFST mit Apertiumuumlbersetzt wird

Bei den meisten anderen Sprachpaaren wo HFST genutzt wird han-delt es sich beidseitig um Sprachen mit komplexer Morphologie

Bezuumlglich des Sprachpaars unserer Betrachtung fokussieren die Auto-ren auf die Uumlbersetzungsrichtung ins Norwegische weil der Anspruchbloss ist dass Nur-Norwegischsprechende Texte aus dem Nordsami-schen verstehen koumlnnen sollen Umgekehrt wuumlrden die meisten Spre-cher des Nordsamischen bereits Norwegisch verstehen womit der Nut-zen der umgekehrten Uumlbersetzungsrichtung als (zum aktuellen Zeit-punkt) gering eingeschaumltzt wird

Als Motivation fuumlr den Einsatz von HFST gegenuumlber lttoolbox wirdbeispielhaft der Stufenwechsel der Konsonanten des Nordsamischen inQuantitaumlt als auch Qualitaumlt angefuumlhrt 20 Generalisiert betrachtet befuumlr-worten die Autoren die Verwendung von HFST wenn Morphologienzu verarbeiten sind die nicht rein konkatenativ sind - wie ich in Kapitel31 zum Zweck von HFST bereits ausgefuumlhrt habe

Grundsaumltzlich wird gemaumlss Entwickler Unhammer 21 (schematisch) diefolgende UNIX-Pipeline fuumlr sme-nob angewandt

$ echo words|hfst-proc sme-analyserhfst|| 1lt-proc sme-to-nob-dixbin|| 2lt-proc nob-generator-dixbin 3

Im Falle von sme-nob wird HFST alleine fuumlr die Analyse (1) von smegenutzt dann wird wieder generell auf lttoolbox gesetzt in wichtigsterHinsicht im Rahmen des lexikalischen Transfers (2) und der Generierung

16 Information gemaumlss einem Gespraumlch mit Kevin Brubeck Unhammer im IRC Kon-ferenzseite mit Programm httpwwwmolto-projecteufreerbmt-programhtml(letzter Zugriff 14062012)17 Engl ldquoNorth Saacutemirdquo18 Als Buchsprache ldquoBokmaringlrdquo19 Ethnologue-Eintrag zu den Sprachen Norwegens httpswwwethnologuecomshow_countryaspname=no (letzter Zugriff 11062012)20 Vgl hierzu Wikipedia httpsdewikipediaorgwikiStufenwechsel (letzterZugriff 14062012)21 Chatgespraumlch im IRC

17

(3) der Zielsprache nob

Der morphologische sme-Analyzer ist dabei in den Formalismen LEXCund TWOLC geschrieben und fusst auf bereits verfuumlgbare Ressourcen22 zuruumlck was aufzeigt dass HFST im Einsatz fuumlr Apertium auch des-halb interessant ist weil viele Morphologien bereits existieren die inFormalismen geschrieben sind die HFST verarbeiten kann Fuumlr dasAnlegen vieler Sprachpaare ist es nicht notwendig alles from scratch zubeginnen

Auch beim nob-Generator konnte auf (eigene fruumlhere) Ressourcen zu-ruumlckgegriffen werden wie diese im Sprachpaar nn-nb 23 verfuumlgbar sindbei dem Sprachpaar wird zwischen zwei norwegischen Sprachverietauml-ten uumlbersetzt Wichtig ist noch einmal zu betonen dass der nob-Teil (zurGeneration der Norwegischen Wortformen) auf lttoolbox setzt und mitHFST nichts zu schaffen hat

Interessant ist der Einsatz der von Trosterud und Unhammer von Grundauf selber geschriebene Constraint Grammar (CG) 24 zur Wortartendisam-biguierung in dem die Auswahl der Woumlrter (fuumlr die Zielsprache) anhandvon (lokalen) grammatikalischen Kontexten (in der Quellsprache) ge-schieht Das ist auch der Grund weshalb ich eingangs in Kapitel 12VISL CG-3 als obligat zu installierendes Paket anfuumlhre Ohne dieseSoftware ist es nicht moumlglich das Sprachpaar sme-nob zu kompilieren25

Zwischen der morphologischen Analyse (von sme) und der morphologischenGenerierung von nob findet der strukturelle Transfer statt der 4-phasig istdie Autoren Trosterud und Unhammer machen hierbei folgende Anga-ben

1 63 Chunk-Regeln (t1x-Datei)

2 26 Interchunk1-Regeln (t2x-Datei)

3 39 Interchunk2-Regeln (t3x-Datei)

4 29 Postchunk-Regeln (t4x-Datei)

Es reicht also nicht bloss aus Wortformen oder Morpheme zu ersetzensondern es sind komplexe Verschiebungen der markierten Lemmata

22 SVN-Repository des Giellatekno-Projekts httpsvictoriouitnolangtechtrunkgtsme (letzter Zugriff 14062012)23 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-nn-nb (letzter Zugriff 14062012)24 Vgl fuumlr einen kurzen Uumlberblick eine CLab-Seite httpkittcluzhchclabconstraintGrammarilap_visl (letzter Zugriff 14062012)25 Zu erwaumlhnen ist in dem Zusammenhang dass bei den meisten SprachpaarenHidden-Markov-Modelle zum Einsatz kommen um die Wortarten zu bestimmen da-fuumlr wird Sprachmaterial trainiert Im Falle von sme-nob deuten die Autoren allerdingsdarauf hin dass mangels repraumlsentativen Sprachmaterials diese Option keine ist diebefriedigen kann Sie stellen allerdings in Aussicht dass eine Kombination von lin-guistischen CG- und statistischen HMM-Ansaumltzen ein Versuch wert waumlre Dabei wuumlrdezuerst mittels CG ein Kontext eingegrenzt und danach statistisch verfahren

18

notwendig um in das Norwegische zu uumlbersetzen obschon beide Spra-chen der Subjekt-Verb-Objekt-Satzstellung sind

Die Evaluationsergebnisse der Autoren deuten darauf hin dass dasSprachpaar sme-nob funktionalen Charakter hat Post-Editing-Qualitaumltist nicht das Ziel und wird auch nicht erreicht allerdings koumlnnen Nor-wegischsprechende die kein Nordsamisch verstehen in vielen Faumlllenausmachen was die Bedeutung eines Satzes ist - insbesondere dannwenn er kontextualisiert vorliegt

Im Folgenden soll eine praktische Nutzung des Sprachpaars sme-nobin Apertium illustriert werden Als Beispiel diene der einleitende Be-gruumlssungssatz zur Nordsamischen Wikipedia 26 ausgewaumlhlt

$ echo rsquoBures boahtin Wikipediai friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen til Wikipedia til den frie informasjonsordboken

Die resultierende nob-Uumlbersetzung lautet gemaumlss Google Translate 27

auf Deutsch

Willkommen bei Wikipedia dem freien Woumlrterbuch Infor-mationen

Die Uumlbersetzung ist verstaumlndlich abgesehen von der Semantik des Aus-drucks ldquoWoumlrterbuch Informationenrdquo Hier sollte meiner Ansicht nachldquoEnzyklopaumldierdquo stehen Es ist wahrscheinlich dass bereits die Quellenicht den optimalen Begriff fuumlhrt und da das eigentliche Problem liegt

Interessanter ist was passiert wenn wir das ominoumlse i-Suffix bei ldquoWi-kipediairdquo im Nordsamischen entfernen

$ echo rsquoBures boahtin Wikipedia friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen Wikipedia til den frie informasjonsordboken

Wir koumlnnen feststellen dass der Satz einen anderen personalen Bezugherstellt denn gemaumlss Google Translate 28 bedeutet die zweite nob-Uumlbersetzung auf Deutsch

Willkommen Wikipedia dem freien Woumlrterbuch Informa-tionen

Wir werden nun also als ldquoWikipediardquo angesprochen

26 Webseite httpssewikipediaorgwikiVC3A1ldosiidu (letzter Zugriff14062012)27 Vgl hierzu httptranslategooglecomno|de|Velkommen20til20Wikipedia2C20til20den20frie20informasjonsordboken (letzter Zugriff14062012)28 Vgl hierzu httptranslategooglecomno|de|0AVelkommen20Wikipedia2C20til20den20frie20informasjonsordbokenmskip-thinmuskip (letzter Zugriff 14062012)

19

Eine morphologische Analyse der beiden Wortformen ldquoWikipediardquo undldquoWikipediairdquo erhaumlrtet die Vermutungen dass es sich beim i-Suffix umeinen Illativ 29 handelt einem Lokalkasus der dazu genutzt werdenkann eine ldquoHineinbewegungrdquo auszudruumlcken respektive in diesem Falldie entsprechende Praumlposition ldquoaufrdquo in das Substantiv der Named En-tity ldquoWikipediardquo einzugliedern

$ echo Wikipedia | apertium -d sme-nob-morph1^WikipediaWikipedialtNgtltPropgtltOrggtltSggtltAccgtWikipedialtNgtltPropgtltOrggtltSggtltGengtWikipedialtNgtltPropgtltOrggtltSggtltNomgt$^ltCLBgt$

2$ echo Wikipediai | apertium -d sme-nob-morph^WikipediaiWikipedialtNgtltPropgtltOrggtltSggtltIllgt$^ltCLBgt$

Bei Analyse 1 wird ldquoWikipediardquo als ein Substantiv eine Named Entityund (semantisch) als Organisation im Singular markiert Uneinigkeitherrscht fuumlr den Tagger auf dieser Transferstufe noch uumlber den KasusEs ist nicht klar ob ldquoWikipediardquo im Nominativ Akkusativ oder Genitivsteht Das Symbol ltCLBgt steht fuumlr ldquoClause Boundaryrdquo und spielt insbe-sondere fuumlr den Chunker (im Zuge des spaumlteren Transfers) eine Rolle zB zur (groben) Abgrenzung von Nominal- und Verbalphrasen

Analyse 2 faumlllt knapper aus da der Kasusfall keine Rolle mehr spielt -an dessen Stelle tritt nun der Illativ (Symbol ltIllgt) Der Rest bleibt sichgleich

Da aber die Illativ-Markierung in diesem spezifischen Fall auf dernob-Seite zur Oberflaumlchengenerierung des norwegischen Wortes ldquotilrdquo30 fuumlhrt aumlndert sich die Semantik des Satzes merklich

Der Transferprozess bei Apertium kann generell beliebig fein beobach-tet werden fuumlr unser spezifisches Sprachpaar sme-nob sei fuumlr weitereVersuche auf das Apertium-Wiki 31 verwiesen das extensiv Informa-tionen daruumlber fuumlhrt

Es existieren weitere interessante Sprachpaare bei der nur eine Sei-te jeweils stark agglutierend ist und auf entsprechende Formalismen(LEXC- und TWOLC-Formalismen) zuruumlckgegriffen wird So etwa die

29 Vgl Wikipedia httpsdewikipediaorgwikiIllativ (letzter Zugriff14062012)30 Dt ldquoaufrdquo31 httpwikiapertiumorgwikiNorthern_SC3A1mi_and_Norwegian (letzterZugriff 14062012)

20

Sprachpaare quz-spa (Quecha-Castellano) 32 udm-rus (Udmuritische Sprache-Russisch) 33 und kaz-eng (Kasachisch-Englisch) 34 Noch ist der Entwick-lungsstand all dieser Uumlbersetzungsrichtungen aber gering und fuumlr einenproduktiven Einsatz oder eine Evaluation demnach ungeeignet 35

32 Apertium-Wikiseite httpwikiapertiumorgwikiQuechua_cuzqueC3B1o_y_castellano (letzter Zugriff 14062012)33 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-udm-rus (letzter Zugriff 14062012)34 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumincubatorapertium-eng-kaz (letzter Zugriff 14062012)35 Alle drei Sprachpaare sind in den SVN-Ordnern incubator oder nursery un-tergebracht

21

4 Schluss

41 Zusammenfassung und AusblickIn abschliessender Betrachtung ist festzuhalten Die Nutzung von HFSTverleiht Apertium die Faumlhigkeit zu und von Sprachen mit (stark) Nicht-Konkatenativer Morphologie zu uumlbersetzen Dafuumlr muumlssen die Aperti-um-eigenen lttoolbox-Werkzeuge umgangen werden die ansonstenzur morphologischen Analyse und morphologischen Generierung von Wort-formen verwendet werden Der Einsatz von HFST liefert aber keinenMehrwert an anderen Stellen in der Transfer-Pipeline Der lexikalischeTransfer oder strukturelle Anpassungen um der Syntax der Zielsprachenaumlher zu kommen sind Schritte fuumlr die sich die lttoolbox-Werkzeugeweiterhin bewaumlhren

Diskutiert wird eine staumlrkere Integration von HFST in Apertium damitHFST nicht laumlnger der Charakter eines ldquoFremdkoumlrpersrdquo in der Aper-tium-Plattform anhaftet Es existiert die Idee ein Projekt in diese Rich-tung anzustossen um es z B moumlglich zu machen lexc-Dateien anstattmit den HFST-Binaries mit den lttoolbox-Kommandos zu prozessierenDieses Projekt koumlnnte von einem interessierten Studierenden etwa imRahmen des naumlchsten Google Summer of Code (2013) initiiert werden 1

Ein weitere Herausforderung die in der Natur von Apertium als Shallow-Transfer-System begruumlndet liegt 2 hat mit den Bilexika zu tun Apertiummuss fuumlr jedes Sprachpaar ein Bilexikon fuumlhren um den lexikalischenTransfer mittels den lttoolbox-Werkzeugen zu vollziehen Da fuumlr jedeneue Sprachkombination das Bilexikon neu aufgebaut werden mussbesteht hier ein gewisser (manueller) Aufwand bei jedem neuen Sprach-paar das angesetzt wird dieser kann zwar durch Einsatz von Werkzeu-ge aus den apertium-dixtools minimiert werden die Vollautomation

1 Idee zum Projekt httpwikiapertiumorgwikiIdeas_for_Google_Summer_of_CodeCloser_integration_with_HFST (letzter Zugriff 14062012)2 Apertium verwendet keinen sog Interlingua-Ansatz um eine sprachunabhaumlngigeRepraumlsentation von Wortbedeutungen zu fuumlhren

22

funktioniert aber noch nicht 3 4

Weiterhin bleibt Apertium im Grundsatz ein Shallow-Transfer-Systemdas keinen vollstaumlndigen Parse der Quellsprache vornimmt und sietiefen-analysiert Dadurch ist es auch in Zukunft nicht breit moumlglichSemantik uumlber weite Distanzen zu transferieren

Bezuumlglich weiterer Moumlglichkeiten fuumlr Apertium morphologisch zu ana-lysieren generieren kann das Augenmerk auch auf neuere Formalis-men als jene von Xerox 5 gelegt werden So existiert hunmorph 6 dases erlaubt in OCaml 7 - in einem objekt-orientierten Paradigma - Mor-phologien zu beschreiben und dazu eine (relativ) einfache Syntax auf-zuweisen scheint Beispiele explorativer Versuche mit hunmorph fuumlrApertium sind im Wiki des Projekts bereits heute dokumentiert 8 Aus-serdem ist hunmoph morphologisch-analytische Basis des bekanntenSpellcheckers HunSpell das der standardmaumlssige Spellchecker in Libre-Office OpenOfficeorg und einigen Softwareprodukten der MozillaFoundation ist 9

Selber hat es mir Freude bereitet mich in dieses komplexe Gebiet hin-ein zu begeben und ich bin fuumlr die Zukunft interessiert daran michan Apertium nach Kraumlften zu beteiligen da ich die dahinterstehendeCommunity als eine kennen gelernt habe die aufgeschlossen humor-voll und im houmlchsten Masse kompetent ist

42 DanksagungenIch moumlchte mich an dieser Stelle herzlichst im Besonderen bei folgen-den Personen des Apertium-Projekts bedanken dass sie sich Zeit ge-nommen haben sich mit mir im IRC ausgiebig zu unterhalten und denDschungel in und um Apertium zu durchleuchten Mikel L ForcadaFrancis M Tyers Kevin Brubeck Unhammer und Jonathan North Wa-shington

Ohne sie waumlre diese Arbeit in der Form nicht entstanden und vielesQuellmaterial das ich hier verwende schwierg auffindbar gewesen

3 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-dixtools (letzter Zugriff 14062012)4 Vgl hierzu httpwikiapertiumorgwikiCrossdics (letzter Zugriff14062012)5 Namentlich XFST TWOLC und LEXC6 Webseite httpmokkbmehuresourceshunmorph (letzter Zugriff 14062012)7 Webseite httpcamlinriafr (letzter Zugriff 14062012)8 Apertium-Wiki httpwikiapertiumorgwikiHunmorph (letzter Zugriff14062012)9 Webseite httphunspellsourceforgenet (letzter Zugriff 14062012)

23

Literaturverzeichnis

[1] S Clematide Morphologie und Lexikographie Vorlesungs-skript Institut fuumlr Computerlinguistik Universitaumlt Zuumlrich 2007URL httpfilesifiuzhchclsiclematlehress07mulscriptscriptpdf

[2] ML Forcada BI Bonev S Ortiz-Rojas JA Peacuterez-OrtizG Ramiacuterez-Saacutenchez F Saacutenchez-Martiacutenez C Armentano-OllerMA Montava FM Tyers und U dA Departament de Llenguatges iSistemes Informagravetics Documentation of the open-source shallow-transfer machine translation platform apertium 2010 URL httpxixonadlsiuaes~franapertium2-documentationpdf

[3] ML Forcada FM Tyers und G Ramiacuterez-Saacutenchez The Apertiummachine translation platform five years on In Proceedings of the FirstInternational Workshop on FreeOpen-Source Rule-Based Machine Trans-lation 3ndash10 2009 URL httpxixonadlsiuaesfreerbmt09presentationsforcada_freerbmt09_5yrsonpdf

[4] T Trosterud und KB Unhammer Evaluating North Saacutemi to Nor-wegian assimilation RBMT In Proceedings of the Third InternationalWorkshop on FreeOpen-Source Rule-Based Machine Translation 2012URL httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-sme-nobpaperpathrev=38833 (noch kein of-fizielles Paper (im PDF) verfuumlgbar)

24

Abbildungsverzeichnis

21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen 10

25

Anhang

IRC-Konversation zu HFSTTypisches Beispiel einer Konversation 10 mit Jonathan North Washing-ton (ldquofirespeakerrdquo) und Mikel L Forcada (ldquomlforcadardquo) welche we-sentliche Beitraumlge zu Apertium leisten gefuumlhrt im IRC 11

1921 lt h2mgt At which stage of the pipeline is HFST employed1921 lt h2mgt I couldnrsquot get that1921 lt mlforcadagt h2m generation of Kazakh[]1922 lt h2mgt Is this process described somewhere in detailsuch that I can read that up1922 lt mlforcadagt is something that looks like lttoolbox butmore powerful1922 lt mlforcadagt h2m firespeaker can help probably1922 lt h2mgt I can only see lexc and twol files wo reallygetting the point[]1922 lt firespeakergt h2m HFST takes a string of text and turnsit into lemmas + tags1922 lt firespeakergt h2m or1922 lt firespeakergt h2m it takes lemmas + tags and turns itinto a string of text[]1923 lt firespeakergt h2m lexc is the morphotactics1923 lt mlforcadagt firespeaker yoursquore right1923 lt h2mgt Ah OK1923 lt firespeakergt h2m twol is the morphophonology

10 Selber bin ich als ldquoh2mrdquo unterwegs11 ircircfreenodenetapertium

26

  • Einfuumlhrung
    • Motivation und Thema
    • Verwendete Umgebung und Konfiguration
      • Grundlagen Zu Apertium und HFST
        • Wesen und Entwicklungsstand von Apertium
        • Wesen und Entwicklungsstand von HFST
          • Hauptteil Die Integration von HFST in Apertium
            • Theorie Zweck und Nutzen der Integration
            • Empirie Die Integration am Beispiel eines Sprachpaars
              • Schluss
                • Zusammenfassung und Ausblick
                • Danksagungen
                  • Literaturverzeichnis
                  • Abbildungsverzeichnis
                  • Anhang
Page 11: Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

Wichtig fuumlr einen Start sind die freie Verfuumlgbarkeit von Woumlrterbuumlchernund gegebenenfalls Morphologien fuumlr die involvierten Sprachen EineListe solcher Ressourcen fuumlr viele Sprachen wird im Apertium-Wikigefuumlhrt 18

Durch das Hinzukommen von Sprachpaaren deren Sprachen linguis-tisch wenig gemein haben ist der Shallow-Transfer inzwischen staumlrkerausgebaut Fuumlr en-ca (Englisch zu Katalanisch) wird ein dreistufigerStrukturtransfer angewandt in der Reihenfolge Chunking Inter- undPost-Chunking Dabei ist zu beachten dass das Inter-Chunking in (noch)komplexeren Faumlllen mehrstufig sein kann So ist mir das Sprachpaarsme-smj (vom Nordsamischen 32 in das Lulesamische 19) aufgefallen20 das uumlber drei Inter-Chunking-Dateien verfuumlgt 21 die Regeln daruumlberenthalten Chunks (in drei Phasen) zu vertauschen

22 Wesen und Entwicklungsstand von HFSTBeim Helsinki Finite-State Transducer - Framework (HFST) handelt essich um eine in C++ geschriebene Open Source-Softwarekollektion auswelche die Nutzung verschiedener FST-Technologien und -Formalismenheraus einheitlich moumlglich ist die ihrerseits frei (implementiert) verfuumlg-bar sind Es sind dies zum aktuellen Zeitpunkt

bull Die Stuttgart Finite-State Transducer Tools (SFST) mit einer Basis-Unterstuumltzung von Finite-State Transducer mit gewichteten Kan-tenuumlbergaumlngen 22 23

bull Das Foma-Paket das eine freie Implementation der XFSTLEXC-Formalismen darstellt gewichtete Transduktoren koumlnnen nichterstellt werden 24

bull Die OpenFST-Bibliothek es wird die Schaffung von Finite-StateTransducer mit gewichteten Kantenuumlbergaumlngen unterstuumltzt 25

Insbesondere bietet HFST das Tool hfst-twolc an das einen Two-LevelRule Compiler fuumlr den Xerox-TWOLC-Formalismus darstellt Damitkoumlnnen Transduktoren erstellt werden die eine parallele Ersetzung so-wohl der Ober- als auch der Unterseite des Transduktors gleichzeitigerlauben Die Reihenfolge der entsprechenden Deklarationen ist damit

18 Apertium-Wiki httpwikiapertiumorgwikiSpecific_resources_per_language (letzter Zugriff 14062012)19 Ethnologue-Eintrag fuumlr smj httpswwwethnologuecomshow_languageaspcode=smj (letzter Zugriff 14062012)20 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-sme-smj (letzter Zugriff 14062012)21 Die Dateien mit den Endungen ldquot2xrdquo ldquot3xrdquo und ldquot4xrdquo - besonderes Augenmerkkann auf den Bereich ab ltsection-rulesgt gelegt werden22 Webseite httpwwwimsuni-stuttgartdeprojektegramotronSOFTWARESFSThtml (letzter Zugriff 14062012)23 Gemaumlss Angaben von Francis M Tyers im IRC wird auf diese Tools den entspre-chenden Bibliotheken in Apertium kaum zugegriffen24 Dateien mit Endungen ldquoxfstrdquo ldquofomardquo und ldquolexcrdquo werden in aller Regel damitverarbeitet25 Dateien mit Endungen ldquotwolrdquo werden damit prozessiert wobei von gewichtetenKantenuumlbergaumlngen kein Gebrauch gemacht wird

11

unwichtig Im Gegensatz dazu muss beim (klassischen) Xerox Finite-State Tools-Formalismus (XFST) welcher Foma als Compiler frei imple-mentiert der Reihenfolge der Deklarationen Beachtung geschenkt wer-den weil es sich beim XFST-Formalismus um Rewriting-Regeln handeltdie sequentiell immer nur auf die Unterseite (bzw dem ldquozweitenrdquo oderldquorechtenrdquo Band) des Transduktors angewandt werden

Eine umfassende Einfuumlhrung von Finite-State-Automaten und -Transduktorenwuumlrde den Rahmen dieser Arbeit sprengen es sei allerdings darauf hin-gewiesen dass im Apertium-Wiki26 das Thema im Zusammenhang mitden morphologischen Woumlrterbuumlcher die mittels den eigenen lttoolbox-Werkzeugen erstellt werden ausreichend eingefuumlhrt wird

Auf der Seite wird ebenfalls plausibel erklaumlrt dass es zur Uumlbersichtlich-keit und dem Verstaumlndnis der Morphologie beitraumlgt die Deklarationderselben von den Algorithmen zu trennen die sie umsetzen Sowohlder lttoolbox-Formalismus als auch die Formalismen die durch dasHFST-Framework unterstuumltzt werden erfordern die blosse Deklarati-on der Morphologie ohne dass man sich um die (effiziente) Verarbei-tung der Ausdruumlcke selber kuumlmmern muss Die prozeduralen Schritteerledigen lttoolbox und HFST bei der Verarbeitung der jeweiligen De-klarationen in den Dateien 27 selbststaumlndig Damit wird eine Trennungvon morphologischer Deklaration und Programmcode erreicht

Das ist aumlhnlich wie bei der deklarativen (logischen) Programmierspra-che Prolog wo sich die Inferenzmaschine eigenstaumlndig um die effizienteBeweisfuumlhrung des Ziels (engl des ldquogoalsrdquo) kuumlmmert Das Gegenteildieses Ansatzes wird auf der Webseite mit Python-Code demonstriertwelcher im gegebenen Beispiel dafuumlr verwendet wird das Wort ldquobeerrdquound ldquobeersrdquo morphologisch zu analysieren - als ein Substantiv das imSingular oder Plural steht Das wird durch prozedurale Schritte direkterledigt Bei der Implementation sprachvollstaumlndiger Morphologien aufdiese Art gestaltet sich die Wartung der Morphologie als tendenziell un-uumlbersichtlich Hinzu koumlnnen sich bei einem solchen Ansatz in schlechterImplementation Laufzeitprobleme gesellenDer wichtigste Vorteil aber bleibt bis hierhin unerwaumlhnt Transdukto-ren koumlnnen nicht nur zur Analyse von Wortformen in ihre Lemmatasamt lexikalischer Markierungen genutzt werden 28 sondern markierteLemmata (im gegebenen Format) koumlnnen zur Generierung von Wortfor-men genutzt werden 29 In einer prozeduralen Implementation muumlsstesowohl Programmcode fuumlr die Generierung als auch (separat) fuumlr dieAnalyse geschrieben werden Das ist umstaumlndlich

26 Vgl das Apertium-Wiki httpwikiapertiumorgwikiMorphological_dictionaries (letzter Zugriff 14062012)27 Es handelt sich fuumlr Dateien die durch lttoolbox prozessiert werden um die Datei-en in den Ordner der Sprachpaare mit den Endungen ldquodixrdquo fuumlr das morphologischeWoumlrterbuch ldquot1xrdquo bis (maximal) ldquot5xrdquo (je nach Anzahl der Stufen) fuumlr die Transferre-geln und gegebenenfalls den ldquolexcrdquo- und ldquotwolrdquo-Dateien falls bei einer involviertenSprache die Morphologie durch HFST erfasst wird In wenigen Faumlllen sind auch ldquoxfstrdquo-oder ldquofomardquo-Dateien anzutreffen28 Der Transduktor wird in einem solchen Fall in der Regel von links nach rechtsbzw von oben nach unten angewandt29 Der Transduktor wird von rechts nach links bzw von unten nach oben angewandt

12

Ein praktisches Beispiel der Nutzung der resultierenden Transdukto-ren zur Analyse oder Generierung liefert das Apertium-Wiki auf derSeite uumlber lttoolbox 30

Falls bei einer speziellen Anwendung mit Apertium eine (im Einzelfall)weitergehende prozedurale Verarbeitung der Ausgabe aus den Trans-duktoren notwendig wird dann besteht die Moumlglichkeit HFST aus zB Python heraus zu nutzen 31

30 Vgl Apertium-Wiki httpwikiapertiumorgwikiLttoolbox (letzter Zu-griff 14062012)31 Vgl Beitrag auf der nltk-dev-Mailingliste httpsgroupsgooglecomgroupnltk-devbrowse_threadthreadfdb53482cad56234 (letzter Zugriff 14062012)

13

3 Hauptteil Die Integrationvon HFST in Apertium

31 Theorie Zweck und Nutzen der IntegrationFinite-State-Technologien koumlnnen in der Computerlinguistik dafuumlr ge-nutzt werden um Woumlrterbuumlcher elegant aufzubauen oder die mor-phologische Analyse und Generierung von Woumlrtern systematisch zubetreiben und das insbesondere auch in Faumlllen wo die Morphologie derbetrachteten Sprache nicht relativ einfach durch z B Prauml- oder Suffixe(also konkatenativ durch rsquoAneinanderreihenrsquo von Morphemen) erfasstwerden kann sondern gerade auch in Faumlllen wo auch andere Affixewie Infixe zur Anwendung kommen

Nicht mehr simpel sind Morphologien beispielsweise in Faumlllen wo esfuumlr gegebene Wortstaumlmme 1 Faumllle gibt wo Morpheme fuumlr eine Flexi-on inmitten des Stamms eingepflanzt werden muumlssen oder wo Vokaleinmitten von Staumlmmen wegfallen oder durch andere ersetzt werdenmuumlssen um guumlltige Wortformen analysieren oder generieren zu koumln-nen Morphologien fuumlr Sprachen die komplexe Anpassungen an Staumlm-men oder fortgesetzten Wortklassen in bestimmten (z B grammatikali-schen) Faumlllen erfordern werden auch Nicht-Konkatenative Morphologien(NKM) (vgl Clematide 2007 104ff) genannt oder zumindest waumlre dieKonkatenation nach vorwiegend erkennbaren systematischen Regelnder betrachteten Sprache nicht mehr (sinnvoll) nachvollziehbar wuumlrdeman eine Konkatenative Morphologie erzwingen wollen ebenfalls ist dieGefahr von Redundanz sehr hoch wenn jeder nur denkbare Stamm ineine Morphologie einfliesst

Eine saubere Morphologie mit klaren Regeln und in (moumlglichst) schlan-ker Ausfuumlhrung ist eine Anforderung von der gerade ein MaschinellesUumlbersetzungssystem wie Apertium fundamental profitiert um schnell zu

1 Minimaloberflaumlche von Woumlrtern aus der durch Morpheme die vor- um - oderangehaumlngt werden koumlnnen weitere wichtige (weitere) Wortformen entstehen

14

arbeiten und (linguistisch nachvollziehbar) gepflegt werden zu koumlnnen

Wie bereits in Kapitel 21 angedeutet ist es nicht erst das HFST-Frameworkdas Finite-State-Technologien in Apertium einfuumlhrt Die lexikalischenWerkzeuge lttoolbox mit Anwendungen wie lt-comp 2 oder lt-proc 3

werden dazu genutzt die in XML abgefassten Woumlrterbuumlcher in Trans-duktoren umzuwandeln - fuumlr eine schnellere Verarbeitung Mit denMoumlglichkeiten verglichen die das HFST-Framework liefert sind die lt-toolbox-Werkezuge am ehesten mit dem LEXC-Formalismus vergleich-bar welcher Foma beherrscht und auf die Idee fusst Woumlrterbuumlcher an-hand von Staumlmmen (von z B Verben oder Nomen) anhand von Fort-setzungsklassen (durch das Anhaumlngen von Morphemen) aufzubauenSimon Clematide fuumlhrt auch das in seinem Vorlesungsskript von 2007(93ff) genauer aus Darin ist es moumlglich die Morphotaktik der Sprachezu erfassen Schwieriger umzusetzen mit diesen Apertium-Bordmittelnist die Morphophonemik worunter Lautanpassungen oder die Infigierung 4

fallen Diese (u U seltenen aber fuumlr die Korrektheit notwendigen) An-passungen der Morphotaktik berechtigen den Beizug zusaumltzlicher (wohlbekannter und anerkannter) Formalismen wie XFST 5 oder TWOLC

Die wenigsten natuumlrlichen Sprachen sind (vollstaumlndig) KonkatenativerMorphologie Im Rahmen einer kuumlrzlichen Veranstaltung zu Finite-State-Methoden (bei Simon Clematide) haben Simon Hafner und ich die Moumlg-lichkeit erhalten eine (konzeptionelle) Morphologie 6 fuumlr die Planspra-che ldquoKlingonischrdquo 7 anzulegen Diese laumlsst sich tatsaumlchlich fast vollstaumln-dig mit Fortsetzungsklassen auf Basis der Wortstaumlmme und anzuhaumln-genden Morphemen und damit dem LEXC-Formalismus erfassen istaber auch nur ein akademisches Beispiel einer Sprache wo es nie zu(natuumlrlichen) Lautverschiebungen oder anderen komplexen Phaumlnome-nen kam

Die Dokumentation daruumlber wie HFST in Apertium genau genutztwird ist spaumlrlich Gerade in der Apertium-Dokumentation (aktuellnachgefuumlhrt und veroumlffentlicht bis Version 20) seitens Forcada et al[2] wird nichts uumlber die Nutzung von HFST ausgesagt - auch nicht inden neuesten (versionskontrollierten) Fassungen8 im SVN-Repository

Gluumlcklicherweise waren wichtige Apertium-Entwickler mir eine grosseHilfe dabei die noumltigen Einstiegspunkte zu finden Ein Beispiel einer ty-pischen Hilfeleistung ist im Anhang als ldquoIRC-Konversation zu HFSTrdquo9 zu finden die ich mit freundlicher Unterstuumltzung der involviertenPersonen in dieser Seminararbeit in der Form publizieren darf

2 Zur Kompilation von Woumlrterbuumlchern von einem XML- in ein FST-Format3 Zur Prozessierung der Daten im vorgaumlngig generierten FST-Format und der Aus-gabe in einem menschenlesbaren lexikalischen Tagging-Format4 Einfuumlgen eines Affixes in einen Wortstamm auch Infix genannt5 Von Foma implementiert6 Code und Anwendungsbeispiele bei github im git-Repository httpsgithubcom2mhklingomorph (letzter Zugriff 14062012)7 Ethnologue-Eintrag tlh httpswwwethnologuecomshow_languageaspcode=tlh (letzter Zugriff 14062012)8 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-documentationapertium-20en (letzter Zugriff 12062012)9 Siehe Anhang auf Seite 26

15

Zudem Es sind im Apertium-Wiki Informationen daruumlber vorhandenwie ein neues Sprachpaar fuumlr die Nutzung mit HFST angelegt werdenkann 10 Beim gegebenen Beispiel wird schematisch das Sprachpaar tur-tuk angesetzt (real im SVN-Repository existiert das Sprachpaar tuk-tur11) wobei tuk 12fuumlr Turkmenisch und tur 13 fuumlr Tuumlrkisch steht

Generell wird bei Sprachpaaren die mit HFST analysiert (und gene-riert) werden versucht den lexikalischen Transfer moumlglichst auf Ba-sis der Morpheme vorzunehmen Idealerweise kann der groumlsste Teilim LEXC-Formalismus abgedeckt werden Wo das nicht (im Ansatz)gelingt werden TWOLC-Regeln definiert welche die noumltigen Anpas-sungen an den lexikalischen Markierungen und Oberflaumlchenformen derWoumlrter vornehmen

Gruumlnde weshalb TWOLC- gegenuumlber XFST-Deklarationen bevorzugtwerden sind gemaumlss wichtigen Apertium-Entwicklern 14 (1) das uumlber-sichtlichere Format und (2) die einfachere Handhabung von linguisti-schen Phaumlnomenen wie der Vokalharmonie mit dem TWOLC-Formalismus

Ein weiterer wichtiger Grund welcher die mangelnde Verbreitung desXFST-Formalismus bei Apertium erklaumlrt ist vermutlich auch dass Fo-ma erst seit Version 30 von HFST (veroumlffentlicht in 2011) vollstaumlndigunterstuumltzt wird

32 Empirie Die Integration am Beispiel eines SprachpaarsDaruumlber wie ein neues Sprachpaar unter Nutzung von HFST zu Aper-tium hinzugefuumlgt werden kann gibt ein Wiki-Artikel 15 Auskunft ImSinne eines Tutorials wird dabei Schritt fuumlr Schritt im Ansatz gezeigtwie die Implementation einer RBMT von der Turkmenischen Spracheins Tuumlrkische (Sprachpaar tk-tr) umgesetzt werden kann Bei beidenverwandten Sprachen handelt es sich um stark agglutinierende Spra-chen

Das (wissenschaftlich) am besten dokumentierte Beispiel der Nutzungvon HFST im Zusammenhang mit Apertium wird im noch nicht pu-blizierten Paper ldquoEvaluating North Saacutemi to Norwegian assimilationRBMTrdquo [4] beschrieben das von Trond Trosterud und seinem Kollegen

10 Vgl hierzu httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 12062012)11 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-tuk-tur (letzter Zugriff 12062012)12 Ethnologue-Eintrag fuumlr tuk httpswwwethnologuecomshow_languageaspcode=tuk (letzter Zugriff 12062012)13 Ethnologue-Eintrag fuumlr tur httpswwwethnologuecomshow_languageaspcode=tur (letzter Zugriff 12062012)14 Gemaumlss Francis M Tyers und Jonathan North Washington im IRC15 Apertium-Wiki httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 11062012)

16

Kevin Brubeck Unhammer Mitte Juni 2012 an der FreeRBMT 2012 erst-mals oumlffentlich vorgetragen wird 16

Die Nordsamische Sprache 17 (sme) verfuumlgt uumlber geschaumltzte 15rsquo000 bis25rsquo000 Sprecher und wird in Norwegen Schweden und Finnland ge-sprochen Die Sprache wird von den Autoren als stark flektierend undagglutinierend eingeteilt

Die Standardvarietaumlt 18 des Norwegischen in die uumlbersetzt wird ver-fuumlgt gemaumlss Ethnologue 19 uumlber rund 45 Millionen Sprecher und gehoumlrtder indogermanischen Sprachfamilie an Die Sprache wird von Troste-rud und Unhammer [4] als morphologisch wenig komplex angegeben

Dieses Sprachpaar gehoumlrt zu den wenigen wo eine indoeuropaumlische(oder -germanische) Sprache unter Einsatz von HFST mit Apertiumuumlbersetzt wird

Bei den meisten anderen Sprachpaaren wo HFST genutzt wird han-delt es sich beidseitig um Sprachen mit komplexer Morphologie

Bezuumlglich des Sprachpaars unserer Betrachtung fokussieren die Auto-ren auf die Uumlbersetzungsrichtung ins Norwegische weil der Anspruchbloss ist dass Nur-Norwegischsprechende Texte aus dem Nordsami-schen verstehen koumlnnen sollen Umgekehrt wuumlrden die meisten Spre-cher des Nordsamischen bereits Norwegisch verstehen womit der Nut-zen der umgekehrten Uumlbersetzungsrichtung als (zum aktuellen Zeit-punkt) gering eingeschaumltzt wird

Als Motivation fuumlr den Einsatz von HFST gegenuumlber lttoolbox wirdbeispielhaft der Stufenwechsel der Konsonanten des Nordsamischen inQuantitaumlt als auch Qualitaumlt angefuumlhrt 20 Generalisiert betrachtet befuumlr-worten die Autoren die Verwendung von HFST wenn Morphologienzu verarbeiten sind die nicht rein konkatenativ sind - wie ich in Kapitel31 zum Zweck von HFST bereits ausgefuumlhrt habe

Grundsaumltzlich wird gemaumlss Entwickler Unhammer 21 (schematisch) diefolgende UNIX-Pipeline fuumlr sme-nob angewandt

$ echo words|hfst-proc sme-analyserhfst|| 1lt-proc sme-to-nob-dixbin|| 2lt-proc nob-generator-dixbin 3

Im Falle von sme-nob wird HFST alleine fuumlr die Analyse (1) von smegenutzt dann wird wieder generell auf lttoolbox gesetzt in wichtigsterHinsicht im Rahmen des lexikalischen Transfers (2) und der Generierung

16 Information gemaumlss einem Gespraumlch mit Kevin Brubeck Unhammer im IRC Kon-ferenzseite mit Programm httpwwwmolto-projecteufreerbmt-programhtml(letzter Zugriff 14062012)17 Engl ldquoNorth Saacutemirdquo18 Als Buchsprache ldquoBokmaringlrdquo19 Ethnologue-Eintrag zu den Sprachen Norwegens httpswwwethnologuecomshow_countryaspname=no (letzter Zugriff 11062012)20 Vgl hierzu Wikipedia httpsdewikipediaorgwikiStufenwechsel (letzterZugriff 14062012)21 Chatgespraumlch im IRC

17

(3) der Zielsprache nob

Der morphologische sme-Analyzer ist dabei in den Formalismen LEXCund TWOLC geschrieben und fusst auf bereits verfuumlgbare Ressourcen22 zuruumlck was aufzeigt dass HFST im Einsatz fuumlr Apertium auch des-halb interessant ist weil viele Morphologien bereits existieren die inFormalismen geschrieben sind die HFST verarbeiten kann Fuumlr dasAnlegen vieler Sprachpaare ist es nicht notwendig alles from scratch zubeginnen

Auch beim nob-Generator konnte auf (eigene fruumlhere) Ressourcen zu-ruumlckgegriffen werden wie diese im Sprachpaar nn-nb 23 verfuumlgbar sindbei dem Sprachpaar wird zwischen zwei norwegischen Sprachverietauml-ten uumlbersetzt Wichtig ist noch einmal zu betonen dass der nob-Teil (zurGeneration der Norwegischen Wortformen) auf lttoolbox setzt und mitHFST nichts zu schaffen hat

Interessant ist der Einsatz der von Trosterud und Unhammer von Grundauf selber geschriebene Constraint Grammar (CG) 24 zur Wortartendisam-biguierung in dem die Auswahl der Woumlrter (fuumlr die Zielsprache) anhandvon (lokalen) grammatikalischen Kontexten (in der Quellsprache) ge-schieht Das ist auch der Grund weshalb ich eingangs in Kapitel 12VISL CG-3 als obligat zu installierendes Paket anfuumlhre Ohne dieseSoftware ist es nicht moumlglich das Sprachpaar sme-nob zu kompilieren25

Zwischen der morphologischen Analyse (von sme) und der morphologischenGenerierung von nob findet der strukturelle Transfer statt der 4-phasig istdie Autoren Trosterud und Unhammer machen hierbei folgende Anga-ben

1 63 Chunk-Regeln (t1x-Datei)

2 26 Interchunk1-Regeln (t2x-Datei)

3 39 Interchunk2-Regeln (t3x-Datei)

4 29 Postchunk-Regeln (t4x-Datei)

Es reicht also nicht bloss aus Wortformen oder Morpheme zu ersetzensondern es sind komplexe Verschiebungen der markierten Lemmata

22 SVN-Repository des Giellatekno-Projekts httpsvictoriouitnolangtechtrunkgtsme (letzter Zugriff 14062012)23 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-nn-nb (letzter Zugriff 14062012)24 Vgl fuumlr einen kurzen Uumlberblick eine CLab-Seite httpkittcluzhchclabconstraintGrammarilap_visl (letzter Zugriff 14062012)25 Zu erwaumlhnen ist in dem Zusammenhang dass bei den meisten SprachpaarenHidden-Markov-Modelle zum Einsatz kommen um die Wortarten zu bestimmen da-fuumlr wird Sprachmaterial trainiert Im Falle von sme-nob deuten die Autoren allerdingsdarauf hin dass mangels repraumlsentativen Sprachmaterials diese Option keine ist diebefriedigen kann Sie stellen allerdings in Aussicht dass eine Kombination von lin-guistischen CG- und statistischen HMM-Ansaumltzen ein Versuch wert waumlre Dabei wuumlrdezuerst mittels CG ein Kontext eingegrenzt und danach statistisch verfahren

18

notwendig um in das Norwegische zu uumlbersetzen obschon beide Spra-chen der Subjekt-Verb-Objekt-Satzstellung sind

Die Evaluationsergebnisse der Autoren deuten darauf hin dass dasSprachpaar sme-nob funktionalen Charakter hat Post-Editing-Qualitaumltist nicht das Ziel und wird auch nicht erreicht allerdings koumlnnen Nor-wegischsprechende die kein Nordsamisch verstehen in vielen Faumlllenausmachen was die Bedeutung eines Satzes ist - insbesondere dannwenn er kontextualisiert vorliegt

Im Folgenden soll eine praktische Nutzung des Sprachpaars sme-nobin Apertium illustriert werden Als Beispiel diene der einleitende Be-gruumlssungssatz zur Nordsamischen Wikipedia 26 ausgewaumlhlt

$ echo rsquoBures boahtin Wikipediai friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen til Wikipedia til den frie informasjonsordboken

Die resultierende nob-Uumlbersetzung lautet gemaumlss Google Translate 27

auf Deutsch

Willkommen bei Wikipedia dem freien Woumlrterbuch Infor-mationen

Die Uumlbersetzung ist verstaumlndlich abgesehen von der Semantik des Aus-drucks ldquoWoumlrterbuch Informationenrdquo Hier sollte meiner Ansicht nachldquoEnzyklopaumldierdquo stehen Es ist wahrscheinlich dass bereits die Quellenicht den optimalen Begriff fuumlhrt und da das eigentliche Problem liegt

Interessanter ist was passiert wenn wir das ominoumlse i-Suffix bei ldquoWi-kipediairdquo im Nordsamischen entfernen

$ echo rsquoBures boahtin Wikipedia friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen Wikipedia til den frie informasjonsordboken

Wir koumlnnen feststellen dass der Satz einen anderen personalen Bezugherstellt denn gemaumlss Google Translate 28 bedeutet die zweite nob-Uumlbersetzung auf Deutsch

Willkommen Wikipedia dem freien Woumlrterbuch Informa-tionen

Wir werden nun also als ldquoWikipediardquo angesprochen

26 Webseite httpssewikipediaorgwikiVC3A1ldosiidu (letzter Zugriff14062012)27 Vgl hierzu httptranslategooglecomno|de|Velkommen20til20Wikipedia2C20til20den20frie20informasjonsordboken (letzter Zugriff14062012)28 Vgl hierzu httptranslategooglecomno|de|0AVelkommen20Wikipedia2C20til20den20frie20informasjonsordbokenmskip-thinmuskip (letzter Zugriff 14062012)

19

Eine morphologische Analyse der beiden Wortformen ldquoWikipediardquo undldquoWikipediairdquo erhaumlrtet die Vermutungen dass es sich beim i-Suffix umeinen Illativ 29 handelt einem Lokalkasus der dazu genutzt werdenkann eine ldquoHineinbewegungrdquo auszudruumlcken respektive in diesem Falldie entsprechende Praumlposition ldquoaufrdquo in das Substantiv der Named En-tity ldquoWikipediardquo einzugliedern

$ echo Wikipedia | apertium -d sme-nob-morph1^WikipediaWikipedialtNgtltPropgtltOrggtltSggtltAccgtWikipedialtNgtltPropgtltOrggtltSggtltGengtWikipedialtNgtltPropgtltOrggtltSggtltNomgt$^ltCLBgt$

2$ echo Wikipediai | apertium -d sme-nob-morph^WikipediaiWikipedialtNgtltPropgtltOrggtltSggtltIllgt$^ltCLBgt$

Bei Analyse 1 wird ldquoWikipediardquo als ein Substantiv eine Named Entityund (semantisch) als Organisation im Singular markiert Uneinigkeitherrscht fuumlr den Tagger auf dieser Transferstufe noch uumlber den KasusEs ist nicht klar ob ldquoWikipediardquo im Nominativ Akkusativ oder Genitivsteht Das Symbol ltCLBgt steht fuumlr ldquoClause Boundaryrdquo und spielt insbe-sondere fuumlr den Chunker (im Zuge des spaumlteren Transfers) eine Rolle zB zur (groben) Abgrenzung von Nominal- und Verbalphrasen

Analyse 2 faumlllt knapper aus da der Kasusfall keine Rolle mehr spielt -an dessen Stelle tritt nun der Illativ (Symbol ltIllgt) Der Rest bleibt sichgleich

Da aber die Illativ-Markierung in diesem spezifischen Fall auf dernob-Seite zur Oberflaumlchengenerierung des norwegischen Wortes ldquotilrdquo30 fuumlhrt aumlndert sich die Semantik des Satzes merklich

Der Transferprozess bei Apertium kann generell beliebig fein beobach-tet werden fuumlr unser spezifisches Sprachpaar sme-nob sei fuumlr weitereVersuche auf das Apertium-Wiki 31 verwiesen das extensiv Informa-tionen daruumlber fuumlhrt

Es existieren weitere interessante Sprachpaare bei der nur eine Sei-te jeweils stark agglutierend ist und auf entsprechende Formalismen(LEXC- und TWOLC-Formalismen) zuruumlckgegriffen wird So etwa die

29 Vgl Wikipedia httpsdewikipediaorgwikiIllativ (letzter Zugriff14062012)30 Dt ldquoaufrdquo31 httpwikiapertiumorgwikiNorthern_SC3A1mi_and_Norwegian (letzterZugriff 14062012)

20

Sprachpaare quz-spa (Quecha-Castellano) 32 udm-rus (Udmuritische Sprache-Russisch) 33 und kaz-eng (Kasachisch-Englisch) 34 Noch ist der Entwick-lungsstand all dieser Uumlbersetzungsrichtungen aber gering und fuumlr einenproduktiven Einsatz oder eine Evaluation demnach ungeeignet 35

32 Apertium-Wikiseite httpwikiapertiumorgwikiQuechua_cuzqueC3B1o_y_castellano (letzter Zugriff 14062012)33 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-udm-rus (letzter Zugriff 14062012)34 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumincubatorapertium-eng-kaz (letzter Zugriff 14062012)35 Alle drei Sprachpaare sind in den SVN-Ordnern incubator oder nursery un-tergebracht

21

4 Schluss

41 Zusammenfassung und AusblickIn abschliessender Betrachtung ist festzuhalten Die Nutzung von HFSTverleiht Apertium die Faumlhigkeit zu und von Sprachen mit (stark) Nicht-Konkatenativer Morphologie zu uumlbersetzen Dafuumlr muumlssen die Aperti-um-eigenen lttoolbox-Werkzeuge umgangen werden die ansonstenzur morphologischen Analyse und morphologischen Generierung von Wort-formen verwendet werden Der Einsatz von HFST liefert aber keinenMehrwert an anderen Stellen in der Transfer-Pipeline Der lexikalischeTransfer oder strukturelle Anpassungen um der Syntax der Zielsprachenaumlher zu kommen sind Schritte fuumlr die sich die lttoolbox-Werkzeugeweiterhin bewaumlhren

Diskutiert wird eine staumlrkere Integration von HFST in Apertium damitHFST nicht laumlnger der Charakter eines ldquoFremdkoumlrpersrdquo in der Aper-tium-Plattform anhaftet Es existiert die Idee ein Projekt in diese Rich-tung anzustossen um es z B moumlglich zu machen lexc-Dateien anstattmit den HFST-Binaries mit den lttoolbox-Kommandos zu prozessierenDieses Projekt koumlnnte von einem interessierten Studierenden etwa imRahmen des naumlchsten Google Summer of Code (2013) initiiert werden 1

Ein weitere Herausforderung die in der Natur von Apertium als Shallow-Transfer-System begruumlndet liegt 2 hat mit den Bilexika zu tun Apertiummuss fuumlr jedes Sprachpaar ein Bilexikon fuumlhren um den lexikalischenTransfer mittels den lttoolbox-Werkzeugen zu vollziehen Da fuumlr jedeneue Sprachkombination das Bilexikon neu aufgebaut werden mussbesteht hier ein gewisser (manueller) Aufwand bei jedem neuen Sprach-paar das angesetzt wird dieser kann zwar durch Einsatz von Werkzeu-ge aus den apertium-dixtools minimiert werden die Vollautomation

1 Idee zum Projekt httpwikiapertiumorgwikiIdeas_for_Google_Summer_of_CodeCloser_integration_with_HFST (letzter Zugriff 14062012)2 Apertium verwendet keinen sog Interlingua-Ansatz um eine sprachunabhaumlngigeRepraumlsentation von Wortbedeutungen zu fuumlhren

22

funktioniert aber noch nicht 3 4

Weiterhin bleibt Apertium im Grundsatz ein Shallow-Transfer-Systemdas keinen vollstaumlndigen Parse der Quellsprache vornimmt und sietiefen-analysiert Dadurch ist es auch in Zukunft nicht breit moumlglichSemantik uumlber weite Distanzen zu transferieren

Bezuumlglich weiterer Moumlglichkeiten fuumlr Apertium morphologisch zu ana-lysieren generieren kann das Augenmerk auch auf neuere Formalis-men als jene von Xerox 5 gelegt werden So existiert hunmorph 6 dases erlaubt in OCaml 7 - in einem objekt-orientierten Paradigma - Mor-phologien zu beschreiben und dazu eine (relativ) einfache Syntax auf-zuweisen scheint Beispiele explorativer Versuche mit hunmorph fuumlrApertium sind im Wiki des Projekts bereits heute dokumentiert 8 Aus-serdem ist hunmoph morphologisch-analytische Basis des bekanntenSpellcheckers HunSpell das der standardmaumlssige Spellchecker in Libre-Office OpenOfficeorg und einigen Softwareprodukten der MozillaFoundation ist 9

Selber hat es mir Freude bereitet mich in dieses komplexe Gebiet hin-ein zu begeben und ich bin fuumlr die Zukunft interessiert daran michan Apertium nach Kraumlften zu beteiligen da ich die dahinterstehendeCommunity als eine kennen gelernt habe die aufgeschlossen humor-voll und im houmlchsten Masse kompetent ist

42 DanksagungenIch moumlchte mich an dieser Stelle herzlichst im Besonderen bei folgen-den Personen des Apertium-Projekts bedanken dass sie sich Zeit ge-nommen haben sich mit mir im IRC ausgiebig zu unterhalten und denDschungel in und um Apertium zu durchleuchten Mikel L ForcadaFrancis M Tyers Kevin Brubeck Unhammer und Jonathan North Wa-shington

Ohne sie waumlre diese Arbeit in der Form nicht entstanden und vielesQuellmaterial das ich hier verwende schwierg auffindbar gewesen

3 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-dixtools (letzter Zugriff 14062012)4 Vgl hierzu httpwikiapertiumorgwikiCrossdics (letzter Zugriff14062012)5 Namentlich XFST TWOLC und LEXC6 Webseite httpmokkbmehuresourceshunmorph (letzter Zugriff 14062012)7 Webseite httpcamlinriafr (letzter Zugriff 14062012)8 Apertium-Wiki httpwikiapertiumorgwikiHunmorph (letzter Zugriff14062012)9 Webseite httphunspellsourceforgenet (letzter Zugriff 14062012)

23

Literaturverzeichnis

[1] S Clematide Morphologie und Lexikographie Vorlesungs-skript Institut fuumlr Computerlinguistik Universitaumlt Zuumlrich 2007URL httpfilesifiuzhchclsiclematlehress07mulscriptscriptpdf

[2] ML Forcada BI Bonev S Ortiz-Rojas JA Peacuterez-OrtizG Ramiacuterez-Saacutenchez F Saacutenchez-Martiacutenez C Armentano-OllerMA Montava FM Tyers und U dA Departament de Llenguatges iSistemes Informagravetics Documentation of the open-source shallow-transfer machine translation platform apertium 2010 URL httpxixonadlsiuaes~franapertium2-documentationpdf

[3] ML Forcada FM Tyers und G Ramiacuterez-Saacutenchez The Apertiummachine translation platform five years on In Proceedings of the FirstInternational Workshop on FreeOpen-Source Rule-Based Machine Trans-lation 3ndash10 2009 URL httpxixonadlsiuaesfreerbmt09presentationsforcada_freerbmt09_5yrsonpdf

[4] T Trosterud und KB Unhammer Evaluating North Saacutemi to Nor-wegian assimilation RBMT In Proceedings of the Third InternationalWorkshop on FreeOpen-Source Rule-Based Machine Translation 2012URL httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-sme-nobpaperpathrev=38833 (noch kein of-fizielles Paper (im PDF) verfuumlgbar)

24

Abbildungsverzeichnis

21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen 10

25

Anhang

IRC-Konversation zu HFSTTypisches Beispiel einer Konversation 10 mit Jonathan North Washing-ton (ldquofirespeakerrdquo) und Mikel L Forcada (ldquomlforcadardquo) welche we-sentliche Beitraumlge zu Apertium leisten gefuumlhrt im IRC 11

1921 lt h2mgt At which stage of the pipeline is HFST employed1921 lt h2mgt I couldnrsquot get that1921 lt mlforcadagt h2m generation of Kazakh[]1922 lt h2mgt Is this process described somewhere in detailsuch that I can read that up1922 lt mlforcadagt is something that looks like lttoolbox butmore powerful1922 lt mlforcadagt h2m firespeaker can help probably1922 lt h2mgt I can only see lexc and twol files wo reallygetting the point[]1922 lt firespeakergt h2m HFST takes a string of text and turnsit into lemmas + tags1922 lt firespeakergt h2m or1922 lt firespeakergt h2m it takes lemmas + tags and turns itinto a string of text[]1923 lt firespeakergt h2m lexc is the morphotactics1923 lt mlforcadagt firespeaker yoursquore right1923 lt h2mgt Ah OK1923 lt firespeakergt h2m twol is the morphophonology

10 Selber bin ich als ldquoh2mrdquo unterwegs11 ircircfreenodenetapertium

26

  • Einfuumlhrung
    • Motivation und Thema
    • Verwendete Umgebung und Konfiguration
      • Grundlagen Zu Apertium und HFST
        • Wesen und Entwicklungsstand von Apertium
        • Wesen und Entwicklungsstand von HFST
          • Hauptteil Die Integration von HFST in Apertium
            • Theorie Zweck und Nutzen der Integration
            • Empirie Die Integration am Beispiel eines Sprachpaars
              • Schluss
                • Zusammenfassung und Ausblick
                • Danksagungen
                  • Literaturverzeichnis
                  • Abbildungsverzeichnis
                  • Anhang
Page 12: Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

unwichtig Im Gegensatz dazu muss beim (klassischen) Xerox Finite-State Tools-Formalismus (XFST) welcher Foma als Compiler frei imple-mentiert der Reihenfolge der Deklarationen Beachtung geschenkt wer-den weil es sich beim XFST-Formalismus um Rewriting-Regeln handeltdie sequentiell immer nur auf die Unterseite (bzw dem ldquozweitenrdquo oderldquorechtenrdquo Band) des Transduktors angewandt werden

Eine umfassende Einfuumlhrung von Finite-State-Automaten und -Transduktorenwuumlrde den Rahmen dieser Arbeit sprengen es sei allerdings darauf hin-gewiesen dass im Apertium-Wiki26 das Thema im Zusammenhang mitden morphologischen Woumlrterbuumlcher die mittels den eigenen lttoolbox-Werkzeugen erstellt werden ausreichend eingefuumlhrt wird

Auf der Seite wird ebenfalls plausibel erklaumlrt dass es zur Uumlbersichtlich-keit und dem Verstaumlndnis der Morphologie beitraumlgt die Deklarationderselben von den Algorithmen zu trennen die sie umsetzen Sowohlder lttoolbox-Formalismus als auch die Formalismen die durch dasHFST-Framework unterstuumltzt werden erfordern die blosse Deklarati-on der Morphologie ohne dass man sich um die (effiziente) Verarbei-tung der Ausdruumlcke selber kuumlmmern muss Die prozeduralen Schritteerledigen lttoolbox und HFST bei der Verarbeitung der jeweiligen De-klarationen in den Dateien 27 selbststaumlndig Damit wird eine Trennungvon morphologischer Deklaration und Programmcode erreicht

Das ist aumlhnlich wie bei der deklarativen (logischen) Programmierspra-che Prolog wo sich die Inferenzmaschine eigenstaumlndig um die effizienteBeweisfuumlhrung des Ziels (engl des ldquogoalsrdquo) kuumlmmert Das Gegenteildieses Ansatzes wird auf der Webseite mit Python-Code demonstriertwelcher im gegebenen Beispiel dafuumlr verwendet wird das Wort ldquobeerrdquound ldquobeersrdquo morphologisch zu analysieren - als ein Substantiv das imSingular oder Plural steht Das wird durch prozedurale Schritte direkterledigt Bei der Implementation sprachvollstaumlndiger Morphologien aufdiese Art gestaltet sich die Wartung der Morphologie als tendenziell un-uumlbersichtlich Hinzu koumlnnen sich bei einem solchen Ansatz in schlechterImplementation Laufzeitprobleme gesellenDer wichtigste Vorteil aber bleibt bis hierhin unerwaumlhnt Transdukto-ren koumlnnen nicht nur zur Analyse von Wortformen in ihre Lemmatasamt lexikalischer Markierungen genutzt werden 28 sondern markierteLemmata (im gegebenen Format) koumlnnen zur Generierung von Wortfor-men genutzt werden 29 In einer prozeduralen Implementation muumlsstesowohl Programmcode fuumlr die Generierung als auch (separat) fuumlr dieAnalyse geschrieben werden Das ist umstaumlndlich

26 Vgl das Apertium-Wiki httpwikiapertiumorgwikiMorphological_dictionaries (letzter Zugriff 14062012)27 Es handelt sich fuumlr Dateien die durch lttoolbox prozessiert werden um die Datei-en in den Ordner der Sprachpaare mit den Endungen ldquodixrdquo fuumlr das morphologischeWoumlrterbuch ldquot1xrdquo bis (maximal) ldquot5xrdquo (je nach Anzahl der Stufen) fuumlr die Transferre-geln und gegebenenfalls den ldquolexcrdquo- und ldquotwolrdquo-Dateien falls bei einer involviertenSprache die Morphologie durch HFST erfasst wird In wenigen Faumlllen sind auch ldquoxfstrdquo-oder ldquofomardquo-Dateien anzutreffen28 Der Transduktor wird in einem solchen Fall in der Regel von links nach rechtsbzw von oben nach unten angewandt29 Der Transduktor wird von rechts nach links bzw von unten nach oben angewandt

12

Ein praktisches Beispiel der Nutzung der resultierenden Transdukto-ren zur Analyse oder Generierung liefert das Apertium-Wiki auf derSeite uumlber lttoolbox 30

Falls bei einer speziellen Anwendung mit Apertium eine (im Einzelfall)weitergehende prozedurale Verarbeitung der Ausgabe aus den Trans-duktoren notwendig wird dann besteht die Moumlglichkeit HFST aus zB Python heraus zu nutzen 31

30 Vgl Apertium-Wiki httpwikiapertiumorgwikiLttoolbox (letzter Zu-griff 14062012)31 Vgl Beitrag auf der nltk-dev-Mailingliste httpsgroupsgooglecomgroupnltk-devbrowse_threadthreadfdb53482cad56234 (letzter Zugriff 14062012)

13

3 Hauptteil Die Integrationvon HFST in Apertium

31 Theorie Zweck und Nutzen der IntegrationFinite-State-Technologien koumlnnen in der Computerlinguistik dafuumlr ge-nutzt werden um Woumlrterbuumlcher elegant aufzubauen oder die mor-phologische Analyse und Generierung von Woumlrtern systematisch zubetreiben und das insbesondere auch in Faumlllen wo die Morphologie derbetrachteten Sprache nicht relativ einfach durch z B Prauml- oder Suffixe(also konkatenativ durch rsquoAneinanderreihenrsquo von Morphemen) erfasstwerden kann sondern gerade auch in Faumlllen wo auch andere Affixewie Infixe zur Anwendung kommen

Nicht mehr simpel sind Morphologien beispielsweise in Faumlllen wo esfuumlr gegebene Wortstaumlmme 1 Faumllle gibt wo Morpheme fuumlr eine Flexi-on inmitten des Stamms eingepflanzt werden muumlssen oder wo Vokaleinmitten von Staumlmmen wegfallen oder durch andere ersetzt werdenmuumlssen um guumlltige Wortformen analysieren oder generieren zu koumln-nen Morphologien fuumlr Sprachen die komplexe Anpassungen an Staumlm-men oder fortgesetzten Wortklassen in bestimmten (z B grammatikali-schen) Faumlllen erfordern werden auch Nicht-Konkatenative Morphologien(NKM) (vgl Clematide 2007 104ff) genannt oder zumindest waumlre dieKonkatenation nach vorwiegend erkennbaren systematischen Regelnder betrachteten Sprache nicht mehr (sinnvoll) nachvollziehbar wuumlrdeman eine Konkatenative Morphologie erzwingen wollen ebenfalls ist dieGefahr von Redundanz sehr hoch wenn jeder nur denkbare Stamm ineine Morphologie einfliesst

Eine saubere Morphologie mit klaren Regeln und in (moumlglichst) schlan-ker Ausfuumlhrung ist eine Anforderung von der gerade ein MaschinellesUumlbersetzungssystem wie Apertium fundamental profitiert um schnell zu

1 Minimaloberflaumlche von Woumlrtern aus der durch Morpheme die vor- um - oderangehaumlngt werden koumlnnen weitere wichtige (weitere) Wortformen entstehen

14

arbeiten und (linguistisch nachvollziehbar) gepflegt werden zu koumlnnen

Wie bereits in Kapitel 21 angedeutet ist es nicht erst das HFST-Frameworkdas Finite-State-Technologien in Apertium einfuumlhrt Die lexikalischenWerkzeuge lttoolbox mit Anwendungen wie lt-comp 2 oder lt-proc 3

werden dazu genutzt die in XML abgefassten Woumlrterbuumlcher in Trans-duktoren umzuwandeln - fuumlr eine schnellere Verarbeitung Mit denMoumlglichkeiten verglichen die das HFST-Framework liefert sind die lt-toolbox-Werkezuge am ehesten mit dem LEXC-Formalismus vergleich-bar welcher Foma beherrscht und auf die Idee fusst Woumlrterbuumlcher an-hand von Staumlmmen (von z B Verben oder Nomen) anhand von Fort-setzungsklassen (durch das Anhaumlngen von Morphemen) aufzubauenSimon Clematide fuumlhrt auch das in seinem Vorlesungsskript von 2007(93ff) genauer aus Darin ist es moumlglich die Morphotaktik der Sprachezu erfassen Schwieriger umzusetzen mit diesen Apertium-Bordmittelnist die Morphophonemik worunter Lautanpassungen oder die Infigierung 4

fallen Diese (u U seltenen aber fuumlr die Korrektheit notwendigen) An-passungen der Morphotaktik berechtigen den Beizug zusaumltzlicher (wohlbekannter und anerkannter) Formalismen wie XFST 5 oder TWOLC

Die wenigsten natuumlrlichen Sprachen sind (vollstaumlndig) KonkatenativerMorphologie Im Rahmen einer kuumlrzlichen Veranstaltung zu Finite-State-Methoden (bei Simon Clematide) haben Simon Hafner und ich die Moumlg-lichkeit erhalten eine (konzeptionelle) Morphologie 6 fuumlr die Planspra-che ldquoKlingonischrdquo 7 anzulegen Diese laumlsst sich tatsaumlchlich fast vollstaumln-dig mit Fortsetzungsklassen auf Basis der Wortstaumlmme und anzuhaumln-genden Morphemen und damit dem LEXC-Formalismus erfassen istaber auch nur ein akademisches Beispiel einer Sprache wo es nie zu(natuumlrlichen) Lautverschiebungen oder anderen komplexen Phaumlnome-nen kam

Die Dokumentation daruumlber wie HFST in Apertium genau genutztwird ist spaumlrlich Gerade in der Apertium-Dokumentation (aktuellnachgefuumlhrt und veroumlffentlicht bis Version 20) seitens Forcada et al[2] wird nichts uumlber die Nutzung von HFST ausgesagt - auch nicht inden neuesten (versionskontrollierten) Fassungen8 im SVN-Repository

Gluumlcklicherweise waren wichtige Apertium-Entwickler mir eine grosseHilfe dabei die noumltigen Einstiegspunkte zu finden Ein Beispiel einer ty-pischen Hilfeleistung ist im Anhang als ldquoIRC-Konversation zu HFSTrdquo9 zu finden die ich mit freundlicher Unterstuumltzung der involviertenPersonen in dieser Seminararbeit in der Form publizieren darf

2 Zur Kompilation von Woumlrterbuumlchern von einem XML- in ein FST-Format3 Zur Prozessierung der Daten im vorgaumlngig generierten FST-Format und der Aus-gabe in einem menschenlesbaren lexikalischen Tagging-Format4 Einfuumlgen eines Affixes in einen Wortstamm auch Infix genannt5 Von Foma implementiert6 Code und Anwendungsbeispiele bei github im git-Repository httpsgithubcom2mhklingomorph (letzter Zugriff 14062012)7 Ethnologue-Eintrag tlh httpswwwethnologuecomshow_languageaspcode=tlh (letzter Zugriff 14062012)8 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-documentationapertium-20en (letzter Zugriff 12062012)9 Siehe Anhang auf Seite 26

15

Zudem Es sind im Apertium-Wiki Informationen daruumlber vorhandenwie ein neues Sprachpaar fuumlr die Nutzung mit HFST angelegt werdenkann 10 Beim gegebenen Beispiel wird schematisch das Sprachpaar tur-tuk angesetzt (real im SVN-Repository existiert das Sprachpaar tuk-tur11) wobei tuk 12fuumlr Turkmenisch und tur 13 fuumlr Tuumlrkisch steht

Generell wird bei Sprachpaaren die mit HFST analysiert (und gene-riert) werden versucht den lexikalischen Transfer moumlglichst auf Ba-sis der Morpheme vorzunehmen Idealerweise kann der groumlsste Teilim LEXC-Formalismus abgedeckt werden Wo das nicht (im Ansatz)gelingt werden TWOLC-Regeln definiert welche die noumltigen Anpas-sungen an den lexikalischen Markierungen und Oberflaumlchenformen derWoumlrter vornehmen

Gruumlnde weshalb TWOLC- gegenuumlber XFST-Deklarationen bevorzugtwerden sind gemaumlss wichtigen Apertium-Entwicklern 14 (1) das uumlber-sichtlichere Format und (2) die einfachere Handhabung von linguisti-schen Phaumlnomenen wie der Vokalharmonie mit dem TWOLC-Formalismus

Ein weiterer wichtiger Grund welcher die mangelnde Verbreitung desXFST-Formalismus bei Apertium erklaumlrt ist vermutlich auch dass Fo-ma erst seit Version 30 von HFST (veroumlffentlicht in 2011) vollstaumlndigunterstuumltzt wird

32 Empirie Die Integration am Beispiel eines SprachpaarsDaruumlber wie ein neues Sprachpaar unter Nutzung von HFST zu Aper-tium hinzugefuumlgt werden kann gibt ein Wiki-Artikel 15 Auskunft ImSinne eines Tutorials wird dabei Schritt fuumlr Schritt im Ansatz gezeigtwie die Implementation einer RBMT von der Turkmenischen Spracheins Tuumlrkische (Sprachpaar tk-tr) umgesetzt werden kann Bei beidenverwandten Sprachen handelt es sich um stark agglutinierende Spra-chen

Das (wissenschaftlich) am besten dokumentierte Beispiel der Nutzungvon HFST im Zusammenhang mit Apertium wird im noch nicht pu-blizierten Paper ldquoEvaluating North Saacutemi to Norwegian assimilationRBMTrdquo [4] beschrieben das von Trond Trosterud und seinem Kollegen

10 Vgl hierzu httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 12062012)11 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-tuk-tur (letzter Zugriff 12062012)12 Ethnologue-Eintrag fuumlr tuk httpswwwethnologuecomshow_languageaspcode=tuk (letzter Zugriff 12062012)13 Ethnologue-Eintrag fuumlr tur httpswwwethnologuecomshow_languageaspcode=tur (letzter Zugriff 12062012)14 Gemaumlss Francis M Tyers und Jonathan North Washington im IRC15 Apertium-Wiki httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 11062012)

16

Kevin Brubeck Unhammer Mitte Juni 2012 an der FreeRBMT 2012 erst-mals oumlffentlich vorgetragen wird 16

Die Nordsamische Sprache 17 (sme) verfuumlgt uumlber geschaumltzte 15rsquo000 bis25rsquo000 Sprecher und wird in Norwegen Schweden und Finnland ge-sprochen Die Sprache wird von den Autoren als stark flektierend undagglutinierend eingeteilt

Die Standardvarietaumlt 18 des Norwegischen in die uumlbersetzt wird ver-fuumlgt gemaumlss Ethnologue 19 uumlber rund 45 Millionen Sprecher und gehoumlrtder indogermanischen Sprachfamilie an Die Sprache wird von Troste-rud und Unhammer [4] als morphologisch wenig komplex angegeben

Dieses Sprachpaar gehoumlrt zu den wenigen wo eine indoeuropaumlische(oder -germanische) Sprache unter Einsatz von HFST mit Apertiumuumlbersetzt wird

Bei den meisten anderen Sprachpaaren wo HFST genutzt wird han-delt es sich beidseitig um Sprachen mit komplexer Morphologie

Bezuumlglich des Sprachpaars unserer Betrachtung fokussieren die Auto-ren auf die Uumlbersetzungsrichtung ins Norwegische weil der Anspruchbloss ist dass Nur-Norwegischsprechende Texte aus dem Nordsami-schen verstehen koumlnnen sollen Umgekehrt wuumlrden die meisten Spre-cher des Nordsamischen bereits Norwegisch verstehen womit der Nut-zen der umgekehrten Uumlbersetzungsrichtung als (zum aktuellen Zeit-punkt) gering eingeschaumltzt wird

Als Motivation fuumlr den Einsatz von HFST gegenuumlber lttoolbox wirdbeispielhaft der Stufenwechsel der Konsonanten des Nordsamischen inQuantitaumlt als auch Qualitaumlt angefuumlhrt 20 Generalisiert betrachtet befuumlr-worten die Autoren die Verwendung von HFST wenn Morphologienzu verarbeiten sind die nicht rein konkatenativ sind - wie ich in Kapitel31 zum Zweck von HFST bereits ausgefuumlhrt habe

Grundsaumltzlich wird gemaumlss Entwickler Unhammer 21 (schematisch) diefolgende UNIX-Pipeline fuumlr sme-nob angewandt

$ echo words|hfst-proc sme-analyserhfst|| 1lt-proc sme-to-nob-dixbin|| 2lt-proc nob-generator-dixbin 3

Im Falle von sme-nob wird HFST alleine fuumlr die Analyse (1) von smegenutzt dann wird wieder generell auf lttoolbox gesetzt in wichtigsterHinsicht im Rahmen des lexikalischen Transfers (2) und der Generierung

16 Information gemaumlss einem Gespraumlch mit Kevin Brubeck Unhammer im IRC Kon-ferenzseite mit Programm httpwwwmolto-projecteufreerbmt-programhtml(letzter Zugriff 14062012)17 Engl ldquoNorth Saacutemirdquo18 Als Buchsprache ldquoBokmaringlrdquo19 Ethnologue-Eintrag zu den Sprachen Norwegens httpswwwethnologuecomshow_countryaspname=no (letzter Zugriff 11062012)20 Vgl hierzu Wikipedia httpsdewikipediaorgwikiStufenwechsel (letzterZugriff 14062012)21 Chatgespraumlch im IRC

17

(3) der Zielsprache nob

Der morphologische sme-Analyzer ist dabei in den Formalismen LEXCund TWOLC geschrieben und fusst auf bereits verfuumlgbare Ressourcen22 zuruumlck was aufzeigt dass HFST im Einsatz fuumlr Apertium auch des-halb interessant ist weil viele Morphologien bereits existieren die inFormalismen geschrieben sind die HFST verarbeiten kann Fuumlr dasAnlegen vieler Sprachpaare ist es nicht notwendig alles from scratch zubeginnen

Auch beim nob-Generator konnte auf (eigene fruumlhere) Ressourcen zu-ruumlckgegriffen werden wie diese im Sprachpaar nn-nb 23 verfuumlgbar sindbei dem Sprachpaar wird zwischen zwei norwegischen Sprachverietauml-ten uumlbersetzt Wichtig ist noch einmal zu betonen dass der nob-Teil (zurGeneration der Norwegischen Wortformen) auf lttoolbox setzt und mitHFST nichts zu schaffen hat

Interessant ist der Einsatz der von Trosterud und Unhammer von Grundauf selber geschriebene Constraint Grammar (CG) 24 zur Wortartendisam-biguierung in dem die Auswahl der Woumlrter (fuumlr die Zielsprache) anhandvon (lokalen) grammatikalischen Kontexten (in der Quellsprache) ge-schieht Das ist auch der Grund weshalb ich eingangs in Kapitel 12VISL CG-3 als obligat zu installierendes Paket anfuumlhre Ohne dieseSoftware ist es nicht moumlglich das Sprachpaar sme-nob zu kompilieren25

Zwischen der morphologischen Analyse (von sme) und der morphologischenGenerierung von nob findet der strukturelle Transfer statt der 4-phasig istdie Autoren Trosterud und Unhammer machen hierbei folgende Anga-ben

1 63 Chunk-Regeln (t1x-Datei)

2 26 Interchunk1-Regeln (t2x-Datei)

3 39 Interchunk2-Regeln (t3x-Datei)

4 29 Postchunk-Regeln (t4x-Datei)

Es reicht also nicht bloss aus Wortformen oder Morpheme zu ersetzensondern es sind komplexe Verschiebungen der markierten Lemmata

22 SVN-Repository des Giellatekno-Projekts httpsvictoriouitnolangtechtrunkgtsme (letzter Zugriff 14062012)23 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-nn-nb (letzter Zugriff 14062012)24 Vgl fuumlr einen kurzen Uumlberblick eine CLab-Seite httpkittcluzhchclabconstraintGrammarilap_visl (letzter Zugriff 14062012)25 Zu erwaumlhnen ist in dem Zusammenhang dass bei den meisten SprachpaarenHidden-Markov-Modelle zum Einsatz kommen um die Wortarten zu bestimmen da-fuumlr wird Sprachmaterial trainiert Im Falle von sme-nob deuten die Autoren allerdingsdarauf hin dass mangels repraumlsentativen Sprachmaterials diese Option keine ist diebefriedigen kann Sie stellen allerdings in Aussicht dass eine Kombination von lin-guistischen CG- und statistischen HMM-Ansaumltzen ein Versuch wert waumlre Dabei wuumlrdezuerst mittels CG ein Kontext eingegrenzt und danach statistisch verfahren

18

notwendig um in das Norwegische zu uumlbersetzen obschon beide Spra-chen der Subjekt-Verb-Objekt-Satzstellung sind

Die Evaluationsergebnisse der Autoren deuten darauf hin dass dasSprachpaar sme-nob funktionalen Charakter hat Post-Editing-Qualitaumltist nicht das Ziel und wird auch nicht erreicht allerdings koumlnnen Nor-wegischsprechende die kein Nordsamisch verstehen in vielen Faumlllenausmachen was die Bedeutung eines Satzes ist - insbesondere dannwenn er kontextualisiert vorliegt

Im Folgenden soll eine praktische Nutzung des Sprachpaars sme-nobin Apertium illustriert werden Als Beispiel diene der einleitende Be-gruumlssungssatz zur Nordsamischen Wikipedia 26 ausgewaumlhlt

$ echo rsquoBures boahtin Wikipediai friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen til Wikipedia til den frie informasjonsordboken

Die resultierende nob-Uumlbersetzung lautet gemaumlss Google Translate 27

auf Deutsch

Willkommen bei Wikipedia dem freien Woumlrterbuch Infor-mationen

Die Uumlbersetzung ist verstaumlndlich abgesehen von der Semantik des Aus-drucks ldquoWoumlrterbuch Informationenrdquo Hier sollte meiner Ansicht nachldquoEnzyklopaumldierdquo stehen Es ist wahrscheinlich dass bereits die Quellenicht den optimalen Begriff fuumlhrt und da das eigentliche Problem liegt

Interessanter ist was passiert wenn wir das ominoumlse i-Suffix bei ldquoWi-kipediairdquo im Nordsamischen entfernen

$ echo rsquoBures boahtin Wikipedia friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen Wikipedia til den frie informasjonsordboken

Wir koumlnnen feststellen dass der Satz einen anderen personalen Bezugherstellt denn gemaumlss Google Translate 28 bedeutet die zweite nob-Uumlbersetzung auf Deutsch

Willkommen Wikipedia dem freien Woumlrterbuch Informa-tionen

Wir werden nun also als ldquoWikipediardquo angesprochen

26 Webseite httpssewikipediaorgwikiVC3A1ldosiidu (letzter Zugriff14062012)27 Vgl hierzu httptranslategooglecomno|de|Velkommen20til20Wikipedia2C20til20den20frie20informasjonsordboken (letzter Zugriff14062012)28 Vgl hierzu httptranslategooglecomno|de|0AVelkommen20Wikipedia2C20til20den20frie20informasjonsordbokenmskip-thinmuskip (letzter Zugriff 14062012)

19

Eine morphologische Analyse der beiden Wortformen ldquoWikipediardquo undldquoWikipediairdquo erhaumlrtet die Vermutungen dass es sich beim i-Suffix umeinen Illativ 29 handelt einem Lokalkasus der dazu genutzt werdenkann eine ldquoHineinbewegungrdquo auszudruumlcken respektive in diesem Falldie entsprechende Praumlposition ldquoaufrdquo in das Substantiv der Named En-tity ldquoWikipediardquo einzugliedern

$ echo Wikipedia | apertium -d sme-nob-morph1^WikipediaWikipedialtNgtltPropgtltOrggtltSggtltAccgtWikipedialtNgtltPropgtltOrggtltSggtltGengtWikipedialtNgtltPropgtltOrggtltSggtltNomgt$^ltCLBgt$

2$ echo Wikipediai | apertium -d sme-nob-morph^WikipediaiWikipedialtNgtltPropgtltOrggtltSggtltIllgt$^ltCLBgt$

Bei Analyse 1 wird ldquoWikipediardquo als ein Substantiv eine Named Entityund (semantisch) als Organisation im Singular markiert Uneinigkeitherrscht fuumlr den Tagger auf dieser Transferstufe noch uumlber den KasusEs ist nicht klar ob ldquoWikipediardquo im Nominativ Akkusativ oder Genitivsteht Das Symbol ltCLBgt steht fuumlr ldquoClause Boundaryrdquo und spielt insbe-sondere fuumlr den Chunker (im Zuge des spaumlteren Transfers) eine Rolle zB zur (groben) Abgrenzung von Nominal- und Verbalphrasen

Analyse 2 faumlllt knapper aus da der Kasusfall keine Rolle mehr spielt -an dessen Stelle tritt nun der Illativ (Symbol ltIllgt) Der Rest bleibt sichgleich

Da aber die Illativ-Markierung in diesem spezifischen Fall auf dernob-Seite zur Oberflaumlchengenerierung des norwegischen Wortes ldquotilrdquo30 fuumlhrt aumlndert sich die Semantik des Satzes merklich

Der Transferprozess bei Apertium kann generell beliebig fein beobach-tet werden fuumlr unser spezifisches Sprachpaar sme-nob sei fuumlr weitereVersuche auf das Apertium-Wiki 31 verwiesen das extensiv Informa-tionen daruumlber fuumlhrt

Es existieren weitere interessante Sprachpaare bei der nur eine Sei-te jeweils stark agglutierend ist und auf entsprechende Formalismen(LEXC- und TWOLC-Formalismen) zuruumlckgegriffen wird So etwa die

29 Vgl Wikipedia httpsdewikipediaorgwikiIllativ (letzter Zugriff14062012)30 Dt ldquoaufrdquo31 httpwikiapertiumorgwikiNorthern_SC3A1mi_and_Norwegian (letzterZugriff 14062012)

20

Sprachpaare quz-spa (Quecha-Castellano) 32 udm-rus (Udmuritische Sprache-Russisch) 33 und kaz-eng (Kasachisch-Englisch) 34 Noch ist der Entwick-lungsstand all dieser Uumlbersetzungsrichtungen aber gering und fuumlr einenproduktiven Einsatz oder eine Evaluation demnach ungeeignet 35

32 Apertium-Wikiseite httpwikiapertiumorgwikiQuechua_cuzqueC3B1o_y_castellano (letzter Zugriff 14062012)33 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-udm-rus (letzter Zugriff 14062012)34 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumincubatorapertium-eng-kaz (letzter Zugriff 14062012)35 Alle drei Sprachpaare sind in den SVN-Ordnern incubator oder nursery un-tergebracht

21

4 Schluss

41 Zusammenfassung und AusblickIn abschliessender Betrachtung ist festzuhalten Die Nutzung von HFSTverleiht Apertium die Faumlhigkeit zu und von Sprachen mit (stark) Nicht-Konkatenativer Morphologie zu uumlbersetzen Dafuumlr muumlssen die Aperti-um-eigenen lttoolbox-Werkzeuge umgangen werden die ansonstenzur morphologischen Analyse und morphologischen Generierung von Wort-formen verwendet werden Der Einsatz von HFST liefert aber keinenMehrwert an anderen Stellen in der Transfer-Pipeline Der lexikalischeTransfer oder strukturelle Anpassungen um der Syntax der Zielsprachenaumlher zu kommen sind Schritte fuumlr die sich die lttoolbox-Werkzeugeweiterhin bewaumlhren

Diskutiert wird eine staumlrkere Integration von HFST in Apertium damitHFST nicht laumlnger der Charakter eines ldquoFremdkoumlrpersrdquo in der Aper-tium-Plattform anhaftet Es existiert die Idee ein Projekt in diese Rich-tung anzustossen um es z B moumlglich zu machen lexc-Dateien anstattmit den HFST-Binaries mit den lttoolbox-Kommandos zu prozessierenDieses Projekt koumlnnte von einem interessierten Studierenden etwa imRahmen des naumlchsten Google Summer of Code (2013) initiiert werden 1

Ein weitere Herausforderung die in der Natur von Apertium als Shallow-Transfer-System begruumlndet liegt 2 hat mit den Bilexika zu tun Apertiummuss fuumlr jedes Sprachpaar ein Bilexikon fuumlhren um den lexikalischenTransfer mittels den lttoolbox-Werkzeugen zu vollziehen Da fuumlr jedeneue Sprachkombination das Bilexikon neu aufgebaut werden mussbesteht hier ein gewisser (manueller) Aufwand bei jedem neuen Sprach-paar das angesetzt wird dieser kann zwar durch Einsatz von Werkzeu-ge aus den apertium-dixtools minimiert werden die Vollautomation

1 Idee zum Projekt httpwikiapertiumorgwikiIdeas_for_Google_Summer_of_CodeCloser_integration_with_HFST (letzter Zugriff 14062012)2 Apertium verwendet keinen sog Interlingua-Ansatz um eine sprachunabhaumlngigeRepraumlsentation von Wortbedeutungen zu fuumlhren

22

funktioniert aber noch nicht 3 4

Weiterhin bleibt Apertium im Grundsatz ein Shallow-Transfer-Systemdas keinen vollstaumlndigen Parse der Quellsprache vornimmt und sietiefen-analysiert Dadurch ist es auch in Zukunft nicht breit moumlglichSemantik uumlber weite Distanzen zu transferieren

Bezuumlglich weiterer Moumlglichkeiten fuumlr Apertium morphologisch zu ana-lysieren generieren kann das Augenmerk auch auf neuere Formalis-men als jene von Xerox 5 gelegt werden So existiert hunmorph 6 dases erlaubt in OCaml 7 - in einem objekt-orientierten Paradigma - Mor-phologien zu beschreiben und dazu eine (relativ) einfache Syntax auf-zuweisen scheint Beispiele explorativer Versuche mit hunmorph fuumlrApertium sind im Wiki des Projekts bereits heute dokumentiert 8 Aus-serdem ist hunmoph morphologisch-analytische Basis des bekanntenSpellcheckers HunSpell das der standardmaumlssige Spellchecker in Libre-Office OpenOfficeorg und einigen Softwareprodukten der MozillaFoundation ist 9

Selber hat es mir Freude bereitet mich in dieses komplexe Gebiet hin-ein zu begeben und ich bin fuumlr die Zukunft interessiert daran michan Apertium nach Kraumlften zu beteiligen da ich die dahinterstehendeCommunity als eine kennen gelernt habe die aufgeschlossen humor-voll und im houmlchsten Masse kompetent ist

42 DanksagungenIch moumlchte mich an dieser Stelle herzlichst im Besonderen bei folgen-den Personen des Apertium-Projekts bedanken dass sie sich Zeit ge-nommen haben sich mit mir im IRC ausgiebig zu unterhalten und denDschungel in und um Apertium zu durchleuchten Mikel L ForcadaFrancis M Tyers Kevin Brubeck Unhammer und Jonathan North Wa-shington

Ohne sie waumlre diese Arbeit in der Form nicht entstanden und vielesQuellmaterial das ich hier verwende schwierg auffindbar gewesen

3 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-dixtools (letzter Zugriff 14062012)4 Vgl hierzu httpwikiapertiumorgwikiCrossdics (letzter Zugriff14062012)5 Namentlich XFST TWOLC und LEXC6 Webseite httpmokkbmehuresourceshunmorph (letzter Zugriff 14062012)7 Webseite httpcamlinriafr (letzter Zugriff 14062012)8 Apertium-Wiki httpwikiapertiumorgwikiHunmorph (letzter Zugriff14062012)9 Webseite httphunspellsourceforgenet (letzter Zugriff 14062012)

23

Literaturverzeichnis

[1] S Clematide Morphologie und Lexikographie Vorlesungs-skript Institut fuumlr Computerlinguistik Universitaumlt Zuumlrich 2007URL httpfilesifiuzhchclsiclematlehress07mulscriptscriptpdf

[2] ML Forcada BI Bonev S Ortiz-Rojas JA Peacuterez-OrtizG Ramiacuterez-Saacutenchez F Saacutenchez-Martiacutenez C Armentano-OllerMA Montava FM Tyers und U dA Departament de Llenguatges iSistemes Informagravetics Documentation of the open-source shallow-transfer machine translation platform apertium 2010 URL httpxixonadlsiuaes~franapertium2-documentationpdf

[3] ML Forcada FM Tyers und G Ramiacuterez-Saacutenchez The Apertiummachine translation platform five years on In Proceedings of the FirstInternational Workshop on FreeOpen-Source Rule-Based Machine Trans-lation 3ndash10 2009 URL httpxixonadlsiuaesfreerbmt09presentationsforcada_freerbmt09_5yrsonpdf

[4] T Trosterud und KB Unhammer Evaluating North Saacutemi to Nor-wegian assimilation RBMT In Proceedings of the Third InternationalWorkshop on FreeOpen-Source Rule-Based Machine Translation 2012URL httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-sme-nobpaperpathrev=38833 (noch kein of-fizielles Paper (im PDF) verfuumlgbar)

24

Abbildungsverzeichnis

21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen 10

25

Anhang

IRC-Konversation zu HFSTTypisches Beispiel einer Konversation 10 mit Jonathan North Washing-ton (ldquofirespeakerrdquo) und Mikel L Forcada (ldquomlforcadardquo) welche we-sentliche Beitraumlge zu Apertium leisten gefuumlhrt im IRC 11

1921 lt h2mgt At which stage of the pipeline is HFST employed1921 lt h2mgt I couldnrsquot get that1921 lt mlforcadagt h2m generation of Kazakh[]1922 lt h2mgt Is this process described somewhere in detailsuch that I can read that up1922 lt mlforcadagt is something that looks like lttoolbox butmore powerful1922 lt mlforcadagt h2m firespeaker can help probably1922 lt h2mgt I can only see lexc and twol files wo reallygetting the point[]1922 lt firespeakergt h2m HFST takes a string of text and turnsit into lemmas + tags1922 lt firespeakergt h2m or1922 lt firespeakergt h2m it takes lemmas + tags and turns itinto a string of text[]1923 lt firespeakergt h2m lexc is the morphotactics1923 lt mlforcadagt firespeaker yoursquore right1923 lt h2mgt Ah OK1923 lt firespeakergt h2m twol is the morphophonology

10 Selber bin ich als ldquoh2mrdquo unterwegs11 ircircfreenodenetapertium

26

  • Einfuumlhrung
    • Motivation und Thema
    • Verwendete Umgebung und Konfiguration
      • Grundlagen Zu Apertium und HFST
        • Wesen und Entwicklungsstand von Apertium
        • Wesen und Entwicklungsstand von HFST
          • Hauptteil Die Integration von HFST in Apertium
            • Theorie Zweck und Nutzen der Integration
            • Empirie Die Integration am Beispiel eines Sprachpaars
              • Schluss
                • Zusammenfassung und Ausblick
                • Danksagungen
                  • Literaturverzeichnis
                  • Abbildungsverzeichnis
                  • Anhang
Page 13: Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

Ein praktisches Beispiel der Nutzung der resultierenden Transdukto-ren zur Analyse oder Generierung liefert das Apertium-Wiki auf derSeite uumlber lttoolbox 30

Falls bei einer speziellen Anwendung mit Apertium eine (im Einzelfall)weitergehende prozedurale Verarbeitung der Ausgabe aus den Trans-duktoren notwendig wird dann besteht die Moumlglichkeit HFST aus zB Python heraus zu nutzen 31

30 Vgl Apertium-Wiki httpwikiapertiumorgwikiLttoolbox (letzter Zu-griff 14062012)31 Vgl Beitrag auf der nltk-dev-Mailingliste httpsgroupsgooglecomgroupnltk-devbrowse_threadthreadfdb53482cad56234 (letzter Zugriff 14062012)

13

3 Hauptteil Die Integrationvon HFST in Apertium

31 Theorie Zweck und Nutzen der IntegrationFinite-State-Technologien koumlnnen in der Computerlinguistik dafuumlr ge-nutzt werden um Woumlrterbuumlcher elegant aufzubauen oder die mor-phologische Analyse und Generierung von Woumlrtern systematisch zubetreiben und das insbesondere auch in Faumlllen wo die Morphologie derbetrachteten Sprache nicht relativ einfach durch z B Prauml- oder Suffixe(also konkatenativ durch rsquoAneinanderreihenrsquo von Morphemen) erfasstwerden kann sondern gerade auch in Faumlllen wo auch andere Affixewie Infixe zur Anwendung kommen

Nicht mehr simpel sind Morphologien beispielsweise in Faumlllen wo esfuumlr gegebene Wortstaumlmme 1 Faumllle gibt wo Morpheme fuumlr eine Flexi-on inmitten des Stamms eingepflanzt werden muumlssen oder wo Vokaleinmitten von Staumlmmen wegfallen oder durch andere ersetzt werdenmuumlssen um guumlltige Wortformen analysieren oder generieren zu koumln-nen Morphologien fuumlr Sprachen die komplexe Anpassungen an Staumlm-men oder fortgesetzten Wortklassen in bestimmten (z B grammatikali-schen) Faumlllen erfordern werden auch Nicht-Konkatenative Morphologien(NKM) (vgl Clematide 2007 104ff) genannt oder zumindest waumlre dieKonkatenation nach vorwiegend erkennbaren systematischen Regelnder betrachteten Sprache nicht mehr (sinnvoll) nachvollziehbar wuumlrdeman eine Konkatenative Morphologie erzwingen wollen ebenfalls ist dieGefahr von Redundanz sehr hoch wenn jeder nur denkbare Stamm ineine Morphologie einfliesst

Eine saubere Morphologie mit klaren Regeln und in (moumlglichst) schlan-ker Ausfuumlhrung ist eine Anforderung von der gerade ein MaschinellesUumlbersetzungssystem wie Apertium fundamental profitiert um schnell zu

1 Minimaloberflaumlche von Woumlrtern aus der durch Morpheme die vor- um - oderangehaumlngt werden koumlnnen weitere wichtige (weitere) Wortformen entstehen

14

arbeiten und (linguistisch nachvollziehbar) gepflegt werden zu koumlnnen

Wie bereits in Kapitel 21 angedeutet ist es nicht erst das HFST-Frameworkdas Finite-State-Technologien in Apertium einfuumlhrt Die lexikalischenWerkzeuge lttoolbox mit Anwendungen wie lt-comp 2 oder lt-proc 3

werden dazu genutzt die in XML abgefassten Woumlrterbuumlcher in Trans-duktoren umzuwandeln - fuumlr eine schnellere Verarbeitung Mit denMoumlglichkeiten verglichen die das HFST-Framework liefert sind die lt-toolbox-Werkezuge am ehesten mit dem LEXC-Formalismus vergleich-bar welcher Foma beherrscht und auf die Idee fusst Woumlrterbuumlcher an-hand von Staumlmmen (von z B Verben oder Nomen) anhand von Fort-setzungsklassen (durch das Anhaumlngen von Morphemen) aufzubauenSimon Clematide fuumlhrt auch das in seinem Vorlesungsskript von 2007(93ff) genauer aus Darin ist es moumlglich die Morphotaktik der Sprachezu erfassen Schwieriger umzusetzen mit diesen Apertium-Bordmittelnist die Morphophonemik worunter Lautanpassungen oder die Infigierung 4

fallen Diese (u U seltenen aber fuumlr die Korrektheit notwendigen) An-passungen der Morphotaktik berechtigen den Beizug zusaumltzlicher (wohlbekannter und anerkannter) Formalismen wie XFST 5 oder TWOLC

Die wenigsten natuumlrlichen Sprachen sind (vollstaumlndig) KonkatenativerMorphologie Im Rahmen einer kuumlrzlichen Veranstaltung zu Finite-State-Methoden (bei Simon Clematide) haben Simon Hafner und ich die Moumlg-lichkeit erhalten eine (konzeptionelle) Morphologie 6 fuumlr die Planspra-che ldquoKlingonischrdquo 7 anzulegen Diese laumlsst sich tatsaumlchlich fast vollstaumln-dig mit Fortsetzungsklassen auf Basis der Wortstaumlmme und anzuhaumln-genden Morphemen und damit dem LEXC-Formalismus erfassen istaber auch nur ein akademisches Beispiel einer Sprache wo es nie zu(natuumlrlichen) Lautverschiebungen oder anderen komplexen Phaumlnome-nen kam

Die Dokumentation daruumlber wie HFST in Apertium genau genutztwird ist spaumlrlich Gerade in der Apertium-Dokumentation (aktuellnachgefuumlhrt und veroumlffentlicht bis Version 20) seitens Forcada et al[2] wird nichts uumlber die Nutzung von HFST ausgesagt - auch nicht inden neuesten (versionskontrollierten) Fassungen8 im SVN-Repository

Gluumlcklicherweise waren wichtige Apertium-Entwickler mir eine grosseHilfe dabei die noumltigen Einstiegspunkte zu finden Ein Beispiel einer ty-pischen Hilfeleistung ist im Anhang als ldquoIRC-Konversation zu HFSTrdquo9 zu finden die ich mit freundlicher Unterstuumltzung der involviertenPersonen in dieser Seminararbeit in der Form publizieren darf

2 Zur Kompilation von Woumlrterbuumlchern von einem XML- in ein FST-Format3 Zur Prozessierung der Daten im vorgaumlngig generierten FST-Format und der Aus-gabe in einem menschenlesbaren lexikalischen Tagging-Format4 Einfuumlgen eines Affixes in einen Wortstamm auch Infix genannt5 Von Foma implementiert6 Code und Anwendungsbeispiele bei github im git-Repository httpsgithubcom2mhklingomorph (letzter Zugriff 14062012)7 Ethnologue-Eintrag tlh httpswwwethnologuecomshow_languageaspcode=tlh (letzter Zugriff 14062012)8 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-documentationapertium-20en (letzter Zugriff 12062012)9 Siehe Anhang auf Seite 26

15

Zudem Es sind im Apertium-Wiki Informationen daruumlber vorhandenwie ein neues Sprachpaar fuumlr die Nutzung mit HFST angelegt werdenkann 10 Beim gegebenen Beispiel wird schematisch das Sprachpaar tur-tuk angesetzt (real im SVN-Repository existiert das Sprachpaar tuk-tur11) wobei tuk 12fuumlr Turkmenisch und tur 13 fuumlr Tuumlrkisch steht

Generell wird bei Sprachpaaren die mit HFST analysiert (und gene-riert) werden versucht den lexikalischen Transfer moumlglichst auf Ba-sis der Morpheme vorzunehmen Idealerweise kann der groumlsste Teilim LEXC-Formalismus abgedeckt werden Wo das nicht (im Ansatz)gelingt werden TWOLC-Regeln definiert welche die noumltigen Anpas-sungen an den lexikalischen Markierungen und Oberflaumlchenformen derWoumlrter vornehmen

Gruumlnde weshalb TWOLC- gegenuumlber XFST-Deklarationen bevorzugtwerden sind gemaumlss wichtigen Apertium-Entwicklern 14 (1) das uumlber-sichtlichere Format und (2) die einfachere Handhabung von linguisti-schen Phaumlnomenen wie der Vokalharmonie mit dem TWOLC-Formalismus

Ein weiterer wichtiger Grund welcher die mangelnde Verbreitung desXFST-Formalismus bei Apertium erklaumlrt ist vermutlich auch dass Fo-ma erst seit Version 30 von HFST (veroumlffentlicht in 2011) vollstaumlndigunterstuumltzt wird

32 Empirie Die Integration am Beispiel eines SprachpaarsDaruumlber wie ein neues Sprachpaar unter Nutzung von HFST zu Aper-tium hinzugefuumlgt werden kann gibt ein Wiki-Artikel 15 Auskunft ImSinne eines Tutorials wird dabei Schritt fuumlr Schritt im Ansatz gezeigtwie die Implementation einer RBMT von der Turkmenischen Spracheins Tuumlrkische (Sprachpaar tk-tr) umgesetzt werden kann Bei beidenverwandten Sprachen handelt es sich um stark agglutinierende Spra-chen

Das (wissenschaftlich) am besten dokumentierte Beispiel der Nutzungvon HFST im Zusammenhang mit Apertium wird im noch nicht pu-blizierten Paper ldquoEvaluating North Saacutemi to Norwegian assimilationRBMTrdquo [4] beschrieben das von Trond Trosterud und seinem Kollegen

10 Vgl hierzu httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 12062012)11 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-tuk-tur (letzter Zugriff 12062012)12 Ethnologue-Eintrag fuumlr tuk httpswwwethnologuecomshow_languageaspcode=tuk (letzter Zugriff 12062012)13 Ethnologue-Eintrag fuumlr tur httpswwwethnologuecomshow_languageaspcode=tur (letzter Zugriff 12062012)14 Gemaumlss Francis M Tyers und Jonathan North Washington im IRC15 Apertium-Wiki httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 11062012)

16

Kevin Brubeck Unhammer Mitte Juni 2012 an der FreeRBMT 2012 erst-mals oumlffentlich vorgetragen wird 16

Die Nordsamische Sprache 17 (sme) verfuumlgt uumlber geschaumltzte 15rsquo000 bis25rsquo000 Sprecher und wird in Norwegen Schweden und Finnland ge-sprochen Die Sprache wird von den Autoren als stark flektierend undagglutinierend eingeteilt

Die Standardvarietaumlt 18 des Norwegischen in die uumlbersetzt wird ver-fuumlgt gemaumlss Ethnologue 19 uumlber rund 45 Millionen Sprecher und gehoumlrtder indogermanischen Sprachfamilie an Die Sprache wird von Troste-rud und Unhammer [4] als morphologisch wenig komplex angegeben

Dieses Sprachpaar gehoumlrt zu den wenigen wo eine indoeuropaumlische(oder -germanische) Sprache unter Einsatz von HFST mit Apertiumuumlbersetzt wird

Bei den meisten anderen Sprachpaaren wo HFST genutzt wird han-delt es sich beidseitig um Sprachen mit komplexer Morphologie

Bezuumlglich des Sprachpaars unserer Betrachtung fokussieren die Auto-ren auf die Uumlbersetzungsrichtung ins Norwegische weil der Anspruchbloss ist dass Nur-Norwegischsprechende Texte aus dem Nordsami-schen verstehen koumlnnen sollen Umgekehrt wuumlrden die meisten Spre-cher des Nordsamischen bereits Norwegisch verstehen womit der Nut-zen der umgekehrten Uumlbersetzungsrichtung als (zum aktuellen Zeit-punkt) gering eingeschaumltzt wird

Als Motivation fuumlr den Einsatz von HFST gegenuumlber lttoolbox wirdbeispielhaft der Stufenwechsel der Konsonanten des Nordsamischen inQuantitaumlt als auch Qualitaumlt angefuumlhrt 20 Generalisiert betrachtet befuumlr-worten die Autoren die Verwendung von HFST wenn Morphologienzu verarbeiten sind die nicht rein konkatenativ sind - wie ich in Kapitel31 zum Zweck von HFST bereits ausgefuumlhrt habe

Grundsaumltzlich wird gemaumlss Entwickler Unhammer 21 (schematisch) diefolgende UNIX-Pipeline fuumlr sme-nob angewandt

$ echo words|hfst-proc sme-analyserhfst|| 1lt-proc sme-to-nob-dixbin|| 2lt-proc nob-generator-dixbin 3

Im Falle von sme-nob wird HFST alleine fuumlr die Analyse (1) von smegenutzt dann wird wieder generell auf lttoolbox gesetzt in wichtigsterHinsicht im Rahmen des lexikalischen Transfers (2) und der Generierung

16 Information gemaumlss einem Gespraumlch mit Kevin Brubeck Unhammer im IRC Kon-ferenzseite mit Programm httpwwwmolto-projecteufreerbmt-programhtml(letzter Zugriff 14062012)17 Engl ldquoNorth Saacutemirdquo18 Als Buchsprache ldquoBokmaringlrdquo19 Ethnologue-Eintrag zu den Sprachen Norwegens httpswwwethnologuecomshow_countryaspname=no (letzter Zugriff 11062012)20 Vgl hierzu Wikipedia httpsdewikipediaorgwikiStufenwechsel (letzterZugriff 14062012)21 Chatgespraumlch im IRC

17

(3) der Zielsprache nob

Der morphologische sme-Analyzer ist dabei in den Formalismen LEXCund TWOLC geschrieben und fusst auf bereits verfuumlgbare Ressourcen22 zuruumlck was aufzeigt dass HFST im Einsatz fuumlr Apertium auch des-halb interessant ist weil viele Morphologien bereits existieren die inFormalismen geschrieben sind die HFST verarbeiten kann Fuumlr dasAnlegen vieler Sprachpaare ist es nicht notwendig alles from scratch zubeginnen

Auch beim nob-Generator konnte auf (eigene fruumlhere) Ressourcen zu-ruumlckgegriffen werden wie diese im Sprachpaar nn-nb 23 verfuumlgbar sindbei dem Sprachpaar wird zwischen zwei norwegischen Sprachverietauml-ten uumlbersetzt Wichtig ist noch einmal zu betonen dass der nob-Teil (zurGeneration der Norwegischen Wortformen) auf lttoolbox setzt und mitHFST nichts zu schaffen hat

Interessant ist der Einsatz der von Trosterud und Unhammer von Grundauf selber geschriebene Constraint Grammar (CG) 24 zur Wortartendisam-biguierung in dem die Auswahl der Woumlrter (fuumlr die Zielsprache) anhandvon (lokalen) grammatikalischen Kontexten (in der Quellsprache) ge-schieht Das ist auch der Grund weshalb ich eingangs in Kapitel 12VISL CG-3 als obligat zu installierendes Paket anfuumlhre Ohne dieseSoftware ist es nicht moumlglich das Sprachpaar sme-nob zu kompilieren25

Zwischen der morphologischen Analyse (von sme) und der morphologischenGenerierung von nob findet der strukturelle Transfer statt der 4-phasig istdie Autoren Trosterud und Unhammer machen hierbei folgende Anga-ben

1 63 Chunk-Regeln (t1x-Datei)

2 26 Interchunk1-Regeln (t2x-Datei)

3 39 Interchunk2-Regeln (t3x-Datei)

4 29 Postchunk-Regeln (t4x-Datei)

Es reicht also nicht bloss aus Wortformen oder Morpheme zu ersetzensondern es sind komplexe Verschiebungen der markierten Lemmata

22 SVN-Repository des Giellatekno-Projekts httpsvictoriouitnolangtechtrunkgtsme (letzter Zugriff 14062012)23 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-nn-nb (letzter Zugriff 14062012)24 Vgl fuumlr einen kurzen Uumlberblick eine CLab-Seite httpkittcluzhchclabconstraintGrammarilap_visl (letzter Zugriff 14062012)25 Zu erwaumlhnen ist in dem Zusammenhang dass bei den meisten SprachpaarenHidden-Markov-Modelle zum Einsatz kommen um die Wortarten zu bestimmen da-fuumlr wird Sprachmaterial trainiert Im Falle von sme-nob deuten die Autoren allerdingsdarauf hin dass mangels repraumlsentativen Sprachmaterials diese Option keine ist diebefriedigen kann Sie stellen allerdings in Aussicht dass eine Kombination von lin-guistischen CG- und statistischen HMM-Ansaumltzen ein Versuch wert waumlre Dabei wuumlrdezuerst mittels CG ein Kontext eingegrenzt und danach statistisch verfahren

18

notwendig um in das Norwegische zu uumlbersetzen obschon beide Spra-chen der Subjekt-Verb-Objekt-Satzstellung sind

Die Evaluationsergebnisse der Autoren deuten darauf hin dass dasSprachpaar sme-nob funktionalen Charakter hat Post-Editing-Qualitaumltist nicht das Ziel und wird auch nicht erreicht allerdings koumlnnen Nor-wegischsprechende die kein Nordsamisch verstehen in vielen Faumlllenausmachen was die Bedeutung eines Satzes ist - insbesondere dannwenn er kontextualisiert vorliegt

Im Folgenden soll eine praktische Nutzung des Sprachpaars sme-nobin Apertium illustriert werden Als Beispiel diene der einleitende Be-gruumlssungssatz zur Nordsamischen Wikipedia 26 ausgewaumlhlt

$ echo rsquoBures boahtin Wikipediai friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen til Wikipedia til den frie informasjonsordboken

Die resultierende nob-Uumlbersetzung lautet gemaumlss Google Translate 27

auf Deutsch

Willkommen bei Wikipedia dem freien Woumlrterbuch Infor-mationen

Die Uumlbersetzung ist verstaumlndlich abgesehen von der Semantik des Aus-drucks ldquoWoumlrterbuch Informationenrdquo Hier sollte meiner Ansicht nachldquoEnzyklopaumldierdquo stehen Es ist wahrscheinlich dass bereits die Quellenicht den optimalen Begriff fuumlhrt und da das eigentliche Problem liegt

Interessanter ist was passiert wenn wir das ominoumlse i-Suffix bei ldquoWi-kipediairdquo im Nordsamischen entfernen

$ echo rsquoBures boahtin Wikipedia friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen Wikipedia til den frie informasjonsordboken

Wir koumlnnen feststellen dass der Satz einen anderen personalen Bezugherstellt denn gemaumlss Google Translate 28 bedeutet die zweite nob-Uumlbersetzung auf Deutsch

Willkommen Wikipedia dem freien Woumlrterbuch Informa-tionen

Wir werden nun also als ldquoWikipediardquo angesprochen

26 Webseite httpssewikipediaorgwikiVC3A1ldosiidu (letzter Zugriff14062012)27 Vgl hierzu httptranslategooglecomno|de|Velkommen20til20Wikipedia2C20til20den20frie20informasjonsordboken (letzter Zugriff14062012)28 Vgl hierzu httptranslategooglecomno|de|0AVelkommen20Wikipedia2C20til20den20frie20informasjonsordbokenmskip-thinmuskip (letzter Zugriff 14062012)

19

Eine morphologische Analyse der beiden Wortformen ldquoWikipediardquo undldquoWikipediairdquo erhaumlrtet die Vermutungen dass es sich beim i-Suffix umeinen Illativ 29 handelt einem Lokalkasus der dazu genutzt werdenkann eine ldquoHineinbewegungrdquo auszudruumlcken respektive in diesem Falldie entsprechende Praumlposition ldquoaufrdquo in das Substantiv der Named En-tity ldquoWikipediardquo einzugliedern

$ echo Wikipedia | apertium -d sme-nob-morph1^WikipediaWikipedialtNgtltPropgtltOrggtltSggtltAccgtWikipedialtNgtltPropgtltOrggtltSggtltGengtWikipedialtNgtltPropgtltOrggtltSggtltNomgt$^ltCLBgt$

2$ echo Wikipediai | apertium -d sme-nob-morph^WikipediaiWikipedialtNgtltPropgtltOrggtltSggtltIllgt$^ltCLBgt$

Bei Analyse 1 wird ldquoWikipediardquo als ein Substantiv eine Named Entityund (semantisch) als Organisation im Singular markiert Uneinigkeitherrscht fuumlr den Tagger auf dieser Transferstufe noch uumlber den KasusEs ist nicht klar ob ldquoWikipediardquo im Nominativ Akkusativ oder Genitivsteht Das Symbol ltCLBgt steht fuumlr ldquoClause Boundaryrdquo und spielt insbe-sondere fuumlr den Chunker (im Zuge des spaumlteren Transfers) eine Rolle zB zur (groben) Abgrenzung von Nominal- und Verbalphrasen

Analyse 2 faumlllt knapper aus da der Kasusfall keine Rolle mehr spielt -an dessen Stelle tritt nun der Illativ (Symbol ltIllgt) Der Rest bleibt sichgleich

Da aber die Illativ-Markierung in diesem spezifischen Fall auf dernob-Seite zur Oberflaumlchengenerierung des norwegischen Wortes ldquotilrdquo30 fuumlhrt aumlndert sich die Semantik des Satzes merklich

Der Transferprozess bei Apertium kann generell beliebig fein beobach-tet werden fuumlr unser spezifisches Sprachpaar sme-nob sei fuumlr weitereVersuche auf das Apertium-Wiki 31 verwiesen das extensiv Informa-tionen daruumlber fuumlhrt

Es existieren weitere interessante Sprachpaare bei der nur eine Sei-te jeweils stark agglutierend ist und auf entsprechende Formalismen(LEXC- und TWOLC-Formalismen) zuruumlckgegriffen wird So etwa die

29 Vgl Wikipedia httpsdewikipediaorgwikiIllativ (letzter Zugriff14062012)30 Dt ldquoaufrdquo31 httpwikiapertiumorgwikiNorthern_SC3A1mi_and_Norwegian (letzterZugriff 14062012)

20

Sprachpaare quz-spa (Quecha-Castellano) 32 udm-rus (Udmuritische Sprache-Russisch) 33 und kaz-eng (Kasachisch-Englisch) 34 Noch ist der Entwick-lungsstand all dieser Uumlbersetzungsrichtungen aber gering und fuumlr einenproduktiven Einsatz oder eine Evaluation demnach ungeeignet 35

32 Apertium-Wikiseite httpwikiapertiumorgwikiQuechua_cuzqueC3B1o_y_castellano (letzter Zugriff 14062012)33 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-udm-rus (letzter Zugriff 14062012)34 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumincubatorapertium-eng-kaz (letzter Zugriff 14062012)35 Alle drei Sprachpaare sind in den SVN-Ordnern incubator oder nursery un-tergebracht

21

4 Schluss

41 Zusammenfassung und AusblickIn abschliessender Betrachtung ist festzuhalten Die Nutzung von HFSTverleiht Apertium die Faumlhigkeit zu und von Sprachen mit (stark) Nicht-Konkatenativer Morphologie zu uumlbersetzen Dafuumlr muumlssen die Aperti-um-eigenen lttoolbox-Werkzeuge umgangen werden die ansonstenzur morphologischen Analyse und morphologischen Generierung von Wort-formen verwendet werden Der Einsatz von HFST liefert aber keinenMehrwert an anderen Stellen in der Transfer-Pipeline Der lexikalischeTransfer oder strukturelle Anpassungen um der Syntax der Zielsprachenaumlher zu kommen sind Schritte fuumlr die sich die lttoolbox-Werkzeugeweiterhin bewaumlhren

Diskutiert wird eine staumlrkere Integration von HFST in Apertium damitHFST nicht laumlnger der Charakter eines ldquoFremdkoumlrpersrdquo in der Aper-tium-Plattform anhaftet Es existiert die Idee ein Projekt in diese Rich-tung anzustossen um es z B moumlglich zu machen lexc-Dateien anstattmit den HFST-Binaries mit den lttoolbox-Kommandos zu prozessierenDieses Projekt koumlnnte von einem interessierten Studierenden etwa imRahmen des naumlchsten Google Summer of Code (2013) initiiert werden 1

Ein weitere Herausforderung die in der Natur von Apertium als Shallow-Transfer-System begruumlndet liegt 2 hat mit den Bilexika zu tun Apertiummuss fuumlr jedes Sprachpaar ein Bilexikon fuumlhren um den lexikalischenTransfer mittels den lttoolbox-Werkzeugen zu vollziehen Da fuumlr jedeneue Sprachkombination das Bilexikon neu aufgebaut werden mussbesteht hier ein gewisser (manueller) Aufwand bei jedem neuen Sprach-paar das angesetzt wird dieser kann zwar durch Einsatz von Werkzeu-ge aus den apertium-dixtools minimiert werden die Vollautomation

1 Idee zum Projekt httpwikiapertiumorgwikiIdeas_for_Google_Summer_of_CodeCloser_integration_with_HFST (letzter Zugriff 14062012)2 Apertium verwendet keinen sog Interlingua-Ansatz um eine sprachunabhaumlngigeRepraumlsentation von Wortbedeutungen zu fuumlhren

22

funktioniert aber noch nicht 3 4

Weiterhin bleibt Apertium im Grundsatz ein Shallow-Transfer-Systemdas keinen vollstaumlndigen Parse der Quellsprache vornimmt und sietiefen-analysiert Dadurch ist es auch in Zukunft nicht breit moumlglichSemantik uumlber weite Distanzen zu transferieren

Bezuumlglich weiterer Moumlglichkeiten fuumlr Apertium morphologisch zu ana-lysieren generieren kann das Augenmerk auch auf neuere Formalis-men als jene von Xerox 5 gelegt werden So existiert hunmorph 6 dases erlaubt in OCaml 7 - in einem objekt-orientierten Paradigma - Mor-phologien zu beschreiben und dazu eine (relativ) einfache Syntax auf-zuweisen scheint Beispiele explorativer Versuche mit hunmorph fuumlrApertium sind im Wiki des Projekts bereits heute dokumentiert 8 Aus-serdem ist hunmoph morphologisch-analytische Basis des bekanntenSpellcheckers HunSpell das der standardmaumlssige Spellchecker in Libre-Office OpenOfficeorg und einigen Softwareprodukten der MozillaFoundation ist 9

Selber hat es mir Freude bereitet mich in dieses komplexe Gebiet hin-ein zu begeben und ich bin fuumlr die Zukunft interessiert daran michan Apertium nach Kraumlften zu beteiligen da ich die dahinterstehendeCommunity als eine kennen gelernt habe die aufgeschlossen humor-voll und im houmlchsten Masse kompetent ist

42 DanksagungenIch moumlchte mich an dieser Stelle herzlichst im Besonderen bei folgen-den Personen des Apertium-Projekts bedanken dass sie sich Zeit ge-nommen haben sich mit mir im IRC ausgiebig zu unterhalten und denDschungel in und um Apertium zu durchleuchten Mikel L ForcadaFrancis M Tyers Kevin Brubeck Unhammer und Jonathan North Wa-shington

Ohne sie waumlre diese Arbeit in der Form nicht entstanden und vielesQuellmaterial das ich hier verwende schwierg auffindbar gewesen

3 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-dixtools (letzter Zugriff 14062012)4 Vgl hierzu httpwikiapertiumorgwikiCrossdics (letzter Zugriff14062012)5 Namentlich XFST TWOLC und LEXC6 Webseite httpmokkbmehuresourceshunmorph (letzter Zugriff 14062012)7 Webseite httpcamlinriafr (letzter Zugriff 14062012)8 Apertium-Wiki httpwikiapertiumorgwikiHunmorph (letzter Zugriff14062012)9 Webseite httphunspellsourceforgenet (letzter Zugriff 14062012)

23

Literaturverzeichnis

[1] S Clematide Morphologie und Lexikographie Vorlesungs-skript Institut fuumlr Computerlinguistik Universitaumlt Zuumlrich 2007URL httpfilesifiuzhchclsiclematlehress07mulscriptscriptpdf

[2] ML Forcada BI Bonev S Ortiz-Rojas JA Peacuterez-OrtizG Ramiacuterez-Saacutenchez F Saacutenchez-Martiacutenez C Armentano-OllerMA Montava FM Tyers und U dA Departament de Llenguatges iSistemes Informagravetics Documentation of the open-source shallow-transfer machine translation platform apertium 2010 URL httpxixonadlsiuaes~franapertium2-documentationpdf

[3] ML Forcada FM Tyers und G Ramiacuterez-Saacutenchez The Apertiummachine translation platform five years on In Proceedings of the FirstInternational Workshop on FreeOpen-Source Rule-Based Machine Trans-lation 3ndash10 2009 URL httpxixonadlsiuaesfreerbmt09presentationsforcada_freerbmt09_5yrsonpdf

[4] T Trosterud und KB Unhammer Evaluating North Saacutemi to Nor-wegian assimilation RBMT In Proceedings of the Third InternationalWorkshop on FreeOpen-Source Rule-Based Machine Translation 2012URL httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-sme-nobpaperpathrev=38833 (noch kein of-fizielles Paper (im PDF) verfuumlgbar)

24

Abbildungsverzeichnis

21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen 10

25

Anhang

IRC-Konversation zu HFSTTypisches Beispiel einer Konversation 10 mit Jonathan North Washing-ton (ldquofirespeakerrdquo) und Mikel L Forcada (ldquomlforcadardquo) welche we-sentliche Beitraumlge zu Apertium leisten gefuumlhrt im IRC 11

1921 lt h2mgt At which stage of the pipeline is HFST employed1921 lt h2mgt I couldnrsquot get that1921 lt mlforcadagt h2m generation of Kazakh[]1922 lt h2mgt Is this process described somewhere in detailsuch that I can read that up1922 lt mlforcadagt is something that looks like lttoolbox butmore powerful1922 lt mlforcadagt h2m firespeaker can help probably1922 lt h2mgt I can only see lexc and twol files wo reallygetting the point[]1922 lt firespeakergt h2m HFST takes a string of text and turnsit into lemmas + tags1922 lt firespeakergt h2m or1922 lt firespeakergt h2m it takes lemmas + tags and turns itinto a string of text[]1923 lt firespeakergt h2m lexc is the morphotactics1923 lt mlforcadagt firespeaker yoursquore right1923 lt h2mgt Ah OK1923 lt firespeakergt h2m twol is the morphophonology

10 Selber bin ich als ldquoh2mrdquo unterwegs11 ircircfreenodenetapertium

26

  • Einfuumlhrung
    • Motivation und Thema
    • Verwendete Umgebung und Konfiguration
      • Grundlagen Zu Apertium und HFST
        • Wesen und Entwicklungsstand von Apertium
        • Wesen und Entwicklungsstand von HFST
          • Hauptteil Die Integration von HFST in Apertium
            • Theorie Zweck und Nutzen der Integration
            • Empirie Die Integration am Beispiel eines Sprachpaars
              • Schluss
                • Zusammenfassung und Ausblick
                • Danksagungen
                  • Literaturverzeichnis
                  • Abbildungsverzeichnis
                  • Anhang
Page 14: Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

3 Hauptteil Die Integrationvon HFST in Apertium

31 Theorie Zweck und Nutzen der IntegrationFinite-State-Technologien koumlnnen in der Computerlinguistik dafuumlr ge-nutzt werden um Woumlrterbuumlcher elegant aufzubauen oder die mor-phologische Analyse und Generierung von Woumlrtern systematisch zubetreiben und das insbesondere auch in Faumlllen wo die Morphologie derbetrachteten Sprache nicht relativ einfach durch z B Prauml- oder Suffixe(also konkatenativ durch rsquoAneinanderreihenrsquo von Morphemen) erfasstwerden kann sondern gerade auch in Faumlllen wo auch andere Affixewie Infixe zur Anwendung kommen

Nicht mehr simpel sind Morphologien beispielsweise in Faumlllen wo esfuumlr gegebene Wortstaumlmme 1 Faumllle gibt wo Morpheme fuumlr eine Flexi-on inmitten des Stamms eingepflanzt werden muumlssen oder wo Vokaleinmitten von Staumlmmen wegfallen oder durch andere ersetzt werdenmuumlssen um guumlltige Wortformen analysieren oder generieren zu koumln-nen Morphologien fuumlr Sprachen die komplexe Anpassungen an Staumlm-men oder fortgesetzten Wortklassen in bestimmten (z B grammatikali-schen) Faumlllen erfordern werden auch Nicht-Konkatenative Morphologien(NKM) (vgl Clematide 2007 104ff) genannt oder zumindest waumlre dieKonkatenation nach vorwiegend erkennbaren systematischen Regelnder betrachteten Sprache nicht mehr (sinnvoll) nachvollziehbar wuumlrdeman eine Konkatenative Morphologie erzwingen wollen ebenfalls ist dieGefahr von Redundanz sehr hoch wenn jeder nur denkbare Stamm ineine Morphologie einfliesst

Eine saubere Morphologie mit klaren Regeln und in (moumlglichst) schlan-ker Ausfuumlhrung ist eine Anforderung von der gerade ein MaschinellesUumlbersetzungssystem wie Apertium fundamental profitiert um schnell zu

1 Minimaloberflaumlche von Woumlrtern aus der durch Morpheme die vor- um - oderangehaumlngt werden koumlnnen weitere wichtige (weitere) Wortformen entstehen

14

arbeiten und (linguistisch nachvollziehbar) gepflegt werden zu koumlnnen

Wie bereits in Kapitel 21 angedeutet ist es nicht erst das HFST-Frameworkdas Finite-State-Technologien in Apertium einfuumlhrt Die lexikalischenWerkzeuge lttoolbox mit Anwendungen wie lt-comp 2 oder lt-proc 3

werden dazu genutzt die in XML abgefassten Woumlrterbuumlcher in Trans-duktoren umzuwandeln - fuumlr eine schnellere Verarbeitung Mit denMoumlglichkeiten verglichen die das HFST-Framework liefert sind die lt-toolbox-Werkezuge am ehesten mit dem LEXC-Formalismus vergleich-bar welcher Foma beherrscht und auf die Idee fusst Woumlrterbuumlcher an-hand von Staumlmmen (von z B Verben oder Nomen) anhand von Fort-setzungsklassen (durch das Anhaumlngen von Morphemen) aufzubauenSimon Clematide fuumlhrt auch das in seinem Vorlesungsskript von 2007(93ff) genauer aus Darin ist es moumlglich die Morphotaktik der Sprachezu erfassen Schwieriger umzusetzen mit diesen Apertium-Bordmittelnist die Morphophonemik worunter Lautanpassungen oder die Infigierung 4

fallen Diese (u U seltenen aber fuumlr die Korrektheit notwendigen) An-passungen der Morphotaktik berechtigen den Beizug zusaumltzlicher (wohlbekannter und anerkannter) Formalismen wie XFST 5 oder TWOLC

Die wenigsten natuumlrlichen Sprachen sind (vollstaumlndig) KonkatenativerMorphologie Im Rahmen einer kuumlrzlichen Veranstaltung zu Finite-State-Methoden (bei Simon Clematide) haben Simon Hafner und ich die Moumlg-lichkeit erhalten eine (konzeptionelle) Morphologie 6 fuumlr die Planspra-che ldquoKlingonischrdquo 7 anzulegen Diese laumlsst sich tatsaumlchlich fast vollstaumln-dig mit Fortsetzungsklassen auf Basis der Wortstaumlmme und anzuhaumln-genden Morphemen und damit dem LEXC-Formalismus erfassen istaber auch nur ein akademisches Beispiel einer Sprache wo es nie zu(natuumlrlichen) Lautverschiebungen oder anderen komplexen Phaumlnome-nen kam

Die Dokumentation daruumlber wie HFST in Apertium genau genutztwird ist spaumlrlich Gerade in der Apertium-Dokumentation (aktuellnachgefuumlhrt und veroumlffentlicht bis Version 20) seitens Forcada et al[2] wird nichts uumlber die Nutzung von HFST ausgesagt - auch nicht inden neuesten (versionskontrollierten) Fassungen8 im SVN-Repository

Gluumlcklicherweise waren wichtige Apertium-Entwickler mir eine grosseHilfe dabei die noumltigen Einstiegspunkte zu finden Ein Beispiel einer ty-pischen Hilfeleistung ist im Anhang als ldquoIRC-Konversation zu HFSTrdquo9 zu finden die ich mit freundlicher Unterstuumltzung der involviertenPersonen in dieser Seminararbeit in der Form publizieren darf

2 Zur Kompilation von Woumlrterbuumlchern von einem XML- in ein FST-Format3 Zur Prozessierung der Daten im vorgaumlngig generierten FST-Format und der Aus-gabe in einem menschenlesbaren lexikalischen Tagging-Format4 Einfuumlgen eines Affixes in einen Wortstamm auch Infix genannt5 Von Foma implementiert6 Code und Anwendungsbeispiele bei github im git-Repository httpsgithubcom2mhklingomorph (letzter Zugriff 14062012)7 Ethnologue-Eintrag tlh httpswwwethnologuecomshow_languageaspcode=tlh (letzter Zugriff 14062012)8 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-documentationapertium-20en (letzter Zugriff 12062012)9 Siehe Anhang auf Seite 26

15

Zudem Es sind im Apertium-Wiki Informationen daruumlber vorhandenwie ein neues Sprachpaar fuumlr die Nutzung mit HFST angelegt werdenkann 10 Beim gegebenen Beispiel wird schematisch das Sprachpaar tur-tuk angesetzt (real im SVN-Repository existiert das Sprachpaar tuk-tur11) wobei tuk 12fuumlr Turkmenisch und tur 13 fuumlr Tuumlrkisch steht

Generell wird bei Sprachpaaren die mit HFST analysiert (und gene-riert) werden versucht den lexikalischen Transfer moumlglichst auf Ba-sis der Morpheme vorzunehmen Idealerweise kann der groumlsste Teilim LEXC-Formalismus abgedeckt werden Wo das nicht (im Ansatz)gelingt werden TWOLC-Regeln definiert welche die noumltigen Anpas-sungen an den lexikalischen Markierungen und Oberflaumlchenformen derWoumlrter vornehmen

Gruumlnde weshalb TWOLC- gegenuumlber XFST-Deklarationen bevorzugtwerden sind gemaumlss wichtigen Apertium-Entwicklern 14 (1) das uumlber-sichtlichere Format und (2) die einfachere Handhabung von linguisti-schen Phaumlnomenen wie der Vokalharmonie mit dem TWOLC-Formalismus

Ein weiterer wichtiger Grund welcher die mangelnde Verbreitung desXFST-Formalismus bei Apertium erklaumlrt ist vermutlich auch dass Fo-ma erst seit Version 30 von HFST (veroumlffentlicht in 2011) vollstaumlndigunterstuumltzt wird

32 Empirie Die Integration am Beispiel eines SprachpaarsDaruumlber wie ein neues Sprachpaar unter Nutzung von HFST zu Aper-tium hinzugefuumlgt werden kann gibt ein Wiki-Artikel 15 Auskunft ImSinne eines Tutorials wird dabei Schritt fuumlr Schritt im Ansatz gezeigtwie die Implementation einer RBMT von der Turkmenischen Spracheins Tuumlrkische (Sprachpaar tk-tr) umgesetzt werden kann Bei beidenverwandten Sprachen handelt es sich um stark agglutinierende Spra-chen

Das (wissenschaftlich) am besten dokumentierte Beispiel der Nutzungvon HFST im Zusammenhang mit Apertium wird im noch nicht pu-blizierten Paper ldquoEvaluating North Saacutemi to Norwegian assimilationRBMTrdquo [4] beschrieben das von Trond Trosterud und seinem Kollegen

10 Vgl hierzu httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 12062012)11 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-tuk-tur (letzter Zugriff 12062012)12 Ethnologue-Eintrag fuumlr tuk httpswwwethnologuecomshow_languageaspcode=tuk (letzter Zugriff 12062012)13 Ethnologue-Eintrag fuumlr tur httpswwwethnologuecomshow_languageaspcode=tur (letzter Zugriff 12062012)14 Gemaumlss Francis M Tyers und Jonathan North Washington im IRC15 Apertium-Wiki httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 11062012)

16

Kevin Brubeck Unhammer Mitte Juni 2012 an der FreeRBMT 2012 erst-mals oumlffentlich vorgetragen wird 16

Die Nordsamische Sprache 17 (sme) verfuumlgt uumlber geschaumltzte 15rsquo000 bis25rsquo000 Sprecher und wird in Norwegen Schweden und Finnland ge-sprochen Die Sprache wird von den Autoren als stark flektierend undagglutinierend eingeteilt

Die Standardvarietaumlt 18 des Norwegischen in die uumlbersetzt wird ver-fuumlgt gemaumlss Ethnologue 19 uumlber rund 45 Millionen Sprecher und gehoumlrtder indogermanischen Sprachfamilie an Die Sprache wird von Troste-rud und Unhammer [4] als morphologisch wenig komplex angegeben

Dieses Sprachpaar gehoumlrt zu den wenigen wo eine indoeuropaumlische(oder -germanische) Sprache unter Einsatz von HFST mit Apertiumuumlbersetzt wird

Bei den meisten anderen Sprachpaaren wo HFST genutzt wird han-delt es sich beidseitig um Sprachen mit komplexer Morphologie

Bezuumlglich des Sprachpaars unserer Betrachtung fokussieren die Auto-ren auf die Uumlbersetzungsrichtung ins Norwegische weil der Anspruchbloss ist dass Nur-Norwegischsprechende Texte aus dem Nordsami-schen verstehen koumlnnen sollen Umgekehrt wuumlrden die meisten Spre-cher des Nordsamischen bereits Norwegisch verstehen womit der Nut-zen der umgekehrten Uumlbersetzungsrichtung als (zum aktuellen Zeit-punkt) gering eingeschaumltzt wird

Als Motivation fuumlr den Einsatz von HFST gegenuumlber lttoolbox wirdbeispielhaft der Stufenwechsel der Konsonanten des Nordsamischen inQuantitaumlt als auch Qualitaumlt angefuumlhrt 20 Generalisiert betrachtet befuumlr-worten die Autoren die Verwendung von HFST wenn Morphologienzu verarbeiten sind die nicht rein konkatenativ sind - wie ich in Kapitel31 zum Zweck von HFST bereits ausgefuumlhrt habe

Grundsaumltzlich wird gemaumlss Entwickler Unhammer 21 (schematisch) diefolgende UNIX-Pipeline fuumlr sme-nob angewandt

$ echo words|hfst-proc sme-analyserhfst|| 1lt-proc sme-to-nob-dixbin|| 2lt-proc nob-generator-dixbin 3

Im Falle von sme-nob wird HFST alleine fuumlr die Analyse (1) von smegenutzt dann wird wieder generell auf lttoolbox gesetzt in wichtigsterHinsicht im Rahmen des lexikalischen Transfers (2) und der Generierung

16 Information gemaumlss einem Gespraumlch mit Kevin Brubeck Unhammer im IRC Kon-ferenzseite mit Programm httpwwwmolto-projecteufreerbmt-programhtml(letzter Zugriff 14062012)17 Engl ldquoNorth Saacutemirdquo18 Als Buchsprache ldquoBokmaringlrdquo19 Ethnologue-Eintrag zu den Sprachen Norwegens httpswwwethnologuecomshow_countryaspname=no (letzter Zugriff 11062012)20 Vgl hierzu Wikipedia httpsdewikipediaorgwikiStufenwechsel (letzterZugriff 14062012)21 Chatgespraumlch im IRC

17

(3) der Zielsprache nob

Der morphologische sme-Analyzer ist dabei in den Formalismen LEXCund TWOLC geschrieben und fusst auf bereits verfuumlgbare Ressourcen22 zuruumlck was aufzeigt dass HFST im Einsatz fuumlr Apertium auch des-halb interessant ist weil viele Morphologien bereits existieren die inFormalismen geschrieben sind die HFST verarbeiten kann Fuumlr dasAnlegen vieler Sprachpaare ist es nicht notwendig alles from scratch zubeginnen

Auch beim nob-Generator konnte auf (eigene fruumlhere) Ressourcen zu-ruumlckgegriffen werden wie diese im Sprachpaar nn-nb 23 verfuumlgbar sindbei dem Sprachpaar wird zwischen zwei norwegischen Sprachverietauml-ten uumlbersetzt Wichtig ist noch einmal zu betonen dass der nob-Teil (zurGeneration der Norwegischen Wortformen) auf lttoolbox setzt und mitHFST nichts zu schaffen hat

Interessant ist der Einsatz der von Trosterud und Unhammer von Grundauf selber geschriebene Constraint Grammar (CG) 24 zur Wortartendisam-biguierung in dem die Auswahl der Woumlrter (fuumlr die Zielsprache) anhandvon (lokalen) grammatikalischen Kontexten (in der Quellsprache) ge-schieht Das ist auch der Grund weshalb ich eingangs in Kapitel 12VISL CG-3 als obligat zu installierendes Paket anfuumlhre Ohne dieseSoftware ist es nicht moumlglich das Sprachpaar sme-nob zu kompilieren25

Zwischen der morphologischen Analyse (von sme) und der morphologischenGenerierung von nob findet der strukturelle Transfer statt der 4-phasig istdie Autoren Trosterud und Unhammer machen hierbei folgende Anga-ben

1 63 Chunk-Regeln (t1x-Datei)

2 26 Interchunk1-Regeln (t2x-Datei)

3 39 Interchunk2-Regeln (t3x-Datei)

4 29 Postchunk-Regeln (t4x-Datei)

Es reicht also nicht bloss aus Wortformen oder Morpheme zu ersetzensondern es sind komplexe Verschiebungen der markierten Lemmata

22 SVN-Repository des Giellatekno-Projekts httpsvictoriouitnolangtechtrunkgtsme (letzter Zugriff 14062012)23 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-nn-nb (letzter Zugriff 14062012)24 Vgl fuumlr einen kurzen Uumlberblick eine CLab-Seite httpkittcluzhchclabconstraintGrammarilap_visl (letzter Zugriff 14062012)25 Zu erwaumlhnen ist in dem Zusammenhang dass bei den meisten SprachpaarenHidden-Markov-Modelle zum Einsatz kommen um die Wortarten zu bestimmen da-fuumlr wird Sprachmaterial trainiert Im Falle von sme-nob deuten die Autoren allerdingsdarauf hin dass mangels repraumlsentativen Sprachmaterials diese Option keine ist diebefriedigen kann Sie stellen allerdings in Aussicht dass eine Kombination von lin-guistischen CG- und statistischen HMM-Ansaumltzen ein Versuch wert waumlre Dabei wuumlrdezuerst mittels CG ein Kontext eingegrenzt und danach statistisch verfahren

18

notwendig um in das Norwegische zu uumlbersetzen obschon beide Spra-chen der Subjekt-Verb-Objekt-Satzstellung sind

Die Evaluationsergebnisse der Autoren deuten darauf hin dass dasSprachpaar sme-nob funktionalen Charakter hat Post-Editing-Qualitaumltist nicht das Ziel und wird auch nicht erreicht allerdings koumlnnen Nor-wegischsprechende die kein Nordsamisch verstehen in vielen Faumlllenausmachen was die Bedeutung eines Satzes ist - insbesondere dannwenn er kontextualisiert vorliegt

Im Folgenden soll eine praktische Nutzung des Sprachpaars sme-nobin Apertium illustriert werden Als Beispiel diene der einleitende Be-gruumlssungssatz zur Nordsamischen Wikipedia 26 ausgewaumlhlt

$ echo rsquoBures boahtin Wikipediai friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen til Wikipedia til den frie informasjonsordboken

Die resultierende nob-Uumlbersetzung lautet gemaumlss Google Translate 27

auf Deutsch

Willkommen bei Wikipedia dem freien Woumlrterbuch Infor-mationen

Die Uumlbersetzung ist verstaumlndlich abgesehen von der Semantik des Aus-drucks ldquoWoumlrterbuch Informationenrdquo Hier sollte meiner Ansicht nachldquoEnzyklopaumldierdquo stehen Es ist wahrscheinlich dass bereits die Quellenicht den optimalen Begriff fuumlhrt und da das eigentliche Problem liegt

Interessanter ist was passiert wenn wir das ominoumlse i-Suffix bei ldquoWi-kipediairdquo im Nordsamischen entfernen

$ echo rsquoBures boahtin Wikipedia friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen Wikipedia til den frie informasjonsordboken

Wir koumlnnen feststellen dass der Satz einen anderen personalen Bezugherstellt denn gemaumlss Google Translate 28 bedeutet die zweite nob-Uumlbersetzung auf Deutsch

Willkommen Wikipedia dem freien Woumlrterbuch Informa-tionen

Wir werden nun also als ldquoWikipediardquo angesprochen

26 Webseite httpssewikipediaorgwikiVC3A1ldosiidu (letzter Zugriff14062012)27 Vgl hierzu httptranslategooglecomno|de|Velkommen20til20Wikipedia2C20til20den20frie20informasjonsordboken (letzter Zugriff14062012)28 Vgl hierzu httptranslategooglecomno|de|0AVelkommen20Wikipedia2C20til20den20frie20informasjonsordbokenmskip-thinmuskip (letzter Zugriff 14062012)

19

Eine morphologische Analyse der beiden Wortformen ldquoWikipediardquo undldquoWikipediairdquo erhaumlrtet die Vermutungen dass es sich beim i-Suffix umeinen Illativ 29 handelt einem Lokalkasus der dazu genutzt werdenkann eine ldquoHineinbewegungrdquo auszudruumlcken respektive in diesem Falldie entsprechende Praumlposition ldquoaufrdquo in das Substantiv der Named En-tity ldquoWikipediardquo einzugliedern

$ echo Wikipedia | apertium -d sme-nob-morph1^WikipediaWikipedialtNgtltPropgtltOrggtltSggtltAccgtWikipedialtNgtltPropgtltOrggtltSggtltGengtWikipedialtNgtltPropgtltOrggtltSggtltNomgt$^ltCLBgt$

2$ echo Wikipediai | apertium -d sme-nob-morph^WikipediaiWikipedialtNgtltPropgtltOrggtltSggtltIllgt$^ltCLBgt$

Bei Analyse 1 wird ldquoWikipediardquo als ein Substantiv eine Named Entityund (semantisch) als Organisation im Singular markiert Uneinigkeitherrscht fuumlr den Tagger auf dieser Transferstufe noch uumlber den KasusEs ist nicht klar ob ldquoWikipediardquo im Nominativ Akkusativ oder Genitivsteht Das Symbol ltCLBgt steht fuumlr ldquoClause Boundaryrdquo und spielt insbe-sondere fuumlr den Chunker (im Zuge des spaumlteren Transfers) eine Rolle zB zur (groben) Abgrenzung von Nominal- und Verbalphrasen

Analyse 2 faumlllt knapper aus da der Kasusfall keine Rolle mehr spielt -an dessen Stelle tritt nun der Illativ (Symbol ltIllgt) Der Rest bleibt sichgleich

Da aber die Illativ-Markierung in diesem spezifischen Fall auf dernob-Seite zur Oberflaumlchengenerierung des norwegischen Wortes ldquotilrdquo30 fuumlhrt aumlndert sich die Semantik des Satzes merklich

Der Transferprozess bei Apertium kann generell beliebig fein beobach-tet werden fuumlr unser spezifisches Sprachpaar sme-nob sei fuumlr weitereVersuche auf das Apertium-Wiki 31 verwiesen das extensiv Informa-tionen daruumlber fuumlhrt

Es existieren weitere interessante Sprachpaare bei der nur eine Sei-te jeweils stark agglutierend ist und auf entsprechende Formalismen(LEXC- und TWOLC-Formalismen) zuruumlckgegriffen wird So etwa die

29 Vgl Wikipedia httpsdewikipediaorgwikiIllativ (letzter Zugriff14062012)30 Dt ldquoaufrdquo31 httpwikiapertiumorgwikiNorthern_SC3A1mi_and_Norwegian (letzterZugriff 14062012)

20

Sprachpaare quz-spa (Quecha-Castellano) 32 udm-rus (Udmuritische Sprache-Russisch) 33 und kaz-eng (Kasachisch-Englisch) 34 Noch ist der Entwick-lungsstand all dieser Uumlbersetzungsrichtungen aber gering und fuumlr einenproduktiven Einsatz oder eine Evaluation demnach ungeeignet 35

32 Apertium-Wikiseite httpwikiapertiumorgwikiQuechua_cuzqueC3B1o_y_castellano (letzter Zugriff 14062012)33 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-udm-rus (letzter Zugriff 14062012)34 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumincubatorapertium-eng-kaz (letzter Zugriff 14062012)35 Alle drei Sprachpaare sind in den SVN-Ordnern incubator oder nursery un-tergebracht

21

4 Schluss

41 Zusammenfassung und AusblickIn abschliessender Betrachtung ist festzuhalten Die Nutzung von HFSTverleiht Apertium die Faumlhigkeit zu und von Sprachen mit (stark) Nicht-Konkatenativer Morphologie zu uumlbersetzen Dafuumlr muumlssen die Aperti-um-eigenen lttoolbox-Werkzeuge umgangen werden die ansonstenzur morphologischen Analyse und morphologischen Generierung von Wort-formen verwendet werden Der Einsatz von HFST liefert aber keinenMehrwert an anderen Stellen in der Transfer-Pipeline Der lexikalischeTransfer oder strukturelle Anpassungen um der Syntax der Zielsprachenaumlher zu kommen sind Schritte fuumlr die sich die lttoolbox-Werkzeugeweiterhin bewaumlhren

Diskutiert wird eine staumlrkere Integration von HFST in Apertium damitHFST nicht laumlnger der Charakter eines ldquoFremdkoumlrpersrdquo in der Aper-tium-Plattform anhaftet Es existiert die Idee ein Projekt in diese Rich-tung anzustossen um es z B moumlglich zu machen lexc-Dateien anstattmit den HFST-Binaries mit den lttoolbox-Kommandos zu prozessierenDieses Projekt koumlnnte von einem interessierten Studierenden etwa imRahmen des naumlchsten Google Summer of Code (2013) initiiert werden 1

Ein weitere Herausforderung die in der Natur von Apertium als Shallow-Transfer-System begruumlndet liegt 2 hat mit den Bilexika zu tun Apertiummuss fuumlr jedes Sprachpaar ein Bilexikon fuumlhren um den lexikalischenTransfer mittels den lttoolbox-Werkzeugen zu vollziehen Da fuumlr jedeneue Sprachkombination das Bilexikon neu aufgebaut werden mussbesteht hier ein gewisser (manueller) Aufwand bei jedem neuen Sprach-paar das angesetzt wird dieser kann zwar durch Einsatz von Werkzeu-ge aus den apertium-dixtools minimiert werden die Vollautomation

1 Idee zum Projekt httpwikiapertiumorgwikiIdeas_for_Google_Summer_of_CodeCloser_integration_with_HFST (letzter Zugriff 14062012)2 Apertium verwendet keinen sog Interlingua-Ansatz um eine sprachunabhaumlngigeRepraumlsentation von Wortbedeutungen zu fuumlhren

22

funktioniert aber noch nicht 3 4

Weiterhin bleibt Apertium im Grundsatz ein Shallow-Transfer-Systemdas keinen vollstaumlndigen Parse der Quellsprache vornimmt und sietiefen-analysiert Dadurch ist es auch in Zukunft nicht breit moumlglichSemantik uumlber weite Distanzen zu transferieren

Bezuumlglich weiterer Moumlglichkeiten fuumlr Apertium morphologisch zu ana-lysieren generieren kann das Augenmerk auch auf neuere Formalis-men als jene von Xerox 5 gelegt werden So existiert hunmorph 6 dases erlaubt in OCaml 7 - in einem objekt-orientierten Paradigma - Mor-phologien zu beschreiben und dazu eine (relativ) einfache Syntax auf-zuweisen scheint Beispiele explorativer Versuche mit hunmorph fuumlrApertium sind im Wiki des Projekts bereits heute dokumentiert 8 Aus-serdem ist hunmoph morphologisch-analytische Basis des bekanntenSpellcheckers HunSpell das der standardmaumlssige Spellchecker in Libre-Office OpenOfficeorg und einigen Softwareprodukten der MozillaFoundation ist 9

Selber hat es mir Freude bereitet mich in dieses komplexe Gebiet hin-ein zu begeben und ich bin fuumlr die Zukunft interessiert daran michan Apertium nach Kraumlften zu beteiligen da ich die dahinterstehendeCommunity als eine kennen gelernt habe die aufgeschlossen humor-voll und im houmlchsten Masse kompetent ist

42 DanksagungenIch moumlchte mich an dieser Stelle herzlichst im Besonderen bei folgen-den Personen des Apertium-Projekts bedanken dass sie sich Zeit ge-nommen haben sich mit mir im IRC ausgiebig zu unterhalten und denDschungel in und um Apertium zu durchleuchten Mikel L ForcadaFrancis M Tyers Kevin Brubeck Unhammer und Jonathan North Wa-shington

Ohne sie waumlre diese Arbeit in der Form nicht entstanden und vielesQuellmaterial das ich hier verwende schwierg auffindbar gewesen

3 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-dixtools (letzter Zugriff 14062012)4 Vgl hierzu httpwikiapertiumorgwikiCrossdics (letzter Zugriff14062012)5 Namentlich XFST TWOLC und LEXC6 Webseite httpmokkbmehuresourceshunmorph (letzter Zugriff 14062012)7 Webseite httpcamlinriafr (letzter Zugriff 14062012)8 Apertium-Wiki httpwikiapertiumorgwikiHunmorph (letzter Zugriff14062012)9 Webseite httphunspellsourceforgenet (letzter Zugriff 14062012)

23

Literaturverzeichnis

[1] S Clematide Morphologie und Lexikographie Vorlesungs-skript Institut fuumlr Computerlinguistik Universitaumlt Zuumlrich 2007URL httpfilesifiuzhchclsiclematlehress07mulscriptscriptpdf

[2] ML Forcada BI Bonev S Ortiz-Rojas JA Peacuterez-OrtizG Ramiacuterez-Saacutenchez F Saacutenchez-Martiacutenez C Armentano-OllerMA Montava FM Tyers und U dA Departament de Llenguatges iSistemes Informagravetics Documentation of the open-source shallow-transfer machine translation platform apertium 2010 URL httpxixonadlsiuaes~franapertium2-documentationpdf

[3] ML Forcada FM Tyers und G Ramiacuterez-Saacutenchez The Apertiummachine translation platform five years on In Proceedings of the FirstInternational Workshop on FreeOpen-Source Rule-Based Machine Trans-lation 3ndash10 2009 URL httpxixonadlsiuaesfreerbmt09presentationsforcada_freerbmt09_5yrsonpdf

[4] T Trosterud und KB Unhammer Evaluating North Saacutemi to Nor-wegian assimilation RBMT In Proceedings of the Third InternationalWorkshop on FreeOpen-Source Rule-Based Machine Translation 2012URL httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-sme-nobpaperpathrev=38833 (noch kein of-fizielles Paper (im PDF) verfuumlgbar)

24

Abbildungsverzeichnis

21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen 10

25

Anhang

IRC-Konversation zu HFSTTypisches Beispiel einer Konversation 10 mit Jonathan North Washing-ton (ldquofirespeakerrdquo) und Mikel L Forcada (ldquomlforcadardquo) welche we-sentliche Beitraumlge zu Apertium leisten gefuumlhrt im IRC 11

1921 lt h2mgt At which stage of the pipeline is HFST employed1921 lt h2mgt I couldnrsquot get that1921 lt mlforcadagt h2m generation of Kazakh[]1922 lt h2mgt Is this process described somewhere in detailsuch that I can read that up1922 lt mlforcadagt is something that looks like lttoolbox butmore powerful1922 lt mlforcadagt h2m firespeaker can help probably1922 lt h2mgt I can only see lexc and twol files wo reallygetting the point[]1922 lt firespeakergt h2m HFST takes a string of text and turnsit into lemmas + tags1922 lt firespeakergt h2m or1922 lt firespeakergt h2m it takes lemmas + tags and turns itinto a string of text[]1923 lt firespeakergt h2m lexc is the morphotactics1923 lt mlforcadagt firespeaker yoursquore right1923 lt h2mgt Ah OK1923 lt firespeakergt h2m twol is the morphophonology

10 Selber bin ich als ldquoh2mrdquo unterwegs11 ircircfreenodenetapertium

26

  • Einfuumlhrung
    • Motivation und Thema
    • Verwendete Umgebung und Konfiguration
      • Grundlagen Zu Apertium und HFST
        • Wesen und Entwicklungsstand von Apertium
        • Wesen und Entwicklungsstand von HFST
          • Hauptteil Die Integration von HFST in Apertium
            • Theorie Zweck und Nutzen der Integration
            • Empirie Die Integration am Beispiel eines Sprachpaars
              • Schluss
                • Zusammenfassung und Ausblick
                • Danksagungen
                  • Literaturverzeichnis
                  • Abbildungsverzeichnis
                  • Anhang
Page 15: Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

arbeiten und (linguistisch nachvollziehbar) gepflegt werden zu koumlnnen

Wie bereits in Kapitel 21 angedeutet ist es nicht erst das HFST-Frameworkdas Finite-State-Technologien in Apertium einfuumlhrt Die lexikalischenWerkzeuge lttoolbox mit Anwendungen wie lt-comp 2 oder lt-proc 3

werden dazu genutzt die in XML abgefassten Woumlrterbuumlcher in Trans-duktoren umzuwandeln - fuumlr eine schnellere Verarbeitung Mit denMoumlglichkeiten verglichen die das HFST-Framework liefert sind die lt-toolbox-Werkezuge am ehesten mit dem LEXC-Formalismus vergleich-bar welcher Foma beherrscht und auf die Idee fusst Woumlrterbuumlcher an-hand von Staumlmmen (von z B Verben oder Nomen) anhand von Fort-setzungsklassen (durch das Anhaumlngen von Morphemen) aufzubauenSimon Clematide fuumlhrt auch das in seinem Vorlesungsskript von 2007(93ff) genauer aus Darin ist es moumlglich die Morphotaktik der Sprachezu erfassen Schwieriger umzusetzen mit diesen Apertium-Bordmittelnist die Morphophonemik worunter Lautanpassungen oder die Infigierung 4

fallen Diese (u U seltenen aber fuumlr die Korrektheit notwendigen) An-passungen der Morphotaktik berechtigen den Beizug zusaumltzlicher (wohlbekannter und anerkannter) Formalismen wie XFST 5 oder TWOLC

Die wenigsten natuumlrlichen Sprachen sind (vollstaumlndig) KonkatenativerMorphologie Im Rahmen einer kuumlrzlichen Veranstaltung zu Finite-State-Methoden (bei Simon Clematide) haben Simon Hafner und ich die Moumlg-lichkeit erhalten eine (konzeptionelle) Morphologie 6 fuumlr die Planspra-che ldquoKlingonischrdquo 7 anzulegen Diese laumlsst sich tatsaumlchlich fast vollstaumln-dig mit Fortsetzungsklassen auf Basis der Wortstaumlmme und anzuhaumln-genden Morphemen und damit dem LEXC-Formalismus erfassen istaber auch nur ein akademisches Beispiel einer Sprache wo es nie zu(natuumlrlichen) Lautverschiebungen oder anderen komplexen Phaumlnome-nen kam

Die Dokumentation daruumlber wie HFST in Apertium genau genutztwird ist spaumlrlich Gerade in der Apertium-Dokumentation (aktuellnachgefuumlhrt und veroumlffentlicht bis Version 20) seitens Forcada et al[2] wird nichts uumlber die Nutzung von HFST ausgesagt - auch nicht inden neuesten (versionskontrollierten) Fassungen8 im SVN-Repository

Gluumlcklicherweise waren wichtige Apertium-Entwickler mir eine grosseHilfe dabei die noumltigen Einstiegspunkte zu finden Ein Beispiel einer ty-pischen Hilfeleistung ist im Anhang als ldquoIRC-Konversation zu HFSTrdquo9 zu finden die ich mit freundlicher Unterstuumltzung der involviertenPersonen in dieser Seminararbeit in der Form publizieren darf

2 Zur Kompilation von Woumlrterbuumlchern von einem XML- in ein FST-Format3 Zur Prozessierung der Daten im vorgaumlngig generierten FST-Format und der Aus-gabe in einem menschenlesbaren lexikalischen Tagging-Format4 Einfuumlgen eines Affixes in einen Wortstamm auch Infix genannt5 Von Foma implementiert6 Code und Anwendungsbeispiele bei github im git-Repository httpsgithubcom2mhklingomorph (letzter Zugriff 14062012)7 Ethnologue-Eintrag tlh httpswwwethnologuecomshow_languageaspcode=tlh (letzter Zugriff 14062012)8 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-documentationapertium-20en (letzter Zugriff 12062012)9 Siehe Anhang auf Seite 26

15

Zudem Es sind im Apertium-Wiki Informationen daruumlber vorhandenwie ein neues Sprachpaar fuumlr die Nutzung mit HFST angelegt werdenkann 10 Beim gegebenen Beispiel wird schematisch das Sprachpaar tur-tuk angesetzt (real im SVN-Repository existiert das Sprachpaar tuk-tur11) wobei tuk 12fuumlr Turkmenisch und tur 13 fuumlr Tuumlrkisch steht

Generell wird bei Sprachpaaren die mit HFST analysiert (und gene-riert) werden versucht den lexikalischen Transfer moumlglichst auf Ba-sis der Morpheme vorzunehmen Idealerweise kann der groumlsste Teilim LEXC-Formalismus abgedeckt werden Wo das nicht (im Ansatz)gelingt werden TWOLC-Regeln definiert welche die noumltigen Anpas-sungen an den lexikalischen Markierungen und Oberflaumlchenformen derWoumlrter vornehmen

Gruumlnde weshalb TWOLC- gegenuumlber XFST-Deklarationen bevorzugtwerden sind gemaumlss wichtigen Apertium-Entwicklern 14 (1) das uumlber-sichtlichere Format und (2) die einfachere Handhabung von linguisti-schen Phaumlnomenen wie der Vokalharmonie mit dem TWOLC-Formalismus

Ein weiterer wichtiger Grund welcher die mangelnde Verbreitung desXFST-Formalismus bei Apertium erklaumlrt ist vermutlich auch dass Fo-ma erst seit Version 30 von HFST (veroumlffentlicht in 2011) vollstaumlndigunterstuumltzt wird

32 Empirie Die Integration am Beispiel eines SprachpaarsDaruumlber wie ein neues Sprachpaar unter Nutzung von HFST zu Aper-tium hinzugefuumlgt werden kann gibt ein Wiki-Artikel 15 Auskunft ImSinne eines Tutorials wird dabei Schritt fuumlr Schritt im Ansatz gezeigtwie die Implementation einer RBMT von der Turkmenischen Spracheins Tuumlrkische (Sprachpaar tk-tr) umgesetzt werden kann Bei beidenverwandten Sprachen handelt es sich um stark agglutinierende Spra-chen

Das (wissenschaftlich) am besten dokumentierte Beispiel der Nutzungvon HFST im Zusammenhang mit Apertium wird im noch nicht pu-blizierten Paper ldquoEvaluating North Saacutemi to Norwegian assimilationRBMTrdquo [4] beschrieben das von Trond Trosterud und seinem Kollegen

10 Vgl hierzu httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 12062012)11 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-tuk-tur (letzter Zugriff 12062012)12 Ethnologue-Eintrag fuumlr tuk httpswwwethnologuecomshow_languageaspcode=tuk (letzter Zugriff 12062012)13 Ethnologue-Eintrag fuumlr tur httpswwwethnologuecomshow_languageaspcode=tur (letzter Zugriff 12062012)14 Gemaumlss Francis M Tyers und Jonathan North Washington im IRC15 Apertium-Wiki httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 11062012)

16

Kevin Brubeck Unhammer Mitte Juni 2012 an der FreeRBMT 2012 erst-mals oumlffentlich vorgetragen wird 16

Die Nordsamische Sprache 17 (sme) verfuumlgt uumlber geschaumltzte 15rsquo000 bis25rsquo000 Sprecher und wird in Norwegen Schweden und Finnland ge-sprochen Die Sprache wird von den Autoren als stark flektierend undagglutinierend eingeteilt

Die Standardvarietaumlt 18 des Norwegischen in die uumlbersetzt wird ver-fuumlgt gemaumlss Ethnologue 19 uumlber rund 45 Millionen Sprecher und gehoumlrtder indogermanischen Sprachfamilie an Die Sprache wird von Troste-rud und Unhammer [4] als morphologisch wenig komplex angegeben

Dieses Sprachpaar gehoumlrt zu den wenigen wo eine indoeuropaumlische(oder -germanische) Sprache unter Einsatz von HFST mit Apertiumuumlbersetzt wird

Bei den meisten anderen Sprachpaaren wo HFST genutzt wird han-delt es sich beidseitig um Sprachen mit komplexer Morphologie

Bezuumlglich des Sprachpaars unserer Betrachtung fokussieren die Auto-ren auf die Uumlbersetzungsrichtung ins Norwegische weil der Anspruchbloss ist dass Nur-Norwegischsprechende Texte aus dem Nordsami-schen verstehen koumlnnen sollen Umgekehrt wuumlrden die meisten Spre-cher des Nordsamischen bereits Norwegisch verstehen womit der Nut-zen der umgekehrten Uumlbersetzungsrichtung als (zum aktuellen Zeit-punkt) gering eingeschaumltzt wird

Als Motivation fuumlr den Einsatz von HFST gegenuumlber lttoolbox wirdbeispielhaft der Stufenwechsel der Konsonanten des Nordsamischen inQuantitaumlt als auch Qualitaumlt angefuumlhrt 20 Generalisiert betrachtet befuumlr-worten die Autoren die Verwendung von HFST wenn Morphologienzu verarbeiten sind die nicht rein konkatenativ sind - wie ich in Kapitel31 zum Zweck von HFST bereits ausgefuumlhrt habe

Grundsaumltzlich wird gemaumlss Entwickler Unhammer 21 (schematisch) diefolgende UNIX-Pipeline fuumlr sme-nob angewandt

$ echo words|hfst-proc sme-analyserhfst|| 1lt-proc sme-to-nob-dixbin|| 2lt-proc nob-generator-dixbin 3

Im Falle von sme-nob wird HFST alleine fuumlr die Analyse (1) von smegenutzt dann wird wieder generell auf lttoolbox gesetzt in wichtigsterHinsicht im Rahmen des lexikalischen Transfers (2) und der Generierung

16 Information gemaumlss einem Gespraumlch mit Kevin Brubeck Unhammer im IRC Kon-ferenzseite mit Programm httpwwwmolto-projecteufreerbmt-programhtml(letzter Zugriff 14062012)17 Engl ldquoNorth Saacutemirdquo18 Als Buchsprache ldquoBokmaringlrdquo19 Ethnologue-Eintrag zu den Sprachen Norwegens httpswwwethnologuecomshow_countryaspname=no (letzter Zugriff 11062012)20 Vgl hierzu Wikipedia httpsdewikipediaorgwikiStufenwechsel (letzterZugriff 14062012)21 Chatgespraumlch im IRC

17

(3) der Zielsprache nob

Der morphologische sme-Analyzer ist dabei in den Formalismen LEXCund TWOLC geschrieben und fusst auf bereits verfuumlgbare Ressourcen22 zuruumlck was aufzeigt dass HFST im Einsatz fuumlr Apertium auch des-halb interessant ist weil viele Morphologien bereits existieren die inFormalismen geschrieben sind die HFST verarbeiten kann Fuumlr dasAnlegen vieler Sprachpaare ist es nicht notwendig alles from scratch zubeginnen

Auch beim nob-Generator konnte auf (eigene fruumlhere) Ressourcen zu-ruumlckgegriffen werden wie diese im Sprachpaar nn-nb 23 verfuumlgbar sindbei dem Sprachpaar wird zwischen zwei norwegischen Sprachverietauml-ten uumlbersetzt Wichtig ist noch einmal zu betonen dass der nob-Teil (zurGeneration der Norwegischen Wortformen) auf lttoolbox setzt und mitHFST nichts zu schaffen hat

Interessant ist der Einsatz der von Trosterud und Unhammer von Grundauf selber geschriebene Constraint Grammar (CG) 24 zur Wortartendisam-biguierung in dem die Auswahl der Woumlrter (fuumlr die Zielsprache) anhandvon (lokalen) grammatikalischen Kontexten (in der Quellsprache) ge-schieht Das ist auch der Grund weshalb ich eingangs in Kapitel 12VISL CG-3 als obligat zu installierendes Paket anfuumlhre Ohne dieseSoftware ist es nicht moumlglich das Sprachpaar sme-nob zu kompilieren25

Zwischen der morphologischen Analyse (von sme) und der morphologischenGenerierung von nob findet der strukturelle Transfer statt der 4-phasig istdie Autoren Trosterud und Unhammer machen hierbei folgende Anga-ben

1 63 Chunk-Regeln (t1x-Datei)

2 26 Interchunk1-Regeln (t2x-Datei)

3 39 Interchunk2-Regeln (t3x-Datei)

4 29 Postchunk-Regeln (t4x-Datei)

Es reicht also nicht bloss aus Wortformen oder Morpheme zu ersetzensondern es sind komplexe Verschiebungen der markierten Lemmata

22 SVN-Repository des Giellatekno-Projekts httpsvictoriouitnolangtechtrunkgtsme (letzter Zugriff 14062012)23 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-nn-nb (letzter Zugriff 14062012)24 Vgl fuumlr einen kurzen Uumlberblick eine CLab-Seite httpkittcluzhchclabconstraintGrammarilap_visl (letzter Zugriff 14062012)25 Zu erwaumlhnen ist in dem Zusammenhang dass bei den meisten SprachpaarenHidden-Markov-Modelle zum Einsatz kommen um die Wortarten zu bestimmen da-fuumlr wird Sprachmaterial trainiert Im Falle von sme-nob deuten die Autoren allerdingsdarauf hin dass mangels repraumlsentativen Sprachmaterials diese Option keine ist diebefriedigen kann Sie stellen allerdings in Aussicht dass eine Kombination von lin-guistischen CG- und statistischen HMM-Ansaumltzen ein Versuch wert waumlre Dabei wuumlrdezuerst mittels CG ein Kontext eingegrenzt und danach statistisch verfahren

18

notwendig um in das Norwegische zu uumlbersetzen obschon beide Spra-chen der Subjekt-Verb-Objekt-Satzstellung sind

Die Evaluationsergebnisse der Autoren deuten darauf hin dass dasSprachpaar sme-nob funktionalen Charakter hat Post-Editing-Qualitaumltist nicht das Ziel und wird auch nicht erreicht allerdings koumlnnen Nor-wegischsprechende die kein Nordsamisch verstehen in vielen Faumlllenausmachen was die Bedeutung eines Satzes ist - insbesondere dannwenn er kontextualisiert vorliegt

Im Folgenden soll eine praktische Nutzung des Sprachpaars sme-nobin Apertium illustriert werden Als Beispiel diene der einleitende Be-gruumlssungssatz zur Nordsamischen Wikipedia 26 ausgewaumlhlt

$ echo rsquoBures boahtin Wikipediai friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen til Wikipedia til den frie informasjonsordboken

Die resultierende nob-Uumlbersetzung lautet gemaumlss Google Translate 27

auf Deutsch

Willkommen bei Wikipedia dem freien Woumlrterbuch Infor-mationen

Die Uumlbersetzung ist verstaumlndlich abgesehen von der Semantik des Aus-drucks ldquoWoumlrterbuch Informationenrdquo Hier sollte meiner Ansicht nachldquoEnzyklopaumldierdquo stehen Es ist wahrscheinlich dass bereits die Quellenicht den optimalen Begriff fuumlhrt und da das eigentliche Problem liegt

Interessanter ist was passiert wenn wir das ominoumlse i-Suffix bei ldquoWi-kipediairdquo im Nordsamischen entfernen

$ echo rsquoBures boahtin Wikipedia friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen Wikipedia til den frie informasjonsordboken

Wir koumlnnen feststellen dass der Satz einen anderen personalen Bezugherstellt denn gemaumlss Google Translate 28 bedeutet die zweite nob-Uumlbersetzung auf Deutsch

Willkommen Wikipedia dem freien Woumlrterbuch Informa-tionen

Wir werden nun also als ldquoWikipediardquo angesprochen

26 Webseite httpssewikipediaorgwikiVC3A1ldosiidu (letzter Zugriff14062012)27 Vgl hierzu httptranslategooglecomno|de|Velkommen20til20Wikipedia2C20til20den20frie20informasjonsordboken (letzter Zugriff14062012)28 Vgl hierzu httptranslategooglecomno|de|0AVelkommen20Wikipedia2C20til20den20frie20informasjonsordbokenmskip-thinmuskip (letzter Zugriff 14062012)

19

Eine morphologische Analyse der beiden Wortformen ldquoWikipediardquo undldquoWikipediairdquo erhaumlrtet die Vermutungen dass es sich beim i-Suffix umeinen Illativ 29 handelt einem Lokalkasus der dazu genutzt werdenkann eine ldquoHineinbewegungrdquo auszudruumlcken respektive in diesem Falldie entsprechende Praumlposition ldquoaufrdquo in das Substantiv der Named En-tity ldquoWikipediardquo einzugliedern

$ echo Wikipedia | apertium -d sme-nob-morph1^WikipediaWikipedialtNgtltPropgtltOrggtltSggtltAccgtWikipedialtNgtltPropgtltOrggtltSggtltGengtWikipedialtNgtltPropgtltOrggtltSggtltNomgt$^ltCLBgt$

2$ echo Wikipediai | apertium -d sme-nob-morph^WikipediaiWikipedialtNgtltPropgtltOrggtltSggtltIllgt$^ltCLBgt$

Bei Analyse 1 wird ldquoWikipediardquo als ein Substantiv eine Named Entityund (semantisch) als Organisation im Singular markiert Uneinigkeitherrscht fuumlr den Tagger auf dieser Transferstufe noch uumlber den KasusEs ist nicht klar ob ldquoWikipediardquo im Nominativ Akkusativ oder Genitivsteht Das Symbol ltCLBgt steht fuumlr ldquoClause Boundaryrdquo und spielt insbe-sondere fuumlr den Chunker (im Zuge des spaumlteren Transfers) eine Rolle zB zur (groben) Abgrenzung von Nominal- und Verbalphrasen

Analyse 2 faumlllt knapper aus da der Kasusfall keine Rolle mehr spielt -an dessen Stelle tritt nun der Illativ (Symbol ltIllgt) Der Rest bleibt sichgleich

Da aber die Illativ-Markierung in diesem spezifischen Fall auf dernob-Seite zur Oberflaumlchengenerierung des norwegischen Wortes ldquotilrdquo30 fuumlhrt aumlndert sich die Semantik des Satzes merklich

Der Transferprozess bei Apertium kann generell beliebig fein beobach-tet werden fuumlr unser spezifisches Sprachpaar sme-nob sei fuumlr weitereVersuche auf das Apertium-Wiki 31 verwiesen das extensiv Informa-tionen daruumlber fuumlhrt

Es existieren weitere interessante Sprachpaare bei der nur eine Sei-te jeweils stark agglutierend ist und auf entsprechende Formalismen(LEXC- und TWOLC-Formalismen) zuruumlckgegriffen wird So etwa die

29 Vgl Wikipedia httpsdewikipediaorgwikiIllativ (letzter Zugriff14062012)30 Dt ldquoaufrdquo31 httpwikiapertiumorgwikiNorthern_SC3A1mi_and_Norwegian (letzterZugriff 14062012)

20

Sprachpaare quz-spa (Quecha-Castellano) 32 udm-rus (Udmuritische Sprache-Russisch) 33 und kaz-eng (Kasachisch-Englisch) 34 Noch ist der Entwick-lungsstand all dieser Uumlbersetzungsrichtungen aber gering und fuumlr einenproduktiven Einsatz oder eine Evaluation demnach ungeeignet 35

32 Apertium-Wikiseite httpwikiapertiumorgwikiQuechua_cuzqueC3B1o_y_castellano (letzter Zugriff 14062012)33 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-udm-rus (letzter Zugriff 14062012)34 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumincubatorapertium-eng-kaz (letzter Zugriff 14062012)35 Alle drei Sprachpaare sind in den SVN-Ordnern incubator oder nursery un-tergebracht

21

4 Schluss

41 Zusammenfassung und AusblickIn abschliessender Betrachtung ist festzuhalten Die Nutzung von HFSTverleiht Apertium die Faumlhigkeit zu und von Sprachen mit (stark) Nicht-Konkatenativer Morphologie zu uumlbersetzen Dafuumlr muumlssen die Aperti-um-eigenen lttoolbox-Werkzeuge umgangen werden die ansonstenzur morphologischen Analyse und morphologischen Generierung von Wort-formen verwendet werden Der Einsatz von HFST liefert aber keinenMehrwert an anderen Stellen in der Transfer-Pipeline Der lexikalischeTransfer oder strukturelle Anpassungen um der Syntax der Zielsprachenaumlher zu kommen sind Schritte fuumlr die sich die lttoolbox-Werkzeugeweiterhin bewaumlhren

Diskutiert wird eine staumlrkere Integration von HFST in Apertium damitHFST nicht laumlnger der Charakter eines ldquoFremdkoumlrpersrdquo in der Aper-tium-Plattform anhaftet Es existiert die Idee ein Projekt in diese Rich-tung anzustossen um es z B moumlglich zu machen lexc-Dateien anstattmit den HFST-Binaries mit den lttoolbox-Kommandos zu prozessierenDieses Projekt koumlnnte von einem interessierten Studierenden etwa imRahmen des naumlchsten Google Summer of Code (2013) initiiert werden 1

Ein weitere Herausforderung die in der Natur von Apertium als Shallow-Transfer-System begruumlndet liegt 2 hat mit den Bilexika zu tun Apertiummuss fuumlr jedes Sprachpaar ein Bilexikon fuumlhren um den lexikalischenTransfer mittels den lttoolbox-Werkzeugen zu vollziehen Da fuumlr jedeneue Sprachkombination das Bilexikon neu aufgebaut werden mussbesteht hier ein gewisser (manueller) Aufwand bei jedem neuen Sprach-paar das angesetzt wird dieser kann zwar durch Einsatz von Werkzeu-ge aus den apertium-dixtools minimiert werden die Vollautomation

1 Idee zum Projekt httpwikiapertiumorgwikiIdeas_for_Google_Summer_of_CodeCloser_integration_with_HFST (letzter Zugriff 14062012)2 Apertium verwendet keinen sog Interlingua-Ansatz um eine sprachunabhaumlngigeRepraumlsentation von Wortbedeutungen zu fuumlhren

22

funktioniert aber noch nicht 3 4

Weiterhin bleibt Apertium im Grundsatz ein Shallow-Transfer-Systemdas keinen vollstaumlndigen Parse der Quellsprache vornimmt und sietiefen-analysiert Dadurch ist es auch in Zukunft nicht breit moumlglichSemantik uumlber weite Distanzen zu transferieren

Bezuumlglich weiterer Moumlglichkeiten fuumlr Apertium morphologisch zu ana-lysieren generieren kann das Augenmerk auch auf neuere Formalis-men als jene von Xerox 5 gelegt werden So existiert hunmorph 6 dases erlaubt in OCaml 7 - in einem objekt-orientierten Paradigma - Mor-phologien zu beschreiben und dazu eine (relativ) einfache Syntax auf-zuweisen scheint Beispiele explorativer Versuche mit hunmorph fuumlrApertium sind im Wiki des Projekts bereits heute dokumentiert 8 Aus-serdem ist hunmoph morphologisch-analytische Basis des bekanntenSpellcheckers HunSpell das der standardmaumlssige Spellchecker in Libre-Office OpenOfficeorg und einigen Softwareprodukten der MozillaFoundation ist 9

Selber hat es mir Freude bereitet mich in dieses komplexe Gebiet hin-ein zu begeben und ich bin fuumlr die Zukunft interessiert daran michan Apertium nach Kraumlften zu beteiligen da ich die dahinterstehendeCommunity als eine kennen gelernt habe die aufgeschlossen humor-voll und im houmlchsten Masse kompetent ist

42 DanksagungenIch moumlchte mich an dieser Stelle herzlichst im Besonderen bei folgen-den Personen des Apertium-Projekts bedanken dass sie sich Zeit ge-nommen haben sich mit mir im IRC ausgiebig zu unterhalten und denDschungel in und um Apertium zu durchleuchten Mikel L ForcadaFrancis M Tyers Kevin Brubeck Unhammer und Jonathan North Wa-shington

Ohne sie waumlre diese Arbeit in der Form nicht entstanden und vielesQuellmaterial das ich hier verwende schwierg auffindbar gewesen

3 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-dixtools (letzter Zugriff 14062012)4 Vgl hierzu httpwikiapertiumorgwikiCrossdics (letzter Zugriff14062012)5 Namentlich XFST TWOLC und LEXC6 Webseite httpmokkbmehuresourceshunmorph (letzter Zugriff 14062012)7 Webseite httpcamlinriafr (letzter Zugriff 14062012)8 Apertium-Wiki httpwikiapertiumorgwikiHunmorph (letzter Zugriff14062012)9 Webseite httphunspellsourceforgenet (letzter Zugriff 14062012)

23

Literaturverzeichnis

[1] S Clematide Morphologie und Lexikographie Vorlesungs-skript Institut fuumlr Computerlinguistik Universitaumlt Zuumlrich 2007URL httpfilesifiuzhchclsiclematlehress07mulscriptscriptpdf

[2] ML Forcada BI Bonev S Ortiz-Rojas JA Peacuterez-OrtizG Ramiacuterez-Saacutenchez F Saacutenchez-Martiacutenez C Armentano-OllerMA Montava FM Tyers und U dA Departament de Llenguatges iSistemes Informagravetics Documentation of the open-source shallow-transfer machine translation platform apertium 2010 URL httpxixonadlsiuaes~franapertium2-documentationpdf

[3] ML Forcada FM Tyers und G Ramiacuterez-Saacutenchez The Apertiummachine translation platform five years on In Proceedings of the FirstInternational Workshop on FreeOpen-Source Rule-Based Machine Trans-lation 3ndash10 2009 URL httpxixonadlsiuaesfreerbmt09presentationsforcada_freerbmt09_5yrsonpdf

[4] T Trosterud und KB Unhammer Evaluating North Saacutemi to Nor-wegian assimilation RBMT In Proceedings of the Third InternationalWorkshop on FreeOpen-Source Rule-Based Machine Translation 2012URL httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-sme-nobpaperpathrev=38833 (noch kein of-fizielles Paper (im PDF) verfuumlgbar)

24

Abbildungsverzeichnis

21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen 10

25

Anhang

IRC-Konversation zu HFSTTypisches Beispiel einer Konversation 10 mit Jonathan North Washing-ton (ldquofirespeakerrdquo) und Mikel L Forcada (ldquomlforcadardquo) welche we-sentliche Beitraumlge zu Apertium leisten gefuumlhrt im IRC 11

1921 lt h2mgt At which stage of the pipeline is HFST employed1921 lt h2mgt I couldnrsquot get that1921 lt mlforcadagt h2m generation of Kazakh[]1922 lt h2mgt Is this process described somewhere in detailsuch that I can read that up1922 lt mlforcadagt is something that looks like lttoolbox butmore powerful1922 lt mlforcadagt h2m firespeaker can help probably1922 lt h2mgt I can only see lexc and twol files wo reallygetting the point[]1922 lt firespeakergt h2m HFST takes a string of text and turnsit into lemmas + tags1922 lt firespeakergt h2m or1922 lt firespeakergt h2m it takes lemmas + tags and turns itinto a string of text[]1923 lt firespeakergt h2m lexc is the morphotactics1923 lt mlforcadagt firespeaker yoursquore right1923 lt h2mgt Ah OK1923 lt firespeakergt h2m twol is the morphophonology

10 Selber bin ich als ldquoh2mrdquo unterwegs11 ircircfreenodenetapertium

26

  • Einfuumlhrung
    • Motivation und Thema
    • Verwendete Umgebung und Konfiguration
      • Grundlagen Zu Apertium und HFST
        • Wesen und Entwicklungsstand von Apertium
        • Wesen und Entwicklungsstand von HFST
          • Hauptteil Die Integration von HFST in Apertium
            • Theorie Zweck und Nutzen der Integration
            • Empirie Die Integration am Beispiel eines Sprachpaars
              • Schluss
                • Zusammenfassung und Ausblick
                • Danksagungen
                  • Literaturverzeichnis
                  • Abbildungsverzeichnis
                  • Anhang
Page 16: Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

Zudem Es sind im Apertium-Wiki Informationen daruumlber vorhandenwie ein neues Sprachpaar fuumlr die Nutzung mit HFST angelegt werdenkann 10 Beim gegebenen Beispiel wird schematisch das Sprachpaar tur-tuk angesetzt (real im SVN-Repository existiert das Sprachpaar tuk-tur11) wobei tuk 12fuumlr Turkmenisch und tur 13 fuumlr Tuumlrkisch steht

Generell wird bei Sprachpaaren die mit HFST analysiert (und gene-riert) werden versucht den lexikalischen Transfer moumlglichst auf Ba-sis der Morpheme vorzunehmen Idealerweise kann der groumlsste Teilim LEXC-Formalismus abgedeckt werden Wo das nicht (im Ansatz)gelingt werden TWOLC-Regeln definiert welche die noumltigen Anpas-sungen an den lexikalischen Markierungen und Oberflaumlchenformen derWoumlrter vornehmen

Gruumlnde weshalb TWOLC- gegenuumlber XFST-Deklarationen bevorzugtwerden sind gemaumlss wichtigen Apertium-Entwicklern 14 (1) das uumlber-sichtlichere Format und (2) die einfachere Handhabung von linguisti-schen Phaumlnomenen wie der Vokalharmonie mit dem TWOLC-Formalismus

Ein weiterer wichtiger Grund welcher die mangelnde Verbreitung desXFST-Formalismus bei Apertium erklaumlrt ist vermutlich auch dass Fo-ma erst seit Version 30 von HFST (veroumlffentlicht in 2011) vollstaumlndigunterstuumltzt wird

32 Empirie Die Integration am Beispiel eines SprachpaarsDaruumlber wie ein neues Sprachpaar unter Nutzung von HFST zu Aper-tium hinzugefuumlgt werden kann gibt ein Wiki-Artikel 15 Auskunft ImSinne eines Tutorials wird dabei Schritt fuumlr Schritt im Ansatz gezeigtwie die Implementation einer RBMT von der Turkmenischen Spracheins Tuumlrkische (Sprachpaar tk-tr) umgesetzt werden kann Bei beidenverwandten Sprachen handelt es sich um stark agglutinierende Spra-chen

Das (wissenschaftlich) am besten dokumentierte Beispiel der Nutzungvon HFST im Zusammenhang mit Apertium wird im noch nicht pu-blizierten Paper ldquoEvaluating North Saacutemi to Norwegian assimilationRBMTrdquo [4] beschrieben das von Trond Trosterud und seinem Kollegen

10 Vgl hierzu httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 12062012)11 Vgl hierzu httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-tuk-tur (letzter Zugriff 12062012)12 Ethnologue-Eintrag fuumlr tuk httpswwwethnologuecomshow_languageaspcode=tuk (letzter Zugriff 12062012)13 Ethnologue-Eintrag fuumlr tur httpswwwethnologuecomshow_languageaspcode=tur (letzter Zugriff 12062012)14 Gemaumlss Francis M Tyers und Jonathan North Washington im IRC15 Apertium-Wiki httpwikiapertiumorgwikiStarting_a_new_language_with_HFST (letzter Zugriff 11062012)

16

Kevin Brubeck Unhammer Mitte Juni 2012 an der FreeRBMT 2012 erst-mals oumlffentlich vorgetragen wird 16

Die Nordsamische Sprache 17 (sme) verfuumlgt uumlber geschaumltzte 15rsquo000 bis25rsquo000 Sprecher und wird in Norwegen Schweden und Finnland ge-sprochen Die Sprache wird von den Autoren als stark flektierend undagglutinierend eingeteilt

Die Standardvarietaumlt 18 des Norwegischen in die uumlbersetzt wird ver-fuumlgt gemaumlss Ethnologue 19 uumlber rund 45 Millionen Sprecher und gehoumlrtder indogermanischen Sprachfamilie an Die Sprache wird von Troste-rud und Unhammer [4] als morphologisch wenig komplex angegeben

Dieses Sprachpaar gehoumlrt zu den wenigen wo eine indoeuropaumlische(oder -germanische) Sprache unter Einsatz von HFST mit Apertiumuumlbersetzt wird

Bei den meisten anderen Sprachpaaren wo HFST genutzt wird han-delt es sich beidseitig um Sprachen mit komplexer Morphologie

Bezuumlglich des Sprachpaars unserer Betrachtung fokussieren die Auto-ren auf die Uumlbersetzungsrichtung ins Norwegische weil der Anspruchbloss ist dass Nur-Norwegischsprechende Texte aus dem Nordsami-schen verstehen koumlnnen sollen Umgekehrt wuumlrden die meisten Spre-cher des Nordsamischen bereits Norwegisch verstehen womit der Nut-zen der umgekehrten Uumlbersetzungsrichtung als (zum aktuellen Zeit-punkt) gering eingeschaumltzt wird

Als Motivation fuumlr den Einsatz von HFST gegenuumlber lttoolbox wirdbeispielhaft der Stufenwechsel der Konsonanten des Nordsamischen inQuantitaumlt als auch Qualitaumlt angefuumlhrt 20 Generalisiert betrachtet befuumlr-worten die Autoren die Verwendung von HFST wenn Morphologienzu verarbeiten sind die nicht rein konkatenativ sind - wie ich in Kapitel31 zum Zweck von HFST bereits ausgefuumlhrt habe

Grundsaumltzlich wird gemaumlss Entwickler Unhammer 21 (schematisch) diefolgende UNIX-Pipeline fuumlr sme-nob angewandt

$ echo words|hfst-proc sme-analyserhfst|| 1lt-proc sme-to-nob-dixbin|| 2lt-proc nob-generator-dixbin 3

Im Falle von sme-nob wird HFST alleine fuumlr die Analyse (1) von smegenutzt dann wird wieder generell auf lttoolbox gesetzt in wichtigsterHinsicht im Rahmen des lexikalischen Transfers (2) und der Generierung

16 Information gemaumlss einem Gespraumlch mit Kevin Brubeck Unhammer im IRC Kon-ferenzseite mit Programm httpwwwmolto-projecteufreerbmt-programhtml(letzter Zugriff 14062012)17 Engl ldquoNorth Saacutemirdquo18 Als Buchsprache ldquoBokmaringlrdquo19 Ethnologue-Eintrag zu den Sprachen Norwegens httpswwwethnologuecomshow_countryaspname=no (letzter Zugriff 11062012)20 Vgl hierzu Wikipedia httpsdewikipediaorgwikiStufenwechsel (letzterZugriff 14062012)21 Chatgespraumlch im IRC

17

(3) der Zielsprache nob

Der morphologische sme-Analyzer ist dabei in den Formalismen LEXCund TWOLC geschrieben und fusst auf bereits verfuumlgbare Ressourcen22 zuruumlck was aufzeigt dass HFST im Einsatz fuumlr Apertium auch des-halb interessant ist weil viele Morphologien bereits existieren die inFormalismen geschrieben sind die HFST verarbeiten kann Fuumlr dasAnlegen vieler Sprachpaare ist es nicht notwendig alles from scratch zubeginnen

Auch beim nob-Generator konnte auf (eigene fruumlhere) Ressourcen zu-ruumlckgegriffen werden wie diese im Sprachpaar nn-nb 23 verfuumlgbar sindbei dem Sprachpaar wird zwischen zwei norwegischen Sprachverietauml-ten uumlbersetzt Wichtig ist noch einmal zu betonen dass der nob-Teil (zurGeneration der Norwegischen Wortformen) auf lttoolbox setzt und mitHFST nichts zu schaffen hat

Interessant ist der Einsatz der von Trosterud und Unhammer von Grundauf selber geschriebene Constraint Grammar (CG) 24 zur Wortartendisam-biguierung in dem die Auswahl der Woumlrter (fuumlr die Zielsprache) anhandvon (lokalen) grammatikalischen Kontexten (in der Quellsprache) ge-schieht Das ist auch der Grund weshalb ich eingangs in Kapitel 12VISL CG-3 als obligat zu installierendes Paket anfuumlhre Ohne dieseSoftware ist es nicht moumlglich das Sprachpaar sme-nob zu kompilieren25

Zwischen der morphologischen Analyse (von sme) und der morphologischenGenerierung von nob findet der strukturelle Transfer statt der 4-phasig istdie Autoren Trosterud und Unhammer machen hierbei folgende Anga-ben

1 63 Chunk-Regeln (t1x-Datei)

2 26 Interchunk1-Regeln (t2x-Datei)

3 39 Interchunk2-Regeln (t3x-Datei)

4 29 Postchunk-Regeln (t4x-Datei)

Es reicht also nicht bloss aus Wortformen oder Morpheme zu ersetzensondern es sind komplexe Verschiebungen der markierten Lemmata

22 SVN-Repository des Giellatekno-Projekts httpsvictoriouitnolangtechtrunkgtsme (letzter Zugriff 14062012)23 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-nn-nb (letzter Zugriff 14062012)24 Vgl fuumlr einen kurzen Uumlberblick eine CLab-Seite httpkittcluzhchclabconstraintGrammarilap_visl (letzter Zugriff 14062012)25 Zu erwaumlhnen ist in dem Zusammenhang dass bei den meisten SprachpaarenHidden-Markov-Modelle zum Einsatz kommen um die Wortarten zu bestimmen da-fuumlr wird Sprachmaterial trainiert Im Falle von sme-nob deuten die Autoren allerdingsdarauf hin dass mangels repraumlsentativen Sprachmaterials diese Option keine ist diebefriedigen kann Sie stellen allerdings in Aussicht dass eine Kombination von lin-guistischen CG- und statistischen HMM-Ansaumltzen ein Versuch wert waumlre Dabei wuumlrdezuerst mittels CG ein Kontext eingegrenzt und danach statistisch verfahren

18

notwendig um in das Norwegische zu uumlbersetzen obschon beide Spra-chen der Subjekt-Verb-Objekt-Satzstellung sind

Die Evaluationsergebnisse der Autoren deuten darauf hin dass dasSprachpaar sme-nob funktionalen Charakter hat Post-Editing-Qualitaumltist nicht das Ziel und wird auch nicht erreicht allerdings koumlnnen Nor-wegischsprechende die kein Nordsamisch verstehen in vielen Faumlllenausmachen was die Bedeutung eines Satzes ist - insbesondere dannwenn er kontextualisiert vorliegt

Im Folgenden soll eine praktische Nutzung des Sprachpaars sme-nobin Apertium illustriert werden Als Beispiel diene der einleitende Be-gruumlssungssatz zur Nordsamischen Wikipedia 26 ausgewaumlhlt

$ echo rsquoBures boahtin Wikipediai friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen til Wikipedia til den frie informasjonsordboken

Die resultierende nob-Uumlbersetzung lautet gemaumlss Google Translate 27

auf Deutsch

Willkommen bei Wikipedia dem freien Woumlrterbuch Infor-mationen

Die Uumlbersetzung ist verstaumlndlich abgesehen von der Semantik des Aus-drucks ldquoWoumlrterbuch Informationenrdquo Hier sollte meiner Ansicht nachldquoEnzyklopaumldierdquo stehen Es ist wahrscheinlich dass bereits die Quellenicht den optimalen Begriff fuumlhrt und da das eigentliche Problem liegt

Interessanter ist was passiert wenn wir das ominoumlse i-Suffix bei ldquoWi-kipediairdquo im Nordsamischen entfernen

$ echo rsquoBures boahtin Wikipedia friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen Wikipedia til den frie informasjonsordboken

Wir koumlnnen feststellen dass der Satz einen anderen personalen Bezugherstellt denn gemaumlss Google Translate 28 bedeutet die zweite nob-Uumlbersetzung auf Deutsch

Willkommen Wikipedia dem freien Woumlrterbuch Informa-tionen

Wir werden nun also als ldquoWikipediardquo angesprochen

26 Webseite httpssewikipediaorgwikiVC3A1ldosiidu (letzter Zugriff14062012)27 Vgl hierzu httptranslategooglecomno|de|Velkommen20til20Wikipedia2C20til20den20frie20informasjonsordboken (letzter Zugriff14062012)28 Vgl hierzu httptranslategooglecomno|de|0AVelkommen20Wikipedia2C20til20den20frie20informasjonsordbokenmskip-thinmuskip (letzter Zugriff 14062012)

19

Eine morphologische Analyse der beiden Wortformen ldquoWikipediardquo undldquoWikipediairdquo erhaumlrtet die Vermutungen dass es sich beim i-Suffix umeinen Illativ 29 handelt einem Lokalkasus der dazu genutzt werdenkann eine ldquoHineinbewegungrdquo auszudruumlcken respektive in diesem Falldie entsprechende Praumlposition ldquoaufrdquo in das Substantiv der Named En-tity ldquoWikipediardquo einzugliedern

$ echo Wikipedia | apertium -d sme-nob-morph1^WikipediaWikipedialtNgtltPropgtltOrggtltSggtltAccgtWikipedialtNgtltPropgtltOrggtltSggtltGengtWikipedialtNgtltPropgtltOrggtltSggtltNomgt$^ltCLBgt$

2$ echo Wikipediai | apertium -d sme-nob-morph^WikipediaiWikipedialtNgtltPropgtltOrggtltSggtltIllgt$^ltCLBgt$

Bei Analyse 1 wird ldquoWikipediardquo als ein Substantiv eine Named Entityund (semantisch) als Organisation im Singular markiert Uneinigkeitherrscht fuumlr den Tagger auf dieser Transferstufe noch uumlber den KasusEs ist nicht klar ob ldquoWikipediardquo im Nominativ Akkusativ oder Genitivsteht Das Symbol ltCLBgt steht fuumlr ldquoClause Boundaryrdquo und spielt insbe-sondere fuumlr den Chunker (im Zuge des spaumlteren Transfers) eine Rolle zB zur (groben) Abgrenzung von Nominal- und Verbalphrasen

Analyse 2 faumlllt knapper aus da der Kasusfall keine Rolle mehr spielt -an dessen Stelle tritt nun der Illativ (Symbol ltIllgt) Der Rest bleibt sichgleich

Da aber die Illativ-Markierung in diesem spezifischen Fall auf dernob-Seite zur Oberflaumlchengenerierung des norwegischen Wortes ldquotilrdquo30 fuumlhrt aumlndert sich die Semantik des Satzes merklich

Der Transferprozess bei Apertium kann generell beliebig fein beobach-tet werden fuumlr unser spezifisches Sprachpaar sme-nob sei fuumlr weitereVersuche auf das Apertium-Wiki 31 verwiesen das extensiv Informa-tionen daruumlber fuumlhrt

Es existieren weitere interessante Sprachpaare bei der nur eine Sei-te jeweils stark agglutierend ist und auf entsprechende Formalismen(LEXC- und TWOLC-Formalismen) zuruumlckgegriffen wird So etwa die

29 Vgl Wikipedia httpsdewikipediaorgwikiIllativ (letzter Zugriff14062012)30 Dt ldquoaufrdquo31 httpwikiapertiumorgwikiNorthern_SC3A1mi_and_Norwegian (letzterZugriff 14062012)

20

Sprachpaare quz-spa (Quecha-Castellano) 32 udm-rus (Udmuritische Sprache-Russisch) 33 und kaz-eng (Kasachisch-Englisch) 34 Noch ist der Entwick-lungsstand all dieser Uumlbersetzungsrichtungen aber gering und fuumlr einenproduktiven Einsatz oder eine Evaluation demnach ungeeignet 35

32 Apertium-Wikiseite httpwikiapertiumorgwikiQuechua_cuzqueC3B1o_y_castellano (letzter Zugriff 14062012)33 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-udm-rus (letzter Zugriff 14062012)34 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumincubatorapertium-eng-kaz (letzter Zugriff 14062012)35 Alle drei Sprachpaare sind in den SVN-Ordnern incubator oder nursery un-tergebracht

21

4 Schluss

41 Zusammenfassung und AusblickIn abschliessender Betrachtung ist festzuhalten Die Nutzung von HFSTverleiht Apertium die Faumlhigkeit zu und von Sprachen mit (stark) Nicht-Konkatenativer Morphologie zu uumlbersetzen Dafuumlr muumlssen die Aperti-um-eigenen lttoolbox-Werkzeuge umgangen werden die ansonstenzur morphologischen Analyse und morphologischen Generierung von Wort-formen verwendet werden Der Einsatz von HFST liefert aber keinenMehrwert an anderen Stellen in der Transfer-Pipeline Der lexikalischeTransfer oder strukturelle Anpassungen um der Syntax der Zielsprachenaumlher zu kommen sind Schritte fuumlr die sich die lttoolbox-Werkzeugeweiterhin bewaumlhren

Diskutiert wird eine staumlrkere Integration von HFST in Apertium damitHFST nicht laumlnger der Charakter eines ldquoFremdkoumlrpersrdquo in der Aper-tium-Plattform anhaftet Es existiert die Idee ein Projekt in diese Rich-tung anzustossen um es z B moumlglich zu machen lexc-Dateien anstattmit den HFST-Binaries mit den lttoolbox-Kommandos zu prozessierenDieses Projekt koumlnnte von einem interessierten Studierenden etwa imRahmen des naumlchsten Google Summer of Code (2013) initiiert werden 1

Ein weitere Herausforderung die in der Natur von Apertium als Shallow-Transfer-System begruumlndet liegt 2 hat mit den Bilexika zu tun Apertiummuss fuumlr jedes Sprachpaar ein Bilexikon fuumlhren um den lexikalischenTransfer mittels den lttoolbox-Werkzeugen zu vollziehen Da fuumlr jedeneue Sprachkombination das Bilexikon neu aufgebaut werden mussbesteht hier ein gewisser (manueller) Aufwand bei jedem neuen Sprach-paar das angesetzt wird dieser kann zwar durch Einsatz von Werkzeu-ge aus den apertium-dixtools minimiert werden die Vollautomation

1 Idee zum Projekt httpwikiapertiumorgwikiIdeas_for_Google_Summer_of_CodeCloser_integration_with_HFST (letzter Zugriff 14062012)2 Apertium verwendet keinen sog Interlingua-Ansatz um eine sprachunabhaumlngigeRepraumlsentation von Wortbedeutungen zu fuumlhren

22

funktioniert aber noch nicht 3 4

Weiterhin bleibt Apertium im Grundsatz ein Shallow-Transfer-Systemdas keinen vollstaumlndigen Parse der Quellsprache vornimmt und sietiefen-analysiert Dadurch ist es auch in Zukunft nicht breit moumlglichSemantik uumlber weite Distanzen zu transferieren

Bezuumlglich weiterer Moumlglichkeiten fuumlr Apertium morphologisch zu ana-lysieren generieren kann das Augenmerk auch auf neuere Formalis-men als jene von Xerox 5 gelegt werden So existiert hunmorph 6 dases erlaubt in OCaml 7 - in einem objekt-orientierten Paradigma - Mor-phologien zu beschreiben und dazu eine (relativ) einfache Syntax auf-zuweisen scheint Beispiele explorativer Versuche mit hunmorph fuumlrApertium sind im Wiki des Projekts bereits heute dokumentiert 8 Aus-serdem ist hunmoph morphologisch-analytische Basis des bekanntenSpellcheckers HunSpell das der standardmaumlssige Spellchecker in Libre-Office OpenOfficeorg und einigen Softwareprodukten der MozillaFoundation ist 9

Selber hat es mir Freude bereitet mich in dieses komplexe Gebiet hin-ein zu begeben und ich bin fuumlr die Zukunft interessiert daran michan Apertium nach Kraumlften zu beteiligen da ich die dahinterstehendeCommunity als eine kennen gelernt habe die aufgeschlossen humor-voll und im houmlchsten Masse kompetent ist

42 DanksagungenIch moumlchte mich an dieser Stelle herzlichst im Besonderen bei folgen-den Personen des Apertium-Projekts bedanken dass sie sich Zeit ge-nommen haben sich mit mir im IRC ausgiebig zu unterhalten und denDschungel in und um Apertium zu durchleuchten Mikel L ForcadaFrancis M Tyers Kevin Brubeck Unhammer und Jonathan North Wa-shington

Ohne sie waumlre diese Arbeit in der Form nicht entstanden und vielesQuellmaterial das ich hier verwende schwierg auffindbar gewesen

3 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-dixtools (letzter Zugriff 14062012)4 Vgl hierzu httpwikiapertiumorgwikiCrossdics (letzter Zugriff14062012)5 Namentlich XFST TWOLC und LEXC6 Webseite httpmokkbmehuresourceshunmorph (letzter Zugriff 14062012)7 Webseite httpcamlinriafr (letzter Zugriff 14062012)8 Apertium-Wiki httpwikiapertiumorgwikiHunmorph (letzter Zugriff14062012)9 Webseite httphunspellsourceforgenet (letzter Zugriff 14062012)

23

Literaturverzeichnis

[1] S Clematide Morphologie und Lexikographie Vorlesungs-skript Institut fuumlr Computerlinguistik Universitaumlt Zuumlrich 2007URL httpfilesifiuzhchclsiclematlehress07mulscriptscriptpdf

[2] ML Forcada BI Bonev S Ortiz-Rojas JA Peacuterez-OrtizG Ramiacuterez-Saacutenchez F Saacutenchez-Martiacutenez C Armentano-OllerMA Montava FM Tyers und U dA Departament de Llenguatges iSistemes Informagravetics Documentation of the open-source shallow-transfer machine translation platform apertium 2010 URL httpxixonadlsiuaes~franapertium2-documentationpdf

[3] ML Forcada FM Tyers und G Ramiacuterez-Saacutenchez The Apertiummachine translation platform five years on In Proceedings of the FirstInternational Workshop on FreeOpen-Source Rule-Based Machine Trans-lation 3ndash10 2009 URL httpxixonadlsiuaesfreerbmt09presentationsforcada_freerbmt09_5yrsonpdf

[4] T Trosterud und KB Unhammer Evaluating North Saacutemi to Nor-wegian assimilation RBMT In Proceedings of the Third InternationalWorkshop on FreeOpen-Source Rule-Based Machine Translation 2012URL httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-sme-nobpaperpathrev=38833 (noch kein of-fizielles Paper (im PDF) verfuumlgbar)

24

Abbildungsverzeichnis

21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen 10

25

Anhang

IRC-Konversation zu HFSTTypisches Beispiel einer Konversation 10 mit Jonathan North Washing-ton (ldquofirespeakerrdquo) und Mikel L Forcada (ldquomlforcadardquo) welche we-sentliche Beitraumlge zu Apertium leisten gefuumlhrt im IRC 11

1921 lt h2mgt At which stage of the pipeline is HFST employed1921 lt h2mgt I couldnrsquot get that1921 lt mlforcadagt h2m generation of Kazakh[]1922 lt h2mgt Is this process described somewhere in detailsuch that I can read that up1922 lt mlforcadagt is something that looks like lttoolbox butmore powerful1922 lt mlforcadagt h2m firespeaker can help probably1922 lt h2mgt I can only see lexc and twol files wo reallygetting the point[]1922 lt firespeakergt h2m HFST takes a string of text and turnsit into lemmas + tags1922 lt firespeakergt h2m or1922 lt firespeakergt h2m it takes lemmas + tags and turns itinto a string of text[]1923 lt firespeakergt h2m lexc is the morphotactics1923 lt mlforcadagt firespeaker yoursquore right1923 lt h2mgt Ah OK1923 lt firespeakergt h2m twol is the morphophonology

10 Selber bin ich als ldquoh2mrdquo unterwegs11 ircircfreenodenetapertium

26

  • Einfuumlhrung
    • Motivation und Thema
    • Verwendete Umgebung und Konfiguration
      • Grundlagen Zu Apertium und HFST
        • Wesen und Entwicklungsstand von Apertium
        • Wesen und Entwicklungsstand von HFST
          • Hauptteil Die Integration von HFST in Apertium
            • Theorie Zweck und Nutzen der Integration
            • Empirie Die Integration am Beispiel eines Sprachpaars
              • Schluss
                • Zusammenfassung und Ausblick
                • Danksagungen
                  • Literaturverzeichnis
                  • Abbildungsverzeichnis
                  • Anhang
Page 17: Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

Kevin Brubeck Unhammer Mitte Juni 2012 an der FreeRBMT 2012 erst-mals oumlffentlich vorgetragen wird 16

Die Nordsamische Sprache 17 (sme) verfuumlgt uumlber geschaumltzte 15rsquo000 bis25rsquo000 Sprecher und wird in Norwegen Schweden und Finnland ge-sprochen Die Sprache wird von den Autoren als stark flektierend undagglutinierend eingeteilt

Die Standardvarietaumlt 18 des Norwegischen in die uumlbersetzt wird ver-fuumlgt gemaumlss Ethnologue 19 uumlber rund 45 Millionen Sprecher und gehoumlrtder indogermanischen Sprachfamilie an Die Sprache wird von Troste-rud und Unhammer [4] als morphologisch wenig komplex angegeben

Dieses Sprachpaar gehoumlrt zu den wenigen wo eine indoeuropaumlische(oder -germanische) Sprache unter Einsatz von HFST mit Apertiumuumlbersetzt wird

Bei den meisten anderen Sprachpaaren wo HFST genutzt wird han-delt es sich beidseitig um Sprachen mit komplexer Morphologie

Bezuumlglich des Sprachpaars unserer Betrachtung fokussieren die Auto-ren auf die Uumlbersetzungsrichtung ins Norwegische weil der Anspruchbloss ist dass Nur-Norwegischsprechende Texte aus dem Nordsami-schen verstehen koumlnnen sollen Umgekehrt wuumlrden die meisten Spre-cher des Nordsamischen bereits Norwegisch verstehen womit der Nut-zen der umgekehrten Uumlbersetzungsrichtung als (zum aktuellen Zeit-punkt) gering eingeschaumltzt wird

Als Motivation fuumlr den Einsatz von HFST gegenuumlber lttoolbox wirdbeispielhaft der Stufenwechsel der Konsonanten des Nordsamischen inQuantitaumlt als auch Qualitaumlt angefuumlhrt 20 Generalisiert betrachtet befuumlr-worten die Autoren die Verwendung von HFST wenn Morphologienzu verarbeiten sind die nicht rein konkatenativ sind - wie ich in Kapitel31 zum Zweck von HFST bereits ausgefuumlhrt habe

Grundsaumltzlich wird gemaumlss Entwickler Unhammer 21 (schematisch) diefolgende UNIX-Pipeline fuumlr sme-nob angewandt

$ echo words|hfst-proc sme-analyserhfst|| 1lt-proc sme-to-nob-dixbin|| 2lt-proc nob-generator-dixbin 3

Im Falle von sme-nob wird HFST alleine fuumlr die Analyse (1) von smegenutzt dann wird wieder generell auf lttoolbox gesetzt in wichtigsterHinsicht im Rahmen des lexikalischen Transfers (2) und der Generierung

16 Information gemaumlss einem Gespraumlch mit Kevin Brubeck Unhammer im IRC Kon-ferenzseite mit Programm httpwwwmolto-projecteufreerbmt-programhtml(letzter Zugriff 14062012)17 Engl ldquoNorth Saacutemirdquo18 Als Buchsprache ldquoBokmaringlrdquo19 Ethnologue-Eintrag zu den Sprachen Norwegens httpswwwethnologuecomshow_countryaspname=no (letzter Zugriff 11062012)20 Vgl hierzu Wikipedia httpsdewikipediaorgwikiStufenwechsel (letzterZugriff 14062012)21 Chatgespraumlch im IRC

17

(3) der Zielsprache nob

Der morphologische sme-Analyzer ist dabei in den Formalismen LEXCund TWOLC geschrieben und fusst auf bereits verfuumlgbare Ressourcen22 zuruumlck was aufzeigt dass HFST im Einsatz fuumlr Apertium auch des-halb interessant ist weil viele Morphologien bereits existieren die inFormalismen geschrieben sind die HFST verarbeiten kann Fuumlr dasAnlegen vieler Sprachpaare ist es nicht notwendig alles from scratch zubeginnen

Auch beim nob-Generator konnte auf (eigene fruumlhere) Ressourcen zu-ruumlckgegriffen werden wie diese im Sprachpaar nn-nb 23 verfuumlgbar sindbei dem Sprachpaar wird zwischen zwei norwegischen Sprachverietauml-ten uumlbersetzt Wichtig ist noch einmal zu betonen dass der nob-Teil (zurGeneration der Norwegischen Wortformen) auf lttoolbox setzt und mitHFST nichts zu schaffen hat

Interessant ist der Einsatz der von Trosterud und Unhammer von Grundauf selber geschriebene Constraint Grammar (CG) 24 zur Wortartendisam-biguierung in dem die Auswahl der Woumlrter (fuumlr die Zielsprache) anhandvon (lokalen) grammatikalischen Kontexten (in der Quellsprache) ge-schieht Das ist auch der Grund weshalb ich eingangs in Kapitel 12VISL CG-3 als obligat zu installierendes Paket anfuumlhre Ohne dieseSoftware ist es nicht moumlglich das Sprachpaar sme-nob zu kompilieren25

Zwischen der morphologischen Analyse (von sme) und der morphologischenGenerierung von nob findet der strukturelle Transfer statt der 4-phasig istdie Autoren Trosterud und Unhammer machen hierbei folgende Anga-ben

1 63 Chunk-Regeln (t1x-Datei)

2 26 Interchunk1-Regeln (t2x-Datei)

3 39 Interchunk2-Regeln (t3x-Datei)

4 29 Postchunk-Regeln (t4x-Datei)

Es reicht also nicht bloss aus Wortformen oder Morpheme zu ersetzensondern es sind komplexe Verschiebungen der markierten Lemmata

22 SVN-Repository des Giellatekno-Projekts httpsvictoriouitnolangtechtrunkgtsme (letzter Zugriff 14062012)23 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-nn-nb (letzter Zugriff 14062012)24 Vgl fuumlr einen kurzen Uumlberblick eine CLab-Seite httpkittcluzhchclabconstraintGrammarilap_visl (letzter Zugriff 14062012)25 Zu erwaumlhnen ist in dem Zusammenhang dass bei den meisten SprachpaarenHidden-Markov-Modelle zum Einsatz kommen um die Wortarten zu bestimmen da-fuumlr wird Sprachmaterial trainiert Im Falle von sme-nob deuten die Autoren allerdingsdarauf hin dass mangels repraumlsentativen Sprachmaterials diese Option keine ist diebefriedigen kann Sie stellen allerdings in Aussicht dass eine Kombination von lin-guistischen CG- und statistischen HMM-Ansaumltzen ein Versuch wert waumlre Dabei wuumlrdezuerst mittels CG ein Kontext eingegrenzt und danach statistisch verfahren

18

notwendig um in das Norwegische zu uumlbersetzen obschon beide Spra-chen der Subjekt-Verb-Objekt-Satzstellung sind

Die Evaluationsergebnisse der Autoren deuten darauf hin dass dasSprachpaar sme-nob funktionalen Charakter hat Post-Editing-Qualitaumltist nicht das Ziel und wird auch nicht erreicht allerdings koumlnnen Nor-wegischsprechende die kein Nordsamisch verstehen in vielen Faumlllenausmachen was die Bedeutung eines Satzes ist - insbesondere dannwenn er kontextualisiert vorliegt

Im Folgenden soll eine praktische Nutzung des Sprachpaars sme-nobin Apertium illustriert werden Als Beispiel diene der einleitende Be-gruumlssungssatz zur Nordsamischen Wikipedia 26 ausgewaumlhlt

$ echo rsquoBures boahtin Wikipediai friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen til Wikipedia til den frie informasjonsordboken

Die resultierende nob-Uumlbersetzung lautet gemaumlss Google Translate 27

auf Deutsch

Willkommen bei Wikipedia dem freien Woumlrterbuch Infor-mationen

Die Uumlbersetzung ist verstaumlndlich abgesehen von der Semantik des Aus-drucks ldquoWoumlrterbuch Informationenrdquo Hier sollte meiner Ansicht nachldquoEnzyklopaumldierdquo stehen Es ist wahrscheinlich dass bereits die Quellenicht den optimalen Begriff fuumlhrt und da das eigentliche Problem liegt

Interessanter ist was passiert wenn wir das ominoumlse i-Suffix bei ldquoWi-kipediairdquo im Nordsamischen entfernen

$ echo rsquoBures boahtin Wikipedia friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen Wikipedia til den frie informasjonsordboken

Wir koumlnnen feststellen dass der Satz einen anderen personalen Bezugherstellt denn gemaumlss Google Translate 28 bedeutet die zweite nob-Uumlbersetzung auf Deutsch

Willkommen Wikipedia dem freien Woumlrterbuch Informa-tionen

Wir werden nun also als ldquoWikipediardquo angesprochen

26 Webseite httpssewikipediaorgwikiVC3A1ldosiidu (letzter Zugriff14062012)27 Vgl hierzu httptranslategooglecomno|de|Velkommen20til20Wikipedia2C20til20den20frie20informasjonsordboken (letzter Zugriff14062012)28 Vgl hierzu httptranslategooglecomno|de|0AVelkommen20Wikipedia2C20til20den20frie20informasjonsordbokenmskip-thinmuskip (letzter Zugriff 14062012)

19

Eine morphologische Analyse der beiden Wortformen ldquoWikipediardquo undldquoWikipediairdquo erhaumlrtet die Vermutungen dass es sich beim i-Suffix umeinen Illativ 29 handelt einem Lokalkasus der dazu genutzt werdenkann eine ldquoHineinbewegungrdquo auszudruumlcken respektive in diesem Falldie entsprechende Praumlposition ldquoaufrdquo in das Substantiv der Named En-tity ldquoWikipediardquo einzugliedern

$ echo Wikipedia | apertium -d sme-nob-morph1^WikipediaWikipedialtNgtltPropgtltOrggtltSggtltAccgtWikipedialtNgtltPropgtltOrggtltSggtltGengtWikipedialtNgtltPropgtltOrggtltSggtltNomgt$^ltCLBgt$

2$ echo Wikipediai | apertium -d sme-nob-morph^WikipediaiWikipedialtNgtltPropgtltOrggtltSggtltIllgt$^ltCLBgt$

Bei Analyse 1 wird ldquoWikipediardquo als ein Substantiv eine Named Entityund (semantisch) als Organisation im Singular markiert Uneinigkeitherrscht fuumlr den Tagger auf dieser Transferstufe noch uumlber den KasusEs ist nicht klar ob ldquoWikipediardquo im Nominativ Akkusativ oder Genitivsteht Das Symbol ltCLBgt steht fuumlr ldquoClause Boundaryrdquo und spielt insbe-sondere fuumlr den Chunker (im Zuge des spaumlteren Transfers) eine Rolle zB zur (groben) Abgrenzung von Nominal- und Verbalphrasen

Analyse 2 faumlllt knapper aus da der Kasusfall keine Rolle mehr spielt -an dessen Stelle tritt nun der Illativ (Symbol ltIllgt) Der Rest bleibt sichgleich

Da aber die Illativ-Markierung in diesem spezifischen Fall auf dernob-Seite zur Oberflaumlchengenerierung des norwegischen Wortes ldquotilrdquo30 fuumlhrt aumlndert sich die Semantik des Satzes merklich

Der Transferprozess bei Apertium kann generell beliebig fein beobach-tet werden fuumlr unser spezifisches Sprachpaar sme-nob sei fuumlr weitereVersuche auf das Apertium-Wiki 31 verwiesen das extensiv Informa-tionen daruumlber fuumlhrt

Es existieren weitere interessante Sprachpaare bei der nur eine Sei-te jeweils stark agglutierend ist und auf entsprechende Formalismen(LEXC- und TWOLC-Formalismen) zuruumlckgegriffen wird So etwa die

29 Vgl Wikipedia httpsdewikipediaorgwikiIllativ (letzter Zugriff14062012)30 Dt ldquoaufrdquo31 httpwikiapertiumorgwikiNorthern_SC3A1mi_and_Norwegian (letzterZugriff 14062012)

20

Sprachpaare quz-spa (Quecha-Castellano) 32 udm-rus (Udmuritische Sprache-Russisch) 33 und kaz-eng (Kasachisch-Englisch) 34 Noch ist der Entwick-lungsstand all dieser Uumlbersetzungsrichtungen aber gering und fuumlr einenproduktiven Einsatz oder eine Evaluation demnach ungeeignet 35

32 Apertium-Wikiseite httpwikiapertiumorgwikiQuechua_cuzqueC3B1o_y_castellano (letzter Zugriff 14062012)33 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-udm-rus (letzter Zugriff 14062012)34 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumincubatorapertium-eng-kaz (letzter Zugriff 14062012)35 Alle drei Sprachpaare sind in den SVN-Ordnern incubator oder nursery un-tergebracht

21

4 Schluss

41 Zusammenfassung und AusblickIn abschliessender Betrachtung ist festzuhalten Die Nutzung von HFSTverleiht Apertium die Faumlhigkeit zu und von Sprachen mit (stark) Nicht-Konkatenativer Morphologie zu uumlbersetzen Dafuumlr muumlssen die Aperti-um-eigenen lttoolbox-Werkzeuge umgangen werden die ansonstenzur morphologischen Analyse und morphologischen Generierung von Wort-formen verwendet werden Der Einsatz von HFST liefert aber keinenMehrwert an anderen Stellen in der Transfer-Pipeline Der lexikalischeTransfer oder strukturelle Anpassungen um der Syntax der Zielsprachenaumlher zu kommen sind Schritte fuumlr die sich die lttoolbox-Werkzeugeweiterhin bewaumlhren

Diskutiert wird eine staumlrkere Integration von HFST in Apertium damitHFST nicht laumlnger der Charakter eines ldquoFremdkoumlrpersrdquo in der Aper-tium-Plattform anhaftet Es existiert die Idee ein Projekt in diese Rich-tung anzustossen um es z B moumlglich zu machen lexc-Dateien anstattmit den HFST-Binaries mit den lttoolbox-Kommandos zu prozessierenDieses Projekt koumlnnte von einem interessierten Studierenden etwa imRahmen des naumlchsten Google Summer of Code (2013) initiiert werden 1

Ein weitere Herausforderung die in der Natur von Apertium als Shallow-Transfer-System begruumlndet liegt 2 hat mit den Bilexika zu tun Apertiummuss fuumlr jedes Sprachpaar ein Bilexikon fuumlhren um den lexikalischenTransfer mittels den lttoolbox-Werkzeugen zu vollziehen Da fuumlr jedeneue Sprachkombination das Bilexikon neu aufgebaut werden mussbesteht hier ein gewisser (manueller) Aufwand bei jedem neuen Sprach-paar das angesetzt wird dieser kann zwar durch Einsatz von Werkzeu-ge aus den apertium-dixtools minimiert werden die Vollautomation

1 Idee zum Projekt httpwikiapertiumorgwikiIdeas_for_Google_Summer_of_CodeCloser_integration_with_HFST (letzter Zugriff 14062012)2 Apertium verwendet keinen sog Interlingua-Ansatz um eine sprachunabhaumlngigeRepraumlsentation von Wortbedeutungen zu fuumlhren

22

funktioniert aber noch nicht 3 4

Weiterhin bleibt Apertium im Grundsatz ein Shallow-Transfer-Systemdas keinen vollstaumlndigen Parse der Quellsprache vornimmt und sietiefen-analysiert Dadurch ist es auch in Zukunft nicht breit moumlglichSemantik uumlber weite Distanzen zu transferieren

Bezuumlglich weiterer Moumlglichkeiten fuumlr Apertium morphologisch zu ana-lysieren generieren kann das Augenmerk auch auf neuere Formalis-men als jene von Xerox 5 gelegt werden So existiert hunmorph 6 dases erlaubt in OCaml 7 - in einem objekt-orientierten Paradigma - Mor-phologien zu beschreiben und dazu eine (relativ) einfache Syntax auf-zuweisen scheint Beispiele explorativer Versuche mit hunmorph fuumlrApertium sind im Wiki des Projekts bereits heute dokumentiert 8 Aus-serdem ist hunmoph morphologisch-analytische Basis des bekanntenSpellcheckers HunSpell das der standardmaumlssige Spellchecker in Libre-Office OpenOfficeorg und einigen Softwareprodukten der MozillaFoundation ist 9

Selber hat es mir Freude bereitet mich in dieses komplexe Gebiet hin-ein zu begeben und ich bin fuumlr die Zukunft interessiert daran michan Apertium nach Kraumlften zu beteiligen da ich die dahinterstehendeCommunity als eine kennen gelernt habe die aufgeschlossen humor-voll und im houmlchsten Masse kompetent ist

42 DanksagungenIch moumlchte mich an dieser Stelle herzlichst im Besonderen bei folgen-den Personen des Apertium-Projekts bedanken dass sie sich Zeit ge-nommen haben sich mit mir im IRC ausgiebig zu unterhalten und denDschungel in und um Apertium zu durchleuchten Mikel L ForcadaFrancis M Tyers Kevin Brubeck Unhammer und Jonathan North Wa-shington

Ohne sie waumlre diese Arbeit in der Form nicht entstanden und vielesQuellmaterial das ich hier verwende schwierg auffindbar gewesen

3 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-dixtools (letzter Zugriff 14062012)4 Vgl hierzu httpwikiapertiumorgwikiCrossdics (letzter Zugriff14062012)5 Namentlich XFST TWOLC und LEXC6 Webseite httpmokkbmehuresourceshunmorph (letzter Zugriff 14062012)7 Webseite httpcamlinriafr (letzter Zugriff 14062012)8 Apertium-Wiki httpwikiapertiumorgwikiHunmorph (letzter Zugriff14062012)9 Webseite httphunspellsourceforgenet (letzter Zugriff 14062012)

23

Literaturverzeichnis

[1] S Clematide Morphologie und Lexikographie Vorlesungs-skript Institut fuumlr Computerlinguistik Universitaumlt Zuumlrich 2007URL httpfilesifiuzhchclsiclematlehress07mulscriptscriptpdf

[2] ML Forcada BI Bonev S Ortiz-Rojas JA Peacuterez-OrtizG Ramiacuterez-Saacutenchez F Saacutenchez-Martiacutenez C Armentano-OllerMA Montava FM Tyers und U dA Departament de Llenguatges iSistemes Informagravetics Documentation of the open-source shallow-transfer machine translation platform apertium 2010 URL httpxixonadlsiuaes~franapertium2-documentationpdf

[3] ML Forcada FM Tyers und G Ramiacuterez-Saacutenchez The Apertiummachine translation platform five years on In Proceedings of the FirstInternational Workshop on FreeOpen-Source Rule-Based Machine Trans-lation 3ndash10 2009 URL httpxixonadlsiuaesfreerbmt09presentationsforcada_freerbmt09_5yrsonpdf

[4] T Trosterud und KB Unhammer Evaluating North Saacutemi to Nor-wegian assimilation RBMT In Proceedings of the Third InternationalWorkshop on FreeOpen-Source Rule-Based Machine Translation 2012URL httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-sme-nobpaperpathrev=38833 (noch kein of-fizielles Paper (im PDF) verfuumlgbar)

24

Abbildungsverzeichnis

21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen 10

25

Anhang

IRC-Konversation zu HFSTTypisches Beispiel einer Konversation 10 mit Jonathan North Washing-ton (ldquofirespeakerrdquo) und Mikel L Forcada (ldquomlforcadardquo) welche we-sentliche Beitraumlge zu Apertium leisten gefuumlhrt im IRC 11

1921 lt h2mgt At which stage of the pipeline is HFST employed1921 lt h2mgt I couldnrsquot get that1921 lt mlforcadagt h2m generation of Kazakh[]1922 lt h2mgt Is this process described somewhere in detailsuch that I can read that up1922 lt mlforcadagt is something that looks like lttoolbox butmore powerful1922 lt mlforcadagt h2m firespeaker can help probably1922 lt h2mgt I can only see lexc and twol files wo reallygetting the point[]1922 lt firespeakergt h2m HFST takes a string of text and turnsit into lemmas + tags1922 lt firespeakergt h2m or1922 lt firespeakergt h2m it takes lemmas + tags and turns itinto a string of text[]1923 lt firespeakergt h2m lexc is the morphotactics1923 lt mlforcadagt firespeaker yoursquore right1923 lt h2mgt Ah OK1923 lt firespeakergt h2m twol is the morphophonology

10 Selber bin ich als ldquoh2mrdquo unterwegs11 ircircfreenodenetapertium

26

  • Einfuumlhrung
    • Motivation und Thema
    • Verwendete Umgebung und Konfiguration
      • Grundlagen Zu Apertium und HFST
        • Wesen und Entwicklungsstand von Apertium
        • Wesen und Entwicklungsstand von HFST
          • Hauptteil Die Integration von HFST in Apertium
            • Theorie Zweck und Nutzen der Integration
            • Empirie Die Integration am Beispiel eines Sprachpaars
              • Schluss
                • Zusammenfassung und Ausblick
                • Danksagungen
                  • Literaturverzeichnis
                  • Abbildungsverzeichnis
                  • Anhang
Page 18: Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

(3) der Zielsprache nob

Der morphologische sme-Analyzer ist dabei in den Formalismen LEXCund TWOLC geschrieben und fusst auf bereits verfuumlgbare Ressourcen22 zuruumlck was aufzeigt dass HFST im Einsatz fuumlr Apertium auch des-halb interessant ist weil viele Morphologien bereits existieren die inFormalismen geschrieben sind die HFST verarbeiten kann Fuumlr dasAnlegen vieler Sprachpaare ist es nicht notwendig alles from scratch zubeginnen

Auch beim nob-Generator konnte auf (eigene fruumlhere) Ressourcen zu-ruumlckgegriffen werden wie diese im Sprachpaar nn-nb 23 verfuumlgbar sindbei dem Sprachpaar wird zwischen zwei norwegischen Sprachverietauml-ten uumlbersetzt Wichtig ist noch einmal zu betonen dass der nob-Teil (zurGeneration der Norwegischen Wortformen) auf lttoolbox setzt und mitHFST nichts zu schaffen hat

Interessant ist der Einsatz der von Trosterud und Unhammer von Grundauf selber geschriebene Constraint Grammar (CG) 24 zur Wortartendisam-biguierung in dem die Auswahl der Woumlrter (fuumlr die Zielsprache) anhandvon (lokalen) grammatikalischen Kontexten (in der Quellsprache) ge-schieht Das ist auch der Grund weshalb ich eingangs in Kapitel 12VISL CG-3 als obligat zu installierendes Paket anfuumlhre Ohne dieseSoftware ist es nicht moumlglich das Sprachpaar sme-nob zu kompilieren25

Zwischen der morphologischen Analyse (von sme) und der morphologischenGenerierung von nob findet der strukturelle Transfer statt der 4-phasig istdie Autoren Trosterud und Unhammer machen hierbei folgende Anga-ben

1 63 Chunk-Regeln (t1x-Datei)

2 26 Interchunk1-Regeln (t2x-Datei)

3 39 Interchunk2-Regeln (t3x-Datei)

4 29 Postchunk-Regeln (t4x-Datei)

Es reicht also nicht bloss aus Wortformen oder Morpheme zu ersetzensondern es sind komplexe Verschiebungen der markierten Lemmata

22 SVN-Repository des Giellatekno-Projekts httpsvictoriouitnolangtechtrunkgtsme (letzter Zugriff 14062012)23 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-nn-nb (letzter Zugriff 14062012)24 Vgl fuumlr einen kurzen Uumlberblick eine CLab-Seite httpkittcluzhchclabconstraintGrammarilap_visl (letzter Zugriff 14062012)25 Zu erwaumlhnen ist in dem Zusammenhang dass bei den meisten SprachpaarenHidden-Markov-Modelle zum Einsatz kommen um die Wortarten zu bestimmen da-fuumlr wird Sprachmaterial trainiert Im Falle von sme-nob deuten die Autoren allerdingsdarauf hin dass mangels repraumlsentativen Sprachmaterials diese Option keine ist diebefriedigen kann Sie stellen allerdings in Aussicht dass eine Kombination von lin-guistischen CG- und statistischen HMM-Ansaumltzen ein Versuch wert waumlre Dabei wuumlrdezuerst mittels CG ein Kontext eingegrenzt und danach statistisch verfahren

18

notwendig um in das Norwegische zu uumlbersetzen obschon beide Spra-chen der Subjekt-Verb-Objekt-Satzstellung sind

Die Evaluationsergebnisse der Autoren deuten darauf hin dass dasSprachpaar sme-nob funktionalen Charakter hat Post-Editing-Qualitaumltist nicht das Ziel und wird auch nicht erreicht allerdings koumlnnen Nor-wegischsprechende die kein Nordsamisch verstehen in vielen Faumlllenausmachen was die Bedeutung eines Satzes ist - insbesondere dannwenn er kontextualisiert vorliegt

Im Folgenden soll eine praktische Nutzung des Sprachpaars sme-nobin Apertium illustriert werden Als Beispiel diene der einleitende Be-gruumlssungssatz zur Nordsamischen Wikipedia 26 ausgewaumlhlt

$ echo rsquoBures boahtin Wikipediai friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen til Wikipedia til den frie informasjonsordboken

Die resultierende nob-Uumlbersetzung lautet gemaumlss Google Translate 27

auf Deutsch

Willkommen bei Wikipedia dem freien Woumlrterbuch Infor-mationen

Die Uumlbersetzung ist verstaumlndlich abgesehen von der Semantik des Aus-drucks ldquoWoumlrterbuch Informationenrdquo Hier sollte meiner Ansicht nachldquoEnzyklopaumldierdquo stehen Es ist wahrscheinlich dass bereits die Quellenicht den optimalen Begriff fuumlhrt und da das eigentliche Problem liegt

Interessanter ist was passiert wenn wir das ominoumlse i-Suffix bei ldquoWi-kipediairdquo im Nordsamischen entfernen

$ echo rsquoBures boahtin Wikipedia friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen Wikipedia til den frie informasjonsordboken

Wir koumlnnen feststellen dass der Satz einen anderen personalen Bezugherstellt denn gemaumlss Google Translate 28 bedeutet die zweite nob-Uumlbersetzung auf Deutsch

Willkommen Wikipedia dem freien Woumlrterbuch Informa-tionen

Wir werden nun also als ldquoWikipediardquo angesprochen

26 Webseite httpssewikipediaorgwikiVC3A1ldosiidu (letzter Zugriff14062012)27 Vgl hierzu httptranslategooglecomno|de|Velkommen20til20Wikipedia2C20til20den20frie20informasjonsordboken (letzter Zugriff14062012)28 Vgl hierzu httptranslategooglecomno|de|0AVelkommen20Wikipedia2C20til20den20frie20informasjonsordbokenmskip-thinmuskip (letzter Zugriff 14062012)

19

Eine morphologische Analyse der beiden Wortformen ldquoWikipediardquo undldquoWikipediairdquo erhaumlrtet die Vermutungen dass es sich beim i-Suffix umeinen Illativ 29 handelt einem Lokalkasus der dazu genutzt werdenkann eine ldquoHineinbewegungrdquo auszudruumlcken respektive in diesem Falldie entsprechende Praumlposition ldquoaufrdquo in das Substantiv der Named En-tity ldquoWikipediardquo einzugliedern

$ echo Wikipedia | apertium -d sme-nob-morph1^WikipediaWikipedialtNgtltPropgtltOrggtltSggtltAccgtWikipedialtNgtltPropgtltOrggtltSggtltGengtWikipedialtNgtltPropgtltOrggtltSggtltNomgt$^ltCLBgt$

2$ echo Wikipediai | apertium -d sme-nob-morph^WikipediaiWikipedialtNgtltPropgtltOrggtltSggtltIllgt$^ltCLBgt$

Bei Analyse 1 wird ldquoWikipediardquo als ein Substantiv eine Named Entityund (semantisch) als Organisation im Singular markiert Uneinigkeitherrscht fuumlr den Tagger auf dieser Transferstufe noch uumlber den KasusEs ist nicht klar ob ldquoWikipediardquo im Nominativ Akkusativ oder Genitivsteht Das Symbol ltCLBgt steht fuumlr ldquoClause Boundaryrdquo und spielt insbe-sondere fuumlr den Chunker (im Zuge des spaumlteren Transfers) eine Rolle zB zur (groben) Abgrenzung von Nominal- und Verbalphrasen

Analyse 2 faumlllt knapper aus da der Kasusfall keine Rolle mehr spielt -an dessen Stelle tritt nun der Illativ (Symbol ltIllgt) Der Rest bleibt sichgleich

Da aber die Illativ-Markierung in diesem spezifischen Fall auf dernob-Seite zur Oberflaumlchengenerierung des norwegischen Wortes ldquotilrdquo30 fuumlhrt aumlndert sich die Semantik des Satzes merklich

Der Transferprozess bei Apertium kann generell beliebig fein beobach-tet werden fuumlr unser spezifisches Sprachpaar sme-nob sei fuumlr weitereVersuche auf das Apertium-Wiki 31 verwiesen das extensiv Informa-tionen daruumlber fuumlhrt

Es existieren weitere interessante Sprachpaare bei der nur eine Sei-te jeweils stark agglutierend ist und auf entsprechende Formalismen(LEXC- und TWOLC-Formalismen) zuruumlckgegriffen wird So etwa die

29 Vgl Wikipedia httpsdewikipediaorgwikiIllativ (letzter Zugriff14062012)30 Dt ldquoaufrdquo31 httpwikiapertiumorgwikiNorthern_SC3A1mi_and_Norwegian (letzterZugriff 14062012)

20

Sprachpaare quz-spa (Quecha-Castellano) 32 udm-rus (Udmuritische Sprache-Russisch) 33 und kaz-eng (Kasachisch-Englisch) 34 Noch ist der Entwick-lungsstand all dieser Uumlbersetzungsrichtungen aber gering und fuumlr einenproduktiven Einsatz oder eine Evaluation demnach ungeeignet 35

32 Apertium-Wikiseite httpwikiapertiumorgwikiQuechua_cuzqueC3B1o_y_castellano (letzter Zugriff 14062012)33 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-udm-rus (letzter Zugriff 14062012)34 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumincubatorapertium-eng-kaz (letzter Zugriff 14062012)35 Alle drei Sprachpaare sind in den SVN-Ordnern incubator oder nursery un-tergebracht

21

4 Schluss

41 Zusammenfassung und AusblickIn abschliessender Betrachtung ist festzuhalten Die Nutzung von HFSTverleiht Apertium die Faumlhigkeit zu und von Sprachen mit (stark) Nicht-Konkatenativer Morphologie zu uumlbersetzen Dafuumlr muumlssen die Aperti-um-eigenen lttoolbox-Werkzeuge umgangen werden die ansonstenzur morphologischen Analyse und morphologischen Generierung von Wort-formen verwendet werden Der Einsatz von HFST liefert aber keinenMehrwert an anderen Stellen in der Transfer-Pipeline Der lexikalischeTransfer oder strukturelle Anpassungen um der Syntax der Zielsprachenaumlher zu kommen sind Schritte fuumlr die sich die lttoolbox-Werkzeugeweiterhin bewaumlhren

Diskutiert wird eine staumlrkere Integration von HFST in Apertium damitHFST nicht laumlnger der Charakter eines ldquoFremdkoumlrpersrdquo in der Aper-tium-Plattform anhaftet Es existiert die Idee ein Projekt in diese Rich-tung anzustossen um es z B moumlglich zu machen lexc-Dateien anstattmit den HFST-Binaries mit den lttoolbox-Kommandos zu prozessierenDieses Projekt koumlnnte von einem interessierten Studierenden etwa imRahmen des naumlchsten Google Summer of Code (2013) initiiert werden 1

Ein weitere Herausforderung die in der Natur von Apertium als Shallow-Transfer-System begruumlndet liegt 2 hat mit den Bilexika zu tun Apertiummuss fuumlr jedes Sprachpaar ein Bilexikon fuumlhren um den lexikalischenTransfer mittels den lttoolbox-Werkzeugen zu vollziehen Da fuumlr jedeneue Sprachkombination das Bilexikon neu aufgebaut werden mussbesteht hier ein gewisser (manueller) Aufwand bei jedem neuen Sprach-paar das angesetzt wird dieser kann zwar durch Einsatz von Werkzeu-ge aus den apertium-dixtools minimiert werden die Vollautomation

1 Idee zum Projekt httpwikiapertiumorgwikiIdeas_for_Google_Summer_of_CodeCloser_integration_with_HFST (letzter Zugriff 14062012)2 Apertium verwendet keinen sog Interlingua-Ansatz um eine sprachunabhaumlngigeRepraumlsentation von Wortbedeutungen zu fuumlhren

22

funktioniert aber noch nicht 3 4

Weiterhin bleibt Apertium im Grundsatz ein Shallow-Transfer-Systemdas keinen vollstaumlndigen Parse der Quellsprache vornimmt und sietiefen-analysiert Dadurch ist es auch in Zukunft nicht breit moumlglichSemantik uumlber weite Distanzen zu transferieren

Bezuumlglich weiterer Moumlglichkeiten fuumlr Apertium morphologisch zu ana-lysieren generieren kann das Augenmerk auch auf neuere Formalis-men als jene von Xerox 5 gelegt werden So existiert hunmorph 6 dases erlaubt in OCaml 7 - in einem objekt-orientierten Paradigma - Mor-phologien zu beschreiben und dazu eine (relativ) einfache Syntax auf-zuweisen scheint Beispiele explorativer Versuche mit hunmorph fuumlrApertium sind im Wiki des Projekts bereits heute dokumentiert 8 Aus-serdem ist hunmoph morphologisch-analytische Basis des bekanntenSpellcheckers HunSpell das der standardmaumlssige Spellchecker in Libre-Office OpenOfficeorg und einigen Softwareprodukten der MozillaFoundation ist 9

Selber hat es mir Freude bereitet mich in dieses komplexe Gebiet hin-ein zu begeben und ich bin fuumlr die Zukunft interessiert daran michan Apertium nach Kraumlften zu beteiligen da ich die dahinterstehendeCommunity als eine kennen gelernt habe die aufgeschlossen humor-voll und im houmlchsten Masse kompetent ist

42 DanksagungenIch moumlchte mich an dieser Stelle herzlichst im Besonderen bei folgen-den Personen des Apertium-Projekts bedanken dass sie sich Zeit ge-nommen haben sich mit mir im IRC ausgiebig zu unterhalten und denDschungel in und um Apertium zu durchleuchten Mikel L ForcadaFrancis M Tyers Kevin Brubeck Unhammer und Jonathan North Wa-shington

Ohne sie waumlre diese Arbeit in der Form nicht entstanden und vielesQuellmaterial das ich hier verwende schwierg auffindbar gewesen

3 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-dixtools (letzter Zugriff 14062012)4 Vgl hierzu httpwikiapertiumorgwikiCrossdics (letzter Zugriff14062012)5 Namentlich XFST TWOLC und LEXC6 Webseite httpmokkbmehuresourceshunmorph (letzter Zugriff 14062012)7 Webseite httpcamlinriafr (letzter Zugriff 14062012)8 Apertium-Wiki httpwikiapertiumorgwikiHunmorph (letzter Zugriff14062012)9 Webseite httphunspellsourceforgenet (letzter Zugriff 14062012)

23

Literaturverzeichnis

[1] S Clematide Morphologie und Lexikographie Vorlesungs-skript Institut fuumlr Computerlinguistik Universitaumlt Zuumlrich 2007URL httpfilesifiuzhchclsiclematlehress07mulscriptscriptpdf

[2] ML Forcada BI Bonev S Ortiz-Rojas JA Peacuterez-OrtizG Ramiacuterez-Saacutenchez F Saacutenchez-Martiacutenez C Armentano-OllerMA Montava FM Tyers und U dA Departament de Llenguatges iSistemes Informagravetics Documentation of the open-source shallow-transfer machine translation platform apertium 2010 URL httpxixonadlsiuaes~franapertium2-documentationpdf

[3] ML Forcada FM Tyers und G Ramiacuterez-Saacutenchez The Apertiummachine translation platform five years on In Proceedings of the FirstInternational Workshop on FreeOpen-Source Rule-Based Machine Trans-lation 3ndash10 2009 URL httpxixonadlsiuaesfreerbmt09presentationsforcada_freerbmt09_5yrsonpdf

[4] T Trosterud und KB Unhammer Evaluating North Saacutemi to Nor-wegian assimilation RBMT In Proceedings of the Third InternationalWorkshop on FreeOpen-Source Rule-Based Machine Translation 2012URL httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-sme-nobpaperpathrev=38833 (noch kein of-fizielles Paper (im PDF) verfuumlgbar)

24

Abbildungsverzeichnis

21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen 10

25

Anhang

IRC-Konversation zu HFSTTypisches Beispiel einer Konversation 10 mit Jonathan North Washing-ton (ldquofirespeakerrdquo) und Mikel L Forcada (ldquomlforcadardquo) welche we-sentliche Beitraumlge zu Apertium leisten gefuumlhrt im IRC 11

1921 lt h2mgt At which stage of the pipeline is HFST employed1921 lt h2mgt I couldnrsquot get that1921 lt mlforcadagt h2m generation of Kazakh[]1922 lt h2mgt Is this process described somewhere in detailsuch that I can read that up1922 lt mlforcadagt is something that looks like lttoolbox butmore powerful1922 lt mlforcadagt h2m firespeaker can help probably1922 lt h2mgt I can only see lexc and twol files wo reallygetting the point[]1922 lt firespeakergt h2m HFST takes a string of text and turnsit into lemmas + tags1922 lt firespeakergt h2m or1922 lt firespeakergt h2m it takes lemmas + tags and turns itinto a string of text[]1923 lt firespeakergt h2m lexc is the morphotactics1923 lt mlforcadagt firespeaker yoursquore right1923 lt h2mgt Ah OK1923 lt firespeakergt h2m twol is the morphophonology

10 Selber bin ich als ldquoh2mrdquo unterwegs11 ircircfreenodenetapertium

26

  • Einfuumlhrung
    • Motivation und Thema
    • Verwendete Umgebung und Konfiguration
      • Grundlagen Zu Apertium und HFST
        • Wesen und Entwicklungsstand von Apertium
        • Wesen und Entwicklungsstand von HFST
          • Hauptteil Die Integration von HFST in Apertium
            • Theorie Zweck und Nutzen der Integration
            • Empirie Die Integration am Beispiel eines Sprachpaars
              • Schluss
                • Zusammenfassung und Ausblick
                • Danksagungen
                  • Literaturverzeichnis
                  • Abbildungsverzeichnis
                  • Anhang
Page 19: Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

notwendig um in das Norwegische zu uumlbersetzen obschon beide Spra-chen der Subjekt-Verb-Objekt-Satzstellung sind

Die Evaluationsergebnisse der Autoren deuten darauf hin dass dasSprachpaar sme-nob funktionalen Charakter hat Post-Editing-Qualitaumltist nicht das Ziel und wird auch nicht erreicht allerdings koumlnnen Nor-wegischsprechende die kein Nordsamisch verstehen in vielen Faumlllenausmachen was die Bedeutung eines Satzes ist - insbesondere dannwenn er kontextualisiert vorliegt

Im Folgenden soll eine praktische Nutzung des Sprachpaars sme-nobin Apertium illustriert werden Als Beispiel diene der einleitende Be-gruumlssungssatz zur Nordsamischen Wikipedia 26 ausgewaumlhlt

$ echo rsquoBures boahtin Wikipediai friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen til Wikipedia til den frie informasjonsordboken

Die resultierende nob-Uumlbersetzung lautet gemaumlss Google Translate 27

auf Deutsch

Willkommen bei Wikipedia dem freien Woumlrterbuch Infor-mationen

Die Uumlbersetzung ist verstaumlndlich abgesehen von der Semantik des Aus-drucks ldquoWoumlrterbuch Informationenrdquo Hier sollte meiner Ansicht nachldquoEnzyklopaumldierdquo stehen Es ist wahrscheinlich dass bereits die Quellenicht den optimalen Begriff fuumlhrt und da das eigentliche Problem liegt

Interessanter ist was passiert wenn wir das ominoumlse i-Suffix bei ldquoWi-kipediairdquo im Nordsamischen entfernen

$ echo rsquoBures boahtin Wikipedia friddja diehtosaacutetnegirjaacuteirsquo | apertium sme-nobVelkommen Wikipedia til den frie informasjonsordboken

Wir koumlnnen feststellen dass der Satz einen anderen personalen Bezugherstellt denn gemaumlss Google Translate 28 bedeutet die zweite nob-Uumlbersetzung auf Deutsch

Willkommen Wikipedia dem freien Woumlrterbuch Informa-tionen

Wir werden nun also als ldquoWikipediardquo angesprochen

26 Webseite httpssewikipediaorgwikiVC3A1ldosiidu (letzter Zugriff14062012)27 Vgl hierzu httptranslategooglecomno|de|Velkommen20til20Wikipedia2C20til20den20frie20informasjonsordboken (letzter Zugriff14062012)28 Vgl hierzu httptranslategooglecomno|de|0AVelkommen20Wikipedia2C20til20den20frie20informasjonsordbokenmskip-thinmuskip (letzter Zugriff 14062012)

19

Eine morphologische Analyse der beiden Wortformen ldquoWikipediardquo undldquoWikipediairdquo erhaumlrtet die Vermutungen dass es sich beim i-Suffix umeinen Illativ 29 handelt einem Lokalkasus der dazu genutzt werdenkann eine ldquoHineinbewegungrdquo auszudruumlcken respektive in diesem Falldie entsprechende Praumlposition ldquoaufrdquo in das Substantiv der Named En-tity ldquoWikipediardquo einzugliedern

$ echo Wikipedia | apertium -d sme-nob-morph1^WikipediaWikipedialtNgtltPropgtltOrggtltSggtltAccgtWikipedialtNgtltPropgtltOrggtltSggtltGengtWikipedialtNgtltPropgtltOrggtltSggtltNomgt$^ltCLBgt$

2$ echo Wikipediai | apertium -d sme-nob-morph^WikipediaiWikipedialtNgtltPropgtltOrggtltSggtltIllgt$^ltCLBgt$

Bei Analyse 1 wird ldquoWikipediardquo als ein Substantiv eine Named Entityund (semantisch) als Organisation im Singular markiert Uneinigkeitherrscht fuumlr den Tagger auf dieser Transferstufe noch uumlber den KasusEs ist nicht klar ob ldquoWikipediardquo im Nominativ Akkusativ oder Genitivsteht Das Symbol ltCLBgt steht fuumlr ldquoClause Boundaryrdquo und spielt insbe-sondere fuumlr den Chunker (im Zuge des spaumlteren Transfers) eine Rolle zB zur (groben) Abgrenzung von Nominal- und Verbalphrasen

Analyse 2 faumlllt knapper aus da der Kasusfall keine Rolle mehr spielt -an dessen Stelle tritt nun der Illativ (Symbol ltIllgt) Der Rest bleibt sichgleich

Da aber die Illativ-Markierung in diesem spezifischen Fall auf dernob-Seite zur Oberflaumlchengenerierung des norwegischen Wortes ldquotilrdquo30 fuumlhrt aumlndert sich die Semantik des Satzes merklich

Der Transferprozess bei Apertium kann generell beliebig fein beobach-tet werden fuumlr unser spezifisches Sprachpaar sme-nob sei fuumlr weitereVersuche auf das Apertium-Wiki 31 verwiesen das extensiv Informa-tionen daruumlber fuumlhrt

Es existieren weitere interessante Sprachpaare bei der nur eine Sei-te jeweils stark agglutierend ist und auf entsprechende Formalismen(LEXC- und TWOLC-Formalismen) zuruumlckgegriffen wird So etwa die

29 Vgl Wikipedia httpsdewikipediaorgwikiIllativ (letzter Zugriff14062012)30 Dt ldquoaufrdquo31 httpwikiapertiumorgwikiNorthern_SC3A1mi_and_Norwegian (letzterZugriff 14062012)

20

Sprachpaare quz-spa (Quecha-Castellano) 32 udm-rus (Udmuritische Sprache-Russisch) 33 und kaz-eng (Kasachisch-Englisch) 34 Noch ist der Entwick-lungsstand all dieser Uumlbersetzungsrichtungen aber gering und fuumlr einenproduktiven Einsatz oder eine Evaluation demnach ungeeignet 35

32 Apertium-Wikiseite httpwikiapertiumorgwikiQuechua_cuzqueC3B1o_y_castellano (letzter Zugriff 14062012)33 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-udm-rus (letzter Zugriff 14062012)34 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumincubatorapertium-eng-kaz (letzter Zugriff 14062012)35 Alle drei Sprachpaare sind in den SVN-Ordnern incubator oder nursery un-tergebracht

21

4 Schluss

41 Zusammenfassung und AusblickIn abschliessender Betrachtung ist festzuhalten Die Nutzung von HFSTverleiht Apertium die Faumlhigkeit zu und von Sprachen mit (stark) Nicht-Konkatenativer Morphologie zu uumlbersetzen Dafuumlr muumlssen die Aperti-um-eigenen lttoolbox-Werkzeuge umgangen werden die ansonstenzur morphologischen Analyse und morphologischen Generierung von Wort-formen verwendet werden Der Einsatz von HFST liefert aber keinenMehrwert an anderen Stellen in der Transfer-Pipeline Der lexikalischeTransfer oder strukturelle Anpassungen um der Syntax der Zielsprachenaumlher zu kommen sind Schritte fuumlr die sich die lttoolbox-Werkzeugeweiterhin bewaumlhren

Diskutiert wird eine staumlrkere Integration von HFST in Apertium damitHFST nicht laumlnger der Charakter eines ldquoFremdkoumlrpersrdquo in der Aper-tium-Plattform anhaftet Es existiert die Idee ein Projekt in diese Rich-tung anzustossen um es z B moumlglich zu machen lexc-Dateien anstattmit den HFST-Binaries mit den lttoolbox-Kommandos zu prozessierenDieses Projekt koumlnnte von einem interessierten Studierenden etwa imRahmen des naumlchsten Google Summer of Code (2013) initiiert werden 1

Ein weitere Herausforderung die in der Natur von Apertium als Shallow-Transfer-System begruumlndet liegt 2 hat mit den Bilexika zu tun Apertiummuss fuumlr jedes Sprachpaar ein Bilexikon fuumlhren um den lexikalischenTransfer mittels den lttoolbox-Werkzeugen zu vollziehen Da fuumlr jedeneue Sprachkombination das Bilexikon neu aufgebaut werden mussbesteht hier ein gewisser (manueller) Aufwand bei jedem neuen Sprach-paar das angesetzt wird dieser kann zwar durch Einsatz von Werkzeu-ge aus den apertium-dixtools minimiert werden die Vollautomation

1 Idee zum Projekt httpwikiapertiumorgwikiIdeas_for_Google_Summer_of_CodeCloser_integration_with_HFST (letzter Zugriff 14062012)2 Apertium verwendet keinen sog Interlingua-Ansatz um eine sprachunabhaumlngigeRepraumlsentation von Wortbedeutungen zu fuumlhren

22

funktioniert aber noch nicht 3 4

Weiterhin bleibt Apertium im Grundsatz ein Shallow-Transfer-Systemdas keinen vollstaumlndigen Parse der Quellsprache vornimmt und sietiefen-analysiert Dadurch ist es auch in Zukunft nicht breit moumlglichSemantik uumlber weite Distanzen zu transferieren

Bezuumlglich weiterer Moumlglichkeiten fuumlr Apertium morphologisch zu ana-lysieren generieren kann das Augenmerk auch auf neuere Formalis-men als jene von Xerox 5 gelegt werden So existiert hunmorph 6 dases erlaubt in OCaml 7 - in einem objekt-orientierten Paradigma - Mor-phologien zu beschreiben und dazu eine (relativ) einfache Syntax auf-zuweisen scheint Beispiele explorativer Versuche mit hunmorph fuumlrApertium sind im Wiki des Projekts bereits heute dokumentiert 8 Aus-serdem ist hunmoph morphologisch-analytische Basis des bekanntenSpellcheckers HunSpell das der standardmaumlssige Spellchecker in Libre-Office OpenOfficeorg und einigen Softwareprodukten der MozillaFoundation ist 9

Selber hat es mir Freude bereitet mich in dieses komplexe Gebiet hin-ein zu begeben und ich bin fuumlr die Zukunft interessiert daran michan Apertium nach Kraumlften zu beteiligen da ich die dahinterstehendeCommunity als eine kennen gelernt habe die aufgeschlossen humor-voll und im houmlchsten Masse kompetent ist

42 DanksagungenIch moumlchte mich an dieser Stelle herzlichst im Besonderen bei folgen-den Personen des Apertium-Projekts bedanken dass sie sich Zeit ge-nommen haben sich mit mir im IRC ausgiebig zu unterhalten und denDschungel in und um Apertium zu durchleuchten Mikel L ForcadaFrancis M Tyers Kevin Brubeck Unhammer und Jonathan North Wa-shington

Ohne sie waumlre diese Arbeit in der Form nicht entstanden und vielesQuellmaterial das ich hier verwende schwierg auffindbar gewesen

3 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-dixtools (letzter Zugriff 14062012)4 Vgl hierzu httpwikiapertiumorgwikiCrossdics (letzter Zugriff14062012)5 Namentlich XFST TWOLC und LEXC6 Webseite httpmokkbmehuresourceshunmorph (letzter Zugriff 14062012)7 Webseite httpcamlinriafr (letzter Zugriff 14062012)8 Apertium-Wiki httpwikiapertiumorgwikiHunmorph (letzter Zugriff14062012)9 Webseite httphunspellsourceforgenet (letzter Zugriff 14062012)

23

Literaturverzeichnis

[1] S Clematide Morphologie und Lexikographie Vorlesungs-skript Institut fuumlr Computerlinguistik Universitaumlt Zuumlrich 2007URL httpfilesifiuzhchclsiclematlehress07mulscriptscriptpdf

[2] ML Forcada BI Bonev S Ortiz-Rojas JA Peacuterez-OrtizG Ramiacuterez-Saacutenchez F Saacutenchez-Martiacutenez C Armentano-OllerMA Montava FM Tyers und U dA Departament de Llenguatges iSistemes Informagravetics Documentation of the open-source shallow-transfer machine translation platform apertium 2010 URL httpxixonadlsiuaes~franapertium2-documentationpdf

[3] ML Forcada FM Tyers und G Ramiacuterez-Saacutenchez The Apertiummachine translation platform five years on In Proceedings of the FirstInternational Workshop on FreeOpen-Source Rule-Based Machine Trans-lation 3ndash10 2009 URL httpxixonadlsiuaesfreerbmt09presentationsforcada_freerbmt09_5yrsonpdf

[4] T Trosterud und KB Unhammer Evaluating North Saacutemi to Nor-wegian assimilation RBMT In Proceedings of the Third InternationalWorkshop on FreeOpen-Source Rule-Based Machine Translation 2012URL httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-sme-nobpaperpathrev=38833 (noch kein of-fizielles Paper (im PDF) verfuumlgbar)

24

Abbildungsverzeichnis

21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen 10

25

Anhang

IRC-Konversation zu HFSTTypisches Beispiel einer Konversation 10 mit Jonathan North Washing-ton (ldquofirespeakerrdquo) und Mikel L Forcada (ldquomlforcadardquo) welche we-sentliche Beitraumlge zu Apertium leisten gefuumlhrt im IRC 11

1921 lt h2mgt At which stage of the pipeline is HFST employed1921 lt h2mgt I couldnrsquot get that1921 lt mlforcadagt h2m generation of Kazakh[]1922 lt h2mgt Is this process described somewhere in detailsuch that I can read that up1922 lt mlforcadagt is something that looks like lttoolbox butmore powerful1922 lt mlforcadagt h2m firespeaker can help probably1922 lt h2mgt I can only see lexc and twol files wo reallygetting the point[]1922 lt firespeakergt h2m HFST takes a string of text and turnsit into lemmas + tags1922 lt firespeakergt h2m or1922 lt firespeakergt h2m it takes lemmas + tags and turns itinto a string of text[]1923 lt firespeakergt h2m lexc is the morphotactics1923 lt mlforcadagt firespeaker yoursquore right1923 lt h2mgt Ah OK1923 lt firespeakergt h2m twol is the morphophonology

10 Selber bin ich als ldquoh2mrdquo unterwegs11 ircircfreenodenetapertium

26

  • Einfuumlhrung
    • Motivation und Thema
    • Verwendete Umgebung und Konfiguration
      • Grundlagen Zu Apertium und HFST
        • Wesen und Entwicklungsstand von Apertium
        • Wesen und Entwicklungsstand von HFST
          • Hauptteil Die Integration von HFST in Apertium
            • Theorie Zweck und Nutzen der Integration
            • Empirie Die Integration am Beispiel eines Sprachpaars
              • Schluss
                • Zusammenfassung und Ausblick
                • Danksagungen
                  • Literaturverzeichnis
                  • Abbildungsverzeichnis
                  • Anhang
Page 20: Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

Eine morphologische Analyse der beiden Wortformen ldquoWikipediardquo undldquoWikipediairdquo erhaumlrtet die Vermutungen dass es sich beim i-Suffix umeinen Illativ 29 handelt einem Lokalkasus der dazu genutzt werdenkann eine ldquoHineinbewegungrdquo auszudruumlcken respektive in diesem Falldie entsprechende Praumlposition ldquoaufrdquo in das Substantiv der Named En-tity ldquoWikipediardquo einzugliedern

$ echo Wikipedia | apertium -d sme-nob-morph1^WikipediaWikipedialtNgtltPropgtltOrggtltSggtltAccgtWikipedialtNgtltPropgtltOrggtltSggtltGengtWikipedialtNgtltPropgtltOrggtltSggtltNomgt$^ltCLBgt$

2$ echo Wikipediai | apertium -d sme-nob-morph^WikipediaiWikipedialtNgtltPropgtltOrggtltSggtltIllgt$^ltCLBgt$

Bei Analyse 1 wird ldquoWikipediardquo als ein Substantiv eine Named Entityund (semantisch) als Organisation im Singular markiert Uneinigkeitherrscht fuumlr den Tagger auf dieser Transferstufe noch uumlber den KasusEs ist nicht klar ob ldquoWikipediardquo im Nominativ Akkusativ oder Genitivsteht Das Symbol ltCLBgt steht fuumlr ldquoClause Boundaryrdquo und spielt insbe-sondere fuumlr den Chunker (im Zuge des spaumlteren Transfers) eine Rolle zB zur (groben) Abgrenzung von Nominal- und Verbalphrasen

Analyse 2 faumlllt knapper aus da der Kasusfall keine Rolle mehr spielt -an dessen Stelle tritt nun der Illativ (Symbol ltIllgt) Der Rest bleibt sichgleich

Da aber die Illativ-Markierung in diesem spezifischen Fall auf dernob-Seite zur Oberflaumlchengenerierung des norwegischen Wortes ldquotilrdquo30 fuumlhrt aumlndert sich die Semantik des Satzes merklich

Der Transferprozess bei Apertium kann generell beliebig fein beobach-tet werden fuumlr unser spezifisches Sprachpaar sme-nob sei fuumlr weitereVersuche auf das Apertium-Wiki 31 verwiesen das extensiv Informa-tionen daruumlber fuumlhrt

Es existieren weitere interessante Sprachpaare bei der nur eine Sei-te jeweils stark agglutierend ist und auf entsprechende Formalismen(LEXC- und TWOLC-Formalismen) zuruumlckgegriffen wird So etwa die

29 Vgl Wikipedia httpsdewikipediaorgwikiIllativ (letzter Zugriff14062012)30 Dt ldquoaufrdquo31 httpwikiapertiumorgwikiNorthern_SC3A1mi_and_Norwegian (letzterZugriff 14062012)

20

Sprachpaare quz-spa (Quecha-Castellano) 32 udm-rus (Udmuritische Sprache-Russisch) 33 und kaz-eng (Kasachisch-Englisch) 34 Noch ist der Entwick-lungsstand all dieser Uumlbersetzungsrichtungen aber gering und fuumlr einenproduktiven Einsatz oder eine Evaluation demnach ungeeignet 35

32 Apertium-Wikiseite httpwikiapertiumorgwikiQuechua_cuzqueC3B1o_y_castellano (letzter Zugriff 14062012)33 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-udm-rus (letzter Zugriff 14062012)34 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumincubatorapertium-eng-kaz (letzter Zugriff 14062012)35 Alle drei Sprachpaare sind in den SVN-Ordnern incubator oder nursery un-tergebracht

21

4 Schluss

41 Zusammenfassung und AusblickIn abschliessender Betrachtung ist festzuhalten Die Nutzung von HFSTverleiht Apertium die Faumlhigkeit zu und von Sprachen mit (stark) Nicht-Konkatenativer Morphologie zu uumlbersetzen Dafuumlr muumlssen die Aperti-um-eigenen lttoolbox-Werkzeuge umgangen werden die ansonstenzur morphologischen Analyse und morphologischen Generierung von Wort-formen verwendet werden Der Einsatz von HFST liefert aber keinenMehrwert an anderen Stellen in der Transfer-Pipeline Der lexikalischeTransfer oder strukturelle Anpassungen um der Syntax der Zielsprachenaumlher zu kommen sind Schritte fuumlr die sich die lttoolbox-Werkzeugeweiterhin bewaumlhren

Diskutiert wird eine staumlrkere Integration von HFST in Apertium damitHFST nicht laumlnger der Charakter eines ldquoFremdkoumlrpersrdquo in der Aper-tium-Plattform anhaftet Es existiert die Idee ein Projekt in diese Rich-tung anzustossen um es z B moumlglich zu machen lexc-Dateien anstattmit den HFST-Binaries mit den lttoolbox-Kommandos zu prozessierenDieses Projekt koumlnnte von einem interessierten Studierenden etwa imRahmen des naumlchsten Google Summer of Code (2013) initiiert werden 1

Ein weitere Herausforderung die in der Natur von Apertium als Shallow-Transfer-System begruumlndet liegt 2 hat mit den Bilexika zu tun Apertiummuss fuumlr jedes Sprachpaar ein Bilexikon fuumlhren um den lexikalischenTransfer mittels den lttoolbox-Werkzeugen zu vollziehen Da fuumlr jedeneue Sprachkombination das Bilexikon neu aufgebaut werden mussbesteht hier ein gewisser (manueller) Aufwand bei jedem neuen Sprach-paar das angesetzt wird dieser kann zwar durch Einsatz von Werkzeu-ge aus den apertium-dixtools minimiert werden die Vollautomation

1 Idee zum Projekt httpwikiapertiumorgwikiIdeas_for_Google_Summer_of_CodeCloser_integration_with_HFST (letzter Zugriff 14062012)2 Apertium verwendet keinen sog Interlingua-Ansatz um eine sprachunabhaumlngigeRepraumlsentation von Wortbedeutungen zu fuumlhren

22

funktioniert aber noch nicht 3 4

Weiterhin bleibt Apertium im Grundsatz ein Shallow-Transfer-Systemdas keinen vollstaumlndigen Parse der Quellsprache vornimmt und sietiefen-analysiert Dadurch ist es auch in Zukunft nicht breit moumlglichSemantik uumlber weite Distanzen zu transferieren

Bezuumlglich weiterer Moumlglichkeiten fuumlr Apertium morphologisch zu ana-lysieren generieren kann das Augenmerk auch auf neuere Formalis-men als jene von Xerox 5 gelegt werden So existiert hunmorph 6 dases erlaubt in OCaml 7 - in einem objekt-orientierten Paradigma - Mor-phologien zu beschreiben und dazu eine (relativ) einfache Syntax auf-zuweisen scheint Beispiele explorativer Versuche mit hunmorph fuumlrApertium sind im Wiki des Projekts bereits heute dokumentiert 8 Aus-serdem ist hunmoph morphologisch-analytische Basis des bekanntenSpellcheckers HunSpell das der standardmaumlssige Spellchecker in Libre-Office OpenOfficeorg und einigen Softwareprodukten der MozillaFoundation ist 9

Selber hat es mir Freude bereitet mich in dieses komplexe Gebiet hin-ein zu begeben und ich bin fuumlr die Zukunft interessiert daran michan Apertium nach Kraumlften zu beteiligen da ich die dahinterstehendeCommunity als eine kennen gelernt habe die aufgeschlossen humor-voll und im houmlchsten Masse kompetent ist

42 DanksagungenIch moumlchte mich an dieser Stelle herzlichst im Besonderen bei folgen-den Personen des Apertium-Projekts bedanken dass sie sich Zeit ge-nommen haben sich mit mir im IRC ausgiebig zu unterhalten und denDschungel in und um Apertium zu durchleuchten Mikel L ForcadaFrancis M Tyers Kevin Brubeck Unhammer und Jonathan North Wa-shington

Ohne sie waumlre diese Arbeit in der Form nicht entstanden und vielesQuellmaterial das ich hier verwende schwierg auffindbar gewesen

3 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-dixtools (letzter Zugriff 14062012)4 Vgl hierzu httpwikiapertiumorgwikiCrossdics (letzter Zugriff14062012)5 Namentlich XFST TWOLC und LEXC6 Webseite httpmokkbmehuresourceshunmorph (letzter Zugriff 14062012)7 Webseite httpcamlinriafr (letzter Zugriff 14062012)8 Apertium-Wiki httpwikiapertiumorgwikiHunmorph (letzter Zugriff14062012)9 Webseite httphunspellsourceforgenet (letzter Zugriff 14062012)

23

Literaturverzeichnis

[1] S Clematide Morphologie und Lexikographie Vorlesungs-skript Institut fuumlr Computerlinguistik Universitaumlt Zuumlrich 2007URL httpfilesifiuzhchclsiclematlehress07mulscriptscriptpdf

[2] ML Forcada BI Bonev S Ortiz-Rojas JA Peacuterez-OrtizG Ramiacuterez-Saacutenchez F Saacutenchez-Martiacutenez C Armentano-OllerMA Montava FM Tyers und U dA Departament de Llenguatges iSistemes Informagravetics Documentation of the open-source shallow-transfer machine translation platform apertium 2010 URL httpxixonadlsiuaes~franapertium2-documentationpdf

[3] ML Forcada FM Tyers und G Ramiacuterez-Saacutenchez The Apertiummachine translation platform five years on In Proceedings of the FirstInternational Workshop on FreeOpen-Source Rule-Based Machine Trans-lation 3ndash10 2009 URL httpxixonadlsiuaesfreerbmt09presentationsforcada_freerbmt09_5yrsonpdf

[4] T Trosterud und KB Unhammer Evaluating North Saacutemi to Nor-wegian assimilation RBMT In Proceedings of the Third InternationalWorkshop on FreeOpen-Source Rule-Based Machine Translation 2012URL httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-sme-nobpaperpathrev=38833 (noch kein of-fizielles Paper (im PDF) verfuumlgbar)

24

Abbildungsverzeichnis

21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen 10

25

Anhang

IRC-Konversation zu HFSTTypisches Beispiel einer Konversation 10 mit Jonathan North Washing-ton (ldquofirespeakerrdquo) und Mikel L Forcada (ldquomlforcadardquo) welche we-sentliche Beitraumlge zu Apertium leisten gefuumlhrt im IRC 11

1921 lt h2mgt At which stage of the pipeline is HFST employed1921 lt h2mgt I couldnrsquot get that1921 lt mlforcadagt h2m generation of Kazakh[]1922 lt h2mgt Is this process described somewhere in detailsuch that I can read that up1922 lt mlforcadagt is something that looks like lttoolbox butmore powerful1922 lt mlforcadagt h2m firespeaker can help probably1922 lt h2mgt I can only see lexc and twol files wo reallygetting the point[]1922 lt firespeakergt h2m HFST takes a string of text and turnsit into lemmas + tags1922 lt firespeakergt h2m or1922 lt firespeakergt h2m it takes lemmas + tags and turns itinto a string of text[]1923 lt firespeakergt h2m lexc is the morphotactics1923 lt mlforcadagt firespeaker yoursquore right1923 lt h2mgt Ah OK1923 lt firespeakergt h2m twol is the morphophonology

10 Selber bin ich als ldquoh2mrdquo unterwegs11 ircircfreenodenetapertium

26

  • Einfuumlhrung
    • Motivation und Thema
    • Verwendete Umgebung und Konfiguration
      • Grundlagen Zu Apertium und HFST
        • Wesen und Entwicklungsstand von Apertium
        • Wesen und Entwicklungsstand von HFST
          • Hauptteil Die Integration von HFST in Apertium
            • Theorie Zweck und Nutzen der Integration
            • Empirie Die Integration am Beispiel eines Sprachpaars
              • Schluss
                • Zusammenfassung und Ausblick
                • Danksagungen
                  • Literaturverzeichnis
                  • Abbildungsverzeichnis
                  • Anhang
Page 21: Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

Sprachpaare quz-spa (Quecha-Castellano) 32 udm-rus (Udmuritische Sprache-Russisch) 33 und kaz-eng (Kasachisch-Englisch) 34 Noch ist der Entwick-lungsstand all dieser Uumlbersetzungsrichtungen aber gering und fuumlr einenproduktiven Einsatz oder eine Evaluation demnach ungeeignet 35

32 Apertium-Wikiseite httpwikiapertiumorgwikiQuechua_cuzqueC3B1o_y_castellano (letzter Zugriff 14062012)33 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumnurseryapertium-udm-rus (letzter Zugriff 14062012)34 Im SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumincubatorapertium-eng-kaz (letzter Zugriff 14062012)35 Alle drei Sprachpaare sind in den SVN-Ordnern incubator oder nursery un-tergebracht

21

4 Schluss

41 Zusammenfassung und AusblickIn abschliessender Betrachtung ist festzuhalten Die Nutzung von HFSTverleiht Apertium die Faumlhigkeit zu und von Sprachen mit (stark) Nicht-Konkatenativer Morphologie zu uumlbersetzen Dafuumlr muumlssen die Aperti-um-eigenen lttoolbox-Werkzeuge umgangen werden die ansonstenzur morphologischen Analyse und morphologischen Generierung von Wort-formen verwendet werden Der Einsatz von HFST liefert aber keinenMehrwert an anderen Stellen in der Transfer-Pipeline Der lexikalischeTransfer oder strukturelle Anpassungen um der Syntax der Zielsprachenaumlher zu kommen sind Schritte fuumlr die sich die lttoolbox-Werkzeugeweiterhin bewaumlhren

Diskutiert wird eine staumlrkere Integration von HFST in Apertium damitHFST nicht laumlnger der Charakter eines ldquoFremdkoumlrpersrdquo in der Aper-tium-Plattform anhaftet Es existiert die Idee ein Projekt in diese Rich-tung anzustossen um es z B moumlglich zu machen lexc-Dateien anstattmit den HFST-Binaries mit den lttoolbox-Kommandos zu prozessierenDieses Projekt koumlnnte von einem interessierten Studierenden etwa imRahmen des naumlchsten Google Summer of Code (2013) initiiert werden 1

Ein weitere Herausforderung die in der Natur von Apertium als Shallow-Transfer-System begruumlndet liegt 2 hat mit den Bilexika zu tun Apertiummuss fuumlr jedes Sprachpaar ein Bilexikon fuumlhren um den lexikalischenTransfer mittels den lttoolbox-Werkzeugen zu vollziehen Da fuumlr jedeneue Sprachkombination das Bilexikon neu aufgebaut werden mussbesteht hier ein gewisser (manueller) Aufwand bei jedem neuen Sprach-paar das angesetzt wird dieser kann zwar durch Einsatz von Werkzeu-ge aus den apertium-dixtools minimiert werden die Vollautomation

1 Idee zum Projekt httpwikiapertiumorgwikiIdeas_for_Google_Summer_of_CodeCloser_integration_with_HFST (letzter Zugriff 14062012)2 Apertium verwendet keinen sog Interlingua-Ansatz um eine sprachunabhaumlngigeRepraumlsentation von Wortbedeutungen zu fuumlhren

22

funktioniert aber noch nicht 3 4

Weiterhin bleibt Apertium im Grundsatz ein Shallow-Transfer-Systemdas keinen vollstaumlndigen Parse der Quellsprache vornimmt und sietiefen-analysiert Dadurch ist es auch in Zukunft nicht breit moumlglichSemantik uumlber weite Distanzen zu transferieren

Bezuumlglich weiterer Moumlglichkeiten fuumlr Apertium morphologisch zu ana-lysieren generieren kann das Augenmerk auch auf neuere Formalis-men als jene von Xerox 5 gelegt werden So existiert hunmorph 6 dases erlaubt in OCaml 7 - in einem objekt-orientierten Paradigma - Mor-phologien zu beschreiben und dazu eine (relativ) einfache Syntax auf-zuweisen scheint Beispiele explorativer Versuche mit hunmorph fuumlrApertium sind im Wiki des Projekts bereits heute dokumentiert 8 Aus-serdem ist hunmoph morphologisch-analytische Basis des bekanntenSpellcheckers HunSpell das der standardmaumlssige Spellchecker in Libre-Office OpenOfficeorg und einigen Softwareprodukten der MozillaFoundation ist 9

Selber hat es mir Freude bereitet mich in dieses komplexe Gebiet hin-ein zu begeben und ich bin fuumlr die Zukunft interessiert daran michan Apertium nach Kraumlften zu beteiligen da ich die dahinterstehendeCommunity als eine kennen gelernt habe die aufgeschlossen humor-voll und im houmlchsten Masse kompetent ist

42 DanksagungenIch moumlchte mich an dieser Stelle herzlichst im Besonderen bei folgen-den Personen des Apertium-Projekts bedanken dass sie sich Zeit ge-nommen haben sich mit mir im IRC ausgiebig zu unterhalten und denDschungel in und um Apertium zu durchleuchten Mikel L ForcadaFrancis M Tyers Kevin Brubeck Unhammer und Jonathan North Wa-shington

Ohne sie waumlre diese Arbeit in der Form nicht entstanden und vielesQuellmaterial das ich hier verwende schwierg auffindbar gewesen

3 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-dixtools (letzter Zugriff 14062012)4 Vgl hierzu httpwikiapertiumorgwikiCrossdics (letzter Zugriff14062012)5 Namentlich XFST TWOLC und LEXC6 Webseite httpmokkbmehuresourceshunmorph (letzter Zugriff 14062012)7 Webseite httpcamlinriafr (letzter Zugriff 14062012)8 Apertium-Wiki httpwikiapertiumorgwikiHunmorph (letzter Zugriff14062012)9 Webseite httphunspellsourceforgenet (letzter Zugriff 14062012)

23

Literaturverzeichnis

[1] S Clematide Morphologie und Lexikographie Vorlesungs-skript Institut fuumlr Computerlinguistik Universitaumlt Zuumlrich 2007URL httpfilesifiuzhchclsiclematlehress07mulscriptscriptpdf

[2] ML Forcada BI Bonev S Ortiz-Rojas JA Peacuterez-OrtizG Ramiacuterez-Saacutenchez F Saacutenchez-Martiacutenez C Armentano-OllerMA Montava FM Tyers und U dA Departament de Llenguatges iSistemes Informagravetics Documentation of the open-source shallow-transfer machine translation platform apertium 2010 URL httpxixonadlsiuaes~franapertium2-documentationpdf

[3] ML Forcada FM Tyers und G Ramiacuterez-Saacutenchez The Apertiummachine translation platform five years on In Proceedings of the FirstInternational Workshop on FreeOpen-Source Rule-Based Machine Trans-lation 3ndash10 2009 URL httpxixonadlsiuaesfreerbmt09presentationsforcada_freerbmt09_5yrsonpdf

[4] T Trosterud und KB Unhammer Evaluating North Saacutemi to Nor-wegian assimilation RBMT In Proceedings of the Third InternationalWorkshop on FreeOpen-Source Rule-Based Machine Translation 2012URL httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-sme-nobpaperpathrev=38833 (noch kein of-fizielles Paper (im PDF) verfuumlgbar)

24

Abbildungsverzeichnis

21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen 10

25

Anhang

IRC-Konversation zu HFSTTypisches Beispiel einer Konversation 10 mit Jonathan North Washing-ton (ldquofirespeakerrdquo) und Mikel L Forcada (ldquomlforcadardquo) welche we-sentliche Beitraumlge zu Apertium leisten gefuumlhrt im IRC 11

1921 lt h2mgt At which stage of the pipeline is HFST employed1921 lt h2mgt I couldnrsquot get that1921 lt mlforcadagt h2m generation of Kazakh[]1922 lt h2mgt Is this process described somewhere in detailsuch that I can read that up1922 lt mlforcadagt is something that looks like lttoolbox butmore powerful1922 lt mlforcadagt h2m firespeaker can help probably1922 lt h2mgt I can only see lexc and twol files wo reallygetting the point[]1922 lt firespeakergt h2m HFST takes a string of text and turnsit into lemmas + tags1922 lt firespeakergt h2m or1922 lt firespeakergt h2m it takes lemmas + tags and turns itinto a string of text[]1923 lt firespeakergt h2m lexc is the morphotactics1923 lt mlforcadagt firespeaker yoursquore right1923 lt h2mgt Ah OK1923 lt firespeakergt h2m twol is the morphophonology

10 Selber bin ich als ldquoh2mrdquo unterwegs11 ircircfreenodenetapertium

26

  • Einfuumlhrung
    • Motivation und Thema
    • Verwendete Umgebung und Konfiguration
      • Grundlagen Zu Apertium und HFST
        • Wesen und Entwicklungsstand von Apertium
        • Wesen und Entwicklungsstand von HFST
          • Hauptteil Die Integration von HFST in Apertium
            • Theorie Zweck und Nutzen der Integration
            • Empirie Die Integration am Beispiel eines Sprachpaars
              • Schluss
                • Zusammenfassung und Ausblick
                • Danksagungen
                  • Literaturverzeichnis
                  • Abbildungsverzeichnis
                  • Anhang
Page 22: Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

4 Schluss

41 Zusammenfassung und AusblickIn abschliessender Betrachtung ist festzuhalten Die Nutzung von HFSTverleiht Apertium die Faumlhigkeit zu und von Sprachen mit (stark) Nicht-Konkatenativer Morphologie zu uumlbersetzen Dafuumlr muumlssen die Aperti-um-eigenen lttoolbox-Werkzeuge umgangen werden die ansonstenzur morphologischen Analyse und morphologischen Generierung von Wort-formen verwendet werden Der Einsatz von HFST liefert aber keinenMehrwert an anderen Stellen in der Transfer-Pipeline Der lexikalischeTransfer oder strukturelle Anpassungen um der Syntax der Zielsprachenaumlher zu kommen sind Schritte fuumlr die sich die lttoolbox-Werkzeugeweiterhin bewaumlhren

Diskutiert wird eine staumlrkere Integration von HFST in Apertium damitHFST nicht laumlnger der Charakter eines ldquoFremdkoumlrpersrdquo in der Aper-tium-Plattform anhaftet Es existiert die Idee ein Projekt in diese Rich-tung anzustossen um es z B moumlglich zu machen lexc-Dateien anstattmit den HFST-Binaries mit den lttoolbox-Kommandos zu prozessierenDieses Projekt koumlnnte von einem interessierten Studierenden etwa imRahmen des naumlchsten Google Summer of Code (2013) initiiert werden 1

Ein weitere Herausforderung die in der Natur von Apertium als Shallow-Transfer-System begruumlndet liegt 2 hat mit den Bilexika zu tun Apertiummuss fuumlr jedes Sprachpaar ein Bilexikon fuumlhren um den lexikalischenTransfer mittels den lttoolbox-Werkzeugen zu vollziehen Da fuumlr jedeneue Sprachkombination das Bilexikon neu aufgebaut werden mussbesteht hier ein gewisser (manueller) Aufwand bei jedem neuen Sprach-paar das angesetzt wird dieser kann zwar durch Einsatz von Werkzeu-ge aus den apertium-dixtools minimiert werden die Vollautomation

1 Idee zum Projekt httpwikiapertiumorgwikiIdeas_for_Google_Summer_of_CodeCloser_integration_with_HFST (letzter Zugriff 14062012)2 Apertium verwendet keinen sog Interlingua-Ansatz um eine sprachunabhaumlngigeRepraumlsentation von Wortbedeutungen zu fuumlhren

22

funktioniert aber noch nicht 3 4

Weiterhin bleibt Apertium im Grundsatz ein Shallow-Transfer-Systemdas keinen vollstaumlndigen Parse der Quellsprache vornimmt und sietiefen-analysiert Dadurch ist es auch in Zukunft nicht breit moumlglichSemantik uumlber weite Distanzen zu transferieren

Bezuumlglich weiterer Moumlglichkeiten fuumlr Apertium morphologisch zu ana-lysieren generieren kann das Augenmerk auch auf neuere Formalis-men als jene von Xerox 5 gelegt werden So existiert hunmorph 6 dases erlaubt in OCaml 7 - in einem objekt-orientierten Paradigma - Mor-phologien zu beschreiben und dazu eine (relativ) einfache Syntax auf-zuweisen scheint Beispiele explorativer Versuche mit hunmorph fuumlrApertium sind im Wiki des Projekts bereits heute dokumentiert 8 Aus-serdem ist hunmoph morphologisch-analytische Basis des bekanntenSpellcheckers HunSpell das der standardmaumlssige Spellchecker in Libre-Office OpenOfficeorg und einigen Softwareprodukten der MozillaFoundation ist 9

Selber hat es mir Freude bereitet mich in dieses komplexe Gebiet hin-ein zu begeben und ich bin fuumlr die Zukunft interessiert daran michan Apertium nach Kraumlften zu beteiligen da ich die dahinterstehendeCommunity als eine kennen gelernt habe die aufgeschlossen humor-voll und im houmlchsten Masse kompetent ist

42 DanksagungenIch moumlchte mich an dieser Stelle herzlichst im Besonderen bei folgen-den Personen des Apertium-Projekts bedanken dass sie sich Zeit ge-nommen haben sich mit mir im IRC ausgiebig zu unterhalten und denDschungel in und um Apertium zu durchleuchten Mikel L ForcadaFrancis M Tyers Kevin Brubeck Unhammer und Jonathan North Wa-shington

Ohne sie waumlre diese Arbeit in der Form nicht entstanden und vielesQuellmaterial das ich hier verwende schwierg auffindbar gewesen

3 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-dixtools (letzter Zugriff 14062012)4 Vgl hierzu httpwikiapertiumorgwikiCrossdics (letzter Zugriff14062012)5 Namentlich XFST TWOLC und LEXC6 Webseite httpmokkbmehuresourceshunmorph (letzter Zugriff 14062012)7 Webseite httpcamlinriafr (letzter Zugriff 14062012)8 Apertium-Wiki httpwikiapertiumorgwikiHunmorph (letzter Zugriff14062012)9 Webseite httphunspellsourceforgenet (letzter Zugriff 14062012)

23

Literaturverzeichnis

[1] S Clematide Morphologie und Lexikographie Vorlesungs-skript Institut fuumlr Computerlinguistik Universitaumlt Zuumlrich 2007URL httpfilesifiuzhchclsiclematlehress07mulscriptscriptpdf

[2] ML Forcada BI Bonev S Ortiz-Rojas JA Peacuterez-OrtizG Ramiacuterez-Saacutenchez F Saacutenchez-Martiacutenez C Armentano-OllerMA Montava FM Tyers und U dA Departament de Llenguatges iSistemes Informagravetics Documentation of the open-source shallow-transfer machine translation platform apertium 2010 URL httpxixonadlsiuaes~franapertium2-documentationpdf

[3] ML Forcada FM Tyers und G Ramiacuterez-Saacutenchez The Apertiummachine translation platform five years on In Proceedings of the FirstInternational Workshop on FreeOpen-Source Rule-Based Machine Trans-lation 3ndash10 2009 URL httpxixonadlsiuaesfreerbmt09presentationsforcada_freerbmt09_5yrsonpdf

[4] T Trosterud und KB Unhammer Evaluating North Saacutemi to Nor-wegian assimilation RBMT In Proceedings of the Third InternationalWorkshop on FreeOpen-Source Rule-Based Machine Translation 2012URL httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-sme-nobpaperpathrev=38833 (noch kein of-fizielles Paper (im PDF) verfuumlgbar)

24

Abbildungsverzeichnis

21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen 10

25

Anhang

IRC-Konversation zu HFSTTypisches Beispiel einer Konversation 10 mit Jonathan North Washing-ton (ldquofirespeakerrdquo) und Mikel L Forcada (ldquomlforcadardquo) welche we-sentliche Beitraumlge zu Apertium leisten gefuumlhrt im IRC 11

1921 lt h2mgt At which stage of the pipeline is HFST employed1921 lt h2mgt I couldnrsquot get that1921 lt mlforcadagt h2m generation of Kazakh[]1922 lt h2mgt Is this process described somewhere in detailsuch that I can read that up1922 lt mlforcadagt is something that looks like lttoolbox butmore powerful1922 lt mlforcadagt h2m firespeaker can help probably1922 lt h2mgt I can only see lexc and twol files wo reallygetting the point[]1922 lt firespeakergt h2m HFST takes a string of text and turnsit into lemmas + tags1922 lt firespeakergt h2m or1922 lt firespeakergt h2m it takes lemmas + tags and turns itinto a string of text[]1923 lt firespeakergt h2m lexc is the morphotactics1923 lt mlforcadagt firespeaker yoursquore right1923 lt h2mgt Ah OK1923 lt firespeakergt h2m twol is the morphophonology

10 Selber bin ich als ldquoh2mrdquo unterwegs11 ircircfreenodenetapertium

26

  • Einfuumlhrung
    • Motivation und Thema
    • Verwendete Umgebung und Konfiguration
      • Grundlagen Zu Apertium und HFST
        • Wesen und Entwicklungsstand von Apertium
        • Wesen und Entwicklungsstand von HFST
          • Hauptteil Die Integration von HFST in Apertium
            • Theorie Zweck und Nutzen der Integration
            • Empirie Die Integration am Beispiel eines Sprachpaars
              • Schluss
                • Zusammenfassung und Ausblick
                • Danksagungen
                  • Literaturverzeichnis
                  • Abbildungsverzeichnis
                  • Anhang
Page 23: Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

funktioniert aber noch nicht 3 4

Weiterhin bleibt Apertium im Grundsatz ein Shallow-Transfer-Systemdas keinen vollstaumlndigen Parse der Quellsprache vornimmt und sietiefen-analysiert Dadurch ist es auch in Zukunft nicht breit moumlglichSemantik uumlber weite Distanzen zu transferieren

Bezuumlglich weiterer Moumlglichkeiten fuumlr Apertium morphologisch zu ana-lysieren generieren kann das Augenmerk auch auf neuere Formalis-men als jene von Xerox 5 gelegt werden So existiert hunmorph 6 dases erlaubt in OCaml 7 - in einem objekt-orientierten Paradigma - Mor-phologien zu beschreiben und dazu eine (relativ) einfache Syntax auf-zuweisen scheint Beispiele explorativer Versuche mit hunmorph fuumlrApertium sind im Wiki des Projekts bereits heute dokumentiert 8 Aus-serdem ist hunmoph morphologisch-analytische Basis des bekanntenSpellcheckers HunSpell das der standardmaumlssige Spellchecker in Libre-Office OpenOfficeorg und einigen Softwareprodukten der MozillaFoundation ist 9

Selber hat es mir Freude bereitet mich in dieses komplexe Gebiet hin-ein zu begeben und ich bin fuumlr die Zukunft interessiert daran michan Apertium nach Kraumlften zu beteiligen da ich die dahinterstehendeCommunity als eine kennen gelernt habe die aufgeschlossen humor-voll und im houmlchsten Masse kompetent ist

42 DanksagungenIch moumlchte mich an dieser Stelle herzlichst im Besonderen bei folgen-den Personen des Apertium-Projekts bedanken dass sie sich Zeit ge-nommen haben sich mit mir im IRC ausgiebig zu unterhalten und denDschungel in und um Apertium zu durchleuchten Mikel L ForcadaFrancis M Tyers Kevin Brubeck Unhammer und Jonathan North Wa-shington

Ohne sie waumlre diese Arbeit in der Form nicht entstanden und vielesQuellmaterial das ich hier verwende schwierg auffindbar gewesen

3 SVN-Repository httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-dixtools (letzter Zugriff 14062012)4 Vgl hierzu httpwikiapertiumorgwikiCrossdics (letzter Zugriff14062012)5 Namentlich XFST TWOLC und LEXC6 Webseite httpmokkbmehuresourceshunmorph (letzter Zugriff 14062012)7 Webseite httpcamlinriafr (letzter Zugriff 14062012)8 Apertium-Wiki httpwikiapertiumorgwikiHunmorph (letzter Zugriff14062012)9 Webseite httphunspellsourceforgenet (letzter Zugriff 14062012)

23

Literaturverzeichnis

[1] S Clematide Morphologie und Lexikographie Vorlesungs-skript Institut fuumlr Computerlinguistik Universitaumlt Zuumlrich 2007URL httpfilesifiuzhchclsiclematlehress07mulscriptscriptpdf

[2] ML Forcada BI Bonev S Ortiz-Rojas JA Peacuterez-OrtizG Ramiacuterez-Saacutenchez F Saacutenchez-Martiacutenez C Armentano-OllerMA Montava FM Tyers und U dA Departament de Llenguatges iSistemes Informagravetics Documentation of the open-source shallow-transfer machine translation platform apertium 2010 URL httpxixonadlsiuaes~franapertium2-documentationpdf

[3] ML Forcada FM Tyers und G Ramiacuterez-Saacutenchez The Apertiummachine translation platform five years on In Proceedings of the FirstInternational Workshop on FreeOpen-Source Rule-Based Machine Trans-lation 3ndash10 2009 URL httpxixonadlsiuaesfreerbmt09presentationsforcada_freerbmt09_5yrsonpdf

[4] T Trosterud und KB Unhammer Evaluating North Saacutemi to Nor-wegian assimilation RBMT In Proceedings of the Third InternationalWorkshop on FreeOpen-Source Rule-Based Machine Translation 2012URL httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-sme-nobpaperpathrev=38833 (noch kein of-fizielles Paper (im PDF) verfuumlgbar)

24

Abbildungsverzeichnis

21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen 10

25

Anhang

IRC-Konversation zu HFSTTypisches Beispiel einer Konversation 10 mit Jonathan North Washing-ton (ldquofirespeakerrdquo) und Mikel L Forcada (ldquomlforcadardquo) welche we-sentliche Beitraumlge zu Apertium leisten gefuumlhrt im IRC 11

1921 lt h2mgt At which stage of the pipeline is HFST employed1921 lt h2mgt I couldnrsquot get that1921 lt mlforcadagt h2m generation of Kazakh[]1922 lt h2mgt Is this process described somewhere in detailsuch that I can read that up1922 lt mlforcadagt is something that looks like lttoolbox butmore powerful1922 lt mlforcadagt h2m firespeaker can help probably1922 lt h2mgt I can only see lexc and twol files wo reallygetting the point[]1922 lt firespeakergt h2m HFST takes a string of text and turnsit into lemmas + tags1922 lt firespeakergt h2m or1922 lt firespeakergt h2m it takes lemmas + tags and turns itinto a string of text[]1923 lt firespeakergt h2m lexc is the morphotactics1923 lt mlforcadagt firespeaker yoursquore right1923 lt h2mgt Ah OK1923 lt firespeakergt h2m twol is the morphophonology

10 Selber bin ich als ldquoh2mrdquo unterwegs11 ircircfreenodenetapertium

26

  • Einfuumlhrung
    • Motivation und Thema
    • Verwendete Umgebung und Konfiguration
      • Grundlagen Zu Apertium und HFST
        • Wesen und Entwicklungsstand von Apertium
        • Wesen und Entwicklungsstand von HFST
          • Hauptteil Die Integration von HFST in Apertium
            • Theorie Zweck und Nutzen der Integration
            • Empirie Die Integration am Beispiel eines Sprachpaars
              • Schluss
                • Zusammenfassung und Ausblick
                • Danksagungen
                  • Literaturverzeichnis
                  • Abbildungsverzeichnis
                  • Anhang
Page 24: Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

Literaturverzeichnis

[1] S Clematide Morphologie und Lexikographie Vorlesungs-skript Institut fuumlr Computerlinguistik Universitaumlt Zuumlrich 2007URL httpfilesifiuzhchclsiclematlehress07mulscriptscriptpdf

[2] ML Forcada BI Bonev S Ortiz-Rojas JA Peacuterez-OrtizG Ramiacuterez-Saacutenchez F Saacutenchez-Martiacutenez C Armentano-OllerMA Montava FM Tyers und U dA Departament de Llenguatges iSistemes Informagravetics Documentation of the open-source shallow-transfer machine translation platform apertium 2010 URL httpxixonadlsiuaes~franapertium2-documentationpdf

[3] ML Forcada FM Tyers und G Ramiacuterez-Saacutenchez The Apertiummachine translation platform five years on In Proceedings of the FirstInternational Workshop on FreeOpen-Source Rule-Based Machine Trans-lation 3ndash10 2009 URL httpxixonadlsiuaesfreerbmt09presentationsforcada_freerbmt09_5yrsonpdf

[4] T Trosterud und KB Unhammer Evaluating North Saacutemi to Nor-wegian assimilation RBMT In Proceedings of the Third InternationalWorkshop on FreeOpen-Source Rule-Based Machine Translation 2012URL httpapertiumsvnsourceforgenetviewvcapertiumtrunkapertium-sme-nobpaperpathrev=38833 (noch kein of-fizielles Paper (im PDF) verfuumlgbar)

24

Abbildungsverzeichnis

21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen 10

25

Anhang

IRC-Konversation zu HFSTTypisches Beispiel einer Konversation 10 mit Jonathan North Washing-ton (ldquofirespeakerrdquo) und Mikel L Forcada (ldquomlforcadardquo) welche we-sentliche Beitraumlge zu Apertium leisten gefuumlhrt im IRC 11

1921 lt h2mgt At which stage of the pipeline is HFST employed1921 lt h2mgt I couldnrsquot get that1921 lt mlforcadagt h2m generation of Kazakh[]1922 lt h2mgt Is this process described somewhere in detailsuch that I can read that up1922 lt mlforcadagt is something that looks like lttoolbox butmore powerful1922 lt mlforcadagt h2m firespeaker can help probably1922 lt h2mgt I can only see lexc and twol files wo reallygetting the point[]1922 lt firespeakergt h2m HFST takes a string of text and turnsit into lemmas + tags1922 lt firespeakergt h2m or1922 lt firespeakergt h2m it takes lemmas + tags and turns itinto a string of text[]1923 lt firespeakergt h2m lexc is the morphotactics1923 lt mlforcadagt firespeaker yoursquore right1923 lt h2mgt Ah OK1923 lt firespeakergt h2m twol is the morphophonology

10 Selber bin ich als ldquoh2mrdquo unterwegs11 ircircfreenodenetapertium

26

  • Einfuumlhrung
    • Motivation und Thema
    • Verwendete Umgebung und Konfiguration
      • Grundlagen Zu Apertium und HFST
        • Wesen und Entwicklungsstand von Apertium
        • Wesen und Entwicklungsstand von HFST
          • Hauptteil Die Integration von HFST in Apertium
            • Theorie Zweck und Nutzen der Integration
            • Empirie Die Integration am Beispiel eines Sprachpaars
              • Schluss
                • Zusammenfassung und Ausblick
                • Danksagungen
                  • Literaturverzeichnis
                  • Abbildungsverzeichnis
                  • Anhang
Page 25: Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

Abbildungsverzeichnis

21 Es sind acht (abstrakte) Komponenten die das Shallow-Transfer-System Apertium ausmachen 10

25

Anhang

IRC-Konversation zu HFSTTypisches Beispiel einer Konversation 10 mit Jonathan North Washing-ton (ldquofirespeakerrdquo) und Mikel L Forcada (ldquomlforcadardquo) welche we-sentliche Beitraumlge zu Apertium leisten gefuumlhrt im IRC 11

1921 lt h2mgt At which stage of the pipeline is HFST employed1921 lt h2mgt I couldnrsquot get that1921 lt mlforcadagt h2m generation of Kazakh[]1922 lt h2mgt Is this process described somewhere in detailsuch that I can read that up1922 lt mlforcadagt is something that looks like lttoolbox butmore powerful1922 lt mlforcadagt h2m firespeaker can help probably1922 lt h2mgt I can only see lexc and twol files wo reallygetting the point[]1922 lt firespeakergt h2m HFST takes a string of text and turnsit into lemmas + tags1922 lt firespeakergt h2m or1922 lt firespeakergt h2m it takes lemmas + tags and turns itinto a string of text[]1923 lt firespeakergt h2m lexc is the morphotactics1923 lt mlforcadagt firespeaker yoursquore right1923 lt h2mgt Ah OK1923 lt firespeakergt h2m twol is the morphophonology

10 Selber bin ich als ldquoh2mrdquo unterwegs11 ircircfreenodenetapertium

26

  • Einfuumlhrung
    • Motivation und Thema
    • Verwendete Umgebung und Konfiguration
      • Grundlagen Zu Apertium und HFST
        • Wesen und Entwicklungsstand von Apertium
        • Wesen und Entwicklungsstand von HFST
          • Hauptteil Die Integration von HFST in Apertium
            • Theorie Zweck und Nutzen der Integration
            • Empirie Die Integration am Beispiel eines Sprachpaars
              • Schluss
                • Zusammenfassung und Ausblick
                • Danksagungen
                  • Literaturverzeichnis
                  • Abbildungsverzeichnis
                  • Anhang
Page 26: Integration von Finite-State Transducer-Technologien in ...fst_web.pdf · Transducer-Technologien in Apertium zur Maschinellen Übersetzung morphologisch komplexer Sprachen Seminararbeit

Anhang

IRC-Konversation zu HFSTTypisches Beispiel einer Konversation 10 mit Jonathan North Washing-ton (ldquofirespeakerrdquo) und Mikel L Forcada (ldquomlforcadardquo) welche we-sentliche Beitraumlge zu Apertium leisten gefuumlhrt im IRC 11

1921 lt h2mgt At which stage of the pipeline is HFST employed1921 lt h2mgt I couldnrsquot get that1921 lt mlforcadagt h2m generation of Kazakh[]1922 lt h2mgt Is this process described somewhere in detailsuch that I can read that up1922 lt mlforcadagt is something that looks like lttoolbox butmore powerful1922 lt mlforcadagt h2m firespeaker can help probably1922 lt h2mgt I can only see lexc and twol files wo reallygetting the point[]1922 lt firespeakergt h2m HFST takes a string of text and turnsit into lemmas + tags1922 lt firespeakergt h2m or1922 lt firespeakergt h2m it takes lemmas + tags and turns itinto a string of text[]1923 lt firespeakergt h2m lexc is the morphotactics1923 lt mlforcadagt firespeaker yoursquore right1923 lt h2mgt Ah OK1923 lt firespeakergt h2m twol is the morphophonology

10 Selber bin ich als ldquoh2mrdquo unterwegs11 ircircfreenodenetapertium

26

  • Einfuumlhrung
    • Motivation und Thema
    • Verwendete Umgebung und Konfiguration
      • Grundlagen Zu Apertium und HFST
        • Wesen und Entwicklungsstand von Apertium
        • Wesen und Entwicklungsstand von HFST
          • Hauptteil Die Integration von HFST in Apertium
            • Theorie Zweck und Nutzen der Integration
            • Empirie Die Integration am Beispiel eines Sprachpaars
              • Schluss
                • Zusammenfassung und Ausblick
                • Danksagungen
                  • Literaturverzeichnis
                  • Abbildungsverzeichnis
                  • Anhang