175
Vorlesungsskript * Einführung in die Computerlinguistik I Institut für Computerlinguistik Universität Zürich http://www.cl.uzh.ch Interaktive Lerneinheiten zur Vorlesung http://www.cl.uzh.ch/ict-open/clabis?vl=ecl1 Simon Clematide [email protected] Schriftliche Übungen: Rico Sennrich Rico.Sennrich @ access.uzh.ch Herbstsemester 2008 Version von 18. Dezember 2008 * PDF-Version: http://www.cl.uzh.ch/siclemat/lehre/hs08/ecl1/script/script.pdf HTML-Version: http://www.cl.uzh.ch/siclemat/lehre/hs08/ecl1/script/html/script.html OLAT-Url: https://www.olat.uzh.ch/olat/auth/repo/go?rid=511836166&guest=true&lang=de

Einführung in die Computerlinguistik I

Embed Size (px)

Citation preview

  • Vorlesungsskript

    Einfhrung in die Computerlinguistik IInstitut fr Computerlinguistik

    Universitt Zrich

    http://www.cl.uzh.ch

    Interaktive Lerneinheiten zur Vorlesunghttp://www.cl.uzh.ch/ict-open/clabis?vl=ecl1

    Simon [email protected]

    Schriftliche bungen:

    Rico SennrichRico.Sennrich @ access.uzh.ch

    Herbstsemester 2008Version von 18. Dezember 2008

    PDF-Version: http://www.cl.uzh.ch/siclemat/lehre/hs08/ecl1/script/script.pdfHTML-Version: http://www.cl.uzh.ch/siclemat/lehre/hs08/ecl1/script/html/script.htmlOLAT-Url:https://www.olat.uzh.ch/olat/auth/repo/go?rid=511836166&guest=true&lang=de

    http://www.cl.uzh.chhttp://www.cl.uzh.ch/ict-open/clabis?vl=ecl1http://www.cl.uzh.ch/siclemat/lehre/hs08/ecl1/script/script.pdfhttp://www.cl.uzh.ch/siclemat/lehre/hs08/ecl1/script/html/script.htmlhttps://www.olat.uzh.ch/olat/auth/repo/go?rid=511836166&guest=true&lang=de

  • Inhaltsverzeichnis

    1 Organisatorisches 91.1 Organisatorisches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    2 Was ist CL? 122.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2 Fachrichtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    2.2.1 Computerlinguistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2.2 Sprachtechnologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.2.3 Weiteres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.2.4 Anliegen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    2.3 Nachbardisziplinen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.3.1 Linguistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.3.2 Kognitionswissenschaft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    2.4 Krux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.5 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    3 Linguistisches Propdeutikum I 193.1 Wort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    3.1.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.1.2 Token . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.1.3 Wortform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.1.4 synt. Wort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.1.5 Lexem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    3.2 Wortarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.2.1 5 Hauptwortarten nach Glinz . . . . . . . . . . . . . . . . . . . . . . . . . 213.2.2 STTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    3.3 Morphologische Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.3.1 Genus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.3.2 Zahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.3.3 Kasus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.3.4 Modus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.3.5 Zeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.3.6 Person . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.3.7 Grad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.3.8 Flexion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    3.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    4 Linguistisches Propdeutikum II 274.1 Proben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    4.1.1 Ersetzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274.1.2 Einsetzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    2

  • 4.1.3 Weglassen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284.1.4 Verschieben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294.1.5 Umformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

    4.2 Satz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.3 Syntaxanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

    4.3.1 Konstituenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.3.2 Kpfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314.3.3 Dependenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324.3.4 Satzglieder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    4.4 Baumbanken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.4.1 NEGRA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.4.2 TIGERSearch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

    4.5 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

    5 Tokenisierung 375.1 Tokenisierer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    5.1.1 Grundproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375.1.2 Kodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375.1.3 Markup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385.1.4 Programme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

    5.2 XML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415.3 Tokenisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

    5.3.1 Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425.3.2 Punktdesambiguierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425.3.3 Normalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435.3.4 NER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

    5.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

    6 Flache Satzverarbeitung 466.1 Tagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

    6.1.1 Probleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486.2 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

    6.2.1 Zweck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 516.2.2 Accuracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 516.2.3 Lernkurven . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526.2.4 Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526.2.5 Precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526.2.6 F-Measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

    6.3 Chunking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 536.3.1 Abney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556.3.2 IOB-Chunk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556.3.3 Verschachtelte Chunks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    6.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 566.5 Exkurs: Evaluation binrer Klassifikatoren . . . . . . . . . . . . . . . . . . . . . . 57

    6.5.1 TP:FP:FN:TN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 576.5.2 Fehlerparadoxe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 576.5.3 Unterschiede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 586.5.4 Mittelwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

    3

  • 6.5.5 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

    7 Volltextsuche und Text Mining 617.1 Informationsflut . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    7.1.1 Suchdilemma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 617.2 Volltextsuche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

    7.2.1 Indexieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 657.2.2 Architektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 687.2.3 Retrieval . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 697.2.4 Relevanz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

    7.3 Text-Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 727.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

    8 Kondensation und Klassifikation von Texten 738.1 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

    8.1.1 Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 748.1.2 Terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 748.1.3 Anstze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

    8.2 IE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 768.2.1 IE vs. IR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 778.2.2 Klassische IE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

    8.3 Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 788.3.1 Kategorisieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 788.3.2 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

    8.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

    9 Sprachsynthese und Spracherkennung 809.1 Sprachsynthese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

    9.1.1 Architektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 819.1.2 Probleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 819.1.3 Analyseebenen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

    9.2 Spracherkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 879.2.1 Probleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 879.2.2 Worthypothesengraph . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 889.2.3 Wortfehlerrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

    9.3 Dialogsysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 899.3.1 Typen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 899.3.2 VoiceXML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

    9.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

    10 Maschinelle bersetzung I 9110.1 Einfhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

    10.1.1 Altes Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9110.1.2 Alter Traum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9110.1.3 Neuer Traum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

    10.2 Terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9310.2.1 MT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9310.2.2 CAT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

    4

  • 10.2.3 MAHT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9410.2.4 HAMT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9810.2.5 FAHQT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

    10.3 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10210.3.1 BLEU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10310.3.2 Parallele Baumbanken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

    10.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

    11 Maschinelle bersetzung II 10811.1 Probleme der bersetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

    11.1.1 Mehrdeutigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10811.1.2 Idiome und Kollokationen . . . . . . . . . . . . . . . . . . . . . . . . . . . 11311.1.3 Sprachbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

    11.2 Anstze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11611.2.1 Direkt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11711.2.2 Transfer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11811.2.3 Interlingua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12011.2.4 Kombination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

    11.3 SMT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12111.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

    12 Formales Propdeutikum I 12412.1 Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12412.2 Relationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12912.3 Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

    13 Formales Propdeutikum II 13513.1 Indexnotationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13513.2 Hllen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13613.3 Graphen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13813.4 Formale Sprachen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

    13.4.1 Sprache als Menge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13913.4.2 Konkatenation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14013.4.3 Grammatiken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

    14 Formales Propdeutikum III 14714.1 Merkmalstrukturen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

    14.1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14714.1.2 Rekursiv . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14814.1.3 Als Graphen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

    14.2 Pfade und Werte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15114.2.1 Koreferenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

    14.3 Unifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15314.3.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15314.3.2 Subsumtion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15414.3.3 Unifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

    15 Syntaktische Analyse 15615.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

    5

  • 15.2 Unifikationsgrammatik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15715.2.1 Formalismen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15715.2.2 Kongruenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16015.2.3 Rektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

    15.3 Analysen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16215.3.1 Verbalkomplex . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16215.3.2 Satzfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16215.3.3 Ergnzungsfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16315.3.4 Gaps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

    15.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

    16 Literaturverzeichnis 166

    Index 172

    6

  • Abbildungsverzeichnis

    2.1 Sprechende Maschine von 1791 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    3.1 5 Hauptwortarten nach Glinz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    4.1 Konstituenz, Dominanz und Przedenz in NEGRA-Darstellung . . . . . . . . . . 304.2 Konstituenz, Dominanz und Przedenz in Balken-Darstellung . . . . . . . . . . . 314.3 Syntaktische Funktionen in Balken-Darstellung . . . . . . . . . . . . . . . . . . . 334.4 Syntaktische Funktion in der NEGRA-Darstellung . . . . . . . . . . . . . . . . . 334.5 Moderne Satzgliedlehre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    6.1 Training, Tagging und Evaluation mit dem TnT-Tagger . . . . . . . . . . . . . . 476.2 Tagging-Ambiguittsraten aus der Frankfurter Rundschau . . . . . . . . . . . . . 496.3 Tnt-Evaluation an Penn Treebank durch Thorsten Brants . . . . . . . . . . . . . 536.4 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants . . . . . . . . . . . 546.5 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid . . . . . 546.6 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid . . . . . 556.7 F-Mass in dreidimensionaler Darstellung . . . . . . . . . . . . . . . . . . . . . . . 596.8 Arithmetisches vs. harmonisches Mittel . . . . . . . . . . . . . . . . . . . . . . . . 60

    7.1 In PubMed erfasste wiss. Artikel (2008 unvollstndig) . . . . . . . . . . . . . . . 627.2 Suchoption fr Inhaltsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . 637.3 Eingescanntes Inhaltsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . 637.4 OCR und Frakturschrift . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 647.5 Sachbegriff-Indexierung im NEBIS . . . . . . . . . . . . . . . . . . . . . . . . . . 657.6 Sachbegriff und Varianten im NEBIS . . . . . . . . . . . . . . . . . . . . . . . . 667.7 Textuelle Zusatzinformation im NEBIS . . . . . . . . . . . . . . . . . . . . . . . 667.8 Automatisches Indizieren von OPAC-Informationen: Gut . . . . . . . . . . . . . . 687.9 Automatisches Indizieren von OPAC-Informationen: Schlecht . . . . . . . . . . . 697.10 Generelle Architektur von IR-Systemen . . . . . . . . . . . . . . . . . . . . . . . . 70

    8.1 Wordle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 738.2 Grundmodell des inhaltsbasierten Textzusammenfassen . . . . . . . . . . . . . . . 748.3 Telegraphische Verkrzungstechnik . . . . . . . . . . . . . . . . . . . . . . . . . . 758.4 Information-Retrieval . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 778.5 Information-Extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 778.6 Beispiel eines typischen IE-Systems . . . . . . . . . . . . . . . . . . . . . . . . . . 78

    9.1 Architektur von MARY-TTS-System . . . . . . . . . . . . . . . . . . . . . . . . . 829.2 Satzintonation im Deutschen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 839.3 Satzintonation mit ToBi-Annotierung (Hrbeispiel: [Simmons 2006a]) . . . . . . 849.4 IPA-Symbole fr Deutsch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 859.5 Worthypothesengraph . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

    7

  • 9.6 Berechnung der Wortfehlerrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . 899.7 Anwendungsszenario VoiceXML . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

    10.1 Automatisierungsgrade der bersetzung . . . . . . . . . . . . . . . . . . . . . . . 9410.2 Beispiel: Dokumenten-Editor mit Zugriff auf TM . . . . . . . . . . . . . . . . . . 9510.3 Beispiel: Fuzzy-Match mit 81% bereinstimmung . . . . . . . . . . . . . . . . . . 9510.4 Beispiel: Dokumenten-Editor mit Zugriff auf TM . . . . . . . . . . . . . . . . . . 9610.5 Parametrisierung der Alignierung bei SDL Trados WinAlign . . . . . . . . . . . . 9810.6 Fehlerhafte Roh-Alignierung in SDL Trados 22007 WinAlign . . . . . . . . . . . 9910.7 Export der Alignierung als TM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9910.8 Terminologie-Verwaltung mit Termbase . . . . . . . . . . . . . . . . . . . . . . . 10010.9 Rohbersetzung von erkannter Terminologie . . . . . . . . . . . . . . . . . . . . 10110.10Filmuntertitel sind kurz! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10110.11Korrelation von menschlichen und BLEU-Bewertungen . . . . . . . . . . . . . . . 10610.12Paralleler Syntaxbaum DE-EN . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

    11.1 Situationen zu The pen was in the box . . . . . . . . . . . . . . . . . . . . . . . 11111.2 Situationen zu The box was in the pen . . . . . . . . . . . . . . . . . . . . . . . 11211.3 Transfer-bersetzung im Bild . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11811.4 Transfer-bersetzung im Detail . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11911.5 Transfer-Regeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11911.6 Lexikalische berschneidungen nach Somers . . . . . . . . . . . . . . . . . . . . . 12111.7 Verbindung von direkter, Transfer- und Interlingua-bersetzung . . . . . . . . . . 12111.8 Fluency und Faithfullness in SMT nach [Al-onaizan et al. 1999] . . . . . . . . . 122

    12.1 Faksimile der Bestimmung des Mengenbegriffs bei Georg Cantor . . . . . . . . . . 12412.2 Pfeildiagramm einer partiellen Funktion . . . . . . . . . . . . . . . . . . . . . . . 13212.3 Pfeildiagramm einer surjektiven Funktion . . . . . . . . . . . . . . . . . . . . . . 13212.4 Pfeildiagramm einer injektiven Funktion . . . . . . . . . . . . . . . . . . . . . . . 13212.5 Pfeildiagramm einer bijektiven Funktion . . . . . . . . . . . . . . . . . . . . . . . 13312.6 bersicht: Eigenschaften von Relationen und Funktionen . . . . . . . . . . . . . . 133

    13.1 Baumdarstellung eines Baum-Graphen . . . . . . . . . . . . . . . . . . . . . . . . 13913.2 Teilmengenbeziehungen der Sprachklassen von Chomsky . . . . . . . . . . . . . . 14213.3 Beispiel fr Linksderivation und Parsebaumkonstruktion . . . . . . . . . . . . . . 144

    14.1 F-Struktur als Merkmalstruktur in XLE . . . . . . . . . . . . . . . . . . . . . . . 15014.2 Merkmalstruktur als gerichteter Baum . . . . . . . . . . . . . . . . . . . . . . . . 15014.3 Merkmalstruktur als gerichteter Baum . . . . . . . . . . . . . . . . . . . . . . . . 15114.4 Kstchennotation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15114.5 Koreferente Merkmalstruktur als Matritze . . . . . . . . . . . . . . . . . . . . . . 15314.6 Koreferente Merkmalstruktur als gerichteter Graph . . . . . . . . . . . . . . . . . 153

    15.1 Annotation von Wh-Fragen in der Penn-Treebank . . . . . . . . . . . . . . . . . . 16415.2 NEGRA-Baum mit berkreuzenden Kanten . . . . . . . . . . . . . . . . . . . . . 16515.3 NEGRA-Baum mit Lcken und koindizierten Lckenfllern . . . . . . . . . . . . 165

    8

  • 1 Organisatorisches

    1.1 Organisatorisches

    Konzept und Inhalt der Vorlesung

    Einfhrung in die Computerlinguistik I (+ II) vermittelt die wichtigsten praktischen undtheoretischen Ziele der Computerlinguistik in bersicht.

    Vorgestellt werden beispielhafte Systeme, Anwendungen wie Textsegementierung, maschi-nelle bersetzung, Sprachsynthese- und erkennung, Textsuche und -mining, Informati-onsextraktion und Textzusammenfassung, sowie Grundlagen, Methoden und Probleme derautomatischen Syntaxanalyse von Sprachen.

    Im Kurs integriert sind zwei Propdeutika (Vorkurse), wo das notwendige linguistische undformale Wissen vermittelt wird.

    Kurs-Leitseite im WWW und LehrmaterialienOLAT-Kurs namens CL_08_HS_ECL 1: Merkblatt zum Einstieg in OLAT [Roth 2006]

    https://www.olat.uzh.ch/olat/auth/repo/go?rid=769720321

    Folienskript im 4-up-Format (farbige und SW-Version) als PDF-Dokument unter Vorle-sungsunterlagen

    Lauftextversion des Folienskripts (HTML-Version und PDF-Dokument) mit Index und klei-nen Ergnzungen http://www.cl.uzh.ch/siclemat/lehre/hs08/ecl1/script/html/script.html

    Unser Kursbuch (wichtig: 2. Auflage anschaffen):

    Carstensen et al. Hgg. (2004): Computerlinguistik und Sprachtechnologie: Eine Einfh-rung. Elsevier, Mnchen, 2004. ISBN 3-8274-1407-5.

    Lehren und LernenCommitments

    Wir engagieren uns, um eine optimale CL-Ausbildung anzubieten.

    Wir brauchen Ihre Rckmeldung, um suboptimale Elemente unserer Lehrarbeit zu verbes-sern.

    Sie engagieren sich, die fr ein optimales Lernen notwendige Zeit und Arbeit aufzuwenden.

    Sie brauchen unsere Rckmeldung, um suboptimale Elemente Ihrer Lernarbeit und IhresLernerfolgs zu verbessern.

    9

    https://www.olat.uzh.ch/olat/auth/repo/go?rid=769720321http://www.cl.uzh.ch/siclemat/lehre/hs08/ecl1/script/html/script.htmlhttp://www.cl.uzh.ch/siclemat/lehre/hs08/ecl1/script/html/script.html

  • 12 schriftliche bungen (SU)

    Bachelor-Studierende, Informatik-Studierende, ETH-Multidisziplinfach: 33% der Schluss-note

    Optional (Wahlmglichkeit bis in 4. Woche) fr Lizentiats-Studierende: 33% der Note derTeilakzessprfung

    Bestanden/Nicht-Bestanden-System pro SU

    Benotung: 6 (10-12 SU); 5.5 (9 SU); 5 (8 SU); 4.5 (7 SU); 4 (6 SU); 3.5 (5 SU); 3 (4 SU);2.5 (3 SU); 2 (2 SU); 1.5 (1 SU); 1 (0 SU)

    Keine (!) Musterlsungen, dafr Vor- und Nachbesprechung, Frage- und Diskussionsgele-genheit in bungsstunde und auf OLAT

    bungsstunden bei Rico Sennrich am Freitag 10.15-11.45h (!) im Raum BIN 0.B.04

    Start in der 2. Semesterwoche

    Abgabe der letztwchigen bungen und Ausgabe der neuen bungen jeweils am Mittwoch18h

    Hochrechnung zum Workload fr 4 ECTS-Punkte

    Bei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand bercksich-tigt, der fr das Erreichen einer gengenden Prfungsleistung erforderlich ist. (14, Abs.2)

    [Universittsrat 2004]

    1 ECTS-Punkt der Uni Zrich = 30h geistige Arbeit

    Prsenz in Vorlesung, bungsstunde und schriftlicher Prfung:

    2 14 2h = 56h

    Zeit pro Woche fr (Pflicht-)Lektre, Lsen der schriftlichen bungen und Prfungsvor-bereitung:

    120h 56h 1h14

    = 4.5h

    Mindestens 1h, um uns mitzuteilen, was wir verbessern sollen. . .

    E-Learning

    CLabTeile der Vorlesung und bungen werden durch Lerneinheiten aus unserem interaktiven, web-basierten Computerlinguistik-Laboratorium (CLab) untersttzt. http://www.cl.uzh.ch/clab

    Applikationen auf CL-UNIX-ServernFr gewisse bungen oder zur Vertiefung sind gewisse CL-Applikationen auf unseren Servernempfohlen. Von den Computern in den bungsrumen aus sind diese problemlos nutzbar.Wer die bungsstunde nicht besuchen kann, braucht dazu VPN (Virtual Private Network), SSH(Secure Shell bzw. Putty) und einen X11-Klienten. Einfhrung dazu in der 1. Semesterwoche(Einfhrung in OLAT und Installationssupport durch Fachschaft Freitag, 19.9.08 ab 12.15h BIN0.B.04) oder via Anleitungen.

    10

    http://www.cl.uzh.ch/clab

  • Schriftliche Prfung

    Zeit: Donnerstag, 15.1.09, von 16.15 - 17.45h

    Dauer: 90 Minuten

    Stoff: Skript, bungen, Pflichtlektren

    Bitte das fr Sie gltige Infoblatt zur Leistungsberprfung genau lesen! [ICL 2007b,ICL 2007a]

    11

  • 2 Was ist CL?

    Lernziele

    Kenntnis der grundlegenden Thematik von Computerlinguistik, Sprachtechnologie undLinguistik

    Kenntnis der zentralen Anliegen der modernen Computerlinguistik

    Kenntnis der verschiedenen wissenschaftlichen Disziplinen und Fachbezeichnungen, welchemit Computerlinguistik interdisziplinr und transdisziplinr verbunden sind

    Kenntnis der wichtigsten Meilensteine, Personen und Strmungen innerhalb der CL-Geschichte(Pflichtlektre)

    Kenntnis der Krux der Sprachverarbeitung

    2.1 Motivation

    CL-haltige Produkte im (Computer-)Alltag

    Textverarbeitung (Rechtschreibe- und Grammatikkorrektur)

    Elektronische Wrterbcher (Thesauri)

    Automatische bersetzung

    Recherchen im WWW

    Auskunftssysteme (z.B. [Kassensturz 2006])

    . . .

    2.2 Fachrichtungen

    2.2.1 Computerlinguistik

    Was ist CL?

    Definition 2.2.1 (weiter Begriff). Computerlinguistik (CL; engl. computational linguistics) isteine Wissenschaft im berschneidungsbereich von Sprachforschung und Informatik, welche sichmit der maschinellen Verarbeitung von natrlicher Sprache beschftigt.

    FrageIst das Kopieren einer MS-Word-Datei von einer CDROM auf die Festplatte eine Anwendungvon CL?

    FrageIst die 1791 beschriebene Maschine zur Sprachsynthese von Wolfgang von Kempelen (1734-1804)eine frhe Anwendung von CL?

    12

  • Sprachsynthese nach Kempelen

    Abbildung 2.1: Aus dem Buch Mechanismus der menschlichen Sprache nebst Beschreibung einersprechenden Maschine (1791) [Traunmller 1997]

    2.2.2 Sprachtechnologie

    Was ist Sprachtechnologie?

    Definition 2.2.2. Sprachtechnologie beschftigt sich mit der praxis- und anwendungsbezogenen,ingenieursmssig konzipierten Entwicklung von Sprachsoftware.

    2.2.3 Weiteres

    Verwandte/Alternative FachbezeichnungenDeutsch EnglischLinguistische Datenverarbeitung (LDV) Linguistic and Literary Computing (LLC)Maschinelle Sprachverarbeitung Natural Language Processing (NLP)Automatische Sprachverarbeitung (ASV) (Natural) Language Engineering (NLE)Computerphilologie Computational PhilologySprachtechnologie Speech Processing

    Human Language Technology (HLT)Texttechnologie Text TechnologyKorpuslinguistik Corpus LinguisticsMedieninformatikLinguistische InformatikInformationslinguistik

    13

  • QUIZ: Was ist was? [Weisser 2005]

    Frage 1: Welche Fachrichtung wird hier beschrieben?

    The use and possibly also compilation of computer-based text materials to investigatelinguistic phenomena and ways of teaching about language.

    Antwort Computational Linguistics Computational Philology Natural Language Engineering Corpus Linguistics

    Frage 2: Welche Fachrichtung wird hier beschrieben?

    The compilation, annotation and use of written and spoken corpora for the investi-gation of linguistic phenomena, mainly by means of easy to use software.

    Antwort Computational Linguistics Computational Philology Natural Language Engineering Corpus Linguistics

    Frage 3: Welche Fachrichtung wird hier beschrieben?

    The automated analysis and modelling of language by means of sophisticated pro-gramming techniques.

    Antwort Computational Linguistics Computational Philology Natural Language Engineering Corpus Linguistics

    Frage 4: Welche Fachrichtung wird hier beschrieben?

    The creation and application of corpora for use in computer-based systems, such asspeech recognition engines, translation systems, etc.

    Antwort Computational Linguistics Computational Philology Natural Language Engineering Corpus Linguistics

    14

  • Schwerpunkte der verwandten Disziplinen

    Symbolische, logikbasierte vs. statistische, probabilistische Methoden

    Anwendungs- vs. Theorieorientierung

    Algorithmisierung als Proof-Of-Concept (Kann man sowas berhaupt? vs. effiziente (kom-merziell einsetzbare) Systeme

    Hilfswissenschaft vs. eigenstndige Forschung

    Gesprochene vs. verschriftlichte Sprache (Text)

    Psychologische/Neurologisch Plausibilitt vs. ingenieurmssige Lsung

    2.2.4 Moderne Computerlinguistik

    4 zentrale Anliegen der modernen Computerlinguistik

    Formalisierung natrlichsprachlicher Phnomene und ihre Operationalisierung auf demComputer

    Aufbau, Verwaltung und linguistische Interpretation (Erkennung von Wortarten, Grund-formen, syntaktischen Strukturen) von grossen Textsammlungen (Korpora) und lexikali-schen Ressourcen (Lexika)

    Entwicklung realistischer und technologisch fortschrittlicher Anwendungen

    Entwicklung und Durchfhrung von Evaluationen sprachverarbeitender Systeme und Kom-ponenten

    2.3 Nachbardisziplinen

    Nachbardisziplinen in bersicht

    Linguistik: formale Linguistik fr Sprachmodelle; beschreibende Linguistik und Korpus-linguistik fr empirische Basis

    Informatik: praktische und theoretische Informatik (Was lsst sich mit welchem Formalis-mus wie effizient berechnen?); Knstliche Intelligenz

    Kognitionswissenschaft

    Logik und Philosophie

    Mathematik: Mengenlehre (Funktionen, Relationen, Graphen) und Statistik

    15

  • 2.3.1 Linguistik

    Linguistik

    Definition 2.3.1 (Moderne strukturalistische Sprachwissenschaft nach [Bussmann 2002]). DieLinguistik (engl. linguistics) beschftigt sich mit den verschiedenen Beschreibungsebenen derSprache (gesprochene Sprache und Schrift): Phonetik/Phonologie, Morphologie, Syntax, Seman-tik und Pragmatik.Als moderne, synchron orientierte Sprachwissenschaft untersucht sie sprachliche Regularittenund hlt diese in expliziter (formalisierter) Beschreibungssprache und erklrenden Modellen fest.

    Lautlehre: Phonetik und Phonologie

    Definition 2.3.2. Die Phonetik (engl. phonetics) ist die Lehre von der Lautbildung. Sie umfasstdie artikulatorische, akustische und auditive Ebene.

    Definition 2.3.3 (enger strukturalistischer Begriff). Die Phonologie (engl. phonology) ist dieLehre von den bedeutungsunterscheidenden Sprachlauten (Phonemen) und ihren regelhaftenEigenschaften und Beziehungen.

    Beispiel 2.3.4 (Phonologische Regel der Auslautverhrtung).

    1. Dieb /di:p/

    2. Diebe /di:b@/

    Exkurs: Internationales Phonetisches Alphabet (IPA)

    Die Symbole zwischen den Schrgstrichen wie in /di:p/ sind eine Lautschrift, d.h. ein schrift-liches Notationssystem, welches die Lautform beliebiger Sprachen wiedergeben knnen soll. DieIPA-Notationen fr die Laute des Standarddeutschen sind in [Carstensen et al. 2004, 156]erklrt.Die IPA-Zeichen sind Teil des UNICODE-Standards (http://wwww.unicode.org), welcher alleSchriftsysteme der Welt wiedergeben knnen will.Eine Kodierung, welche die IPA-Symbole mit Hilfe eines 7-Bit-ASCII-Zeichensatzes (Gross- undKleinbuchstaben von a bis z, Ziffern, einige Interpunktionszeichen jedoch keine Umlaute undandere exotische Glyphen) erlaubt, heisst SAMPA. Die Kodierung fr /di:b@/ lautet darin:di:b@.

    Wortlehre: Morphologie

    Definition 2.3.5. DieMorphologie (engl.morphology) ist die Lehre von der Struktur der Wrterund ihrer Bildung.

    Beispiel 2.3.6 (Flexion).

    1. Dieb#e Dieb-Plural Mehr als ein Dieb.

    2. Dieb#e Dieb-Dativ dem Dieb

    16

    http://wwww.unicode.org

  • Satzlehre: Syntax

    Definition 2.3.7. Die Syntax ist die Lehre vom zulssigen (wohlgeformten) strukturellen Auf-bau von Stzen aus Wrtern, Satzgliedern (Subjekt, Objekt, Prdikat usw.) und Teilstzen.

    Beispiel 2.3.8 (Grammatikalitt, d.h. syntaktische Wohlgeformtheit).

    1. Der gewitzte Dieb stahl den Diamanten.

    2. *Der Dieb gewitzte stahl den Diamanten.

    3. *Den gewitzten Dieb stahl den Diamanten.

    Bedeutungslehre: Semantik

    Definition 2.3.9. Die Semantik (engl. semantics) ist die Lehre von der Bedeutung der Wrter(lexikalische Semantik), der grsseren syntaktischen Einheiten (Satzsemantik) und von Texten(Diskurssemantik).

    Beispiel 2.3.10 (Sprachliche Varianz unter Bedeutungsgleichheit).

    1. Die Polizei beschlagnahmte das Diebesgut.

    2. Das Diebesgut beschlagnahmte die Polizei.

    3. Das Diebesgut wurde von der Polizei beschlagnahmt.

    4. [Die Polizei fasste die Tter.] Sie beschlagnahmte das Diebesgut.

    Lehre von der Sprachverwendung: Pragmatik

    Definition 2.3.11. Die Pragmatik ist die Lehre vom (Kommunikations-)Zweck der usserungenvon Sprachnutzern und den Gesetzmssigkeiten natrlichsprachlicher Kommunikation in derWelt.

    Beispiel 2.3.12 (Sprachliche Varianz unter Zweckgleicheit).

    1. Ist das Fenster auf?

    2. Bitte schliessen Sie das Fenster!

    2.3.2 Kognitionswissenschaft

    Kognitionswissenschaft

    Definition 2.3.13. Die Kognitionswissenschaft (engl. cognitive science) ist die interdisziplinreErforschung kognitiver Fhigkeiten durch Psychologie, Neurowissenschaft, Informatik, Linguistikund Philosophie. Zu den kognitiven Fhigkeiten werden etwa Wahrnehmung, Denken, Lernen,Motorik und Sprache gezhlt.

    Geschichte der KognitionswissenschaftExzellenter Artikel in [Wikipedia 2006a]

    17

  • Turing-Test: Knnen Maschinen denken?

    Turing-Test im Original [Turing 1950]The new form of the problem can be described in terms of a game which we call the imitationgame. It is played with three people, a man (A), a woman (B), and an interrogator (C) whomay be of either sex. The interrogator stays in a room apart front the other two. The object ofthe game for the interrogator is to determine which of the other two is the man and which isthe woman. He knows them by labels X and Y, and at the end of the game he says either X isA and Y is B or X is B and Y is A. [. . . ]We now ask the question, What will happen when a machine takes the part of A in this game?Will the interrogator decide wrongly as often when the game is played like this as he does whenthe game is played between a man and a woman? These questions replace our original, Canmachines think?

    Reale Turing-TestsSeit 1991 werden ffentliche Wettbewerbe (Loebner-Preis) mit Dialogsystemen gemacht, welcheden Turing-Test bestehen wollen. Preistrgersysteme lassen sich teilweise im WWW direkt aus-probieren. [Wikipedia 2006b] Das Ziel dieser Test lautet: Kann eine Maschine so antworten ineinem Dialog, dass man sie nicht mehr von einem Menschen unterscheiden kann?

    2.4 Die Krux der Mehrdeutigkeit

    Mehrdeutigkeit [Jurafsky und Martin 2000, 4]

    Beispiel 2.4.1.I made her duck.

    Einige Paraphrasen, d.h. Lesarten

    1. I cooked waterfowl for her.

    2. I cooked waterfowl belonging to her.

    3. I created the (plaster?) duck she owns.

    4. I caused her to quickly lower her head or body.

    5. I waved my magic wand and turned her into undifferentiated waterfowl.

    FrageAuf welcher Ebene der linguistischen Analyse werden die Mehrdeutigkeiten aufgelst (desambi-guiert) in der Paraphrase?

    2.5 Vertiefung

    Pflichtlektre [Carstensen et al. 2004, 123]

    Konversation mit einem Chat-Bot wie etwa http://www.elbot.de (Gewinner des Chat-terbox Contests 2003)

    18

    http://www.elbot.de/http://www.elbot.de

  • 3 Linguistisches Propdeutikum I

    Lernziele

    Kenntnis der Begriffe Wort, Token, Lexem, Lemma, Lexemverband

    Kenntnis der Wortartenlehre fr Deutsch

    Kenntnis der morphologischen Kategorien fr Deutsch und Englisch

    Kenntnis und Anwendung des Stuttgart-Tbingen-Tagsets (STTS) mit Hilfe der Referenz-karte

    Erfahrungen mit computerlinguistisch untersttzter, halbautomatischer linguistischer An-notation von Morphologie und Wortarten

    3.1 Wort

    3.1.1 Definition

    Wort

    Definition 3.1.1 (nach [Bumann 1990]). Wort. Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fr sprachliche Grundeinheiten, dessen zahlreiche sprachwissenschaftlicheDefinitionsversuche uneinheitlich und kontrovers sind.

    Beispiel 3.1.2 (Was ist ein Wort?).

    1. Sie wollte vor allem am 1. Spiel teilnehmen.

    2. Sie nahm z.B. an dem 2. Spiel teil.

    3. Das gibts doch nicht!

    4. Blick Online verlost zum Film-Start das Ich bin Borat-Kit [. . . ]

    Przisierungsversuche des Wort-BegriffsSprachliche Ebenen zur Przisierung des Wort-Begriffs

    phonetisch-phonologisch: kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment

    orthographisch-graphemisch: durch Leerstellen im Schriftbild isolierte Einheit

    morphologisch: Grundeinheit, welche flektierbar ist

    lexikalisch-semantisch: kleinster Bedeutungstrger, welcher im Lexikon kodifiziert ist

    syntaktisch: kleinste verschieb- und ersetzbare Einheit des Satzes

    19

  • Gngige Wortauffassungen [Linke et al. 2001]

    Wieviele verschiedene Wrter hat dieser Satz?Wenn hinter Fliegen Fliegen fliegen, fliegen Fliegen Fliegen nach.

    Antworten 9 5 6 4 __

    3.1.2 Token

    Antwort 9: Wort als Vorkommen einer Wortform

    Wieviele verschiedene Wrter hat dieser Satz?Wenn1 hinter2 Fliegen3 Fliegen4 fliegen5, fliegen6 Fliegen7 Fliegen8 nach9 .

    Definition 3.1.3 (Token). Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText.

    BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Token betrachtet. Die Antwortwre dann . . .

    3.1.3 Wortform

    Antwort 5: Wort als Wortform

    Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4, fliegen4 Fliegen3 Fliegen3 nach5.

    Definition 3.1.4 (Wortform). Eine Wortform ist eine rein graphematische Einheit eines Textes.

    Beispiel 3.1.5 (Identische Wortformen mit unterschiedlicher Bedeutung).

    Die Fliege war tot.

    Er trug eine samtene Fliege.

    Fliege nicht so schnell!

    3.1.4 Syntaktisches Wort

    Antwort 6: Wort als syntaktisches Wort

    Wenn1 hinter2 Fliegen3 Fliegen4 fliegen5, fliegen5 Fliegen4 Fliegen3 nach6

    Definition 3.1.6 (Syntaktisches Wort). Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen Merkmalen.Rein orthographische Varianten einer Wortform werden fr ein syntaktisches Wort normalerweisezusammengefasst.

    Beispiel 3.1.7 (Wortform vs. syntaktisches Wort).Die Wortform Fliegen kann mindestens 4 syntaktische Wrter reprsentieren: Fliege in No-minativ, Akkusativ, Dativ oder Genitiv Plural.

    20

  • 3.1.5 Lexem

    Antwort 5: Wort als Lexem

    Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4, fliegen4 Fliegen3 Fliegen3 nach5.

    Definition 3.1.8 (Lexem im engen Sinn). Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Wrtern, welche sich nur in bestimmten morphosyntaktischen Merkmalen (Kasus,Numerus, Tempus usw.) unterscheiden.

    Definition 3.1.9 (Nennform, Zitierform, Grundform, Lemma). Ein Lemma ist eine lexikogra-phische Standard-Notation fr ein Lexem.

    Beispiel 3.1.10 (Lexikographische Notationskonventionen im Deutschen).Substantiv-Lexeme werden durch das syntaktische Wort im Nominativ Singular reprsentiert.Verb-Lexeme durch den Infinitiv. Wie werden Verb-Lexeme im Latein notiert?

    Antwort 4: Wort als Lexemverband

    Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3, fliegen3 Fliegen3 Fliegen3 nach4.

    Definition 3.1.11 (Lexemverband, auch Lexem im weiten Sinn). Ein Lexemverband ist eineMenge von Lexemen, welche den gleichen Wortstamm haben.

    BemerkungLexemverbnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten.

    Beispiel 3.1.12 (Satz als Menge von Lexemverbnden).Wie lsst sich die Menge der Wrter des Beispielsatzes in Mengennotation als Lexemverbanddarstellen?

    3.2 Lehre von den Wortarten

    Wortarten nach [Bumann 1990]

    Definition 3.2.1 (Redeteile, engl. parts of speech (PoS)). Wortarten sind das Ergebnis derKlassifizierung der Wrter einer Sprache nach morphologischen, syntaktischen und/oder seman-tischen Kriterien.

    Historisches [Gallmann und Sitta 2001]Die 8-Wortarten-Lehre von Dionysius Thrax (ca. 100 vor Chr.) wirkte stark bis ins 19. Jahr-hundert. Fr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemssAdelung (1781) vermittelt: Substantiv, Verb, Adjektiv, Pronomen, Artikel, Adverb, Prposition,Konjunktion, Interjektion, NumeraleMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilung durch,welche explizite (operationalisierbare) und durchgngige Klassifikationskriterien anwendet.

    3.2.1 5 Hauptwortarten nach Glinz

    KlassifikationskriterienWelcher Fachbegriff wre prziser anstelle von Wrter in der Abbildung?

    21

  • Abbildung 3.1: Die 5 Hauptwortarten nach Glinz [Stocker et al. 2004]

    3.2.2 STTS

    Stuttgart/Tbingen-Tagset (STTS)

    http://www.cl.uzh.ch/clab/hilfe/stts/

    Das Standard-Tagset des Deutschen [Schiller et al. 1999] (vergleichbar mit dem Penn-Treebank-Tagset fr Englisch)

    Wichtige linguistische Korpora wie NEGRA-Korpus oder TIGER-Korpus sind mit STTSannotiert. III

    Frei verfgbare Werkzeuge zum automatischen Bestimmen von Wortarten (sogenannteTagger) liefern mit STTS-Tags versehenen Output.

    Eine Notationsvariante von STTS ist als europischer Standard fr Deutsch (EAGLESELM-DE) [EAGLES 1996] spezifiziert worden.

    Alternativen: Mnsteraner Tagset [Steiner 2003]

    Besonderheiten von STTS

    Wortarten fr satzinterne und -finale Interpunktion ($,, $. . . . )

    Kategorie fr fremdsprachliches Material (FM)

    Feine Aufgliederung bei Glinzschen Partikeln: Antwortpartikel (PTKANT), Negationspartikel(PTKNEG) usw.; Konjunktionen, Adverbien usw.

    Feine Aufgliederung bei Pronomen/Begleiter: Personalpronomen (PPERS), Demonstrativ-pronomen (PDS) usw.

    22

    http://www.cl.uzh.ch/clab/hilfe/stts/http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.htmlhttp://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERCorpus/http://www.cl.uzh.ch/siclemat/lehre/negra

  • Durchgngige Unterscheidung von attribuierend (Begleiter) vs. substituierend (Prono-men): Diese/PDAT Kuh muht. vs. Diese/PDS muht.

    Eigennamen sind eine semantisch definierte Klasse.

    QUIZ zu Wortarten

    Wo stecken in den folgenden Stzen besondere Schwierigkeiten? Wieso?

    Er kannte ihn schon als kleines Kind.Die Wissenschaft selbst ist ein kompliziertes System.Ich habe noch nie solch eine Geschichte gehrt.Er ist erkrankt.Auf der einen Seite ist es so, aber ...Der Mann, von dessen Vater das Buch handelt, ist ...Er kam pltzlich und ohne anzuklopfen herein.Er wartete bis um 5 Uhr.

    3.3 Morphologische Merkmale

    Morphologische Kategorien und ihre Merkmale

    Definition 3.3.1 (auch morphosyntaktisches oder grammatisches Merkmal). Die morphologi-schen Merkmale sind Ausprgungen von morphologischen Kategorien wie Genus, Kasus, Nume-rus, Person, Tempus, Modus und Komparation, welche durch die Flexion realisiert werden.

    Flexion: Bildung von den unterschiedlichen syntaktischen Wortformen eines Lexems

    Konjugation von Verben

    Deklination von Nomen, Adjektiven, Artikeln und Pronomen

    Steigerung von Adjektiven (und wenigen Adverbien)

    Diskussion: Sind steigerbare Adverbien ein Widerspruch im System?

    Nach Glinz zhlen die Adverbien zu den Partikeln. Partikeln sind gemss dieser Einteilungnicht flektierbar. Zur Flexion wird normalerweise auch die Komparation gezhlt. Es gibt einigeAdverbien, welche komparierbar sind (sehr, mehr, am meisten, gern, lieber, am liebsten . . . ).Ist dies ein Widerspruch? Ein bisschen schon. Aber: Steigerung wird oftmals nur fr Adjektiveals Flexion betrachtet.Ist dies ein definitorischer Zirkel? Ein bisschen schon. Aber: Was ein Adjektiv ausmacht, istdie Gesamtheit der Attribute im Klassifikationsbaum, d.h. flektierbar nach Kasus, Genus undkomparierbar. Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheiden.Aber es gibt doch auch Adjektiv-Lexeme, welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (d.h. in flektierter Position) verwendet werden knnen? Hmmh, dann musses wohl noch andere Grnde geben, ein Adjektiv-Lexem zu sein.Welche denn?

    23

  • Fachbegriff Deutsch Englisch STTS BeispielMaskulinum mnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum schlich neuter Neut HuhnUnterspezifiziert n/a n/a * Ferien

    Tabelle 3.1: bersicht: Genera

    3.3.1 Genus

    Das Genus (engl. gender): Grammatisches Geschlecht

    BemerkungDer Plural von Genus lautet Genera.

    Beispiel 3.3.2 (Bei welchen Wortarten ist die Kategorie Genus ausgeprgt?).

    3.3.2 Numerus

    Der Numerus (engl. number): Grammatische Zahl

    Fachbegriff Deutsch Englisch STTS BeispielSingular Einzahl singular Sg HuhnPlural Mehrzahl plural Pl Hhner

    Tabelle 3.2: bersicht: Numeri

    BemerkungDer Plural von Numerus lautet Numeri.

    Beispiel 3.3.3 (Bei welchen Wortarten ist die Kategorie Numerus ausgeprgt?).

    3.3.3 Kasus

    Der Kasus (engl. case): Fall

    Fachbegriff Deutsch Englisch STTS BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Akk den Baum

    Tabelle 3.3: bersicht: Kasus

    BemerkungDer Plural von Kasus lautet Kasus.

    Bei welchen Wortarten ist die Kategorie Kasus

    24

  • 3.3.4 Modus

    Der Modus (engl. mode, mood): Aussageweise

    Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Mglichkeitsform subjunctive mood Konj er gehe

    Tabelle 3.4: bersicht: Modi

    BemerkungenDer Plural von Modus lautet Modi.Die Befehlsform (Imperativ) wird normalerweise auch als Modus aufgefasst. Im STTS ist diesdurch das V.IMP ausgedrckt.

    3.3.5 Tempus

    Das Tempus (engl. tense): grammatische Zeit, Zeitform

    Fachbegriff Deutsch Englisch STTS BeispielPrsens Gegenwart present tense Pres er gehtPrteritum Vergangenheit past tense Past er ging

    Tabelle 3.5: bersicht: Tempora

    BemerkungenDer Plural von Tempus lautet Tempora.

    3.3.6 Person

    Die Person (engl. person)

    Fachbegriff Deutsch Englisch STTS Beispiel1. Person Sprecher first person 1 ich gehe2. Person Angesprochene second person 2 du gehst3. Person Person, Sachverhalt third person 3 er geht

    Tabelle 3.6: bersicht: Personen

    BemerkungenDer Plural von Person lautet Personen; die Verwendung ist allerdings ungebruchlich.

    Bei welchen Wortarten ist die Kategorie Person ausgeprgt?

    25

  • Fachbegriff Deutsch Englisch STTS BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Hchststufe superlative Sup schlauste

    Tabelle 3.7: bersicht: Komparation

    3.3.7 Grad

    Der Grad (engl. degree): Steigerung, Komparation

    Bei welchen Wortarten ist die Kategorie Grad ausgeprgt?

    3.3.8 Adjektiv-Flexion

    Die Adjektiv-Flexion (engl. adjective inflection)

    Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best. Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein, kein,. . . mixed Mix keine schlauen FchseStarke Flexion ohne Artikel strong St schlaue Fchse

    Tabelle 3.8: bersicht: Adjektiv-Flexion

    Bei welchen Wortarten ist die Kategorie Adjektiv-Flexion ausgeprgt?

    Beispiel 3.3.4 (Flexion von schlau).Darstellung bei den Canoo-Sprachtools: III

    3.4 Vertiefung

    Referenzkarte zu STTS und dem NEGRA-Sprachmodell [Referenzkarte 2007]

    Manuals fr das Programm annotate [Plaehn 2000, Plaehn 1998]

    http://www.canoo.net aus Basel hat eine sorgfltige traditionelle linguistische Termino-logie im Web und viel (!) Anschauungsmaterial aus ihrem Morphologiesystem.

    PflichtlektreNachschlagen von mindestens 30 Tags im Annotationshandbuch [Schiller et al. 1999] bei Un-sicherheit im Annotieren von Wortart und morphologischer Kategorie

    26

    http://www.canoo.net/services/Controller?dispatch=inflection&lang=de&view=split&input=schlauhttp://www.canoo.net

  • 4 Linguistisches Propdeutikum II

    Lernziele

    Kenntnis der klassischen syntaktischen Proben

    Kenntnis der Begriffe Satz, Konstituenz, Dependenz, Konstituente, Kern, Kopf, Satzglied,Phrase

    Kenntnis der wichtigsten syntaktischen Funktionen

    Kenntnis und Anwendung des NEGRA-Annotationsschemas mit Hilfe der Referenzkarte

    Erfahrungen mit computerlinguistisch untersttzter, halbautomatischer linguistischer An-notation von syntaktischen Strukturen

    Erfahrungen mit der einfachen Suche von syntaktischen Strukturen in einer Baumbank

    4.1 Linguistische Proben

    Linguistische Testverfahren

    Definition 4.1.1 (Linguistische Proben). Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik, das gezielt die sprachliche Kompetenz benutzt, umgrammatische Aussagen verifizieren (besttigen) oder falsifizieren (verwerfen) zu knnen.

    4.1.1 Ersatzprobe

    Ersatzprobe

    Definition 4.1.2. In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt. Die Interpretation des Satzrestesmuss dabei unverndert bleiben.

    Beispiel 4.1.3 (Bestimmung des Kasus).

    Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat

    Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen.

    Beispiel 4.1.4 (Bestimmung der Wortart von das).

    Das ist das Angebot, das uns berzeugt hat.

    27

  • Dieses ist das Angebot, welches uns berzeugt hat.

    * Welches ist das Angebot, dieses uns berzeugt hat.

    ? Das ist dieses Angebot, welches uns berzeugt hat.

    Probleme der Interpretation

    Test bestanden vs. nicht bestanden ist manchmal abhngig von der ursprnglichen Inter-pretation des Satzes.

    Ob die Interpretation des Satzrestes sich ndert durch den Ersatz, ist nicht immer leichtzu beurteilen.

    4.1.2 Einsetzprobe

    Einsetzprobe

    Definition 4.1.5. In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt, der ihn grammatisch eindeutig interpretiert.

    Beispiel 4.1.6 (Bestimmung der Wortart).

    Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis *Der gratis Baum Adverb

    Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfr Verben oder Steigerung fr Adjektive.

    4.1.3 Weglassprobe

    Weglassprobe

    Definition 4.1.7. In der Weglassprobe wird von einem grsseren mehrdeutigen Ausdruck sovielMaterial wie mglich entfernt, um einen eindeutigen Ausdruck zu erhalten.

    Beispiel 4.1.8 (Bestimmung eines Satzglieds).

    1. Schon einen Tag nach der Abreise seiner Freundin fhlte er sich einsam.

    2. Schon einen Tag nach der Abreise seiner Freundin fhlte er sich einsam.

    3. Schon einen Tag nach der Abreise seiner Freundin fhlte er sich einsam.

    4. Schon einen Tag nach der Abreise seiner Freundin fhlte er sich einsam.

    FrageWarum nicht Variante 4?

    28

  • 4.1.4 Verschiebeprobe

    Verschiebeprobe

    Definition 4.1.9. In der Verschiebeprobe werden Wrter und Wortgruppen im Satz umgestellt,so dass der Satz grammatisch bleibt und sich am Inhalt hchstens die Gewichtung ndert.Damit lassen sich die Anfang und Ende von Satzgliedern erkennen.

    Beispiel 4.1.10 (Bestimmung von Satzgliedern).

    1. Die Sitzung mit dem Chef bereite ich morgen vor.

    2. Morgen bereite ich die Sitzung mit dem Chef vor.

    3. Ich bereite die Sitzung mit dem Chef morgen vor.

    Regeln: Tausche immer 2 Kandidaten aus, um nicht unntig ungrammatische (Pseudo-)Stze zuerzeugen. Ersetze in einfachen Stzen immer das Satzglied vor dem flektierten Verb.

    Verschiebeprobe

    Beispiel 4.1.11 (Unzulssiges Verschieben).

    1. Die Sitzung mit dem Chef bereite ich morgen vor.

    2. * Morgen ich bereite die Sitzung mit dem Chef vor.

    3. #Die Sitzung bereite ich morgen mit dem Chef vor.

    GrndePseudo-Satz 2 ist ungrammatisch. . . . Satz 3 hat eine andere Bedeutung bekommen durch dieUmstellung.

    4.1.5 Umformungsproben

    Umformungsprobe

    Definition 4.1.12. In der Umformungsprobe werden Stze umfassend umgebaut.

    Beispiel 4.1.13 (Funktion von Nebenstzen).

    1. Es wrde mich freuen, wenn du mitkmest .

    2. Dein Mitkommen wrde mich freuen.

    Der Nebensatz mit wenn erfllt eine analoge Funktion wie Es.Beispiel 4.1.14 (Infinitivumformung zur Subjekterkennung).

    1. Die Lrche ist ein Nadelbaum.

    2. ein Nadelbaum sein / die Lrche

    29

  • 4.2 Satz

    Satz

    Definition 4.2.1 (nach [Bumann 1990]). Satz (engl. clause oder sentence). Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog. Konstituenten) konstruierte Redeeinheit, diehinsichtlich Inhalt, grammatischer Struktur und Intonation relativ vollstndig und unabhngigist.

    Definition 4.2.2 (nach [Dudenredaktion 2005]). Ein Satz ist eine Einheit, die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht. Darber hinaus kann der Satzzustzliche Angaben enthalten.

    4.3 Syntaxanalyse

    4.3.1 Konstituenz

    Konstituenz

    Definition 4.3.1 (nach [Bumann 1990]). Konstituente. In der strukturellen Satzanalyse (sog.Konstituentenanalyse) Bezeichnung fr jede sprachliche Einheit (Wort, Wortgruppe) die Teileiner grsseren sprachlichen Einheit ist.

    Definition 4.3.2 (nach [Bumann 1990]). Ziel und Ergebnis der Konstituentenanalyse ist dieZerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierte Abfolge.

    Definition 4.3.3 (Konstituenz). Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Przedenz zwischen Konstituenten.

    Konstituenten in der annotate-Darstellung

    !"#

    $$%&

    '($)(*(+,-

    .#/#0

    1123+

    '($)($4#5(306

    .#78.9#

    :;"06?0.#0

    ++

    2#-(:==($)(*

    ?06

    @A+

    !!

    &"5"=#0

    ++

    +#?9(:==($)(*

    #"0

    $B@1C

    !!

    D

    ED

    !!

    F#45?G/#0

    1123+

    '($)($4#5(306

    "/4#

    $$A!:B

    *(:==($)

    HI.)"G/=#"9#0

    ++

    2#-(:==($)(*

    8?5J?4#"J#0

    113CK

    !!

    (

    E(

    !!

    +@ +@ +@ +@

    +$

    L< L; L re(1brevity) falls c r

    Beispiel 10.3.4 (Realistischer Faktor).Wenn Kandidatenbersetzung 1000 Token zhlt (c = 1000) und Referenzlnge als 1100 Tokenzhlt (l = 1100), dann BP = e11.1 = e0.1 = 0.905

    BLEU als FormelBLEU-Score ergibt sich aus Multiplikation von Brevity Penalty mit der geometrisch gemitteltenPrzision aus 1-4-Grammen.

    BLEU = BP (P1 P2 P3 P4)1/4 = BP P

    Wert von 1 heisst perfekte bereinstimmung, Wert 0 heisst keine bereinstimmung.

    EigenschaftenBLEU betont enge lokale bereinstimmung und vernachlssigt Unstimmigkeiten, welche sichdarber hinaus ergeben knnen:Ensures that the military it is a guide to action which alwaysobeys the commands of the party. wre gleich gut wie Kandidat 1.

    106

  • Wie zuverlssig bildet BLEU das menschliches Urteil ab?

    Wortvarianz (Synonyme) wird nur bercksichtigt, wenn in Referenzbersetzungen enthal-ten

    Unwichtige und wichtige Inhalts-Wrter werden gleich behandelt

    Fr denselben BLEU-Score gibt es Millionen von Kombinationen mit unterschiedlichsterbersetzungsqualitt

    Regelbasierte bersetzungssysteme werden gegenber statistischen gerne abgestraft

    Abbildung 10.11: Korrelation von menschlichen und BLEU-Bewertungen nach[Callison-Burch et al. 2006]

    10.3.2 Parallele Baumbanken

    Einsatz von parallelen Baumbanken

    Korpus von bilingual syntaktisch annotierten Stzen

    Annotation von (Miss-)Matches der bersetzungen durch Zuordnung auf Wort- und Kon-stituentenebene

    Anwendungen

    bersetzungsevaluation mit vertieftem linguistischen Wissen

    Evaluationskorpus fr Wort-, Phrasen- und Satzalignierung

    Trainingskorpus fr Regeln der die Transferbersetzung

    107

  • Quelle: SMULTRON http://www.cl.uzh.ch/kitt/smultron/

    Abbildung 10.12: Paralleler Syntaxbaum DE-EN

    10.4 Vertiefung

    Reichhaltiges Sammelsurium zur maschinellen bersetzung und ihrer Geschichte http://www.mt-archive.info/

    Lerneinheit Satz- und Phrasenhnlichkeit http://www.cl.uzh.ch/clab/satzaehnlichkeit/

    108

    http://www.cl.uzh.ch/kitt/smultron/http://www.mt-archive.info/http://www.mt-archive.info/http://www.cl.uzh.ch/clab/satzaehnlichkeit/

  • 11 Maschinelle bersetzung II

    Lernziele

    Kenntnis ber linguistische Probleme bei der bersetzung

    Kenntnis ber die wichtigen Anstze zur maschinellen bersetzung: Direkte bersetzung,Transfer-bersetzung, Interlingua-bersetzung

    11.1 Probleme der bersetzung

    Ideale Sprachen fr MTMaschinelle bersetzung von QS nach ZS wre trivial, wenn folgende Bedingungen erfllt wren:

    Jede Wortform von QS hat genau eine entsprechende Wortform in ZS.

    Jeder Satz von QS hat genau eine syntaktische Analyse.

    Jeder Satz von QS hat genau eine Bedeutung.

    Jedem Konstruktionstyp in QS entspricht genau ein Konstruktionstyp in ZS.

    11.1.1 Mehrdeutigkeit

    Mehrdeutigkeit der Wortart

    Beispiel 11.1.1 (Mehrdeutige Wortform: Englisch nach Franzsisch).

    You must not use abrasive cleaners on the printer casing.

    The use of abrasive cleaners on the printer casing is not recommended.

    DiagnoseDieselbe Wortform in der QS (use) steht fr verschiedene Wortformen in der ZS (emploi/N,employer/V).

    Minimaler LsungsansatzBestimmen der Wortart in der QS, d.h. Tagging.

    Mehrdeutigkeit von morphologischen Merkmalen

    Beispiel 11.1.2 (Mehrdeutige Wortform: Englisch nach Deutsch).

    We just loved to play football.

    He played quarterback and loved to play football.

    109

  • DiagnoseDieselbe Wortform in der QS (loved) steht fr verschiedene Wortformen in der ZS:liebten/VVFIN:1.Pl.Past.Ind, liebte/VVFIN:3.Sg.Past.Ind.

    LsungsansatzUm die korrekte finite Wortform im Deutschen zu whlen, muss man wissen:

    Was ist das Subjekt dieses finiten Verbs?

    Welche Person und Numerus hat dieses Subjekt?

    Dieses Wissen kann eine syntaktische Analyse liefern.

    Mehrdeutigkeit von morphologischen Merkmalen

    Beispiel 11.1.3 (Mehrdeutige Wortform: Englisch nach Deutsch).

    When John drank the winei in the glass he spilled iti.Als Hans den Wein im Glas trank, verschttete er ihn.

    When John drank the wine in the glassi he broke itiAls Hans den Wein im Glas trank, zerbrach er es.

    DiagnoseDieselbe Wortform in der QS (it) steht fr verschiedene Wortformen in der ZS:ihn/PPER:3.Sg.Masc.Akk, es/PPER:3.Sg.Neut.Akk.

    LsungsansatzEine syntaktische Analyse allein liefert noch keine Entscheidungsgrundlage.

    Lexikalisches Sortenwissen und DesambiguierungDie korrekte bersetzung von it ins Deutsche erfordert eine Bestimmung der Bezugsgrsse desPronomens.

    Beispiel 11.1.4 (Aus dem elektronischen Lexikon WordNet III).

    (v) spill, slop, splatter (cause or allow (a liquid substance) to run or flow from a container)spill the milk; splatter water

    (v) break (destroy the integrity of; usually by force; cause to separate into pieces or frag-ments) He broke the glass plate; She broke the match

    Selektionsrestriktionen von Verben als AusschlusskriterienDas Akkusativobjekt von to spill bezeichnet eine Flssigkeit. Das Objekt von to break kannkeine Flssigkeit sein, weil diese nicht in Stcke gebrochen werden knnen.

    110

    http://wordnet.princeton.edu

  • Lexikalisches Sortenwissen in der CLWoher weiss der Computer, dass wine eine Flssigkeit bezeichnet?

    Beispiel 11.1.5 (Begriffshierarchie fr wine aus WordNet III).(n) wine, vino (fermented juice (of grapes especially)) (n) alcohol, alcoholic beverage, in-toxicant, inebriant (a liquor or brew containing alcohol as the active agent) (n) liquid (asubstance that is liquid at room temperature and pressure) (n) fluid (a substance that is fluidat room temperature and pressure) (n) substance, matter (that which has mass and occupiesspace) (n) physical entity (an entity that has physical existence) (n) entity (that which isperceived or known or inferred to have its own distinct existence (living or nonliving))

    FrageWarum kann man trotzdem sagen Er verschttet ein Glas Wein?

    Mehrdeutigkeit von syntaktischen Funktionen

    Beispiel 11.1.6 (Mehrdeutige syntaktischen Funktionen: Deutsch nach Englisch).

    Brieftrger beien Hunde selten.Dogs seldom bite postmen.Postmen seldom bite dogs.

    DiagnoseDie halbfreie Wortstellung des Deutschen muss fr die ZS Englisch ins SVO-Schema gebrachtwerden. Das Subjekt ist in der QS aber nicht morphologisch markiert.

    Mehrdeutigkeit von syntaktischen Funktionen

    Beispiel 11.1.7 (Anbindung von PP: Deutsch nach Englisch).

    Den Mann sah die Frau mit dem Fernglas.The woman with the telescope saw the man.The woman saw the man with the telescope.

    DiagnoseOb die PP als postnominaler Modifikator oder als Verb-Modifikator fungiert muss in der ber-setzung partiell aufgelst werden.

    Lsungsansatz fr PP-AnbindungsdesambiguierungHeuristiken (Bevorzuge eine enge Anbindung!) oder statistische Angaben ber Prferenzen derPaare V NPP (sehen-Fernglas) vs. N NPP (Frau-Fernglas).Falls die ZS die Mehrdeutigkeit ebenfalls ausdrcken kann, muss allerdings nicht aufgelst wer-den.

    Mehrdeutigkeit von Wortbedeutungen

    HauptproblemDie meisten Wrter haben mehrere Bedeutungen, welche in der ZS unterschiedlich lexikalisiertwerden knnen!

    Beispiel 11.1.8 (box in dict.leo.org: Englisch nach Deutsch).

    111

    http://wordnet.princeton.edudict.leo.org

  • Kasten, Behltnis, Dose, ...

    Buchs, Anhieb, Achsbchse

    Eingabefeld

    Glotze, Sarg

    LsungsansatzMarkierung der bersetzungspaare nach Fachgebiet (Agronomie, Botanik, Technik) und Stile-bene. Heuristik:Bevorzuge hnlich mehrdeutige Ausdrcken in der ZS!

    Mehrdeutigkeit von Wortbedeutungen (Klassiker)

    Beispiel 11.1.9 (Mehrdeutige Wortform: Englisch nach Deutsch).

    The pen was in the box.Die Schreibfeder war in der Schachtel.Das Laufgitter war in der Schachtel.

    The box was in the pen.Die Schachtel war im Laufgitter.Die Schachtel war in der Schreibfeder.

    DiagnoseDie plausiblen bersetzungen von pen in einem einzelnen Satz erfordern Weltwissen ber dietypische Beschaffenheit von Gegenstnden und ber gngige Situationen.

    Welche Situationen sind typisch? [Melby 2001]Siehe Abbildungen 11.1 und 11.2.

    Abbildung 11.1: Situationen zu The pen was in the box nach [Melby 2001]

    112

  • Abbildung 11.2: Situationen zu The pen was in the box nach [Melby 2001]

    Enzyklopdisches WeltwissenWir wissen, dass die involvierten Gegenstnde typischerweise etwa folgende Ausdehnung haben:

    Schreibfeder: ca. 10cm lang und 1cm breit

    Schachtel: ca. 5 bis 100cm lang/breit

    Laufgitter: ca. 50 bis 500cm lang/breit

    Damit werden gewisse Verschachtelungen unwahrscheinlich.

    Unwahrscheinlich, aber nicht unmglichLittle Johnny was unhappy. On Christmas eve he got a pen (auch Pferch) for his toy horse.Now he had lost it. Suddenly he found it. The pen was in the box. He was happy again.

    Mensch vs. MaschineMenschen setzen Weltwissen bzw. Welterfahrung unbewusst und problemlos ein. MaschinelleReprsentationen davon sind jedoch schwierig!

    Mehrdeutigkeit von pragmatischen KategorienBeispiel 11.1.10 (Mehrdeutige Wortform: Englisch nach Franzsisch).

    Thank you for coming. Merci de venir.

    A: Would you like a coffee? B: Thank you. B: Sil vous plat.

    DiagnoseDieselben Wortformen in der QS (thank you) stehen fr verschiedene Wortformen in der ZS(merci, Sil vous plat).

    LsungsansatzUm die korrekte bersetzung zu finden, muss man wissen, ob es sich um eine Antwort aufeine Angebots-Frage handelt. Dieses Sprechakt-Wissen liefert eine Analyse auf der Ebene derPragmatik.

    113

  • 11.1.2 Idiome und Kollokationen

    Definition 11.1.11 (idiomatische Wendung, Redewendung). Ein Idiom ist eine feste, mehrteili-ge Wortgruppe, welche eine semantische Einheit bildet, die nicht aus den Einzelteilen abgeleitetwerden kann. Modifikationen oder Austausch von Elementen sind schlecht mglich.

    Beispiel 11.1.12 (Idiom).

    jemanden auf die Palme bringen

    #jemanden auf die hohe Palme bringen

    #jemanden auf die Birke bringen

    to drive someone crazy

    bersetzbarkeit von IdiomenIdiom lassen sich nur in Ausnahmefllen wrtlich von der QS in die ZS bersetzen.

    Kollokationen

    Definition 11.1.13 (collocation). Eine Kollokation ist eine Kombination von Wrtern, welchesich gegenseitig bevorzugt verbinden und andere semantisch denkbare Kombinationen unter-drcken.

    Beispiel 11.1.14 (Kollokation).

    Ein starker Raucher ist jemand, der intensiv raucht.

    Ein starker Schreiber ist aber nicht jemand, der intensiv schreibt.

    bersetzbarkeit von KollokationenWie bei den Idiomen kann die bersetzung nicht wortweise isoliert erfolgen.

    Beispiel: Intensivator als KollokationEine korrekte bersetzung von heavy smoker in Deutsch oder Franzsisch bedingt:

    Die Erkennung von heavy als kollokativer Intensivator.

    Die Kenntnis, dass der Intensivator fr fumeur im Franzsischen grand lautet.

    Die Kenntnis, dass der Intensivator fr Raucher im Deutschen stark lautet.

    Die Intensivierung kann als lexikalische Funktion betrachtet werden, welche vom Kopf einerKonstituente abhngig ist. [Arnold et al. 1994, 127]

    114

  • Beispiel: Verbgefge als Kollokationen

    Beispiel 11.1.15 (support verbs im Englischen ).

    They took (*made) a walk.

    They make (*took) an attempt.

    They had (*made,*took) a talk.

    Lexikalische FunktionDer Kern solcher Kollokationen liegt im Nomen. Die Funktion des Verbs kann sprachbergrei-fend abstrakt als support verb reprsentiert werden. Die genaue Verbalisierung ist aber nichtvorhersagbar, sondern muss im Lexikon erfasst werden.

    11.1.3 Sprachbau

    Globale DiskrepanzenDie komparative Grammatikschreibung hat die verschiedenen grammatikalischen Prinzipien ge-sucht und ihre unterschiedlichen Parametrisierungen in den Einzelsprachen beschrieben.

    Stellung des Kopfes innerhalb von Konstituenten

    Stellung der Modifikatoren bezglich Kopf

    Verwendung von morphosyntaktischen Merkmalen wie Genus und Kasus (Englisch vs.Deutsch)

    Verwendung von Artikeln (Russisch vs. Deutsch)

    Optionalitt von lexikalischen Subjekten (Italienisch vs. Deutsch)

    global mismatchesGlobale Unterschiede wie etwa Wortstellungsabweichungen stellen fr primitive Anstze bereitseine hohe Hrde dar.

    Stellungsregularitt Subjekt(S)-Objekt(O)-Verb(V)Bei bersetzungen zwischen Sprachen mit unterschiedlicher SVO-Ordnung sind manchmal gros-se Umstellungen notwendig.

    Beispiel 11.1.16 (Englisch vs. Japanisch).

    SVO: He adores listening to music.

    SOV: he music to listening adoreskare ha ongaku wo kiku no ga daisuki desu

    115

  • Lokale Diskrepanzen

    Beispiel 11.1.17 (Wortstellung bei Objekt und Vollverb in Partizipform).

    I have seen him

    Ich haben ihn gesehen.

    Beispiel 11.1.18 (Wortstellung bei Fragewort und Prposition).

    What doctor did John go to?

    Zu welchem Doktor ging John?

    Beispiel 11.1.19 (Wortstellung bei Verneinung).

    He never sleeps long.

    Er schlft nie lange.

    Beispiel 11.1.20 (Head Switching: Hauptverb vs. Adverb).

    I like swimming.

    I schwimme gerne.

    Beispiel 11.1.21 (Head Switching: Modalverb vs. Adverb).

    John usually goes home.

    Juan suele ir a casa.

    Beispiel 11.1.22 (Passivkonstruktion).

    She insists on being given the books.

    Sie besteht darauf, dass ihr die Bcher gegeben werden.

    Beispiel 11.1.23 (Gerundiv-Konstruktionen).

    He did not neglect writing to her.

    Er versumte es nicht, ihr zu schreiben.

    Lexikalische Divergenz

    Beispiel 11.1.24 (Zuordnung thematische Rolle zu syntaktischer Funktion).

    cautionner qn vs brgen fr jmdn.

    applaudir qn vs. jmdm. applaudieren

    Beispiel 11.1.25 (Zuordnung thematische Rolle zu syntaktischer Funktion).

    I miss my dictionary.

    Mon dictionnaire me manque.

    116

  • 11.2 Anstze

    Oettingers Automatic Russian-English Dictionary

    Beispiel 11.2.1 (Russisch zu Englisch).Humanbersetzung:

    In recent times Boolean algebra has been successfully employed in the analysis ofrelay networks of the series-parallel type.

    Rohbersetzung:

    (In,At,Into,To,For,On) (last,latter,new,latest,worst) (time,tense) for analysis and syn-thesis relay-contact electrical (circuit, diagram, scheme) parallel-(series, successive,consecutive, consistent) (connection, junction, combination) (with, from) (success,luck) (to be utilize, to be take advantage of) apparatus Boolean algebra.

    [Locke und Booth 1955, 55]

    Wort-fr-Wort-bersetzungDer einfachste Ansatz zur M basiert auf einem bilingualen Lexikon und einfachsten Modifika-tionen auf der Wortebene.

    Vorgehen

    Im Prinzip wortweises bersetzen der erkannten Lexikoneintrge

    Anpassungen der Wortfolge in der Rohbersetzung Austauschen von 2 benachbarten Wrtern

    Weglassen eines Worts (z.B. keine Artikel im Russischen)

    Einfgen eines Worts

    FrageWas muss man dafr eigentlich knnen?

    Probleme solcher lexikalischer bersetzung

    Lemma-basierte bersetzung: Mit der Reduktion auf Lemmata geht wesentliche Informa-tion ber die syntaktischen Abhngigkeiten verloren.

    Wortfolge: Sprachen unterscheiden sich oft so stark, dass lokales Umstellen von Wrternnicht gengt. (z.B. SVO vs. SOV)

    Lexikalische Mehrdeutigkeit: Die meisten Wrter in den meisten Sprachen sind mehrdeu-tig (ambig)! Wie findet man die intendierte Bedeutung? Dies erfordert sog. word sensedisambiguation (WSD) (Wortbedeutungsdesambiguierung).

    117

  • 4 wichtige AnstzeDie bertragung von der QS in die ZS ist primr gesteuert durch:

    Wortfolge mit mophosyntaktischer Information: Direkte bersetzung

    Syntaktische Struktur: Transfer-bersetzung

    Semantische Reprsentation: Interlingua-bersetzung

    Frequenzdaten von bersetzungspaaren: Statistische bersetzung

    11.2.1 Direkte bersetzung

    Direkte bersetzungDie direkte bersetzung fhrt die QS ohne linguistisch motivierte Zwischenreprsentation in dieZS ber.

    Ablauf

    Bestimmung von Wortarten, Grundformen und morphosyntaktischen Merkmalen der Wr-ter in der QS

    Wortwahl (=Lemmawahl) in der ZS

    Anwenden von bertragungsregeln anhand der lexikalischen und morphosyntaktischen In-formation

    Lokales Umordnen von Wrtern in ZS

    Morphologische Generierung der Wortformen der ZS

    Beispiel 11.2.2 (Wortwahl much/many).if preceding word is how return wieviel(e) else if preceding word is as return soviel(e)

    Beispiel: Regeln fr Direkte bertragung

    Beispiel 11.2.3 (Adjektiv-Stellung und Nominalkomposita von Englisch zu Franzsisch).

    a visual indicator un indicateur visuel

    installation configuration configuration dinstallation

    Regeln fr die direkte bertragung

    ArtE AdjE NE ArtF NF AdjF Falls in der QS die Folge Artikel, Adjektiv, Nomenvorliegt, dann produziere in der ZS die Reihenfolge Artikel, Nomen, Adjektiv.

    N1E N2E N2F de N1F Falls in der QS zwei Nomen hintereinander stehen, dannproduziere in der ZS die vertauschte Reihenfolge mit einem de-Element dazwischen.

    118

  • Probleme/Vorteile der direkten bersetzung

    Eine grosse Anzahl bertragungsregeln entsteht wegen der schlechten syntaktischen Ab-straktion. So muss fr the preliminary installation configuration la configurationdinstallation prliminaire eine weitere Regel gemacht werden. Welche?

    Jede bersetzungsrichtung braucht ein eigenes Programm.

    Wartung und Weiterentwicklung wird schnell zu komplex, weil die syntaktische Strukturnicht explizit reprsentiert ist.

    Die direkte bersetzung ist grundstzlich robust gegenber syntaktischen Schwierigkeiten(Fehler oder zu komplexe Strukturen).

    Allgemeine Behandlung von unbegrenzten Konstruktionen wie Komposita ist schlechtmachbar. computer periphery installation configuration manual

    11.2.2 Transfer-bersetzung

    Transfer-bersetzung im Bild

    Ausgangsgssprache

    Satz

    Zielsprache

    Satz

    Ausgangsgssprache

    Analyse Synthese

    Zielsprache

    Syntax Syntax

    Transfer

    Abbildung 11.3: Transfer-bersetzung im Bild

    Beispiel: Regeln fr Transfer von SyntaxstrukturenDie Transfer-Regeln operieren nicht bloss auf der Wortebene, sondern auf allen Konstituenten.(Vgl. http://www.cl.uzh.ch/clab/ecl1/ilap_transf/)

    Komponenten eines Transfersystems

    Syntaxanalyse der QS (Grammatik, Lexikon, Parser)

    Transfer-Modul (lexikalische und syntaktische Transfer-Regeln)

    Generierungsmodul der ZS (Grammatik, Lexikon, Generator)

    119

    http://www.cl.uzh.ch/clab/ecl1/ilap_transf/

  • Maschinelle bersetzung (TransferMethode)

    unedonne capitalized(jean) pomme endpunct(.)capitalized(marie)

    det cnp_name vt pn

    num: sing

    cat: p_name

    gend: mascnum: singdef: indefgend: fem

    cat: det

    num: singgend: fem

    cat: cn cat: p_name

    num: singgend: fem

    num: singpers: 3tense: presmood:indic

    cat: tv

    S

    VP

    mood:indictense: pres

    type: assertion

    NP

    NPNP num: singnum: sing

    VP

    mood:indictense: pres

    type: assertion

    NP

    NP num: singPP

    NPnum: sing

    p_name vt det cn pnprep

    S

    jean pomme donner unjohn a appleto_give

    num: sing num: sing

    num: sing

    def: indef

    num: singpers: 3

    def: indef

    pers: 3

    Wortformenanalyse

    Satzgenerierung

    Eingabevorbereitung Ausgabeaufbereitung

    Syntax

    Transfer

    gend: fem

    gend: fem

    gend: masc gend: masc

    gend: fem

    gend: fem

    Wortformengenerierung

    cat: prepnum: singcat: p_name

    num: singgend: masc

    cat: p_namenum: singpers: 3tense: presmood:indic

    cat: tv cat: cn

    num: sing

    cat: det

    num: singdef: indef

    capitalized(mary) endpunct(.)applean gives

    Lookup

    Lexikon

    capitalized(john)

    John gives Mary an apple. Jean donne une pomme Marie.

    to_givejohn a apple end_of_sentencemary end_of_sentencejean donner pommeun marie

    mary marie

    Satzanalyse

    Quelle: [Hess 2005]

    Abbildung 11.4: Transfer-bersetzung im Detail

    garonboy girlloves therich

    S

    Np Vp

    Art Adj NGr Np

    Art NGr

    V

    Np Vp

    S

    NGrArt

    Art NGr Adj V Np

    NN N N

    le lariche aime fillethe

    Quelle: [Hess 2005]

    Abbildung 11.5: Transfer-Regeln

    120

  • Morphologie-Module fr QS und ZS

    Module zur Auflsung von Mehrdeutigkeiten

    Fazit zur Transfer-bersetzung

    Dominierendes Paradigma der heutigen M (aber schon 1950 konzipiert)

    Nur die Transfer-Regeln mssen fr jede bersetzungsrichtung entwickelt werden. Gene-rierung und Analyse bleiben (hoffentlich) gleich.

    Unbegrenzte Konstruktionen lassen sich rekursiv elegant bertragen.

    Sprachen, welche wenig hnlichkeiten haben, sind viel schwieriger als verwandte Sprachen.

    Welche syntaktischen Konstruktionen existieren berhaupt?

    Was tun, wenn Stze der QS nicht geparst werden knnen? Wie bekommt man die inten-dierte Analyse?

    11.2.3 Interlingua-bersetzung

    Interlingua-bersetzung

    Bei der Transfer-bersetzung mssen die syntaktischen Analyseresultate so gewhlt wer-den, dass der Transfer zu verschiedenen Sprachen optimal ist.

    Der Interlingua-Ansatz versucht, alle Einzelsprachen auf eine gemeinsame Reprsentation(meist bedeutungsorientiert) abzubilden.

    In der Praxis haben sich diese Systeme nicht durchgesetzt trotz der an sich bestechendenIdee.

    Problem: Wie soll diese Interlingua genau aussehen? Welche begrifflichen Differenzierungenverlangt sie?

    LexikalisierungsproblemVerschiedene Sprachen machen unterschiedlich feine Bedeutungsunterscheidungen.Wieviele Differenzierungen muss eine Interlingua enthalten, wenn noch mehr Sprachen ins Spielkommen?

    11.2.4 Kombinierte Anstze

    Anstze der M und reale SystemeReale bersetzungssysteme sind meistens Kombinationen der geschilderten Anstze. Wo keinetiefen Analysen mglich sind, werden flache bertragungen gemacht.

    121

  • Quelle: [Jurafsky und Martin 2008] nach Somers

    Abbildung 11.6: Lexikalische berschneidungen nach Somers

    Quelle: [Jurafsky und Martin 2008]

    Abbildung 11.7: Verbindung von direkter, Transfer- und Interlingua-bersetzung

    11.3 Statistische Maschinelle bersetzung

    Lernende Verfahren

    Regelbasiert vs. datenbasiertAnstelle von komplexen Regelsystemen wird aus alignierten Satzpaaren die bersetzungsrelationgelernt.

    Noisy Channel Model fr EN FRDie bersetzung versucht, aus einem verrauschten Signal, das wie Englisch tnt, das wahr-scheinlichste franzsische Original zu rekonstruieren.

    ZSQSnoisy channel

    Fluency und Faithfulness im SMT

    Optimieren von Fluency und Faithfulness in wortbasierter MT

    Faithfulness: Wie wahrscheinlich kann von einer franzsischen Wortfolge auf eine englischeWortfolge bersetzt werden? bersetzungsmodell: P (f | e)

    122

  • Fluency: Wie englisch ist das bersetzte? ZS-Modell: P (e)

    Abbildung 11.8: Fluency und Faithfullness in SMT nach [Al-onaizan et al. 1999]

    Candide Modell 3 fr bersetzungsrichtung FR ENNach [Al-onaizan et al. 1999, 13]

    Probabilistisches Lexikon: Mit welchen Wahrscheinlichkeiten wird ein englisches Wort ausfranzsischen Wrtern bersetzt?

    Fruchtbarkeit (fertility): Wahrscheinlichkeit, dass ein franzsisches Wort in n englischeWrter bersetzt wird.

    Verzerrung (Distortion): Wahrscheinlichkeit, dass ein englisches Token an Position i ineinem Satz an Position j im franzsischen Satz erscheint.

    Null-Einsetzung (NULL-insertion): Globale Wahrscheinlichkeit, dass irgendwo ein NULLElement im Englischen erscheint.

    Statistische Verfahren

    Seit Mitte 90-Jahre sehr aktives Forschungsgebiet. Aber: Keine wirklichen Durchbrcheim Vergleich mit den regelbasierten Anstzen.

    Wortbasierte Anstze wurden von phrasen-basierten (Chunks) Anstzen abgelst.

    Im Prinzip kann jedes Problem im klassischen bersetzungsparadigma durch probabilisti-sche Verfahren gelst werden (Wortsinndesambiguierung, Syntax-Analyse, Strukturver-nderungen)

    11.4 Vertiefung

    Kapitel Maschinelle bersetzungssysteme in [Hess 2005], das noch zustzliches Materialund Referenzen enthlt.

    Quiz Mehrdeutigkeit von Wortarten

    123

    http://www.cl.uzh.ch/ict-open/QUIZ/100

  • ILAP Transfer-bersetzung http://www.cl.uzh.ch/clab/ecl1/ilap_transf

    Eine lesbare technische Einfhrung in Maschinelle bersetzung: [Knight 1997]

    124

    http://www.cl.uzh.ch/clab/ecl1/ilap_transf

  • 12 Formales Propdeutikum I

    Lernziele

    Kenntnis der grundlegenden mengentheoretischen Konstrukte und Notationskonventionen

    Mengennotation, Elementbeziehung, Teilmenge, Potenzmenge, Paare, Relationen, Funk-tionen

    Kenntnis ber grundlegende Eigenschaften von Relationen wie Symmetrie, Transitivitt,Totalitt, Reflexivitt

    Kenntnis ber die Eigenschaften, welche Funktionen partiell, total, injektiv, surjektiv oderbijektiv machen

    Herzlichen Dank an Manfred Klenner bzw. Ralf Klabunde fr Quelltexte.

    12.1 Mengen

    Mengen

    Definition 12.1.1 (Naive Mengenlehre nach [Cantor 1895]).

    Abbildung 12.1: Faksimile der Bestimmung des Mengenbegriffs bei Georg Cantor

    Kommentar zur TerminologieEs gibt also Objekte, Mengen und Elemente.

    Beispiel 12.1.2 (Mengen aus der Welt der Linguistik).Menge der Stze einer Zeitungausgabe, der Wortformen eines Satzes, der Lexeme eines Satzes,der Buchstaben eines Wortes, der Bedeutungen eines Wortes, . . .

    Formale Notationen fr Mengen

    Definition 12.1.3 (Aufzhlung einer Menge). Eine Mengenaufzhlung besteht aus Zeichen(-ketten), welche die Objekte einer Menge bezeichnen und zwischen geschweiften Klammern ste-hen. Zwischen den Zeichen werden Kommata geschrieben. Die Reihenfolge der Zeichen ist irre-levant.

    125

  • Beispiel 12.1.4 (Menge der Farben der franzsischen Flagge ).

    {blau,weiss, rot} oder {weiss, blau, rot} oder {bleu, blanc, rouge} oder {a, b, c}, falls z.B. fest-gelegt ist, dass a fr Rot, b fr Blau und c fr Weiss steht. Welche Konvention legt fest, dassbleu fr die Farbe Blau stehen soll?

    Mehrfachschreibung von ZeichenDie Notation {a, a, b, c, c, c} bezeichnet die gleiche Menge wie {a, b, c}.

    Unterschiedliche Zeichen fr dasselbe Objekt (Objektgleichheit)Wenn gilt: a = b, dann bezeichnen {a, b} und {a} dieselbe Menge.

    Beispiel 12.1.5 (Token).Die MengeM der Token des Satzes Wenn hinter Fliegen Fliegen fliegen, fliegt eine Fliege Fliegennach.M = {Wenn, hinter, Fliegen, fliegen, ,, fliegt, eine, Fliege, nach, .}

    Lexem als Menge von TokenLexemFliege = {Fliege, Fliegen}

    Lexemverband als Menge von LexemenLexemverbandflieg = {{Fliege,Fliegen}, {fliegt,fliegen,fliegst,. . . }, . . .}

    Formale Notationen fr Mengen

    Definition 12.1.6 (Charakterisierung (Beschreibung) einer Menge). Eine Mengencharakterisie-rung besteht aus einer Variablen x (oder y, z), einem senkrechten Strich und einem Bedingungs-teil, der angibt, unter welchen Bedingungen irgendein Objekt x Element der damit notiertenMenge ist.

    {x | Bedingung(en) ber x}

    Gesprochen: Die Menge aller x, fr die gilt: x . . . Die Variable x ist innerhalb der Klammerngebunden.

    Beispiel 12.1.7 (Menge der Farben der franzsischen Flagge ).

    { x | x ist eine Farbe der franzsischen Flagge } { x | x ist die Farbe blau oder x ist die Farberot oder x ist die Farbe weiss }

    Elementbeziehung

    Definition 12.1.8 (Notation der Elementbeziehung). Gehrt ein Objekt x zur Menge A, sonennt man x ein Element der Menge A und schreibt x A.Gehrt y nicht zur Menge A, schreibt man y / A.

    A

    xy

    126

  • Russelsche Paradoxie [Irvine 2003]Ob ein Objekt Element einer Menge ist oder nicht, lsst sich nicht in jedem Fall entscheiden.Sei M die Menge, welche durch { x | x / x } charakterisiert wird. Gilt M M?

    1. Falls M / M , so ist M M wegen der Mengencharakterisierung. Dies ergibt einenWiderspruch.

    2. Falls M M ist, so ist M / M wegen der Mengencharakterisierung. Dies ergibt einenWiderspruch.

    Rekursiv charakterisierte MengenMengen mit beliebig vielen Elementen lassen sich rekursiv (induktiv) beschreiben.

    Beispiel 12.1.9 (Natrliche Zahlen N).

    Rekursionsbasis: 0 ist eine natrliche Zahl.

    Rekursionsschritt: Wenn x eine natrliche Zahl ist, dann ist der Nachfolger (successor)s(x), d.h. x+ 1 ebenfalls eine natrliche Zahl.

    Verwendung von rekursiver DefinitionenZeige, dass s(s(s(0))) Element der Menge der natrlichen Zahlen ist.s(s(s(0))) N, falls s(s(0)) N (Rekursionschritt)s(s(0)) N , falls s(0) N (Rekursionschritt)s(0) N, falls 0 N (Rekursionschritt)0 N (Rekursionsbasis)

    Logische Verknpfungen und ihre Wahrheitswerte

    Disjunktion A oder (auch) B A BKonjunktion A und B A BNegation nicht A AImplikation wenn A, dann B A BBikonditional A genau dann, wenn B A B

    Wahrheits- und Falschheitsbedingungen

    A B ist falsch, falls A und B falsch sind; sonst wahr

    A B ist wahr, falls A und B wahr sind; sonst falsch

    A B ist falsch, falls A wahr und B falsch ist; sonst wahr

    A B ist wahr, falls A und B beide wahr oder falsch sind; sonst falsch

    127

  • Allquantor Fr alle x gilt: . . . xExistenzquantor Es gibt mindestens ein x, fr das gilt: . . . x

    Quantoren und Prdikate

    Einige Wahrheits- und FalschheitsbedingungenSei m(x) das Prdikat x ist menschlich und s(x) das Prdikat x ist sterblich

    x(m(x) s(x)) ist falsch, falls mindestens ein Objekt existiert, das ein Mensch ist, abernicht sterblich; sonst wahr

    y(m(y)s(y)) ist wahr, falls mindestens ein Objekt existiert, das ein Mensch und sterblichist; sonst falsch

    Mengengleichheit

    Definition 12.1.10 (Extensionalittsprinzip). Zwei MengenM und N sind gleic