103
Universität Zürich Institut für Computerlinguistik Binzmühlestr. 14 8050 Zürich Vorlesungsskript * HS 2012: Einführung in die Computerlinguistik I Simon [email protected] Version von 22. November 2012 * PDF: http://www.cl.uzh.ch/siclemat/lehre/hs12/ecl1/script/script.pdf HTML: http://www.cl.uzh.ch/siclemat/lehre/hs12/ecl1/script/html/scripth.html OLAT: https://www.olat.uzh.ch/olat/url/RepositoryEntry/5090148357 Hinweis: Dieses Lauftextskript wurde automatisch aus den Vorlesungsfolien generiert und ist deshalb bezüglich Layout und Formulierungen nicht für Fliesstext optimiert. 1

HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Universität ZürichInstitut für ComputerlinguistikBinzmühlestr. 148050 Zürich

Vorlesungsskript∗

HS 2012: Einführung in die ComputerlinguistikI

Simon [email protected]

Version von 22. November 2012

∗PDF: http://www.cl.uzh.ch/siclemat/lehre/hs12/ecl1/script/script.pdfHTML: http://www.cl.uzh.ch/siclemat/lehre/hs12/ecl1/script/html/scripth.htmlOLAT: https://www.olat.uzh.ch/olat/url/RepositoryEntry/5090148357Hinweis: Dieses Lauftextskript wurde automatisch aus den Vorlesungsfolien generiert und ist deshalbbezüglich Layout und Formulierungen nicht für Fliesstext optimiert.

1

Page 2: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Inhaltsverzeichnis

1 Organisatorisches 81.1 Organisatorisches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.1.1 Leistungsnachweis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.1.2 Lernen und Lehren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.2 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Was ist CL? 112.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.2 Fachrichtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2.1 Computerlinguistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.2.2 Sprachtechnologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2.3 Weiteres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2.4 Anliegen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.3 Nachbardisziplinen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.3.1 Linguistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.3.2 Kognitionswissenschaft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.4 Krux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.5 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.5.1 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3 Tokenisierung 193.1 Tokenisierer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.1.1 Grundproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.1.2 Kodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.1.3 Markup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.1.4 Programme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.2 XML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.3 Tokenisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.3.1 Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.3.2 Punktdisambiguierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.3.3 Normalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.3.4 NER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.4 Multilingualität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.5 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.5.1 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4 Linguistisches Propädeutikum I 294.1 Wort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.1.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294.1.2 Token . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304.1.3 Wortform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2

Page 3: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

4.1.4 synt. Wort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314.1.5 Lexem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.2 Wortarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324.2.1 5 Hauptwortarten nach Glinz . . . . . . . . . . . . . . . . . . . . . . . . . 324.2.2 STTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.3 Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.3.1 Genus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.3.2 Zahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.3.3 Kasus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.3.4 Modus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.3.5 Zeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.3.6 Person . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.3.7 Grad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.3.8 Flexion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.4 Proben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.4.1 Ersetzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.4.2 Einsetzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.5 Comp. Morph. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.5.1 Lemmatisierung/Morphologieanalyse . . . . . . . . . . . . . . . . . . . . . 394.5.2 Morphologiegenerierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4.6 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.6.1 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5 Linguistisches Propädeutikum II 415.1 Proben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

5.1.1 Weglassen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415.1.2 Verschieben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425.1.3 Umformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5.2 Satz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435.3 Syntaxanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5.3.1 Konstituenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435.3.2 Köpfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.3.3 Dependenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475.3.4 Koordination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5.4 Baumbanken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525.4.1 NEGRA/TIGER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525.4.2 TIGERSearch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

5.5 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

6 Flache Satzverarbeitung 546.1 Tagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

6.1.1 Probleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556.1.2 Fallstudie TnT-Tagger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

6.2 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596.2.1 Zweck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596.2.2 Accuracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596.2.3 Lernkurven . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 606.2.4 Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

3

Page 4: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

6.2.5 Precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 616.2.6 F-Measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

6.3 Chunking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 626.3.1 Abney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 636.3.2 IOB-Chunk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 646.3.3 Verschachtelte Chunks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

6.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 656.4.1 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

6.5 Exkurs: Evaluation binärer Klassifikatoren . . . . . . . . . . . . . . . . . . . . . . 656.5.1 TP:FP:FN:TN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 656.5.2 Fehlerparadoxe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 666.5.3 Unterschiede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 666.5.4 Mittelwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 676.5.5 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

7 Chunk-Parsing (Intensiv-Wochenende) 707.1 Chunking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

7.1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 707.2 NLTK-Chunkparser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

7.2.1 Aufstarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 727.2.2 Strategien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

7.3 Evaluationsmasse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 747.3.1 Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 747.3.2 Precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 747.3.3 F-Measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

7.4 Fazit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 757.4.1 Flache Chunks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 757.4.2 Verschachtelte Chunks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

8 Sprachsynthese und Spracherkennung 778.1 Sprachsynthese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

8.1.1 Architektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 788.1.2 Analyseebenen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 788.1.3 Sprachsignalproduktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

8.2 Spracherkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 848.2.1 Probleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 858.2.2 Worthypothesengraph . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 858.2.3 Wortfehlerrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

8.3 Dialogsysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 868.3.1 Typen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 868.3.2 VoiceXML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

8.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

9 (Kontextfreie) Grammatiken und Parsing 899.1 Grammatik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

9.1.1 Konstituentenstruktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 909.1.2 Konstituentenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 939.1.3 Grammatiktypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

4

Page 5: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

9.2 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

10 Literaturverzeichnis 98

Index 102

5

Page 6: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Abbildungsverzeichnis

2.1 Sprechende Maschine von 1791 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.1 Navigationselemente der Web-Site der Olympischen Spiele 2008 . . . . . . . . . . 193.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.1 5 Hauptwortarten nach Glinz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324.2 Hauptkategorien von STTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5.1 Moderne Satzgliedlehre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435.2 Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung . . . . . . . . . . 445.3 Konstituenz, Dominanz und Präzedenz in Balken-Darstellung . . . . . . . . . . . 445.4 Beispielsatz mit allen zu annotierenden Nominalphrasen (NP) . . . . . . . . . . . 455.5 Beispielsatz mit allen zu annotierenden Präpositionalphrasen (PP) . . . . . . . . 455.6 Beispielsatz mit allen zu annotierenden AP- und AVP-Knoten . . . . . . . . . . . 455.7 Beispielsatz mit allen zu annotierenden Satz- und VP-Knoten . . . . . . . . . . . 465.8 Beispielsatz mit allen zu annotierenden NP- und S-Knoten . . . . . . . . . . . . . 465.9 Syntaktische Funktion in der NEGRA-Darstellung . . . . . . . . . . . . . . . . . 485.10 Syntaktische Funktionen in Balken-Darstellung . . . . . . . . . . . . . . . . . . . 485.11 Beispielsatz mit NP-internen Funktionen . . . . . . . . . . . . . . . . . . . . . . . 485.12 Beispielsatz mit PP-internen Funktionen . . . . . . . . . . . . . . . . . . . . . . . 495.13 Beispielsatz mit allen AP- und AVP-internen Funktionen . . . . . . . . . . . . . 495.14 Beispielsatz mit allen S- und VP-internen Funktionen . . . . . . . . . . . . . . . 495.15 Relativsatz mit allen internen Funktionen . . . . . . . . . . . . . . . . . . . . . . 505.16 Beispielsatz mit koordinierten Strukturen . . . . . . . . . . . . . . . . . . . . . . 52

6.1 Kontextmodell des Trigramm-Taggers tnt . . . . . . . . . . . . . . . . . . . . . . 566.2 Tagging-Ambiguitätsraten aus der Frankfurter Rundschau . . . . . . . . . . . . . 576.3 Training, Tagging und Evaluation mit dem TnT-Tagger . . . . . . . . . . . . . . 586.4 Tnt-Evaluation an Penn Treebank durch Thorsten Brants . . . . . . . . . . . . . 616.5 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants . . . . . . . . . . . 626.6 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid . . . . . 636.7 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid . . . . . 636.8 F-Mass in dreidimensionaler Darstellung . . . . . . . . . . . . . . . . . . . . . . . 686.9 Arithmetisches vs. harmonisches Mittel . . . . . . . . . . . . . . . . . . . . . . . 69

7.1 Volle Syntaxanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 707.2 Partielle Syntaxanalyse (CONLL 2000) . . . . . . . . . . . . . . . . . . . . . . . . 717.3 Informationsextraktion über gechunktem Text . . . . . . . . . . . . . . . . . . . . 727.4 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid . . . . . 727.5 Resultate der Chunking-Shared-Task der CoNLL 2000 . . . . . . . . . . . . . . . 75

8.1 Architektur von MARY-TTS-System . . . . . . . . . . . . . . . . . . . . . . . . . 79

6

Page 7: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

8.2 IPA-Symbole für Deutsch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 808.3 Satzintonation mit ToBi-Annotierung (Hörbeispiel: [Simmons 2006a]) . . . . . . 828.4 Worthypothesengraph . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 868.5 Berechnung der Wortfehlerrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . 868.6 Anwendungsszenario VoiceXML . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

9.1 Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung . . . . . . . . . . 919.2 Beispiel für Linksderivation und Parsebaumkonstruktion . . . . . . . . . . . . . . 949.3 Teilmengenbeziehungen der Sprachklassen von Chomsky . . . . . . . . . . . . . . 96

7

Page 8: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

1 Organisatorisches

1.1 OrganisatorischesKonzept und Inhalt der Vorlesung

• „Einführung in die Computerlinguistik I (+ II)“ vermittelt die wichtigsten praktischenund theoretischen Ziele der Computerlinguistik in Übersicht.

• Vorgestellt werden texttechnologische Grundlagen (Textsegmentierung, Wortartenbestim-mung, (flache) Syntaxanalyse), wichtige Anwendungen (Maschinelle Übersetzung, Text-suche, Informationsextraktion, Sprachsynthese, Spracherkennung, ) sowie Methoden undProbleme der automatischen Syntaxanalyse.

• Im Kurs integriert ist ein linguistisches Propädeutikum, wo das notwendige grammati-kalische Wissen im Rahmen computerlinguistischer Annotation aufgefrischt bzw. vertieftwird.

Kurs-Leitseite im WWW und LehrmaterialienOLAT-Kurs namens “CL_12_HS Einführung in die Computerlinguistik I”:

• https://www.olat.uzh.ch/olat/url/RepositoryEntry/5090148357

• VL-Teil von S. Clematide: Folienskript im 4-up-Format (farbige und SW-Version) alsPDF-Dokument unter “Materialien”

• Lauftextversion des Folienskripts (HTML-Version und PDF-Dokument) mit Index undErgänzungen http://www.cl.uzh.ch/siclemat/lehre/hs12/ecl1/script/html/script.html

• Merkblatt zum Einstieg in OLAT http://www.id.uzh.ch/dl/elearning/olatunizh/dokumentationen/OLAT_Hinweise_Studierende.pdf

Unser Kursbuch (3. Auflage):

• Carstensen, K.-U. et al. (Hgg.): Computerlinguistik und Sprachtechnologie: Eine Einführung. Spek-trum Akademischer Verlag, 3. Auflage 2009, ISBN:3-8274-2023-7. Für Beispielkapitel als PDF sieheauch http://www.linguistics.ruhr-uni-bochum.de/CLBuch/buch.html

E-Learning

CLabTeile der Vorlesung und Übungen werden durch Lerneinheiten aus unserem interaktiven, web-basierten Computerlinguistik-Laboratorium (CLab) unterstützt. http://www.cl.uzh.ch/clab

Applikationen auf CL-UNIX-Servern

8

Page 9: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Für einige Übungen oder zur Vertiefung stehen CL-Applikationen auf unseren Servern zur Ver-fügung. Von den Computern in den Übungsräumen aus sind diese problemlos nutzbar.Wer die Übungsstunde nicht besuchen kann bzw. von Zuhause aus arbeitet, braucht dazu VPN(Virtual Private Network), SSH (Secure Shell bzw. Putty) und ein X11-Programm. Anleitungendazu im Kurs „Programmiertechniken der CL“ oder via Anleitungen.

1.1.1 Leistungsnachweis6 schriftliche Übungen (SU)25% der Schlussnote für

• Bachelor-Studierende, Informatik-Studierende, ETH-Multidisziplinfach

• Liz-Studierende: Optional (Wahlmöglichkeit bis in 4. Woche)

Bestanden (1 Punkt), Halb bestanden (0.5 Punkte), Nicht-Bestanden (0 Punkte) pro SU

• Benotung: Gesamtzahl Punkte = Note

• Keine Musterlösungen, dafür Nachbesprechung in Übungsstunde, Frage- und Diskussions-gelegenheit und auf OLAT

Betreutes Tutorat

• Übungsstunden bei Julia Suter und Laura Bondini freitags 12.15-13.45 im Raum BIN0.B.04: Start in 2. Semesterwoche

• Lösungsabgabe jeweils spätestens am Mittwoch 18h

• Übungsausgabe spätestens am Donnerstag 21h

Schriftliche Prüfung

• Zeit: Donnerstag, 17. Januar 2013, von 16.15 - 18.00h

• Dauer: 90 Minuten

• Stoff: Skript, Übungen, Pflichtlektüren

• Bitte das für Sie gültige Infoblatt zur Leistungsüberprüfung genau lesen! [ICL 2011a,ICL 2011b]

1.1.2 Lernen und LehrenLehren und LernenCommitments

• Wir engagieren uns, um eine optimale CL-Ausbildung anzubieten.

• Wir brauchen Ihre Rückmeldung, um suboptimale Elemente unserer Lehrarbeit zu ver-bessern.

• Sie engagieren sich, die für ein optimales Lernen notwendige Zeit und Arbeit aufzuwenden.

• Sie brauchen unsere Rückmeldung, um suboptimale Elemente Ihrer Lernarbeit und IhresLernerfolgs zu verbessern.

9

Page 10: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Hochrechnung zum Workload für 4 ECTS-Punkte

“Bei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand berück-sichtigt, der für das Erreichen einer genügenden Prüfungsleistung erforderlich ist.” (§14, Abs.2)

[Universitätsrat 2004]

• 1 ECTS-Punkt = 30h Zeitaufwand

• Präsenz in Vorlesung, Übungsstunde und schriftlicher Prüfung:

2× 14× 2h = 56h

• Zeit pro Woche für (Pflicht-)Lektüre, Lösen der schriftlichen Übungen und Prüfungsvor-bereitung:

120h− 56h− 1h14 = 4.5h

1.2 KontrollfragenKontrollfragen

• Sind Buchungsfristen für Sie relevant? Wenn ja, bis wann können Sie sich noch einschrei-ben, bzw. das Modul stornieren?

• Wieviele SU müssen Sie bestehen, damit eine 4.5 in der schriftlichen Prüfung noch aufeine 5 aufgerundet wird?

• Wieso sollten Sie die Übungsstunde besuchen?

• Welche Hauptthemen werden in dieser Vorlesung besprochen?

10

Page 11: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

2 Was ist CL?Lernziele

• Kenntnis der grundlegenden Thematik von Computerlinguistik, Sprachtechnologie undLinguistik

• Kenntnis der zentralen Anliegen der modernen Computerlinguistik

• Kenntnis der verschiedenen wissenschaftlichen Disziplinen und Fachbezeichnungen, welchemit Computerlinguistik interdisziplinär und transdisziplinär verbunden sind

• Kenntnis der wichtigsten Meilensteine, Personen und Strömungen innerhalb der CL-Geschichte(Pflichtlektüre)

• Kenntnis der Krux der Sprachverarbeitung

2.1 MotivationCL-haltige Produkte im (Computer-)Alltag

• Auskunftssysteme (z.B. [Kassensturz 2006])

• Textverarbeitung (Rechtschreibe- und Grammatikkorrektur)

• Elektronische Wörterbücher (Thesauri)

• Automatische Übersetzung

• Recherchen im WWW

• Auskunftssysteme (z.B. [Kassensturz 2006])

• . . .

2.2 Fachrichtungen

2.2.1 ComputerlinguistikWas ist CL?

Definition 2.2.1 (weiter Begriff). Computerlinguistik (CL; engl. computational linguistics) isteine Wissenschaft im Überschneidungsbereich von Sprachforschung und Informatik, welche sichmit der maschinellen Verarbeitung von natürlicher Sprache beschäftigt.

11

Page 12: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

FrageIst das Kopieren einer MS-Word-Datei von einer CDROM auf die Festplatte eine Anwendungvon CL?

FrageIst die 1791 beschriebene Maschine zur Sprachsynthese von Wolfgang von Kempelen (1734-1804)eine frühe Anwendung von CL?

Sprachsynthese nach Kempelen

Abbildung 2.1: Aus dem Buch “Mechanismus der menschlichen Sprache nebst Beschreibungeiner sprechenden Maschine” (1791) [Traunmüller 1997]

2.2.2 SprachtechnologieWas ist Sprachtechnologie?

Definition 2.2.2. Sprachtechnologie beschäftigt sich mit der praxis- und anwendungsbezoge-nen, ingenieursmässig konzipierten Entwicklung von Sprachsoftware.

2.2.3 WeiteresVerwandte/Alternative Fachbezeichnungen

12

Page 13: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Deutsch EnglischLinguistische Datenverarbeitung (LDV) Linguistic and Literary Computing (LLC)Maschinelle Sprachverarbeitung Natural Language Processing (NLP)Automatische Sprachverarbeitung (ASV) (Natural) Language Engineering (NLE)Computerphilologie Computational PhilologySprachtechnologie Speech Processing

Human Language Technology (HLT)Texttechnologie Text TechnologyKorpuslinguistik Corpus LinguisticsMedieninformatikLinguistische InformatikInformationslinguistik

QUIZ: Was ist was? [Weisser 2005]Frage 1: Welche Fachrichtung wird hier beschrieben?

The use and possibly also compilation of computer-based text materials to investi-gate linguistic phenomena and ways of teaching about language.

Antwort� Computational Linguistics� Computational Philology� Natural Language Engineering� Corpus Linguistics

Frage 2: Welche Fachrichtung wird hier beschrieben?

The compilation, annotation and use of written and spoken corpora for the investi-gation of linguistic phenomena, mainly by means of easy to use software.

Antwort� Computational Linguistics� Computational Philology� Natural Language Engineering� Corpus Linguistics

Frage 3: Welche Fachrichtung wird hier beschrieben?

The automated analysis and modelling of language by means of sophisticated pro-gramming techniques.

Antwort� Computational Linguistics� Computational Philology� Natural Language Engineering� Corpus Linguistics

Frage 4: Welche Fachrichtung wird hier beschrieben?

13

Page 14: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

The creation and application of corpora for use in computer-based systems, such asspeech recognition engines, translation systems, etc.

Antwort� Computational Linguistics� Computational Philology� Natural Language Engineering� Corpus Linguistics

Frage 4: Welche Fachrichtung wird hier beschrieben?

The creation and application of corpora for use in computer-based systems, such asspeech recognition engines, translation systems, etc.

Antwort� Computational Linguistics� Computational Philology� Natural Language Engineering� Corpus Linguistics

Schwerpunkte der verwandten Disziplinen

• Symbolische, logikbasierte vs. statistische, probabilistische Methoden

• Anwendungs- vs. Theorieorientierung

• Algorithmisierung als Proof-Of-Concept (“Kann man sowas überhaupt?” vs. effiziente(kommerziell einsetzbare) Systeme

• Hilfswissenschaft vs. eigenständige Forschung

• Gesprochene vs. verschriftlichte Sprache (Text)

• Psychologische/Neurologisch Plausibilität vs. ingenieurmässige Lösung

2.2.4 Moderne Computerlinguistik4 zentrale Anliegen der modernen Computerlinguistik

• Formalisierung natürlichsprachlicher Phänomene und ihre Operationalisierung auf demComputer

• Aufbau, Verwaltung und linguistische Interpretation (Erkennung von Wortarten, Grund-formen, syntaktischen Strukturen) von grossen Textsammlungen (Korpora) und lexikali-schen Ressourcen (Lexika)

• Entwicklung realistischer und technologisch fortschrittlicher Anwendungen

• Entwicklung und Durchführung von Evaluationen sprachverarbeitender Systeme und Kom-ponenten

14

Page 15: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

2.3 Nachbardisziplinen

Nachbardisziplinen in Übersicht

• Linguistik: formale Linguistik für Sprachmodelle; beschreibende Linguistik und Korpus-linguistik für empirische Basis

• Informatik: praktische und theoretische Informatik (Was lässt sich mit welchem Forma-lismus wie effizient berechnen?); Künstliche Intelligenz

• Kognitionswissenschaft

• Logik und Philosophie

• Mathematik: Mengenlehre (Funktionen, Relationen, Graphen) und Statistik

2.3.1 LinguistikLinguistik

Definition 2.3.1 (Moderne strukturalistische Sprachwissenschaft nach [Bussmann 2002]). DieLinguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen derSprache (gesprochene Sprache und Schrift): Phonetik/Phonologie, Morphologie, Syntax, Se-mantik und Pragmatik.Als moderne, synchron orientierte Sprachwissenschaft untersucht sie sprachliche Regularitätenund hält diese in expliziter (formalisierter) Beschreibungssprache und erklärenden Modellen fest.

Lautlehre: Phonetik und Phonologie

Definition 2.3.2. Die Phonetik (engl. phonetics) ist die Lehre von der Lautbildung. Sie umfasstdie artikulatorische, akustische und auditive Ebene.

Definition 2.3.3 (enger strukturalistischer Begriff). Die Phonologie (engl. phonology) ist dieLehre von den bedeutungsunterscheidenden Sprachlauten (Phonemen) und ihren regelhaftenEigenschaften und Beziehungen.

Beispiel 2.3.4 (Phonologische Regel der Auslautverhärtung).

1. Dieb /di:p/

2. Diebe /di:b@/

Exkurs: Internationales Phonetisches Alphabet (IPA)

Die Symbole zwischen den Schrägstrichen wie in “/di:p/” sind eine Lautschrift, d.h. ein schrift-liches Notationssystem, welches die Lautform beliebiger Sprachen wiedergeben können soll. DieIPA-Notationen für die Laute des Standarddeutschen sind in Carstensen:2009 erklärt.Die IPA-Zeichen sind Teil des UNICODE-Standards (http://wwww.unicode.org), welcher alleSchriftsysteme der Welt wiedergeben können will.Eine Kodierung, welche die IPA-Symbole mit Hilfe eines 7-Bit-ASCII-Zeichensatzes (Gross- undKleinbuchstaben von a bis z, Ziffern, einige Interpunktionszeichen – jedoch keine Umlaute undandere exotische Glyphen) erlaubt, heisst SAMPA. Die Kodierung für /di:b@/ lautet darin:di:b@.

15

Page 16: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Wortlehre: Morphologie

Definition 2.3.5. Die Morphologie (engl. morphology) ist die Lehre von der Struktur der Wör-ter und ihrer Bildung.

Beispiel 2.3.6 (Flexion).

1. Dieb#e Dieb-Plural “Mehr als ein Dieb”.

2. Dieb#e Dieb-Dativ “dem Dieb”

Satzlehre: Syntax

Definition 2.3.7. Die Syntax ist die Lehre vom zulässigen (wohlgeformten) strukturellen Auf-bau von Sätzen aus Wörtern, Satzgliedern (Subjekt, Objekt, Prädikat usw.) und Teilsätzen.

Beispiel 2.3.8 (Grammatikalität, d.h. syntaktische Wohlgeformtheit).

1. Der gewitzte Dieb stahl den Diamanten.

2. *Der Dieb gewitzte stahl den Diamanten.

3. *Den gewitzten Dieb stahl den Diamanten.

Bedeutungslehre: Semantik

Definition 2.3.9. Die Semantik (engl. semantics) ist die Lehre von der Bedeutung der Wörter(lexikalische Semantik), der grösseren syntaktischen Einheiten (Satzsemantik) und von Texten(Diskurssemantik).

Beispiel 2.3.10 (Sprachliche Varianz unter Bedeutungsgleichheit).

1. Die Polizei beschlagnahmte das Diebesgut gestern.

2. Das Diebesgut beschlagnahmte die Polizei gestern.

3. Das Diebesgut wurde gestern von der Polizei beschlagnahmt.

4. Die Beschlagnahmung des Diebesgut durch die Polizei war gestern.

5. [Die Polizeii fasste die Täterin gestern.] Siei beschlagnahmte gleichzeitig das Diebesgut.

Lehre von der Sprachverwendung: Pragmatik

Definition 2.3.11. Die Pragmatik ist die Lehre vom (Kommunikations-)Zweck der Äusserungenvon Sprachnutzern und den Gesetzmässigkeiten natürlichsprachlicher Kommunikation in derWelt.

Beispiel 2.3.12 (Sprachliche Varianz unter Zweckgleicheit).

1. Ist das Fenster auf?

2. Bitte schliessen Sie das Fenster!

16

Page 17: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

2.3.2 KognitionswissenschaftKognitionswissenschaft

Definition 2.3.13. Die Kognitionswissenschaft (engl. cognitive science) ist die interdisziplinäreErforschung kognitiver Fähigkeiten durch Psychologie, Neurowissenschaft, Informatik, Linguis-tik und Philosophie. Zu den kognitiven Fähigkeiten werden etwa Wahrnehmung, Denken, Ler-nen, Motorik und Sprache gezählt.

Geschichte der KognitionswissenschaftExzellenter Artikel in [Wikipedia 2009]

Turing-Test: Können Maschinen denken?

Turing-Test im Original [Turing 1950]The new form of the problem can be described in terms of a game which we call the ’imitationgame’. It is played with three people, a man (A), a woman (B), and an interrogator (C) whomay be of either sex. The interrogator stays in a room apart front the other two. The object ofthe game for the interrogator is to determine which of the other two is the man and which isthe woman. He knows them by labels X and Y, and at the end of the game he says either “Xis A and Y is B” or “X is B and Y is A”. [. . . ]We now ask the question, “What will happen when a machine takes the part of A in this game?”Will the interrogator decide wrongly as often when the game is played like this as he does whenthe game is played between a man and a woman? These questions replace our original, “Canmachines think?”

Reale Turing-TestsSeit 1991 werden öffentliche Wettbewerbe (Loebner-Preis) mit Dialogsystemen gemacht, wel-che den Turing-Test bestehen wollen (http://www.loebner.net/Prizef/loebner-prize.html). Preis-trägersysteme lassen sich teilweise im WWW direkt ausprobieren. Das Ziel dieser Test lautet:Kann eine Maschine so antworten in einem Dialog, dass man sie nicht mehr von einem Menschenunterscheiden kann?

2.4 Die Krux der Mehrdeutigkeit

Mehrdeutigkeit [?, 4]Beispiel 2.4.1.I made her duck.

Einige Paraphrasen, d.h. Lesarten

1. I cooked waterfowl for her.

2. I cooked waterfowl belonging to her.

3. I created the (plaster?) duck she owns.

4. I caused her to quickly lower her head or body.

5. I waved my magic wand and turned her into undifferentiated waterfowl.

17

Page 18: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

FragenWelche Einheiten sind mehrdeutig? Auf welcher Ebene der linguistischen Analyse werden dieMehrdeutigkeiten aufgelöst (desambiguiert) in den Paraphrasen?

2.5 Vertiefung• Pflichtlektüre [Carstensen et al. 2009, 1–23] http://www.linguistics.rub.de/CLBuch/kapitel1A3.

pdf

• Konversation mit einem Chat-Bot wie etwa http://www.elbot.de (Gewinner des Chatter-box Contests 2003)

2.5.1 Kontrollfragen

• Welche Disziplinen verbindet die Computerlinguistik? Mit welchen Disziplinen steht siein enger Nachbarschaft?

• Geben Sie je ein Beispiel, welches die Analyseebenen der verschiedenen linguistischenTeildisziplinen illustriert.

• Was ist der Unterschied von Computerlinguistik und Sprachtechnologie?

• Nennen Sie 3 Bezeichnungen für Fachausrichtungen, welche teilweise ähnliche Ziele verfol-gen wie die CL oder Sprachtechnologie. Wo können unterschiedliche Schwerpunkte ausge-macht werden? (Recherchieren Sie dafür allenfalls im Web zu den einzelnen Stichworten.)

• Was ist von der modernen Computerlinguistik gefordert?

18

Page 19: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

3 TokenisierungLernziele

• Kenntnis über den Zweck und die Probleme der textuellen Vorverarbeitung von natürlicherSprache: Text-Segmentierung und Text-Normalisierung

• Kenntnis über Methoden der Punktdisambiguierung und Satzendeerkennung

• Kenntnis über Textnormalisierung und Erkennung von interessierenden Grössen (NamedEntity Recognition)

• Kenntnis über die Kodierung sprachlicher Zeichen

• Kenntnis und Umgang mit regulären Ausdrücken

3.1 Tokenisierer3.1.1 GrundproblemWort

Definition 3.1.1 (nach [Bussmann 2002]). Wort. Intuitiv vorgegebener und umgangssprach-lich verwendeter Begriff für sprachliche Grundeinheiten, dessen zahlreiche sprachwissenschaftli-che Definitionsversuche uneinheitlich und kontrovers sind.

Beispiel 3.1.2 (Was ist ein Wort?).

1. Sie wollte vor allem am Text Mining Workshop teilnehmen.

2. Das gibts doch nicht! “Joop!” ist pleite.

3. Blick Online verlost zum Film-Start das «Ich bin Borat»-Kit.

Wort-Segmentierung in nicht-segmentierten Schreibsystemen

Abbildung 3.1: Navigationselemente der Web-Site der Olympischen Spiele 2008

19

Page 20: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Datei-InhalteBeispiel 3.1.3 (Folge von Zeichenkodes).

Wieviele und welcheWörter enthält der folgende Datei-Inhalt? 57 61 73 20 62 65 69 6E 68 61 6C 74 65 74 20 73 69 65 3F 0A

(Der Dateiinhalt ist als Dump im Hexadezimalformat wiedergegeben, d.h. jedes Zeichen in Formseines Zeichenkodes als Hexadezimalzahl.)

Grundproblem: Vom Zeichenstrom zur Folge von Tokens

RohdatenRohe, elektronische Sprachdaten liegen in Dateien vor, welche nichts anderes als eine Folge vonkodierten Einzelzeichen, d.h. ein kontinuierlicher Zeichenstrom sind.

Token: Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung, Wortkorrektur, morphologische Analyse, Lexikonzugriff, syn-taktische Analyse.

Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)

• Konsumieren der Zeichenfolge (Eingabe)

• Gruppieren und allenfalls normalisieren/modifizieren der Zeichen (Verarbeitung)

• Produzieren einer Folge von Tokens (Ausgabe)

3.1.2 ZeichenkodierungWas ist ein Zeichen auf dem Computer?

• Traditionell ein Byte, d.h. eine Folge von 8 BitsWas ist ein Bit? Binäre Entscheidung (0 oder 1)

• Ein Byte kann als Zahl interpretiert werden, indem die Position eines Bits als Stelle imBinärsystem aufgefasst wird: 0010’0000

• Eine Zahl kann als Buchstabe/Zeichen interpretiert werden, indem eine Kodierungskon-vention aufgestellt wird: Z.B. A=65, @=64, 1=49

• Verbreitete Kodierungskonventionen (engl. charset): ASCII (128 Zeichen für Englisch),iso-latin-1 (256 Zeichen für westeuropäische Sprachen)

• Typische Speicherung bei ASCII und iso-latin-1: 1 Zeichen = 1 Byte

• Moderne universale Koderungskonvention: UNICODE(ISO/IEC 10646) (110’181 Zeichenin Version 6.1.0 für fast alle Schriftsysteme der Welt; http://www.unicode.org)

20

Page 21: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Was ist ein Zeichen auf dem Computer?

• Speicherung bei UNICODE: UTF (Abk. für Unicode Transformation Format) beschreibtMethoden, einen Unicode-Wert auf eine Folge von Bytes abzubilden.

• UTF-8: (Abk. für 8-bit Unicode Transformation Format) Ordnet jedem Unicode-Zeicheneine speziell kodierte Bytefolge von variabler Länge zu. UTF-8 unterstützt bis zu 4 Bytepro Zeichen.

• Dateiformat: XML-Dateien sind defaultmässig UTF-8 kodiert. Bei andern Dateien mussman es wissen.

• Darstellung: Zeichensätze (engl. fonts) enthalten die graphischen Formen (glyphs), damitdas Betriebssystem die Kodes fürs Auge darstellen kann.

• Konversionswerkzeuge: Z.B. GNU-Kommandozeilentool iconv

Textkonversion mit iconv

Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen lässt sich auch Text-Normalisierung durch “Transliteration” durchführen.

$ echo "Klößchen" | iconv -f ISO_8859-1 -t ASCII//TRANSLITKl"osschen

Das Löschen von nicht-repräsentierbaren Zeichen ist meist weniger nützlich:

$ echo "Klößchen" | iconv -f ISO_8859-1 -t ASCII//IGNOREKlchen

3.1.3 Markup3.1.4 ProgrammeTypische Beispiele für TokenisiererVertikalisierter TextTokenisierung mit rein textuellem Output: Lese eine Textdatei ein und erzeuge daraus

• vertikalisierten Text, d.h. ein Token pro Zeile, oder

• ein Satz pro Zeile, d.h. jedes Token durch Leerzeichen getrennt.

Beispiel 3.1.4 (Schmids Tokenizer im UNIX-Stil [Schmid 2006]).Sprachunabhängiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkürzungsdatei

$ cat file.txt "Bach’sche Musik mag Dr. Fritz. Ja."$ cat ger-abbrevDr. usw.

$ separate-punctuation +1 +s +l ger-abbrev file.txt "Bach’sche Musik mag Dr. Fritz.Ja . "

21

Page 22: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Typische Beispiele für TokenisiererTokenisierung aus einem Zeichenstrom oder einer Zeichenkette in eine Datenstruktur einer Pro-grammierspracheBeispiel 3.1.5 (Tokenizer für Englisch).Tokenisierer in Python aus nltk.org: Konsumiere eine Textdatei oder Benutzereingabe und pro-duziere daraus eine Python-Liste.

$ pythonPython 2.6.5 (r265:79063, Apr 16 2010, 13:57:41)>>> import nltk>>> nltk.word_tokenize("Joe’s brother doesn’t owe us $4,567.89.")[’Joe’, "’s", ’brother’, ’does’, "n’t", ’owe’, ’us’, ’$’, ’4,567.89’, ’.’]>>>

Typische Beispiele für TokenisiererAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PERL,Python oder Xerox Finite State Tools, welche einen einfachen Umgang mit regulären Ausdrückenerlauben.

Definition 3.1.6 (Reguläre Ausdrücke (engl. regular expressions)). Ein regulärer Ausdruck isteine relativ standardisierte Kurz-Notation, um Zeichenketten mit bestimmten Eigenschaften zubeschreiben.Praktisch eingesetzt werden sie für die nicht-wörtliche Suche (engl. pattern matching), Suchen-und-Ersetzen und Segmentieren von Zeichenketten.

Einführung in reguläre AusdrückeZ.B. in unserem CLab: http://www.cl.uzh.ch/clab/regex

Typische Beispiele für TokenisiererTokenisierung mit XML-Output (ev. aus XML-Input), d.h. in einer Auszeichnungssprache (engl.markup language).Beispiel 3.1.7 (Der LT-TTT2 Tokenizer [Grover 2008]).

1. Rohtext

This is an example. There are two sentences.

2. XML-Input für Tokenisierer (Vortokenisierung)

<document><text>

<p>This is an example. There are two sentences.

</p></text>

</document>

3. XML-Tokenisat

22

Page 23: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

<document><text><p><s id="s1"><w id="w3" c="w" pws="yes">This</w> <w id="w8" c="w" pws="yes">is</w><w id="w11" c="w" pws="yes">an</w> <w id="w14" c="w" pws="yes">example</w><w id="w21" pws="no" sb="true" c=".">.</w></s><s id="s2"><w id="w23" c="w" pws="yes">There</w> <w id="w29" c="w" pws="yes">are</w><w id="w33" c="w" pws="yes">two</w> <w id="w37" c="w" pws="yes">sentences</w><w id="w46" pws="no" sb="true" c=".">.</w></s></p></text></document>

Hinweis: Für Darstellungszwecke mit zusätzlichen Layoutzeichen angereichert.

3.2 Exkurs: XMLXML (eXtensible Markup Language)Definition 3.2.1. Der XML-Standard http://www.w3.org/XML/ spezifiziert, wie wohlgeformteXML-Dokumente aufgebaut sein müssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann.

XML in der Texttechnologie• Textbasiertes Format, das geeignet ist, Texte und dazugehörigeMetainformation programm-unabhängig, strukturiert zu speichern (z.B. Text Encoding Initiative TEI für Lexika, Kor-pora und digitale Editionen)

• Dank Standardisierung gibt es viele Werkzeuge, Bibliotheken, Programmierschnittstellenzum Einlesen, Erstellen, Modifizieren von XML-Dokumenten

• Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben

Aufbau von XML-DokumentenElemente und ihre Attribute• Elemente sind von Start-Tags (“<p>”) und End-Tags (“</p>”) begrenzt.

• Leere Elemente können aus einem Tag bestehen (“<br/>”)

• Elemente dürfen hierarchisch ineinander verschachtelt werden: <p><s>...</s></p>

• Jedes XML-Dokument hat genau ein Wurzelelement: Z.B: <document>...</document>

• Attribute eines Elements erscheinen als Paare der Form NAME="WERT" im Start-Tag:<s id="s2">

• Elemente können Zeichendaten (d.h. normalen Text) enthalten: <w>are</w>

23

Page 24: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Zeichenreferenzen und Entity-Referenzen

Entitäten und Referenzen

• Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet, welche zwischen & und ; notiert werden

• Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens (#n=Hexadezimal)

Zeichen Entität< &lt;" &quot;& &amp;

Newline &#9;

3.3 Tokenisierung: Segmentieren von Wörtern und Sätzen3.3.1 ProblemNaive Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen (engl. white space) oderInterpunktion begrenzt.

• Wort-Zeichen: /[a-zA-Z0-9]/

• Einzel-Zeichen: /[.,:;?!)(" ?-]/

• Grenz-Zeichen: /\s/

ProblemTokens können sowohl Einzel- wie Grenz-Zeichen enthalten:“Joop!”, “usw.”, “1 000”, “«Ich bin Borat»-Kit”

Teilprobleme der Tokenisierung im weiten Sinn

• Umgang mit Markup (HTML-Tags, Formatierungszeichen)

• Erkennung der “normalen” Tokengrenzen (in nicht-segmentierten Schriftsystemen wie demChinesischen anspruchsvoll)

• Erkennung von “komplexen Tokens”, d.h. Tokens, welche Einzel- oder Grenzzeichen bein-halten

• Erkennung von Interpunktion (Disambiguierung von Punkten, Erkennung von Satzenden)

• Normalisierung von Zeichen und Token (z.B. Silbentrennung aufheben)

• Named Entity Recognition (z.B. Erkennung von Namen und Zeitangaben)

24

Page 25: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

3.3.2 Punktdisambiguierung

Erkennung von Satzenden (Satz-Segmentierung)Im Brown-Korpus steckt in jedem 14. Satz ein Punkt, der nicht satzfinal ist. Wer jeden Punktals Satzende interpretiert, liegt (im Englischen) in 8-45% der Fälle daneben.

Verschärfend: Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repräsentiert.Beispiel 3.3.1 (Verschmelzung).

• It was due Friday by 5 p.m. Saturday would be too late.

• Ich kenne die U.S.A. Frankreich kenne ich nicht.

WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig.

Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text, welches mit einem Punkt endet.Der Punkt ist ein Abkürzungspunkt, falls

• das Token in einer Abkürzungsliste steht.

• nach dem Token [,;a-z] folgt.

• das Token kleingeschrieben ist, aber der Teil ohne den Punkt nicht im Lexikon steht.

• das Token grossgeschrieben ist, eher häufig vorkommt und im Text nicht ohne den Punktvorkommt.

Nach [Grefenstette und Tapanainen 1994]LeistungsfähigkeitMit einer guten Abkürzungsliste erzielt man 99% korrekte Entscheidungen.

Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Häufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen, um eine Entscheidung zu treffen.

Interessante Merkmale für statistische AnsätzeTOKEN. NEXTTOKEN

1. Wieviele Zeichen umfasst ein Token?

2. Besteht ein Token nur aus Ziffern? Enthält es keine Vokale?

3. Wie oft kommt das Token ohne Punkt vor?

4. Wie oft kommt nach dem Token ein grossgeschriebenes Token vor?

5. Wie oft kommt ein Token kleingeschrieben vor?

6. Welche Wortart haben die umgebenden Tokens?

25

Page 26: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

3.3.3 Zeichen- und Token-NormalisierungText-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen.Beispiel 3.3.2 (Normalisierung bei Suchmaschinen und anderen Anwendungen).

• Zürich, Zuerich, Zurich, ZURICH, ZUERICH, ZÜRICH, zurich, zürich, Zü-rich . . .

• 4.8.97, 4-8-97, 4/8/97, 8/4/97

• 19000, 19’000, 19 000, 19,000

• Louisa, Luise, Louise, Luisa . . .

• doesn’t, does not

Rückgängig machen von Worttrennung am Zeilenende

Definition 3.3.3. Der Rückbau von Silbentrennung (engl. dehyphenation) in Texten. In eini-gen Schriftsystemen gibt bzw. gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen.

Beispiel 3.3.4 (Graphematische Modifikationen).

• Deutsch alte Rechtschreibung: Zuk-ker → Zucker; Schiff-fahrt → Schiffahrt

• Holländisch: chocola-tje → chocolaatje

Rückgängig machen von Worttrennung am Zeilenende

Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio. Wörter) wurde automatisch umgebrochen, danach dehyphenisiert. Ver-gleich mit den manuell kontrollierten originalen Tokens:

Zeilen in % Typ101’860 100% Zeilen total12’473 12% mit Silbentrennung

Rückbau in % Typ11’858 95% Rückbau in existierende Tokens

615 5% Rückbau in neue Tokens

Tabelle 3.1: Übersicht: Rückbau von Silbentrennung im Brown-Korpus

Beispiele: “rookie-of-theyear”, “sciencefiction”, “roleexperimentation”Ist im Deutschen Rückgängigmachung von Silbengtrennung ebenfalls so problematisch.

26

Page 27: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

3.3.4 Named Entity RecognitionNamed Entity Recognition

Definition 3.3.5. Unter Named Entity Recognition (NER) versteht man die Identifizierung vonNamen von Personen, Organisationen, geographischen Grössen. Aber auch Mass-, Währungs-und Zeitangaben oder weitere textsortenspezifische interessierende Grössen.

Einheitliche (kanonische) RepräsentationFür die Zwecke der Informationsextraktion ist es oft sinnvoll, identifizierte interessierende Grös-sen in ein einheitliches und eindeutiges Format zu bringen.

Beispiel 3.3.6 (Kanonische Formen).

• USA: “U.S.A.”,“United States of America”, “U.S. of America”

• time(13,20,–): “13.20”, “13h”, “1.20 pm”, “Zwanzig nach Eins”

3.4 MultilingualitätMultilinguale Dokumente und SystemeHerausforderung Multilingualität

• Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation

• Bereits auf Tokensierungsstufe sind sprachspezifische Ressourcen (Abkürzungslexika) undRegeln notwendig

• Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament, auf dem alle Textanalyse aufbaut.

• Traditionelles linguistisches Wissen ist für Sprachidentifikation nicht geeignet.

• „Primitive“ Verfahren, welche auf Häufigkeiten von Buchstabenkombinationen aufbauen,funktionieren gut.

Ansatz von [Cavnar und Trenkle 1994]

1. Sammle häufigste Zeichenkombinationen (2-5 Zeichen, d.h. N-Gramme) der verschiedenenSprachen über Trainingsdaten.

2. Berechne für jede Sprache die Reihenfolge der häufigsten Kombinationen (N-Gramm-Profil).

3. Berechne für ein unbekanntes Dokument D sein N-Gramm-Profil.

4. Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm.

5. Wähle für D die Sprache mit dem kleinsten Profilabstand.

N-Gramm-Profile und Profilabstand

27

Page 28: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Quelle: [Cavnar und Trenkle 1994]

Abbildung 3.2:

3.5 VertiefungZum Thema “Tokenisierung”:

• Pflichtlektüre: [Carstensen et al. 2009, 3.4.1]

• Guter Übersichtsartikel für Interessierte: [Palmer 2000]

• Gut zu lesen und methodisch einfach und instruktiv: [Grefenstette und Tapanainen 1994]

Zum Thema “Reguläre Ausdrücke”:

• http://www.cl.uzh.ch/clab/regex/

Zum Thema “XML”:

• Kapitel 2.5.2 Texttechnologische Grundlagen in [Carstensen et al. 2009]

3.5.1 KontrollfragenKontrollfragen

• Was ist ein Bit, ein Byte und eine Zeichenkodierungskonvention?

• Welche Probleme stellen sich bei der Tokenisierung?

• Schildern Sie zwei unterschiedliche Ansätze zur Punktdisambiguierung.

• Was sind die wesentlichen Eigenschaften von XML-Dokumenten?

• Was versteht man unter NER?

• Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle?

28

Page 29: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

4 Linguistisches Propädeutikum ILernziele

• Kenntnis der Begriffe Wort, Token, Wortform, syntaktisches Wort, Lexem, Lemma, Le-xemverband

• Kenntnis der Wortartenlehre für Deutsch

• Kenntnis der morphologischen Kategorien für Deutsch und Englisch

• Kenntnis und Anwendung des Stuttgart-Tübingen-Tagsets (STTS) mit Hilfe der Refe-renzkarte

• Kenntnis und Anwendung linguistischer Proben

• Erfahrungen mit computerlinguistisch unterstützter, halbautomatischer linguistischer An-notation von Morphologie und Wortarten

• Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung, Ana-lyse und Generierung

4.1 Wort4.1.1 DefinitionWort

Definition 4.1.1 (nach [Bussmann 2002]). Wort. Intuitiv vorgegebener und umgangssprach-lich verwendeter Begriff für sprachliche Grundeinheiten, dessen zahlreiche sprachwissenschaftli-che Definitionsversuche uneinheitlich und kontrovers sind.

Beispiel 4.1.2 (Was ist ein Wort?).

1. Sie wollte vor allem am 1. Spiel teilnehmen.

2. Sie nahm z.B. an dem 2. Spiel teil.

3. Das gibts doch nicht!

4. Blick Online verlost zum Film-Start das «Ich bin Borat»-Kit [. . . ]

29

Page 30: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Präzisierungsversuche des Wort-BegriffsSprachliche Ebenen zur Präzisierung des Wort-Begriffs

• Phonetisch-phonologisch: kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment

• Orthographisch-graphemisch: durch Leerstellen im Schriftbild isolierte Einheit

• Morphologisch: Grundeinheit, welche flektierbar ist

• Lexikalisch-semantisch: kleinster Bedeutungsträger, welcher im Lexikon kodifiziert ist

• Syntaktisch: kleinste verschieb- und ersetzbare Einheit des Satzes

Gängige Auffassungen des Worts Wort [Linke et al. 2001]Wieviele verschiedene Wörter hat dieser Satz?Wenn hinter Fliegen Fliegen fliegen, fliegen Fliegen Fliegen nach.

Antworten� 4� 5� 6� 9� __

4.1.2 TokenAntwort 9: Wort als Vorkommen einer WortformWieviele verschiedene Wörter hat dieser Satz?Wenn1 hinter2 Fliegen3 Fliegen4 fliegen5, fliegen6 Fliegen7 Fliegen8 nach9 .

Definition 4.1.3 (Token). Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText.

BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Token betrachtet. Die Antwortlautet dann . . .

4.1.3 WortformAntwort 5: Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4, fliegen4 Fliegen3 Fliegen3 nach5.

Definition 4.1.4 (Wortform). EineWortform ist eine rein graphematische Einheit eines Textes.

Beispiel 4.1.5 (Identische Wortformen mit unterschiedlicher Bedeutung).

• Die Fliege war tot.

• Er trug eine samtene Fliege.

• Fliege nicht so schnell!

30

Page 31: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

4.1.4 Syntaktisches WortAntwort 6: Wort als syntaktisches Wort

Wenn1 hinter2 Fliegen3 Fliegen4 fliegen5, fliegen5 Fliegen4 Fliegen3 nach6.

Definition 4.1.6 (Syntaktisches Wort). Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen Merkmalen.Rein orthographische Varianten einer Wortform werden für ein syntaktisches Wort normaler-weise zusammengefasst.

Beispiel 4.1.7 (Wortform vs. syntaktisches Wort).Die Wortform „Fliegen“ kann mindestens 4 syntaktische Wörter repräsentieren: „Fliege“ inNominativ, Akkusativ, Dativ oder Genitiv Plural.

4.1.5 LexemAntwort 5: Wort als Lexem

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4, fliegen4 Fliegen3 Fliegen3 nach5.

Definition 4.1.8 (Lexem im engen Sinn). Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Wörtern, welche sich nur in bestimmten morphosyntaktischen Merkmalen (Kasus,Numerus, Tempus usw.) unterscheiden.

Definition 4.1.9 (Nennform, Zitierform, Grundform, Lemma). Ein Lemma ist eine lexikogra-phische Standard-Notation für ein Lexem.

Beispiel 4.1.10 (Lexikographische Notationskonventionen im Deutschen).Substantiv-Lexeme werden durch das syntaktische Wort im Nominativ Singular repräsentiert.Verb-Lexeme durch den Infinitiv. Wie werden Verb-Lexeme im Latein notiert?

Antwort 4: Wort als Lexemverband

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3, fliegen3 Fliegen3 Fliegen3 nach4.

Definition 4.1.11 (Lexemverband, auch Lexem im weiten Sinn). Ein Lexemverband ist eineMenge von Lexemen, deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert.

Beispiel 4.1.12 (Derivationen von „fliegen“ in Canoo).Lexemverbände umfassen typischerweise Lexeme mit unterschiedlichen Wortarten. Die Wort-bildungsinformation in http://www.canoo.net illustriert dies schön.

Stufen der Abstraktion: Vom Text zum Lexemverband

• Jedes Token ist eine Zeichenfolge, welche in einem Text an einer bestimmten Stelle beginnt.

• JedeWortform ist eine Menge von Token, welche aus der identischen Zeichenfolge bestehen(sog. Type).

• Jedes syntaktisches Wort ist eine Menge von Token, welche identische morphosyntaktischeund semantische Eigenschaften aufweisen.

31

Page 32: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

• Jedes Lexem ist eine Menge syntaktischer Wörter, welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden.

• Jeder Lexemverband ist eine Menge der Lexeme, für die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird.

4.2 Lehre von den WortartenWortarten nach [Bussmann 2002]Definition 4.2.1 (Redeteile, engl. parts of speech (PoS)). Wortarten sind das Ergebnis derKlassifizierung der Wörter einer Sprache nach morphologischen, syntaktischen und/oder se-mantischen Kriterien.

Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca. 100 vor Chr.) wirkte stark bis ins 19. Jahr-hundert. Für Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemässAdelung (1781) vermittelt: Substantiv, Verb, Adjektiv, Präposition, Konjunktion, Interjektion,Numerale, Pronomen, Artikel, Adverb

5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch, welche explizite (operationalisierbare) und durchgängige Klassifikationskriterien anwen-det.

4.2.1 5 Hauptwortarten nach GlinzKlassifikationskriterien

Abbildung 4.1: Die 5 Hauptwortarten nach Glinz [Stocker et al. 2004]

Welcher Fachbegriff wäre präziser anstelle von “Wörter” in der Abbildung?

32

Page 33: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Abbildung 4.2: Die Hauptkategorien von STTS:http://www.cl.uzh.ch/clab/hilfe/stts/

4.2.2 STTSStuttgart/Tübingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis:

• Die Kürzel für die Wortarten nennt man „Tag“ (engl. Etikette)

• Wichtigstes Tagset des Deutschen [Schiller et al. 1999] mit 54 Tags

• Vergleichbar mit dem Tagset der Penn-Treebank für Englisch

• Eine Notationsvariante von STTS wurde als europäischer Standard für Deutsch (EAGLESELM-DE) [EAGLES 1996] spezifiziert.

• Alternativen: Münsteraner Tagset [Steiner 2003]

Wieso ist das STTS wichtig in der CL?

• Wichtige linguistisch annotierte Korpora (sog. Baumbanken) verwenden auf der Wortarte-nebene STTS: NEGRA-Korpus III(20’000 Sätze), TüBa-D/Z (65’524) TIGER-Korpus(50’000) (leicht adaptiertes STTS) III

• Es gibt frei verfügbare Programme, welche Wörter im Lauftext automatisch mit ihrenSTTS-Tags ergänzen. Solche Programme (z.B. TreeTagger) nennt man „Tagger“ und denProzess „Tagging“.

STTS vs. 5-Wortartenlehre

• Eigennamen (NE) sind eine semantisch definierte Klasse.

33

Page 34: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

• Feine Aufgliederung bei Pronomen/Begleiter: Personalpronomen (PPERS), Demonstrativ-pronomen (PDS) usw.

• Durchgängige Unterscheidung von attribuierend (Begleiter) vs. substituierend (Prono-men): “Diese/PDAT Kuh muht.” vs. “Diese/PDS muht.”

• Feine Aufgliederung bei Glinzschen Partikeln: Konjunktionen, Adverbien, Antwortpartikel(PTKANT), Negationspartikel „nicht“ (PTKNEG) usw.

• Als Adverbien zählen nur Lexeme, welche keine adjektivische Verwendung erlauben.

• ‘Wortarten’ für satzinterne ($,) und -finale Interpunktion ($.)

• Kategorie für fremdsprachliches Material (FM)

Probleme der Wortartenbestimmung

Was sind die Schwierigkeiten?

Er kannte ihn schon als kleines Kind.Die Wissenschaft selbst ist ein kompliziertes System.Ich habe noch nie solch eine Geschichte gehört.Er ist erkrankt.Auf der einen Seite ist es so, aber ...Der Mann, von dessen Vater das Buch handelt, ist ...Er kam plötzlich und ohne anzuklopfen herein.Er wartete bis um 5 Uhr.

4.3 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale

Definition 4.3.1 (auch morphosyntaktisches oder grammatisches Merkmal). Die morphologi-schen Merkmale sind Ausprägungen von morphologischen Kategorien wie Genus, Kasus, Nu-merus, Person, Tempus, Modus und Komparation, welche durch die Flexion (Wortbeugung)realisiert werden.

Flexion: Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems

• Konjugation von Verben

• Deklination von Nomen, Adjektiven, Artikeln und Pronomen

• Steigerung von Adjektiven (und wenigen Adverbien)

34

Page 35: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Diskussion: Sind steigerbare Adverbien ein Widerspruch im System?

Nach Glinz zählen die Adverbien zu den Partikeln. Partikeln sind gemäss dieser Einteilungnicht flektierbar. Zur Flexion wird normalerweise auch die Komparation gezählt. Es gibt einigeAdverbien, welche komparierbar sind (“sehr, mehr, am meisten”, “gern, lieber, am liebsten”. . . ).Ist dies ein Widerspruch? Ein bisschen schon. Aber: Steigerung wird oftmals nur für Adjektiveals Flexion betrachtet.Ist dies ein definitorischer Zirkel? Ein bisschen schon. Aber: Was ein Adjektiv ausmacht, istdie Gesamtheit der Attribute im Klassifikationsbaum, d.h. flektierbar nach Kasus, Genus undkomparierbar. Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheiden.Aber es gibt doch auch Adjektiv-Lexeme, welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (d.h. in flektierter Position) verwendet werden können? Hmmh, dann musses wohl noch andere Gründe geben, ein Adjektiv-Lexem zu sein.Welche denn?

4.3.1 GenusDas Genus (engl. gender): Grammatisches Geschlecht

Fachbegriff Deutsch Englisch STTS BeispielMaskulinum männlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum sächlich neuter Neut HuhnUnterspezifiziert n/a n/a * Ferien

Tabelle 4.1: Übersicht: Genera

BemerkungDer Plural von Genus lautet Genera.

Bei welchen Wortarten ist die Kategorie Genus ausgeprägt?

4.3.2 NumerusDer Numerus (engl. number): Grammatische Zahl

Fachbegriff Deutsch Englisch STTS BeispielSingular Einzahl singular Sg HuhnPlural Mehrzahl plural Pl Hühner

Tabelle 4.2: Übersicht: Numeri

BemerkungDer Plural von Numerus lautet Numeri.

Bei welchen Wortarten ist die Kategorie Numerus ausgeprägt?

35

Page 36: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Fachbegriff Deutsch Englisch STTS BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Akk den Baum

Tabelle 4.3: Übersicht: Kasus

4.3.3 KasusDer Kasus (engl. case): Fall

BemerkungDer Plural von Kasus lautet Kasus. Im STTS steht eigentlich für Akkusativ das Kürzel Akk.Acc ist eine Modifikation im TIGER-Modell.

4.3.4 ModusDer Modus (engl. mode, mood): Aussageweise

Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Möglichkeitsform subjunctive mood Subj er gehe

Tabelle 4.4: Übersicht: Modi

Im STTS steht eigentlich für Konjunktiv das Kürzel Konj. Subj ist eine Modifikation im TIGER-Modell.

BemerkungenDer Plural von Modus lautet Modi.Die Befehlsform (Imperativ) wird normalerweise auch als Modus aufgefasst. Im STTS ist diesdurch das V.IMP ausgedrückt.

4.3.5 TempusDas Tempus (engl. tense): grammatische Zeit, Zeitform

Fachbegriff Deutsch Englisch STTS BeispielPräsens Gegenwart present tense Pres er gehtPräteritum Vergangenheit past tense Past er ging

Tabelle 4.5: Übersicht: Tempora

BemerkungenDer Plural von Tempus lautet Tempora. Wieso gibt es nur 2 morphologische Kategorien fürTempus? Im Deutschen gibt’s doch viel mehr Zeiten.

36

Page 37: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Fachbegriff Deutsch Englisch STTS Beispiel1. Person Sprecher first person 1 ich gehe2. Person Angesprochene second person 2 du gehst3. Person Person, Sachverhalt third person 3 er geht

Tabelle 4.6: Übersicht: Personen

4.3.6 PersonDie Person (engl. person)

BemerkungenDer Plural von Person lautet Personen; die Verwendung ist allerdings ungebräuchlich.Bei welchen Wortarten ist die Kategorie Person ausgeprägt?

4.3.7 GradDer Grad (engl. degree): Steigerung, Komparation

Fachbegriff Deutsch Englisch STTS BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Höchststufe superlative Sup schlauste

Tabelle 4.7: Übersicht: Komparation

BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgeprägt?

4.3.8 Adjektiv-FlexionDie Adjektiv-Flexion (engl. adjective inflection)

Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best. Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein, kein,. . . mixed Mix keine schlauen FüchseStarke Flexion ohne Artikel strong St schlaue Füchse

Tabelle 4.8: Übersicht: Adjektiv-Flexion

BemerkungGibts die Unterscheidung von schwacher und starker Flexion nur bei Adjektiven?

Beispiel 4.3.2 (Flexion von “schlau”).Darstellung bei www.canoo.net

4.4 Linguistische ProbenLinguistische Testverfahren

37

Page 38: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Definition 4.4.1 (Linguistische Proben). Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik, das gezielt die sprachliche Kompetenz benutzt, umgrammatische Aussagen verifizieren (bestätigen) oder falsifizieren (verwerfen) zu können.

4.4.1 ErsatzprobeErsatzprobe

Definition 4.4.2. In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt. Die Interpretation des Satzrestesmuss dabei unverändert bleiben.

Beispiel 4.4.3 (Bestimmung des Kasus).

Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat

Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen.Beispiel 4.4.4 (Bestimmung der Wortart von “das”).

• Das ist das Angebot, das uns überzeugt hat.

• Dieses ist das Angebot, welches uns überzeugt hat.

• * Welches ist das Angebot, dieses uns überzeugt hat.

• ? Das ist dieses Angebot, welches uns überzeugt hat.

Probleme der Interpretation

• Test bestanden vs. nicht bestanden ist manchmal abhängig von der ursprünglichen Inter-pretation des Satzes.

• Ob die Interpretation des Satzrestes sich ändert durch den Ersatz, ist nicht immer leichtzu beurteilen.

4.4.2 EinsetzprobeEinsetzprobe

Definition 4.4.5. In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt, der ihn grammatisch eindeutig interpretiert.

Beispiel 4.4.6 (Bestimmung der Wortart).

Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis *Der gratis Baum Adverb

38

Page 39: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfür Verben oder Steigerung für Adjektive.

4.5 Computermorphologie4.5.1 Lemmatisierung/MorphologieanalyseLemmatisierung und Morphologieanalyse

Definition 4.5.1 (Grundformbestimmung). Die Lemmatisierung ist die Bestimmung der Lem-mas, welche einer Wortform zugrunde liegen.

Definition 4.5.2 (Morphologieanalyse). Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lexem.

Lemmatisierung und Morphologieanalyse mit GERTWOLhttp://www2.lingsoft.fi/cgi-bin/gertwol

Verbrechens"Verb#rechen" S MASK SG GEN"Verb#rech~en" S NEUTR SG GEN"Ver|brech~en" S NEUTR SG GEN

eine"ein" ART INDEF SG NOM FEM"ein" ART INDEF SG AKK FEM"einer" PRON INDEF SG NOM FEM"einer" PRON INDEF SG AKK FEM"ein~en" V IND PRÄS SG1"ein~en" V KONJ PRÄS SG1"ein~en" V KONJ PRÄS SG3"ein~en" V IMP PRÄS SG2

4.5.2 MorphologiegenerierungGenerierung von syntaktischen Wortformen

Definition 4.5.3 (Morphologiegenerierung). Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation.

Beispiel 4.5.4 (Generieren mit STTS-Tags).gehen + VVFIN:2.Sg.Past.Ind → gingst

4.6 Vertiefung• Quiz Stuttgart-Tübingen-Tagset

• Quiz Wortarten nach STTS bestimmen

39

Page 40: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

• Referenzkarte zum Annotieren von STTS und dem TIGER-Sprachmodell (in OLAT)

• Manuals für das Programm annotate [Plaehn 2000, Plaehn 1998]

• http://www.canoo.net aus Basel hat eine sorgfältige traditionelle linguistische Terminolo-gie im Web und viel (!) Anschauungsmaterial aus ihrem Morphologiesystem.

• Die CDROM zum „Studienbuch Linguistik“ enthält viel interaktiv aufbereitetes Lernma-terial http://www.ds.uzh.ch/studien-cd

4.6.1 KontrollfragenKontrollfragen

• Welche verschiedenen Auffassungen verbergen sich hinter dem Wort „Wort“?

• Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien.

• Worin besteht Morphologieanalyse und -generierung?

• Welche STTS-Tags (inklusive Morphologie) müssten bei den Wörtern der 1. Kontrollfragezugeordnet werden?

• Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt?

• Was ist der Unterschied zwischen Lemma und Lexem?

40

Page 41: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

5 Linguistisches Propädeutikum IILernziele

• Anwendung der klassischen syntaktischen Proben

• Kenntnis der Begriffe Satz, Konstituenz, Dependenz, Konstituente, Kern, Kopf, Satzglied,Phrase

• Kenntnis der wichtigsten syntaktischen Funktionen

• Kenntnis und Anwendung des TIGER/NEGRA-Annotationsschemas mit Hilfe der Refe-renzkarte

• Kenntnis über die flach annotierten NP und PP

• Kenntnis über die verschachtelt annotierten infiniten VP

• Erfahrungen mit computerlinguistisch unterstützter, halbautomatischer linguistischer An-notation von syntaktischen Strukturen

• Erfahrungen mit einfacher Suche von syntaktischen Strukturen in einer Baumbank mitTIGERSearch

5.1 Syntaktische Proben5.1.1 WeglassprobeWeglassprobe

Definition 5.1.1. In der Weglassprobe wird von einem grösseren mehrdeutigen Ausdruck sovielMaterial wie möglich entfernt, um einen eindeutigen Ausdruck zu erhalten.

Beispiel 5.1.2 (Bestimmung eines Satzglieds).

1. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam.

2. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam.

3. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam.

4. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam.

FrageWarum nicht Variante 4?

41

Page 42: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

5.1.2 VerschiebeprobeVerschiebeprobe

Definition 5.1.3. In der Verschiebeprobe werden Wörter und Wortgruppen im Satz umgestellt,so dass der Satz grammatisch bleibt und sich am Inhalt höchstens die Gewichtung ändert.Damit lassen sich die Anfang und Ende von Satzgliedern erkennen.

Beispiel 5.1.4 (Bestimmung von Satzgliedern).

1. Die Sitzung mit dem Chef bereite ich morgen vor.

2. Morgen bereite ich die Sitzung mit dem Chef vor.

3. Ich bereite die Sitzung mit dem Chef morgen vor.

Regeln: Tausche immer 2 Kandidaten aus, um nicht unnötig ungrammatische (Pseudo-)Sätzezu erzeugen. Ersetze in einfachen Sätzen immer das Satzglied vor dem flektierten Verb.

VerschiebeprobeBeispiel 5.1.5 (Unzulässiges Verschieben).

1. Die Sitzung mit dem Chef bereite ich morgen vor.

2. *Morgen ich bereite die Sitzung mit dem Chef vor.

3. #Die Sitzung bereite ich morgen mit dem Chef vor.

5.1.3 UmformungsprobenUmformungsprobe

Definition 5.1.6. In der Umformungsprobe werden Sätze umfassend umgebaut.

Beispiel 5.1.7 (Funktion von Nebensätzen).

1. Es würde mich freuen, wenn du mitkämest.

2. Dein Mitkommen würde mich freuen.

Der Nebensatz mit „wenn“ erfüllt eine analoge Funktion wie „Es“.Beispiel 5.1.8 (Infinitivumformung zur Subjekterkennung).

1. Die Lärche ist ein Nadelbaum.

2. ein Nadelbaum sein / die Lärche

42

Page 43: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Abbildung 5.1: Moderne Satzgliedlehre nach [Stocker et al. 2004]

5.2 SatzSatz

Definition 5.2.1 (nach [Bussmann 2002]). Satz (engl. clause oder sentence). Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog. Konstituenten) konstruierte Redeeinheit, diehinsichtlich Inhalt, grammatischer Struktur und Intonation relativ vollständig und unabhängigist.

Definition 5.2.2 (nach [Dudenredaktion 2005]). Ein Satz ist eine Einheit, die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht. Darüber hinaus kann der Satzzusätzliche Angaben enthalten.

Moderne Satzgliedlehre

5.3 Syntaxanalyse5.3.1 KonstituenzKonstituenten und Konstituenz

Definition 5.3.1 (Konstituente nach [Bussmann 2002]). Konstituente. In der strukturellenSatzanalyse [sog. Konstituentenanalyse] Bezeichnung für jede sprachliche Einheit (Wort, Wort-gruppe) die Teil einer grösseren sprachlichen Einheit ist.

Definition 5.3.2 (Konstituentenanalyse nach [Bussmann 2002]). Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten.

Definition 5.3.3 (Konstituenz). Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Präzedenz zwischen Konstituenten.

43

Page 44: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Konstituenten in der annotate-Darstellung

!"#

$$%&

'($)(*(+,-

.#/#0

1123+

'($)($4#5(306

.#78.9#

:;<:

$,5(*(:==($)(!9

1#4>"06?0.#0

++

2#-(:==($)(*

?06

@A+

!!

&"5"=#0

++

+#?9(:==($)(*

#"0

$B@1C

!!

D

ED

!!

F#45?G/#0

1123+

'($)($4#5(306

"/4#

$$A!:B

*(:==($)

HI.)"G/=#"9#0

++

2#-(:==($)(*

8?5J?4#"J#0

113CK

!!

(

E(

!!

+@ +@ +@ +@

+$

L< L; L<

+$

A: M;

!N M;

L+$

A: !1$ M;

1$

AL

!

L<

!

L<

O P Q ' R S T U V W PO PP PQ

SOO SOP

SOQ SO'

SOR SOS

SOT

L!

unmittelbare Dominanz

Konstituente auf Wortebene

Syntaktische Konstituente

Präzedenz auf Wortebene

Präzedenz zwischen Tochterkonstituenten

Abbildung 5.2: Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung

Jedes Wort und jeder ovale Knoten repräsentiert eine Konstituente.

Konstituenten in der Balken-Darstellung

Abbildung 5.3: Konstituenz, Dominanz und Präzedenz in Balken-DarstellungQuelle: http://www.cl.uzh.ch/siclemat/lehre/negra/s2.html

Konstituenten überspannen als Balken die von ihnen dominierten Tokens.

Annotation von Nominalphrasen (NP)Hinweise

• Begleiter, attributive Adjektive werden flach eingehängt.

• Keine unären Konstituenten (d.h. keine NP-Knoten mit einem Kind!)

• Komplexe postnominale NP werden verschachtelt eingehängt.

44

Page 45: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Er sah die kleinen Hunde meiner Mutter .

NP

NP

Abbildung 5.4: Beispielsatz mit allen zu annotierenden Nominalphrasen (NP)

Annotation von Präpositionalphrasen (PP)

Er hat vor den lauten Hunden im Garten Respekt.

PP

PP

Abbildung 5.5: Beispielsatz mit allen zu annotierenden Präpositionalphrasen (PP)

Hinweise

• Die unmittelbaren Konstituenten der von der Präposition abhängigen NP werden flacheingehängt.

• Eingebettete NP kann rekonstruiert werden.

• Komplexe postnominale PP werden IMMER verschachtelt eingehängt.

Annotation von Adjektiv- und Adverbphrasen (AP/AVP)

Die recht zahme Katze schnurrte immer wieder sehr laut .

AP AVP AP

Abbildung 5.6: Beispielsatz mit allen zu annotierenden AP- und AVP-Knoten

Hinweise

• Nur modifizierte Adjektive bilden AP.

• Nur modifizierte Adverbien bilden AVP.

45

Page 46: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Er will sie gerne sehen .

VP

S

Abbildung 5.7: Beispielsatz mit allen zu annotierenden Satz- und VP-Knoten

Annotation von finite (S) und infiniten (Teil-)Sätzen (VP)Hinweise

• Finite Verben sind immer unmittelbare Konstituenten von S-Knoten.

• Jedes infinite Verb bildet eine eigene VP (keine flache Struktur hier!)

Annotation von Relativsätzen

Der Hund, den die Katze anfauchte, knurrte leise.

NP

S

NP

S

Abbildung 5.8: Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Relativsätze gehören immer in die NP, auf die sie sich beziehen!

5.3.2 Köpfe (oder Kerne) von KonstituentenSyntaktische Köpfe (engl. head) / Kern (engl. kernel)

Definition 5.3.4. Ein Kopf oder Kern einer Konstituente ist diejenige Unterkonstituente, wel-che die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der die Ge-schwisterkonstituenten abhängig sind. Der Kern ist normalerweise nicht weglassbar (Weglass-probe).

Beispiel 5.3.5 (Welches ist der Kern der geklammerten Konstituenten?).

1. Er [hält ihm den Ausweis unter die geschwollene Nase].

46

Page 47: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

2. Sie rennt [mit dem Mobile hantierend] zum Kiosk.

3. Es wird [viel zu oft] telefoniert.

4. [Die Frau, die zum Kiosk rannte, ] war aufgeregt.

5. Sie fühlte sich [wie in einem schlechten Film].

6. Aber sie war auch [in einem ziemlich schlechten Film].

Konstituententypen

Typen von Konstituenten in TIGER/NEGRA

1. (Teil-)Sätze (S): Konstituente mit finiten Verbalkernen.

2. Verbalgruppe, -phrase (VP): Konstituente mit einem nicht-finiten (!) verbalen Kern.

3. Nominalgruppe, -phrase (NP): Konstituente mit Nomen oder Pronomen als Kern.

4. Adjektivgruppe, -phrase (AP): Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern.

5. Adverbgruppe, -phrase (AVP): Konstituente mit Adverb als Kern.

6. Präpositionalgruppe, -phrase (PP): Konstituente mit Präposition oder Postposition alsKern.

7. Konjunktionalgruppe, -phrase (PP): Konstituente mit der Konjunktion “als” oder “wie”als Kern (aber nicht als Vergleichskonstruktion gebraucht): „Er fühlte sich als Gewinner.“

5.3.3 Dependenz bzw. syntaktische FunktionDependenz und syntaktische Funktion

Definition 5.3.6. Dependenz ist die syntaktische Relation der Abhängigkeit zwischen Konsti-tuenten.

Definition 5.3.7 (frei nach [Bussmann 2002]). Syntaktische Funktion ist ein Sammelbegriff fürBeschreibungsgrössen wie “Subjekt”, “Objekt”, “Prädikat”, “Adverbial”, “Attribut” u.a., welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden, um die Beziehungzwischen abhängigen Konstituenten zu bestimmen.

HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des “Kopfes” fundamental, abertraditionell wenig explizit dargestellt.

Syntaktische Funktionen in der annotate-DarstellungJedes eckige Kästchen repräsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente.

Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Zwischenschicht zwischen sich dominierenden Balken.

47

Page 48: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

!"#

$$%&

'($)(*(+,-

.#/#0

1123+

'($)($4#5(306

.#78.9#

:;<:

$,5(*(:==($)(!9

1#4>"06?0.#0

++

2#-(:==($)(*

?06

@A+

!!

&"5"=#0

++

+#?9(:==($)(*

#"0

$B@1C

!!

D

ED

!!

F#45?G/#0

1123+

'($)($4#5(306

"/4#

$$A!:B

*(:==($)

HI.)"G/=#"9#0

++

2#-(:==($)(*

8?5J?4#"J#0

113CK

!!

(

E(

!!

+@ +@ +@ +@

+$

L< L; L<

+$

A: M;

!N M;

L+$

A: !1$ M;

1$

AL

!

L<

!

L<

O P Q ' R S T U V W PO PP PQ

SOO SOP

SOQ SO'

SOR SOS

SOT

L!

Syntaktische Funktion

Konstituenten

Abbildung 5.9: Syntaktische Funktion in der NEGRA-Darstellung

Abbildung 5.10: Syntaktische Funktionen in Balken-Darstellung

Er sah die kleinen Hunde meiner Mutter .

NK NK

NP

NK NK NK AG

NP

Abbildung 5.11: Beispielsatz mit NP-internen Funktionen

Annotation von Funktionen in NP

Hinweise

• Pränominale Begleiter, attributive Adjektive und die Köpfe haben die Funktion NK (nounkernel)

• Aus NEGRA-historischen Gründen werden keine Köpfe annotiert.

48

Page 49: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

• Komplexe postnominale NP oder PP habe die Funktion MNR.

Annotation von Funktionen in PP

Er hat vor den lauten Hunden im Garten Respekt .

AC NK

PP

AC NK NK NK MNR

PP

Abbildung 5.12: Beispielsatz mit PP-internen Funktionen

Hinweise

• Die Präposition hat die Funktion AC.

• Alle andern Funktionen sind wie in NPs.

Annotation der Funktionen in AP und AVP

Die recht zahme Katze schnurrte immer wieder sehr laut .

MO HD

AP

HD MO

AVP

MO HD

AP

Abbildung 5.13: Beispielsatz mit allen AP- und AVP-internen Funktionen

Hinweise

• Köpfe (HD: head) werden von adverbialen Modifikatoren (MO: modifier) unterschieden.

Annotation der Funktionen in S und VP

Er will sie gerne sehen .

OA MO HD

VP

SB HD OC

S

Abbildung 5.14: Beispielsatz mit allen S- und VP-internen Funktionen

Hinweise

49

Page 50: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

• Finites Verb ist Kopf (HD).

• Abhängige VP ist ein Satzobjekt (OC: object clause)

• Subjekt (SB) ist immer abhängig von finitem Verb.

• Akkusativobjekt (OA) ist rein inhaltlich abhängig.

Annotation der Funktion in Relativsätzen

Der Hund , den die Katze anfauchte , knurrte leise .

NK NK

NP

OA SB HD

S

NK NK RC

NP

SB HD MO

S

Abbildung 5.15: Relativsatz mit allen internen Funktionen

Relativsätze haben die Funktion RC (relative clause).

Einige Satzglieder mit TIGER/NEGRA-Funktion

• Subjekt (SB): Infinitivprobe oder Frageprobe (Wer oder was?). Subjekt kann auch ein Soder eine VP sein!

• Akkusativ-Objekt (OA): Frageprobe (Wen oder was?) oder Ersatzprobe (“ihn”)

• Dativ-Objekt (DA): Frage- (Wem?) oder Ersatzprobe (“ihm”)

• Genitiv-Objekt (OG): Frage- (Wessen?) oder Ersatzprobe (“seiner”)

• Adverbiales und prädikatives Präpositionalglied, Adverbglied, Konjunktionalglied u.ä. (MO):Modifikator

• Nicht-finite Verbalteile (OC: object clause): Abhängig von flektiertem oder nicht-flektiertenVerb

• In TIGER: Präpositionalobjekte (OP), Funktionsverbgefüge (CVC) („in die Zuständigkeitfallen“)

50

Page 51: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Wichtige Gliedteile mit TIGER/NEGRA-Funktion

• Artikel, attributive Pronomen und Adjektiv(phrasen) (NK)

• Präpositionen und konjunktionales “als” oder “wie” (AC)

• Postnominale Präpositionalphrasen (MNR) „das Treffen in Bern“

• Genitivattribute von Nominalphrasen (AG) und Pseudogenitiv (PG) „das Haus vom Va-ter“

• Platzhalter (PH) und wiederholte Elemente (RE)

• Koordinierende Konjunktion (CD) und die koordinierten Konstituenten (CJ)

5.3.4 KoordinationKoordination, Konstituenz und Köpfe

Definition 5.3.8. Koordination (Beiordnung) ist eine syntaktische Struktur, welche aus zweioder mehr Konjunkten (Wörter, Wortgruppen oder Sätzen) besteht.

Beispiel 5.3.9 (Koordination von Konstituenten aus NEGRA-Korpus).

• Selbst die flotteren Passagen werden nie ausgelassen und fröhlich. [Satz 35]

• Oder saß es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre?[Satz 9328]

• Wenn es eine Organisation gibt, der vertraut wird und die etwas erreichen kann, ist dasdie Kirche. [Satz 11’978]

ProblemWas ist der Kopf von koordinierten Konstituenten? Die Konjunktion oder eine der koordiniertenPhrasen?

Lösung in TIGER/NEGRA: Es gibt die Koorinations-Konstituenten CS, CNP, CAP usw.

Annotation von koordinierten Konstituenten

Hinweise

• Koordinierte Konstituenten haben immer die Funktion CJ.

• Konjunktionen haben die Funktion CD.

51

Page 52: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Er mag junge und freche Katzen und Hunde .

CJ CD CJ

CAP

NK NK

NP

CJ CD CJ

CNP

Abbildung 5.16: Beispielsatz mit koordinierten Strukturen

5.4 Baumbanken5.4.1 NEGRA/TIGERNEGRA- und TIGER-Baumbanken

• NEGRA (1997-2001): Die 1. Baumbank für Deutsch (20’000 Sätze) III

• TIGER (1999-2006): “Nachfolgeprojekt” (50’000 Sätze im Release 2.1 2006) inklusive Lem-matisierung und Morphologieanalyse http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERCorpus/

Eigenheiten von NEGRA/TIGER

• PP und NP werden mit flacher Hierarchie verbaut

• Ketten von infiniten Verben (VP) sind zu verschachteln

• Syntaktische Phrasenknoten werden nur für Wortgruppen gebildet, nie für Einzelwörter

• Keine annotierten Köpfe in NP

• Keine explizite Unterscheidung der Satztypen

5.4.2 TIGERSearchTIGERSearch: Ein modernes SuchwerkzeugLernen aus BeispielenBeim Annotieren ist es hilfreich, aus bereits annotiertem Material zu lernen!

Die 3 Hauptfunktionen von TIGERSearch

Abfrage-Sprache (investigation)

Visualisierung der Suchresultate und Baumbank (exploration)

Einfache statistische Auswertung (condensation)

52

Page 53: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Grundlegende SuchrezepteEckige Klammern stehen für Konstituenten (Knoten) eines Syntaxbaumes. Beschreibungen aufder Ebene der Wörter (word), Wortarten (pos), Phrasen (cat) spezifizieren darin die möglichenTreffer.

• Wie wird das Wort “der” verwendet? [ word="der" ]

• Mit welchen Wortarten kommt das Wort “der” wie oft vor? #w:[ word="der" ](#w:brauchts für das Statistikmodul als Knoten-Identifikator)

• Welche Adverbien kommen vor? #w:[ pos="ADV" ]

• Welche koordinierten NP kommen vor? #p:[ cat="CNP" ]

• Welche Dativobjekte kommen vor? [ ] >DA #da:[ ]

Aha-Erlebnis[] > []: unmittelbare Dominanz[] . []: lineare Präzedenz

5.5 Vertiefung• Pflichtlektüre: Das Kapitel Baumbanken in Carstensen (2009).

• Detailliertes Annotationshandbuch von TIGER: http://tinyurl.com/tiger-hs10-syn

• Annotierte TIGER-Sätze in Balkendiagramm-HTML-Darstellung: http://www.cl.uzh.ch/siclemat/lehre/tiger

• Quiz Die Form der Satzglieder http://kitt.cl.uzh.ch/kitt/clab/QUIZ/97

• Quiz Satzglieder und Proben http://kitt.cl.uzh.ch/kitt/clab/QUIZ/104

• Konzise Einführung in die Deutschgrammatik: [Gallmann und Sitta 2010]

• Anleitung zu TIGERSearch mit Bildern http://www.bubenhofer.com/korpuslinguistik/kurs/index.php?id=weitere_tiger.html

• Sofortbenutzung via X11: ssh -Y [email protected] (ev. -Y durch -X er-setzen; kein VPN erforderlich)

53

Page 54: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

6 Flache SatzverarbeitungLernziele

• Kenntnis über POS-Tagger, ihre Aufgabe und Probleme sowie über wichtige POS-Tagsets

• Kenntnis über grundlegende Evaluationsmethodik und -anwendung

• Fähigkeit zur Berechnung von Accuracy, Precision, Recall, F-Measure für Tagger

• Kenntnis über partielle syntaktische Analyse

• Kenntnis über flache und verschachtelte Chunks

6.1 Wortarten-TaggingWortarten-TaggingDefinition 6.1.1 (Wortarten-Tagger). Ein Wortarten-Tagger (engl. Part-of-Speech Tagger,kurz POS-Tagger) ist ein Programm, das für jedes Token eines Korpus die Wortart bestimmt,indem es ein Klassifikationskürzel als Tag zuordnet.Beispiel 6.1.2 (Zeilenformat mit Schrägstrich).Sonderrechte/NN für/APPR Minoritätenkollektive/NN widersprechen/VVFIN . . .

N-Best-TaggingBraucht Tagger, welche die wahrscheinlichsten n Wortarten zurückliefern (ev. mit der Wahr-scheinlichkeit) für ein Token.

Nutzen und Anwendung des POS-TaggingDefinition 6.1.3 (POS-Tagging (automatische Wortartenbestimmung)). POS-Tagging ist ei-ne eigenständige und vielfältig benötigte sprachtechnologische Anwendung, welche effizient undzuverlässig funktioniert. Anwendungen: Lemmatisierung, Lexikographie, Sprachsynthese, Spra-cherkennung, Dokumentensuche, Bedeutungsdesambiguierung usw.Beispiel 6.1.4 (Sprachsynthese/Bedeutungsdesambiguierung).

• lead: Verb /li:d/ (führen); Nomen: /led/ (Blei)

• increase: Nomen /’inkri:s/ (Anstieg); Verb /inkr’i:s/ (ansteigen)

Beispiel 6.1.5 (Lemmatisierung).

• eine/ART Kuh: Lemma “ein”

• eine/VVIMP dich mit ihm!: Lemma “einen”

Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe.

54

Page 55: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Tag-Sets für Englisch

Definition 6.1.6 (Tag-Set). Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische, syntaktische oder morphologische Information. Die Grösseeines Tag-Sets kann stark variieren.

Tag-Set Grösse Beispiel BedeutungBrown 87 (179) she/PPS Pronoun, personal, subject, 3SGPenn 45 she/PRP Pronoun (personal or reflexive)CLAWS c5 62 she/PNP Pronoun personalLondon-Lund 197 she’s/RA*VB+3 pronoun, personal, nominative + verb "to

be", present tense, 3rd person singular

Tabelle 6.1: Übersicht: Tag-Sets für Englisch

Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set für Englisch ist eine vereinfachte Version des Brown-Tag-Sets, welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist.

Anforderungen an ein Programm für TaggingPositive Eigenschaften eines Taggers nach [Cutting et al. 1992, 133]:

• Robust: Der Tagger verarbeitet beliebigen Input (inkl. unbekannte Wörter, Sonderzeichen,Markup).

• Effizient: Der Tagger arbeitet schnell.

• Genau: Der Tagger arbeitet mit einer geringen Fehlerrate (< 5%).

• Anpassbar: Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den.

• Wiederverwertbar: Der Tagger kann leicht für neue Aufgabengebiete eingesetzt werden.

Was fehlt?

6.1.1 Probleme des TaggingsWortformen mit mehreren möglichen Tags

MehrdeutigkeitIm Brown-Corpus sind 11% aller Wortformen ambig. Das entspricht jedoch 40% der Token.

Baseline (Basis-Algorithmus)Nimm für jedes Wort das Tag, mit dem es am häufigsten vorkommt. Ergibt ca. 90% richtigeEntscheidungen.

OptimierungspotentialBerücksichtige den linken Kontext (Tags und/oder Wörter) und ev. den rechten Kontext (Wör-ter), um die Baseline-Entscheidung umzustossen.

55

Page 56: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Tag-Ambiguität im Englischen

Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet:

• die möglichen Tags von wn aus Tagger-Lexikon

• die bereits berechneten Tags der beiden vorangehenden Tokens

NLTK-Buch [Bird et al. 2009, 204]

Abbildung 6.1: Kontextmodell des Trigramm-Taggers tnt

Mehrdeutigkeit bei deutschen WörternBeispiel 6.1.7 (Verteilung der Mehrdeutigkeit).Vorkommen in einem Korpus von ca. 80’000 Token

die ART 2351 PRELS 448 PDS 4Mehrheit NN 40bestimmt VVPP 7 VVFIN 4 ADV 1 ADJD 1

Mehrdeutigkeit in einem deutschen Testkorpus (STTS)Dem Tagger unbekannte Wortformen haben die Ambiguitätsrate 0.

Welches mehrdeutige Wort hat dieses Profil?

Unbekannte WörterKein Tagger-Lexikon kann vollständig sein (Eigennamen, Komposita, Zahlausdrücke). Wie kannein Tagger sinnvolle Vorschläge machen?

• Unterscheidung zwischen offenen und geschlossenen Wortarten

56

Page 57: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Abbildung 6.2: Ambiguitätsraten aus der Frankfurter Rundschau [Volk und Schneider 1998]

STTS-Tag Vorkommen1

? 4413APPR 2084PTKA 279

PTKVZ 244ADV 125

• Daumenregeln aufgrund des Baus der unbekannten Wortformen: Wortende/Wortbeginn,Ziffern. Typischerweise N-Gramme von Wortsuffixen.

Beispiel 6.1.8 (Morphologische Heuristiken für Englisch).

• 98% aller Wörter mit Endung -able sind Adjektive.

• Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname.

6.1.2 Fallstudie TnT-TaggerFallstudie: TnT-Tagger trainieren und evaluieren

Fallstudie TnT-Tagger: Anpassbarkeit konkretEin Kochrezept fürs Terminal . . . [Clematide 2007]

1. Man nehme ein getaggtes Korpus (vertikalisierter Textformat)

$ head -n 3 uis-vonabisz.ttsStudienführer NN" $(Universität NN$ wc uis-vonabisz.tts9677 18154 105188 uis-vonabisz.tts

2. Man nehme 9/10 davon als Trainingskorpus, indem alle bis auf die letzten 968 Zeilen ineine neue Datei geschrieben werden.

$ head --lines -968 uis-vonabisz.tts > training.tts

57

Page 58: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Testkorpustest.ttstest.txt

Trainingskorpustraining.tts

Getaggtes Korpus

Aufteilen des Korpus

Taggingtnt

Trainingtnt-para

Parameter-Dateien

training.lextraining.123

Evaluations-korpus

eval.tts

Evaluationtnt-diff

Abbildung 6.3: Training, Tagging und Evaluation mit dem TnT-Tagger

3. Man nehme die restlichen 1/10 als Testkorpus, indem die letzten 968 Zeilen in eine neueDatei geschrieben werden.

$ tail --lines 968 /uis-vonabisz.tts > test.tts

4. Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus

$ tnt-para training.tts

5. Man schmecke ab, ob der Tagger was Vernünftiges tut.

$ tnt training /dev/stdin > out.ttsDerTaggerläuft. [mit Control-D für Dateiende abschliessen$ more out.tts

6. Man erstelle das Evaluationskorpus.

$ cut -f 1 test.tts > eval.txt

7. Man tagge das Evaluationskorpus mit dem Trainingsmodell.

$ tnt training eval.txt > eval.tts

8. Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus.

$ tnt-diff test.tts eval.tts

58

Page 59: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

6.2 EvaluationEvaluation

Definition 6.2.1. Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode.

Definition 6.2.2 (Qualität einer Evaluation). Die Qualität einer Messmethode basiert auf ihrerValidität und Reliabilität.

Definition 6.2.3 (Validität, Gültigkeit, Angemessenheit). Die Validität einer Messmethodesagt aus, ob das, was gemessen werden soll (Messintention) auch das ist, was effektiv gemessenwird.

Definition 6.2.4 (Reliabilität, Zuverlässigkeit, Genauigkeit). Die Reliabilität einer Messme-thode sagt aus, wie genau und reproduzierbar die Messresultate sind.

Überlegungen zu Reliabilität und ValiditätMessintentionEs soll das Verständnis von Studierenden für reguläre Ausdrücke mittels eines Multiple-Choice-Tests geprüft werden.

Überlegung IWie müssen die Fragen des Multiple-Choice-Tests beschaffen sein, damit die Reliabilität undValidität hoch ist?

Überlegung IIWas passiert bezüglich der Qualität der Evaluation, wenn derselbe Test von der gleichen Personmehrmals gemacht wird?

6.2.1 ZweckZweck von EvaluationenSystemverbesserungVon System A wird eine neue Version A’ erstellt, wobei eine Komponente Z modifiziert wordenist. Die Evaluation von System A gegenüber A’ hilft einzuschätzen, inwiefern die KomponenteZ das System optimiert.

SystemvergleichUm ein Problem P zu lösen, steht ein System A und ein System B zur Verfügung. Die Evaluationanhand einer Testaufgabe T zeigt auf, welches System besser ist.

6.2.2 AccuracyPOS-Tagger-Evaluation: Genauigkeit

Definition 6.2.5 (Genauigkeit, engl. accuracy). Die Tagging-Genauigkeit über einem Text mitN Token ist der Anteil der korrekt getaggten Token.Formal: Sei E die Anzahl von falsch getaggten Vorkommen von Token:

accuracy = N − EN

59

Page 60: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Beispiel 6.2.6 (Genauigkeitsberechnung von TnT-Tagger).Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 96.7%.Wieviele Tags im Testkorpus von 100’000 sind falsch?Wenn man nur mit 1’000 Tokens trainiert, sind im Schnitt etwa 31’400 Fehler im Testkorpusvon 100’000 Tokens. Wie hoch ist die Genauigkeit?

Häufigste Tagging-Fehler von TnT im NEGRA-Korpus

Legende zur Tabelle 6.2Tagt: Korrektes Label; Tagf : Falsch getaggtes LabelFreqt: Vorkommenshäufigkeit des korrekten Labels; Freqf : Vorkommenshäufigkeit des falschenLabelsErel.: Relative Fehlerquote, d.h. Anteil dieses Fehlers am GesamtfehlerAnt.: Anteil der falschen Tags an den korrekt erkannten

Tagt Freqt Tagf Freqf Ant. Erel. Eabs.

NE 15069 NN 2092 13.9 19.6 0.74VVFIN 11595 VVINF 667 5.8 6.3 0.23NN 58563 NE 615 1.1 5.8 0.22VVFIN 11595 VVPP 425 3.7 4.0 0.15ADJA 16843 NN 270 1.6 2.5 0.10

Tabelle 6.2: Übersicht: NEGRA-Konfusionsmatrix [Brants 1999, 112]

Genauigkeit unter 10-facher Kreuzvalidierung

Definition 6.2.7 (10-fache Kreuzvalidierung, engl. ten-fold cross-validation). Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt. In 10 Testläufen wirdjeweils 1/10 der Daten als Testmaterial verwendet und die restlichen 9/10 der Daten als Trai-ningsmaterial. Zufallsbedingte besonders gute oder schlechte Resultate werden damit „neutra-lisiert“.Beispiel 6.2.8 (Durchschnittliche Genauigkeit (average accuracy)).

accuracy =∑i=10

i=1 accuracyi

10

Generalisierung von 10 auf kDie Verwendung von 10 hat sich als bewährte Praxis etabliert. Im Prinzip wäre mit k > 10 dasMittel noch genauer.

6.2.3 Lernkurven6.2.4 RecallRecall (Ausbeute, Abdeckung, Vollständigkeit)

Definition 6.2.9. Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen möglichen korrekten Antworten an.

60

Page 61: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

!"#$%!&'()#*+,-'+!%.,/&!!"#!! !!$%&'()*+!,'-+)(.)-)/()/0-1!2-')!&3!.4**0%!$-55/+5

!"#$!%&!'())*+,-"../0.,1/$+,-0-2,!)00,-#))3"04

56)#"77

80%10

9040%10

6/+!!7!89:;<

6-=!7!>;:8<

6/+!!7!>#:?<

6-=!7!>8:@<

6/+!!7!;?:?<

6-=!7!9#:#<

2*++!$'**A-+BC!"D?!6/11/&+!)&B*+(!+*E(4-4*'!)*=)!FG-11!.)'**)!H&I'+-1J!

'-+K&61L!(*1*0)*K!)'-/+/+5!FM-'/-A1*!(/N*J!-+K!)*()!4-')(!F"@@D@@@!)&B*+(J

"@!/)*'-)/&+(!3&'!*-0%!)'-/+/+5!(/N*O!)'-/+/+5!-+K!)*()!4-')(!-'*!K/(P&/+):

Q&!&)%*'!(&I'0*(!E*'*!I(*K!3&'!)'-/+/+5:

" ? # "@ ?@ #@ "@@ ?@@ #@@ "@@@#@

;@

8@

9@

>@

"@@

R?:9 ?;:9 ?@:? "S:? >:9 8:@ R:R ?:>#@:S

$'-+/+5!./N*!F=!"@@@J

TM5:!<!U+B+&E+

TM5:!T00I'-0L

SS:R

!"#$%!&'()#*+,-'+!%.,/&!!";!! !!$%&'()*+!,'-+)(.)-)/()/0-1!2-')!&3!.4**0%!$-55/+5

:"/6),6;<,'$"$)!%&!$+)!=#$,>??,=((#%"*+

"!Q-/M*!-44'&-0%C

!!!!!,/5'-6!6&K*1!F3/'()!&'K*'!VWWJ

!!!!!.6&&)%/+5C!-KK/)/&+!&3!c 7!@:#!)&!N*'&!3'*XI*+0/*(!!!!!U+B+&E+!E&'K(C!)-5!K/()'/AI)/&+!*()/6-)*K!3'&6!-11!E&'K(

!!!!!Q&!(*+)*+0*!A&I+K-'L!-+K!0-4/)-1/N-)/&+!/+3&

"!.)-)*!&3!)%*!T')C

!!!!!$'/5'-6!6&K*1!F(*0&+K!&'K*'!VWWJ

!!!!!.6&&)%/+5C!Y&+)*=)!/+K*4*+K*+)!1/+*-'!/+)*'4&1-)/&+

!!!!!U+B+&E+!E&'K(C!(I33/=!-+-1L(/(!-+K!(I00*((/M*!-A()'-0)/&+

!!!!!TI)&6-)/0!6&K*1/+5!&3!(*+)*+0*!A&I+K-'/*(!-+K!0-4/)-1/N-)/&+

+-/M*!!!!()-)*!&3!)%*!-')!!!!!!!!!∆G.H FZ+51/(%J!!!!!!>#:@< !!!!>;:8< ![":8<

QZ\]T F\*'6-+J!!!!!>?:R< !!!!>;:8< ![R:S<

Abbildung 6.4: Tnt-Evaluation an Penn Treebank durch Thorsten Brants

Formal: Sei Nt die Anzahl aller möglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems.

R = At

Nt

Beispiel 6.2.10 (Recall eines Taggers).Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziert.At = 600 und Nt = 800. Der Recall berechnet sich als: R = 600

800 = 75%

6.2.5 PrecisionPrecision (Genauigkeit, Präzision)

Definition 6.2.11. Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems an.Formal: Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems.

P = At

A

Beispiel 6.2.12 (Precision eines Taggers).Ein Tagger hat in einem Testkorpus 1’000 Token als VVFIN klassifiziert, aber nur 600 davon

61

Page 62: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

!"#$%!&'()#*+,-'+!%.,/&!!"#!! !!$%&'()*+!,'-+)(.)-)/()/0-1!2-')!&3!.4**0%!$-55/+5

!"#$%#&'()

"!67-18-)/&+!8(/+5!)9&!0&'4&'-:

!!!!!;6<=>!?&'48(:!@'-+A38')*'!=8+B(0%-8!C<*'D-+!+*9(4-4*'!)*E)(F

!!!!!2*++!$'**G-+A:!H-11!.)'**)!I&8'+-1

"!J/(K&/+)!)'-/+/+5!-+B!)*()!4-')(L!"M!3&1B!0'&((!7-1/B-)/&+

"!$-55/+5!-008'-0N:!4*'0*+)-5*!&3!0&''*0)1N!-((/5+*B!)-5(!9%*+!-((/5+/+5

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!&+*!)-5!)&!*-0%!)&A*+

"!$-55/+5!-008'-0N!B*4*+B/+5!&+!)%*!(/O*!&3!)%*!)'-/+/+5!(*)

!"#$%!&'()#*+,-'+!%.,/&!!"P!! !!$%&'()*+!,'-+)(.)-)/()/0-1!2-')!&3!.4**0%!$-55/+5

*#+&!(,!-.//0123#44')425'&123)3627!89:2;(+.%<

="/+#$$

>)(5)

?)@)(5)

D/+!!Q!RST"U

D-E!Q!VWTRU

D/+!!Q!VXTRU

D-E!Q!VRTRU

D/+!!Q!W"TYU

D-E!Q!SVTMU

;6<=>!0&'48(:!#XMLMMM!)&A*+(!+*9(4-4*'!)*E)!C@'-+A38')*'!=8+B(0%-8F

'-+B&D1N!(*1*0)*B!)'-/+/+5!C7-'/-G1*!(/O*F!-+B!)*()!4-')(!C#MLMMM!)&A*+(F

"M!/)*'-)/&+(!3&'!*-0%!)'-/+/+5!(/O*Z!)'-/+/+5!-+B!)*()!4-')(!-'*!B/(K&/+)

;&!&)%*'!(&8'0*(!9*'*!8(*B!3&'!)'-/+/+5T

" Y X "M YM XM "MM YMM #YMXM

WM

RM

SM

VM

"MM

$'-+/+5!./O*!CE!"MMMF

>75T!U![+A+&9+

>75T!>008'-0N

PWTP P"TP #WTM #MTR Y#TM "ST# "PT# ""TVXMTS

C(**!%))4:\\999T0&1/T8+/!(GTB*\])%&'()*+\)+)\FAbbildung 6.5: Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants

waren tatsächlich VVFIN.At = 600 und A = 1000. Die Precision berechnet sich als: P = 600

1000 = 60%

6.2.6 F-MeasureF-Measure (F-Mass)

Definition 6.2.13 (F1-Measure). Das F-Measure ist ein Evaluationsmass, das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnet.Formal: Sei P die Precision und R der Recall eines Systems:

F = 2× P ×RP +R

Beispiel 6.2.14 (F-Mass eines Taggers).Ein Tagger hat in einem Testkorpus eine Präzision von 60% und ein Recall von 75% für VVFIN.Das F-Measure berechnet sich somit: F = 2×0.6×0.75

0.6+0.75 = 66.6%

6.3 Chunk ParsingPartielle syntaktische Analyse

62

Page 63: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Definition 6.3.1. Eine partielle syntaktische Analyse (flache Analyse, engl. shallow parsing)berechnet für einen Satz keine vollständige Analyse bezüglich Konstituenz und Dependenz.Gewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt.

Abbildung 6.6: Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid

Chunking-Regeln schreiben in Pfeilnotation

Abbildung 6.7: Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid

Wie kann man die zulässigen Chunks beschreiben?NC -> ART NN

• NC : Ein NC (Nominalchunk) besteht

• ->: besteht aus

• ART: aus einem Wort der Wortart ART (Artikel)

• NN: gefolgt von einem Wort der Wortart NN (normales Nomen)

6.3.1 Abneys Chunk-DefinitionChunks (Teilstrukturen) nach [Abney 1991]Beispiel 6.3.2 (Chunks nach Abney).[I begin] [with an intuition]: [when I read] [a sentence], [I read it] [a chunk] [at a time].

Motivationen

63

Page 64: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

• Intonation: sprachliche Einheiten mit jeweils 1 stärkeren Betonung

• Effizienz: Teilstrukturen lassen sich effizienter berechnen.

• Minimaler Aufwand: Für gewisse Anwendungen braucht es keine vollständige syntaktischeAnalyse.

• Robustheit: Für syntaktisch fehlerhaften Input braucht es fehler-tolerante, oberflächlichereAnalysemethoden.

6.3.2 IOB-ChunkFlache Chunks im IOB-Format

Definition 6.3.3 (IOB-Chunks). IOB-Chunks beschreiben eine flache syntaktische Schicht überdie getaggten Wortformen, welche in Form von Chunk-Tags auf die Token abbildbar ist.

• B-K : Anfang einer Chunk-Konstituente K

• I-K : Fortsetzung der Chunk-Konstituente K

• 0: Nicht zugeordnet (wird auch chink genannt)

We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP

6.3.3 Verschachtelte ChunksVerschachtelte Chunks

Definition 6.3.4 (Verschachtelte Chunks). Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe. Rekursive Verschachtelung, z.B. ein Nominal-Chunk inner-halb eines Nominal-Chunks, ist normalerweise nicht möglich.

Beispiel 6.3.5 (Chunk Parsing Output mit Verschachtelungstiefe 3).

64

Page 65: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

[PX [APPR für][NX [ARTIND eine]

[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]

Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert, gebräuchlich sind auch NX oder NC.

6.4 VertiefungZum Thema „POS-Tagging“ und „Chunk Parsing“:

• Pflichtlektüre: [Carstensen et al. 2009, 3.4.2-3]

• Lerneinheit “Chunk Parsing” im CLab: http://www.cl.uzh.ch/clab/chunking/

6.4.1 KontrollfragenKontrollfragen

• Was sind 2 typische Szenarien für systematische Evaluation von Systemen?

• Was unterscheidet Recall und Precision von Accuracy?

• Was sind typische Fehlerquoten und Fehlerquellen für STTS-Tagging?

• Wieviel Trainingsmaterial braucht es für eine Tagginggenauigkeit von etwa 95% für eng-lische oder deutsche Zeitungstexte?

• Was ist der Vorteil der IOB-Notation?

6.5 Exkurs: Evaluation binärer KlassifikatorenLernziele

• Kenntnis über True Positive, True Negative, False Positive sowie False Negative

• Kenntnis über Fehlertypen und ihre Gefahr

• Kenntnis über Unterschiede von Recall, Precision, F-Measure und Accuracy in Form derTP:FP:FN:TN-Darstellung

6.5.1 True/False Positives/NegativesEvaluation von binären KlassifikatorenLegende zur Tabelle 6.3True Übereinstimmung zwischen “Test” und “Truth”

False Keine Übereinstimmung zwischen “Test” und “Truth”

FP Fehlertyp I: Test ist positiv, wo er nicht sollte.

FN Fehlertyp II: Test ist negativ, wo er nicht sollte.

65

Page 66: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

TruthPositive Negative

Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)

Tabelle 6.3: Schema zum Abgleich von Test-Klassifikator und Wahrheit

6.5.2 FehlerparadoxeProblem der Fehlerabschätzung IBeispiel 6.5.1 (FP: Fehlertyp I). Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion, welche nur in 1 von 100’001 Sätzen auftaucht, findet zwar alle vorhandenen Kon-struktionen, liefert aber leider 1% Falsch-Positive. D.h die Korrektheit (accuracy) ist 99%.Wie wahrscheinlich ist es, dass der Test tatsächlich eine gesuchte Konstruktion gefunden hat,wenn er ein positives Resultat vermeldet?

Man überlege:Wie oft wird ein positives Testresultat bei 100’001 Sätzen gemeldet? Wieviele TP sind im Schnittdarunter?

Problem der Fehlerabschätzung IIBeispiel 6.5.2 (FN: Fehlertyp II). Ein syntaktischer Test zur Identifizierung einer häufigen Kon-struktion, welche in 80’000 von 100’000 Sätzen auftaucht, findet 12.5% der Fälle nicht, produziertjedoch keine falschen Treffer.Wie wahrscheinlich ist es, dass ein Satz die Konstruktion trotzdem enthält, obwohl der Test einnegatives Resultat vermeldet?

Man überlege:Wie oft wird ein negatives Testresultat bei 100’000 Sätzen gemeldet? Wieviele FN sind darunter?

6.5.3 Unterschiede von EvaluationsmassenDualität von Precision und Recall

TruthPos Neg

Test Pos TP FPNeg FN TN

R = TP

TP + FN

Tabelle 6.4: Recall

Recall ignoriert FP. Je weniger falsche Negative, desto höher der Recall.Precision ignoriert FN. Je weniger falsche Positive, desto höher die Precision.

66

Page 67: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

TruthPos Neg

Test Pos TP FPNeg FN TN

P = TP

TP + FP

Tabelle 6.5: Precision

F-Measure vs. Accuracy

TruthPos Neg

Test Pos TP FPNeg FN TN

F = 2× TP2× TP + FP + FN

Tabelle 6.6: F1-Measure

F-Measure ignoriert TN. TP interessieren eigentlich.

TruthPos Neg

Test Pos TP FPNeg FN TN

Accuracy = TP + TN

TP + TN + FP + FN

Tabelle 6.7: Accuracy

Accuracy ignoriert nichts. TP und TN interessieren gleichwertig.

6.5.4 Mitteln von Recall und PrecisionF-Measure: Harmonisches vs. arithmetisches Mittel

6.5.5 Vertiefung• Artikel zum Harmonischen Mittel in [Wikipedia 2007]

67

Page 68: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Abbildung 6.8: F = 2×P ×RP +R : y/x-Achse: Recall F-Mass [F-Mass 2006]

68

Page 69: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Abbildung 6.9: M = P +R2 : Arithmetisches Mittel

69

Page 70: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

7 Chunk-Parsing (Intensiv-Wochenende)

7.1 ChunkingVolle syntaktische Analyse

Definition 7.1.1. Eine volle syntaktische Analyse (engl. deep parsing) berechnet für einen Satzdie Konstituenz und Dependenz.

Abbildung 7.1: Volle Syntaxanalyse

Partielle syntaktische Analyse

Definition 7.1.2. Eine partielle syntaktische Analyse (flache Analyse, engl. shallow parsing)berechnet für einen Satz keine vollständige Analyse bezüglich Konstituenz und Dependenz.Gewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt.

7.1.1 MotivationChunks (Teilstrukturen) nach [Abney 1991]Beispiel 7.1.3 (Chunks nach Abney).[I begin] [with an intuition]: [when I read] [a sentence], [I read it] [a chunk] [at a time].

Motivationen

• Intonation: sprachliche Einheiten mit jeweils 1 stärkeren Betonung

70

Page 71: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Abbildung 7.2: Partielle Syntaxanalyse (CONLL 2000)

Volle Analyse Partielle AnalyseExakte Strukturierung Grobe GruppierungBenötigt für genaue Bedeutungsberech-nung

Ausreichend für gängige sprachtechnologi-sche Anwendungen

Aufwendiger zu berechnen (besonders beilangen Sätzen)

Extrem schnelle Verfahren (Endliche Auto-maten)

„All grammars leak“ (Sapir) (gibt nicht im-mer eine Lösung)

Robuste Verfahren (gibt immer eine Lö-sung)

Je grösser die Abdeckung einer Gramma-tik, umso höher die Mehrdeutigkeit

Weniger Mehrdeutigkeit

• Effizienz: Teilstrukturen lassen sich effizienter berechnen.

• Minimaler Aufwand: Für gewisse Anwendungen braucht es keine vollständige syntaktischeAnalyse.

• Robustheit: Für syntaktisch fehlerhaften Input braucht es fehler-tolerante, oberflächlichereAnalysemethoden.

Volle vs. Partielle Analyse

Verwendung von ChunkingChunking wird normalerweise auf part-of-speech-getaggten Sätzen gemacht.

• Vorstufe für vollständige syntaktische Analyse

• Text-To-Speech-Systeme: Gruppierung für Pausenberechnung

• Automatisches Extrahieren von Verwendungs-Mustern von Verben für die Lexikographie

• Informationextraktion

71

Page 72: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Abbildung 7.3: Informationsextraktion über gechunktem Text

7.2 NLTK-Chunkparser7.2.1 AufstartenAufstarten des NLTK ChunkParsersNLTK-Chunkparser (nur für NPs!)Einfache Entwicklungsumgebung, um Chunk-Grammatiken zu schreiben und zu evaluieren an-hand von NP-Chunks aus der CONLL-Shared-Task. http://www.cnts.ua.ac.be/conll20001

Aufstarten

$ python>>> import nltk>>> nltk.app.chunkparser()

Chunking-Regeln schreiben für NLTK-NP-ChunkParser

Abbildung 7.4: Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid

Wie kann man die zulässigen NP Chunks beschreiben?{<NN> <NN> <NNS>}

• NP : Ein NP (Nominalchunk)

• {...}: besteht aus

• <NN>: aus einem Wort der Wortart NN (Nomen)1In unserer TIGERSearch-Distribution als Korpus CONLL-TRAIN verfügbar.

72

Page 73: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

• <NN>: gefolgt von einem weiteren Wort der Wortart NN (Nomen)

• <NNS>: gefolgt von einem Wort der Wortart NNS (Nomen im Plural)

Chunks werden hier nur auf der Ebene der Wortarten (PoS-Tags) der Wörter spezifiziert. Darumheissen sie PoS-Tag-Patterns.

7.2.2 StrategienMehrere Tag-Patterns nacheinander anwenden

• Zuerst lange Patterns anwenden

• danach kurze (Teil)-Patterns

{<DT> <JJ> <NN>} # ... ist ein NP-Chunk{<NN>} # Ein einzelnes Nomen ist ein NP-Chunk,

# falls nicht bereits Teil eines Chunks.

Reguläre Operatoren in Tag-PatternsÜbliche Matching-Strategien

• Eifrig: Von links nach rechts

• Gierig: Longest Matches

{<DT>? <JJ>+ <NN> } # Was beschreibt das?

Zeichen mit SpezialbedeutungAchtung: Schütze Zeichen mit Sonderbedeutung in regulären Ausdrücken, um das normale Zei-chen zu bezeichnen: z.B. <PRP\$>

Tag-Patterns mit KontextChunk-Gruppierung nur in bestimmten KontextenDie Anwendung einer Gruppierung lässt sich auf bestimmte Kontext einschränken. Links un-d/oder rechts von den geschweiften Klammern können Tag-Patterns stehen.

<VBP> {<VBG><NN>} # Gruppiere VBG NN nur zu NP,# wenn vorher ein VBP steht.

ChinkingIdeeManchmal ist es einfacher zu sagen, was nicht im Chunk sein soll, nämlich die Chinks. Chink-Regeln brechen Stücke aus bestehenden Chunks heraus.

Reguläre Ausdrücke innerhalb einer Tag-Angabe

{ <.*>+ } # Chunke alles im Satz zusammen# . steht für einen Buchstaben ausser >

} <VBD | IN>+ { # Chinke Folgen von VBD oder IN

73

Page 74: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Semantik der Chinking-Regel

>>> cp = nltk.RegexpParser('CHUNK: {<V.*> <TO> <V.*>}')>>> brown = nltk.corpus.brown>>> for sent in brown.tagged_sents():... tree = cp.parse(sent)... for subtree in tree.subtrees():... if subtree.node == 'CHUNK': print subtree...(CHUNK combined/VBN to/TO achieve/VB)(CHUNK continue/VB to/TO place/VB)(CHUNK serve/VB to/TO protect/VB)(CHUNK wanted/VBD to/TO wait/VB)(CHUNK allowed/VBN to/TO place/VB)(CHUNK expected/VBN to/TO become/VB)...(CHUNK seems/VBZ to/TO overtake/VB)(CHUNK want/VB to/TO buy/VB)

find_chunks() "CHUNK: {<V.*> <TO><V.*>}"

"NOUNS:{<N.*>{4,}}"

Chinking

barked/VBD at/IN

[ the/DT little/JJ yellow/JJ dog/NN ] barked/VBD at/IN [ the/DT cat/NN ]

Entire chunk Middle of a chunk End of a chunk

Input [a/DT little/JJ dog/NN] [a/DT little/JJ dog/NN] [a/DT little/JJ dog/NN]

Operation Chink “DT JJ NN” Chink “JJ” Chink “NN”

Pattern }DT JJ NN{ }JJ{ }NN{

Output a/DT little/JJ dog/NN [a/DT] little/JJ [dog/NN] [a/DT little/JJ] dog/NN

268 | Chapter 7: Extracting Information from Text

7.3 Evaluationsmasse7.3.1 RecallRecall (Ausbeute, Abdeckung, Vollständigkeit)

Definition 7.3.1. Recall gibt den Anteil der korrekt gefundenen Chunks gemessen an allenmöglichen korrekten Chunks an.

R = | Gefundene korrekte Chunks || Alle korrekten Chunks |

Beispiel 7.3.2 (Recall eines Chunkers).Ein Chunker hat von 800 vorhandenen NPs in einem Testkorpus 600 korrekt als NP klassifiziert.At = 600 und Nt = 800. Der Recall berechnet sich als: R = 600

800 = 75%

7.3.2 PrecisionPrecision (Genauigkeit, Präzision)

Definition 7.3.3. Precision gibt den Anteil der korrekt gefundenen Chunks gemessen an allengefundenen Chunks.

P = | Gefundene korrekte Chunks || Alle gefundenen Chunks |

Beispiel 7.3.4 (Precision eines Chunkers).Ein Chunker hat in einem Testkorpus 1’000 Chunks als NP klassifiziert, aber nur 600 davonwaren tatsächlich NP.At = 600 und A = 1000. Die Precision berechnet sich als: P = 600

1000 = 60%

7.3.3 F-MeasureF-Score oder F-Measure (F-Mass)

74

Page 75: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Definition 7.3.5 (F1-Measure). Das F-Measure verrechnet Precision und Recall gleichgewich-tet zum harmonischen Mittelwert.Formal: Sei P die Precision und R der Recall eines Systems:

F = 2× P ×RP +R

Beispiel 7.3.6 (F-Mass eines Chunkers).Ein Chunker hat in einem Testkorpus eine Präzision von 60% und ein Recall von 75% für NPs.Das F-Measure berechnet sich somit: F = 2×0.6×0.75

0.6+0.75 = 66.6%

Resultate der Chunking-Shared-Task der CoNLL 2000

Abbildung 7.5: Resultate der Chunking-Shared-Task der CoNLL 2000[Tjong Kim Sang und Buchholz 2000, 131]

Übung

• Kleine Intensivwochenende-Shared-Task NP-Chunking in 1-2er-Teams

• Ziel: Bestes F-Mass über dem Developmentset mit 500 Sätzen

• Im TIGERSearch findet ihr das Trainingskorpus der CONLL-Shared-Task (nicht identischmit Entwicklungskorpus).

• Achtung fertig los: Gutes Chunking und Chinking!

7.4 Fazit7.4.1 Flache ChunksFlache Chunks im IOB-Format

Definition 7.4.1 (IOB-Chunks). IOB-Chunks beschreiben eine flache syntaktische Schicht überdie getaggten Wortformen, welche in Form von Chunk-Tags auf die Token abbildbar ist.

75

Page 76: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

• B-K : Anfang einer Chunk-Konstituente K

• I-K : Fortsetzung der Chunk-Konstituente K

• 0: Nicht zugeordnet (wird auch chink genannt)

We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP

7.4.2 Verschachtelte ChunksVerschachtelte Chunks

Definition 7.4.2 (Verschachtelte Chunks). Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe. Rekursive Verschachtelung, z.B. ein Nominal-Chunk inner-halb eines Nominal-Chunks, ist normalerweise nicht möglich.

Beispiel 7.4.3 (Chunk Parsing Output mit Verschachtelungstiefe 3).

[PX [APPR für][NX [ARTIND eine]

[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]

Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert, gebräuchlich sind auch NX oder NC.

Vertiefung

• NLTK-Buch S. 264ff.

• Carstensen Abschnitt 3.4.3: „Chunk-Parsing“

• Penn-Treebank-Tagset im CLab: http://www.cl.uzh.ch/clab/hilfe/ptts

• Information zum Sprachmodell des CONLL-Goldstandards und zu den Resultaten derShared-Task enthält [Tjong Kim Sang und Buchholz 2000]

76

Page 77: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

8 Sprachsynthese und SpracherkennungLernziele

• Kenntnis über die Teilfunktionen und Verarbeitungsstufen eines typischen Systems zurSprachsynthese und der Spracherkennung

• Kenntnis über die Probleme und Ansätze solcher Systeme

• Kenntnis über die Einsatzmöglichkeiten von CL-Techniken

• Kenntnis über sprachtechnologische Standards

8.1 SprachsyntheseSprachsynthesesysteme III

Definition 8.1.1 (Text-To-Speech System, TTS). Ein Sprachsynthesesystem erzeugt aus einerZeichenkette (Text) ein akustisches Signal.Die Spracherzeugung setzt eine mehr oder weniger tiefe linguistische Textanalyse voraus.

Beispiel 8.1.2 (Ein deutscher Stolpersatz).“Dr. A. Smithe von der NATO (und nicht vom CIA) versorgt z.B. - meines Wissens nach - dieHeroin seit dem 15.3.00 tgl. mit 13,84 Gramm Heroin zu 1,04 DM das Gramm.”

• Welche Schwierigkeiten liegen vor?

• Was kann ein TTS damit anfangen? Z.B. [German 2006]

Qualitätsmerkmale für SprachsyntheseWas macht gute Sprachsynthese aus?

• Silbenübergänge: Wie natürlich werden Silbenübergänge lautiert?

• Wortbetonung: Sind die Betonungen bei (unbekannten) Wörtern korrekt?

• Satzmelodie/Satzbetonung: Ergibt die Satzbetonung Sinn oder bleibt alles hölzern neutral?

• Sprechtempo: Zu schnell, zu langsam?

• Sprechrhythmus: Monotones Geraspel oder gegliederte Information?

• Pausen: Finden Sprechpausen (an der richtigen Stelle) statt?

WeiteresUnterschiedliche Benutzer haben unterschiedliche Bedürfnisse. Blinde Personen schätzen es,wenn das Sprechtempo stark erhöht werden kann.

77

Page 78: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Einsatzmöglichkeiten von SprachsyntheseWo ist Sprachsynthese praktisch anwendbar?

• (Mobil-)Telefonie: Auskunftssysteme (Tourismus, Kinoprogramm, Wetter, Börsenkurseusw.), welche meist mit einem Spracherkennungssystem gekoppelt sind

• Informationssysteme, welche keine visuelle Ablenkung erzeugen dürfen: Navigationssyste-me im Auto, E-Mail-Vorlesesysteme im Auto usw.

• Computerarbeitsplätze für Sehbehinderte

• Künstliche Stimme für Sprechbehinderte

• Sprachenlernen

• . . .

8.1.1 ArchitekturTypische Architektur von TTSVom der Zeichenkette zum Laut

1. Tokenisierung (Satzsegmentierung, Normalisierung von Abkürzungen usw.)

2. (Flache) syntaktische Analyse für lexikalische Desambiguierung (Tagging) und für dieprosodische Gestaltung der Phrasengrenzen/Pausen und Akzente (Chunking, Parsing)

3. Lexikalische Analyse mit einem Lexikon und/oder Regeln

4. Phonologische und prosodische Analyse

5. Lautproduktion aufgrund der Lautfolge mit Information zu Lautdauer, Tonhöhe (Grund-frequenz), Lautstärke (Intensität).

Beispiel-Architektur von MARY TTS

8.1.2 AnalyseebenenAussprache von Ziffern und AbkürzungenDie Aussprache von Ziffernotationen variiert vielfältig innerhalb einer Sprache und zwischenKulturräumen [Liberman und Church 1992].

FrageWelche Aussprachen sind für welche Grössen verbreitet?

Beispiel 8.1.3 (Varianten im Deutschen).

• Einzelziffern: 1456 “ Konto eins vier fünf sechs”

• Zahl: 1456 “Eintausendvierhundertsechsundfünfzig”

• Hunderter: 1456 “Vierzehnhundert(und)sechsundfünfzig”

• Paare oder Trippel: “044 344 56 10”

78

Page 79: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Abbildung 8.1: Architektur von MARY-TTS-System

• Ordinalzahlen: “Am 2.12. kam die 2. Frau trotz 2. Platz nicht ins Final.”

Probleme bei AbkürzungenWelche Schwierigkeiten stellt die Aussprache von Abkürzungen?

Phonetische Analyse: Lautfolgen und Akzente von WörternWie werden die einzelnen Laute eines Wortes in Isolation repräsentiert?

Definition 8.1.4 (Pronunciation Dictionary). Ein elektronisches Aussprachewörterbuch ent-hält für (flektierte) Wortformen oder Grundformen eine Repräsentation der Lautform (Lautfol-ge, Akzente) in einer Lautschrift.Z.B. in Form der Revision 2005 des International Phonetic Alphabet (IPA) http://www.langsci.ucl.ac.uk/ipa, bzw. einer auf Computern einfacher verwendbareren Kodierung davon.

Beispiel 8.1.5 (Formate elektronischer Aussprachewörterbücher nach [?]).

• Pronlex: +arm.xd’Il.o

• CELEX (britisch): "#-m@-’dI-15 =[a:.m@."dI.l@U],

• CMU (amerikanisch): AA2 R N AH0 D IH1 L OW0 = [arm2"dI.loU]

79

Page 80: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Quelle: [Carstensen et al. 2004, 157]

Abbildung 8.2: IPA-Symbole für Deutsch

IPA-Lautschrift für DeutschVgl. volles IPA in [Carstensen et al. 2009, 213])

Phonetische Lautschrift (SAMPA German)Eine in ASCII kodierte Notationsvariante für IPA-Symbole.

• : (langer Vokal), ’ (Hauptbetonung), - (Silbengrenze)

• Plosive: p (Pein), b (Bein), t (Teich), d (Deich), k (Kunst), g (Gunst), ? (Atem)

• Frikative: f (fast), v (was), s (das), z (sein), S (Schein), Z (Genie), C (ich), x (ach), r(rein), h (Hand)

• Sonoranten: m (mein), n (nein), N (lang), l (laut), j (ja)

• Ungespannte Vokale: I (Sitz), Y (hübsch), 9 (plötzlich), E (Bett), U (Schutz), O (Trotz), a(Satz), @ (bitte), 6 (kurz),

• Gespannte Vokale: i (bin), y (süss), e: (Reh), 2: (blöd), E: (spät), u: (Blut), o: (rot)

FrageWie kann man das Wort “jenseits” schreiben?

Hinweis: Das Wiktionary für Deutsch http://de.wiktionary.org ist auch ein Aussprachewörter-buch.

80

Page 81: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Phonologische AnalyseWelche Gesetzmässigkeiten der gegenseitigen Beeinflussung von Lauten in ihrem (aus-)sprachlichenKontext gelten?

Definition 8.1.6 (Phonological Rules). Phonologische Regeln spezifizieren die Umstände, unterdenen phonologische Alternationen statt finden.Die Zwei-Ebenen-Morphologie bietet eine praktische Modellierung und Implementation dafüran.

Beispiel 8.1.7 (Phonologische Alternationen im Englischen).Das Plural-(e)s wird nach Stammendung unterschiedlich ausgesprochen: “peaches”, “pigs”,“cats”. III

Morphologie und AusspracheregelnBeispiel 8.1.8 (Aussprache von „st“ im Deutschen).Wann spricht man „st“ als [St] und wann als [st]? Beispiele: Lastwagen, staunen, bestaunen,Staubsauger, Feinstaub, Krebstest, zurückkrebste

Anwendung von AusspracheregelnAusspracheregeln beziehen sich nicht auf das Wort, sondern auf Morphe (Vorsilben, Endungen,Wortstämme).

Beispiel 8.1.9 (Auslautverhärtung).Im Deutschen werden gewisse Laute entstimmlicht, wenn sie am Ende eines Morphs stehenund nicht vor einem Vokal. „Krug“ → [’kru:g]→ [’kru:k] „Krug+s“ → [’kru:g]+[s] → [’kru:ks]„Krug+es“ → [’kru:g]+[@s] → [’kru:g@s]

Probleme der morphologischen Analyse und Lautfolgenberechnung

• Mehrdeutigkeiten der morphologischen Analyse:Wählerstimmen = wähl+erst+imme+n III

• Einschlüsse verschiedener Sprachen in einem Text“Er hat dies nur contre coeur live gesungen.”

• Umgang mit Named Entities

Prosodische Analyse: Akzentuierung im Wort

Definition 8.1.10 (Wortakzent). Der Wortakzent ist diejenige Silbe eines Worts, welche amstärksten betont wird.

Mehrsilbige Wörter und Komposita haben oft Nebenakzente.

Regelhaftigkeit von Wortakzenten im Deutschen

• Bei einfachen Wörtern eine lexikalische Information.

• Präfixe, Suffixe und Infixe sind regelhaft: be-, -lich, -tät, -al

• Bei Komposita (Zusammensetzungen) trägt immer der Wortakzent des Vorderglieds denHauptakzent: Hauptakzenterkennungsroutine

81

Page 82: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

• Flexionsbetonung: Doktor vs Doktoren

Die Nebenakzente können immer durch Fokusakzentuierung semantisch/pragmatisch zum stärks-ten Akzent gemacht werden.

Beispiel: Prosodie [Simmons 2006b]Pausen und Satzbetonung sind an der Amplitude der Schallwellen ablesbar. Der Grundfrequenz-verlauf (oft mit f0 bezeichnet) gibt die relativen Tonhöhenunterschiede in der gesprochenenSprache wieder.

Quelle: http://anita.simmons.edu/~tobi/chap2-7/chapter2-7.htm

Abbildung 8.3: Satzintonation mit ToBi-Annotierung (Hörbeispiel: [Simmons 2006a])

Ein frei verfügbares Tool, um die verschiedenen akustischen Aspekte der Sprache auf dem Com-puter zu analysieren, ist unter http://www.praat.org zu finden.

Prosodie: ToBI-Modell (Tones and Break Indices)

• H (high): Hohe Satzmelodie

• L (low): Tiefe Satzmelodie

• [HL]*: Auszeichnung der betonten Silbe

• [HL]+[HL]: Tonwechsel innerhalb von Wörtern

• [HL]%: Satzendebetonung

• [HL]– : Phrasenbetonung (sekundärer Satzakzent)

82

Page 83: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Prosodische Analyse: Phrasen und SätzeUm Satzintonation (Prosodie) korrekt wiederzugeben, braucht es teilweise detaillierte linguisti-sche Analysen.Beispiel 8.1.11 (Satzintonation und -rhythmus).The government plans. . .

• . . . were defeated.

• . . . to raise taxes.

Grundregel der PhrasierungEine Phrasengrenze zwischen 2 benachbarten Wörtern ist umso plausibler, je stärker die Wörterin der syntaktischen Struktur getrennt sind voneinander.

8.1.3 SprachsignalproduktionSprachsignalproduktion

ProsodiesteuerungAus der phonologische Analyse (Laute, Akzente, Pausen, Tonhöhenverlauf) werden die prosodi-schen Parameter der Laute für die Sprachsynthese berechnet: Dauer, Grundfrequenz, Intensität.

Die klassische linguistische Einheit Phonem (35-50 pro Sprache) ergibt für Sprachgenerierung(Allophonsynthese) keine guten Ergebnisse.Wie lassen sich natürlichere und fliessende Übergänge der Laute erzeugen?

Definition 8.1.12 (Diphone III III). Ein Diphon geht von der Mitte eines Phonems zurMitte des nächsten Phonems. Für Deutsch kommt man etwa auf 2’500 existierende Diphone,für Spanisch auf 800.Koartikulation von Lauten wird dadurch auf jeweils 2 Phonemkombinationen beschränkt. Inder Phonemmitte ist das menschliche Gehör weniger empfindlich auf Unebenheiten.

Sprachsignalproduktion: SprachkonservenAm primitivsten funktioniert Sprachsynthese, wenn ganze Wörter oder Teilsätze als akustischeSprachkonserven nacheinander ausgegeben werden.Dies funktioniert für eingeschränkte Anwendungsgebiete: "Jetzt. Bitte. Rechts. Abbiegen."Beispiel 8.1.13 (Ein Problem zu einfacher Ansätze).

• lead: Verb /li:d/ (führen); Nomen: /led/ (Blei)

• increase: Nomen /’inkri:s/ (Anstieg); Verb /inkr’i:s/ (ansteigen)

Unit Selection DatabasesEin Weiterentwicklung sind grosse Datenbanken, welche unterschiedlich grosse Einheiten (Di-phone, Phone, Silben, Wörter) umfassen und eine optimale Selektion daraus versuchen.

83

Page 84: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Speech Synthesis Markup Language (SSML)Dieser XML-Standard erlaubt eine strukturierte Spezifikation von verschiedenen Parameterneiner Speech-Applikation.

<p><s xml:lang="en-US">

<voice name="David" gender="male" age="25">For English, press <emphasis>one</emphasis>.

</voice></s><s xml:lang="es-MX">

<voice name="Miguel" gender="male" age="25">Para español, oprima el <emphasis>dos</emphasis>.

</voice></s>

</p>

http://www.w3.org/TR/2004/REC-speech-synthesis-20040907/

8.2 SpracherkennungSpracherkennungssysteme

Definition 8.2.1 (Speech Recognition System). Ein Spracherkennungssystem erzeugt aus demakustischen Signal von gesprochener Sprache eine textuelle Darstellung.

Definition 8.2.2 (Speech Understanding System). Ein Sprachverarbeitungssystem berechnetaus dem akustischen Signal von gesprochener Sprache eine (partielle) Bedeutung.

Spracherkennung ist schwieriger als Sprachsynthese. Warum?

Typische ArchitekturVom Sprachsignal zur Wortfolge

1. Digitale Signalanalyse (inklusive Erkennung der wesentlichen Eigenschaften des Signals:Merkmalsextraktion)

2. Matching der extrahierten Merkmale auf die phonologischen Sprachbestandteile (Phone-me, Diphone, Silben), mit denen sich die Wörter zusammensetzen

3. Lexikalische Analyse: Erkennen von Wortkandidaten

4. Syntaktische Analyse: Filtern auf wahrscheinliche Wortfolgen bzw. syntaktische mögliche

5. Semantische Analyse: Filtern auf wahrscheinliche (anwendungsspezifische) Bedeutungen

84

Page 85: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

8.2.1 ProblemeWortübergänge (Junkturen)Wortgrenzen werden eher selten als Sprechpausen realisiert.Im Deutschen tendenziell durch die Erstbetonung. Im Englischen manchmal durch leichte Ver-längerung beginnender Konsonanten oder Betonung endender Vokale.

Definition 8.2.3. Die Koartikulation ist die Beeinflussung der lautlichen Form eines Phonemsdurch seine Umgebung.

Beispiel 8.2.4 (Assimilation).

• this year → this∫ear

• the old man → thiold man

Wortübergänge (Junkturen)Beispiel 8.2.5 (Epenthese und Auslassung).

• China is → Chinaris

• best buy → besbuy

Beispiel 8.2.6 (Fehlsegmentierungen (Oronym)).

• night-rate ↔ nitrate ; grey day ↔ grade A; why choose ↔ white shoes

• The sad poet remembers a long ago time ↔ Thus add poetry members along a goat I’m

Weitere Störfaktoren

• Unbekannte Wörter, u.a. zu kleines Lexikon

• Hintergrundsgeräusche

• Schlechte Mikrophone

• Sprecherspezifische Eigenheiten: schnelles oder undeutliches Artikulieren, dialektale Fär-bung

• Wenig kollaborative Kommunikation: Im Gegensatz zur menschlichen Kommunikationweiss ein Spracherkennungssystem selten, worum es geht.

8.2.2 WorthypothesengraphWorthypothesengraphIn einem Wortkandidatengraphen werden kompakt alle möglichen Folgen von Wörtern repräsen-tiert. Das Spracherkennungssystem sollte den in der Kommunikationssituation am wahrschein-lichsten Pfad auswählen.

85

Page 86: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Abbildung 8.4: Worthypothesengraph aus [Carstensen et al. 2004, 580]

8.2.3 WortfehlerrateWortfehlerrate (word error rate, WER)

Definition 8.2.7 (Editierdistanz). Unter der minimalen Editierdistanz zweier Wortfolgen ver-steht man die minimale Anzahl der notwendigen Editieroperationen, um die Folgen gleich zumachen. Bei der Levenshtein-Editierdistanz können Wörter gelöscht (DEL), ersetzt (SUB) odereingefügt (INS) werden.

Abbildung 8.5: Berechnung der Wortfehlerrate aus [Carstensen et al. 2004, 581]

Definition 8.2.8 (Wortfehlerrate für eine Folge von n Wörtern).

WER = 100× NSUB +NINS +NDEL

N

8.3 Dialogsysteme8.3.1 TypenDialogsystemeEin natürlichsprachliches Dialogsystem erlaubt Kommunikation zwischen Computer und Menschmittels menschlicher Sprache.

Definition 8.3.1 (Kommandowortsysteme). Ein Kommandowortsystem erlaubt die einseitigeSteuerung von elektronischen Geräten durch Äusserungen.

86

Page 87: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Definition 8.3.2 (Interactive Voice Response System (IVR)). Ein IVR erlaubt die sprachlicheNavigation durch ein starres Menu. Benutzer kann nur reagieren.

Definition 8.3.3 (Conversational User Interface (CUI)). Ein CUI soll nebst der Steuerungeines Devices den Benutzer pro-aktiv beratend unterstützen. Dialoge sollten von Mensch undMaschine gesteuert sein (mixed-initiative dialogue).1

8.3.2 VoiceXMLVoiceXML IIIDieser XML-Standard erlaubt eine strukturierte Spezifikation von (einfachen) natürlichsprach-lichen Dialogsystemen (Bestellvorgänge, Chatbots usw.), welche Web-Services via Telefon ver-fügbar machen.

Abbildung 8.6: Anwendungsszenario VoiceXML nach [Raggett 2001]

VoiceXML beinhaltet ...VoiceXML-Dokumente beschreiben

• Gesprochene Eingaben (synthetische Sprache)

• Ausgaben von Audiodateien und -streams

• Erkennung von gesprochenen Wörtern und Sätzen

• Erkennung von Tonwahl (DTMF)

• Aufnahme gesprochener Eingaben

• Kontrolle des Dialogflusses

• Telefoniekontrolle (Anruftransfer und Auflegen)

1http://mobile.20min.ch/de/front/28506028f/Das-digitale-Vermächtnis-von-Steve-Jobs

87

Page 88: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

8.4 Vertiefung• Pflichtlektüren: [Carstensen et al. 2009, 3.1.1-3.1.2, 3.2.2, 5.4]

• Eine umfassende technische Einführung bietet [Pfister und Kaufmann 2008]

• Für an Sprachtechnologie Interessierte: “HAL’s Legacy” http://www-mitpress.mit.edu/e-books/Hal/chap6/six1.html

• Viele historische Beispiele für Sprachsynthese http://www.cs.indiana.edu/rhythmsp/ASA/Contents.html

• Das didaktisch orientierte Tool MARY http://mary.dfki.de/, das wir im CLab integrierthaben.

• Beispiel emotionale Fussballreportersprache:[MARY 2006]

• SAMPA: Kurzbeschreibung unter http://de.wikipedia.org/wiki/SAMPA und Hauptseite un-ter http://www.phon.ucl.ac.uk/home/sampa/index.html

• MBROLA:http://tcts.fpms.ac.be/synthesis/mbrola.html

• http://www.voicexml.org

• Beispiele: Dialoggestaltung [excelsis 2007]; Erkennung von Dialekten [ORF 2007b, ORF 2007a]

88

Page 89: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

9 (Kontextfreie) Grammatiken und ParsingLernziele

• Kenntnis über Grammatiken, ihren Zweck und Ausrichtung

• Kenntnis von Konstituentenstrukturdarstellung und Phrasenstrukturregeln

• Kenntnis über die rekursive Verschachtelung und Mehrdeutigkeit syntaktischer Strukturen

• Kenntnis von syntaktischer Analyse (Parsing)

• Fähigkeit einfache Konstituentenstrukturgrammatiken zu schreiben (in XLE als Übung)

• Kenntnis über formale Sprachen und (Regel-)Grammatiken

• Kenntnis über das Ableiten mit kontextfreien Grammatiken

• Kenntnis über die Chomsky-Hierarchie

9.1 GrammatikSprachkompetenz

GrundfrageWie ist es möglich, dass wir Sätze bilden und verstehen können, welche wir noch nie gehörthaben?

Was bedeutet der Begriff „Grammatik“?

Einige Bedeutungen nach [Bussmann 2002]

• „Wissen bzw. Lehre von den morphologischen und syntaktischen Regularitäten einer na-türlichen Sprache“

• „Strukturelles Regelsystem, das allen sprachlichen Produktions- und Verstehensprozessenzugrunde liegt“

• „Systematische Beschreibung der formalen Regularitäten einer natürlichen Sprache inForm eines Nachschlagewerkes“

Definition 9.1.1 (Arbeitsdefinition). Grammatiken sind Modelle, wie Sprache auf der mor-phosyntaktischen Ebene funktioniert. Von computerlinguistischen Grammatiken erwarten wir,dass sie ausführbar sind.

89

Page 90: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Arten von „Grammatiken“?

• Einzelsprachlich vs. übersprachlich (UG: Universalgrammatik): Vgl. den UG-Konfiguratorfür HPSG1

• Normativ vs. deskriptiv: Grammatikduden sagt, wie geschriebene Sprache sein soll. WerReal-World-Sprachdaten verarbeiten will, braucht andere Regeln.

• Formal vs. informell: Vollständig formalisierte und explizite Grammatiken sind geeigneteModelle für eine Implementation.

• Pädagogisch vs. anwendungsorientiert: Maschinelle Übersetzung hat andere Anforderun-gen an eine Grammatik als Erst- oder Zweitspracherwerbende.

Adäquatheitsstufen grammatischer Modelle

Nach Noam Chomsky gemäss [Bussmann 2002]

• Beobachtungsadäquatheit: Sprachliche Daten werden korrekt und vollständig erfasst. Frage:Status von rein wortbasierten N-Gramm-Modelle?

• Beschreibungsadäquatheit: Intuition und Kompetenz der Sprachteilnehmer zu Regularitä-ten werden erfasst

• Erklärungsadäquatheit: Kognitive Realität der menschlichen Sprachfähigkeit wird erfasst:Wie funktioniert Sprache (universal), Spracherwerb, Sprachwandel?

Anwendungsadäquatheit in der CLSprachliche Daten werden für die Anwendung hinreichend präzise und effizient (Speicherbedarfund Rechenzeit) analysiert.

Grammatiktheorien in der CLFormale Linguistik und CL haben sich oft gegenseitig befruchtet.

• Generative Grammatik (GG): Transformationsgrammatik (60-70er), Government & Bin-ding (80-90er), Minimalistisches Programm (ab 90er)

• LFG (Lexical Functional Grammar)

• HPSG (Head Phrase Structure Grammar)

• TAG (Tree Adjoining Grammar)

• Dependenzgrammatik (DG): Dependency Grammar, Word Grammar

9.1.1 KonstituentenstrukturKonstituenten in der annotate-DarstellungJedes Wort und jeder ovale Knoten repräsentiert eine Konstituente.

1http://www.delph-in.net/matrix/customize/matrix.cgi

90

Page 91: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

!"#

$$%&

'($)(*(+,-

.#/#0

1123+

'($)($4#5(306

.#78.9#

:;<:

$,5(*(:==($)(!9

1#4>"06?0.#0

++

2#-(:==($)(*

?06

@A+

!!

&"5"=#0

++

+#?9(:==($)(*

#"0

$B@1C

!!

D

ED

!!

F#45?G/#0

1123+

'($)($4#5(306

"/4#

$$A!:B

*(:==($)

HI.)"G/=#"9#0

++

2#-(:==($)(*

8?5J?4#"J#0

113CK

!!

(

E(

!!

+@ +@ +@ +@

+$

L< L; L<

+$

A: M;

!N M;

L+$

A: !1$ M;

1$

AL

!

L<

!

L<

O P Q ' R S T U V W PO PP PQ

SOO SOP

SOQ SO'

SOR SOS

SOT

L!

unmittelbare Dominanz

Konstituente auf Wortebene

Syntaktische Konstituente

Präzedenz auf Wortebene

Präzedenz zwischen Tochterkonstituenten

Abbildung 9.1: Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung

KonstituenzDefinition 9.1.2 (nach [Bussmann 2002]). Konstituente. In der strukturellen Satzanalyse [sog.Konstituentenanalyse] Bezeichnung für jede sprachliche Einheit (Wort, Wortgruppe), die Teileiner grösseren sprachlichen Einheit ist.Definition 9.1.3 (nach [Bussmann 2002]). Ziel und Ergebnis der Konstituentenanalyse ist dieZerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierte Abfolge von Konstituen-ten.Definition 9.1.4 (Konstituenz). Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Präzedenz zwischen Konstituenten.

Konstituenten in traditionellen linguistischen DarstellungenBaumdarstellung

S

NP VP

EN V NP

Egon sah D N

den Pudel

KastendiagrammEgon sah den PudelEN V D NNP V NPNP VP

S

91

Page 92: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Klammernotationen: Indizierte Klammerung und S-Expression (LISP)

• [[[Egon]EN]NP [[sah]V [[den]D Pudel]N]NP]VP]S

• (S (NP (EN Egon)) (VP (V sah) (NP (D den) (N Pudel))))

Konstituentenstruktur und Phrasenstrukturregeln (PSR)Phrasenstrukturregeln drücken die Beziehung zwischen einem Mutterknoten und ihren zuläs-sigen Tochterknoten (unmittelbare Dominanz) sowie die Reihenfolge unter den Tochterknoten(unmittelbare Präzedenz) aus.

BaumdarstellungS

NP VPEN V NPEgon sah D N

den Pudel

Phrasenstrukturregeln

S → NP VP VP → V NPNP → EN NP → D NV → sah D → denEN → Egon N → Pudel

Sprechweisen für Phrasenstrukturregeln (Kontextfreie Regeln)S dominiert eine NP gefolgt von einer VP. S besteht aus einer NP gefolgt von einer VP. Sproduziert/erzeugt eine NP gefolgt von einer VP. Eine NP gefolgt von einer VP wird ersetztdurch ein S.

Syntax- und LexikonregelnBei der Entwicklung von Grammatiken in der Linguistik wird oft zwischen Lexikonregeln undSyntaxregeln unterschieden.

Lexikonregeln und Präterminale (Wortarten)Bei Lexikonregeln wird eine Wortform (Terminal) einer oder mehreren syntaktischen Kategorien(Präterminal) zugeordnet: EN → Egon

SyntaxregelnSyntaxregeln beschreiben, wie Kategorien (Nichtterminale) zu einer grösseren Kategorie kom-biniert werden: S → NP VP

Traditionelle Kurz-Notation von Alternativen und OptionalitätEine PP besteht aus Präposition und NP oder Präpositionaladverb: PP → {P NP | PAdv }Eine NP besteht aus Eigenname, oder Artikel, Nomen mit optionaler PP: NP → { EN | D N(PP) }

92

Page 93: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

9.1.2 KonstituentenanalyseAutomatische Konstituentenanalyse

Definition 9.1.5 (Automatische Konstituentenanalyse). Eine automatische Konstituentenana-lyse berechnet (parst) die Konstituentenstruktur eines sprachlichen Ausdrucks auf Grund vonPhrasenstrukturregeln (Grammatik).

Definition 9.1.6 (Parser). Ein Parser ist ein Programm, das eine Wortfolge mittels einerGrammatik syntaktisch analysiert und deren zulässige(n) Syntaxstruktur(en) berechnet.

Deterministische vs. nicht-deterministische GrammatikEine Grammatik ist deterministisch, wenn für jede Wortfolge höchstens eine Syntaxstrukturzulässig ist.

Syntaktisch-semantische Mehrdeutigkeit: Lesarten“Vermutlich stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotivenher, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinselverkauften.” 2

FrageWieviele denkbare Möglichkeiten gibt es, diesen Satz zu missverstehen?

Beispiel-EvaluationSiehe Abb. 9.2 auf Seite 94.

Formales direktes Ableiten

Definition 9.1.7 (Direkte (oder unmittelbare) Ableitungsrelation). • SeiG = 〈Φ,Σ, R, S〉eine Grammatik.

• Seien u und v Folgen von Grammatiksymbolen, d.h. u, v ∈ Γ∗.

• v ist aus u direkt ableitbar (u⇒ v), genau dann wenn– es eine Regel der Form w → z gibt in R– und u als Konkatenation u = u1 • w • u2

– und v als Konkatenation v = u1 • z • u2 ausgedrückt werden kann.

Beispiel: Ableitung mit kontextfreier Grammatik

S1

NP2 VP2

EN3

Egon9

V4 NP4

sah5 D6 N6

den7Pudel8

2(Quelle. H. Uszkoreit, CL Uni Saarbrücken)

93

Page 94: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Grammatik Formale Sprachen Formale Grammatiken Ableitung Grammatiktypen

Linksableitung und Konstruktion des Parsebaums

Linksableitung informellBei einer Linksableitung wird immer das am weitest links stehendeNichtterminal-Symbol ersetzt durch den Rumpf einer entsprechendenGrammatikregel: S → NP VP erlaubt die Ersetzung von S durch NP VP.S⇒ NP VP⇒ EN VP⇒ Egon VP⇒ Egon V NP⇒ Egon sah NP⇒ Egon sah D N⇒ Egon sah den N⇒ Egon sah den Pudel

S1

NP2 VP2

EN3

Egon4

V5 NP5

sah6 D7 N7

den8 Pudel9

Einführung in die Computerlinguistik I HS 2012 (Kontextfreie) Grammatiken und Parsing 29 / 40

Grammatik Formale Sprachen Formale Grammatiken Ableitung Grammatiktypen

Linksableitung und Konstruktion des Parsebaums

Linksableitung informellBei einer Linksableitung wird immer das am weitest links stehendeNichtterminal-Symbol ersetzt durch den Rumpf einer entsprechendenGrammatikregel: S → NP VP erlaubt die Ersetzung von S durch NP VP.S⇒ NP VP⇒ EN VP⇒ Egon VP⇒ Egon V NP⇒ Egon sah NP⇒ Egon sah D N⇒ Egon sah den N⇒ Egon sah den Pudel

S1

NP2 VP2

EN3

Egon4

V5 NP5

sah6 D7 N7

den8 Pudel9

Einführung in die Computerlinguistik I HS 2012 (Kontextfreie) Grammatiken und Parsing 29 / 40

Grammatik Formale Sprachen Formale Grammatiken Ableitung Grammatiktypen

Linksableitung und Konstruktion des Parsebaums

Linksableitung informellBei einer Linksableitung wird immer das am weitest links stehendeNichtterminal-Symbol ersetzt durch den Rumpf einer entsprechendenGrammatikregel: S → NP VP erlaubt die Ersetzung von S durch NP VP.S⇒ NP VP⇒ EN VP⇒ Egon VP⇒ Egon V NP⇒ Egon sah NP⇒ Egon sah D N⇒ Egon sah den N⇒ Egon sah den Pudel

S1

NP2 VP2

EN3

Egon4

V5 NP5

sah6 D7 N7

den8 Pudel9

Einführung in die Computerlinguistik I HS 2012 (Kontextfreie) Grammatiken und Parsing 29 / 40

Grammatik Formale Sprachen Formale Grammatiken Ableitung Grammatiktypen

Linksableitung und Konstruktion des Parsebaums

Linksableitung informellBei einer Linksableitung wird immer das am weitest links stehendeNichtterminal-Symbol ersetzt durch den Rumpf einer entsprechendenGrammatikregel: S → NP VP erlaubt die Ersetzung von S durch NP VP.S⇒ NP VP⇒ EN VP⇒ Egon VP⇒ Egon V NP⇒ Egon sah NP⇒ Egon sah D N⇒ Egon sah den N⇒ Egon sah den Pudel

S1

NP2 VP2

EN3

Egon4

V5 NP5

sah6 D7 N7

den8 Pudel9

Einführung in die Computerlinguistik I HS 2012 (Kontextfreie) Grammatiken und Parsing 29 / 40

Grammatik Formale Sprachen Formale Grammatiken Ableitung Grammatiktypen

Linksableitung und Konstruktion des Parsebaums

Linksableitung informellBei einer Linksableitung wird immer das am weitest links stehendeNichtterminal-Symbol ersetzt durch den Rumpf einer entsprechendenGrammatikregel: S → NP VP erlaubt die Ersetzung von S durch NP VP.S⇒ NP VP⇒ EN VP⇒ Egon VP⇒ Egon V NP⇒ Egon sah NP⇒ Egon sah D N⇒ Egon sah den N⇒ Egon sah den Pudel

S1

NP2 VP2

EN3

Egon4

V5 NP5

sah6 D7 N7

den8 Pudel9

Einführung in die Computerlinguistik I HS 2012 (Kontextfreie) Grammatiken und Parsing 29 / 40

Grammatik Formale Sprachen Formale Grammatiken Ableitung Grammatiktypen

Linksableitung und Konstruktion des Parsebaums

Linksableitung informellBei einer Linksableitung wird immer das am weitest links stehendeNichtterminal-Symbol ersetzt durch den Rumpf einer entsprechendenGrammatikregel: S → NP VP erlaubt die Ersetzung von S durch NP VP.S⇒ NP VP⇒ EN VP⇒ Egon VP⇒ Egon V NP⇒ Egon sah NP⇒ Egon sah D N⇒ Egon sah den N⇒ Egon sah den Pudel

S1

NP2 VP2

EN3

Egon4

V5 NP5

sah6 D7 N7

den8 Pudel9

Einführung in die Computerlinguistik I HS 2012 (Kontextfreie) Grammatiken und Parsing 29 / 40

Grammatik Formale Sprachen Formale Grammatiken Ableitung Grammatiktypen

Linksableitung und Konstruktion des Parsebaums

Linksableitung informellBei einer Linksableitung wird immer das am weitest links stehendeNichtterminal-Symbol ersetzt durch den Rumpf einer entsprechendenGrammatikregel: S → NP VP erlaubt die Ersetzung von S durch NP VP.S⇒ NP VP⇒ EN VP⇒ Egon VP⇒ Egon V NP⇒ Egon sah NP⇒ Egon sah D N⇒ Egon sah den N⇒ Egon sah den Pudel

S1

NP2 VP2

EN3

Egon4

V5 NP5

sah6 D7 N7

den8 Pudel9

Einführung in die Computerlinguistik I HS 2012 (Kontextfreie) Grammatiken und Parsing 29 / 40

Grammatik Formale Sprachen Formale Grammatiken Ableitung Grammatiktypen

Linksableitung und Konstruktion des Parsebaums

Linksableitung informellBei einer Linksableitung wird immer das am weitest links stehendeNichtterminal-Symbol ersetzt durch den Rumpf einer entsprechendenGrammatikregel: S → NP VP erlaubt die Ersetzung von S durch NP VP.S⇒ NP VP⇒ EN VP⇒ Egon VP⇒ Egon V NP⇒ Egon sah NP⇒ Egon sah D N⇒ Egon sah den N⇒ Egon sah den Pudel

S1

NP2 VP2

EN3

Egon4

V5 NP5

sah6 D7 N7

den8 Pudel9

Einführung in die Computerlinguistik I HS 2012 (Kontextfreie) Grammatiken und Parsing 29 / 40

Grammatik Formale Sprachen Formale Grammatiken Ableitung Grammatiktypen

Linksableitung und Konstruktion des Parsebaums

Linksableitung informellBei einer Linksableitung wird immer das am weitest links stehendeNichtterminal-Symbol ersetzt durch den Rumpf einer entsprechendenGrammatikregel: S → NP VP erlaubt die Ersetzung von S durch NP VP.S⇒ NP VP⇒ EN VP⇒ Egon VP⇒ Egon V NP⇒ Egon sah NP⇒ Egon sah D N⇒ Egon sah den N⇒ Egon sah den Pudel

S1

NP2 VP2

EN3

Egon4

V5 NP5

sah6 D7 N7

den8 Pudel9

Einführung in die Computerlinguistik I HS 2012 (Kontextfreie) Grammatiken und Parsing 29 / 40

Abbildung 9.2: Beispiel für Linksderivation und Parsebaumkonstruktion

Ableitung u Regel vu1wu2 w → z u1zu2

S ε S ε S → NP VP ε NP VP ε⇒ NP VP ε NP VP NP → EN ε EN VP⇒ EN VP EN VP ε VP → V NP EN V NP ε⇒ EN V NP EN V NP V → sah EN sah NP⇒ EN sah NP EN sah NP ε NP → D N EN sah D N ε⇒ EN sah D N EN sah D N D → den EN sah den N⇒ EN sah den N EN sah den N ε N → Pudel EN sah den Pudel ε⇒ EN sah den Pudel ε EN sah den Pudel EN → Egon ε Egon sah den Pudel⇒ Egon sah den Pudel

Formales Ableiten

Definition 9.1.8 (Ableitung (derivation)). Eine Ableitung ist ein n-Tupel 〈w1, . . . , wn〉 vonZeichenketten wi ∈ Γ∗ mit (1 ≤ i ≤ n) , so dass gilt:

• wi−1 ⇒ wi für alle i ∈ {2 ..n}

Normale Schreibweise für Ableitungenw1 ⇒ . . .⇒ wn

94

Page 95: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Definition 9.1.9 (Ableitungsrelation (derivation relation)). Die binäre Ableitungsrelation ∗⇒ist die reflexiv-transitive Hülle von ⇒. Sie verbindet alle Folgen von Symbolen, welche direktoder indirekt voneinander abgeleitet werden können.

Beispiel 9.1.10 (Ist Ableitung möglich mit obiger Grammatik?).NP VP ∗⇒ Egon sah Egon

Sätze und Sprachen

Definition 9.1.11 (Satz einer Grammatik). Eine Zeichenkette aus Terminalsymbolen w ∈ Σ∗

ist ein Satz einer Grammatik G = 〈Φ,Σ, R, S〉, gdw. er aus dem Startsymbol S abgeleitet werdenkann:

S∗⇒ w

Definition 9.1.12 (Sprache einer Grammatik G). Die Sprache LG einer Grammatik G =〈Φ,Σ, R, S〉 ist die Menge aller ihrer Sätze w ∈ Σ∗.

LG = { w | S ∗⇒ w }

Äquivalente GrammatikenZwei Grammatiken heissen (schwach) äquivalent, wenn sie dieselbe Sprache erzeugen. Sie heissenstark äquivalent, wenn sie für Sätze dieselbe Derivationen (d.h. Syntaxstruktur(en)) erzeugen.

9.1.3 GrammatiktypenGrammatik-Regeln, Sprachklassen und AutomatenDie verschiedenen Grammatiktypen unterscheiden in der Form ihrer Regeln. Notation: A,B ∈Φ, w ∈ Σ∗ und α, β, γ ∈ (Φ ∪ Σ)∗.

Sprache Form der Grammatikregeln Automat (Komplexität)Regulär A→ w Endlicher Automat(Typ 3) A→ wB oder A→ Bw (linear: n)Kontextfrei A→ α Kellerautomat(Typ 2) (kubisch: n3)Kontext- αAγ → αβγ mit β 6= ε oder Linear beschränktersensitiv S → ε (dann darf S nicht Automat (LBA)(Typ 1) auf einer rechten Seite (exponentiell: kn)

einer Regel vorkommen)(Typ 0) α→ β (mit α 6= ε und α 6∈ Σ∗) Turingmaschine (kn)

Der Aufwand (Komplexität) für die Berechnung der syntaktischen Wohlgeformtheit steigt vonTyp 3 zu Typ 0 abhängig von der Satzlänge n unterschiedlich an. Bei Typ 0 (=rekursiv auf-zählbare Sprache) kann nicht immer automatisch entschieden werden, dass eine Wortfolge nichtsyntaktisch korrekt ist (halb-entscheidbar).

95

Page 96: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Reguläre Sprachen

Kontextfreie Sprachen

Kontextsensitive Sprachen

Allgemeine Regelsprachen.

Abbildung 9.3: Teilmengenbeziehungen der Sprachklassen von Chomsky

Chomsky-Hierarchie [Hopcroft et al. 2002]

Sprachklasse Typ Beispielregulär 3 {an}kontextfrei 2 {anbn}kontextsensitiv 1 {anbncn}allgemein 0

mit n ≥ 1

Echte TeilmengenFür alle Typ–i–Sprachen gilt: L3 ⊂ L2 ⊂ L1 ⊂ L0 . Obige Beispiele sind Sprachen, welche imnächst höheren Typ jeweils nicht existieren.

Wo befinden sich natürliche Sprachen? [Hess 2005, 138ff.]Mindestens Typ 2: NPnVPn (central embedding)

-----------------------------------------------| ---------------------------- || | -------- | || | | | | |

The man whose wife whose child is angry is sad is surprised

Mindestens Typ 1 nach [Shieber 1985, Kallmeyer 2005]: NPiNPjViVj (cross serialconstruction)

------------------| |

------------------ |

96

Page 97: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

| | | |-------------------- | |

| | | | | |mer wänd d’Chind am Hans s’Huus laa hälfe aaschtriiche

Komplexität, Grammatikalität, Akzeptanz von SpracheEs darf daher getrost, was auch von allen, deren Sinne, weil sie unter Sternen, die, wie derDichter sagt, zu dörren, statt zu leuchten, geschaffen sind, geboren sind, vertrocknet sind, be-hauptet wird, enthauptet werden, dass hier einem sozumaßen und im Sinne der Zeit, dieselbeim Negativen als Hydra betrachtet, hydratherapeutischen Moment ersten Ranges, immer ange-sichts dessen, dass, wie oben, keine mit Rosenfingern den springenden Punkt ihrer schlechthinunvoreingenommenen Hoffnung auf eine, sagen wir, schwansinnige oder wesenzielle Erweite-rung des natürlichen Stoffeides zusamt mit der Freiheit des Individuums vor dem Gesetz ihrerVolksseele zu verraten den Mut, was sage ich, die Verruchtheit haben wird, einem Moment,wie ihm in Handel, Wandel, Kunst und Wissenschaft allüberall dieselbe Erscheinung, dieselbeTendenz den Arm bietet, und welches bei allem, ja vielleicht eben trotz allem, als ein mehroder minder undulationsfähiger Ausdruck einer ganz bestimmten und im weitesten Verfolgeexcösen Weltauffasseraumwortkindundkunstanschauung kaum mehr zu unterschlagen versuchtwerden zu wollen vermag - gegenübergestanden und beigewohnt werden zu dürfen gelten lassenzu müssen sein möchte.

Christian Morgenstern, Vorrede zu Galgenliedern

9.2 Vertiefung• Pflichtlektüre: 2.2 bis und mit 2.2.2; 2.2.4 (ohne Kellerautomaten); 2.2.6-2.2.7 (Grundideeverstehen, ohne formale Details)

• Formales Propädeutikum zu Mengen, Funktionen und Relationen im CLab: http://www.cl.uzh.ch/clab/formProp/

• Ein Web-Interface zu LFG-Grammatiken in verschiedenen Sprachen: http://iness.uib.no/xle-web/xle-web

97

Page 98: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

10 Literaturverzeichnis[Abney 1991] Abney, Steven (1991). Parsing by Chunks, In: Berwick, Robert, S. Abney

und C. Tenny, Hrsg.: Principle-Based Parsing. Kluwer Academics, LIN 235. 63, 70

[Bird et al. 2009] Bird, Steven, E. Klein und E. Loper (2009). Natural Language Proces-sing with Python. O’Reilly. 56

[Brants 1999] Brants, Thorsten (1999). Tagging and Parsing with Cascaded Markov Mo-dels. Automation of Corpus Annotation, Saarbrücken Dissertations in Computational Lingui-stics and Language Technology 6. Saarland University. 60

[Bussmann 2002] Bussmann, Hadumod (2002). Lexikon der Sprachwissenschaft. Kröner,Stuttgart, 3., aktual. und erw. Aufl. 15, 19, 29, 32, 43, 47, 89, 90, 91

[Carstensen et al. 2004] Carstensen, Kai-Uwe, C. Ebert, C. Endriss, S. Jekat,R. Klabunde und H. Langer, Hrsg. (2004). Computerlinguistik und Sprachtechnologie: Eine Einführung. Elsevier, München. 80, 86

[Carstensen et al. 2009] Carstensen, Kai-Uwe, C. Ebert, C. Endriss, S. Jekat,R. Klabunde und H. Langer, Hrsg. (2009). Computerlinguistik und Sprachtechnologie: Eine Einführung. Spektrum, München. 18, 28, 65, 80, 88

[Cavnar und Trenkle 1994] Cavnar, William B und J. M. Trenkle (1994). N-Gram-Based Text Categorization, In: Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval, S. 161–175. Citeseer, http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.53.9367&rep=rep1&type=pdf. 27, 28

[Clematide 2007] Clematide, Simon (2007). Tagger-Training und Evaluation mit TnT ,http://www.cl.uzh.ch/siclemat/lehre/papers/tnt-training2007.txt. 57

[Cutting et al. 1992] Cutting, D, J. Kupiec, J. Pedersen und P. Sibun(1992). A Practical Part-of-Speech Tagger , In: Proceedings of the Third Confe-rence on Applied Natural Language Processing, Trento, S. 133–140, Trento. Asso-ciation for Computational Linguistics, http://www.aclweb.org/anthology/A92-1018.pdf,http://www.cl.uzh.ch/siclemat/lehre/papers/CuttingKupiec1992.pdf. 55

[Dudenredaktion 2005] Dudenredaktion, Hrsg. (2005). Duden, die Grammatik: Unent-behrlich für richtiges Deutsch, Bd. 4 d. Reihe Der Duden. Dudenverlag, 7. Aufl. 43

[EAGLES 1996] EAGLES (1996). ELM-DE: EAGLES Specifications forGerman morphosyntax: Lexicon Specification and Classification Guidelines,electronic, http://www.ilc.cnr.it/EAGLES96/pub/eagles/lexicons/elm_de.ps.gz,http://www.cl.uzh.ch/siclemat/lehre/papers/EAGLES1996.pdf. 33

[excelsis 2007] excelsis (2007). Hörbeispiel: Fussball-WM-Auskunft,http://www.excelsisnet.com/download/voicedemos/DemoWM2002.mp3,http://www.cl.uzh.ch/siclemat/lehre/papers/excelsis2007.mp3. 88

98

Page 99: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

[F-Mass 2006] F-Mass (2006). F1-Mass in 3D als Funktion von Recall (x) und Precision (y),http://www.cl.uzh.ch/siclemat/lehre/papers/F-Mass2006.mov. 68

[Gallmann und Sitta 2010] Gallmann, Peter und H. Sitta (2010). Deutsche Grammatik.Lehrmittelverlag, 6. Aufl. 32, 53

[German 2006] German, Klara (2006). AT&T Beispiel-satz Deutsch, http://www.research.att.com/~ttsweb/tts/demo.php,http://www.cl.uzh.ch/siclemat/lehre/papers/German2006.mp3. 77

[Grefenstette und Tapanainen 1994] Grefenstette, Gregory und P. Tapanai-nen (1994). What is a Word, What is a Sentence? Problems of Tokenisa-tion, In: Proceedings of the 3rd Conference on Computational Lexicography andText Research, COMPLEX’94 , Budapest. http://citeseer.ist.psu.edu/grefenstette94what.html,http://www.cl.uzh.ch/siclemat/lehre/papers/GrefenstetteTapanainen1994.pdf. 25, 26, 28

[Grover 2008] Grover, Claire (2008). LT-TTT2 Exam-ple Pipelines Documentation, http://www.ltg.ed.ac.uk/software/lt-ttt2,http://www.cl.uzh.ch/siclemat/lehre/papers/Grover2008.pdf. 22

[Hess 2005] Hess, Michael (2005). Einführung in die Computerlinguistik I: Interaktives Vor-lesungsskript WS 2004/2005 , http://www.cl.uzh.ch/siclemat/lehre/papers/Hess2005.pdf. 96

[Hopcroft et al. 2002] Hopcroft, John E., R. Motwani und J. D. Ullman (2002). Ein-führung in die Automatentheorie, Formale Sprachen und Komplexitätstheorie. Pearson Stu-dium, München, 2. überarbeitete Aufl. 96

[ICL 2011a] ICL (2011a). Informationen zur Leistungsüberprüfung für Bachelorstudierende,http://www.cl.uzh.ch/siclemat/lehre/papers/ICL2011.pdf. 9

[ICL 2011b] ICL (2011b). Informationen zur Leistungsüberprüfung für Lizentiatsstudierende,http://www.cl.uzh.ch/siclemat/lehre/papers/ICL2011a.pdf. 9

[Kallmeyer 2005] Kallmeyer, Laura (2005). Part I: Lexicalized Tree Adjoining Grammars(LTAG), http://www.sfb441.uni-tuebingen.de/~lk/TAG-SEMINAR/ext-cfg.pdf. 96

[Kassensturz 2006] Kassensturz (2006). Sendung Kassensturz vom 10. Oktober ,http://www.cl.uzh.ch/siclemat/lehre/papers/Kassensturz2006.mov. 11

[Liberman und Church 1992] Liberman, Mark und K. W. Church (1992). Text Analy-sis and Word Pronunciation in Text-to-Speech Synthesis, In: Furui, Sadaoki und M. M.Sondhi, Hrsg.: Advances in Speech Signal Processing, S. 791–832. Marcel Dekker, New York.78

[Linke et al. 2001] Linke, Angelika, M. Nussbaumer und P. R. Portmann, Hrsg. (2001).Studienbuch Linguistik. Niemeyer, Mit interaktivem Lernprogramm auf CD-ROM. 30

[MARY 2006] MARY, Male (2006). Hörbeispiel Sprachsynthese: Emotionaler Fussballrepor-ter , http://www.cl.uzh.ch/siclemat/lehre/papers/MARY2006.mp3. 88

[ORF 2007a] ORF (2007a). Hörbeispiel 1: Sprechender Fahr-plan Salzburg, http://salzburg.orf.at/magazin/leben/stories/73906/,http://www.cl.uzh.ch/siclemat/lehre/papers/ORF2007a.mp3. 88

99

Page 100: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

[ORF 2007b] ORF (2007b). Hörbeispiel 3: Sprechender Fahr-plan Salzburg, http://salzburg.orf.at/magazin/leben/stories/73906/,http://www.cl.uzh.ch/siclemat/lehre/papers/ORF2007.mp3. 88

[Palmer 2000] Palmer, David D (2000). Tokenisation and Sentence Segmentation, In: Dale,Robert, H. Moisl und H. Somers, Hrsg.: Handbook of natural language processing, S. 11–35. New York. 28

[Pfister und Kaufmann 2008] Pfister, Beat und T. Kaufmann (2008). Sprachverar-beitung: Grundlagen und Methoden der Sprachsynthese und Spracherkennung, Springer-Lehrbuch. Springer, Berlin. 88

[Plaehn 1998] Plaehn, Oliver (1998). ANNOTATE: Bedienungsanleitung,http://www.cl.uzh.ch/siclemat/lehre/papers/Plaehn1998a.pdf. 40

[Plaehn 2000] Plaehn, Oliver (2000). ANNOTATE v3.6 – Quick Reference,http://www.cl.uzh.ch/siclemat/lehre/papers/Plaehn2000.txt. 40

[Raggett 2001] Raggett, Dave (2001). Dave Raggett’s Introduction to VoiceXML 2.0 , http://www.w3.org/Voice/Guide/. 87

[Schiller et al. 1999] Schiller, Anne, S. Teufel und C. Stöckert (1999). Guidelines fürdas Tagging deutscher Textcorpora mit STTS (Kleines und großes Tagset), http://www.ims.uni-stuttgart.de/projekte/corplex/TagSets/stts-1999.pdf. 33

[Schmid 2006] Schmid, Helmut (2006). TreeTagger , http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html. 21

[Shieber 1985] Shieber, Stuart M. (1985). Evidence Against the Context-Freeness of Natu-ral Language, Linguistics and Philosophy, 8:333–343, http://www.eecs.harvard.edu/~shieber/Biblio/Papers/shieber85.pdf. 96

[Simmons 2006a] Simmons (2006a). Hörbeispiel ToBi: Bloo-mingdales, http://anita.simmons.edu/~tobi/chap2-7/chapter2-7.htm,http://www.cl.uzh.ch/siclemat/lehre/papers/Simmons2006a.mp3. 7, 82

[Simmons 2006b] Simmons, Anita (2006b). Sound-Datei zu Beispielsatz ”There ‘s alovely one in Bloomingdale.“, http://anita.simmons.edu/~tobi/chap2-7/bloomingdales1.wav,http://www.cl.uzh.ch/siclemat/lehre/papers/Simmons2006.mp3. 82

[Steiner 2003] Steiner, Petra (2003). Das revidierte Münsteraner Tagset / Deutsch(MT/D). Beschreibung, Anwendung, Beispiele und Problemfälle, http://santana.uni-muenster.de/Publications/tagbeschr_final.ps. 33

[Stocker et al. 2004] Stocker, Christa, D. Macher, R. Studler, N. Bubenhofer,D. Crevlin, R. Liniger und M. Volk (2004). Studien-CD Linguistik: Multimediale Ein-führungen und interaktive Übungen zur germanistischen Sprachwissenschaft, Max NiemeyerVerlag, http://www.ds.uzh.ch/studien-cd. 32, 43

[Tjong Kim Sang und Buchholz 2000] Tjong Kim Sang, Erik F. und S. Buchholz(2000). Introduction to the CoNLL-2000 Shared Task: Chunking, In: Cardie, Claire,W. Daelemans, C. Nedellec und E. Tjong Kim Sang, Hrsg.: Proceedings of CoNLL-2000 and LLL-2000 , S. 127–132. Lisbon, Portugal. 75, 76

100

Page 101: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

[Traunmüller 1997] Traunmüller, Hartmut (1997). Geschichte der Sprachsynthese, http://www.ling.su.se/staff/hartmut/kempln.htm. 12

[Turing 1950] Turing, A. M. (1950). Computing Machinery and Intelligence, Mind,59(236):433–460, http://cogprints.org/499/00/turing.html. 17

[Universitätsrat 2004] Universitätsrat (2004). Richtlinie über die Umsetzungdes Bologna-Prozesses an der Universität Zürich, http://www.sae.uzh.ch/dokumente/ARichtlinieUZH.pdf. 10

[Volk und Schneider 1998] Volk, Martin und G. Schneider (1998). Comparing a sta-tistical and a rule-based tagger for German, In: Proceedings of KONVENS-98 , S. 125–137,Bonn. http://www.cl.uzh.ch/siclemat/lehre/papers/VolkSchneider1998.pdf. 57

[Weisser 2005] Weisser, Martin (2005). Computational Philology, http://ell.phil.tu-chemnitz.de/compPhil/intro.html [cited Mittwoch, 11. Oktober 2006]. 13

[Wikipedia 2007] Wikipedia (2007). Harmonic mean — Wikipedia, The Free Encyclopedia,http://en.wikipedia.org/w/index.php?title=Harmonic_mean&oldid=107249796. 67

[Wikipedia 2009] Wikipedia (2009). Kognitionswissenschaft — Wikipedia, Die freie Enzyklo-pädie, http://de.wikipedia.org/w/index.php?title=Kognitionswissenschaft. 17

101

Page 102: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Index

10-fache Kreuzvalidierung, 60

Ableitung, 94Ableitungsrelation, 95Adjektiv-Flexion, 37Allophonsynthese, 83Assimilation, 85Aussprachewörterbuch, elektronisch, 79

Computerlinguistik, 11

Dependenz, 47Dialogsystem

Conversational User Interface, 87Interactive Voice Response System, 87Kommandowortsystem, 86

Diphon, 83

Editierdistanz, minimal, 86Einsetzprobe, 38Ersatzprobe, 38Evaluation, 59

F-Measure, 62, 75

Genus, 35Grad, 37Grammatik, 89Grundfrequenzverlauf, 82

IOB-Chunks, 64, 75IPA, 15

Junktur, 85

Kasus, 36Kern, 46Koartikulation, 85Kognitionswissenschaft, 17Komparation, siehe GradKonstituente, 43, 91Konstituentenanalyse, 43, 91Konstituentenanalyse, automatisch, 93

Konstituenz, 43, 91Koordination, 51Kopf, 46

Lemma, 31Lemmatisierung, 39Levenshtein Editierdistanz, siehe Editierdi-

stanz, minimalLexem, 31Lexemverband, 31Linguistik, 15

Merkmal, morphologisch, 34Modus, 36Morphologie, 16Morphologieanalyse, 39Morphologiegenerierung, 39

Named Entity Regonition, 27NER, 27Numerus, 35, 37

Oronym, 85

Parser, 93partielle syntaktische, 63, 70Person, 37Phonem, 15Phonetik, 15Phonologie, 15Pragmatik, 16Precision, 61, 74Probe, linguistisch, 38

Qualität einer Evaluation, 59

Recall, 60, 74Regeln, phonologisch, 81regulärer Ausdruck, 22Reliabilität, 59

Satz, 43

102

Page 103: HS2012:EinführungindieComputerlinguistik I...Linguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen der Sprache ( gesprochene Sprache und Schrift

Satz, formal, 95Schallwellen, 82Semantik, 16Silbentrennung, 26Sprache, formal, 95Spracherkennungssystem, 84Sprachsynthesesystem, 77Sprachtechnologie, 12Syntaktische Funktion, 47Syntax, 16

Tag-Set, 55Tagging-Genauigkeit, 59Tempus, 36Text-Segmentierung, 20Token, 30TTS, siehe Sprachsynthesesystem

Umformungsprobe, 42

Validität, 59Verschachtelte Chunks, 64, 76Verschiebeprobe, 42volle syntaktische, 70

Weglassprobe, 41WER, siehe WortfehlerrateWort, 19, 29Wort,syntaktisch, 31Wortakzent, 81Wortarten, 32Wortarten-Tagger, 54Wortfehlerrate, 86Wortform, 30

XML-Standard, 23

103