88
HS 2016: Einführung in die Computerlinguistik I Simon Clematide [email protected] Hinweis: Dieses Skript umfasst nur den Stoff, der von Simon Clematide unterrichtet wurde. Dieses Lauftext- skript wurde automatisch aus den Vorlesungsfolien generiert und ist deshalb bezüglich Layout und Formulie- rungen nicht für Fliesstext optimiert. Version von 4. November 2016 PDF-Skript: http://www.cl.uzh.ch/siclemat/lehre/hs16/ecl1/script/script.pdf OLAT-Seite: https://lms.uzh.ch/url/RepositoryEntry/16112484562 Universität Zürich Institut für Computerlinguistik Binzmühlestr. 14 8050 Zürich 1

HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide [email protected] Hinweis:DiesesSkriptumfasstnurdenStoff

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff

HS 2016 Einfuumlhrung in die Computerlinguistik I

Simon Clematidesimonclematidecluzhch

Hinweis Dieses Skript umfasst nur den Stoff der von Simon Clematide unterrichtet wurde Dieses Lauftext-skript wurde automatisch aus den Vorlesungsfolien generiert und ist deshalb bezuumlglich Layout und Formulie-rungen nicht fuumlr Fliesstext optimiert

Version von 4 November 2016PDF-Skript httpwwwcluzhchsiclematlehrehs16ecl1scriptscriptpdfOLAT-Seite httpslmsuzhchurlRepositoryEntry16112484562

Universitaumlt ZuumlrichInstitut fuumlr ComputerlinguistikBinzmuumlhlestr 148050 Zuumlrich

1

Inhaltsverzeichnis

1 Organisatorisches 511 Organisatorisches 5

111 Leistungsnachweis 6112 Lernen und Lehren 6

12 Kontrollfragen 7

2 Tokenisierung 821 Tokenisierer 8

211 Grundproblem 8212 Kodierung 9213 Programme 11

22 XML 1423 Tokenisierung 16

231 Problem 16232 Punktdisambiguierung 17233 Normalisierung 18234 NER 19

24 Multilingualitaumlt 1925 Vertiefung 21

3 Linguistisches Propaumldeutikum I 2331 Wort 23

311 Token 24312 Wortform 24313 synt Wort 24314 Lexem 25

32 Wortarten 26321 5 Hauptwortarten 26322 UD 27323 STTSPTTS 30

33 Merkmale 31331 Genus 32332 Zahl 33333 Kasus 33334 Modus 33335 Zeit 34336 Person 34337 Grad 34338 Flexion 34

1

34 Proben 35341 Ersetzen 35342 Einsetzen 36

35 Morphologie 36351 LemmatisierungMorphologieanalyse 37352 Morphologiegenerierung 39

36 Vertiefung 39

4 Linguistisches Propaumldeutikum II 4141 Proben 42

411 Weglassen 42412 Verschieben 43413 Umformen 43

42 Satz 44421 Satzglieder 44422 Koumlpfe 44

43 Syntaxanalyse 45431 Konstituenz 45432 Dependenz 47433 UD-DE 48434 Suche 52

44 Ambiguitaumlt 5345 Vertiefung 53

5 Endliche Automaten 5451 Formale Sprachen 55

511 Mengen 55512 Zeichen 55513 Sprachen 56

52 EA und regulaumlre Sprachen 58521 Konkatenation 60522 Regulaumlre Ausdruumlcke 61

53 Transduktoren 64

6 Flache Satzverarbeitung 6661 Tagging 66

611 Probleme 68612 Fallstudie TnT-Tagger 70

62 Evaluation 72621 Zweck 73622 Accuracy 73623 Lernkurven 74624 Recall 74625 Precision 75626 F-Measure 75

63 Chunking 76631 Abney 77632 IOB-Chunk 77633 Verschachtelte Chunks 78

64 Vertiefung 78

2

65 Exkurs Evaluation binaumlrer Klassifikatoren 79651 TPFPFNTN 79652 Fehlerparadoxe 80653 Unterschiede 80654 Mittelwerte 81655 Vertiefung 81

3

Abbildungsverzeichnis

21 Navigationselemente der Web-Site der Olympischen Spiele 2008 922 Schematische Darstellung der Verschachtelung der XML-Tags 1423 Demo von Standford Temporal Tagger Eingabeformular 2024 Demo von Standford Temporal Tagger Resultatsdarstellung in XML 2025 N-Gramm-Profile nach [Cavnar und Trenkle 1994] 21

31 5 Hauptwortarten nach Glinz 2632 Deutsche UD-Baumbank 2833 CoNLL-U und CoNLL-X 3034 Hauptkategorien von STTS 3135 Hauptkategorien des PTTS 32

41 Moderne Satzgliedlehre 4442 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung 4543 Beispielsatz mit allen zu annotierenden NP- und S-Knoten 4644 Syntaktische Funktion in der NEGRA-Darstellung 4745 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm) 4846 Beispielsatz mit allen zu annotierenden NP- und S-Knoten 52

51 Sprache mit 3 WoumlrternZeichenketten 5852 Deterministischer EA 5953 Formale Sprachen regulaumlre Ausdruumlcke und endliche Automaten 63

61 Tagging-Ambiguitaumltsraten aus der Frankfurter Rundschau 6962 Training Tagging und Evaluation mit dem TnT-Tagger 7163 Tnt-Evaluation an Penn Treebank durch Thorsten Brants 7564 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants 7665 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid 7766 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid 7767 F-Mass in dreidimensionaler Darstellung 8268 Arithmetisches vs harmonisches Mittel 83

4

Kapitel 1

Organisatorisches

11 OrganisatorischesInhalt der Vorlesung ECL I

bull bdquoEinfuumlhrung in die Computerlinguistik I (+ II)ldquo geben eine Uumlbersicht uumlber die wichtigstenpraktischen und theoretischen Ziele der Computerlinguistik

bull Vorgestellt werden texttechnologische Grundlagen (Textsegmentierung Wortartenbestim-mung Syntaxanalyse) und wichtige Anwendungen (Maschinelle Uumlbersetzung Sprachsyn-these Spracherkennung Textsuche Informationsextraktion)

bull Im Kurs integriert ist ein linguistisches Propaumldeutikum wo das notwendige grammati-kalische Wissen im Rahmen computerlinguistischer Annotation aufgefrischt bzw vertieftwird

bull Keine Programmiersprachenkenntnisse vorausgesetzt

Kurs-Leitseite im WWW und Lehrmaterialien

OLAT-Campus-Kurs ldquo16HS 5200010 CL EV Einfuumlhrung in die Computerlinguis-tik Irdquo1

bull Wer belegt diese Vorlesung via Modul ldquoIntroduction to Computational Linguistics PartIrdquo

bull Folien als PDF-Dokumente unter ldquoMaterialienrdquo (4up-Format zum Ausdrucken fuumlr VL-Teilvon Clematide) nach der Vorlesung verfuumlgbar

bull Lauftextversion des Folienskripts (PDF-Dokument) mit Index und Ergaumlnzungen fuumlr Pruuml-fungsvorbereitung2

Kursbuch (3 Auflage) [Carstensen et al 2009]3Computerlinguistik und Sprachtechnologie Eine Einfuumlhrungrarr Pflichtlektuumlren stehen auf OLAT als PDF zur Verfuumlgung

1httpslmsuzhchurlRepositoryEntry161124845622 httpwwwcluzhchsiclematlehrehs16ecl1scriptscriptpdf3httpwwwlinguisticsruhr-uni-bochumdeCLBuchbuchhtml

5

111 Leistungsnachweis

6 obligatorische schriftliche Uumlbungen (SU)

Bewertungprinzip Punkte SU = Note SU = 25 der Modulnote

Punktzahl pro UumlbungBestanden 1 Punkt

Halb bestanden 05 PunkteNicht-Bestanden 0 Punkte

Note SU = Summe der Punkte aus den 6 Uumlbungen

bull Uumlbungsausgabe donnerstags 18h (Information via OLAT-Mailversand)

bull Loumlsungsabgabe spaumltestens mittwochs 18h

bull Einige Uumlbungen werden Sie stark fordern Sie duumlrfen maximal zu zweit arbeiten Lern-partnerschaft muss deklariert sein bei der Abgabe

bull Keine Musterloumlsungen Dafuumlr Frage- und Diskussionsgelegenheit sowie Nachbesprechungin Uumlbungsstunde oder im Forum auf OLAT

bull Freiwilliges Tutorat freitags 1215-1345h im Raum AND AND-3-02

bull Start in 2 Semesterwoche (PCL-I-Tutorat bereits in 1 Semesterwoche)

Schriftliche Pruumlfung

bull Zeit Donnerstag 19 Januar 2017 von 1615 - 1800h

bull Dauer 90 Minuten

bull Stoff Skript Uumlbungen Pflichtlektuumlren

112 Lernen und Lehren

E-Learning und Uumlbungen

CLab httpclabcluzhchFuumlr einige Uumlbungen benutzen wir Lerneinheiten aus unserem interaktiven web-basierten Computerlinguistik-Laboratorium (CLab)

Applikationen auf CL-Linux-Server r2d2cluzhchEinzelne Uumlbungsteile nutzen CL-Tools auf unserem Studierenden-Server der uumlber SSH (SecureShell bzw Putty (Win)) zugaumlnglich ist Installationshilfe fuumlr Win dazu im Tutorat zu bdquoPro-grammiertechniken der CLldquo diesen Freitag 14-1545h

Virtuelle Linux-Maschine (25GB) httpkittcluzhchCLHS16ovaIm PCL-I-Tutorat der 1 Woche wird auch die VM (virtuelle Maschine) mit Linux erklaumlrtwelche die wichtigste Software fuumlr PCLECL vorinstalliert enthaumllt und auf allen Plattformen(Win MacOS) frei benutzbar ist (virtualboxorg) Fuumlr SSH benutzbar (Link ab Freitag guumlltig)

6

Anforderungen und Ruumlckmeldungen

bull Nutzen Sie die Uumlbungsstunden

bull Fragen Sie bei den Mitstudierenden nach (OLAT-Forum)

bull Wenden Sie sich an die Uumlbungsverantwortlichen

bull Geben Sie den Dozierenden Ruumlckmeldungen zu Unklarheiten und Problemen im KursDirekt nach der Stunde oder via Mail Wir machen diese Veranstaltung nur fuumlr Sie

Hochrechnung zum Workload fuumlr 6 ECTS-Punkte

ldquoBei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand beruumlck-sichtigt der fuumlr das Erreichen einer genuumlgenden Pruumlfungsleistung erforderlich istrdquo (sect14Abs 2)

ldquoEin ECTS-Punkt entspricht einer Studienleistung von 30 Stundenrdquo (sect13 Abs 2)

[Universitaumltsrat 2004]

bull Praumlsenz in Vorlesung Uumlbungsstunde und schriftlicher Pruumlfung

2times 15times 2h = 60h

bull Zeit pro Woche fuumlr (Pflicht-)Lektuumlre Loumlsen der schriftlichen Uumlbungen und Pruumlfungsvor-bereitung

180hminus 60h15 = 8h

12 KontrollfragenKontrollfragen

bull Welche Buchungsfristen fuumlr Sie relevant Bis wann koumlnnen Sie sich noch einschreibenbzw das Modul stornieren

bull Wie viele SU muumlssen Sie bestehen damit eine 45 in der schriftlichen Pruumlfung noch aufeine 5 aufgerundet wird

bull Wieso sollten Sie die Uumlbungsstunde besuchen

bull Welche Hauptthemen werden in dieser Vorlesung besprochen

7

Kapitel 2

Tokenisierung Automatische Satz-und Wortsegmentierung

Lernziele

bull Kenntnis uumlber die Kodierung sprachlicher Zeichen

bull Kenntnis uumlber den Zweck und die Probleme der textuellen Vorverarbeitung von natuumlrlicherSprache Text-Segmentierung und Text-Normalisierung

bull Kenntnis uumlber XML zur Repraumlsentation von Text und Segmentstruktur

bull Kenntnis uumlber Methoden der Punktdisambiguierung und Satzendeerkennung

bull Kenntnis uumlber Textnormalisierung und Erkennung von interessierenden Groumlssen (NamedEntity Recognition)

bull Kenntnis und Umgang mit regulaumlren Ausdruumlcken

21 Tokenisierer

211 Grundproblem

Woumlrter aus linguistischer Sicht

Definition 211 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprach-lich verwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftli-che Definitionsversuche uneinheitlich und kontrovers sind

Was ist ein Wort

1 ZB nahm sie am Text Mining Workshop teil

2 Das gibtrsquos doch nicht ldquoJooprdquo ist pleite

3 Blick Online verlost zum Film-Start das laquoIch bin Boratraquo-Kit

Wort-Segmentierung in nicht-segmentierten Schreibsystemen

8

Abbildung 21 Navigationselemente der Web-Site der Olympischen Spiele 2008

Rohtexte aus Computersicht Welt der Bytes

$ hexdump dateitxt0000000 57 61 73 20 62 65 69 6e 68 61 6c 74 65 74 20 730000010 69 65 3f 0a0000014

(Der Dateiinhalt ist als Dump1 im Hexadezimalformat wiedergegeben dh jedes Zeichen inForm seines Zeichenkodes als Hexadezimalzahl)Beispiel 212 (Folge von Zeichenkodes in Hexadezimalnotation)Wie viele und welche Woumlrter enthaumllt der folgende Datei-Inhalt57 61 73 20 62 65 69 6E 68 61 6C 74 65 74 20 73 69 65 3F 0A

212 Zeichenkodierung

Was ist ein Zeichen auf dem Computer

bull Traditionell ein Byte dh eine Folge von 8 BitsWas ist ein Bit Binaumlre Entscheidung (0 oder 1)

bull Ein Byte kann als Zahl interpretiert werden indem die Position eines Bits als Stelle imBinaumlrsystem aufgefasst wird 0100rsquo0001

bull Eine Zahl kann als BuchstabeZeichen interpretiert werden indem eine Kodierungskon-vention aufgestellt wird ZB rsquoArsquo=65 rsquorsquo=64 rsquo1rsquo=49

bull Verbreitete Kodierungskonventionen (engl charset) ASCII (128 Zeichen fuumlr Englisch)iso-latin-1 (256 Zeichen fuumlr westeuropaumlische Sprachen)

bull Typische Speicherung bei ASCII und iso-latin-1 1 Zeichen = 1 Byte

Binaumlres und Hexadezimales Stellensystem

1 Byte als binaumlre Zahlen (= 8 Bits)

__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8

__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8

Jedes Kaumlstchen = 1 Bit

4-stellige hexadezimale Zahl (= 4 Bytes)1Zum Beispiel mit dem Befehl $ hexdump dateitxt

9

__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8

__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8

Jedes Kaumlstchen = 1 Byte

Die 128 ASCII-Kodes

Die 128rsquo172 Unicode-Kodes

Moderne universale Kodierungskonvention httpwwwunicodeorgUNICODE(ISOIEC 10646) Version 90 Kodes fuumlr 128rsquo172 Zeichen in fast allen Schriftsystemender WelthttpwwwunicodeorgstandardWhatIsUnicodehtml

GRINNING FACE

bull Kode 128512 (Hexadezimal 1F600)

bull UTF-8 Byte-Repraumlsentation F0 9F 98 80

bull~ In UTF-8 sind nur Unicode-Kodes von ASCII-Zeichen direkt in ihrer Binaumlrzahl-Repraumlsentationgespeichert

10

Was ist ein Zeichen auf dem Computer UTF-8-Format

bull Speicherung bei UNICODE UTF (Abk fuumlr Unicode Transformation Format) beschreibtMethoden einen Unicode-Kode auf eine Folge von Bytes abzubilden

bull UTF-8 (Abk fuumlr 8-bit Universal Character Set Transformation Format) Ordnet jedemUnicode-Zeichen eine speziell kodierte Bytefolge von variabler Laumlnge zu UTF-8 unter-stuumltzt bis zu 4 Byte pro Zeichen

bull Dateiformat XML-Dateien sind defaultmaumlssig UTF-8 kodiert Bei andern Dateien mussman es wissen

bull Jede ASCII-Datei ist auch eine UTF-8-Datei (Ruumlckwaumlrtskompatibilitaumlt)

bull Darstellung Zeichensaumltze (engl fonts) enthalten die graphischen Formen (glyphs) damitdas Betriebssystem die Kodes fuumlrs Auge darstellen kann

bull Konversionswerkzeuge ZB GNU-Kommandozeilentool iconv

Textkonversion mit iconv

Verlustfreie Textkonversion nach UTF-8

$ iconv -f EXOTISCHEKODIERUNG -t UTF-8 lt INPUT gt OUTPUT

Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen laumlsst sich auch Text-Normalisierung durch ldquoTransliterationrdquo2 durchfuumlhren

$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIITRANSLITKlosschen

Das Loumlschen von nicht-repraumlsentierbaren Zeichen ist meist weniger nuumltzlich

$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIIIGNOREKlchen

213 Programme

Grundproblem Vom Zeichenstrom zur Folge von Tokens

RohdatenRohe elektronische Sprachdaten liegen in Dateien vor welche nichts anderes als eine Folge vonkodierten Einzelzeichen dh ein kontinuierlicher Zeichenstrom sind

Token Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung Wortkorrektur morphologische Analyse Lexikonzugriff syn-taktische Analyse

Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)

2~ Das Ergebnis kann von Landeseinstellungen (locale) abhaumlngig sein

11

bull Konsumieren der Zeichenfolge (Eingabe)

bull Gruppieren und allenfalls normalisierenmodifizieren der Zeichen (Verarbeitung)

bull Produzieren einer Folge von Tokens (Ausgabe)

Typische Beispiele fuumlr Tokenisierer Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text dh 1 Token pro Zeile Saumltzesind durch Leerzeilen voneinander abgetrennt

Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhaumlngiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkuumlrzungsdatei(ger-abbrev)

$ cat filetxtBachrsquosche Musikmag Dr Fritz Ja

$ cat ger-abbrevDrusw

$ utf8-tokenizeperl -a ger-abbrev filetxtBachrsquoscheMusikmagDrFritz

Ja

Typische Beispiele fuumlr Tokenisierer Regulaumlre AusdruumlckeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PythonPERL oder Finite-State Tools welche einen einfachen Umgang mit regulaumlren Ausdruumlcken er-lauben

Definition 213 (Regulaumlre Ausdruumlcke (engl regular expressions)) Ein regulaumlrer Ausdruck isteine relativ standardisierte Kurz-Notation um Zeichenketten mit bestimmten Eigenschaften zubeschreibenPraktisch eingesetzt werden sie fuumlr die nicht-woumlrtliche Suche (engl pattern matching) Suchen-und-Ersetzen und Segmentieren von Zeichenketten

Einfuumlhrung in regulaumlre AusdruumlckeZB in unserem CLab httpwwwcluzhchclabregex

12

Tokenisierer in der ProgrammiersprachePython

Tokenisierer mit regulaumlren Ausdruumlcken

bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben

bull Einfach anpassbar auf die Textsorte

bull Fuumlr uumlberschaubare Textmengen empfohlen

bull Vorteil Machen dieselben Fehler konsequent

bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung

Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])

1 Rohtext

This is an example There are two sentences

2 XML-Input fuumlr Tokenisierer (Vortokenisierung)

ltdocumentgtlttextgt

ltpgtThis is an example There are two sentences

ltpgtlttextgt

ltdocumentgt

3 XML-Tokenisat

ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt

13

ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt

Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert

Verschachtelung im XML-Stil

ltdocumentgtlttextgt

ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example

ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences

Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags

22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation

bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs

bull httpstubeswitchchvideos60fc01f1

XML (eXtensible Markup Language)

Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann

14

XML in der Texttechnologie

bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)

bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten

bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben

Aufbau von XML-Dokumenten

Elemente und ihre Attribute

bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt

bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)

bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt

bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt

bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt

bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt

Zeichenreferenzen und Entity-Referenzen

Entitaumlten und Referenzen

bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden

bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal

bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den

Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38

Newline amp9Σ ampx3a3

15

23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen

231 Problem

Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt

bull Wort-Zeichen [a-zA-Z0-9]

bull Einzel-Zeichen [)(rsquo$-]

bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]

ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo

Schwierigkeiten der Wortsegmentierung im engen Sinn

Schwierige Zeichen

bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim

bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr

bull Bindestriche semble-t-il rarr semble + -t-il

bull Punkte SAC

bull Masseinheiten 30 rarr 30 + 28 rarr 28 +

bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que

Teilprobleme der Tokenisierung im weiten Sinn

bull Umgang mit Markup (HTML-Tags Formatierungszeichen)

bull Erkennung der ldquonormalenrdquo Tokengrenzen

bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)

bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)

bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)

bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)

16

232 Punktdisambiguierung

Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben

Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert

Verschmelzung

bull It was due Friday by 5 pm Saturday would be too late

bull Ich kenne die USA Frankreich kenne ich nicht

WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig

Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls

bull das Token in einer Abkuumlrzungsliste steht

bull nach dem Token eines der Zeichen aus [a-z] folgt

bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht

bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt

Nach [Grefenstette und Tapanainen 1994]

LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen

Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen

Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN

1 Wie viele Zeichen umfasst TOKEN

2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale

3 Wie oft kommt TOKEN ohne Punkt vor

4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor

5 Wie oft kommt NEXTTOKEN kleingeschrieben vor

17

Satzsegmentierung mit maschinellen Lernverfahren

bull Fuumlr grosse Textmengen empfohlen

bull Nachteil Unsystematische Fehler koumlnnen auftreten

Statistisches System PUNKT ([Kiss und Strunk 2006])

bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten

bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt

iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte

233 Zeichen- und Token-Normalisierung

Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen

Normalisierung bei Suchmaschinen und anderen Anwendungen

bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich

bull 4897 4-8-97 4897 8497

bull 19000 19rsquo000 19 000 19000

bull Louisa Luise Louise Luisa

bull doesnrsquot does not

Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)

bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt

bull Hollaumlndisch chocola-tje rarr chocolaatje

Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen

18

Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung

Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens

615 5 Ruumlckbau in neue Tokens

Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus

Ruumlckgaumlngig machen von Worttrennung am Zeilenende

Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens

Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch

234 Named Entity Recognition

Named Entity Recognition

Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen

Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen

Kanonische Formen und Entity Linking

bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo

bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo

Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3

Demo Time Expression Recognition (TIMEX task)

24 MultilingualitaumltMultilinguale Dokumente und Systeme

Herausforderung Multilingualitaumlt

bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess

19

Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular

Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML

bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig

bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut

bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet

bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut

Ansatz von [Cavnar und Trenkle 1994]

20

1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten

2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)

3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil

4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm

5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand

N-Gramm-Profile und Profilabstand

Quelle [Cavnar und Trenkle 1994]

Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]

25 VertiefungZum Thema ldquoTokenisierungrdquo

bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28

bull Pflichtlektuumlre [Carstensen et al 2009 341]

bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]

Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)

bull httpwwwcluzhchclabregex

Zum Thema ldquoXMLrdquo

21

bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1

bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]

Zusammenfassung

bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen

bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen

bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen

bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung

bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar

bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen

bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden

Kontrollfragen

bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention

bull Welche Probleme stellen sich bei der Tokenisierung

bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung

bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten

bull Was versteht man unter NER

bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle

22

Kapitel 3

Linguistisches Propaumldeutikum I

Lernziele

bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen

bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg

bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch

bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte

bull Kenntnis und Anwendung linguistischer Proben

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten

bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung

31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs

Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind

Praumlzisierungsversuche des Wort-Begriffs

bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment

bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit

bull Morphologisch Grundeinheit welche flektierbar ist

bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist

bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes

23

Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach

Antworten 4 5 6 9 __

311 Token

Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9

Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText

BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann

312 Wortform

Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes

Identische Wortformen mit unterschiedlicher Bedeutung

bull Die Fliege war tot

bull Er trug eine samtene Fliege

bull Fliege nicht so schnell

313 Syntaktisches Wort

Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6

Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst

Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural

24

314 Lexem

Antwort 5 Wort als Lexem

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden

Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem

Lexikographische Notationskonventionen

Wie sehen Verb-Lemma in DeutschenLatein aus

Antwort 4 Wort als Lexemverband

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4

Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert

Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln

Stufen der Abstraktion Vom Text zum Lexemverband

bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)

bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)

bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen

bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden

bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird

25

32 Lehre von den WortartenWortarten nach [Bussmann 2002]

Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien

Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb

5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det

321 5 Hauptwortarten nach Glinz

Klassifikationskriterien

Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]

Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

26

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

322 UD

Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)

Universal Part-of-Speech Tagset (Version 1)1

12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish

ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo

Universal Part-of-Speech Tagset (Version 2) UPOS2

Version 2 hat 17 POS-Tags

+ Eigennamen (PROPN) (vorher NOUN)

+ Hilfsverben (AUX) (vorher VERB)

+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)

+ Symbole (SYM) (vorher X)

+ Interjektionen (INTJ) (vorher PRT)

= Partikel (PART) (vorher PRT)

= Interpunktion (PUNCT) (vorher )

Baumbanken sind fuumlr 51 Sprachen verfuumlgbar

27

Abbildung 32 Deutsche UD-Baumbank

UD V13 fuumlr Deutsch

NDurchsuchen

bull Suche nach Wort spaumlter

bull Nach Wort+Wortart spaumlterampADV

UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml

Mehrdeutigkeiten Unklarheiten Fehlannotationen

Linguistische Annotation und Automatisierung

Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form

Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml

28

bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)

bull Vollautomatisch Schnell billig fehlerbehaftet

bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile

Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml

N CoNLL-Format Spaltenformat fuumlr Annotationen3

bull Vertikalisierter Text

bull 1 Token pro Zeile

bull Saumltze mit Leerzeile getrennt

bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation

bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet

Bedeutung relevanter Spalten

1 Tokennummer (1-basierte Zaumlhlung) pro Satz

2 Wortform (Token)

3 Lemma

4 Grobe Wortklasse (coarse-grained part-of-speech tag)

5 Feine Wortklasse (fine-grained part-of-speech tag)

6 Morphosyntaktische Merkmale

7 Syntaktischer Kopf als Tokennummer

8 Dependenztyp

CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo

Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token

3httpuniversaldependenciesorgformathtml

29

Abbildung 33 CoNLL-U und CoNLL-X

Manuelle Annotation mit WebAnno und Exportformate

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

323 Feine Tagsets

Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis

bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags

bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert

bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch

bull Alternativen Muumlnsteraner Tagset [Steiner 2003]

Wieso ist das STTS wichtig

bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)

ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel

bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo

30

Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts

Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken

33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale

Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden

Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems

bull Konjugation von Verben

bull Deklination von Nomen Adjektiven Artikeln und Pronomen

bull Steigerung von Adjektiven (und wenigen Adverbien)

Diskussion Sind steigerbare Adverbien ein Widerspruch im System

Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet

31

Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts

Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn

331 Genus

Das Genus (UD Gender) Grammatisches Geschlecht

Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien

Tabelle 31 Uumlbersicht Genera

BemerkungDer Plural von Genus lautet Genera

Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt

Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen

Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind

Deutsch

32

Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur

AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas

332 Numerus

Der Numerus (UD Number) Grammatische Zahl

Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner

Tabelle 32 Uumlbersicht Numeri

BemerkungDer Plural von Numerus lautet Numeri

Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt

333 Kasus

Der Kasus (UD Case) FallUD-Kategorie Case

Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum

Tabelle 33 Uumlbersicht Kasus

BemerkungDer Plural von Kasus lautet Kasus

334 Modus

Der Modus (engl mode mood UD Mood) Aussageweise

Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh

Tabelle 34 Uumlbersicht Modi

In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi

33

335 Tempus

Das Tempus (UD Tense) grammatische Zeit Zeitform

Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging

Tabelle 35 Uumlbersicht Tempora

BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten

336 Person

Die Person (UD Person)

Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht

Tabelle 36 Uumlbersicht Personen

BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt

337 Grad

Der Grad (UD Degree) Steigerung Komparation

Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste

Tabelle 37 Uumlbersicht Komparation

BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt

338 Adjektiv-Flexion

Die Adjektiv-Flexion (engl adjective inflection)

BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven

Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet

34

Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse

Tabelle 38 Uumlbersicht Adjektiv-Flexion

Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern

UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt

Morphologische Englische UD-Annotation

1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _

34 Linguistische ProbenLinguistische Testverfahren

Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen

341 Ersatzprobe

Ersatzprobe

Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben

35

Beispiel 343 (Bestimmung des Kasus)

Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat

Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen

Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)

bull Das ist das Angebot das uns uumlberzeugt hat

bull Dieses ist das Angebot welches uns uumlberzeugt hat

bull Welches ist das Angebot dieses uns uumlberzeugt hat

bull Das ist dieses Angebot welches uns uumlberzeugt hat

Probleme der Interpretation

bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes

bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig

342 Einsetzprobe

Einsetzprobe

Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert

Beispiel 345 (Bestimmung der Wortart)

Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb

Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive

35 MorphologieMorphologische Ebene

Womit befasst sich die Morphologie Wortstruktur und Wortbildung

bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e

36

bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit

bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system

351 LemmatisierungMorphologieanalyse

Lemmatisierung und Morphologieanalyse

Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen

Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma

Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo

Analysen von GERTWOL5

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Probleme morphologischer Analysen Mehrdeutigkeit

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM

Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol

37

bull ldquoeinerdquo als

bull ldquoMuumlllerrdquo als Eigenname oder Substantiv

Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus

Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1

Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile

Probleme morphologischer Analyse

googelte

UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter

Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM

ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat

Lieblingsbeerelieb~lingsbeere S FEM SG NOM

Erdbeereerdbeere S FEM SG NOM

Fingerbeerenfingerbeere S FEM PL NOM

UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung

38

Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas

Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]

Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent

352 Morphologiegenerierung

Generierung von syntaktischen Wortformen

Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation

Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|

Person=2|Tense=Past|VerbForm=Fingingst

backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin

36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT

bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem

bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6

bull Die Website universaldependenciesorg hat einige Dokumentation

Zusammenfassung

bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet

bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte

bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme

bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen

6httpwwwdsuzhchstudien-cd

39

Kontrollfragen

bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo

bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2

bull Worin besteht Morphologieanalyse und -generierung

bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller

bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt

bull Was ist der Unterschied zwischen Lemma und Lexem

40

Kapitel 4

Linguistisches Propaumldeutikum II

Lernziele

bull Anwendung der klassischen syntaktischen Proben

bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf

bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte

bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen

bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug

Motivation 2 (halbwegs kompatible) Syntax-Welten

Konstituenten

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Dependenz

41

Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden

(NGoogles SyntaxNet)

41 Syntaktische ProbenKonstituentenproben

Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt

Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

411 Weglassprobe

Weglassprobe

Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten

Bestimmung eines Satzglieds

1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

FrageWarum nicht Variante 4

42

412 Verschiebeprobe

Verschiebeprobe

Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen

Bestimmung von Satzgliedern

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen bereite ich die Sitzung mit dem Chef vor

3 Ich bereite die Sitzung mit dem Chef morgen vor

Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb

Verschiebeprobe

Unzulaumlssiges Verschieben

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen ich bereite die Sitzung mit dem Chef vor

3 Die Sitzung bereite ich morgen mit dem Chef vor

413 Umformungsproben

Umformungsprobe

Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut

Funktion von Nebensaumltzen

1 Es wuumlrde mich freuen wenn du mitkaumlmest

2 Dein Mitkommen wuumlrde mich freuen

Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo

Infinitivumformung zur Subjekterkennung

1 Die Laumlrche ist ein Nadelbaum

2 ein Nadelbaum sein die Laumlrche

43

Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]

42 SatzSatz

Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist

Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten

421 Satzglieder

Moderne Satzgliedlehre

422 Koumlpfe (oder Kerne) von Konstituenten

Syntaktische Koumlpfe (engl head) Kern (engl kernel)

Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar

Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)

1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]

2 Sie rennt [mit dem Mobile hantierend] zum Kiosk

3 Es wird [viel zu oft] telefoniert

44

4 [Die Frau die zum Kiosk rannte ] war aufgeregt

5 Sie fuumlhlte sich [wie in einem schlechten Film]

6 Aber sie war auch [in einem ziemlich schlechten Film]

43 Syntaxanalyse

431 Konstituenz

Konstituenten und Konstituenz

Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist

Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten

Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten

Konstituenten in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

unmittelbare Dominanz

Konstituente auf Wortebene

Syntaktische Konstituente

Praumlzedenz auf Wortebene

Praumlzedenz zwischen Tochterkonstituenten

Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung

Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente

Konstituententypen

Typen von Konstituenten in TIGERNEGRA

1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen

45

2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern

3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern

4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern

5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern

6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern

7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo

Annotation von Relativsaumltzen

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen

Komplexe Konstituenz in der Penn-Treebank

Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white

Syntaxbaum aus der Vogelperspektive

In

IN

other

JJ

words

NNS

like

IN

automation

NN

machines

NNS

designed

VBN

-NONE-

to

TO

work

VB

in

IN

tandem

NN

they

PRP

shared

VBD

the

DT

same

JJ

programming

NN

a

DT

mutual

JJ

understanding

NN

not

RB

only

RB

of

IN

English

NNP

words

NNS

but

CC

of

IN

the

DT

four

CD

stresses

NNS

pitches

NNS

and

CC

junctures

NNS

that

WP

T

-NONE-

can

MD

change

VB

their

PRP$

meaning

NN

from

IN

black

NN

to

TO

white

NN

NP

PP

NP NP NP

PP

VP

VP

SBJ

S

VP

NP

PP

NP NP NP CONJP NP

PP

NP WHNP NP NP NP

PP

NP

PP

PP

VP

VP

SBJ

S

SBAR

NP

PP

PP

NP

NP

VP

SBJ

S

T

46

Quelle TIGERSearch-Demo-Korpora

Maximale Verschachtelungstiefe

432 Dependenz bzw syntaktische Funktion

Dependenz und syntaktische Funktion

Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten

Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen

HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt

Syntaktische Funktionen in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Syntaktische Funktion

Konstituenten

Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung

Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente

Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken

Einige Satzglieder mit TIGER-Funktion

bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein

47

Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)

bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)

bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)

bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)

bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator

bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb

Baumbankkonversion Von Konstituenz zu Dependenz

Automatische Konversion (NTIGER2Dep)

Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)

433 UD-DE-Modell

Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen

48

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

Generelle Philosophie des Universal-Dependency-Modells

bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig

bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV

bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum

bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden

bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der

bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)

bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens

Inhaltswoumlrter VERB und NOUN

Hinweisebull Spitze des Pfeils Abhaumlngiges Element

bull Startknoten des Pfeils Kopf

bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen

bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird

Das UD-Innenleben von Nominalphrasen

Hinweisebull Was ist der NP-Kopf

bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll

49

Komplexe Verb- und Adjektivphrasen

Hinweise

bull Hilfs- und Modalverben haumlngen vom Vollverb ab

bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich

Kopulakonstruktion und Gleichsetzungsnominativ

Fragen

bull Wovon haumlngt das Subjekt ab

bull NSuche nach ist im Suchwerkzeug

bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft

Interpunktion

Hinweise

bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt

50

Verschachtelte Saumltze

Hinweise

bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab

bull Wann aclrelcl und wann advcl

Koordination

Koordination Koumlpfe und Abhaumlngigkeitsrichtung

Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht

Koordination von Konstituenten aus NEGRA-Korpus

bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]

bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]

bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]

2 Fragen mit mehreren moumlglichen Antworten

bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt

bull In welche Richtung werden koordinierte Elemente verknuumlpft

Koordination in der NUD

Frage

bull Welche Antworten gibt die UD

51

Manuelle Syntax-Annotation mit WebAnno

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)

bull Click-und-Drag-Interface mit der Maus

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml

Aufgabe Annotation von Relativsatz

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Wie sieht eine UD-Annotation von diesem Satz aus

434 Suche

NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken

Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-

Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens

2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)

KOPF gt NICHTKOPF

NICHTKOPF lt KOPF

Analog zur Pfeilrichtung in der BRAT-Visualisierung

52

Grundlegende syntaktische Suchrezepte

bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging

bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging

bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde

bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld

bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor

bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _

bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist

44 AmbiguitaumltZusammenfassung

bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen

bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden

bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab

bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])

45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]

bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre

bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren

bull Quiz Die Form der Satzglieder

bull Quiz Satzglieder und Proben

bull Linguistik-CD

53

Kapitel 5

Endliche Automaten

Lernziele

bull Einstieg in die Formalisierung von Sprache

bull Was sind Zeichenketten formalmathematisch

bull Was ist eine formale Sprache

bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation

bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten

bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie

bull Wann ist ein endlicher Automat deterministisch und wann nicht

bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten

54

51 Formale Sprachen

511 Mengen

A Quick Review of Set Theory

A set is a collection of objects

A B

D E

We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E

There is no significant order in a set so A D B E is the same set as E A D B etc

Quelle B04

Cardinality of Sets

 The Empty Set

 A Finite Set

 An Infinite Set eg The Set of all Positive Integers

Norway Denmark Sweden

Quelle B04

512 Zeichen

Das Alphabet (Sigma) Menge von Zeichen

55

Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert

Zeichen des EnglischenΣEnglisch = a b c x y z

Zeichen der binaumlren ZahlenΣbin = 0 1

Zeichenketten (strings)

Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ

Zeichenketten uumlber englischen Symbolen ΣEnglisch

a we muntjac talk walk krwrk

Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0

Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast

bin = ε 0 1 00 01 10 11 001

513 Sprachen

Formal Languages

Very Important Concept in Formal Language Theory

A Language is just a Set of Words

bull  We use the terms ldquowordrdquo and ldquostringrdquo interchangeably

bull  A Language can be empty have finite cardinality or be infinite in size

bull  You can union intersect and subtract languages just like any other sets

56

Quelle B04

Union of Languages (Sets)

dog cat rat elephant mouse

Language 1 Language 2

dog cat rat

elephant mouse

Union of Language 1 and Language 2 Quelle B04

Formale Sprachen als Teilmenge von Sigma Stern

L sube Σlowast

Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast

Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes

Englische Woumlrterwalk talk work sube a b zlowast

Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt

Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit

Formales Modell Wirklichkeit

Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme

57

Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der

Wirklichkeit zu repraumlsentieren

Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working

worked works talk

talking talked talks

walk walking

walked walks

The concatenation of

the Suffix language

after the Root

language

0 or denotes the empty string

Abbildung 51 Sprache mit 3 WoumlrternZeichenketten

Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk

Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage

Beispiel fuumlr Deterministischen Endlichen Automaten

talk isin work talk walk

bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile

52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)

Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand

58

Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert

Nicht-Deterministische Endliche Automaten (NEA)

Abbildung 52 Deterministischer EA

Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg

Nicht-Determinismus IIEs gibt mindestens eine ε-Kante

Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln

Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus

1 einer endlichen Menge Zustaumlnde Φ

2 einem endlichen Eingabealphabet Σ

3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ

59

4 einem Startzustand S isin Φ

5 einer Menge von Endzustaumlnden F sube Φ

Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)

δ Φtimes (Σ cup ε)rarr weierp(Φ)

521 Konkatenation

Konkatenation von Zeichenketten und Sprachen

Konkatenation von Zeichenkettenu bull v = uv

lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo

Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V

lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo

Concatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working worked works talk talking talked talks walk walking walked walks

The concatenation of the Suffix language after the Root language

0 or ε denotes the empty string

60

Quelle B04

Concatenation of Languages II

work talk walk

Root Language

0 ing ed s

Suffix Language

rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks

The concatenation of the Prefix language Root language and the Suffix language

Prefix Language

re out 0

outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks

work working worked works talk talking talked talks walk walking walked walks

Quelle B04

Languages and Networks

w a l k

o r

t

NetworkLanguage 2 NetworkLanguage 3

s

o r The concatenation of Networks 1 2 and 3 in that order

w a l k t

a

a s

ed

i n g

0

s

ed

i n

0s

g o

r

NetworkLanguage 1

s

u t

e

0

o

r s

t

e

0 u

Quelle B04

522 Regulaumlre Ausdruumlcke

Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)

Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann

61

bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo

bull Die Mengen a1a2an sind regulaumlr RA a oder b

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)

bull Ist L regulaumlr dann auch LlowastRA (A)

Wie kann man Optionalitaumlt ausdruumlcken

Graphischer Algorithmus Konversion von RA zu NEA

JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten

Algorithmus

1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde

2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten

3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander

4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen

Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten

Epsilon

Symbol a

Konkatenation (ab)

Alternative (a|b)

62

encodes

a

LANGUAGE RELATION

compiles intoa

REGULAR EXPRESSIONa

FINITE-STATE NETWORKde

notes

Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])

Wiederholung (a)

Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert

63

53 Transduktoren

Linguistic Transducer Machines

mesas

Generator

ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas

m e s a +Noun +Fem +Pl

m e s a 0 0 s

mesa+Noun+Fem+Pl

Analyzer

ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas

Quelle B04

Gute Eigenschaften von endlichen Automaten und Transduktoren

bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen

bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde

bull Beispiel NRumantsch Grischun

bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren

Zusammenfassung

bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben

bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen

bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den

bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt

bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden

64

Vertiefung

bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)

bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo

bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo

bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial

65

Kapitel 6

Flache Satzverarbeitung

Lernziele

bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets

bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung

bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen

bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells

bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger

bull Kenntnis uumlber partielle syntaktische Analyse

bull Kenntnis uumlber flache und verschachtelte Chunks

Welches mehrdeutige Wort hat dieses Profil

UPOS-Tag Vorkommen1

1021ADP 848ADV 61

PROPN 14ADJ 1

61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT

N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token

66

Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)

bull eineDET Kuh Lemma ldquoeinrdquo

bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)

bull lead Verb lid (fuumlhren) Nomen led (Blei)

bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe

Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren

Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to

be present tense 3rd person singular

Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch

Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist

Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]

bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)

bull Effizient Der Tagger arbeitet schnell

bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)

bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den

bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden

Was fehlt

67

611 Probleme des Taggings

Wortformen mit mehreren moumlglichen Tags

MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token

Tag-Ambiguitaumlt im Englischen

Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]

Haumlufigkeiten im Brown-Korpus

bill NN 2351

promised VBD 34~~VBN 10~~JJ 2

back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2

Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token

die~~ART 2351~~PRELS 448~~PDS 4

Mehrheit~~NN 40

bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1

Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0

Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen

bull Unterscheidung zwischen offenen und geschlossenen Wortarten

bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)

68

Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]

Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)

bull 98 aller Woumlrter mit Endung -able sind Adjektive

bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname

Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe

oo

n

e

g

n

d

senuel

l

cv

y ta

o

mtsiii

o

i

ies (NNS09 VBZ01)ons (NNS095 VBZ005)

ed (VBN04 JJ03 VBD03)

le (NN025 JJ045 NP02 VB01)

ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)

ty (NN045 JJ035 NP02)

son (NP08 NN01 JJ01)

man (NP08 NN02)ton (NP09 NN005 JJ005)

ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)

ous (JJ096 NN004)

old (JJ098 NN002)

Quelle [Schmid 1995]

Wortformen mit mehreren moumlglichen Tags Kontext

69

Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6

Vorkommen von ldquobackrdquo im Brown-Korpus

ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung

Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen

Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet

bull die moumlglichen Tags von wn aus Tagger-Lexikon

bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens

Context

3

3

Kontextmodell des Trigrammtaggers TnT [Brants 2000]

612 Fallstudie TnT-Tagger

Supervisiertes Maschinelles Lernen

70

Quelle [Raschka 2015 11]

ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt

Fallstudie TnT-Tagger trainieren und evaluieren

Testkorpustestttstesttxt

Trainingskorpustrainingtts

Getaggtes Korpus

Aufteilen des Korpus

Taggingtnt

Trainingtnt-para

Parameter-Dateien

traininglextraining123

Evaluations-korpus

evaltts

Evaluationtnt-diff

Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger

Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]

1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)

$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts

2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden

$ head --lines 278081 ud-de-v13tts gt trainingtts

3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden

$ tail --lines 30900 ud-de-v13tts gt testtts

71

4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus

$ tnt-para trainingtts

5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut

$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts

6 Man erstelle das Evaluationskorpus

$ cut -f 1 testtts gt evaltxt

7 Man tagge das Evaluationskorpus mit dem Trainingsmodell

$ tnt training evaltxt gt evaltts

8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus

$ tnt-diff testtts evaltts

62 EvaluationEvaluation

Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode

Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt

Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird

Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind

Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden

Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)

Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat

72

Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein

621 Zweck

Zweck von Evaluationen

SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert

SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist

622 Accuracy

POS-Tagger-Evaluation Genauigkeit

Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens

accuracy = N minus EN

Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit

Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus

Tagt Freqt Tagf Freqf Ant Erel Eabs

NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010

Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]

Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler

73

5-fache Kreuzvalidierung visuell

Figure 8-2 K-fold cross-validation

Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point

You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order

gtgtgt import randomgtgtgt randomshuffle(f)

If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold

gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k

Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on

Problems That Can Affect Evaluation | 179

Quelle [Pustejovsky und Stubbs 2013 179]

Genauigkeit unter 10-facher Kreuzvalidierung

Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))

accuracy =sumi=10

i=1 accuracyi

10

Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen

623 Lernkurven

624 Recall

Recall (Ausbeute Abdeckung Vollstaumlndigkeit)

Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems

R = At

Nt

Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600

800 = 75

74

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp())+-01$+-0-2)00-))304

56)77

8010

904010

6+789lt

6-=7gt8lt

6+7gtlt

6-=7gt8lt

6+7lt

6-=79lt

2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J

-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J

)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)

Qampamp)(ampI0(EI(K3amp)-++5

8

9

gt

R9 9 S gt9 8 RR gtS

$-++5NF=J

TM5ltU+B+ampE+

TM5T00I-0L

SSR

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

6)6lt$$)amp$+)=$gt=((+

Q-M-44amp-0C

5-66ampK1F3()ampKVWWJ

6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(

Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp

)-)amp3)T)C

$5-66ampK1F(0amp+KampKVWWJ

6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+

U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+

TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+

+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt

QZ]T F6-+JgtRlt gt8lt [RSlt

Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants

625 Precision

Precision (Genauigkeit Praumlzision)

Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems

P = At

A

Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600

1000 = 60

626 F-Measure

F-Measure (F-Mass)

Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems

F = 2times P timesRP +R

75

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp()

67-18-)amp+8(+5)9amp0amp4amp-

6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F

2++$G-+AH-11))Iamp8+-1

J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+

$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5

amp+)-5)amp-0)ampA+

$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()

$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5

+amp(-012344)425amp123)3627892(+lt

=+$$

gt)(5)

))(5)

D+QRSTU

D-EQVWTRU

D+QVXTRU

D-EQVRTRU

D+QWTYU

D-EQSVTMU

6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F

-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F

M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)

ampamp)(amp80(98(B3amp)-++5T

Y X M YM XM MM YMM YMXM

WM

RM

SM

VM

MM

$-++5OCEMMMF

gt75TU[+A+amp9+

gt75Tgt008-0N

PWTP PTP WTM MTR YTM ST PT TVXMTS

C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants

Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075

06+075 = 666

63 Chunk ParsingPartielle syntaktische Analyse

Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt

Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN

bull NC Ein NC (Nominalchunk) besteht

bull -gt besteht aus

bull ART aus einem Wort der Wortart ART (Artikel)

bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)

76

Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

631 Abneys Chunk-Definition

Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]

Motivationen

bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung

bull Effizienz Teilstrukturen lassen sich effizienter berechnen

bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse

bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden

632 IOB-Chunk

Flache Chunks im IOB-Format

Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist

bull B-K Anfang einer Chunk-Konstituente K

bull I-K Fortsetzung der Chunk-Konstituente K

77

bull 0 Nicht zugeordnet (wird auch chink genannt)

We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP

633 Verschachtelte Chunks

Verschachtelte Chunks

Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich

Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)

[PX [APPR fuumlr][NX [ARTIND eine]

[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]

Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC

64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo

bull Pflichtlektuumlre [Carstensen et al 2009 342-3]

bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking

bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative

bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4

78

ZusammenfassungZusammenfassung

bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung

bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets

bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input

Kontrollfragen

bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen

bull Was unterscheidet Recall und Precision von Accuracy

bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging

bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte

bull Was ist der Vorteil der IOB-Notation fuumlr Chunks

65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele

bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative

bull Kenntnis uumlber Fehlertypen und ihre Gefahr

bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung

651 TrueFalse PositivesNegatives

Evaluation von binaumlren Klassifikatoren

TruthPositive Negative

Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)

Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit

Legende zur Tabelle 63

True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

79

FP Fehlertyp I Test ist positiv wo er nicht sollte

FN Fehlertyp II Test ist negativ wo er nicht sollte

652 Fehlerparadoxe

Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet

Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter

Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet

Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter

653 Unterschiede von Evaluationsmassen

Dualitaumlt von Precision und Recall

TruthPos Neg

Test Pos TP FPNeg FN TN

R = TP

TP + FN

Tabelle 64 Recall

Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision

F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig

80

TruthPos Neg

Test Pos TP FPNeg FN TN

P = TP

TP + FP

Tabelle 65 Precision

TruthPos Neg

Test Pos TP FPNeg FN TN

F = 2times TP2times TP + FP + FN

Tabelle 66 F1-Measure

TruthPos Neg

Test Pos TP FPNeg FN TN

Accuracy = TP + TN

TP + TN + FP + FN

Tabelle 67 Accuracy

654 Mitteln von Recall und Precision

F-Measure Harmonisches vs arithmetisches Mittel

655 Vertiefung

bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]

81

Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]

82

Abbildung 68 M = P +R2 Arithmetisches Mittel

83

Literaturverzeichnis

[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235

[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications

[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University

[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231

[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl

[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen

[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf

[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt

[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf

[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl

[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov

[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl

84

[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf

[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf

[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830

[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485

[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM

[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011

[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl

[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York

[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096

[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA

[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning

[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf

[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin

[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml

85

[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098

[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps

[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd

[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf

[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf

[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf

[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean

[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574

86

Index

10-fache Kreuzvalidierung 74

Adjektiv-Flexion 34Alphabet 56

Eingabealphabet 59

DEA 59Dependenz 47

Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72

F-Measure 75

Genus 32Grad 34

IOB-Chunks 77

Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44

Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25

Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39

Named Entity Regonition 19NER 19

Numerus 33 34

partielle syntaktische 76Person 34Precision 75Probe linguistisch 35

Qualitaumlt einer Evaluation 72

Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72

Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47

Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24

Umformungsprobe 43

Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43

Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24

XML-Standard 14

Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59

87

  • Organisatorisches
    • Organisatorisches
      • Leistungsnachweis
      • Lernen und Lehren
        • Kontrollfragen
          • Tokenisierung
            • Tokenisierer
              • Grundproblem
              • Kodierung
              • Programme
                • XML
                • Tokenisierung
                  • Problem
                  • Punktdisambiguierung
                  • Normalisierung
                  • NER
                    • Multilingualitaumlt
                    • Vertiefung
                      • Linguistisches Propaumldeutikum I
                        • Wort
                          • Token
                          • Wortform
                          • synt Wort
                          • Lexem
                            • Wortarten
                              • 5 Hauptwortarten
                              • UD
                              • STTSPTTS
                                • Merkmale
                                  • Genus
                                  • Zahl
                                  • Kasus
                                  • Modus
                                  • Zeit
                                  • Person
                                  • Grad
                                  • Flexion
                                    • Proben
                                      • Ersetzen
                                      • Einsetzen
                                        • Morphologie
                                          • LemmatisierungMorphologieanalyse
                                          • Morphologiegenerierung
                                            • Vertiefung
                                              • Linguistisches Propaumldeutikum II
                                                • Proben
                                                  • Weglassen
                                                  • Verschieben
                                                  • Umformen
                                                    • Satz
                                                      • Satzglieder
                                                      • Koumlpfe
                                                        • Syntaxanalyse
                                                          • Konstituenz
                                                          • Dependenz
                                                          • UD-DE
                                                          • Suche
                                                            • Ambiguitaumlt
                                                            • Vertiefung
                                                              • Endliche Automaten
                                                                • Formale Sprachen
                                                                  • Mengen
                                                                  • Zeichen
                                                                  • Sprachen
                                                                    • EA und regulaumlre Sprachen
                                                                      • Konkatenation
                                                                      • Regulaumlre Ausdruumlcke
                                                                        • Transduktoren
                                                                          • Flache Satzverarbeitung
                                                                            • Tagging
                                                                              • Probleme
                                                                              • Fallstudie TnT-Tagger
                                                                                • Evaluation
                                                                                  • Zweck
                                                                                  • Accuracy
                                                                                  • Lernkurven
                                                                                  • Recall
                                                                                  • Precision
                                                                                  • F-Measure
                                                                                    • Chunking
                                                                                      • Abney
                                                                                      • IOB-Chunk
                                                                                      • Verschachtelte Chunks
                                                                                        • Vertiefung
                                                                                        • Exkurs Evaluation binaumlrer Klassifikatoren
                                                                                          • TPFPFNTN
                                                                                          • Fehlerparadoxe
                                                                                          • Unterschiede
                                                                                          • Mittelwerte
                                                                                          • Vertiefung
Page 2: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff

Inhaltsverzeichnis

1 Organisatorisches 511 Organisatorisches 5

111 Leistungsnachweis 6112 Lernen und Lehren 6

12 Kontrollfragen 7

2 Tokenisierung 821 Tokenisierer 8

211 Grundproblem 8212 Kodierung 9213 Programme 11

22 XML 1423 Tokenisierung 16

231 Problem 16232 Punktdisambiguierung 17233 Normalisierung 18234 NER 19

24 Multilingualitaumlt 1925 Vertiefung 21

3 Linguistisches Propaumldeutikum I 2331 Wort 23

311 Token 24312 Wortform 24313 synt Wort 24314 Lexem 25

32 Wortarten 26321 5 Hauptwortarten 26322 UD 27323 STTSPTTS 30

33 Merkmale 31331 Genus 32332 Zahl 33333 Kasus 33334 Modus 33335 Zeit 34336 Person 34337 Grad 34338 Flexion 34

1

34 Proben 35341 Ersetzen 35342 Einsetzen 36

35 Morphologie 36351 LemmatisierungMorphologieanalyse 37352 Morphologiegenerierung 39

36 Vertiefung 39

4 Linguistisches Propaumldeutikum II 4141 Proben 42

411 Weglassen 42412 Verschieben 43413 Umformen 43

42 Satz 44421 Satzglieder 44422 Koumlpfe 44

43 Syntaxanalyse 45431 Konstituenz 45432 Dependenz 47433 UD-DE 48434 Suche 52

44 Ambiguitaumlt 5345 Vertiefung 53

5 Endliche Automaten 5451 Formale Sprachen 55

511 Mengen 55512 Zeichen 55513 Sprachen 56

52 EA und regulaumlre Sprachen 58521 Konkatenation 60522 Regulaumlre Ausdruumlcke 61

53 Transduktoren 64

6 Flache Satzverarbeitung 6661 Tagging 66

611 Probleme 68612 Fallstudie TnT-Tagger 70

62 Evaluation 72621 Zweck 73622 Accuracy 73623 Lernkurven 74624 Recall 74625 Precision 75626 F-Measure 75

63 Chunking 76631 Abney 77632 IOB-Chunk 77633 Verschachtelte Chunks 78

64 Vertiefung 78

2

65 Exkurs Evaluation binaumlrer Klassifikatoren 79651 TPFPFNTN 79652 Fehlerparadoxe 80653 Unterschiede 80654 Mittelwerte 81655 Vertiefung 81

3

Abbildungsverzeichnis

21 Navigationselemente der Web-Site der Olympischen Spiele 2008 922 Schematische Darstellung der Verschachtelung der XML-Tags 1423 Demo von Standford Temporal Tagger Eingabeformular 2024 Demo von Standford Temporal Tagger Resultatsdarstellung in XML 2025 N-Gramm-Profile nach [Cavnar und Trenkle 1994] 21

31 5 Hauptwortarten nach Glinz 2632 Deutsche UD-Baumbank 2833 CoNLL-U und CoNLL-X 3034 Hauptkategorien von STTS 3135 Hauptkategorien des PTTS 32

41 Moderne Satzgliedlehre 4442 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung 4543 Beispielsatz mit allen zu annotierenden NP- und S-Knoten 4644 Syntaktische Funktion in der NEGRA-Darstellung 4745 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm) 4846 Beispielsatz mit allen zu annotierenden NP- und S-Knoten 52

51 Sprache mit 3 WoumlrternZeichenketten 5852 Deterministischer EA 5953 Formale Sprachen regulaumlre Ausdruumlcke und endliche Automaten 63

61 Tagging-Ambiguitaumltsraten aus der Frankfurter Rundschau 6962 Training Tagging und Evaluation mit dem TnT-Tagger 7163 Tnt-Evaluation an Penn Treebank durch Thorsten Brants 7564 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants 7665 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid 7766 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid 7767 F-Mass in dreidimensionaler Darstellung 8268 Arithmetisches vs harmonisches Mittel 83

4

Kapitel 1

Organisatorisches

11 OrganisatorischesInhalt der Vorlesung ECL I

bull bdquoEinfuumlhrung in die Computerlinguistik I (+ II)ldquo geben eine Uumlbersicht uumlber die wichtigstenpraktischen und theoretischen Ziele der Computerlinguistik

bull Vorgestellt werden texttechnologische Grundlagen (Textsegmentierung Wortartenbestim-mung Syntaxanalyse) und wichtige Anwendungen (Maschinelle Uumlbersetzung Sprachsyn-these Spracherkennung Textsuche Informationsextraktion)

bull Im Kurs integriert ist ein linguistisches Propaumldeutikum wo das notwendige grammati-kalische Wissen im Rahmen computerlinguistischer Annotation aufgefrischt bzw vertieftwird

bull Keine Programmiersprachenkenntnisse vorausgesetzt

Kurs-Leitseite im WWW und Lehrmaterialien

OLAT-Campus-Kurs ldquo16HS 5200010 CL EV Einfuumlhrung in die Computerlinguis-tik Irdquo1

bull Wer belegt diese Vorlesung via Modul ldquoIntroduction to Computational Linguistics PartIrdquo

bull Folien als PDF-Dokumente unter ldquoMaterialienrdquo (4up-Format zum Ausdrucken fuumlr VL-Teilvon Clematide) nach der Vorlesung verfuumlgbar

bull Lauftextversion des Folienskripts (PDF-Dokument) mit Index und Ergaumlnzungen fuumlr Pruuml-fungsvorbereitung2

Kursbuch (3 Auflage) [Carstensen et al 2009]3Computerlinguistik und Sprachtechnologie Eine Einfuumlhrungrarr Pflichtlektuumlren stehen auf OLAT als PDF zur Verfuumlgung

1httpslmsuzhchurlRepositoryEntry161124845622 httpwwwcluzhchsiclematlehrehs16ecl1scriptscriptpdf3httpwwwlinguisticsruhr-uni-bochumdeCLBuchbuchhtml

5

111 Leistungsnachweis

6 obligatorische schriftliche Uumlbungen (SU)

Bewertungprinzip Punkte SU = Note SU = 25 der Modulnote

Punktzahl pro UumlbungBestanden 1 Punkt

Halb bestanden 05 PunkteNicht-Bestanden 0 Punkte

Note SU = Summe der Punkte aus den 6 Uumlbungen

bull Uumlbungsausgabe donnerstags 18h (Information via OLAT-Mailversand)

bull Loumlsungsabgabe spaumltestens mittwochs 18h

bull Einige Uumlbungen werden Sie stark fordern Sie duumlrfen maximal zu zweit arbeiten Lern-partnerschaft muss deklariert sein bei der Abgabe

bull Keine Musterloumlsungen Dafuumlr Frage- und Diskussionsgelegenheit sowie Nachbesprechungin Uumlbungsstunde oder im Forum auf OLAT

bull Freiwilliges Tutorat freitags 1215-1345h im Raum AND AND-3-02

bull Start in 2 Semesterwoche (PCL-I-Tutorat bereits in 1 Semesterwoche)

Schriftliche Pruumlfung

bull Zeit Donnerstag 19 Januar 2017 von 1615 - 1800h

bull Dauer 90 Minuten

bull Stoff Skript Uumlbungen Pflichtlektuumlren

112 Lernen und Lehren

E-Learning und Uumlbungen

CLab httpclabcluzhchFuumlr einige Uumlbungen benutzen wir Lerneinheiten aus unserem interaktiven web-basierten Computerlinguistik-Laboratorium (CLab)

Applikationen auf CL-Linux-Server r2d2cluzhchEinzelne Uumlbungsteile nutzen CL-Tools auf unserem Studierenden-Server der uumlber SSH (SecureShell bzw Putty (Win)) zugaumlnglich ist Installationshilfe fuumlr Win dazu im Tutorat zu bdquoPro-grammiertechniken der CLldquo diesen Freitag 14-1545h

Virtuelle Linux-Maschine (25GB) httpkittcluzhchCLHS16ovaIm PCL-I-Tutorat der 1 Woche wird auch die VM (virtuelle Maschine) mit Linux erklaumlrtwelche die wichtigste Software fuumlr PCLECL vorinstalliert enthaumllt und auf allen Plattformen(Win MacOS) frei benutzbar ist (virtualboxorg) Fuumlr SSH benutzbar (Link ab Freitag guumlltig)

6

Anforderungen und Ruumlckmeldungen

bull Nutzen Sie die Uumlbungsstunden

bull Fragen Sie bei den Mitstudierenden nach (OLAT-Forum)

bull Wenden Sie sich an die Uumlbungsverantwortlichen

bull Geben Sie den Dozierenden Ruumlckmeldungen zu Unklarheiten und Problemen im KursDirekt nach der Stunde oder via Mail Wir machen diese Veranstaltung nur fuumlr Sie

Hochrechnung zum Workload fuumlr 6 ECTS-Punkte

ldquoBei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand beruumlck-sichtigt der fuumlr das Erreichen einer genuumlgenden Pruumlfungsleistung erforderlich istrdquo (sect14Abs 2)

ldquoEin ECTS-Punkt entspricht einer Studienleistung von 30 Stundenrdquo (sect13 Abs 2)

[Universitaumltsrat 2004]

bull Praumlsenz in Vorlesung Uumlbungsstunde und schriftlicher Pruumlfung

2times 15times 2h = 60h

bull Zeit pro Woche fuumlr (Pflicht-)Lektuumlre Loumlsen der schriftlichen Uumlbungen und Pruumlfungsvor-bereitung

180hminus 60h15 = 8h

12 KontrollfragenKontrollfragen

bull Welche Buchungsfristen fuumlr Sie relevant Bis wann koumlnnen Sie sich noch einschreibenbzw das Modul stornieren

bull Wie viele SU muumlssen Sie bestehen damit eine 45 in der schriftlichen Pruumlfung noch aufeine 5 aufgerundet wird

bull Wieso sollten Sie die Uumlbungsstunde besuchen

bull Welche Hauptthemen werden in dieser Vorlesung besprochen

7

Kapitel 2

Tokenisierung Automatische Satz-und Wortsegmentierung

Lernziele

bull Kenntnis uumlber die Kodierung sprachlicher Zeichen

bull Kenntnis uumlber den Zweck und die Probleme der textuellen Vorverarbeitung von natuumlrlicherSprache Text-Segmentierung und Text-Normalisierung

bull Kenntnis uumlber XML zur Repraumlsentation von Text und Segmentstruktur

bull Kenntnis uumlber Methoden der Punktdisambiguierung und Satzendeerkennung

bull Kenntnis uumlber Textnormalisierung und Erkennung von interessierenden Groumlssen (NamedEntity Recognition)

bull Kenntnis und Umgang mit regulaumlren Ausdruumlcken

21 Tokenisierer

211 Grundproblem

Woumlrter aus linguistischer Sicht

Definition 211 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprach-lich verwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftli-che Definitionsversuche uneinheitlich und kontrovers sind

Was ist ein Wort

1 ZB nahm sie am Text Mining Workshop teil

2 Das gibtrsquos doch nicht ldquoJooprdquo ist pleite

3 Blick Online verlost zum Film-Start das laquoIch bin Boratraquo-Kit

Wort-Segmentierung in nicht-segmentierten Schreibsystemen

8

Abbildung 21 Navigationselemente der Web-Site der Olympischen Spiele 2008

Rohtexte aus Computersicht Welt der Bytes

$ hexdump dateitxt0000000 57 61 73 20 62 65 69 6e 68 61 6c 74 65 74 20 730000010 69 65 3f 0a0000014

(Der Dateiinhalt ist als Dump1 im Hexadezimalformat wiedergegeben dh jedes Zeichen inForm seines Zeichenkodes als Hexadezimalzahl)Beispiel 212 (Folge von Zeichenkodes in Hexadezimalnotation)Wie viele und welche Woumlrter enthaumllt der folgende Datei-Inhalt57 61 73 20 62 65 69 6E 68 61 6C 74 65 74 20 73 69 65 3F 0A

212 Zeichenkodierung

Was ist ein Zeichen auf dem Computer

bull Traditionell ein Byte dh eine Folge von 8 BitsWas ist ein Bit Binaumlre Entscheidung (0 oder 1)

bull Ein Byte kann als Zahl interpretiert werden indem die Position eines Bits als Stelle imBinaumlrsystem aufgefasst wird 0100rsquo0001

bull Eine Zahl kann als BuchstabeZeichen interpretiert werden indem eine Kodierungskon-vention aufgestellt wird ZB rsquoArsquo=65 rsquorsquo=64 rsquo1rsquo=49

bull Verbreitete Kodierungskonventionen (engl charset) ASCII (128 Zeichen fuumlr Englisch)iso-latin-1 (256 Zeichen fuumlr westeuropaumlische Sprachen)

bull Typische Speicherung bei ASCII und iso-latin-1 1 Zeichen = 1 Byte

Binaumlres und Hexadezimales Stellensystem

1 Byte als binaumlre Zahlen (= 8 Bits)

__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8

__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8

Jedes Kaumlstchen = 1 Bit

4-stellige hexadezimale Zahl (= 4 Bytes)1Zum Beispiel mit dem Befehl $ hexdump dateitxt

9

__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8

__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8

Jedes Kaumlstchen = 1 Byte

Die 128 ASCII-Kodes

Die 128rsquo172 Unicode-Kodes

Moderne universale Kodierungskonvention httpwwwunicodeorgUNICODE(ISOIEC 10646) Version 90 Kodes fuumlr 128rsquo172 Zeichen in fast allen Schriftsystemender WelthttpwwwunicodeorgstandardWhatIsUnicodehtml

GRINNING FACE

bull Kode 128512 (Hexadezimal 1F600)

bull UTF-8 Byte-Repraumlsentation F0 9F 98 80

bull~ In UTF-8 sind nur Unicode-Kodes von ASCII-Zeichen direkt in ihrer Binaumlrzahl-Repraumlsentationgespeichert

10

Was ist ein Zeichen auf dem Computer UTF-8-Format

bull Speicherung bei UNICODE UTF (Abk fuumlr Unicode Transformation Format) beschreibtMethoden einen Unicode-Kode auf eine Folge von Bytes abzubilden

bull UTF-8 (Abk fuumlr 8-bit Universal Character Set Transformation Format) Ordnet jedemUnicode-Zeichen eine speziell kodierte Bytefolge von variabler Laumlnge zu UTF-8 unter-stuumltzt bis zu 4 Byte pro Zeichen

bull Dateiformat XML-Dateien sind defaultmaumlssig UTF-8 kodiert Bei andern Dateien mussman es wissen

bull Jede ASCII-Datei ist auch eine UTF-8-Datei (Ruumlckwaumlrtskompatibilitaumlt)

bull Darstellung Zeichensaumltze (engl fonts) enthalten die graphischen Formen (glyphs) damitdas Betriebssystem die Kodes fuumlrs Auge darstellen kann

bull Konversionswerkzeuge ZB GNU-Kommandozeilentool iconv

Textkonversion mit iconv

Verlustfreie Textkonversion nach UTF-8

$ iconv -f EXOTISCHEKODIERUNG -t UTF-8 lt INPUT gt OUTPUT

Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen laumlsst sich auch Text-Normalisierung durch ldquoTransliterationrdquo2 durchfuumlhren

$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIITRANSLITKlosschen

Das Loumlschen von nicht-repraumlsentierbaren Zeichen ist meist weniger nuumltzlich

$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIIIGNOREKlchen

213 Programme

Grundproblem Vom Zeichenstrom zur Folge von Tokens

RohdatenRohe elektronische Sprachdaten liegen in Dateien vor welche nichts anderes als eine Folge vonkodierten Einzelzeichen dh ein kontinuierlicher Zeichenstrom sind

Token Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung Wortkorrektur morphologische Analyse Lexikonzugriff syn-taktische Analyse

Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)

2~ Das Ergebnis kann von Landeseinstellungen (locale) abhaumlngig sein

11

bull Konsumieren der Zeichenfolge (Eingabe)

bull Gruppieren und allenfalls normalisierenmodifizieren der Zeichen (Verarbeitung)

bull Produzieren einer Folge von Tokens (Ausgabe)

Typische Beispiele fuumlr Tokenisierer Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text dh 1 Token pro Zeile Saumltzesind durch Leerzeilen voneinander abgetrennt

Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhaumlngiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkuumlrzungsdatei(ger-abbrev)

$ cat filetxtBachrsquosche Musikmag Dr Fritz Ja

$ cat ger-abbrevDrusw

$ utf8-tokenizeperl -a ger-abbrev filetxtBachrsquoscheMusikmagDrFritz

Ja

Typische Beispiele fuumlr Tokenisierer Regulaumlre AusdruumlckeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PythonPERL oder Finite-State Tools welche einen einfachen Umgang mit regulaumlren Ausdruumlcken er-lauben

Definition 213 (Regulaumlre Ausdruumlcke (engl regular expressions)) Ein regulaumlrer Ausdruck isteine relativ standardisierte Kurz-Notation um Zeichenketten mit bestimmten Eigenschaften zubeschreibenPraktisch eingesetzt werden sie fuumlr die nicht-woumlrtliche Suche (engl pattern matching) Suchen-und-Ersetzen und Segmentieren von Zeichenketten

Einfuumlhrung in regulaumlre AusdruumlckeZB in unserem CLab httpwwwcluzhchclabregex

12

Tokenisierer in der ProgrammiersprachePython

Tokenisierer mit regulaumlren Ausdruumlcken

bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben

bull Einfach anpassbar auf die Textsorte

bull Fuumlr uumlberschaubare Textmengen empfohlen

bull Vorteil Machen dieselben Fehler konsequent

bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung

Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])

1 Rohtext

This is an example There are two sentences

2 XML-Input fuumlr Tokenisierer (Vortokenisierung)

ltdocumentgtlttextgt

ltpgtThis is an example There are two sentences

ltpgtlttextgt

ltdocumentgt

3 XML-Tokenisat

ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt

13

ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt

Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert

Verschachtelung im XML-Stil

ltdocumentgtlttextgt

ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example

ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences

Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags

22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation

bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs

bull httpstubeswitchchvideos60fc01f1

XML (eXtensible Markup Language)

Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann

14

XML in der Texttechnologie

bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)

bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten

bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben

Aufbau von XML-Dokumenten

Elemente und ihre Attribute

bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt

bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)

bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt

bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt

bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt

bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt

Zeichenreferenzen und Entity-Referenzen

Entitaumlten und Referenzen

bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden

bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal

bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den

Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38

Newline amp9Σ ampx3a3

15

23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen

231 Problem

Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt

bull Wort-Zeichen [a-zA-Z0-9]

bull Einzel-Zeichen [)(rsquo$-]

bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]

ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo

Schwierigkeiten der Wortsegmentierung im engen Sinn

Schwierige Zeichen

bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim

bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr

bull Bindestriche semble-t-il rarr semble + -t-il

bull Punkte SAC

bull Masseinheiten 30 rarr 30 + 28 rarr 28 +

bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que

Teilprobleme der Tokenisierung im weiten Sinn

bull Umgang mit Markup (HTML-Tags Formatierungszeichen)

bull Erkennung der ldquonormalenrdquo Tokengrenzen

bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)

bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)

bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)

bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)

16

232 Punktdisambiguierung

Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben

Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert

Verschmelzung

bull It was due Friday by 5 pm Saturday would be too late

bull Ich kenne die USA Frankreich kenne ich nicht

WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig

Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls

bull das Token in einer Abkuumlrzungsliste steht

bull nach dem Token eines der Zeichen aus [a-z] folgt

bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht

bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt

Nach [Grefenstette und Tapanainen 1994]

LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen

Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen

Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN

1 Wie viele Zeichen umfasst TOKEN

2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale

3 Wie oft kommt TOKEN ohne Punkt vor

4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor

5 Wie oft kommt NEXTTOKEN kleingeschrieben vor

17

Satzsegmentierung mit maschinellen Lernverfahren

bull Fuumlr grosse Textmengen empfohlen

bull Nachteil Unsystematische Fehler koumlnnen auftreten

Statistisches System PUNKT ([Kiss und Strunk 2006])

bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten

bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt

iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte

233 Zeichen- und Token-Normalisierung

Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen

Normalisierung bei Suchmaschinen und anderen Anwendungen

bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich

bull 4897 4-8-97 4897 8497

bull 19000 19rsquo000 19 000 19000

bull Louisa Luise Louise Luisa

bull doesnrsquot does not

Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)

bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt

bull Hollaumlndisch chocola-tje rarr chocolaatje

Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen

18

Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung

Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens

615 5 Ruumlckbau in neue Tokens

Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus

Ruumlckgaumlngig machen von Worttrennung am Zeilenende

Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens

Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch

234 Named Entity Recognition

Named Entity Recognition

Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen

Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen

Kanonische Formen und Entity Linking

bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo

bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo

Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3

Demo Time Expression Recognition (TIMEX task)

24 MultilingualitaumltMultilinguale Dokumente und Systeme

Herausforderung Multilingualitaumlt

bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess

19

Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular

Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML

bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig

bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut

bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet

bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut

Ansatz von [Cavnar und Trenkle 1994]

20

1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten

2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)

3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil

4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm

5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand

N-Gramm-Profile und Profilabstand

Quelle [Cavnar und Trenkle 1994]

Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]

25 VertiefungZum Thema ldquoTokenisierungrdquo

bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28

bull Pflichtlektuumlre [Carstensen et al 2009 341]

bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]

Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)

bull httpwwwcluzhchclabregex

Zum Thema ldquoXMLrdquo

21

bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1

bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]

Zusammenfassung

bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen

bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen

bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen

bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung

bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar

bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen

bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden

Kontrollfragen

bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention

bull Welche Probleme stellen sich bei der Tokenisierung

bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung

bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten

bull Was versteht man unter NER

bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle

22

Kapitel 3

Linguistisches Propaumldeutikum I

Lernziele

bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen

bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg

bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch

bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte

bull Kenntnis und Anwendung linguistischer Proben

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten

bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung

31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs

Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind

Praumlzisierungsversuche des Wort-Begriffs

bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment

bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit

bull Morphologisch Grundeinheit welche flektierbar ist

bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist

bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes

23

Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach

Antworten 4 5 6 9 __

311 Token

Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9

Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText

BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann

312 Wortform

Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes

Identische Wortformen mit unterschiedlicher Bedeutung

bull Die Fliege war tot

bull Er trug eine samtene Fliege

bull Fliege nicht so schnell

313 Syntaktisches Wort

Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6

Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst

Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural

24

314 Lexem

Antwort 5 Wort als Lexem

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden

Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem

Lexikographische Notationskonventionen

Wie sehen Verb-Lemma in DeutschenLatein aus

Antwort 4 Wort als Lexemverband

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4

Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert

Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln

Stufen der Abstraktion Vom Text zum Lexemverband

bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)

bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)

bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen

bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden

bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird

25

32 Lehre von den WortartenWortarten nach [Bussmann 2002]

Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien

Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb

5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det

321 5 Hauptwortarten nach Glinz

Klassifikationskriterien

Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]

Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

26

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

322 UD

Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)

Universal Part-of-Speech Tagset (Version 1)1

12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish

ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo

Universal Part-of-Speech Tagset (Version 2) UPOS2

Version 2 hat 17 POS-Tags

+ Eigennamen (PROPN) (vorher NOUN)

+ Hilfsverben (AUX) (vorher VERB)

+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)

+ Symbole (SYM) (vorher X)

+ Interjektionen (INTJ) (vorher PRT)

= Partikel (PART) (vorher PRT)

= Interpunktion (PUNCT) (vorher )

Baumbanken sind fuumlr 51 Sprachen verfuumlgbar

27

Abbildung 32 Deutsche UD-Baumbank

UD V13 fuumlr Deutsch

NDurchsuchen

bull Suche nach Wort spaumlter

bull Nach Wort+Wortart spaumlterampADV

UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml

Mehrdeutigkeiten Unklarheiten Fehlannotationen

Linguistische Annotation und Automatisierung

Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form

Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml

28

bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)

bull Vollautomatisch Schnell billig fehlerbehaftet

bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile

Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml

N CoNLL-Format Spaltenformat fuumlr Annotationen3

bull Vertikalisierter Text

bull 1 Token pro Zeile

bull Saumltze mit Leerzeile getrennt

bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation

bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet

Bedeutung relevanter Spalten

1 Tokennummer (1-basierte Zaumlhlung) pro Satz

2 Wortform (Token)

3 Lemma

4 Grobe Wortklasse (coarse-grained part-of-speech tag)

5 Feine Wortklasse (fine-grained part-of-speech tag)

6 Morphosyntaktische Merkmale

7 Syntaktischer Kopf als Tokennummer

8 Dependenztyp

CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo

Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token

3httpuniversaldependenciesorgformathtml

29

Abbildung 33 CoNLL-U und CoNLL-X

Manuelle Annotation mit WebAnno und Exportformate

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

323 Feine Tagsets

Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis

bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags

bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert

bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch

bull Alternativen Muumlnsteraner Tagset [Steiner 2003]

Wieso ist das STTS wichtig

bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)

ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel

bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo

30

Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts

Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken

33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale

Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden

Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems

bull Konjugation von Verben

bull Deklination von Nomen Adjektiven Artikeln und Pronomen

bull Steigerung von Adjektiven (und wenigen Adverbien)

Diskussion Sind steigerbare Adverbien ein Widerspruch im System

Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet

31

Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts

Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn

331 Genus

Das Genus (UD Gender) Grammatisches Geschlecht

Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien

Tabelle 31 Uumlbersicht Genera

BemerkungDer Plural von Genus lautet Genera

Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt

Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen

Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind

Deutsch

32

Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur

AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas

332 Numerus

Der Numerus (UD Number) Grammatische Zahl

Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner

Tabelle 32 Uumlbersicht Numeri

BemerkungDer Plural von Numerus lautet Numeri

Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt

333 Kasus

Der Kasus (UD Case) FallUD-Kategorie Case

Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum

Tabelle 33 Uumlbersicht Kasus

BemerkungDer Plural von Kasus lautet Kasus

334 Modus

Der Modus (engl mode mood UD Mood) Aussageweise

Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh

Tabelle 34 Uumlbersicht Modi

In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi

33

335 Tempus

Das Tempus (UD Tense) grammatische Zeit Zeitform

Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging

Tabelle 35 Uumlbersicht Tempora

BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten

336 Person

Die Person (UD Person)

Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht

Tabelle 36 Uumlbersicht Personen

BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt

337 Grad

Der Grad (UD Degree) Steigerung Komparation

Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste

Tabelle 37 Uumlbersicht Komparation

BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt

338 Adjektiv-Flexion

Die Adjektiv-Flexion (engl adjective inflection)

BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven

Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet

34

Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse

Tabelle 38 Uumlbersicht Adjektiv-Flexion

Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern

UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt

Morphologische Englische UD-Annotation

1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _

34 Linguistische ProbenLinguistische Testverfahren

Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen

341 Ersatzprobe

Ersatzprobe

Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben

35

Beispiel 343 (Bestimmung des Kasus)

Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat

Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen

Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)

bull Das ist das Angebot das uns uumlberzeugt hat

bull Dieses ist das Angebot welches uns uumlberzeugt hat

bull Welches ist das Angebot dieses uns uumlberzeugt hat

bull Das ist dieses Angebot welches uns uumlberzeugt hat

Probleme der Interpretation

bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes

bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig

342 Einsetzprobe

Einsetzprobe

Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert

Beispiel 345 (Bestimmung der Wortart)

Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb

Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive

35 MorphologieMorphologische Ebene

Womit befasst sich die Morphologie Wortstruktur und Wortbildung

bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e

36

bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit

bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system

351 LemmatisierungMorphologieanalyse

Lemmatisierung und Morphologieanalyse

Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen

Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma

Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo

Analysen von GERTWOL5

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Probleme morphologischer Analysen Mehrdeutigkeit

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM

Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol

37

bull ldquoeinerdquo als

bull ldquoMuumlllerrdquo als Eigenname oder Substantiv

Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus

Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1

Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile

Probleme morphologischer Analyse

googelte

UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter

Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM

ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat

Lieblingsbeerelieb~lingsbeere S FEM SG NOM

Erdbeereerdbeere S FEM SG NOM

Fingerbeerenfingerbeere S FEM PL NOM

UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung

38

Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas

Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]

Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent

352 Morphologiegenerierung

Generierung von syntaktischen Wortformen

Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation

Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|

Person=2|Tense=Past|VerbForm=Fingingst

backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin

36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT

bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem

bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6

bull Die Website universaldependenciesorg hat einige Dokumentation

Zusammenfassung

bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet

bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte

bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme

bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen

6httpwwwdsuzhchstudien-cd

39

Kontrollfragen

bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo

bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2

bull Worin besteht Morphologieanalyse und -generierung

bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller

bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt

bull Was ist der Unterschied zwischen Lemma und Lexem

40

Kapitel 4

Linguistisches Propaumldeutikum II

Lernziele

bull Anwendung der klassischen syntaktischen Proben

bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf

bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte

bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen

bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug

Motivation 2 (halbwegs kompatible) Syntax-Welten

Konstituenten

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Dependenz

41

Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden

(NGoogles SyntaxNet)

41 Syntaktische ProbenKonstituentenproben

Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt

Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

411 Weglassprobe

Weglassprobe

Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten

Bestimmung eines Satzglieds

1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

FrageWarum nicht Variante 4

42

412 Verschiebeprobe

Verschiebeprobe

Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen

Bestimmung von Satzgliedern

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen bereite ich die Sitzung mit dem Chef vor

3 Ich bereite die Sitzung mit dem Chef morgen vor

Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb

Verschiebeprobe

Unzulaumlssiges Verschieben

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen ich bereite die Sitzung mit dem Chef vor

3 Die Sitzung bereite ich morgen mit dem Chef vor

413 Umformungsproben

Umformungsprobe

Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut

Funktion von Nebensaumltzen

1 Es wuumlrde mich freuen wenn du mitkaumlmest

2 Dein Mitkommen wuumlrde mich freuen

Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo

Infinitivumformung zur Subjekterkennung

1 Die Laumlrche ist ein Nadelbaum

2 ein Nadelbaum sein die Laumlrche

43

Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]

42 SatzSatz

Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist

Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten

421 Satzglieder

Moderne Satzgliedlehre

422 Koumlpfe (oder Kerne) von Konstituenten

Syntaktische Koumlpfe (engl head) Kern (engl kernel)

Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar

Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)

1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]

2 Sie rennt [mit dem Mobile hantierend] zum Kiosk

3 Es wird [viel zu oft] telefoniert

44

4 [Die Frau die zum Kiosk rannte ] war aufgeregt

5 Sie fuumlhlte sich [wie in einem schlechten Film]

6 Aber sie war auch [in einem ziemlich schlechten Film]

43 Syntaxanalyse

431 Konstituenz

Konstituenten und Konstituenz

Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist

Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten

Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten

Konstituenten in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

unmittelbare Dominanz

Konstituente auf Wortebene

Syntaktische Konstituente

Praumlzedenz auf Wortebene

Praumlzedenz zwischen Tochterkonstituenten

Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung

Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente

Konstituententypen

Typen von Konstituenten in TIGERNEGRA

1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen

45

2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern

3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern

4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern

5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern

6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern

7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo

Annotation von Relativsaumltzen

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen

Komplexe Konstituenz in der Penn-Treebank

Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white

Syntaxbaum aus der Vogelperspektive

In

IN

other

JJ

words

NNS

like

IN

automation

NN

machines

NNS

designed

VBN

-NONE-

to

TO

work

VB

in

IN

tandem

NN

they

PRP

shared

VBD

the

DT

same

JJ

programming

NN

a

DT

mutual

JJ

understanding

NN

not

RB

only

RB

of

IN

English

NNP

words

NNS

but

CC

of

IN

the

DT

four

CD

stresses

NNS

pitches

NNS

and

CC

junctures

NNS

that

WP

T

-NONE-

can

MD

change

VB

their

PRP$

meaning

NN

from

IN

black

NN

to

TO

white

NN

NP

PP

NP NP NP

PP

VP

VP

SBJ

S

VP

NP

PP

NP NP NP CONJP NP

PP

NP WHNP NP NP NP

PP

NP

PP

PP

VP

VP

SBJ

S

SBAR

NP

PP

PP

NP

NP

VP

SBJ

S

T

46

Quelle TIGERSearch-Demo-Korpora

Maximale Verschachtelungstiefe

432 Dependenz bzw syntaktische Funktion

Dependenz und syntaktische Funktion

Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten

Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen

HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt

Syntaktische Funktionen in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Syntaktische Funktion

Konstituenten

Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung

Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente

Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken

Einige Satzglieder mit TIGER-Funktion

bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein

47

Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)

bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)

bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)

bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)

bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator

bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb

Baumbankkonversion Von Konstituenz zu Dependenz

Automatische Konversion (NTIGER2Dep)

Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)

433 UD-DE-Modell

Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen

48

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

Generelle Philosophie des Universal-Dependency-Modells

bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig

bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV

bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum

bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden

bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der

bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)

bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens

Inhaltswoumlrter VERB und NOUN

Hinweisebull Spitze des Pfeils Abhaumlngiges Element

bull Startknoten des Pfeils Kopf

bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen

bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird

Das UD-Innenleben von Nominalphrasen

Hinweisebull Was ist der NP-Kopf

bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll

49

Komplexe Verb- und Adjektivphrasen

Hinweise

bull Hilfs- und Modalverben haumlngen vom Vollverb ab

bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich

Kopulakonstruktion und Gleichsetzungsnominativ

Fragen

bull Wovon haumlngt das Subjekt ab

bull NSuche nach ist im Suchwerkzeug

bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft

Interpunktion

Hinweise

bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt

50

Verschachtelte Saumltze

Hinweise

bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab

bull Wann aclrelcl und wann advcl

Koordination

Koordination Koumlpfe und Abhaumlngigkeitsrichtung

Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht

Koordination von Konstituenten aus NEGRA-Korpus

bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]

bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]

bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]

2 Fragen mit mehreren moumlglichen Antworten

bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt

bull In welche Richtung werden koordinierte Elemente verknuumlpft

Koordination in der NUD

Frage

bull Welche Antworten gibt die UD

51

Manuelle Syntax-Annotation mit WebAnno

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)

bull Click-und-Drag-Interface mit der Maus

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml

Aufgabe Annotation von Relativsatz

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Wie sieht eine UD-Annotation von diesem Satz aus

434 Suche

NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken

Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-

Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens

2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)

KOPF gt NICHTKOPF

NICHTKOPF lt KOPF

Analog zur Pfeilrichtung in der BRAT-Visualisierung

52

Grundlegende syntaktische Suchrezepte

bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging

bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging

bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde

bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld

bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor

bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _

bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist

44 AmbiguitaumltZusammenfassung

bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen

bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden

bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab

bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])

45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]

bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre

bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren

bull Quiz Die Form der Satzglieder

bull Quiz Satzglieder und Proben

bull Linguistik-CD

53

Kapitel 5

Endliche Automaten

Lernziele

bull Einstieg in die Formalisierung von Sprache

bull Was sind Zeichenketten formalmathematisch

bull Was ist eine formale Sprache

bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation

bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten

bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie

bull Wann ist ein endlicher Automat deterministisch und wann nicht

bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten

54

51 Formale Sprachen

511 Mengen

A Quick Review of Set Theory

A set is a collection of objects

A B

D E

We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E

There is no significant order in a set so A D B E is the same set as E A D B etc

Quelle B04

Cardinality of Sets

 The Empty Set

 A Finite Set

 An Infinite Set eg The Set of all Positive Integers

Norway Denmark Sweden

Quelle B04

512 Zeichen

Das Alphabet (Sigma) Menge von Zeichen

55

Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert

Zeichen des EnglischenΣEnglisch = a b c x y z

Zeichen der binaumlren ZahlenΣbin = 0 1

Zeichenketten (strings)

Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ

Zeichenketten uumlber englischen Symbolen ΣEnglisch

a we muntjac talk walk krwrk

Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0

Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast

bin = ε 0 1 00 01 10 11 001

513 Sprachen

Formal Languages

Very Important Concept in Formal Language Theory

A Language is just a Set of Words

bull  We use the terms ldquowordrdquo and ldquostringrdquo interchangeably

bull  A Language can be empty have finite cardinality or be infinite in size

bull  You can union intersect and subtract languages just like any other sets

56

Quelle B04

Union of Languages (Sets)

dog cat rat elephant mouse

Language 1 Language 2

dog cat rat

elephant mouse

Union of Language 1 and Language 2 Quelle B04

Formale Sprachen als Teilmenge von Sigma Stern

L sube Σlowast

Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast

Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes

Englische Woumlrterwalk talk work sube a b zlowast

Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt

Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit

Formales Modell Wirklichkeit

Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme

57

Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der

Wirklichkeit zu repraumlsentieren

Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working

worked works talk

talking talked talks

walk walking

walked walks

The concatenation of

the Suffix language

after the Root

language

0 or denotes the empty string

Abbildung 51 Sprache mit 3 WoumlrternZeichenketten

Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk

Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage

Beispiel fuumlr Deterministischen Endlichen Automaten

talk isin work talk walk

bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile

52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)

Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand

58

Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert

Nicht-Deterministische Endliche Automaten (NEA)

Abbildung 52 Deterministischer EA

Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg

Nicht-Determinismus IIEs gibt mindestens eine ε-Kante

Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln

Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus

1 einer endlichen Menge Zustaumlnde Φ

2 einem endlichen Eingabealphabet Σ

3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ

59

4 einem Startzustand S isin Φ

5 einer Menge von Endzustaumlnden F sube Φ

Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)

δ Φtimes (Σ cup ε)rarr weierp(Φ)

521 Konkatenation

Konkatenation von Zeichenketten und Sprachen

Konkatenation von Zeichenkettenu bull v = uv

lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo

Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V

lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo

Concatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working worked works talk talking talked talks walk walking walked walks

The concatenation of the Suffix language after the Root language

0 or ε denotes the empty string

60

Quelle B04

Concatenation of Languages II

work talk walk

Root Language

0 ing ed s

Suffix Language

rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks

The concatenation of the Prefix language Root language and the Suffix language

Prefix Language

re out 0

outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks

work working worked works talk talking talked talks walk walking walked walks

Quelle B04

Languages and Networks

w a l k

o r

t

NetworkLanguage 2 NetworkLanguage 3

s

o r The concatenation of Networks 1 2 and 3 in that order

w a l k t

a

a s

ed

i n g

0

s

ed

i n

0s

g o

r

NetworkLanguage 1

s

u t

e

0

o

r s

t

e

0 u

Quelle B04

522 Regulaumlre Ausdruumlcke

Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)

Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann

61

bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo

bull Die Mengen a1a2an sind regulaumlr RA a oder b

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)

bull Ist L regulaumlr dann auch LlowastRA (A)

Wie kann man Optionalitaumlt ausdruumlcken

Graphischer Algorithmus Konversion von RA zu NEA

JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten

Algorithmus

1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde

2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten

3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander

4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen

Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten

Epsilon

Symbol a

Konkatenation (ab)

Alternative (a|b)

62

encodes

a

LANGUAGE RELATION

compiles intoa

REGULAR EXPRESSIONa

FINITE-STATE NETWORKde

notes

Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])

Wiederholung (a)

Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert

63

53 Transduktoren

Linguistic Transducer Machines

mesas

Generator

ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas

m e s a +Noun +Fem +Pl

m e s a 0 0 s

mesa+Noun+Fem+Pl

Analyzer

ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas

Quelle B04

Gute Eigenschaften von endlichen Automaten und Transduktoren

bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen

bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde

bull Beispiel NRumantsch Grischun

bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren

Zusammenfassung

bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben

bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen

bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den

bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt

bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden

64

Vertiefung

bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)

bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo

bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo

bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial

65

Kapitel 6

Flache Satzverarbeitung

Lernziele

bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets

bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung

bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen

bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells

bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger

bull Kenntnis uumlber partielle syntaktische Analyse

bull Kenntnis uumlber flache und verschachtelte Chunks

Welches mehrdeutige Wort hat dieses Profil

UPOS-Tag Vorkommen1

1021ADP 848ADV 61

PROPN 14ADJ 1

61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT

N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token

66

Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)

bull eineDET Kuh Lemma ldquoeinrdquo

bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)

bull lead Verb lid (fuumlhren) Nomen led (Blei)

bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe

Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren

Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to

be present tense 3rd person singular

Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch

Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist

Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]

bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)

bull Effizient Der Tagger arbeitet schnell

bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)

bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den

bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden

Was fehlt

67

611 Probleme des Taggings

Wortformen mit mehreren moumlglichen Tags

MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token

Tag-Ambiguitaumlt im Englischen

Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]

Haumlufigkeiten im Brown-Korpus

bill NN 2351

promised VBD 34~~VBN 10~~JJ 2

back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2

Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token

die~~ART 2351~~PRELS 448~~PDS 4

Mehrheit~~NN 40

bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1

Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0

Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen

bull Unterscheidung zwischen offenen und geschlossenen Wortarten

bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)

68

Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]

Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)

bull 98 aller Woumlrter mit Endung -able sind Adjektive

bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname

Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe

oo

n

e

g

n

d

senuel

l

cv

y ta

o

mtsiii

o

i

ies (NNS09 VBZ01)ons (NNS095 VBZ005)

ed (VBN04 JJ03 VBD03)

le (NN025 JJ045 NP02 VB01)

ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)

ty (NN045 JJ035 NP02)

son (NP08 NN01 JJ01)

man (NP08 NN02)ton (NP09 NN005 JJ005)

ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)

ous (JJ096 NN004)

old (JJ098 NN002)

Quelle [Schmid 1995]

Wortformen mit mehreren moumlglichen Tags Kontext

69

Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6

Vorkommen von ldquobackrdquo im Brown-Korpus

ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung

Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen

Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet

bull die moumlglichen Tags von wn aus Tagger-Lexikon

bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens

Context

3

3

Kontextmodell des Trigrammtaggers TnT [Brants 2000]

612 Fallstudie TnT-Tagger

Supervisiertes Maschinelles Lernen

70

Quelle [Raschka 2015 11]

ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt

Fallstudie TnT-Tagger trainieren und evaluieren

Testkorpustestttstesttxt

Trainingskorpustrainingtts

Getaggtes Korpus

Aufteilen des Korpus

Taggingtnt

Trainingtnt-para

Parameter-Dateien

traininglextraining123

Evaluations-korpus

evaltts

Evaluationtnt-diff

Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger

Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]

1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)

$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts

2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden

$ head --lines 278081 ud-de-v13tts gt trainingtts

3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden

$ tail --lines 30900 ud-de-v13tts gt testtts

71

4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus

$ tnt-para trainingtts

5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut

$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts

6 Man erstelle das Evaluationskorpus

$ cut -f 1 testtts gt evaltxt

7 Man tagge das Evaluationskorpus mit dem Trainingsmodell

$ tnt training evaltxt gt evaltts

8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus

$ tnt-diff testtts evaltts

62 EvaluationEvaluation

Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode

Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt

Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird

Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind

Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden

Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)

Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat

72

Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein

621 Zweck

Zweck von Evaluationen

SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert

SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist

622 Accuracy

POS-Tagger-Evaluation Genauigkeit

Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens

accuracy = N minus EN

Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit

Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus

Tagt Freqt Tagf Freqf Ant Erel Eabs

NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010

Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]

Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler

73

5-fache Kreuzvalidierung visuell

Figure 8-2 K-fold cross-validation

Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point

You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order

gtgtgt import randomgtgtgt randomshuffle(f)

If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold

gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k

Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on

Problems That Can Affect Evaluation | 179

Quelle [Pustejovsky und Stubbs 2013 179]

Genauigkeit unter 10-facher Kreuzvalidierung

Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))

accuracy =sumi=10

i=1 accuracyi

10

Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen

623 Lernkurven

624 Recall

Recall (Ausbeute Abdeckung Vollstaumlndigkeit)

Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems

R = At

Nt

Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600

800 = 75

74

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp())+-01$+-0-2)00-))304

56)77

8010

904010

6+789lt

6-=7gt8lt

6+7gtlt

6-=7gt8lt

6+7lt

6-=79lt

2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J

-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J

)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)

Qampamp)(ampI0(EI(K3amp)-++5

8

9

gt

R9 9 S gt9 8 RR gtS

$-++5NF=J

TM5ltU+B+ampE+

TM5T00I-0L

SSR

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

6)6lt$$)amp$+)=$gt=((+

Q-M-44amp-0C

5-66ampK1F3()ampKVWWJ

6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(

Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp

)-)amp3)T)C

$5-66ampK1F(0amp+KampKVWWJ

6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+

U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+

TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+

+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt

QZ]T F6-+JgtRlt gt8lt [RSlt

Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants

625 Precision

Precision (Genauigkeit Praumlzision)

Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems

P = At

A

Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600

1000 = 60

626 F-Measure

F-Measure (F-Mass)

Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems

F = 2times P timesRP +R

75

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp()

67-18-)amp+8(+5)9amp0amp4amp-

6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F

2++$G-+AH-11))Iamp8+-1

J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+

$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5

amp+)-5)amp-0)ampA+

$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()

$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5

+amp(-012344)425amp123)3627892(+lt

=+$$

gt)(5)

))(5)

D+QRSTU

D-EQVWTRU

D+QVXTRU

D-EQVRTRU

D+QWTYU

D-EQSVTMU

6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F

-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F

M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)

ampamp)(amp80(98(B3amp)-++5T

Y X M YM XM MM YMM YMXM

WM

RM

SM

VM

MM

$-++5OCEMMMF

gt75TU[+A+amp9+

gt75Tgt008-0N

PWTP PTP WTM MTR YTM ST PT TVXMTS

C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants

Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075

06+075 = 666

63 Chunk ParsingPartielle syntaktische Analyse

Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt

Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN

bull NC Ein NC (Nominalchunk) besteht

bull -gt besteht aus

bull ART aus einem Wort der Wortart ART (Artikel)

bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)

76

Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

631 Abneys Chunk-Definition

Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]

Motivationen

bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung

bull Effizienz Teilstrukturen lassen sich effizienter berechnen

bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse

bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden

632 IOB-Chunk

Flache Chunks im IOB-Format

Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist

bull B-K Anfang einer Chunk-Konstituente K

bull I-K Fortsetzung der Chunk-Konstituente K

77

bull 0 Nicht zugeordnet (wird auch chink genannt)

We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP

633 Verschachtelte Chunks

Verschachtelte Chunks

Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich

Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)

[PX [APPR fuumlr][NX [ARTIND eine]

[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]

Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC

64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo

bull Pflichtlektuumlre [Carstensen et al 2009 342-3]

bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking

bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative

bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4

78

ZusammenfassungZusammenfassung

bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung

bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets

bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input

Kontrollfragen

bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen

bull Was unterscheidet Recall und Precision von Accuracy

bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging

bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte

bull Was ist der Vorteil der IOB-Notation fuumlr Chunks

65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele

bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative

bull Kenntnis uumlber Fehlertypen und ihre Gefahr

bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung

651 TrueFalse PositivesNegatives

Evaluation von binaumlren Klassifikatoren

TruthPositive Negative

Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)

Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit

Legende zur Tabelle 63

True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

79

FP Fehlertyp I Test ist positiv wo er nicht sollte

FN Fehlertyp II Test ist negativ wo er nicht sollte

652 Fehlerparadoxe

Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet

Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter

Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet

Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter

653 Unterschiede von Evaluationsmassen

Dualitaumlt von Precision und Recall

TruthPos Neg

Test Pos TP FPNeg FN TN

R = TP

TP + FN

Tabelle 64 Recall

Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision

F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig

80

TruthPos Neg

Test Pos TP FPNeg FN TN

P = TP

TP + FP

Tabelle 65 Precision

TruthPos Neg

Test Pos TP FPNeg FN TN

F = 2times TP2times TP + FP + FN

Tabelle 66 F1-Measure

TruthPos Neg

Test Pos TP FPNeg FN TN

Accuracy = TP + TN

TP + TN + FP + FN

Tabelle 67 Accuracy

654 Mitteln von Recall und Precision

F-Measure Harmonisches vs arithmetisches Mittel

655 Vertiefung

bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]

81

Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]

82

Abbildung 68 M = P +R2 Arithmetisches Mittel

83

Literaturverzeichnis

[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235

[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications

[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University

[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231

[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl

[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen

[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf

[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt

[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf

[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl

[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov

[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl

84

[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf

[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf

[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830

[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485

[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM

[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011

[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl

[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York

[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096

[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA

[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning

[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf

[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin

[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml

85

[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098

[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps

[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd

[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf

[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf

[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf

[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean

[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574

86

Index

10-fache Kreuzvalidierung 74

Adjektiv-Flexion 34Alphabet 56

Eingabealphabet 59

DEA 59Dependenz 47

Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72

F-Measure 75

Genus 32Grad 34

IOB-Chunks 77

Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44

Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25

Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39

Named Entity Regonition 19NER 19

Numerus 33 34

partielle syntaktische 76Person 34Precision 75Probe linguistisch 35

Qualitaumlt einer Evaluation 72

Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72

Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47

Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24

Umformungsprobe 43

Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43

Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24

XML-Standard 14

Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59

87

  • Organisatorisches
    • Organisatorisches
      • Leistungsnachweis
      • Lernen und Lehren
        • Kontrollfragen
          • Tokenisierung
            • Tokenisierer
              • Grundproblem
              • Kodierung
              • Programme
                • XML
                • Tokenisierung
                  • Problem
                  • Punktdisambiguierung
                  • Normalisierung
                  • NER
                    • Multilingualitaumlt
                    • Vertiefung
                      • Linguistisches Propaumldeutikum I
                        • Wort
                          • Token
                          • Wortform
                          • synt Wort
                          • Lexem
                            • Wortarten
                              • 5 Hauptwortarten
                              • UD
                              • STTSPTTS
                                • Merkmale
                                  • Genus
                                  • Zahl
                                  • Kasus
                                  • Modus
                                  • Zeit
                                  • Person
                                  • Grad
                                  • Flexion
                                    • Proben
                                      • Ersetzen
                                      • Einsetzen
                                        • Morphologie
                                          • LemmatisierungMorphologieanalyse
                                          • Morphologiegenerierung
                                            • Vertiefung
                                              • Linguistisches Propaumldeutikum II
                                                • Proben
                                                  • Weglassen
                                                  • Verschieben
                                                  • Umformen
                                                    • Satz
                                                      • Satzglieder
                                                      • Koumlpfe
                                                        • Syntaxanalyse
                                                          • Konstituenz
                                                          • Dependenz
                                                          • UD-DE
                                                          • Suche
                                                            • Ambiguitaumlt
                                                            • Vertiefung
                                                              • Endliche Automaten
                                                                • Formale Sprachen
                                                                  • Mengen
                                                                  • Zeichen
                                                                  • Sprachen
                                                                    • EA und regulaumlre Sprachen
                                                                      • Konkatenation
                                                                      • Regulaumlre Ausdruumlcke
                                                                        • Transduktoren
                                                                          • Flache Satzverarbeitung
                                                                            • Tagging
                                                                              • Probleme
                                                                              • Fallstudie TnT-Tagger
                                                                                • Evaluation
                                                                                  • Zweck
                                                                                  • Accuracy
                                                                                  • Lernkurven
                                                                                  • Recall
                                                                                  • Precision
                                                                                  • F-Measure
                                                                                    • Chunking
                                                                                      • Abney
                                                                                      • IOB-Chunk
                                                                                      • Verschachtelte Chunks
                                                                                        • Vertiefung
                                                                                        • Exkurs Evaluation binaumlrer Klassifikatoren
                                                                                          • TPFPFNTN
                                                                                          • Fehlerparadoxe
                                                                                          • Unterschiede
                                                                                          • Mittelwerte
                                                                                          • Vertiefung
Page 3: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff

34 Proben 35341 Ersetzen 35342 Einsetzen 36

35 Morphologie 36351 LemmatisierungMorphologieanalyse 37352 Morphologiegenerierung 39

36 Vertiefung 39

4 Linguistisches Propaumldeutikum II 4141 Proben 42

411 Weglassen 42412 Verschieben 43413 Umformen 43

42 Satz 44421 Satzglieder 44422 Koumlpfe 44

43 Syntaxanalyse 45431 Konstituenz 45432 Dependenz 47433 UD-DE 48434 Suche 52

44 Ambiguitaumlt 5345 Vertiefung 53

5 Endliche Automaten 5451 Formale Sprachen 55

511 Mengen 55512 Zeichen 55513 Sprachen 56

52 EA und regulaumlre Sprachen 58521 Konkatenation 60522 Regulaumlre Ausdruumlcke 61

53 Transduktoren 64

6 Flache Satzverarbeitung 6661 Tagging 66

611 Probleme 68612 Fallstudie TnT-Tagger 70

62 Evaluation 72621 Zweck 73622 Accuracy 73623 Lernkurven 74624 Recall 74625 Precision 75626 F-Measure 75

63 Chunking 76631 Abney 77632 IOB-Chunk 77633 Verschachtelte Chunks 78

64 Vertiefung 78

2

65 Exkurs Evaluation binaumlrer Klassifikatoren 79651 TPFPFNTN 79652 Fehlerparadoxe 80653 Unterschiede 80654 Mittelwerte 81655 Vertiefung 81

3

Abbildungsverzeichnis

21 Navigationselemente der Web-Site der Olympischen Spiele 2008 922 Schematische Darstellung der Verschachtelung der XML-Tags 1423 Demo von Standford Temporal Tagger Eingabeformular 2024 Demo von Standford Temporal Tagger Resultatsdarstellung in XML 2025 N-Gramm-Profile nach [Cavnar und Trenkle 1994] 21

31 5 Hauptwortarten nach Glinz 2632 Deutsche UD-Baumbank 2833 CoNLL-U und CoNLL-X 3034 Hauptkategorien von STTS 3135 Hauptkategorien des PTTS 32

41 Moderne Satzgliedlehre 4442 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung 4543 Beispielsatz mit allen zu annotierenden NP- und S-Knoten 4644 Syntaktische Funktion in der NEGRA-Darstellung 4745 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm) 4846 Beispielsatz mit allen zu annotierenden NP- und S-Knoten 52

51 Sprache mit 3 WoumlrternZeichenketten 5852 Deterministischer EA 5953 Formale Sprachen regulaumlre Ausdruumlcke und endliche Automaten 63

61 Tagging-Ambiguitaumltsraten aus der Frankfurter Rundschau 6962 Training Tagging und Evaluation mit dem TnT-Tagger 7163 Tnt-Evaluation an Penn Treebank durch Thorsten Brants 7564 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants 7665 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid 7766 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid 7767 F-Mass in dreidimensionaler Darstellung 8268 Arithmetisches vs harmonisches Mittel 83

4

Kapitel 1

Organisatorisches

11 OrganisatorischesInhalt der Vorlesung ECL I

bull bdquoEinfuumlhrung in die Computerlinguistik I (+ II)ldquo geben eine Uumlbersicht uumlber die wichtigstenpraktischen und theoretischen Ziele der Computerlinguistik

bull Vorgestellt werden texttechnologische Grundlagen (Textsegmentierung Wortartenbestim-mung Syntaxanalyse) und wichtige Anwendungen (Maschinelle Uumlbersetzung Sprachsyn-these Spracherkennung Textsuche Informationsextraktion)

bull Im Kurs integriert ist ein linguistisches Propaumldeutikum wo das notwendige grammati-kalische Wissen im Rahmen computerlinguistischer Annotation aufgefrischt bzw vertieftwird

bull Keine Programmiersprachenkenntnisse vorausgesetzt

Kurs-Leitseite im WWW und Lehrmaterialien

OLAT-Campus-Kurs ldquo16HS 5200010 CL EV Einfuumlhrung in die Computerlinguis-tik Irdquo1

bull Wer belegt diese Vorlesung via Modul ldquoIntroduction to Computational Linguistics PartIrdquo

bull Folien als PDF-Dokumente unter ldquoMaterialienrdquo (4up-Format zum Ausdrucken fuumlr VL-Teilvon Clematide) nach der Vorlesung verfuumlgbar

bull Lauftextversion des Folienskripts (PDF-Dokument) mit Index und Ergaumlnzungen fuumlr Pruuml-fungsvorbereitung2

Kursbuch (3 Auflage) [Carstensen et al 2009]3Computerlinguistik und Sprachtechnologie Eine Einfuumlhrungrarr Pflichtlektuumlren stehen auf OLAT als PDF zur Verfuumlgung

1httpslmsuzhchurlRepositoryEntry161124845622 httpwwwcluzhchsiclematlehrehs16ecl1scriptscriptpdf3httpwwwlinguisticsruhr-uni-bochumdeCLBuchbuchhtml

5

111 Leistungsnachweis

6 obligatorische schriftliche Uumlbungen (SU)

Bewertungprinzip Punkte SU = Note SU = 25 der Modulnote

Punktzahl pro UumlbungBestanden 1 Punkt

Halb bestanden 05 PunkteNicht-Bestanden 0 Punkte

Note SU = Summe der Punkte aus den 6 Uumlbungen

bull Uumlbungsausgabe donnerstags 18h (Information via OLAT-Mailversand)

bull Loumlsungsabgabe spaumltestens mittwochs 18h

bull Einige Uumlbungen werden Sie stark fordern Sie duumlrfen maximal zu zweit arbeiten Lern-partnerschaft muss deklariert sein bei der Abgabe

bull Keine Musterloumlsungen Dafuumlr Frage- und Diskussionsgelegenheit sowie Nachbesprechungin Uumlbungsstunde oder im Forum auf OLAT

bull Freiwilliges Tutorat freitags 1215-1345h im Raum AND AND-3-02

bull Start in 2 Semesterwoche (PCL-I-Tutorat bereits in 1 Semesterwoche)

Schriftliche Pruumlfung

bull Zeit Donnerstag 19 Januar 2017 von 1615 - 1800h

bull Dauer 90 Minuten

bull Stoff Skript Uumlbungen Pflichtlektuumlren

112 Lernen und Lehren

E-Learning und Uumlbungen

CLab httpclabcluzhchFuumlr einige Uumlbungen benutzen wir Lerneinheiten aus unserem interaktiven web-basierten Computerlinguistik-Laboratorium (CLab)

Applikationen auf CL-Linux-Server r2d2cluzhchEinzelne Uumlbungsteile nutzen CL-Tools auf unserem Studierenden-Server der uumlber SSH (SecureShell bzw Putty (Win)) zugaumlnglich ist Installationshilfe fuumlr Win dazu im Tutorat zu bdquoPro-grammiertechniken der CLldquo diesen Freitag 14-1545h

Virtuelle Linux-Maschine (25GB) httpkittcluzhchCLHS16ovaIm PCL-I-Tutorat der 1 Woche wird auch die VM (virtuelle Maschine) mit Linux erklaumlrtwelche die wichtigste Software fuumlr PCLECL vorinstalliert enthaumllt und auf allen Plattformen(Win MacOS) frei benutzbar ist (virtualboxorg) Fuumlr SSH benutzbar (Link ab Freitag guumlltig)

6

Anforderungen und Ruumlckmeldungen

bull Nutzen Sie die Uumlbungsstunden

bull Fragen Sie bei den Mitstudierenden nach (OLAT-Forum)

bull Wenden Sie sich an die Uumlbungsverantwortlichen

bull Geben Sie den Dozierenden Ruumlckmeldungen zu Unklarheiten und Problemen im KursDirekt nach der Stunde oder via Mail Wir machen diese Veranstaltung nur fuumlr Sie

Hochrechnung zum Workload fuumlr 6 ECTS-Punkte

ldquoBei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand beruumlck-sichtigt der fuumlr das Erreichen einer genuumlgenden Pruumlfungsleistung erforderlich istrdquo (sect14Abs 2)

ldquoEin ECTS-Punkt entspricht einer Studienleistung von 30 Stundenrdquo (sect13 Abs 2)

[Universitaumltsrat 2004]

bull Praumlsenz in Vorlesung Uumlbungsstunde und schriftlicher Pruumlfung

2times 15times 2h = 60h

bull Zeit pro Woche fuumlr (Pflicht-)Lektuumlre Loumlsen der schriftlichen Uumlbungen und Pruumlfungsvor-bereitung

180hminus 60h15 = 8h

12 KontrollfragenKontrollfragen

bull Welche Buchungsfristen fuumlr Sie relevant Bis wann koumlnnen Sie sich noch einschreibenbzw das Modul stornieren

bull Wie viele SU muumlssen Sie bestehen damit eine 45 in der schriftlichen Pruumlfung noch aufeine 5 aufgerundet wird

bull Wieso sollten Sie die Uumlbungsstunde besuchen

bull Welche Hauptthemen werden in dieser Vorlesung besprochen

7

Kapitel 2

Tokenisierung Automatische Satz-und Wortsegmentierung

Lernziele

bull Kenntnis uumlber die Kodierung sprachlicher Zeichen

bull Kenntnis uumlber den Zweck und die Probleme der textuellen Vorverarbeitung von natuumlrlicherSprache Text-Segmentierung und Text-Normalisierung

bull Kenntnis uumlber XML zur Repraumlsentation von Text und Segmentstruktur

bull Kenntnis uumlber Methoden der Punktdisambiguierung und Satzendeerkennung

bull Kenntnis uumlber Textnormalisierung und Erkennung von interessierenden Groumlssen (NamedEntity Recognition)

bull Kenntnis und Umgang mit regulaumlren Ausdruumlcken

21 Tokenisierer

211 Grundproblem

Woumlrter aus linguistischer Sicht

Definition 211 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprach-lich verwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftli-che Definitionsversuche uneinheitlich und kontrovers sind

Was ist ein Wort

1 ZB nahm sie am Text Mining Workshop teil

2 Das gibtrsquos doch nicht ldquoJooprdquo ist pleite

3 Blick Online verlost zum Film-Start das laquoIch bin Boratraquo-Kit

Wort-Segmentierung in nicht-segmentierten Schreibsystemen

8

Abbildung 21 Navigationselemente der Web-Site der Olympischen Spiele 2008

Rohtexte aus Computersicht Welt der Bytes

$ hexdump dateitxt0000000 57 61 73 20 62 65 69 6e 68 61 6c 74 65 74 20 730000010 69 65 3f 0a0000014

(Der Dateiinhalt ist als Dump1 im Hexadezimalformat wiedergegeben dh jedes Zeichen inForm seines Zeichenkodes als Hexadezimalzahl)Beispiel 212 (Folge von Zeichenkodes in Hexadezimalnotation)Wie viele und welche Woumlrter enthaumllt der folgende Datei-Inhalt57 61 73 20 62 65 69 6E 68 61 6C 74 65 74 20 73 69 65 3F 0A

212 Zeichenkodierung

Was ist ein Zeichen auf dem Computer

bull Traditionell ein Byte dh eine Folge von 8 BitsWas ist ein Bit Binaumlre Entscheidung (0 oder 1)

bull Ein Byte kann als Zahl interpretiert werden indem die Position eines Bits als Stelle imBinaumlrsystem aufgefasst wird 0100rsquo0001

bull Eine Zahl kann als BuchstabeZeichen interpretiert werden indem eine Kodierungskon-vention aufgestellt wird ZB rsquoArsquo=65 rsquorsquo=64 rsquo1rsquo=49

bull Verbreitete Kodierungskonventionen (engl charset) ASCII (128 Zeichen fuumlr Englisch)iso-latin-1 (256 Zeichen fuumlr westeuropaumlische Sprachen)

bull Typische Speicherung bei ASCII und iso-latin-1 1 Zeichen = 1 Byte

Binaumlres und Hexadezimales Stellensystem

1 Byte als binaumlre Zahlen (= 8 Bits)

__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8

__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8

Jedes Kaumlstchen = 1 Bit

4-stellige hexadezimale Zahl (= 4 Bytes)1Zum Beispiel mit dem Befehl $ hexdump dateitxt

9

__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8

__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8

Jedes Kaumlstchen = 1 Byte

Die 128 ASCII-Kodes

Die 128rsquo172 Unicode-Kodes

Moderne universale Kodierungskonvention httpwwwunicodeorgUNICODE(ISOIEC 10646) Version 90 Kodes fuumlr 128rsquo172 Zeichen in fast allen Schriftsystemender WelthttpwwwunicodeorgstandardWhatIsUnicodehtml

GRINNING FACE

bull Kode 128512 (Hexadezimal 1F600)

bull UTF-8 Byte-Repraumlsentation F0 9F 98 80

bull~ In UTF-8 sind nur Unicode-Kodes von ASCII-Zeichen direkt in ihrer Binaumlrzahl-Repraumlsentationgespeichert

10

Was ist ein Zeichen auf dem Computer UTF-8-Format

bull Speicherung bei UNICODE UTF (Abk fuumlr Unicode Transformation Format) beschreibtMethoden einen Unicode-Kode auf eine Folge von Bytes abzubilden

bull UTF-8 (Abk fuumlr 8-bit Universal Character Set Transformation Format) Ordnet jedemUnicode-Zeichen eine speziell kodierte Bytefolge von variabler Laumlnge zu UTF-8 unter-stuumltzt bis zu 4 Byte pro Zeichen

bull Dateiformat XML-Dateien sind defaultmaumlssig UTF-8 kodiert Bei andern Dateien mussman es wissen

bull Jede ASCII-Datei ist auch eine UTF-8-Datei (Ruumlckwaumlrtskompatibilitaumlt)

bull Darstellung Zeichensaumltze (engl fonts) enthalten die graphischen Formen (glyphs) damitdas Betriebssystem die Kodes fuumlrs Auge darstellen kann

bull Konversionswerkzeuge ZB GNU-Kommandozeilentool iconv

Textkonversion mit iconv

Verlustfreie Textkonversion nach UTF-8

$ iconv -f EXOTISCHEKODIERUNG -t UTF-8 lt INPUT gt OUTPUT

Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen laumlsst sich auch Text-Normalisierung durch ldquoTransliterationrdquo2 durchfuumlhren

$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIITRANSLITKlosschen

Das Loumlschen von nicht-repraumlsentierbaren Zeichen ist meist weniger nuumltzlich

$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIIIGNOREKlchen

213 Programme

Grundproblem Vom Zeichenstrom zur Folge von Tokens

RohdatenRohe elektronische Sprachdaten liegen in Dateien vor welche nichts anderes als eine Folge vonkodierten Einzelzeichen dh ein kontinuierlicher Zeichenstrom sind

Token Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung Wortkorrektur morphologische Analyse Lexikonzugriff syn-taktische Analyse

Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)

2~ Das Ergebnis kann von Landeseinstellungen (locale) abhaumlngig sein

11

bull Konsumieren der Zeichenfolge (Eingabe)

bull Gruppieren und allenfalls normalisierenmodifizieren der Zeichen (Verarbeitung)

bull Produzieren einer Folge von Tokens (Ausgabe)

Typische Beispiele fuumlr Tokenisierer Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text dh 1 Token pro Zeile Saumltzesind durch Leerzeilen voneinander abgetrennt

Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhaumlngiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkuumlrzungsdatei(ger-abbrev)

$ cat filetxtBachrsquosche Musikmag Dr Fritz Ja

$ cat ger-abbrevDrusw

$ utf8-tokenizeperl -a ger-abbrev filetxtBachrsquoscheMusikmagDrFritz

Ja

Typische Beispiele fuumlr Tokenisierer Regulaumlre AusdruumlckeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PythonPERL oder Finite-State Tools welche einen einfachen Umgang mit regulaumlren Ausdruumlcken er-lauben

Definition 213 (Regulaumlre Ausdruumlcke (engl regular expressions)) Ein regulaumlrer Ausdruck isteine relativ standardisierte Kurz-Notation um Zeichenketten mit bestimmten Eigenschaften zubeschreibenPraktisch eingesetzt werden sie fuumlr die nicht-woumlrtliche Suche (engl pattern matching) Suchen-und-Ersetzen und Segmentieren von Zeichenketten

Einfuumlhrung in regulaumlre AusdruumlckeZB in unserem CLab httpwwwcluzhchclabregex

12

Tokenisierer in der ProgrammiersprachePython

Tokenisierer mit regulaumlren Ausdruumlcken

bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben

bull Einfach anpassbar auf die Textsorte

bull Fuumlr uumlberschaubare Textmengen empfohlen

bull Vorteil Machen dieselben Fehler konsequent

bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung

Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])

1 Rohtext

This is an example There are two sentences

2 XML-Input fuumlr Tokenisierer (Vortokenisierung)

ltdocumentgtlttextgt

ltpgtThis is an example There are two sentences

ltpgtlttextgt

ltdocumentgt

3 XML-Tokenisat

ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt

13

ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt

Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert

Verschachtelung im XML-Stil

ltdocumentgtlttextgt

ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example

ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences

Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags

22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation

bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs

bull httpstubeswitchchvideos60fc01f1

XML (eXtensible Markup Language)

Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann

14

XML in der Texttechnologie

bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)

bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten

bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben

Aufbau von XML-Dokumenten

Elemente und ihre Attribute

bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt

bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)

bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt

bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt

bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt

bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt

Zeichenreferenzen und Entity-Referenzen

Entitaumlten und Referenzen

bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden

bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal

bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den

Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38

Newline amp9Σ ampx3a3

15

23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen

231 Problem

Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt

bull Wort-Zeichen [a-zA-Z0-9]

bull Einzel-Zeichen [)(rsquo$-]

bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]

ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo

Schwierigkeiten der Wortsegmentierung im engen Sinn

Schwierige Zeichen

bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim

bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr

bull Bindestriche semble-t-il rarr semble + -t-il

bull Punkte SAC

bull Masseinheiten 30 rarr 30 + 28 rarr 28 +

bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que

Teilprobleme der Tokenisierung im weiten Sinn

bull Umgang mit Markup (HTML-Tags Formatierungszeichen)

bull Erkennung der ldquonormalenrdquo Tokengrenzen

bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)

bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)

bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)

bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)

16

232 Punktdisambiguierung

Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben

Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert

Verschmelzung

bull It was due Friday by 5 pm Saturday would be too late

bull Ich kenne die USA Frankreich kenne ich nicht

WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig

Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls

bull das Token in einer Abkuumlrzungsliste steht

bull nach dem Token eines der Zeichen aus [a-z] folgt

bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht

bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt

Nach [Grefenstette und Tapanainen 1994]

LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen

Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen

Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN

1 Wie viele Zeichen umfasst TOKEN

2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale

3 Wie oft kommt TOKEN ohne Punkt vor

4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor

5 Wie oft kommt NEXTTOKEN kleingeschrieben vor

17

Satzsegmentierung mit maschinellen Lernverfahren

bull Fuumlr grosse Textmengen empfohlen

bull Nachteil Unsystematische Fehler koumlnnen auftreten

Statistisches System PUNKT ([Kiss und Strunk 2006])

bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten

bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt

iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte

233 Zeichen- und Token-Normalisierung

Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen

Normalisierung bei Suchmaschinen und anderen Anwendungen

bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich

bull 4897 4-8-97 4897 8497

bull 19000 19rsquo000 19 000 19000

bull Louisa Luise Louise Luisa

bull doesnrsquot does not

Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)

bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt

bull Hollaumlndisch chocola-tje rarr chocolaatje

Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen

18

Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung

Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens

615 5 Ruumlckbau in neue Tokens

Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus

Ruumlckgaumlngig machen von Worttrennung am Zeilenende

Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens

Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch

234 Named Entity Recognition

Named Entity Recognition

Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen

Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen

Kanonische Formen und Entity Linking

bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo

bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo

Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3

Demo Time Expression Recognition (TIMEX task)

24 MultilingualitaumltMultilinguale Dokumente und Systeme

Herausforderung Multilingualitaumlt

bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess

19

Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular

Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML

bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig

bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut

bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet

bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut

Ansatz von [Cavnar und Trenkle 1994]

20

1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten

2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)

3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil

4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm

5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand

N-Gramm-Profile und Profilabstand

Quelle [Cavnar und Trenkle 1994]

Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]

25 VertiefungZum Thema ldquoTokenisierungrdquo

bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28

bull Pflichtlektuumlre [Carstensen et al 2009 341]

bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]

Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)

bull httpwwwcluzhchclabregex

Zum Thema ldquoXMLrdquo

21

bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1

bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]

Zusammenfassung

bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen

bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen

bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen

bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung

bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar

bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen

bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden

Kontrollfragen

bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention

bull Welche Probleme stellen sich bei der Tokenisierung

bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung

bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten

bull Was versteht man unter NER

bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle

22

Kapitel 3

Linguistisches Propaumldeutikum I

Lernziele

bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen

bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg

bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch

bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte

bull Kenntnis und Anwendung linguistischer Proben

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten

bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung

31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs

Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind

Praumlzisierungsversuche des Wort-Begriffs

bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment

bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit

bull Morphologisch Grundeinheit welche flektierbar ist

bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist

bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes

23

Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach

Antworten 4 5 6 9 __

311 Token

Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9

Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText

BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann

312 Wortform

Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes

Identische Wortformen mit unterschiedlicher Bedeutung

bull Die Fliege war tot

bull Er trug eine samtene Fliege

bull Fliege nicht so schnell

313 Syntaktisches Wort

Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6

Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst

Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural

24

314 Lexem

Antwort 5 Wort als Lexem

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden

Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem

Lexikographische Notationskonventionen

Wie sehen Verb-Lemma in DeutschenLatein aus

Antwort 4 Wort als Lexemverband

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4

Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert

Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln

Stufen der Abstraktion Vom Text zum Lexemverband

bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)

bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)

bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen

bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden

bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird

25

32 Lehre von den WortartenWortarten nach [Bussmann 2002]

Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien

Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb

5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det

321 5 Hauptwortarten nach Glinz

Klassifikationskriterien

Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]

Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

26

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

322 UD

Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)

Universal Part-of-Speech Tagset (Version 1)1

12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish

ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo

Universal Part-of-Speech Tagset (Version 2) UPOS2

Version 2 hat 17 POS-Tags

+ Eigennamen (PROPN) (vorher NOUN)

+ Hilfsverben (AUX) (vorher VERB)

+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)

+ Symbole (SYM) (vorher X)

+ Interjektionen (INTJ) (vorher PRT)

= Partikel (PART) (vorher PRT)

= Interpunktion (PUNCT) (vorher )

Baumbanken sind fuumlr 51 Sprachen verfuumlgbar

27

Abbildung 32 Deutsche UD-Baumbank

UD V13 fuumlr Deutsch

NDurchsuchen

bull Suche nach Wort spaumlter

bull Nach Wort+Wortart spaumlterampADV

UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml

Mehrdeutigkeiten Unklarheiten Fehlannotationen

Linguistische Annotation und Automatisierung

Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form

Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml

28

bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)

bull Vollautomatisch Schnell billig fehlerbehaftet

bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile

Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml

N CoNLL-Format Spaltenformat fuumlr Annotationen3

bull Vertikalisierter Text

bull 1 Token pro Zeile

bull Saumltze mit Leerzeile getrennt

bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation

bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet

Bedeutung relevanter Spalten

1 Tokennummer (1-basierte Zaumlhlung) pro Satz

2 Wortform (Token)

3 Lemma

4 Grobe Wortklasse (coarse-grained part-of-speech tag)

5 Feine Wortklasse (fine-grained part-of-speech tag)

6 Morphosyntaktische Merkmale

7 Syntaktischer Kopf als Tokennummer

8 Dependenztyp

CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo

Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token

3httpuniversaldependenciesorgformathtml

29

Abbildung 33 CoNLL-U und CoNLL-X

Manuelle Annotation mit WebAnno und Exportformate

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

323 Feine Tagsets

Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis

bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags

bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert

bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch

bull Alternativen Muumlnsteraner Tagset [Steiner 2003]

Wieso ist das STTS wichtig

bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)

ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel

bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo

30

Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts

Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken

33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale

Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden

Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems

bull Konjugation von Verben

bull Deklination von Nomen Adjektiven Artikeln und Pronomen

bull Steigerung von Adjektiven (und wenigen Adverbien)

Diskussion Sind steigerbare Adverbien ein Widerspruch im System

Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet

31

Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts

Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn

331 Genus

Das Genus (UD Gender) Grammatisches Geschlecht

Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien

Tabelle 31 Uumlbersicht Genera

BemerkungDer Plural von Genus lautet Genera

Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt

Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen

Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind

Deutsch

32

Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur

AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas

332 Numerus

Der Numerus (UD Number) Grammatische Zahl

Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner

Tabelle 32 Uumlbersicht Numeri

BemerkungDer Plural von Numerus lautet Numeri

Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt

333 Kasus

Der Kasus (UD Case) FallUD-Kategorie Case

Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum

Tabelle 33 Uumlbersicht Kasus

BemerkungDer Plural von Kasus lautet Kasus

334 Modus

Der Modus (engl mode mood UD Mood) Aussageweise

Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh

Tabelle 34 Uumlbersicht Modi

In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi

33

335 Tempus

Das Tempus (UD Tense) grammatische Zeit Zeitform

Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging

Tabelle 35 Uumlbersicht Tempora

BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten

336 Person

Die Person (UD Person)

Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht

Tabelle 36 Uumlbersicht Personen

BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt

337 Grad

Der Grad (UD Degree) Steigerung Komparation

Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste

Tabelle 37 Uumlbersicht Komparation

BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt

338 Adjektiv-Flexion

Die Adjektiv-Flexion (engl adjective inflection)

BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven

Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet

34

Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse

Tabelle 38 Uumlbersicht Adjektiv-Flexion

Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern

UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt

Morphologische Englische UD-Annotation

1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _

34 Linguistische ProbenLinguistische Testverfahren

Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen

341 Ersatzprobe

Ersatzprobe

Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben

35

Beispiel 343 (Bestimmung des Kasus)

Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat

Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen

Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)

bull Das ist das Angebot das uns uumlberzeugt hat

bull Dieses ist das Angebot welches uns uumlberzeugt hat

bull Welches ist das Angebot dieses uns uumlberzeugt hat

bull Das ist dieses Angebot welches uns uumlberzeugt hat

Probleme der Interpretation

bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes

bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig

342 Einsetzprobe

Einsetzprobe

Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert

Beispiel 345 (Bestimmung der Wortart)

Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb

Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive

35 MorphologieMorphologische Ebene

Womit befasst sich die Morphologie Wortstruktur und Wortbildung

bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e

36

bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit

bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system

351 LemmatisierungMorphologieanalyse

Lemmatisierung und Morphologieanalyse

Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen

Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma

Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo

Analysen von GERTWOL5

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Probleme morphologischer Analysen Mehrdeutigkeit

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM

Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol

37

bull ldquoeinerdquo als

bull ldquoMuumlllerrdquo als Eigenname oder Substantiv

Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus

Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1

Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile

Probleme morphologischer Analyse

googelte

UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter

Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM

ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat

Lieblingsbeerelieb~lingsbeere S FEM SG NOM

Erdbeereerdbeere S FEM SG NOM

Fingerbeerenfingerbeere S FEM PL NOM

UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung

38

Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas

Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]

Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent

352 Morphologiegenerierung

Generierung von syntaktischen Wortformen

Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation

Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|

Person=2|Tense=Past|VerbForm=Fingingst

backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin

36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT

bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem

bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6

bull Die Website universaldependenciesorg hat einige Dokumentation

Zusammenfassung

bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet

bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte

bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme

bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen

6httpwwwdsuzhchstudien-cd

39

Kontrollfragen

bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo

bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2

bull Worin besteht Morphologieanalyse und -generierung

bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller

bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt

bull Was ist der Unterschied zwischen Lemma und Lexem

40

Kapitel 4

Linguistisches Propaumldeutikum II

Lernziele

bull Anwendung der klassischen syntaktischen Proben

bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf

bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte

bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen

bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug

Motivation 2 (halbwegs kompatible) Syntax-Welten

Konstituenten

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Dependenz

41

Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden

(NGoogles SyntaxNet)

41 Syntaktische ProbenKonstituentenproben

Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt

Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

411 Weglassprobe

Weglassprobe

Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten

Bestimmung eines Satzglieds

1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

FrageWarum nicht Variante 4

42

412 Verschiebeprobe

Verschiebeprobe

Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen

Bestimmung von Satzgliedern

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen bereite ich die Sitzung mit dem Chef vor

3 Ich bereite die Sitzung mit dem Chef morgen vor

Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb

Verschiebeprobe

Unzulaumlssiges Verschieben

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen ich bereite die Sitzung mit dem Chef vor

3 Die Sitzung bereite ich morgen mit dem Chef vor

413 Umformungsproben

Umformungsprobe

Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut

Funktion von Nebensaumltzen

1 Es wuumlrde mich freuen wenn du mitkaumlmest

2 Dein Mitkommen wuumlrde mich freuen

Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo

Infinitivumformung zur Subjekterkennung

1 Die Laumlrche ist ein Nadelbaum

2 ein Nadelbaum sein die Laumlrche

43

Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]

42 SatzSatz

Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist

Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten

421 Satzglieder

Moderne Satzgliedlehre

422 Koumlpfe (oder Kerne) von Konstituenten

Syntaktische Koumlpfe (engl head) Kern (engl kernel)

Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar

Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)

1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]

2 Sie rennt [mit dem Mobile hantierend] zum Kiosk

3 Es wird [viel zu oft] telefoniert

44

4 [Die Frau die zum Kiosk rannte ] war aufgeregt

5 Sie fuumlhlte sich [wie in einem schlechten Film]

6 Aber sie war auch [in einem ziemlich schlechten Film]

43 Syntaxanalyse

431 Konstituenz

Konstituenten und Konstituenz

Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist

Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten

Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten

Konstituenten in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

unmittelbare Dominanz

Konstituente auf Wortebene

Syntaktische Konstituente

Praumlzedenz auf Wortebene

Praumlzedenz zwischen Tochterkonstituenten

Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung

Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente

Konstituententypen

Typen von Konstituenten in TIGERNEGRA

1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen

45

2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern

3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern

4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern

5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern

6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern

7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo

Annotation von Relativsaumltzen

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen

Komplexe Konstituenz in der Penn-Treebank

Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white

Syntaxbaum aus der Vogelperspektive

In

IN

other

JJ

words

NNS

like

IN

automation

NN

machines

NNS

designed

VBN

-NONE-

to

TO

work

VB

in

IN

tandem

NN

they

PRP

shared

VBD

the

DT

same

JJ

programming

NN

a

DT

mutual

JJ

understanding

NN

not

RB

only

RB

of

IN

English

NNP

words

NNS

but

CC

of

IN

the

DT

four

CD

stresses

NNS

pitches

NNS

and

CC

junctures

NNS

that

WP

T

-NONE-

can

MD

change

VB

their

PRP$

meaning

NN

from

IN

black

NN

to

TO

white

NN

NP

PP

NP NP NP

PP

VP

VP

SBJ

S

VP

NP

PP

NP NP NP CONJP NP

PP

NP WHNP NP NP NP

PP

NP

PP

PP

VP

VP

SBJ

S

SBAR

NP

PP

PP

NP

NP

VP

SBJ

S

T

46

Quelle TIGERSearch-Demo-Korpora

Maximale Verschachtelungstiefe

432 Dependenz bzw syntaktische Funktion

Dependenz und syntaktische Funktion

Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten

Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen

HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt

Syntaktische Funktionen in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Syntaktische Funktion

Konstituenten

Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung

Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente

Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken

Einige Satzglieder mit TIGER-Funktion

bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein

47

Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)

bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)

bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)

bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)

bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator

bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb

Baumbankkonversion Von Konstituenz zu Dependenz

Automatische Konversion (NTIGER2Dep)

Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)

433 UD-DE-Modell

Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen

48

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

Generelle Philosophie des Universal-Dependency-Modells

bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig

bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV

bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum

bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden

bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der

bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)

bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens

Inhaltswoumlrter VERB und NOUN

Hinweisebull Spitze des Pfeils Abhaumlngiges Element

bull Startknoten des Pfeils Kopf

bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen

bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird

Das UD-Innenleben von Nominalphrasen

Hinweisebull Was ist der NP-Kopf

bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll

49

Komplexe Verb- und Adjektivphrasen

Hinweise

bull Hilfs- und Modalverben haumlngen vom Vollverb ab

bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich

Kopulakonstruktion und Gleichsetzungsnominativ

Fragen

bull Wovon haumlngt das Subjekt ab

bull NSuche nach ist im Suchwerkzeug

bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft

Interpunktion

Hinweise

bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt

50

Verschachtelte Saumltze

Hinweise

bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab

bull Wann aclrelcl und wann advcl

Koordination

Koordination Koumlpfe und Abhaumlngigkeitsrichtung

Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht

Koordination von Konstituenten aus NEGRA-Korpus

bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]

bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]

bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]

2 Fragen mit mehreren moumlglichen Antworten

bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt

bull In welche Richtung werden koordinierte Elemente verknuumlpft

Koordination in der NUD

Frage

bull Welche Antworten gibt die UD

51

Manuelle Syntax-Annotation mit WebAnno

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)

bull Click-und-Drag-Interface mit der Maus

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml

Aufgabe Annotation von Relativsatz

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Wie sieht eine UD-Annotation von diesem Satz aus

434 Suche

NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken

Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-

Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens

2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)

KOPF gt NICHTKOPF

NICHTKOPF lt KOPF

Analog zur Pfeilrichtung in der BRAT-Visualisierung

52

Grundlegende syntaktische Suchrezepte

bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging

bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging

bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde

bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld

bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor

bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _

bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist

44 AmbiguitaumltZusammenfassung

bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen

bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden

bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab

bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])

45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]

bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre

bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren

bull Quiz Die Form der Satzglieder

bull Quiz Satzglieder und Proben

bull Linguistik-CD

53

Kapitel 5

Endliche Automaten

Lernziele

bull Einstieg in die Formalisierung von Sprache

bull Was sind Zeichenketten formalmathematisch

bull Was ist eine formale Sprache

bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation

bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten

bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie

bull Wann ist ein endlicher Automat deterministisch und wann nicht

bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten

54

51 Formale Sprachen

511 Mengen

A Quick Review of Set Theory

A set is a collection of objects

A B

D E

We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E

There is no significant order in a set so A D B E is the same set as E A D B etc

Quelle B04

Cardinality of Sets

 The Empty Set

 A Finite Set

 An Infinite Set eg The Set of all Positive Integers

Norway Denmark Sweden

Quelle B04

512 Zeichen

Das Alphabet (Sigma) Menge von Zeichen

55

Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert

Zeichen des EnglischenΣEnglisch = a b c x y z

Zeichen der binaumlren ZahlenΣbin = 0 1

Zeichenketten (strings)

Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ

Zeichenketten uumlber englischen Symbolen ΣEnglisch

a we muntjac talk walk krwrk

Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0

Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast

bin = ε 0 1 00 01 10 11 001

513 Sprachen

Formal Languages

Very Important Concept in Formal Language Theory

A Language is just a Set of Words

bull  We use the terms ldquowordrdquo and ldquostringrdquo interchangeably

bull  A Language can be empty have finite cardinality or be infinite in size

bull  You can union intersect and subtract languages just like any other sets

56

Quelle B04

Union of Languages (Sets)

dog cat rat elephant mouse

Language 1 Language 2

dog cat rat

elephant mouse

Union of Language 1 and Language 2 Quelle B04

Formale Sprachen als Teilmenge von Sigma Stern

L sube Σlowast

Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast

Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes

Englische Woumlrterwalk talk work sube a b zlowast

Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt

Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit

Formales Modell Wirklichkeit

Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme

57

Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der

Wirklichkeit zu repraumlsentieren

Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working

worked works talk

talking talked talks

walk walking

walked walks

The concatenation of

the Suffix language

after the Root

language

0 or denotes the empty string

Abbildung 51 Sprache mit 3 WoumlrternZeichenketten

Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk

Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage

Beispiel fuumlr Deterministischen Endlichen Automaten

talk isin work talk walk

bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile

52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)

Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand

58

Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert

Nicht-Deterministische Endliche Automaten (NEA)

Abbildung 52 Deterministischer EA

Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg

Nicht-Determinismus IIEs gibt mindestens eine ε-Kante

Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln

Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus

1 einer endlichen Menge Zustaumlnde Φ

2 einem endlichen Eingabealphabet Σ

3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ

59

4 einem Startzustand S isin Φ

5 einer Menge von Endzustaumlnden F sube Φ

Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)

δ Φtimes (Σ cup ε)rarr weierp(Φ)

521 Konkatenation

Konkatenation von Zeichenketten und Sprachen

Konkatenation von Zeichenkettenu bull v = uv

lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo

Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V

lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo

Concatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working worked works talk talking talked talks walk walking walked walks

The concatenation of the Suffix language after the Root language

0 or ε denotes the empty string

60

Quelle B04

Concatenation of Languages II

work talk walk

Root Language

0 ing ed s

Suffix Language

rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks

The concatenation of the Prefix language Root language and the Suffix language

Prefix Language

re out 0

outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks

work working worked works talk talking talked talks walk walking walked walks

Quelle B04

Languages and Networks

w a l k

o r

t

NetworkLanguage 2 NetworkLanguage 3

s

o r The concatenation of Networks 1 2 and 3 in that order

w a l k t

a

a s

ed

i n g

0

s

ed

i n

0s

g o

r

NetworkLanguage 1

s

u t

e

0

o

r s

t

e

0 u

Quelle B04

522 Regulaumlre Ausdruumlcke

Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)

Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann

61

bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo

bull Die Mengen a1a2an sind regulaumlr RA a oder b

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)

bull Ist L regulaumlr dann auch LlowastRA (A)

Wie kann man Optionalitaumlt ausdruumlcken

Graphischer Algorithmus Konversion von RA zu NEA

JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten

Algorithmus

1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde

2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten

3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander

4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen

Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten

Epsilon

Symbol a

Konkatenation (ab)

Alternative (a|b)

62

encodes

a

LANGUAGE RELATION

compiles intoa

REGULAR EXPRESSIONa

FINITE-STATE NETWORKde

notes

Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])

Wiederholung (a)

Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert

63

53 Transduktoren

Linguistic Transducer Machines

mesas

Generator

ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas

m e s a +Noun +Fem +Pl

m e s a 0 0 s

mesa+Noun+Fem+Pl

Analyzer

ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas

Quelle B04

Gute Eigenschaften von endlichen Automaten und Transduktoren

bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen

bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde

bull Beispiel NRumantsch Grischun

bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren

Zusammenfassung

bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben

bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen

bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den

bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt

bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden

64

Vertiefung

bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)

bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo

bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo

bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial

65

Kapitel 6

Flache Satzverarbeitung

Lernziele

bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets

bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung

bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen

bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells

bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger

bull Kenntnis uumlber partielle syntaktische Analyse

bull Kenntnis uumlber flache und verschachtelte Chunks

Welches mehrdeutige Wort hat dieses Profil

UPOS-Tag Vorkommen1

1021ADP 848ADV 61

PROPN 14ADJ 1

61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT

N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token

66

Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)

bull eineDET Kuh Lemma ldquoeinrdquo

bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)

bull lead Verb lid (fuumlhren) Nomen led (Blei)

bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe

Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren

Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to

be present tense 3rd person singular

Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch

Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist

Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]

bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)

bull Effizient Der Tagger arbeitet schnell

bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)

bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den

bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden

Was fehlt

67

611 Probleme des Taggings

Wortformen mit mehreren moumlglichen Tags

MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token

Tag-Ambiguitaumlt im Englischen

Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]

Haumlufigkeiten im Brown-Korpus

bill NN 2351

promised VBD 34~~VBN 10~~JJ 2

back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2

Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token

die~~ART 2351~~PRELS 448~~PDS 4

Mehrheit~~NN 40

bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1

Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0

Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen

bull Unterscheidung zwischen offenen und geschlossenen Wortarten

bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)

68

Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]

Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)

bull 98 aller Woumlrter mit Endung -able sind Adjektive

bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname

Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe

oo

n

e

g

n

d

senuel

l

cv

y ta

o

mtsiii

o

i

ies (NNS09 VBZ01)ons (NNS095 VBZ005)

ed (VBN04 JJ03 VBD03)

le (NN025 JJ045 NP02 VB01)

ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)

ty (NN045 JJ035 NP02)

son (NP08 NN01 JJ01)

man (NP08 NN02)ton (NP09 NN005 JJ005)

ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)

ous (JJ096 NN004)

old (JJ098 NN002)

Quelle [Schmid 1995]

Wortformen mit mehreren moumlglichen Tags Kontext

69

Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6

Vorkommen von ldquobackrdquo im Brown-Korpus

ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung

Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen

Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet

bull die moumlglichen Tags von wn aus Tagger-Lexikon

bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens

Context

3

3

Kontextmodell des Trigrammtaggers TnT [Brants 2000]

612 Fallstudie TnT-Tagger

Supervisiertes Maschinelles Lernen

70

Quelle [Raschka 2015 11]

ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt

Fallstudie TnT-Tagger trainieren und evaluieren

Testkorpustestttstesttxt

Trainingskorpustrainingtts

Getaggtes Korpus

Aufteilen des Korpus

Taggingtnt

Trainingtnt-para

Parameter-Dateien

traininglextraining123

Evaluations-korpus

evaltts

Evaluationtnt-diff

Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger

Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]

1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)

$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts

2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden

$ head --lines 278081 ud-de-v13tts gt trainingtts

3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden

$ tail --lines 30900 ud-de-v13tts gt testtts

71

4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus

$ tnt-para trainingtts

5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut

$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts

6 Man erstelle das Evaluationskorpus

$ cut -f 1 testtts gt evaltxt

7 Man tagge das Evaluationskorpus mit dem Trainingsmodell

$ tnt training evaltxt gt evaltts

8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus

$ tnt-diff testtts evaltts

62 EvaluationEvaluation

Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode

Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt

Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird

Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind

Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden

Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)

Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat

72

Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein

621 Zweck

Zweck von Evaluationen

SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert

SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist

622 Accuracy

POS-Tagger-Evaluation Genauigkeit

Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens

accuracy = N minus EN

Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit

Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus

Tagt Freqt Tagf Freqf Ant Erel Eabs

NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010

Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]

Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler

73

5-fache Kreuzvalidierung visuell

Figure 8-2 K-fold cross-validation

Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point

You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order

gtgtgt import randomgtgtgt randomshuffle(f)

If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold

gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k

Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on

Problems That Can Affect Evaluation | 179

Quelle [Pustejovsky und Stubbs 2013 179]

Genauigkeit unter 10-facher Kreuzvalidierung

Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))

accuracy =sumi=10

i=1 accuracyi

10

Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen

623 Lernkurven

624 Recall

Recall (Ausbeute Abdeckung Vollstaumlndigkeit)

Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems

R = At

Nt

Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600

800 = 75

74

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp())+-01$+-0-2)00-))304

56)77

8010

904010

6+789lt

6-=7gt8lt

6+7gtlt

6-=7gt8lt

6+7lt

6-=79lt

2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J

-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J

)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)

Qampamp)(ampI0(EI(K3amp)-++5

8

9

gt

R9 9 S gt9 8 RR gtS

$-++5NF=J

TM5ltU+B+ampE+

TM5T00I-0L

SSR

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

6)6lt$$)amp$+)=$gt=((+

Q-M-44amp-0C

5-66ampK1F3()ampKVWWJ

6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(

Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp

)-)amp3)T)C

$5-66ampK1F(0amp+KampKVWWJ

6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+

U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+

TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+

+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt

QZ]T F6-+JgtRlt gt8lt [RSlt

Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants

625 Precision

Precision (Genauigkeit Praumlzision)

Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems

P = At

A

Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600

1000 = 60

626 F-Measure

F-Measure (F-Mass)

Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems

F = 2times P timesRP +R

75

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp()

67-18-)amp+8(+5)9amp0amp4amp-

6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F

2++$G-+AH-11))Iamp8+-1

J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+

$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5

amp+)-5)amp-0)ampA+

$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()

$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5

+amp(-012344)425amp123)3627892(+lt

=+$$

gt)(5)

))(5)

D+QRSTU

D-EQVWTRU

D+QVXTRU

D-EQVRTRU

D+QWTYU

D-EQSVTMU

6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F

-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F

M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)

ampamp)(amp80(98(B3amp)-++5T

Y X M YM XM MM YMM YMXM

WM

RM

SM

VM

MM

$-++5OCEMMMF

gt75TU[+A+amp9+

gt75Tgt008-0N

PWTP PTP WTM MTR YTM ST PT TVXMTS

C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants

Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075

06+075 = 666

63 Chunk ParsingPartielle syntaktische Analyse

Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt

Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN

bull NC Ein NC (Nominalchunk) besteht

bull -gt besteht aus

bull ART aus einem Wort der Wortart ART (Artikel)

bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)

76

Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

631 Abneys Chunk-Definition

Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]

Motivationen

bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung

bull Effizienz Teilstrukturen lassen sich effizienter berechnen

bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse

bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden

632 IOB-Chunk

Flache Chunks im IOB-Format

Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist

bull B-K Anfang einer Chunk-Konstituente K

bull I-K Fortsetzung der Chunk-Konstituente K

77

bull 0 Nicht zugeordnet (wird auch chink genannt)

We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP

633 Verschachtelte Chunks

Verschachtelte Chunks

Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich

Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)

[PX [APPR fuumlr][NX [ARTIND eine]

[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]

Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC

64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo

bull Pflichtlektuumlre [Carstensen et al 2009 342-3]

bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking

bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative

bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4

78

ZusammenfassungZusammenfassung

bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung

bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets

bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input

Kontrollfragen

bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen

bull Was unterscheidet Recall und Precision von Accuracy

bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging

bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte

bull Was ist der Vorteil der IOB-Notation fuumlr Chunks

65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele

bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative

bull Kenntnis uumlber Fehlertypen und ihre Gefahr

bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung

651 TrueFalse PositivesNegatives

Evaluation von binaumlren Klassifikatoren

TruthPositive Negative

Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)

Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit

Legende zur Tabelle 63

True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

79

FP Fehlertyp I Test ist positiv wo er nicht sollte

FN Fehlertyp II Test ist negativ wo er nicht sollte

652 Fehlerparadoxe

Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet

Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter

Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet

Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter

653 Unterschiede von Evaluationsmassen

Dualitaumlt von Precision und Recall

TruthPos Neg

Test Pos TP FPNeg FN TN

R = TP

TP + FN

Tabelle 64 Recall

Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision

F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig

80

TruthPos Neg

Test Pos TP FPNeg FN TN

P = TP

TP + FP

Tabelle 65 Precision

TruthPos Neg

Test Pos TP FPNeg FN TN

F = 2times TP2times TP + FP + FN

Tabelle 66 F1-Measure

TruthPos Neg

Test Pos TP FPNeg FN TN

Accuracy = TP + TN

TP + TN + FP + FN

Tabelle 67 Accuracy

654 Mitteln von Recall und Precision

F-Measure Harmonisches vs arithmetisches Mittel

655 Vertiefung

bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]

81

Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]

82

Abbildung 68 M = P +R2 Arithmetisches Mittel

83

Literaturverzeichnis

[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235

[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications

[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University

[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231

[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl

[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen

[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf

[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt

[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf

[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl

[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov

[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl

84

[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf

[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf

[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830

[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485

[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM

[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011

[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl

[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York

[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096

[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA

[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning

[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf

[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin

[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml

85

[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098

[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps

[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd

[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf

[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf

[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf

[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean

[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574

86

Index

10-fache Kreuzvalidierung 74

Adjektiv-Flexion 34Alphabet 56

Eingabealphabet 59

DEA 59Dependenz 47

Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72

F-Measure 75

Genus 32Grad 34

IOB-Chunks 77

Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44

Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25

Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39

Named Entity Regonition 19NER 19

Numerus 33 34

partielle syntaktische 76Person 34Precision 75Probe linguistisch 35

Qualitaumlt einer Evaluation 72

Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72

Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47

Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24

Umformungsprobe 43

Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43

Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24

XML-Standard 14

Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59

87

  • Organisatorisches
    • Organisatorisches
      • Leistungsnachweis
      • Lernen und Lehren
        • Kontrollfragen
          • Tokenisierung
            • Tokenisierer
              • Grundproblem
              • Kodierung
              • Programme
                • XML
                • Tokenisierung
                  • Problem
                  • Punktdisambiguierung
                  • Normalisierung
                  • NER
                    • Multilingualitaumlt
                    • Vertiefung
                      • Linguistisches Propaumldeutikum I
                        • Wort
                          • Token
                          • Wortform
                          • synt Wort
                          • Lexem
                            • Wortarten
                              • 5 Hauptwortarten
                              • UD
                              • STTSPTTS
                                • Merkmale
                                  • Genus
                                  • Zahl
                                  • Kasus
                                  • Modus
                                  • Zeit
                                  • Person
                                  • Grad
                                  • Flexion
                                    • Proben
                                      • Ersetzen
                                      • Einsetzen
                                        • Morphologie
                                          • LemmatisierungMorphologieanalyse
                                          • Morphologiegenerierung
                                            • Vertiefung
                                              • Linguistisches Propaumldeutikum II
                                                • Proben
                                                  • Weglassen
                                                  • Verschieben
                                                  • Umformen
                                                    • Satz
                                                      • Satzglieder
                                                      • Koumlpfe
                                                        • Syntaxanalyse
                                                          • Konstituenz
                                                          • Dependenz
                                                          • UD-DE
                                                          • Suche
                                                            • Ambiguitaumlt
                                                            • Vertiefung
                                                              • Endliche Automaten
                                                                • Formale Sprachen
                                                                  • Mengen
                                                                  • Zeichen
                                                                  • Sprachen
                                                                    • EA und regulaumlre Sprachen
                                                                      • Konkatenation
                                                                      • Regulaumlre Ausdruumlcke
                                                                        • Transduktoren
                                                                          • Flache Satzverarbeitung
                                                                            • Tagging
                                                                              • Probleme
                                                                              • Fallstudie TnT-Tagger
                                                                                • Evaluation
                                                                                  • Zweck
                                                                                  • Accuracy
                                                                                  • Lernkurven
                                                                                  • Recall
                                                                                  • Precision
                                                                                  • F-Measure
                                                                                    • Chunking
                                                                                      • Abney
                                                                                      • IOB-Chunk
                                                                                      • Verschachtelte Chunks
                                                                                        • Vertiefung
                                                                                        • Exkurs Evaluation binaumlrer Klassifikatoren
                                                                                          • TPFPFNTN
                                                                                          • Fehlerparadoxe
                                                                                          • Unterschiede
                                                                                          • Mittelwerte
                                                                                          • Vertiefung
Page 4: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff

65 Exkurs Evaluation binaumlrer Klassifikatoren 79651 TPFPFNTN 79652 Fehlerparadoxe 80653 Unterschiede 80654 Mittelwerte 81655 Vertiefung 81

3

Abbildungsverzeichnis

21 Navigationselemente der Web-Site der Olympischen Spiele 2008 922 Schematische Darstellung der Verschachtelung der XML-Tags 1423 Demo von Standford Temporal Tagger Eingabeformular 2024 Demo von Standford Temporal Tagger Resultatsdarstellung in XML 2025 N-Gramm-Profile nach [Cavnar und Trenkle 1994] 21

31 5 Hauptwortarten nach Glinz 2632 Deutsche UD-Baumbank 2833 CoNLL-U und CoNLL-X 3034 Hauptkategorien von STTS 3135 Hauptkategorien des PTTS 32

41 Moderne Satzgliedlehre 4442 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung 4543 Beispielsatz mit allen zu annotierenden NP- und S-Knoten 4644 Syntaktische Funktion in der NEGRA-Darstellung 4745 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm) 4846 Beispielsatz mit allen zu annotierenden NP- und S-Knoten 52

51 Sprache mit 3 WoumlrternZeichenketten 5852 Deterministischer EA 5953 Formale Sprachen regulaumlre Ausdruumlcke und endliche Automaten 63

61 Tagging-Ambiguitaumltsraten aus der Frankfurter Rundschau 6962 Training Tagging und Evaluation mit dem TnT-Tagger 7163 Tnt-Evaluation an Penn Treebank durch Thorsten Brants 7564 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants 7665 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid 7766 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid 7767 F-Mass in dreidimensionaler Darstellung 8268 Arithmetisches vs harmonisches Mittel 83

4

Kapitel 1

Organisatorisches

11 OrganisatorischesInhalt der Vorlesung ECL I

bull bdquoEinfuumlhrung in die Computerlinguistik I (+ II)ldquo geben eine Uumlbersicht uumlber die wichtigstenpraktischen und theoretischen Ziele der Computerlinguistik

bull Vorgestellt werden texttechnologische Grundlagen (Textsegmentierung Wortartenbestim-mung Syntaxanalyse) und wichtige Anwendungen (Maschinelle Uumlbersetzung Sprachsyn-these Spracherkennung Textsuche Informationsextraktion)

bull Im Kurs integriert ist ein linguistisches Propaumldeutikum wo das notwendige grammati-kalische Wissen im Rahmen computerlinguistischer Annotation aufgefrischt bzw vertieftwird

bull Keine Programmiersprachenkenntnisse vorausgesetzt

Kurs-Leitseite im WWW und Lehrmaterialien

OLAT-Campus-Kurs ldquo16HS 5200010 CL EV Einfuumlhrung in die Computerlinguis-tik Irdquo1

bull Wer belegt diese Vorlesung via Modul ldquoIntroduction to Computational Linguistics PartIrdquo

bull Folien als PDF-Dokumente unter ldquoMaterialienrdquo (4up-Format zum Ausdrucken fuumlr VL-Teilvon Clematide) nach der Vorlesung verfuumlgbar

bull Lauftextversion des Folienskripts (PDF-Dokument) mit Index und Ergaumlnzungen fuumlr Pruuml-fungsvorbereitung2

Kursbuch (3 Auflage) [Carstensen et al 2009]3Computerlinguistik und Sprachtechnologie Eine Einfuumlhrungrarr Pflichtlektuumlren stehen auf OLAT als PDF zur Verfuumlgung

1httpslmsuzhchurlRepositoryEntry161124845622 httpwwwcluzhchsiclematlehrehs16ecl1scriptscriptpdf3httpwwwlinguisticsruhr-uni-bochumdeCLBuchbuchhtml

5

111 Leistungsnachweis

6 obligatorische schriftliche Uumlbungen (SU)

Bewertungprinzip Punkte SU = Note SU = 25 der Modulnote

Punktzahl pro UumlbungBestanden 1 Punkt

Halb bestanden 05 PunkteNicht-Bestanden 0 Punkte

Note SU = Summe der Punkte aus den 6 Uumlbungen

bull Uumlbungsausgabe donnerstags 18h (Information via OLAT-Mailversand)

bull Loumlsungsabgabe spaumltestens mittwochs 18h

bull Einige Uumlbungen werden Sie stark fordern Sie duumlrfen maximal zu zweit arbeiten Lern-partnerschaft muss deklariert sein bei der Abgabe

bull Keine Musterloumlsungen Dafuumlr Frage- und Diskussionsgelegenheit sowie Nachbesprechungin Uumlbungsstunde oder im Forum auf OLAT

bull Freiwilliges Tutorat freitags 1215-1345h im Raum AND AND-3-02

bull Start in 2 Semesterwoche (PCL-I-Tutorat bereits in 1 Semesterwoche)

Schriftliche Pruumlfung

bull Zeit Donnerstag 19 Januar 2017 von 1615 - 1800h

bull Dauer 90 Minuten

bull Stoff Skript Uumlbungen Pflichtlektuumlren

112 Lernen und Lehren

E-Learning und Uumlbungen

CLab httpclabcluzhchFuumlr einige Uumlbungen benutzen wir Lerneinheiten aus unserem interaktiven web-basierten Computerlinguistik-Laboratorium (CLab)

Applikationen auf CL-Linux-Server r2d2cluzhchEinzelne Uumlbungsteile nutzen CL-Tools auf unserem Studierenden-Server der uumlber SSH (SecureShell bzw Putty (Win)) zugaumlnglich ist Installationshilfe fuumlr Win dazu im Tutorat zu bdquoPro-grammiertechniken der CLldquo diesen Freitag 14-1545h

Virtuelle Linux-Maschine (25GB) httpkittcluzhchCLHS16ovaIm PCL-I-Tutorat der 1 Woche wird auch die VM (virtuelle Maschine) mit Linux erklaumlrtwelche die wichtigste Software fuumlr PCLECL vorinstalliert enthaumllt und auf allen Plattformen(Win MacOS) frei benutzbar ist (virtualboxorg) Fuumlr SSH benutzbar (Link ab Freitag guumlltig)

6

Anforderungen und Ruumlckmeldungen

bull Nutzen Sie die Uumlbungsstunden

bull Fragen Sie bei den Mitstudierenden nach (OLAT-Forum)

bull Wenden Sie sich an die Uumlbungsverantwortlichen

bull Geben Sie den Dozierenden Ruumlckmeldungen zu Unklarheiten und Problemen im KursDirekt nach der Stunde oder via Mail Wir machen diese Veranstaltung nur fuumlr Sie

Hochrechnung zum Workload fuumlr 6 ECTS-Punkte

ldquoBei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand beruumlck-sichtigt der fuumlr das Erreichen einer genuumlgenden Pruumlfungsleistung erforderlich istrdquo (sect14Abs 2)

ldquoEin ECTS-Punkt entspricht einer Studienleistung von 30 Stundenrdquo (sect13 Abs 2)

[Universitaumltsrat 2004]

bull Praumlsenz in Vorlesung Uumlbungsstunde und schriftlicher Pruumlfung

2times 15times 2h = 60h

bull Zeit pro Woche fuumlr (Pflicht-)Lektuumlre Loumlsen der schriftlichen Uumlbungen und Pruumlfungsvor-bereitung

180hminus 60h15 = 8h

12 KontrollfragenKontrollfragen

bull Welche Buchungsfristen fuumlr Sie relevant Bis wann koumlnnen Sie sich noch einschreibenbzw das Modul stornieren

bull Wie viele SU muumlssen Sie bestehen damit eine 45 in der schriftlichen Pruumlfung noch aufeine 5 aufgerundet wird

bull Wieso sollten Sie die Uumlbungsstunde besuchen

bull Welche Hauptthemen werden in dieser Vorlesung besprochen

7

Kapitel 2

Tokenisierung Automatische Satz-und Wortsegmentierung

Lernziele

bull Kenntnis uumlber die Kodierung sprachlicher Zeichen

bull Kenntnis uumlber den Zweck und die Probleme der textuellen Vorverarbeitung von natuumlrlicherSprache Text-Segmentierung und Text-Normalisierung

bull Kenntnis uumlber XML zur Repraumlsentation von Text und Segmentstruktur

bull Kenntnis uumlber Methoden der Punktdisambiguierung und Satzendeerkennung

bull Kenntnis uumlber Textnormalisierung und Erkennung von interessierenden Groumlssen (NamedEntity Recognition)

bull Kenntnis und Umgang mit regulaumlren Ausdruumlcken

21 Tokenisierer

211 Grundproblem

Woumlrter aus linguistischer Sicht

Definition 211 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprach-lich verwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftli-che Definitionsversuche uneinheitlich und kontrovers sind

Was ist ein Wort

1 ZB nahm sie am Text Mining Workshop teil

2 Das gibtrsquos doch nicht ldquoJooprdquo ist pleite

3 Blick Online verlost zum Film-Start das laquoIch bin Boratraquo-Kit

Wort-Segmentierung in nicht-segmentierten Schreibsystemen

8

Abbildung 21 Navigationselemente der Web-Site der Olympischen Spiele 2008

Rohtexte aus Computersicht Welt der Bytes

$ hexdump dateitxt0000000 57 61 73 20 62 65 69 6e 68 61 6c 74 65 74 20 730000010 69 65 3f 0a0000014

(Der Dateiinhalt ist als Dump1 im Hexadezimalformat wiedergegeben dh jedes Zeichen inForm seines Zeichenkodes als Hexadezimalzahl)Beispiel 212 (Folge von Zeichenkodes in Hexadezimalnotation)Wie viele und welche Woumlrter enthaumllt der folgende Datei-Inhalt57 61 73 20 62 65 69 6E 68 61 6C 74 65 74 20 73 69 65 3F 0A

212 Zeichenkodierung

Was ist ein Zeichen auf dem Computer

bull Traditionell ein Byte dh eine Folge von 8 BitsWas ist ein Bit Binaumlre Entscheidung (0 oder 1)

bull Ein Byte kann als Zahl interpretiert werden indem die Position eines Bits als Stelle imBinaumlrsystem aufgefasst wird 0100rsquo0001

bull Eine Zahl kann als BuchstabeZeichen interpretiert werden indem eine Kodierungskon-vention aufgestellt wird ZB rsquoArsquo=65 rsquorsquo=64 rsquo1rsquo=49

bull Verbreitete Kodierungskonventionen (engl charset) ASCII (128 Zeichen fuumlr Englisch)iso-latin-1 (256 Zeichen fuumlr westeuropaumlische Sprachen)

bull Typische Speicherung bei ASCII und iso-latin-1 1 Zeichen = 1 Byte

Binaumlres und Hexadezimales Stellensystem

1 Byte als binaumlre Zahlen (= 8 Bits)

__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8

__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8

Jedes Kaumlstchen = 1 Bit

4-stellige hexadezimale Zahl (= 4 Bytes)1Zum Beispiel mit dem Befehl $ hexdump dateitxt

9

__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8

__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8

Jedes Kaumlstchen = 1 Byte

Die 128 ASCII-Kodes

Die 128rsquo172 Unicode-Kodes

Moderne universale Kodierungskonvention httpwwwunicodeorgUNICODE(ISOIEC 10646) Version 90 Kodes fuumlr 128rsquo172 Zeichen in fast allen Schriftsystemender WelthttpwwwunicodeorgstandardWhatIsUnicodehtml

GRINNING FACE

bull Kode 128512 (Hexadezimal 1F600)

bull UTF-8 Byte-Repraumlsentation F0 9F 98 80

bull~ In UTF-8 sind nur Unicode-Kodes von ASCII-Zeichen direkt in ihrer Binaumlrzahl-Repraumlsentationgespeichert

10

Was ist ein Zeichen auf dem Computer UTF-8-Format

bull Speicherung bei UNICODE UTF (Abk fuumlr Unicode Transformation Format) beschreibtMethoden einen Unicode-Kode auf eine Folge von Bytes abzubilden

bull UTF-8 (Abk fuumlr 8-bit Universal Character Set Transformation Format) Ordnet jedemUnicode-Zeichen eine speziell kodierte Bytefolge von variabler Laumlnge zu UTF-8 unter-stuumltzt bis zu 4 Byte pro Zeichen

bull Dateiformat XML-Dateien sind defaultmaumlssig UTF-8 kodiert Bei andern Dateien mussman es wissen

bull Jede ASCII-Datei ist auch eine UTF-8-Datei (Ruumlckwaumlrtskompatibilitaumlt)

bull Darstellung Zeichensaumltze (engl fonts) enthalten die graphischen Formen (glyphs) damitdas Betriebssystem die Kodes fuumlrs Auge darstellen kann

bull Konversionswerkzeuge ZB GNU-Kommandozeilentool iconv

Textkonversion mit iconv

Verlustfreie Textkonversion nach UTF-8

$ iconv -f EXOTISCHEKODIERUNG -t UTF-8 lt INPUT gt OUTPUT

Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen laumlsst sich auch Text-Normalisierung durch ldquoTransliterationrdquo2 durchfuumlhren

$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIITRANSLITKlosschen

Das Loumlschen von nicht-repraumlsentierbaren Zeichen ist meist weniger nuumltzlich

$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIIIGNOREKlchen

213 Programme

Grundproblem Vom Zeichenstrom zur Folge von Tokens

RohdatenRohe elektronische Sprachdaten liegen in Dateien vor welche nichts anderes als eine Folge vonkodierten Einzelzeichen dh ein kontinuierlicher Zeichenstrom sind

Token Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung Wortkorrektur morphologische Analyse Lexikonzugriff syn-taktische Analyse

Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)

2~ Das Ergebnis kann von Landeseinstellungen (locale) abhaumlngig sein

11

bull Konsumieren der Zeichenfolge (Eingabe)

bull Gruppieren und allenfalls normalisierenmodifizieren der Zeichen (Verarbeitung)

bull Produzieren einer Folge von Tokens (Ausgabe)

Typische Beispiele fuumlr Tokenisierer Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text dh 1 Token pro Zeile Saumltzesind durch Leerzeilen voneinander abgetrennt

Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhaumlngiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkuumlrzungsdatei(ger-abbrev)

$ cat filetxtBachrsquosche Musikmag Dr Fritz Ja

$ cat ger-abbrevDrusw

$ utf8-tokenizeperl -a ger-abbrev filetxtBachrsquoscheMusikmagDrFritz

Ja

Typische Beispiele fuumlr Tokenisierer Regulaumlre AusdruumlckeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PythonPERL oder Finite-State Tools welche einen einfachen Umgang mit regulaumlren Ausdruumlcken er-lauben

Definition 213 (Regulaumlre Ausdruumlcke (engl regular expressions)) Ein regulaumlrer Ausdruck isteine relativ standardisierte Kurz-Notation um Zeichenketten mit bestimmten Eigenschaften zubeschreibenPraktisch eingesetzt werden sie fuumlr die nicht-woumlrtliche Suche (engl pattern matching) Suchen-und-Ersetzen und Segmentieren von Zeichenketten

Einfuumlhrung in regulaumlre AusdruumlckeZB in unserem CLab httpwwwcluzhchclabregex

12

Tokenisierer in der ProgrammiersprachePython

Tokenisierer mit regulaumlren Ausdruumlcken

bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben

bull Einfach anpassbar auf die Textsorte

bull Fuumlr uumlberschaubare Textmengen empfohlen

bull Vorteil Machen dieselben Fehler konsequent

bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung

Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])

1 Rohtext

This is an example There are two sentences

2 XML-Input fuumlr Tokenisierer (Vortokenisierung)

ltdocumentgtlttextgt

ltpgtThis is an example There are two sentences

ltpgtlttextgt

ltdocumentgt

3 XML-Tokenisat

ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt

13

ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt

Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert

Verschachtelung im XML-Stil

ltdocumentgtlttextgt

ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example

ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences

Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags

22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation

bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs

bull httpstubeswitchchvideos60fc01f1

XML (eXtensible Markup Language)

Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann

14

XML in der Texttechnologie

bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)

bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten

bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben

Aufbau von XML-Dokumenten

Elemente und ihre Attribute

bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt

bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)

bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt

bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt

bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt

bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt

Zeichenreferenzen und Entity-Referenzen

Entitaumlten und Referenzen

bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden

bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal

bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den

Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38

Newline amp9Σ ampx3a3

15

23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen

231 Problem

Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt

bull Wort-Zeichen [a-zA-Z0-9]

bull Einzel-Zeichen [)(rsquo$-]

bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]

ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo

Schwierigkeiten der Wortsegmentierung im engen Sinn

Schwierige Zeichen

bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim

bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr

bull Bindestriche semble-t-il rarr semble + -t-il

bull Punkte SAC

bull Masseinheiten 30 rarr 30 + 28 rarr 28 +

bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que

Teilprobleme der Tokenisierung im weiten Sinn

bull Umgang mit Markup (HTML-Tags Formatierungszeichen)

bull Erkennung der ldquonormalenrdquo Tokengrenzen

bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)

bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)

bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)

bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)

16

232 Punktdisambiguierung

Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben

Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert

Verschmelzung

bull It was due Friday by 5 pm Saturday would be too late

bull Ich kenne die USA Frankreich kenne ich nicht

WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig

Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls

bull das Token in einer Abkuumlrzungsliste steht

bull nach dem Token eines der Zeichen aus [a-z] folgt

bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht

bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt

Nach [Grefenstette und Tapanainen 1994]

LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen

Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen

Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN

1 Wie viele Zeichen umfasst TOKEN

2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale

3 Wie oft kommt TOKEN ohne Punkt vor

4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor

5 Wie oft kommt NEXTTOKEN kleingeschrieben vor

17

Satzsegmentierung mit maschinellen Lernverfahren

bull Fuumlr grosse Textmengen empfohlen

bull Nachteil Unsystematische Fehler koumlnnen auftreten

Statistisches System PUNKT ([Kiss und Strunk 2006])

bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten

bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt

iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte

233 Zeichen- und Token-Normalisierung

Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen

Normalisierung bei Suchmaschinen und anderen Anwendungen

bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich

bull 4897 4-8-97 4897 8497

bull 19000 19rsquo000 19 000 19000

bull Louisa Luise Louise Luisa

bull doesnrsquot does not

Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)

bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt

bull Hollaumlndisch chocola-tje rarr chocolaatje

Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen

18

Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung

Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens

615 5 Ruumlckbau in neue Tokens

Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus

Ruumlckgaumlngig machen von Worttrennung am Zeilenende

Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens

Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch

234 Named Entity Recognition

Named Entity Recognition

Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen

Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen

Kanonische Formen und Entity Linking

bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo

bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo

Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3

Demo Time Expression Recognition (TIMEX task)

24 MultilingualitaumltMultilinguale Dokumente und Systeme

Herausforderung Multilingualitaumlt

bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess

19

Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular

Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML

bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig

bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut

bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet

bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut

Ansatz von [Cavnar und Trenkle 1994]

20

1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten

2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)

3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil

4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm

5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand

N-Gramm-Profile und Profilabstand

Quelle [Cavnar und Trenkle 1994]

Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]

25 VertiefungZum Thema ldquoTokenisierungrdquo

bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28

bull Pflichtlektuumlre [Carstensen et al 2009 341]

bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]

Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)

bull httpwwwcluzhchclabregex

Zum Thema ldquoXMLrdquo

21

bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1

bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]

Zusammenfassung

bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen

bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen

bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen

bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung

bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar

bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen

bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden

Kontrollfragen

bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention

bull Welche Probleme stellen sich bei der Tokenisierung

bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung

bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten

bull Was versteht man unter NER

bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle

22

Kapitel 3

Linguistisches Propaumldeutikum I

Lernziele

bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen

bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg

bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch

bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte

bull Kenntnis und Anwendung linguistischer Proben

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten

bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung

31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs

Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind

Praumlzisierungsversuche des Wort-Begriffs

bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment

bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit

bull Morphologisch Grundeinheit welche flektierbar ist

bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist

bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes

23

Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach

Antworten 4 5 6 9 __

311 Token

Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9

Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText

BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann

312 Wortform

Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes

Identische Wortformen mit unterschiedlicher Bedeutung

bull Die Fliege war tot

bull Er trug eine samtene Fliege

bull Fliege nicht so schnell

313 Syntaktisches Wort

Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6

Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst

Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural

24

314 Lexem

Antwort 5 Wort als Lexem

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden

Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem

Lexikographische Notationskonventionen

Wie sehen Verb-Lemma in DeutschenLatein aus

Antwort 4 Wort als Lexemverband

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4

Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert

Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln

Stufen der Abstraktion Vom Text zum Lexemverband

bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)

bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)

bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen

bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden

bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird

25

32 Lehre von den WortartenWortarten nach [Bussmann 2002]

Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien

Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb

5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det

321 5 Hauptwortarten nach Glinz

Klassifikationskriterien

Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]

Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

26

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

322 UD

Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)

Universal Part-of-Speech Tagset (Version 1)1

12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish

ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo

Universal Part-of-Speech Tagset (Version 2) UPOS2

Version 2 hat 17 POS-Tags

+ Eigennamen (PROPN) (vorher NOUN)

+ Hilfsverben (AUX) (vorher VERB)

+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)

+ Symbole (SYM) (vorher X)

+ Interjektionen (INTJ) (vorher PRT)

= Partikel (PART) (vorher PRT)

= Interpunktion (PUNCT) (vorher )

Baumbanken sind fuumlr 51 Sprachen verfuumlgbar

27

Abbildung 32 Deutsche UD-Baumbank

UD V13 fuumlr Deutsch

NDurchsuchen

bull Suche nach Wort spaumlter

bull Nach Wort+Wortart spaumlterampADV

UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml

Mehrdeutigkeiten Unklarheiten Fehlannotationen

Linguistische Annotation und Automatisierung

Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form

Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml

28

bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)

bull Vollautomatisch Schnell billig fehlerbehaftet

bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile

Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml

N CoNLL-Format Spaltenformat fuumlr Annotationen3

bull Vertikalisierter Text

bull 1 Token pro Zeile

bull Saumltze mit Leerzeile getrennt

bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation

bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet

Bedeutung relevanter Spalten

1 Tokennummer (1-basierte Zaumlhlung) pro Satz

2 Wortform (Token)

3 Lemma

4 Grobe Wortklasse (coarse-grained part-of-speech tag)

5 Feine Wortklasse (fine-grained part-of-speech tag)

6 Morphosyntaktische Merkmale

7 Syntaktischer Kopf als Tokennummer

8 Dependenztyp

CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo

Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token

3httpuniversaldependenciesorgformathtml

29

Abbildung 33 CoNLL-U und CoNLL-X

Manuelle Annotation mit WebAnno und Exportformate

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

323 Feine Tagsets

Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis

bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags

bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert

bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch

bull Alternativen Muumlnsteraner Tagset [Steiner 2003]

Wieso ist das STTS wichtig

bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)

ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel

bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo

30

Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts

Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken

33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale

Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden

Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems

bull Konjugation von Verben

bull Deklination von Nomen Adjektiven Artikeln und Pronomen

bull Steigerung von Adjektiven (und wenigen Adverbien)

Diskussion Sind steigerbare Adverbien ein Widerspruch im System

Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet

31

Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts

Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn

331 Genus

Das Genus (UD Gender) Grammatisches Geschlecht

Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien

Tabelle 31 Uumlbersicht Genera

BemerkungDer Plural von Genus lautet Genera

Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt

Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen

Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind

Deutsch

32

Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur

AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas

332 Numerus

Der Numerus (UD Number) Grammatische Zahl

Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner

Tabelle 32 Uumlbersicht Numeri

BemerkungDer Plural von Numerus lautet Numeri

Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt

333 Kasus

Der Kasus (UD Case) FallUD-Kategorie Case

Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum

Tabelle 33 Uumlbersicht Kasus

BemerkungDer Plural von Kasus lautet Kasus

334 Modus

Der Modus (engl mode mood UD Mood) Aussageweise

Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh

Tabelle 34 Uumlbersicht Modi

In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi

33

335 Tempus

Das Tempus (UD Tense) grammatische Zeit Zeitform

Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging

Tabelle 35 Uumlbersicht Tempora

BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten

336 Person

Die Person (UD Person)

Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht

Tabelle 36 Uumlbersicht Personen

BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt

337 Grad

Der Grad (UD Degree) Steigerung Komparation

Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste

Tabelle 37 Uumlbersicht Komparation

BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt

338 Adjektiv-Flexion

Die Adjektiv-Flexion (engl adjective inflection)

BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven

Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet

34

Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse

Tabelle 38 Uumlbersicht Adjektiv-Flexion

Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern

UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt

Morphologische Englische UD-Annotation

1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _

34 Linguistische ProbenLinguistische Testverfahren

Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen

341 Ersatzprobe

Ersatzprobe

Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben

35

Beispiel 343 (Bestimmung des Kasus)

Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat

Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen

Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)

bull Das ist das Angebot das uns uumlberzeugt hat

bull Dieses ist das Angebot welches uns uumlberzeugt hat

bull Welches ist das Angebot dieses uns uumlberzeugt hat

bull Das ist dieses Angebot welches uns uumlberzeugt hat

Probleme der Interpretation

bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes

bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig

342 Einsetzprobe

Einsetzprobe

Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert

Beispiel 345 (Bestimmung der Wortart)

Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb

Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive

35 MorphologieMorphologische Ebene

Womit befasst sich die Morphologie Wortstruktur und Wortbildung

bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e

36

bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit

bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system

351 LemmatisierungMorphologieanalyse

Lemmatisierung und Morphologieanalyse

Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen

Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma

Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo

Analysen von GERTWOL5

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Probleme morphologischer Analysen Mehrdeutigkeit

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM

Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol

37

bull ldquoeinerdquo als

bull ldquoMuumlllerrdquo als Eigenname oder Substantiv

Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus

Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1

Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile

Probleme morphologischer Analyse

googelte

UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter

Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM

ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat

Lieblingsbeerelieb~lingsbeere S FEM SG NOM

Erdbeereerdbeere S FEM SG NOM

Fingerbeerenfingerbeere S FEM PL NOM

UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung

38

Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas

Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]

Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent

352 Morphologiegenerierung

Generierung von syntaktischen Wortformen

Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation

Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|

Person=2|Tense=Past|VerbForm=Fingingst

backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin

36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT

bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem

bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6

bull Die Website universaldependenciesorg hat einige Dokumentation

Zusammenfassung

bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet

bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte

bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme

bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen

6httpwwwdsuzhchstudien-cd

39

Kontrollfragen

bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo

bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2

bull Worin besteht Morphologieanalyse und -generierung

bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller

bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt

bull Was ist der Unterschied zwischen Lemma und Lexem

40

Kapitel 4

Linguistisches Propaumldeutikum II

Lernziele

bull Anwendung der klassischen syntaktischen Proben

bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf

bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte

bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen

bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug

Motivation 2 (halbwegs kompatible) Syntax-Welten

Konstituenten

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Dependenz

41

Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden

(NGoogles SyntaxNet)

41 Syntaktische ProbenKonstituentenproben

Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt

Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

411 Weglassprobe

Weglassprobe

Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten

Bestimmung eines Satzglieds

1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

FrageWarum nicht Variante 4

42

412 Verschiebeprobe

Verschiebeprobe

Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen

Bestimmung von Satzgliedern

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen bereite ich die Sitzung mit dem Chef vor

3 Ich bereite die Sitzung mit dem Chef morgen vor

Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb

Verschiebeprobe

Unzulaumlssiges Verschieben

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen ich bereite die Sitzung mit dem Chef vor

3 Die Sitzung bereite ich morgen mit dem Chef vor

413 Umformungsproben

Umformungsprobe

Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut

Funktion von Nebensaumltzen

1 Es wuumlrde mich freuen wenn du mitkaumlmest

2 Dein Mitkommen wuumlrde mich freuen

Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo

Infinitivumformung zur Subjekterkennung

1 Die Laumlrche ist ein Nadelbaum

2 ein Nadelbaum sein die Laumlrche

43

Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]

42 SatzSatz

Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist

Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten

421 Satzglieder

Moderne Satzgliedlehre

422 Koumlpfe (oder Kerne) von Konstituenten

Syntaktische Koumlpfe (engl head) Kern (engl kernel)

Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar

Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)

1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]

2 Sie rennt [mit dem Mobile hantierend] zum Kiosk

3 Es wird [viel zu oft] telefoniert

44

4 [Die Frau die zum Kiosk rannte ] war aufgeregt

5 Sie fuumlhlte sich [wie in einem schlechten Film]

6 Aber sie war auch [in einem ziemlich schlechten Film]

43 Syntaxanalyse

431 Konstituenz

Konstituenten und Konstituenz

Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist

Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten

Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten

Konstituenten in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

unmittelbare Dominanz

Konstituente auf Wortebene

Syntaktische Konstituente

Praumlzedenz auf Wortebene

Praumlzedenz zwischen Tochterkonstituenten

Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung

Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente

Konstituententypen

Typen von Konstituenten in TIGERNEGRA

1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen

45

2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern

3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern

4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern

5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern

6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern

7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo

Annotation von Relativsaumltzen

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen

Komplexe Konstituenz in der Penn-Treebank

Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white

Syntaxbaum aus der Vogelperspektive

In

IN

other

JJ

words

NNS

like

IN

automation

NN

machines

NNS

designed

VBN

-NONE-

to

TO

work

VB

in

IN

tandem

NN

they

PRP

shared

VBD

the

DT

same

JJ

programming

NN

a

DT

mutual

JJ

understanding

NN

not

RB

only

RB

of

IN

English

NNP

words

NNS

but

CC

of

IN

the

DT

four

CD

stresses

NNS

pitches

NNS

and

CC

junctures

NNS

that

WP

T

-NONE-

can

MD

change

VB

their

PRP$

meaning

NN

from

IN

black

NN

to

TO

white

NN

NP

PP

NP NP NP

PP

VP

VP

SBJ

S

VP

NP

PP

NP NP NP CONJP NP

PP

NP WHNP NP NP NP

PP

NP

PP

PP

VP

VP

SBJ

S

SBAR

NP

PP

PP

NP

NP

VP

SBJ

S

T

46

Quelle TIGERSearch-Demo-Korpora

Maximale Verschachtelungstiefe

432 Dependenz bzw syntaktische Funktion

Dependenz und syntaktische Funktion

Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten

Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen

HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt

Syntaktische Funktionen in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Syntaktische Funktion

Konstituenten

Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung

Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente

Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken

Einige Satzglieder mit TIGER-Funktion

bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein

47

Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)

bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)

bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)

bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)

bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator

bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb

Baumbankkonversion Von Konstituenz zu Dependenz

Automatische Konversion (NTIGER2Dep)

Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)

433 UD-DE-Modell

Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen

48

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

Generelle Philosophie des Universal-Dependency-Modells

bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig

bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV

bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum

bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden

bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der

bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)

bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens

Inhaltswoumlrter VERB und NOUN

Hinweisebull Spitze des Pfeils Abhaumlngiges Element

bull Startknoten des Pfeils Kopf

bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen

bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird

Das UD-Innenleben von Nominalphrasen

Hinweisebull Was ist der NP-Kopf

bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll

49

Komplexe Verb- und Adjektivphrasen

Hinweise

bull Hilfs- und Modalverben haumlngen vom Vollverb ab

bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich

Kopulakonstruktion und Gleichsetzungsnominativ

Fragen

bull Wovon haumlngt das Subjekt ab

bull NSuche nach ist im Suchwerkzeug

bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft

Interpunktion

Hinweise

bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt

50

Verschachtelte Saumltze

Hinweise

bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab

bull Wann aclrelcl und wann advcl

Koordination

Koordination Koumlpfe und Abhaumlngigkeitsrichtung

Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht

Koordination von Konstituenten aus NEGRA-Korpus

bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]

bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]

bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]

2 Fragen mit mehreren moumlglichen Antworten

bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt

bull In welche Richtung werden koordinierte Elemente verknuumlpft

Koordination in der NUD

Frage

bull Welche Antworten gibt die UD

51

Manuelle Syntax-Annotation mit WebAnno

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)

bull Click-und-Drag-Interface mit der Maus

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml

Aufgabe Annotation von Relativsatz

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Wie sieht eine UD-Annotation von diesem Satz aus

434 Suche

NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken

Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-

Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens

2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)

KOPF gt NICHTKOPF

NICHTKOPF lt KOPF

Analog zur Pfeilrichtung in der BRAT-Visualisierung

52

Grundlegende syntaktische Suchrezepte

bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging

bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging

bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde

bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld

bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor

bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _

bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist

44 AmbiguitaumltZusammenfassung

bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen

bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden

bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab

bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])

45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]

bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre

bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren

bull Quiz Die Form der Satzglieder

bull Quiz Satzglieder und Proben

bull Linguistik-CD

53

Kapitel 5

Endliche Automaten

Lernziele

bull Einstieg in die Formalisierung von Sprache

bull Was sind Zeichenketten formalmathematisch

bull Was ist eine formale Sprache

bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation

bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten

bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie

bull Wann ist ein endlicher Automat deterministisch und wann nicht

bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten

54

51 Formale Sprachen

511 Mengen

A Quick Review of Set Theory

A set is a collection of objects

A B

D E

We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E

There is no significant order in a set so A D B E is the same set as E A D B etc

Quelle B04

Cardinality of Sets

 The Empty Set

 A Finite Set

 An Infinite Set eg The Set of all Positive Integers

Norway Denmark Sweden

Quelle B04

512 Zeichen

Das Alphabet (Sigma) Menge von Zeichen

55

Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert

Zeichen des EnglischenΣEnglisch = a b c x y z

Zeichen der binaumlren ZahlenΣbin = 0 1

Zeichenketten (strings)

Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ

Zeichenketten uumlber englischen Symbolen ΣEnglisch

a we muntjac talk walk krwrk

Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0

Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast

bin = ε 0 1 00 01 10 11 001

513 Sprachen

Formal Languages

Very Important Concept in Formal Language Theory

A Language is just a Set of Words

bull  We use the terms ldquowordrdquo and ldquostringrdquo interchangeably

bull  A Language can be empty have finite cardinality or be infinite in size

bull  You can union intersect and subtract languages just like any other sets

56

Quelle B04

Union of Languages (Sets)

dog cat rat elephant mouse

Language 1 Language 2

dog cat rat

elephant mouse

Union of Language 1 and Language 2 Quelle B04

Formale Sprachen als Teilmenge von Sigma Stern

L sube Σlowast

Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast

Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes

Englische Woumlrterwalk talk work sube a b zlowast

Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt

Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit

Formales Modell Wirklichkeit

Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme

57

Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der

Wirklichkeit zu repraumlsentieren

Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working

worked works talk

talking talked talks

walk walking

walked walks

The concatenation of

the Suffix language

after the Root

language

0 or denotes the empty string

Abbildung 51 Sprache mit 3 WoumlrternZeichenketten

Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk

Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage

Beispiel fuumlr Deterministischen Endlichen Automaten

talk isin work talk walk

bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile

52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)

Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand

58

Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert

Nicht-Deterministische Endliche Automaten (NEA)

Abbildung 52 Deterministischer EA

Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg

Nicht-Determinismus IIEs gibt mindestens eine ε-Kante

Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln

Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus

1 einer endlichen Menge Zustaumlnde Φ

2 einem endlichen Eingabealphabet Σ

3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ

59

4 einem Startzustand S isin Φ

5 einer Menge von Endzustaumlnden F sube Φ

Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)

δ Φtimes (Σ cup ε)rarr weierp(Φ)

521 Konkatenation

Konkatenation von Zeichenketten und Sprachen

Konkatenation von Zeichenkettenu bull v = uv

lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo

Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V

lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo

Concatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working worked works talk talking talked talks walk walking walked walks

The concatenation of the Suffix language after the Root language

0 or ε denotes the empty string

60

Quelle B04

Concatenation of Languages II

work talk walk

Root Language

0 ing ed s

Suffix Language

rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks

The concatenation of the Prefix language Root language and the Suffix language

Prefix Language

re out 0

outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks

work working worked works talk talking talked talks walk walking walked walks

Quelle B04

Languages and Networks

w a l k

o r

t

NetworkLanguage 2 NetworkLanguage 3

s

o r The concatenation of Networks 1 2 and 3 in that order

w a l k t

a

a s

ed

i n g

0

s

ed

i n

0s

g o

r

NetworkLanguage 1

s

u t

e

0

o

r s

t

e

0 u

Quelle B04

522 Regulaumlre Ausdruumlcke

Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)

Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann

61

bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo

bull Die Mengen a1a2an sind regulaumlr RA a oder b

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)

bull Ist L regulaumlr dann auch LlowastRA (A)

Wie kann man Optionalitaumlt ausdruumlcken

Graphischer Algorithmus Konversion von RA zu NEA

JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten

Algorithmus

1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde

2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten

3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander

4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen

Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten

Epsilon

Symbol a

Konkatenation (ab)

Alternative (a|b)

62

encodes

a

LANGUAGE RELATION

compiles intoa

REGULAR EXPRESSIONa

FINITE-STATE NETWORKde

notes

Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])

Wiederholung (a)

Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert

63

53 Transduktoren

Linguistic Transducer Machines

mesas

Generator

ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas

m e s a +Noun +Fem +Pl

m e s a 0 0 s

mesa+Noun+Fem+Pl

Analyzer

ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas

Quelle B04

Gute Eigenschaften von endlichen Automaten und Transduktoren

bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen

bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde

bull Beispiel NRumantsch Grischun

bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren

Zusammenfassung

bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben

bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen

bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den

bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt

bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden

64

Vertiefung

bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)

bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo

bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo

bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial

65

Kapitel 6

Flache Satzverarbeitung

Lernziele

bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets

bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung

bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen

bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells

bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger

bull Kenntnis uumlber partielle syntaktische Analyse

bull Kenntnis uumlber flache und verschachtelte Chunks

Welches mehrdeutige Wort hat dieses Profil

UPOS-Tag Vorkommen1

1021ADP 848ADV 61

PROPN 14ADJ 1

61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT

N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token

66

Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)

bull eineDET Kuh Lemma ldquoeinrdquo

bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)

bull lead Verb lid (fuumlhren) Nomen led (Blei)

bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe

Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren

Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to

be present tense 3rd person singular

Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch

Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist

Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]

bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)

bull Effizient Der Tagger arbeitet schnell

bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)

bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den

bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden

Was fehlt

67

611 Probleme des Taggings

Wortformen mit mehreren moumlglichen Tags

MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token

Tag-Ambiguitaumlt im Englischen

Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]

Haumlufigkeiten im Brown-Korpus

bill NN 2351

promised VBD 34~~VBN 10~~JJ 2

back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2

Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token

die~~ART 2351~~PRELS 448~~PDS 4

Mehrheit~~NN 40

bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1

Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0

Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen

bull Unterscheidung zwischen offenen und geschlossenen Wortarten

bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)

68

Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]

Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)

bull 98 aller Woumlrter mit Endung -able sind Adjektive

bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname

Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe

oo

n

e

g

n

d

senuel

l

cv

y ta

o

mtsiii

o

i

ies (NNS09 VBZ01)ons (NNS095 VBZ005)

ed (VBN04 JJ03 VBD03)

le (NN025 JJ045 NP02 VB01)

ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)

ty (NN045 JJ035 NP02)

son (NP08 NN01 JJ01)

man (NP08 NN02)ton (NP09 NN005 JJ005)

ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)

ous (JJ096 NN004)

old (JJ098 NN002)

Quelle [Schmid 1995]

Wortformen mit mehreren moumlglichen Tags Kontext

69

Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6

Vorkommen von ldquobackrdquo im Brown-Korpus

ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung

Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen

Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet

bull die moumlglichen Tags von wn aus Tagger-Lexikon

bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens

Context

3

3

Kontextmodell des Trigrammtaggers TnT [Brants 2000]

612 Fallstudie TnT-Tagger

Supervisiertes Maschinelles Lernen

70

Quelle [Raschka 2015 11]

ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt

Fallstudie TnT-Tagger trainieren und evaluieren

Testkorpustestttstesttxt

Trainingskorpustrainingtts

Getaggtes Korpus

Aufteilen des Korpus

Taggingtnt

Trainingtnt-para

Parameter-Dateien

traininglextraining123

Evaluations-korpus

evaltts

Evaluationtnt-diff

Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger

Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]

1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)

$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts

2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden

$ head --lines 278081 ud-de-v13tts gt trainingtts

3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden

$ tail --lines 30900 ud-de-v13tts gt testtts

71

4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus

$ tnt-para trainingtts

5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut

$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts

6 Man erstelle das Evaluationskorpus

$ cut -f 1 testtts gt evaltxt

7 Man tagge das Evaluationskorpus mit dem Trainingsmodell

$ tnt training evaltxt gt evaltts

8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus

$ tnt-diff testtts evaltts

62 EvaluationEvaluation

Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode

Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt

Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird

Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind

Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden

Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)

Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat

72

Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein

621 Zweck

Zweck von Evaluationen

SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert

SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist

622 Accuracy

POS-Tagger-Evaluation Genauigkeit

Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens

accuracy = N minus EN

Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit

Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus

Tagt Freqt Tagf Freqf Ant Erel Eabs

NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010

Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]

Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler

73

5-fache Kreuzvalidierung visuell

Figure 8-2 K-fold cross-validation

Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point

You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order

gtgtgt import randomgtgtgt randomshuffle(f)

If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold

gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k

Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on

Problems That Can Affect Evaluation | 179

Quelle [Pustejovsky und Stubbs 2013 179]

Genauigkeit unter 10-facher Kreuzvalidierung

Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))

accuracy =sumi=10

i=1 accuracyi

10

Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen

623 Lernkurven

624 Recall

Recall (Ausbeute Abdeckung Vollstaumlndigkeit)

Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems

R = At

Nt

Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600

800 = 75

74

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp())+-01$+-0-2)00-))304

56)77

8010

904010

6+789lt

6-=7gt8lt

6+7gtlt

6-=7gt8lt

6+7lt

6-=79lt

2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J

-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J

)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)

Qampamp)(ampI0(EI(K3amp)-++5

8

9

gt

R9 9 S gt9 8 RR gtS

$-++5NF=J

TM5ltU+B+ampE+

TM5T00I-0L

SSR

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

6)6lt$$)amp$+)=$gt=((+

Q-M-44amp-0C

5-66ampK1F3()ampKVWWJ

6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(

Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp

)-)amp3)T)C

$5-66ampK1F(0amp+KampKVWWJ

6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+

U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+

TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+

+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt

QZ]T F6-+JgtRlt gt8lt [RSlt

Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants

625 Precision

Precision (Genauigkeit Praumlzision)

Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems

P = At

A

Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600

1000 = 60

626 F-Measure

F-Measure (F-Mass)

Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems

F = 2times P timesRP +R

75

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp()

67-18-)amp+8(+5)9amp0amp4amp-

6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F

2++$G-+AH-11))Iamp8+-1

J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+

$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5

amp+)-5)amp-0)ampA+

$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()

$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5

+amp(-012344)425amp123)3627892(+lt

=+$$

gt)(5)

))(5)

D+QRSTU

D-EQVWTRU

D+QVXTRU

D-EQVRTRU

D+QWTYU

D-EQSVTMU

6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F

-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F

M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)

ampamp)(amp80(98(B3amp)-++5T

Y X M YM XM MM YMM YMXM

WM

RM

SM

VM

MM

$-++5OCEMMMF

gt75TU[+A+amp9+

gt75Tgt008-0N

PWTP PTP WTM MTR YTM ST PT TVXMTS

C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants

Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075

06+075 = 666

63 Chunk ParsingPartielle syntaktische Analyse

Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt

Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN

bull NC Ein NC (Nominalchunk) besteht

bull -gt besteht aus

bull ART aus einem Wort der Wortart ART (Artikel)

bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)

76

Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

631 Abneys Chunk-Definition

Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]

Motivationen

bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung

bull Effizienz Teilstrukturen lassen sich effizienter berechnen

bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse

bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden

632 IOB-Chunk

Flache Chunks im IOB-Format

Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist

bull B-K Anfang einer Chunk-Konstituente K

bull I-K Fortsetzung der Chunk-Konstituente K

77

bull 0 Nicht zugeordnet (wird auch chink genannt)

We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP

633 Verschachtelte Chunks

Verschachtelte Chunks

Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich

Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)

[PX [APPR fuumlr][NX [ARTIND eine]

[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]

Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC

64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo

bull Pflichtlektuumlre [Carstensen et al 2009 342-3]

bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking

bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative

bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4

78

ZusammenfassungZusammenfassung

bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung

bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets

bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input

Kontrollfragen

bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen

bull Was unterscheidet Recall und Precision von Accuracy

bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging

bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte

bull Was ist der Vorteil der IOB-Notation fuumlr Chunks

65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele

bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative

bull Kenntnis uumlber Fehlertypen und ihre Gefahr

bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung

651 TrueFalse PositivesNegatives

Evaluation von binaumlren Klassifikatoren

TruthPositive Negative

Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)

Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit

Legende zur Tabelle 63

True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

79

FP Fehlertyp I Test ist positiv wo er nicht sollte

FN Fehlertyp II Test ist negativ wo er nicht sollte

652 Fehlerparadoxe

Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet

Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter

Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet

Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter

653 Unterschiede von Evaluationsmassen

Dualitaumlt von Precision und Recall

TruthPos Neg

Test Pos TP FPNeg FN TN

R = TP

TP + FN

Tabelle 64 Recall

Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision

F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig

80

TruthPos Neg

Test Pos TP FPNeg FN TN

P = TP

TP + FP

Tabelle 65 Precision

TruthPos Neg

Test Pos TP FPNeg FN TN

F = 2times TP2times TP + FP + FN

Tabelle 66 F1-Measure

TruthPos Neg

Test Pos TP FPNeg FN TN

Accuracy = TP + TN

TP + TN + FP + FN

Tabelle 67 Accuracy

654 Mitteln von Recall und Precision

F-Measure Harmonisches vs arithmetisches Mittel

655 Vertiefung

bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]

81

Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]

82

Abbildung 68 M = P +R2 Arithmetisches Mittel

83

Literaturverzeichnis

[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235

[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications

[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University

[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231

[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl

[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen

[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf

[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt

[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf

[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl

[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov

[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl

84

[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf

[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf

[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830

[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485

[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM

[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011

[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl

[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York

[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096

[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA

[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning

[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf

[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin

[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml

85

[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098

[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps

[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd

[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf

[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf

[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf

[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean

[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574

86

Index

10-fache Kreuzvalidierung 74

Adjektiv-Flexion 34Alphabet 56

Eingabealphabet 59

DEA 59Dependenz 47

Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72

F-Measure 75

Genus 32Grad 34

IOB-Chunks 77

Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44

Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25

Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39

Named Entity Regonition 19NER 19

Numerus 33 34

partielle syntaktische 76Person 34Precision 75Probe linguistisch 35

Qualitaumlt einer Evaluation 72

Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72

Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47

Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24

Umformungsprobe 43

Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43

Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24

XML-Standard 14

Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59

87

  • Organisatorisches
    • Organisatorisches
      • Leistungsnachweis
      • Lernen und Lehren
        • Kontrollfragen
          • Tokenisierung
            • Tokenisierer
              • Grundproblem
              • Kodierung
              • Programme
                • XML
                • Tokenisierung
                  • Problem
                  • Punktdisambiguierung
                  • Normalisierung
                  • NER
                    • Multilingualitaumlt
                    • Vertiefung
                      • Linguistisches Propaumldeutikum I
                        • Wort
                          • Token
                          • Wortform
                          • synt Wort
                          • Lexem
                            • Wortarten
                              • 5 Hauptwortarten
                              • UD
                              • STTSPTTS
                                • Merkmale
                                  • Genus
                                  • Zahl
                                  • Kasus
                                  • Modus
                                  • Zeit
                                  • Person
                                  • Grad
                                  • Flexion
                                    • Proben
                                      • Ersetzen
                                      • Einsetzen
                                        • Morphologie
                                          • LemmatisierungMorphologieanalyse
                                          • Morphologiegenerierung
                                            • Vertiefung
                                              • Linguistisches Propaumldeutikum II
                                                • Proben
                                                  • Weglassen
                                                  • Verschieben
                                                  • Umformen
                                                    • Satz
                                                      • Satzglieder
                                                      • Koumlpfe
                                                        • Syntaxanalyse
                                                          • Konstituenz
                                                          • Dependenz
                                                          • UD-DE
                                                          • Suche
                                                            • Ambiguitaumlt
                                                            • Vertiefung
                                                              • Endliche Automaten
                                                                • Formale Sprachen
                                                                  • Mengen
                                                                  • Zeichen
                                                                  • Sprachen
                                                                    • EA und regulaumlre Sprachen
                                                                      • Konkatenation
                                                                      • Regulaumlre Ausdruumlcke
                                                                        • Transduktoren
                                                                          • Flache Satzverarbeitung
                                                                            • Tagging
                                                                              • Probleme
                                                                              • Fallstudie TnT-Tagger
                                                                                • Evaluation
                                                                                  • Zweck
                                                                                  • Accuracy
                                                                                  • Lernkurven
                                                                                  • Recall
                                                                                  • Precision
                                                                                  • F-Measure
                                                                                    • Chunking
                                                                                      • Abney
                                                                                      • IOB-Chunk
                                                                                      • Verschachtelte Chunks
                                                                                        • Vertiefung
                                                                                        • Exkurs Evaluation binaumlrer Klassifikatoren
                                                                                          • TPFPFNTN
                                                                                          • Fehlerparadoxe
                                                                                          • Unterschiede
                                                                                          • Mittelwerte
                                                                                          • Vertiefung
Page 5: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff

Abbildungsverzeichnis

21 Navigationselemente der Web-Site der Olympischen Spiele 2008 922 Schematische Darstellung der Verschachtelung der XML-Tags 1423 Demo von Standford Temporal Tagger Eingabeformular 2024 Demo von Standford Temporal Tagger Resultatsdarstellung in XML 2025 N-Gramm-Profile nach [Cavnar und Trenkle 1994] 21

31 5 Hauptwortarten nach Glinz 2632 Deutsche UD-Baumbank 2833 CoNLL-U und CoNLL-X 3034 Hauptkategorien von STTS 3135 Hauptkategorien des PTTS 32

41 Moderne Satzgliedlehre 4442 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung 4543 Beispielsatz mit allen zu annotierenden NP- und S-Knoten 4644 Syntaktische Funktion in der NEGRA-Darstellung 4745 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm) 4846 Beispielsatz mit allen zu annotierenden NP- und S-Knoten 52

51 Sprache mit 3 WoumlrternZeichenketten 5852 Deterministischer EA 5953 Formale Sprachen regulaumlre Ausdruumlcke und endliche Automaten 63

61 Tagging-Ambiguitaumltsraten aus der Frankfurter Rundschau 6962 Training Tagging und Evaluation mit dem TnT-Tagger 7163 Tnt-Evaluation an Penn Treebank durch Thorsten Brants 7564 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants 7665 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid 7766 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid 7767 F-Mass in dreidimensionaler Darstellung 8268 Arithmetisches vs harmonisches Mittel 83

4

Kapitel 1

Organisatorisches

11 OrganisatorischesInhalt der Vorlesung ECL I

bull bdquoEinfuumlhrung in die Computerlinguistik I (+ II)ldquo geben eine Uumlbersicht uumlber die wichtigstenpraktischen und theoretischen Ziele der Computerlinguistik

bull Vorgestellt werden texttechnologische Grundlagen (Textsegmentierung Wortartenbestim-mung Syntaxanalyse) und wichtige Anwendungen (Maschinelle Uumlbersetzung Sprachsyn-these Spracherkennung Textsuche Informationsextraktion)

bull Im Kurs integriert ist ein linguistisches Propaumldeutikum wo das notwendige grammati-kalische Wissen im Rahmen computerlinguistischer Annotation aufgefrischt bzw vertieftwird

bull Keine Programmiersprachenkenntnisse vorausgesetzt

Kurs-Leitseite im WWW und Lehrmaterialien

OLAT-Campus-Kurs ldquo16HS 5200010 CL EV Einfuumlhrung in die Computerlinguis-tik Irdquo1

bull Wer belegt diese Vorlesung via Modul ldquoIntroduction to Computational Linguistics PartIrdquo

bull Folien als PDF-Dokumente unter ldquoMaterialienrdquo (4up-Format zum Ausdrucken fuumlr VL-Teilvon Clematide) nach der Vorlesung verfuumlgbar

bull Lauftextversion des Folienskripts (PDF-Dokument) mit Index und Ergaumlnzungen fuumlr Pruuml-fungsvorbereitung2

Kursbuch (3 Auflage) [Carstensen et al 2009]3Computerlinguistik und Sprachtechnologie Eine Einfuumlhrungrarr Pflichtlektuumlren stehen auf OLAT als PDF zur Verfuumlgung

1httpslmsuzhchurlRepositoryEntry161124845622 httpwwwcluzhchsiclematlehrehs16ecl1scriptscriptpdf3httpwwwlinguisticsruhr-uni-bochumdeCLBuchbuchhtml

5

111 Leistungsnachweis

6 obligatorische schriftliche Uumlbungen (SU)

Bewertungprinzip Punkte SU = Note SU = 25 der Modulnote

Punktzahl pro UumlbungBestanden 1 Punkt

Halb bestanden 05 PunkteNicht-Bestanden 0 Punkte

Note SU = Summe der Punkte aus den 6 Uumlbungen

bull Uumlbungsausgabe donnerstags 18h (Information via OLAT-Mailversand)

bull Loumlsungsabgabe spaumltestens mittwochs 18h

bull Einige Uumlbungen werden Sie stark fordern Sie duumlrfen maximal zu zweit arbeiten Lern-partnerschaft muss deklariert sein bei der Abgabe

bull Keine Musterloumlsungen Dafuumlr Frage- und Diskussionsgelegenheit sowie Nachbesprechungin Uumlbungsstunde oder im Forum auf OLAT

bull Freiwilliges Tutorat freitags 1215-1345h im Raum AND AND-3-02

bull Start in 2 Semesterwoche (PCL-I-Tutorat bereits in 1 Semesterwoche)

Schriftliche Pruumlfung

bull Zeit Donnerstag 19 Januar 2017 von 1615 - 1800h

bull Dauer 90 Minuten

bull Stoff Skript Uumlbungen Pflichtlektuumlren

112 Lernen und Lehren

E-Learning und Uumlbungen

CLab httpclabcluzhchFuumlr einige Uumlbungen benutzen wir Lerneinheiten aus unserem interaktiven web-basierten Computerlinguistik-Laboratorium (CLab)

Applikationen auf CL-Linux-Server r2d2cluzhchEinzelne Uumlbungsteile nutzen CL-Tools auf unserem Studierenden-Server der uumlber SSH (SecureShell bzw Putty (Win)) zugaumlnglich ist Installationshilfe fuumlr Win dazu im Tutorat zu bdquoPro-grammiertechniken der CLldquo diesen Freitag 14-1545h

Virtuelle Linux-Maschine (25GB) httpkittcluzhchCLHS16ovaIm PCL-I-Tutorat der 1 Woche wird auch die VM (virtuelle Maschine) mit Linux erklaumlrtwelche die wichtigste Software fuumlr PCLECL vorinstalliert enthaumllt und auf allen Plattformen(Win MacOS) frei benutzbar ist (virtualboxorg) Fuumlr SSH benutzbar (Link ab Freitag guumlltig)

6

Anforderungen und Ruumlckmeldungen

bull Nutzen Sie die Uumlbungsstunden

bull Fragen Sie bei den Mitstudierenden nach (OLAT-Forum)

bull Wenden Sie sich an die Uumlbungsverantwortlichen

bull Geben Sie den Dozierenden Ruumlckmeldungen zu Unklarheiten und Problemen im KursDirekt nach der Stunde oder via Mail Wir machen diese Veranstaltung nur fuumlr Sie

Hochrechnung zum Workload fuumlr 6 ECTS-Punkte

ldquoBei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand beruumlck-sichtigt der fuumlr das Erreichen einer genuumlgenden Pruumlfungsleistung erforderlich istrdquo (sect14Abs 2)

ldquoEin ECTS-Punkt entspricht einer Studienleistung von 30 Stundenrdquo (sect13 Abs 2)

[Universitaumltsrat 2004]

bull Praumlsenz in Vorlesung Uumlbungsstunde und schriftlicher Pruumlfung

2times 15times 2h = 60h

bull Zeit pro Woche fuumlr (Pflicht-)Lektuumlre Loumlsen der schriftlichen Uumlbungen und Pruumlfungsvor-bereitung

180hminus 60h15 = 8h

12 KontrollfragenKontrollfragen

bull Welche Buchungsfristen fuumlr Sie relevant Bis wann koumlnnen Sie sich noch einschreibenbzw das Modul stornieren

bull Wie viele SU muumlssen Sie bestehen damit eine 45 in der schriftlichen Pruumlfung noch aufeine 5 aufgerundet wird

bull Wieso sollten Sie die Uumlbungsstunde besuchen

bull Welche Hauptthemen werden in dieser Vorlesung besprochen

7

Kapitel 2

Tokenisierung Automatische Satz-und Wortsegmentierung

Lernziele

bull Kenntnis uumlber die Kodierung sprachlicher Zeichen

bull Kenntnis uumlber den Zweck und die Probleme der textuellen Vorverarbeitung von natuumlrlicherSprache Text-Segmentierung und Text-Normalisierung

bull Kenntnis uumlber XML zur Repraumlsentation von Text und Segmentstruktur

bull Kenntnis uumlber Methoden der Punktdisambiguierung und Satzendeerkennung

bull Kenntnis uumlber Textnormalisierung und Erkennung von interessierenden Groumlssen (NamedEntity Recognition)

bull Kenntnis und Umgang mit regulaumlren Ausdruumlcken

21 Tokenisierer

211 Grundproblem

Woumlrter aus linguistischer Sicht

Definition 211 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprach-lich verwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftli-che Definitionsversuche uneinheitlich und kontrovers sind

Was ist ein Wort

1 ZB nahm sie am Text Mining Workshop teil

2 Das gibtrsquos doch nicht ldquoJooprdquo ist pleite

3 Blick Online verlost zum Film-Start das laquoIch bin Boratraquo-Kit

Wort-Segmentierung in nicht-segmentierten Schreibsystemen

8

Abbildung 21 Navigationselemente der Web-Site der Olympischen Spiele 2008

Rohtexte aus Computersicht Welt der Bytes

$ hexdump dateitxt0000000 57 61 73 20 62 65 69 6e 68 61 6c 74 65 74 20 730000010 69 65 3f 0a0000014

(Der Dateiinhalt ist als Dump1 im Hexadezimalformat wiedergegeben dh jedes Zeichen inForm seines Zeichenkodes als Hexadezimalzahl)Beispiel 212 (Folge von Zeichenkodes in Hexadezimalnotation)Wie viele und welche Woumlrter enthaumllt der folgende Datei-Inhalt57 61 73 20 62 65 69 6E 68 61 6C 74 65 74 20 73 69 65 3F 0A

212 Zeichenkodierung

Was ist ein Zeichen auf dem Computer

bull Traditionell ein Byte dh eine Folge von 8 BitsWas ist ein Bit Binaumlre Entscheidung (0 oder 1)

bull Ein Byte kann als Zahl interpretiert werden indem die Position eines Bits als Stelle imBinaumlrsystem aufgefasst wird 0100rsquo0001

bull Eine Zahl kann als BuchstabeZeichen interpretiert werden indem eine Kodierungskon-vention aufgestellt wird ZB rsquoArsquo=65 rsquorsquo=64 rsquo1rsquo=49

bull Verbreitete Kodierungskonventionen (engl charset) ASCII (128 Zeichen fuumlr Englisch)iso-latin-1 (256 Zeichen fuumlr westeuropaumlische Sprachen)

bull Typische Speicherung bei ASCII und iso-latin-1 1 Zeichen = 1 Byte

Binaumlres und Hexadezimales Stellensystem

1 Byte als binaumlre Zahlen (= 8 Bits)

__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8

__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8

Jedes Kaumlstchen = 1 Bit

4-stellige hexadezimale Zahl (= 4 Bytes)1Zum Beispiel mit dem Befehl $ hexdump dateitxt

9

__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8

__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8

Jedes Kaumlstchen = 1 Byte

Die 128 ASCII-Kodes

Die 128rsquo172 Unicode-Kodes

Moderne universale Kodierungskonvention httpwwwunicodeorgUNICODE(ISOIEC 10646) Version 90 Kodes fuumlr 128rsquo172 Zeichen in fast allen Schriftsystemender WelthttpwwwunicodeorgstandardWhatIsUnicodehtml

GRINNING FACE

bull Kode 128512 (Hexadezimal 1F600)

bull UTF-8 Byte-Repraumlsentation F0 9F 98 80

bull~ In UTF-8 sind nur Unicode-Kodes von ASCII-Zeichen direkt in ihrer Binaumlrzahl-Repraumlsentationgespeichert

10

Was ist ein Zeichen auf dem Computer UTF-8-Format

bull Speicherung bei UNICODE UTF (Abk fuumlr Unicode Transformation Format) beschreibtMethoden einen Unicode-Kode auf eine Folge von Bytes abzubilden

bull UTF-8 (Abk fuumlr 8-bit Universal Character Set Transformation Format) Ordnet jedemUnicode-Zeichen eine speziell kodierte Bytefolge von variabler Laumlnge zu UTF-8 unter-stuumltzt bis zu 4 Byte pro Zeichen

bull Dateiformat XML-Dateien sind defaultmaumlssig UTF-8 kodiert Bei andern Dateien mussman es wissen

bull Jede ASCII-Datei ist auch eine UTF-8-Datei (Ruumlckwaumlrtskompatibilitaumlt)

bull Darstellung Zeichensaumltze (engl fonts) enthalten die graphischen Formen (glyphs) damitdas Betriebssystem die Kodes fuumlrs Auge darstellen kann

bull Konversionswerkzeuge ZB GNU-Kommandozeilentool iconv

Textkonversion mit iconv

Verlustfreie Textkonversion nach UTF-8

$ iconv -f EXOTISCHEKODIERUNG -t UTF-8 lt INPUT gt OUTPUT

Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen laumlsst sich auch Text-Normalisierung durch ldquoTransliterationrdquo2 durchfuumlhren

$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIITRANSLITKlosschen

Das Loumlschen von nicht-repraumlsentierbaren Zeichen ist meist weniger nuumltzlich

$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIIIGNOREKlchen

213 Programme

Grundproblem Vom Zeichenstrom zur Folge von Tokens

RohdatenRohe elektronische Sprachdaten liegen in Dateien vor welche nichts anderes als eine Folge vonkodierten Einzelzeichen dh ein kontinuierlicher Zeichenstrom sind

Token Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung Wortkorrektur morphologische Analyse Lexikonzugriff syn-taktische Analyse

Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)

2~ Das Ergebnis kann von Landeseinstellungen (locale) abhaumlngig sein

11

bull Konsumieren der Zeichenfolge (Eingabe)

bull Gruppieren und allenfalls normalisierenmodifizieren der Zeichen (Verarbeitung)

bull Produzieren einer Folge von Tokens (Ausgabe)

Typische Beispiele fuumlr Tokenisierer Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text dh 1 Token pro Zeile Saumltzesind durch Leerzeilen voneinander abgetrennt

Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhaumlngiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkuumlrzungsdatei(ger-abbrev)

$ cat filetxtBachrsquosche Musikmag Dr Fritz Ja

$ cat ger-abbrevDrusw

$ utf8-tokenizeperl -a ger-abbrev filetxtBachrsquoscheMusikmagDrFritz

Ja

Typische Beispiele fuumlr Tokenisierer Regulaumlre AusdruumlckeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PythonPERL oder Finite-State Tools welche einen einfachen Umgang mit regulaumlren Ausdruumlcken er-lauben

Definition 213 (Regulaumlre Ausdruumlcke (engl regular expressions)) Ein regulaumlrer Ausdruck isteine relativ standardisierte Kurz-Notation um Zeichenketten mit bestimmten Eigenschaften zubeschreibenPraktisch eingesetzt werden sie fuumlr die nicht-woumlrtliche Suche (engl pattern matching) Suchen-und-Ersetzen und Segmentieren von Zeichenketten

Einfuumlhrung in regulaumlre AusdruumlckeZB in unserem CLab httpwwwcluzhchclabregex

12

Tokenisierer in der ProgrammiersprachePython

Tokenisierer mit regulaumlren Ausdruumlcken

bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben

bull Einfach anpassbar auf die Textsorte

bull Fuumlr uumlberschaubare Textmengen empfohlen

bull Vorteil Machen dieselben Fehler konsequent

bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung

Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])

1 Rohtext

This is an example There are two sentences

2 XML-Input fuumlr Tokenisierer (Vortokenisierung)

ltdocumentgtlttextgt

ltpgtThis is an example There are two sentences

ltpgtlttextgt

ltdocumentgt

3 XML-Tokenisat

ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt

13

ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt

Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert

Verschachtelung im XML-Stil

ltdocumentgtlttextgt

ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example

ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences

Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags

22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation

bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs

bull httpstubeswitchchvideos60fc01f1

XML (eXtensible Markup Language)

Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann

14

XML in der Texttechnologie

bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)

bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten

bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben

Aufbau von XML-Dokumenten

Elemente und ihre Attribute

bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt

bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)

bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt

bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt

bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt

bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt

Zeichenreferenzen und Entity-Referenzen

Entitaumlten und Referenzen

bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden

bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal

bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den

Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38

Newline amp9Σ ampx3a3

15

23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen

231 Problem

Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt

bull Wort-Zeichen [a-zA-Z0-9]

bull Einzel-Zeichen [)(rsquo$-]

bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]

ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo

Schwierigkeiten der Wortsegmentierung im engen Sinn

Schwierige Zeichen

bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim

bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr

bull Bindestriche semble-t-il rarr semble + -t-il

bull Punkte SAC

bull Masseinheiten 30 rarr 30 + 28 rarr 28 +

bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que

Teilprobleme der Tokenisierung im weiten Sinn

bull Umgang mit Markup (HTML-Tags Formatierungszeichen)

bull Erkennung der ldquonormalenrdquo Tokengrenzen

bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)

bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)

bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)

bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)

16

232 Punktdisambiguierung

Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben

Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert

Verschmelzung

bull It was due Friday by 5 pm Saturday would be too late

bull Ich kenne die USA Frankreich kenne ich nicht

WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig

Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls

bull das Token in einer Abkuumlrzungsliste steht

bull nach dem Token eines der Zeichen aus [a-z] folgt

bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht

bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt

Nach [Grefenstette und Tapanainen 1994]

LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen

Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen

Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN

1 Wie viele Zeichen umfasst TOKEN

2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale

3 Wie oft kommt TOKEN ohne Punkt vor

4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor

5 Wie oft kommt NEXTTOKEN kleingeschrieben vor

17

Satzsegmentierung mit maschinellen Lernverfahren

bull Fuumlr grosse Textmengen empfohlen

bull Nachteil Unsystematische Fehler koumlnnen auftreten

Statistisches System PUNKT ([Kiss und Strunk 2006])

bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten

bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt

iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte

233 Zeichen- und Token-Normalisierung

Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen

Normalisierung bei Suchmaschinen und anderen Anwendungen

bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich

bull 4897 4-8-97 4897 8497

bull 19000 19rsquo000 19 000 19000

bull Louisa Luise Louise Luisa

bull doesnrsquot does not

Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)

bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt

bull Hollaumlndisch chocola-tje rarr chocolaatje

Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen

18

Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung

Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens

615 5 Ruumlckbau in neue Tokens

Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus

Ruumlckgaumlngig machen von Worttrennung am Zeilenende

Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens

Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch

234 Named Entity Recognition

Named Entity Recognition

Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen

Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen

Kanonische Formen und Entity Linking

bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo

bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo

Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3

Demo Time Expression Recognition (TIMEX task)

24 MultilingualitaumltMultilinguale Dokumente und Systeme

Herausforderung Multilingualitaumlt

bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess

19

Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular

Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML

bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig

bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut

bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet

bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut

Ansatz von [Cavnar und Trenkle 1994]

20

1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten

2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)

3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil

4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm

5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand

N-Gramm-Profile und Profilabstand

Quelle [Cavnar und Trenkle 1994]

Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]

25 VertiefungZum Thema ldquoTokenisierungrdquo

bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28

bull Pflichtlektuumlre [Carstensen et al 2009 341]

bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]

Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)

bull httpwwwcluzhchclabregex

Zum Thema ldquoXMLrdquo

21

bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1

bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]

Zusammenfassung

bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen

bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen

bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen

bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung

bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar

bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen

bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden

Kontrollfragen

bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention

bull Welche Probleme stellen sich bei der Tokenisierung

bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung

bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten

bull Was versteht man unter NER

bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle

22

Kapitel 3

Linguistisches Propaumldeutikum I

Lernziele

bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen

bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg

bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch

bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte

bull Kenntnis und Anwendung linguistischer Proben

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten

bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung

31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs

Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind

Praumlzisierungsversuche des Wort-Begriffs

bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment

bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit

bull Morphologisch Grundeinheit welche flektierbar ist

bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist

bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes

23

Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach

Antworten 4 5 6 9 __

311 Token

Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9

Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText

BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann

312 Wortform

Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes

Identische Wortformen mit unterschiedlicher Bedeutung

bull Die Fliege war tot

bull Er trug eine samtene Fliege

bull Fliege nicht so schnell

313 Syntaktisches Wort

Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6

Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst

Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural

24

314 Lexem

Antwort 5 Wort als Lexem

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden

Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem

Lexikographische Notationskonventionen

Wie sehen Verb-Lemma in DeutschenLatein aus

Antwort 4 Wort als Lexemverband

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4

Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert

Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln

Stufen der Abstraktion Vom Text zum Lexemverband

bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)

bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)

bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen

bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden

bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird

25

32 Lehre von den WortartenWortarten nach [Bussmann 2002]

Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien

Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb

5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det

321 5 Hauptwortarten nach Glinz

Klassifikationskriterien

Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]

Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

26

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

322 UD

Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)

Universal Part-of-Speech Tagset (Version 1)1

12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish

ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo

Universal Part-of-Speech Tagset (Version 2) UPOS2

Version 2 hat 17 POS-Tags

+ Eigennamen (PROPN) (vorher NOUN)

+ Hilfsverben (AUX) (vorher VERB)

+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)

+ Symbole (SYM) (vorher X)

+ Interjektionen (INTJ) (vorher PRT)

= Partikel (PART) (vorher PRT)

= Interpunktion (PUNCT) (vorher )

Baumbanken sind fuumlr 51 Sprachen verfuumlgbar

27

Abbildung 32 Deutsche UD-Baumbank

UD V13 fuumlr Deutsch

NDurchsuchen

bull Suche nach Wort spaumlter

bull Nach Wort+Wortart spaumlterampADV

UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml

Mehrdeutigkeiten Unklarheiten Fehlannotationen

Linguistische Annotation und Automatisierung

Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form

Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml

28

bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)

bull Vollautomatisch Schnell billig fehlerbehaftet

bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile

Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml

N CoNLL-Format Spaltenformat fuumlr Annotationen3

bull Vertikalisierter Text

bull 1 Token pro Zeile

bull Saumltze mit Leerzeile getrennt

bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation

bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet

Bedeutung relevanter Spalten

1 Tokennummer (1-basierte Zaumlhlung) pro Satz

2 Wortform (Token)

3 Lemma

4 Grobe Wortklasse (coarse-grained part-of-speech tag)

5 Feine Wortklasse (fine-grained part-of-speech tag)

6 Morphosyntaktische Merkmale

7 Syntaktischer Kopf als Tokennummer

8 Dependenztyp

CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo

Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token

3httpuniversaldependenciesorgformathtml

29

Abbildung 33 CoNLL-U und CoNLL-X

Manuelle Annotation mit WebAnno und Exportformate

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

323 Feine Tagsets

Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis

bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags

bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert

bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch

bull Alternativen Muumlnsteraner Tagset [Steiner 2003]

Wieso ist das STTS wichtig

bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)

ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel

bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo

30

Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts

Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken

33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale

Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden

Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems

bull Konjugation von Verben

bull Deklination von Nomen Adjektiven Artikeln und Pronomen

bull Steigerung von Adjektiven (und wenigen Adverbien)

Diskussion Sind steigerbare Adverbien ein Widerspruch im System

Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet

31

Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts

Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn

331 Genus

Das Genus (UD Gender) Grammatisches Geschlecht

Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien

Tabelle 31 Uumlbersicht Genera

BemerkungDer Plural von Genus lautet Genera

Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt

Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen

Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind

Deutsch

32

Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur

AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas

332 Numerus

Der Numerus (UD Number) Grammatische Zahl

Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner

Tabelle 32 Uumlbersicht Numeri

BemerkungDer Plural von Numerus lautet Numeri

Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt

333 Kasus

Der Kasus (UD Case) FallUD-Kategorie Case

Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum

Tabelle 33 Uumlbersicht Kasus

BemerkungDer Plural von Kasus lautet Kasus

334 Modus

Der Modus (engl mode mood UD Mood) Aussageweise

Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh

Tabelle 34 Uumlbersicht Modi

In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi

33

335 Tempus

Das Tempus (UD Tense) grammatische Zeit Zeitform

Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging

Tabelle 35 Uumlbersicht Tempora

BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten

336 Person

Die Person (UD Person)

Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht

Tabelle 36 Uumlbersicht Personen

BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt

337 Grad

Der Grad (UD Degree) Steigerung Komparation

Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste

Tabelle 37 Uumlbersicht Komparation

BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt

338 Adjektiv-Flexion

Die Adjektiv-Flexion (engl adjective inflection)

BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven

Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet

34

Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse

Tabelle 38 Uumlbersicht Adjektiv-Flexion

Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern

UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt

Morphologische Englische UD-Annotation

1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _

34 Linguistische ProbenLinguistische Testverfahren

Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen

341 Ersatzprobe

Ersatzprobe

Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben

35

Beispiel 343 (Bestimmung des Kasus)

Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat

Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen

Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)

bull Das ist das Angebot das uns uumlberzeugt hat

bull Dieses ist das Angebot welches uns uumlberzeugt hat

bull Welches ist das Angebot dieses uns uumlberzeugt hat

bull Das ist dieses Angebot welches uns uumlberzeugt hat

Probleme der Interpretation

bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes

bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig

342 Einsetzprobe

Einsetzprobe

Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert

Beispiel 345 (Bestimmung der Wortart)

Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb

Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive

35 MorphologieMorphologische Ebene

Womit befasst sich die Morphologie Wortstruktur und Wortbildung

bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e

36

bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit

bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system

351 LemmatisierungMorphologieanalyse

Lemmatisierung und Morphologieanalyse

Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen

Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma

Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo

Analysen von GERTWOL5

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Probleme morphologischer Analysen Mehrdeutigkeit

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM

Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol

37

bull ldquoeinerdquo als

bull ldquoMuumlllerrdquo als Eigenname oder Substantiv

Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus

Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1

Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile

Probleme morphologischer Analyse

googelte

UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter

Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM

ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat

Lieblingsbeerelieb~lingsbeere S FEM SG NOM

Erdbeereerdbeere S FEM SG NOM

Fingerbeerenfingerbeere S FEM PL NOM

UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung

38

Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas

Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]

Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent

352 Morphologiegenerierung

Generierung von syntaktischen Wortformen

Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation

Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|

Person=2|Tense=Past|VerbForm=Fingingst

backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin

36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT

bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem

bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6

bull Die Website universaldependenciesorg hat einige Dokumentation

Zusammenfassung

bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet

bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte

bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme

bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen

6httpwwwdsuzhchstudien-cd

39

Kontrollfragen

bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo

bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2

bull Worin besteht Morphologieanalyse und -generierung

bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller

bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt

bull Was ist der Unterschied zwischen Lemma und Lexem

40

Kapitel 4

Linguistisches Propaumldeutikum II

Lernziele

bull Anwendung der klassischen syntaktischen Proben

bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf

bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte

bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen

bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug

Motivation 2 (halbwegs kompatible) Syntax-Welten

Konstituenten

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Dependenz

41

Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden

(NGoogles SyntaxNet)

41 Syntaktische ProbenKonstituentenproben

Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt

Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

411 Weglassprobe

Weglassprobe

Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten

Bestimmung eines Satzglieds

1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

FrageWarum nicht Variante 4

42

412 Verschiebeprobe

Verschiebeprobe

Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen

Bestimmung von Satzgliedern

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen bereite ich die Sitzung mit dem Chef vor

3 Ich bereite die Sitzung mit dem Chef morgen vor

Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb

Verschiebeprobe

Unzulaumlssiges Verschieben

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen ich bereite die Sitzung mit dem Chef vor

3 Die Sitzung bereite ich morgen mit dem Chef vor

413 Umformungsproben

Umformungsprobe

Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut

Funktion von Nebensaumltzen

1 Es wuumlrde mich freuen wenn du mitkaumlmest

2 Dein Mitkommen wuumlrde mich freuen

Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo

Infinitivumformung zur Subjekterkennung

1 Die Laumlrche ist ein Nadelbaum

2 ein Nadelbaum sein die Laumlrche

43

Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]

42 SatzSatz

Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist

Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten

421 Satzglieder

Moderne Satzgliedlehre

422 Koumlpfe (oder Kerne) von Konstituenten

Syntaktische Koumlpfe (engl head) Kern (engl kernel)

Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar

Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)

1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]

2 Sie rennt [mit dem Mobile hantierend] zum Kiosk

3 Es wird [viel zu oft] telefoniert

44

4 [Die Frau die zum Kiosk rannte ] war aufgeregt

5 Sie fuumlhlte sich [wie in einem schlechten Film]

6 Aber sie war auch [in einem ziemlich schlechten Film]

43 Syntaxanalyse

431 Konstituenz

Konstituenten und Konstituenz

Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist

Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten

Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten

Konstituenten in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

unmittelbare Dominanz

Konstituente auf Wortebene

Syntaktische Konstituente

Praumlzedenz auf Wortebene

Praumlzedenz zwischen Tochterkonstituenten

Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung

Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente

Konstituententypen

Typen von Konstituenten in TIGERNEGRA

1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen

45

2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern

3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern

4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern

5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern

6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern

7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo

Annotation von Relativsaumltzen

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen

Komplexe Konstituenz in der Penn-Treebank

Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white

Syntaxbaum aus der Vogelperspektive

In

IN

other

JJ

words

NNS

like

IN

automation

NN

machines

NNS

designed

VBN

-NONE-

to

TO

work

VB

in

IN

tandem

NN

they

PRP

shared

VBD

the

DT

same

JJ

programming

NN

a

DT

mutual

JJ

understanding

NN

not

RB

only

RB

of

IN

English

NNP

words

NNS

but

CC

of

IN

the

DT

four

CD

stresses

NNS

pitches

NNS

and

CC

junctures

NNS

that

WP

T

-NONE-

can

MD

change

VB

their

PRP$

meaning

NN

from

IN

black

NN

to

TO

white

NN

NP

PP

NP NP NP

PP

VP

VP

SBJ

S

VP

NP

PP

NP NP NP CONJP NP

PP

NP WHNP NP NP NP

PP

NP

PP

PP

VP

VP

SBJ

S

SBAR

NP

PP

PP

NP

NP

VP

SBJ

S

T

46

Quelle TIGERSearch-Demo-Korpora

Maximale Verschachtelungstiefe

432 Dependenz bzw syntaktische Funktion

Dependenz und syntaktische Funktion

Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten

Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen

HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt

Syntaktische Funktionen in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Syntaktische Funktion

Konstituenten

Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung

Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente

Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken

Einige Satzglieder mit TIGER-Funktion

bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein

47

Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)

bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)

bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)

bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)

bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator

bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb

Baumbankkonversion Von Konstituenz zu Dependenz

Automatische Konversion (NTIGER2Dep)

Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)

433 UD-DE-Modell

Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen

48

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

Generelle Philosophie des Universal-Dependency-Modells

bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig

bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV

bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum

bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden

bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der

bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)

bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens

Inhaltswoumlrter VERB und NOUN

Hinweisebull Spitze des Pfeils Abhaumlngiges Element

bull Startknoten des Pfeils Kopf

bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen

bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird

Das UD-Innenleben von Nominalphrasen

Hinweisebull Was ist der NP-Kopf

bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll

49

Komplexe Verb- und Adjektivphrasen

Hinweise

bull Hilfs- und Modalverben haumlngen vom Vollverb ab

bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich

Kopulakonstruktion und Gleichsetzungsnominativ

Fragen

bull Wovon haumlngt das Subjekt ab

bull NSuche nach ist im Suchwerkzeug

bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft

Interpunktion

Hinweise

bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt

50

Verschachtelte Saumltze

Hinweise

bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab

bull Wann aclrelcl und wann advcl

Koordination

Koordination Koumlpfe und Abhaumlngigkeitsrichtung

Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht

Koordination von Konstituenten aus NEGRA-Korpus

bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]

bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]

bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]

2 Fragen mit mehreren moumlglichen Antworten

bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt

bull In welche Richtung werden koordinierte Elemente verknuumlpft

Koordination in der NUD

Frage

bull Welche Antworten gibt die UD

51

Manuelle Syntax-Annotation mit WebAnno

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)

bull Click-und-Drag-Interface mit der Maus

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml

Aufgabe Annotation von Relativsatz

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Wie sieht eine UD-Annotation von diesem Satz aus

434 Suche

NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken

Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-

Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens

2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)

KOPF gt NICHTKOPF

NICHTKOPF lt KOPF

Analog zur Pfeilrichtung in der BRAT-Visualisierung

52

Grundlegende syntaktische Suchrezepte

bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging

bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging

bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde

bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld

bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor

bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _

bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist

44 AmbiguitaumltZusammenfassung

bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen

bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden

bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab

bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])

45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]

bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre

bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren

bull Quiz Die Form der Satzglieder

bull Quiz Satzglieder und Proben

bull Linguistik-CD

53

Kapitel 5

Endliche Automaten

Lernziele

bull Einstieg in die Formalisierung von Sprache

bull Was sind Zeichenketten formalmathematisch

bull Was ist eine formale Sprache

bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation

bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten

bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie

bull Wann ist ein endlicher Automat deterministisch und wann nicht

bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten

54

51 Formale Sprachen

511 Mengen

A Quick Review of Set Theory

A set is a collection of objects

A B

D E

We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E

There is no significant order in a set so A D B E is the same set as E A D B etc

Quelle B04

Cardinality of Sets

 The Empty Set

 A Finite Set

 An Infinite Set eg The Set of all Positive Integers

Norway Denmark Sweden

Quelle B04

512 Zeichen

Das Alphabet (Sigma) Menge von Zeichen

55

Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert

Zeichen des EnglischenΣEnglisch = a b c x y z

Zeichen der binaumlren ZahlenΣbin = 0 1

Zeichenketten (strings)

Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ

Zeichenketten uumlber englischen Symbolen ΣEnglisch

a we muntjac talk walk krwrk

Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0

Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast

bin = ε 0 1 00 01 10 11 001

513 Sprachen

Formal Languages

Very Important Concept in Formal Language Theory

A Language is just a Set of Words

bull  We use the terms ldquowordrdquo and ldquostringrdquo interchangeably

bull  A Language can be empty have finite cardinality or be infinite in size

bull  You can union intersect and subtract languages just like any other sets

56

Quelle B04

Union of Languages (Sets)

dog cat rat elephant mouse

Language 1 Language 2

dog cat rat

elephant mouse

Union of Language 1 and Language 2 Quelle B04

Formale Sprachen als Teilmenge von Sigma Stern

L sube Σlowast

Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast

Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes

Englische Woumlrterwalk talk work sube a b zlowast

Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt

Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit

Formales Modell Wirklichkeit

Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme

57

Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der

Wirklichkeit zu repraumlsentieren

Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working

worked works talk

talking talked talks

walk walking

walked walks

The concatenation of

the Suffix language

after the Root

language

0 or denotes the empty string

Abbildung 51 Sprache mit 3 WoumlrternZeichenketten

Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk

Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage

Beispiel fuumlr Deterministischen Endlichen Automaten

talk isin work talk walk

bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile

52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)

Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand

58

Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert

Nicht-Deterministische Endliche Automaten (NEA)

Abbildung 52 Deterministischer EA

Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg

Nicht-Determinismus IIEs gibt mindestens eine ε-Kante

Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln

Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus

1 einer endlichen Menge Zustaumlnde Φ

2 einem endlichen Eingabealphabet Σ

3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ

59

4 einem Startzustand S isin Φ

5 einer Menge von Endzustaumlnden F sube Φ

Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)

δ Φtimes (Σ cup ε)rarr weierp(Φ)

521 Konkatenation

Konkatenation von Zeichenketten und Sprachen

Konkatenation von Zeichenkettenu bull v = uv

lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo

Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V

lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo

Concatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working worked works talk talking talked talks walk walking walked walks

The concatenation of the Suffix language after the Root language

0 or ε denotes the empty string

60

Quelle B04

Concatenation of Languages II

work talk walk

Root Language

0 ing ed s

Suffix Language

rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks

The concatenation of the Prefix language Root language and the Suffix language

Prefix Language

re out 0

outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks

work working worked works talk talking talked talks walk walking walked walks

Quelle B04

Languages and Networks

w a l k

o r

t

NetworkLanguage 2 NetworkLanguage 3

s

o r The concatenation of Networks 1 2 and 3 in that order

w a l k t

a

a s

ed

i n g

0

s

ed

i n

0s

g o

r

NetworkLanguage 1

s

u t

e

0

o

r s

t

e

0 u

Quelle B04

522 Regulaumlre Ausdruumlcke

Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)

Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann

61

bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo

bull Die Mengen a1a2an sind regulaumlr RA a oder b

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)

bull Ist L regulaumlr dann auch LlowastRA (A)

Wie kann man Optionalitaumlt ausdruumlcken

Graphischer Algorithmus Konversion von RA zu NEA

JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten

Algorithmus

1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde

2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten

3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander

4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen

Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten

Epsilon

Symbol a

Konkatenation (ab)

Alternative (a|b)

62

encodes

a

LANGUAGE RELATION

compiles intoa

REGULAR EXPRESSIONa

FINITE-STATE NETWORKde

notes

Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])

Wiederholung (a)

Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert

63

53 Transduktoren

Linguistic Transducer Machines

mesas

Generator

ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas

m e s a +Noun +Fem +Pl

m e s a 0 0 s

mesa+Noun+Fem+Pl

Analyzer

ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas

Quelle B04

Gute Eigenschaften von endlichen Automaten und Transduktoren

bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen

bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde

bull Beispiel NRumantsch Grischun

bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren

Zusammenfassung

bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben

bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen

bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den

bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt

bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden

64

Vertiefung

bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)

bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo

bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo

bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial

65

Kapitel 6

Flache Satzverarbeitung

Lernziele

bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets

bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung

bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen

bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells

bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger

bull Kenntnis uumlber partielle syntaktische Analyse

bull Kenntnis uumlber flache und verschachtelte Chunks

Welches mehrdeutige Wort hat dieses Profil

UPOS-Tag Vorkommen1

1021ADP 848ADV 61

PROPN 14ADJ 1

61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT

N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token

66

Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)

bull eineDET Kuh Lemma ldquoeinrdquo

bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)

bull lead Verb lid (fuumlhren) Nomen led (Blei)

bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe

Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren

Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to

be present tense 3rd person singular

Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch

Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist

Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]

bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)

bull Effizient Der Tagger arbeitet schnell

bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)

bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den

bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden

Was fehlt

67

611 Probleme des Taggings

Wortformen mit mehreren moumlglichen Tags

MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token

Tag-Ambiguitaumlt im Englischen

Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]

Haumlufigkeiten im Brown-Korpus

bill NN 2351

promised VBD 34~~VBN 10~~JJ 2

back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2

Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token

die~~ART 2351~~PRELS 448~~PDS 4

Mehrheit~~NN 40

bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1

Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0

Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen

bull Unterscheidung zwischen offenen und geschlossenen Wortarten

bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)

68

Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]

Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)

bull 98 aller Woumlrter mit Endung -able sind Adjektive

bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname

Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe

oo

n

e

g

n

d

senuel

l

cv

y ta

o

mtsiii

o

i

ies (NNS09 VBZ01)ons (NNS095 VBZ005)

ed (VBN04 JJ03 VBD03)

le (NN025 JJ045 NP02 VB01)

ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)

ty (NN045 JJ035 NP02)

son (NP08 NN01 JJ01)

man (NP08 NN02)ton (NP09 NN005 JJ005)

ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)

ous (JJ096 NN004)

old (JJ098 NN002)

Quelle [Schmid 1995]

Wortformen mit mehreren moumlglichen Tags Kontext

69

Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6

Vorkommen von ldquobackrdquo im Brown-Korpus

ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung

Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen

Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet

bull die moumlglichen Tags von wn aus Tagger-Lexikon

bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens

Context

3

3

Kontextmodell des Trigrammtaggers TnT [Brants 2000]

612 Fallstudie TnT-Tagger

Supervisiertes Maschinelles Lernen

70

Quelle [Raschka 2015 11]

ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt

Fallstudie TnT-Tagger trainieren und evaluieren

Testkorpustestttstesttxt

Trainingskorpustrainingtts

Getaggtes Korpus

Aufteilen des Korpus

Taggingtnt

Trainingtnt-para

Parameter-Dateien

traininglextraining123

Evaluations-korpus

evaltts

Evaluationtnt-diff

Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger

Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]

1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)

$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts

2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden

$ head --lines 278081 ud-de-v13tts gt trainingtts

3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden

$ tail --lines 30900 ud-de-v13tts gt testtts

71

4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus

$ tnt-para trainingtts

5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut

$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts

6 Man erstelle das Evaluationskorpus

$ cut -f 1 testtts gt evaltxt

7 Man tagge das Evaluationskorpus mit dem Trainingsmodell

$ tnt training evaltxt gt evaltts

8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus

$ tnt-diff testtts evaltts

62 EvaluationEvaluation

Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode

Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt

Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird

Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind

Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden

Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)

Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat

72

Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein

621 Zweck

Zweck von Evaluationen

SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert

SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist

622 Accuracy

POS-Tagger-Evaluation Genauigkeit

Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens

accuracy = N minus EN

Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit

Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus

Tagt Freqt Tagf Freqf Ant Erel Eabs

NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010

Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]

Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler

73

5-fache Kreuzvalidierung visuell

Figure 8-2 K-fold cross-validation

Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point

You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order

gtgtgt import randomgtgtgt randomshuffle(f)

If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold

gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k

Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on

Problems That Can Affect Evaluation | 179

Quelle [Pustejovsky und Stubbs 2013 179]

Genauigkeit unter 10-facher Kreuzvalidierung

Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))

accuracy =sumi=10

i=1 accuracyi

10

Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen

623 Lernkurven

624 Recall

Recall (Ausbeute Abdeckung Vollstaumlndigkeit)

Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems

R = At

Nt

Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600

800 = 75

74

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp())+-01$+-0-2)00-))304

56)77

8010

904010

6+789lt

6-=7gt8lt

6+7gtlt

6-=7gt8lt

6+7lt

6-=79lt

2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J

-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J

)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)

Qampamp)(ampI0(EI(K3amp)-++5

8

9

gt

R9 9 S gt9 8 RR gtS

$-++5NF=J

TM5ltU+B+ampE+

TM5T00I-0L

SSR

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

6)6lt$$)amp$+)=$gt=((+

Q-M-44amp-0C

5-66ampK1F3()ampKVWWJ

6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(

Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp

)-)amp3)T)C

$5-66ampK1F(0amp+KampKVWWJ

6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+

U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+

TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+

+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt

QZ]T F6-+JgtRlt gt8lt [RSlt

Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants

625 Precision

Precision (Genauigkeit Praumlzision)

Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems

P = At

A

Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600

1000 = 60

626 F-Measure

F-Measure (F-Mass)

Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems

F = 2times P timesRP +R

75

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp()

67-18-)amp+8(+5)9amp0amp4amp-

6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F

2++$G-+AH-11))Iamp8+-1

J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+

$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5

amp+)-5)amp-0)ampA+

$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()

$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5

+amp(-012344)425amp123)3627892(+lt

=+$$

gt)(5)

))(5)

D+QRSTU

D-EQVWTRU

D+QVXTRU

D-EQVRTRU

D+QWTYU

D-EQSVTMU

6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F

-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F

M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)

ampamp)(amp80(98(B3amp)-++5T

Y X M YM XM MM YMM YMXM

WM

RM

SM

VM

MM

$-++5OCEMMMF

gt75TU[+A+amp9+

gt75Tgt008-0N

PWTP PTP WTM MTR YTM ST PT TVXMTS

C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants

Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075

06+075 = 666

63 Chunk ParsingPartielle syntaktische Analyse

Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt

Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN

bull NC Ein NC (Nominalchunk) besteht

bull -gt besteht aus

bull ART aus einem Wort der Wortart ART (Artikel)

bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)

76

Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

631 Abneys Chunk-Definition

Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]

Motivationen

bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung

bull Effizienz Teilstrukturen lassen sich effizienter berechnen

bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse

bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden

632 IOB-Chunk

Flache Chunks im IOB-Format

Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist

bull B-K Anfang einer Chunk-Konstituente K

bull I-K Fortsetzung der Chunk-Konstituente K

77

bull 0 Nicht zugeordnet (wird auch chink genannt)

We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP

633 Verschachtelte Chunks

Verschachtelte Chunks

Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich

Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)

[PX [APPR fuumlr][NX [ARTIND eine]

[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]

Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC

64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo

bull Pflichtlektuumlre [Carstensen et al 2009 342-3]

bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking

bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative

bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4

78

ZusammenfassungZusammenfassung

bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung

bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets

bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input

Kontrollfragen

bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen

bull Was unterscheidet Recall und Precision von Accuracy

bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging

bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte

bull Was ist der Vorteil der IOB-Notation fuumlr Chunks

65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele

bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative

bull Kenntnis uumlber Fehlertypen und ihre Gefahr

bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung

651 TrueFalse PositivesNegatives

Evaluation von binaumlren Klassifikatoren

TruthPositive Negative

Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)

Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit

Legende zur Tabelle 63

True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

79

FP Fehlertyp I Test ist positiv wo er nicht sollte

FN Fehlertyp II Test ist negativ wo er nicht sollte

652 Fehlerparadoxe

Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet

Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter

Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet

Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter

653 Unterschiede von Evaluationsmassen

Dualitaumlt von Precision und Recall

TruthPos Neg

Test Pos TP FPNeg FN TN

R = TP

TP + FN

Tabelle 64 Recall

Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision

F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig

80

TruthPos Neg

Test Pos TP FPNeg FN TN

P = TP

TP + FP

Tabelle 65 Precision

TruthPos Neg

Test Pos TP FPNeg FN TN

F = 2times TP2times TP + FP + FN

Tabelle 66 F1-Measure

TruthPos Neg

Test Pos TP FPNeg FN TN

Accuracy = TP + TN

TP + TN + FP + FN

Tabelle 67 Accuracy

654 Mitteln von Recall und Precision

F-Measure Harmonisches vs arithmetisches Mittel

655 Vertiefung

bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]

81

Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]

82

Abbildung 68 M = P +R2 Arithmetisches Mittel

83

Literaturverzeichnis

[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235

[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications

[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University

[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231

[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl

[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen

[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf

[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt

[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf

[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl

[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov

[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl

84

[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf

[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf

[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830

[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485

[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM

[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011

[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl

[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York

[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096

[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA

[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning

[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf

[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin

[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml

85

[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098

[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps

[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd

[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf

[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf

[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf

[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean

[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574

86

Index

10-fache Kreuzvalidierung 74

Adjektiv-Flexion 34Alphabet 56

Eingabealphabet 59

DEA 59Dependenz 47

Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72

F-Measure 75

Genus 32Grad 34

IOB-Chunks 77

Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44

Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25

Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39

Named Entity Regonition 19NER 19

Numerus 33 34

partielle syntaktische 76Person 34Precision 75Probe linguistisch 35

Qualitaumlt einer Evaluation 72

Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72

Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47

Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24

Umformungsprobe 43

Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43

Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24

XML-Standard 14

Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59

87

  • Organisatorisches
    • Organisatorisches
      • Leistungsnachweis
      • Lernen und Lehren
        • Kontrollfragen
          • Tokenisierung
            • Tokenisierer
              • Grundproblem
              • Kodierung
              • Programme
                • XML
                • Tokenisierung
                  • Problem
                  • Punktdisambiguierung
                  • Normalisierung
                  • NER
                    • Multilingualitaumlt
                    • Vertiefung
                      • Linguistisches Propaumldeutikum I
                        • Wort
                          • Token
                          • Wortform
                          • synt Wort
                          • Lexem
                            • Wortarten
                              • 5 Hauptwortarten
                              • UD
                              • STTSPTTS
                                • Merkmale
                                  • Genus
                                  • Zahl
                                  • Kasus
                                  • Modus
                                  • Zeit
                                  • Person
                                  • Grad
                                  • Flexion
                                    • Proben
                                      • Ersetzen
                                      • Einsetzen
                                        • Morphologie
                                          • LemmatisierungMorphologieanalyse
                                          • Morphologiegenerierung
                                            • Vertiefung
                                              • Linguistisches Propaumldeutikum II
                                                • Proben
                                                  • Weglassen
                                                  • Verschieben
                                                  • Umformen
                                                    • Satz
                                                      • Satzglieder
                                                      • Koumlpfe
                                                        • Syntaxanalyse
                                                          • Konstituenz
                                                          • Dependenz
                                                          • UD-DE
                                                          • Suche
                                                            • Ambiguitaumlt
                                                            • Vertiefung
                                                              • Endliche Automaten
                                                                • Formale Sprachen
                                                                  • Mengen
                                                                  • Zeichen
                                                                  • Sprachen
                                                                    • EA und regulaumlre Sprachen
                                                                      • Konkatenation
                                                                      • Regulaumlre Ausdruumlcke
                                                                        • Transduktoren
                                                                          • Flache Satzverarbeitung
                                                                            • Tagging
                                                                              • Probleme
                                                                              • Fallstudie TnT-Tagger
                                                                                • Evaluation
                                                                                  • Zweck
                                                                                  • Accuracy
                                                                                  • Lernkurven
                                                                                  • Recall
                                                                                  • Precision
                                                                                  • F-Measure
                                                                                    • Chunking
                                                                                      • Abney
                                                                                      • IOB-Chunk
                                                                                      • Verschachtelte Chunks
                                                                                        • Vertiefung
                                                                                        • Exkurs Evaluation binaumlrer Klassifikatoren
                                                                                          • TPFPFNTN
                                                                                          • Fehlerparadoxe
                                                                                          • Unterschiede
                                                                                          • Mittelwerte
                                                                                          • Vertiefung
Page 6: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff

Kapitel 1

Organisatorisches

11 OrganisatorischesInhalt der Vorlesung ECL I

bull bdquoEinfuumlhrung in die Computerlinguistik I (+ II)ldquo geben eine Uumlbersicht uumlber die wichtigstenpraktischen und theoretischen Ziele der Computerlinguistik

bull Vorgestellt werden texttechnologische Grundlagen (Textsegmentierung Wortartenbestim-mung Syntaxanalyse) und wichtige Anwendungen (Maschinelle Uumlbersetzung Sprachsyn-these Spracherkennung Textsuche Informationsextraktion)

bull Im Kurs integriert ist ein linguistisches Propaumldeutikum wo das notwendige grammati-kalische Wissen im Rahmen computerlinguistischer Annotation aufgefrischt bzw vertieftwird

bull Keine Programmiersprachenkenntnisse vorausgesetzt

Kurs-Leitseite im WWW und Lehrmaterialien

OLAT-Campus-Kurs ldquo16HS 5200010 CL EV Einfuumlhrung in die Computerlinguis-tik Irdquo1

bull Wer belegt diese Vorlesung via Modul ldquoIntroduction to Computational Linguistics PartIrdquo

bull Folien als PDF-Dokumente unter ldquoMaterialienrdquo (4up-Format zum Ausdrucken fuumlr VL-Teilvon Clematide) nach der Vorlesung verfuumlgbar

bull Lauftextversion des Folienskripts (PDF-Dokument) mit Index und Ergaumlnzungen fuumlr Pruuml-fungsvorbereitung2

Kursbuch (3 Auflage) [Carstensen et al 2009]3Computerlinguistik und Sprachtechnologie Eine Einfuumlhrungrarr Pflichtlektuumlren stehen auf OLAT als PDF zur Verfuumlgung

1httpslmsuzhchurlRepositoryEntry161124845622 httpwwwcluzhchsiclematlehrehs16ecl1scriptscriptpdf3httpwwwlinguisticsruhr-uni-bochumdeCLBuchbuchhtml

5

111 Leistungsnachweis

6 obligatorische schriftliche Uumlbungen (SU)

Bewertungprinzip Punkte SU = Note SU = 25 der Modulnote

Punktzahl pro UumlbungBestanden 1 Punkt

Halb bestanden 05 PunkteNicht-Bestanden 0 Punkte

Note SU = Summe der Punkte aus den 6 Uumlbungen

bull Uumlbungsausgabe donnerstags 18h (Information via OLAT-Mailversand)

bull Loumlsungsabgabe spaumltestens mittwochs 18h

bull Einige Uumlbungen werden Sie stark fordern Sie duumlrfen maximal zu zweit arbeiten Lern-partnerschaft muss deklariert sein bei der Abgabe

bull Keine Musterloumlsungen Dafuumlr Frage- und Diskussionsgelegenheit sowie Nachbesprechungin Uumlbungsstunde oder im Forum auf OLAT

bull Freiwilliges Tutorat freitags 1215-1345h im Raum AND AND-3-02

bull Start in 2 Semesterwoche (PCL-I-Tutorat bereits in 1 Semesterwoche)

Schriftliche Pruumlfung

bull Zeit Donnerstag 19 Januar 2017 von 1615 - 1800h

bull Dauer 90 Minuten

bull Stoff Skript Uumlbungen Pflichtlektuumlren

112 Lernen und Lehren

E-Learning und Uumlbungen

CLab httpclabcluzhchFuumlr einige Uumlbungen benutzen wir Lerneinheiten aus unserem interaktiven web-basierten Computerlinguistik-Laboratorium (CLab)

Applikationen auf CL-Linux-Server r2d2cluzhchEinzelne Uumlbungsteile nutzen CL-Tools auf unserem Studierenden-Server der uumlber SSH (SecureShell bzw Putty (Win)) zugaumlnglich ist Installationshilfe fuumlr Win dazu im Tutorat zu bdquoPro-grammiertechniken der CLldquo diesen Freitag 14-1545h

Virtuelle Linux-Maschine (25GB) httpkittcluzhchCLHS16ovaIm PCL-I-Tutorat der 1 Woche wird auch die VM (virtuelle Maschine) mit Linux erklaumlrtwelche die wichtigste Software fuumlr PCLECL vorinstalliert enthaumllt und auf allen Plattformen(Win MacOS) frei benutzbar ist (virtualboxorg) Fuumlr SSH benutzbar (Link ab Freitag guumlltig)

6

Anforderungen und Ruumlckmeldungen

bull Nutzen Sie die Uumlbungsstunden

bull Fragen Sie bei den Mitstudierenden nach (OLAT-Forum)

bull Wenden Sie sich an die Uumlbungsverantwortlichen

bull Geben Sie den Dozierenden Ruumlckmeldungen zu Unklarheiten und Problemen im KursDirekt nach der Stunde oder via Mail Wir machen diese Veranstaltung nur fuumlr Sie

Hochrechnung zum Workload fuumlr 6 ECTS-Punkte

ldquoBei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand beruumlck-sichtigt der fuumlr das Erreichen einer genuumlgenden Pruumlfungsleistung erforderlich istrdquo (sect14Abs 2)

ldquoEin ECTS-Punkt entspricht einer Studienleistung von 30 Stundenrdquo (sect13 Abs 2)

[Universitaumltsrat 2004]

bull Praumlsenz in Vorlesung Uumlbungsstunde und schriftlicher Pruumlfung

2times 15times 2h = 60h

bull Zeit pro Woche fuumlr (Pflicht-)Lektuumlre Loumlsen der schriftlichen Uumlbungen und Pruumlfungsvor-bereitung

180hminus 60h15 = 8h

12 KontrollfragenKontrollfragen

bull Welche Buchungsfristen fuumlr Sie relevant Bis wann koumlnnen Sie sich noch einschreibenbzw das Modul stornieren

bull Wie viele SU muumlssen Sie bestehen damit eine 45 in der schriftlichen Pruumlfung noch aufeine 5 aufgerundet wird

bull Wieso sollten Sie die Uumlbungsstunde besuchen

bull Welche Hauptthemen werden in dieser Vorlesung besprochen

7

Kapitel 2

Tokenisierung Automatische Satz-und Wortsegmentierung

Lernziele

bull Kenntnis uumlber die Kodierung sprachlicher Zeichen

bull Kenntnis uumlber den Zweck und die Probleme der textuellen Vorverarbeitung von natuumlrlicherSprache Text-Segmentierung und Text-Normalisierung

bull Kenntnis uumlber XML zur Repraumlsentation von Text und Segmentstruktur

bull Kenntnis uumlber Methoden der Punktdisambiguierung und Satzendeerkennung

bull Kenntnis uumlber Textnormalisierung und Erkennung von interessierenden Groumlssen (NamedEntity Recognition)

bull Kenntnis und Umgang mit regulaumlren Ausdruumlcken

21 Tokenisierer

211 Grundproblem

Woumlrter aus linguistischer Sicht

Definition 211 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprach-lich verwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftli-che Definitionsversuche uneinheitlich und kontrovers sind

Was ist ein Wort

1 ZB nahm sie am Text Mining Workshop teil

2 Das gibtrsquos doch nicht ldquoJooprdquo ist pleite

3 Blick Online verlost zum Film-Start das laquoIch bin Boratraquo-Kit

Wort-Segmentierung in nicht-segmentierten Schreibsystemen

8

Abbildung 21 Navigationselemente der Web-Site der Olympischen Spiele 2008

Rohtexte aus Computersicht Welt der Bytes

$ hexdump dateitxt0000000 57 61 73 20 62 65 69 6e 68 61 6c 74 65 74 20 730000010 69 65 3f 0a0000014

(Der Dateiinhalt ist als Dump1 im Hexadezimalformat wiedergegeben dh jedes Zeichen inForm seines Zeichenkodes als Hexadezimalzahl)Beispiel 212 (Folge von Zeichenkodes in Hexadezimalnotation)Wie viele und welche Woumlrter enthaumllt der folgende Datei-Inhalt57 61 73 20 62 65 69 6E 68 61 6C 74 65 74 20 73 69 65 3F 0A

212 Zeichenkodierung

Was ist ein Zeichen auf dem Computer

bull Traditionell ein Byte dh eine Folge von 8 BitsWas ist ein Bit Binaumlre Entscheidung (0 oder 1)

bull Ein Byte kann als Zahl interpretiert werden indem die Position eines Bits als Stelle imBinaumlrsystem aufgefasst wird 0100rsquo0001

bull Eine Zahl kann als BuchstabeZeichen interpretiert werden indem eine Kodierungskon-vention aufgestellt wird ZB rsquoArsquo=65 rsquorsquo=64 rsquo1rsquo=49

bull Verbreitete Kodierungskonventionen (engl charset) ASCII (128 Zeichen fuumlr Englisch)iso-latin-1 (256 Zeichen fuumlr westeuropaumlische Sprachen)

bull Typische Speicherung bei ASCII und iso-latin-1 1 Zeichen = 1 Byte

Binaumlres und Hexadezimales Stellensystem

1 Byte als binaumlre Zahlen (= 8 Bits)

__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8

__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8

Jedes Kaumlstchen = 1 Bit

4-stellige hexadezimale Zahl (= 4 Bytes)1Zum Beispiel mit dem Befehl $ hexdump dateitxt

9

__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8

__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8

Jedes Kaumlstchen = 1 Byte

Die 128 ASCII-Kodes

Die 128rsquo172 Unicode-Kodes

Moderne universale Kodierungskonvention httpwwwunicodeorgUNICODE(ISOIEC 10646) Version 90 Kodes fuumlr 128rsquo172 Zeichen in fast allen Schriftsystemender WelthttpwwwunicodeorgstandardWhatIsUnicodehtml

GRINNING FACE

bull Kode 128512 (Hexadezimal 1F600)

bull UTF-8 Byte-Repraumlsentation F0 9F 98 80

bull~ In UTF-8 sind nur Unicode-Kodes von ASCII-Zeichen direkt in ihrer Binaumlrzahl-Repraumlsentationgespeichert

10

Was ist ein Zeichen auf dem Computer UTF-8-Format

bull Speicherung bei UNICODE UTF (Abk fuumlr Unicode Transformation Format) beschreibtMethoden einen Unicode-Kode auf eine Folge von Bytes abzubilden

bull UTF-8 (Abk fuumlr 8-bit Universal Character Set Transformation Format) Ordnet jedemUnicode-Zeichen eine speziell kodierte Bytefolge von variabler Laumlnge zu UTF-8 unter-stuumltzt bis zu 4 Byte pro Zeichen

bull Dateiformat XML-Dateien sind defaultmaumlssig UTF-8 kodiert Bei andern Dateien mussman es wissen

bull Jede ASCII-Datei ist auch eine UTF-8-Datei (Ruumlckwaumlrtskompatibilitaumlt)

bull Darstellung Zeichensaumltze (engl fonts) enthalten die graphischen Formen (glyphs) damitdas Betriebssystem die Kodes fuumlrs Auge darstellen kann

bull Konversionswerkzeuge ZB GNU-Kommandozeilentool iconv

Textkonversion mit iconv

Verlustfreie Textkonversion nach UTF-8

$ iconv -f EXOTISCHEKODIERUNG -t UTF-8 lt INPUT gt OUTPUT

Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen laumlsst sich auch Text-Normalisierung durch ldquoTransliterationrdquo2 durchfuumlhren

$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIITRANSLITKlosschen

Das Loumlschen von nicht-repraumlsentierbaren Zeichen ist meist weniger nuumltzlich

$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIIIGNOREKlchen

213 Programme

Grundproblem Vom Zeichenstrom zur Folge von Tokens

RohdatenRohe elektronische Sprachdaten liegen in Dateien vor welche nichts anderes als eine Folge vonkodierten Einzelzeichen dh ein kontinuierlicher Zeichenstrom sind

Token Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung Wortkorrektur morphologische Analyse Lexikonzugriff syn-taktische Analyse

Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)

2~ Das Ergebnis kann von Landeseinstellungen (locale) abhaumlngig sein

11

bull Konsumieren der Zeichenfolge (Eingabe)

bull Gruppieren und allenfalls normalisierenmodifizieren der Zeichen (Verarbeitung)

bull Produzieren einer Folge von Tokens (Ausgabe)

Typische Beispiele fuumlr Tokenisierer Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text dh 1 Token pro Zeile Saumltzesind durch Leerzeilen voneinander abgetrennt

Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhaumlngiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkuumlrzungsdatei(ger-abbrev)

$ cat filetxtBachrsquosche Musikmag Dr Fritz Ja

$ cat ger-abbrevDrusw

$ utf8-tokenizeperl -a ger-abbrev filetxtBachrsquoscheMusikmagDrFritz

Ja

Typische Beispiele fuumlr Tokenisierer Regulaumlre AusdruumlckeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PythonPERL oder Finite-State Tools welche einen einfachen Umgang mit regulaumlren Ausdruumlcken er-lauben

Definition 213 (Regulaumlre Ausdruumlcke (engl regular expressions)) Ein regulaumlrer Ausdruck isteine relativ standardisierte Kurz-Notation um Zeichenketten mit bestimmten Eigenschaften zubeschreibenPraktisch eingesetzt werden sie fuumlr die nicht-woumlrtliche Suche (engl pattern matching) Suchen-und-Ersetzen und Segmentieren von Zeichenketten

Einfuumlhrung in regulaumlre AusdruumlckeZB in unserem CLab httpwwwcluzhchclabregex

12

Tokenisierer in der ProgrammiersprachePython

Tokenisierer mit regulaumlren Ausdruumlcken

bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben

bull Einfach anpassbar auf die Textsorte

bull Fuumlr uumlberschaubare Textmengen empfohlen

bull Vorteil Machen dieselben Fehler konsequent

bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung

Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])

1 Rohtext

This is an example There are two sentences

2 XML-Input fuumlr Tokenisierer (Vortokenisierung)

ltdocumentgtlttextgt

ltpgtThis is an example There are two sentences

ltpgtlttextgt

ltdocumentgt

3 XML-Tokenisat

ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt

13

ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt

Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert

Verschachtelung im XML-Stil

ltdocumentgtlttextgt

ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example

ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences

Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags

22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation

bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs

bull httpstubeswitchchvideos60fc01f1

XML (eXtensible Markup Language)

Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann

14

XML in der Texttechnologie

bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)

bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten

bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben

Aufbau von XML-Dokumenten

Elemente und ihre Attribute

bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt

bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)

bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt

bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt

bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt

bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt

Zeichenreferenzen und Entity-Referenzen

Entitaumlten und Referenzen

bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden

bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal

bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den

Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38

Newline amp9Σ ampx3a3

15

23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen

231 Problem

Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt

bull Wort-Zeichen [a-zA-Z0-9]

bull Einzel-Zeichen [)(rsquo$-]

bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]

ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo

Schwierigkeiten der Wortsegmentierung im engen Sinn

Schwierige Zeichen

bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim

bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr

bull Bindestriche semble-t-il rarr semble + -t-il

bull Punkte SAC

bull Masseinheiten 30 rarr 30 + 28 rarr 28 +

bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que

Teilprobleme der Tokenisierung im weiten Sinn

bull Umgang mit Markup (HTML-Tags Formatierungszeichen)

bull Erkennung der ldquonormalenrdquo Tokengrenzen

bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)

bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)

bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)

bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)

16

232 Punktdisambiguierung

Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben

Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert

Verschmelzung

bull It was due Friday by 5 pm Saturday would be too late

bull Ich kenne die USA Frankreich kenne ich nicht

WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig

Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls

bull das Token in einer Abkuumlrzungsliste steht

bull nach dem Token eines der Zeichen aus [a-z] folgt

bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht

bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt

Nach [Grefenstette und Tapanainen 1994]

LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen

Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen

Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN

1 Wie viele Zeichen umfasst TOKEN

2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale

3 Wie oft kommt TOKEN ohne Punkt vor

4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor

5 Wie oft kommt NEXTTOKEN kleingeschrieben vor

17

Satzsegmentierung mit maschinellen Lernverfahren

bull Fuumlr grosse Textmengen empfohlen

bull Nachteil Unsystematische Fehler koumlnnen auftreten

Statistisches System PUNKT ([Kiss und Strunk 2006])

bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten

bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt

iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte

233 Zeichen- und Token-Normalisierung

Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen

Normalisierung bei Suchmaschinen und anderen Anwendungen

bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich

bull 4897 4-8-97 4897 8497

bull 19000 19rsquo000 19 000 19000

bull Louisa Luise Louise Luisa

bull doesnrsquot does not

Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)

bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt

bull Hollaumlndisch chocola-tje rarr chocolaatje

Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen

18

Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung

Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens

615 5 Ruumlckbau in neue Tokens

Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus

Ruumlckgaumlngig machen von Worttrennung am Zeilenende

Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens

Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch

234 Named Entity Recognition

Named Entity Recognition

Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen

Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen

Kanonische Formen und Entity Linking

bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo

bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo

Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3

Demo Time Expression Recognition (TIMEX task)

24 MultilingualitaumltMultilinguale Dokumente und Systeme

Herausforderung Multilingualitaumlt

bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess

19

Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular

Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML

bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig

bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut

bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet

bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut

Ansatz von [Cavnar und Trenkle 1994]

20

1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten

2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)

3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil

4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm

5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand

N-Gramm-Profile und Profilabstand

Quelle [Cavnar und Trenkle 1994]

Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]

25 VertiefungZum Thema ldquoTokenisierungrdquo

bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28

bull Pflichtlektuumlre [Carstensen et al 2009 341]

bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]

Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)

bull httpwwwcluzhchclabregex

Zum Thema ldquoXMLrdquo

21

bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1

bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]

Zusammenfassung

bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen

bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen

bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen

bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung

bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar

bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen

bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden

Kontrollfragen

bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention

bull Welche Probleme stellen sich bei der Tokenisierung

bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung

bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten

bull Was versteht man unter NER

bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle

22

Kapitel 3

Linguistisches Propaumldeutikum I

Lernziele

bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen

bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg

bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch

bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte

bull Kenntnis und Anwendung linguistischer Proben

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten

bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung

31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs

Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind

Praumlzisierungsversuche des Wort-Begriffs

bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment

bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit

bull Morphologisch Grundeinheit welche flektierbar ist

bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist

bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes

23

Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach

Antworten 4 5 6 9 __

311 Token

Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9

Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText

BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann

312 Wortform

Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes

Identische Wortformen mit unterschiedlicher Bedeutung

bull Die Fliege war tot

bull Er trug eine samtene Fliege

bull Fliege nicht so schnell

313 Syntaktisches Wort

Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6

Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst

Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural

24

314 Lexem

Antwort 5 Wort als Lexem

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden

Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem

Lexikographische Notationskonventionen

Wie sehen Verb-Lemma in DeutschenLatein aus

Antwort 4 Wort als Lexemverband

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4

Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert

Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln

Stufen der Abstraktion Vom Text zum Lexemverband

bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)

bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)

bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen

bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden

bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird

25

32 Lehre von den WortartenWortarten nach [Bussmann 2002]

Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien

Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb

5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det

321 5 Hauptwortarten nach Glinz

Klassifikationskriterien

Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]

Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

26

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

322 UD

Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)

Universal Part-of-Speech Tagset (Version 1)1

12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish

ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo

Universal Part-of-Speech Tagset (Version 2) UPOS2

Version 2 hat 17 POS-Tags

+ Eigennamen (PROPN) (vorher NOUN)

+ Hilfsverben (AUX) (vorher VERB)

+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)

+ Symbole (SYM) (vorher X)

+ Interjektionen (INTJ) (vorher PRT)

= Partikel (PART) (vorher PRT)

= Interpunktion (PUNCT) (vorher )

Baumbanken sind fuumlr 51 Sprachen verfuumlgbar

27

Abbildung 32 Deutsche UD-Baumbank

UD V13 fuumlr Deutsch

NDurchsuchen

bull Suche nach Wort spaumlter

bull Nach Wort+Wortart spaumlterampADV

UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml

Mehrdeutigkeiten Unklarheiten Fehlannotationen

Linguistische Annotation und Automatisierung

Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form

Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml

28

bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)

bull Vollautomatisch Schnell billig fehlerbehaftet

bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile

Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml

N CoNLL-Format Spaltenformat fuumlr Annotationen3

bull Vertikalisierter Text

bull 1 Token pro Zeile

bull Saumltze mit Leerzeile getrennt

bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation

bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet

Bedeutung relevanter Spalten

1 Tokennummer (1-basierte Zaumlhlung) pro Satz

2 Wortform (Token)

3 Lemma

4 Grobe Wortklasse (coarse-grained part-of-speech tag)

5 Feine Wortklasse (fine-grained part-of-speech tag)

6 Morphosyntaktische Merkmale

7 Syntaktischer Kopf als Tokennummer

8 Dependenztyp

CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo

Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token

3httpuniversaldependenciesorgformathtml

29

Abbildung 33 CoNLL-U und CoNLL-X

Manuelle Annotation mit WebAnno und Exportformate

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

323 Feine Tagsets

Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis

bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags

bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert

bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch

bull Alternativen Muumlnsteraner Tagset [Steiner 2003]

Wieso ist das STTS wichtig

bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)

ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel

bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo

30

Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts

Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken

33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale

Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden

Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems

bull Konjugation von Verben

bull Deklination von Nomen Adjektiven Artikeln und Pronomen

bull Steigerung von Adjektiven (und wenigen Adverbien)

Diskussion Sind steigerbare Adverbien ein Widerspruch im System

Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet

31

Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts

Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn

331 Genus

Das Genus (UD Gender) Grammatisches Geschlecht

Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien

Tabelle 31 Uumlbersicht Genera

BemerkungDer Plural von Genus lautet Genera

Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt

Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen

Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind

Deutsch

32

Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur

AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas

332 Numerus

Der Numerus (UD Number) Grammatische Zahl

Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner

Tabelle 32 Uumlbersicht Numeri

BemerkungDer Plural von Numerus lautet Numeri

Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt

333 Kasus

Der Kasus (UD Case) FallUD-Kategorie Case

Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum

Tabelle 33 Uumlbersicht Kasus

BemerkungDer Plural von Kasus lautet Kasus

334 Modus

Der Modus (engl mode mood UD Mood) Aussageweise

Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh

Tabelle 34 Uumlbersicht Modi

In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi

33

335 Tempus

Das Tempus (UD Tense) grammatische Zeit Zeitform

Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging

Tabelle 35 Uumlbersicht Tempora

BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten

336 Person

Die Person (UD Person)

Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht

Tabelle 36 Uumlbersicht Personen

BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt

337 Grad

Der Grad (UD Degree) Steigerung Komparation

Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste

Tabelle 37 Uumlbersicht Komparation

BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt

338 Adjektiv-Flexion

Die Adjektiv-Flexion (engl adjective inflection)

BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven

Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet

34

Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse

Tabelle 38 Uumlbersicht Adjektiv-Flexion

Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern

UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt

Morphologische Englische UD-Annotation

1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _

34 Linguistische ProbenLinguistische Testverfahren

Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen

341 Ersatzprobe

Ersatzprobe

Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben

35

Beispiel 343 (Bestimmung des Kasus)

Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat

Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen

Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)

bull Das ist das Angebot das uns uumlberzeugt hat

bull Dieses ist das Angebot welches uns uumlberzeugt hat

bull Welches ist das Angebot dieses uns uumlberzeugt hat

bull Das ist dieses Angebot welches uns uumlberzeugt hat

Probleme der Interpretation

bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes

bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig

342 Einsetzprobe

Einsetzprobe

Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert

Beispiel 345 (Bestimmung der Wortart)

Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb

Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive

35 MorphologieMorphologische Ebene

Womit befasst sich die Morphologie Wortstruktur und Wortbildung

bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e

36

bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit

bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system

351 LemmatisierungMorphologieanalyse

Lemmatisierung und Morphologieanalyse

Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen

Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma

Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo

Analysen von GERTWOL5

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Probleme morphologischer Analysen Mehrdeutigkeit

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM

Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol

37

bull ldquoeinerdquo als

bull ldquoMuumlllerrdquo als Eigenname oder Substantiv

Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus

Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1

Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile

Probleme morphologischer Analyse

googelte

UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter

Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM

ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat

Lieblingsbeerelieb~lingsbeere S FEM SG NOM

Erdbeereerdbeere S FEM SG NOM

Fingerbeerenfingerbeere S FEM PL NOM

UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung

38

Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas

Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]

Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent

352 Morphologiegenerierung

Generierung von syntaktischen Wortformen

Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation

Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|

Person=2|Tense=Past|VerbForm=Fingingst

backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin

36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT

bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem

bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6

bull Die Website universaldependenciesorg hat einige Dokumentation

Zusammenfassung

bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet

bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte

bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme

bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen

6httpwwwdsuzhchstudien-cd

39

Kontrollfragen

bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo

bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2

bull Worin besteht Morphologieanalyse und -generierung

bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller

bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt

bull Was ist der Unterschied zwischen Lemma und Lexem

40

Kapitel 4

Linguistisches Propaumldeutikum II

Lernziele

bull Anwendung der klassischen syntaktischen Proben

bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf

bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte

bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen

bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug

Motivation 2 (halbwegs kompatible) Syntax-Welten

Konstituenten

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Dependenz

41

Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden

(NGoogles SyntaxNet)

41 Syntaktische ProbenKonstituentenproben

Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt

Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

411 Weglassprobe

Weglassprobe

Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten

Bestimmung eines Satzglieds

1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

FrageWarum nicht Variante 4

42

412 Verschiebeprobe

Verschiebeprobe

Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen

Bestimmung von Satzgliedern

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen bereite ich die Sitzung mit dem Chef vor

3 Ich bereite die Sitzung mit dem Chef morgen vor

Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb

Verschiebeprobe

Unzulaumlssiges Verschieben

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen ich bereite die Sitzung mit dem Chef vor

3 Die Sitzung bereite ich morgen mit dem Chef vor

413 Umformungsproben

Umformungsprobe

Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut

Funktion von Nebensaumltzen

1 Es wuumlrde mich freuen wenn du mitkaumlmest

2 Dein Mitkommen wuumlrde mich freuen

Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo

Infinitivumformung zur Subjekterkennung

1 Die Laumlrche ist ein Nadelbaum

2 ein Nadelbaum sein die Laumlrche

43

Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]

42 SatzSatz

Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist

Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten

421 Satzglieder

Moderne Satzgliedlehre

422 Koumlpfe (oder Kerne) von Konstituenten

Syntaktische Koumlpfe (engl head) Kern (engl kernel)

Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar

Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)

1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]

2 Sie rennt [mit dem Mobile hantierend] zum Kiosk

3 Es wird [viel zu oft] telefoniert

44

4 [Die Frau die zum Kiosk rannte ] war aufgeregt

5 Sie fuumlhlte sich [wie in einem schlechten Film]

6 Aber sie war auch [in einem ziemlich schlechten Film]

43 Syntaxanalyse

431 Konstituenz

Konstituenten und Konstituenz

Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist

Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten

Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten

Konstituenten in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

unmittelbare Dominanz

Konstituente auf Wortebene

Syntaktische Konstituente

Praumlzedenz auf Wortebene

Praumlzedenz zwischen Tochterkonstituenten

Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung

Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente

Konstituententypen

Typen von Konstituenten in TIGERNEGRA

1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen

45

2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern

3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern

4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern

5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern

6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern

7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo

Annotation von Relativsaumltzen

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen

Komplexe Konstituenz in der Penn-Treebank

Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white

Syntaxbaum aus der Vogelperspektive

In

IN

other

JJ

words

NNS

like

IN

automation

NN

machines

NNS

designed

VBN

-NONE-

to

TO

work

VB

in

IN

tandem

NN

they

PRP

shared

VBD

the

DT

same

JJ

programming

NN

a

DT

mutual

JJ

understanding

NN

not

RB

only

RB

of

IN

English

NNP

words

NNS

but

CC

of

IN

the

DT

four

CD

stresses

NNS

pitches

NNS

and

CC

junctures

NNS

that

WP

T

-NONE-

can

MD

change

VB

their

PRP$

meaning

NN

from

IN

black

NN

to

TO

white

NN

NP

PP

NP NP NP

PP

VP

VP

SBJ

S

VP

NP

PP

NP NP NP CONJP NP

PP

NP WHNP NP NP NP

PP

NP

PP

PP

VP

VP

SBJ

S

SBAR

NP

PP

PP

NP

NP

VP

SBJ

S

T

46

Quelle TIGERSearch-Demo-Korpora

Maximale Verschachtelungstiefe

432 Dependenz bzw syntaktische Funktion

Dependenz und syntaktische Funktion

Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten

Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen

HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt

Syntaktische Funktionen in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Syntaktische Funktion

Konstituenten

Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung

Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente

Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken

Einige Satzglieder mit TIGER-Funktion

bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein

47

Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)

bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)

bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)

bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)

bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator

bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb

Baumbankkonversion Von Konstituenz zu Dependenz

Automatische Konversion (NTIGER2Dep)

Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)

433 UD-DE-Modell

Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen

48

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

Generelle Philosophie des Universal-Dependency-Modells

bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig

bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV

bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum

bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden

bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der

bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)

bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens

Inhaltswoumlrter VERB und NOUN

Hinweisebull Spitze des Pfeils Abhaumlngiges Element

bull Startknoten des Pfeils Kopf

bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen

bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird

Das UD-Innenleben von Nominalphrasen

Hinweisebull Was ist der NP-Kopf

bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll

49

Komplexe Verb- und Adjektivphrasen

Hinweise

bull Hilfs- und Modalverben haumlngen vom Vollverb ab

bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich

Kopulakonstruktion und Gleichsetzungsnominativ

Fragen

bull Wovon haumlngt das Subjekt ab

bull NSuche nach ist im Suchwerkzeug

bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft

Interpunktion

Hinweise

bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt

50

Verschachtelte Saumltze

Hinweise

bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab

bull Wann aclrelcl und wann advcl

Koordination

Koordination Koumlpfe und Abhaumlngigkeitsrichtung

Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht

Koordination von Konstituenten aus NEGRA-Korpus

bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]

bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]

bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]

2 Fragen mit mehreren moumlglichen Antworten

bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt

bull In welche Richtung werden koordinierte Elemente verknuumlpft

Koordination in der NUD

Frage

bull Welche Antworten gibt die UD

51

Manuelle Syntax-Annotation mit WebAnno

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)

bull Click-und-Drag-Interface mit der Maus

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml

Aufgabe Annotation von Relativsatz

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Wie sieht eine UD-Annotation von diesem Satz aus

434 Suche

NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken

Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-

Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens

2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)

KOPF gt NICHTKOPF

NICHTKOPF lt KOPF

Analog zur Pfeilrichtung in der BRAT-Visualisierung

52

Grundlegende syntaktische Suchrezepte

bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging

bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging

bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde

bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld

bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor

bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _

bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist

44 AmbiguitaumltZusammenfassung

bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen

bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden

bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab

bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])

45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]

bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre

bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren

bull Quiz Die Form der Satzglieder

bull Quiz Satzglieder und Proben

bull Linguistik-CD

53

Kapitel 5

Endliche Automaten

Lernziele

bull Einstieg in die Formalisierung von Sprache

bull Was sind Zeichenketten formalmathematisch

bull Was ist eine formale Sprache

bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation

bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten

bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie

bull Wann ist ein endlicher Automat deterministisch und wann nicht

bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten

54

51 Formale Sprachen

511 Mengen

A Quick Review of Set Theory

A set is a collection of objects

A B

D E

We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E

There is no significant order in a set so A D B E is the same set as E A D B etc

Quelle B04

Cardinality of Sets

 The Empty Set

 A Finite Set

 An Infinite Set eg The Set of all Positive Integers

Norway Denmark Sweden

Quelle B04

512 Zeichen

Das Alphabet (Sigma) Menge von Zeichen

55

Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert

Zeichen des EnglischenΣEnglisch = a b c x y z

Zeichen der binaumlren ZahlenΣbin = 0 1

Zeichenketten (strings)

Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ

Zeichenketten uumlber englischen Symbolen ΣEnglisch

a we muntjac talk walk krwrk

Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0

Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast

bin = ε 0 1 00 01 10 11 001

513 Sprachen

Formal Languages

Very Important Concept in Formal Language Theory

A Language is just a Set of Words

bull  We use the terms ldquowordrdquo and ldquostringrdquo interchangeably

bull  A Language can be empty have finite cardinality or be infinite in size

bull  You can union intersect and subtract languages just like any other sets

56

Quelle B04

Union of Languages (Sets)

dog cat rat elephant mouse

Language 1 Language 2

dog cat rat

elephant mouse

Union of Language 1 and Language 2 Quelle B04

Formale Sprachen als Teilmenge von Sigma Stern

L sube Σlowast

Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast

Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes

Englische Woumlrterwalk talk work sube a b zlowast

Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt

Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit

Formales Modell Wirklichkeit

Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme

57

Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der

Wirklichkeit zu repraumlsentieren

Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working

worked works talk

talking talked talks

walk walking

walked walks

The concatenation of

the Suffix language

after the Root

language

0 or denotes the empty string

Abbildung 51 Sprache mit 3 WoumlrternZeichenketten

Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk

Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage

Beispiel fuumlr Deterministischen Endlichen Automaten

talk isin work talk walk

bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile

52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)

Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand

58

Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert

Nicht-Deterministische Endliche Automaten (NEA)

Abbildung 52 Deterministischer EA

Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg

Nicht-Determinismus IIEs gibt mindestens eine ε-Kante

Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln

Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus

1 einer endlichen Menge Zustaumlnde Φ

2 einem endlichen Eingabealphabet Σ

3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ

59

4 einem Startzustand S isin Φ

5 einer Menge von Endzustaumlnden F sube Φ

Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)

δ Φtimes (Σ cup ε)rarr weierp(Φ)

521 Konkatenation

Konkatenation von Zeichenketten und Sprachen

Konkatenation von Zeichenkettenu bull v = uv

lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo

Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V

lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo

Concatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working worked works talk talking talked talks walk walking walked walks

The concatenation of the Suffix language after the Root language

0 or ε denotes the empty string

60

Quelle B04

Concatenation of Languages II

work talk walk

Root Language

0 ing ed s

Suffix Language

rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks

The concatenation of the Prefix language Root language and the Suffix language

Prefix Language

re out 0

outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks

work working worked works talk talking talked talks walk walking walked walks

Quelle B04

Languages and Networks

w a l k

o r

t

NetworkLanguage 2 NetworkLanguage 3

s

o r The concatenation of Networks 1 2 and 3 in that order

w a l k t

a

a s

ed

i n g

0

s

ed

i n

0s

g o

r

NetworkLanguage 1

s

u t

e

0

o

r s

t

e

0 u

Quelle B04

522 Regulaumlre Ausdruumlcke

Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)

Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann

61

bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo

bull Die Mengen a1a2an sind regulaumlr RA a oder b

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)

bull Ist L regulaumlr dann auch LlowastRA (A)

Wie kann man Optionalitaumlt ausdruumlcken

Graphischer Algorithmus Konversion von RA zu NEA

JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten

Algorithmus

1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde

2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten

3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander

4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen

Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten

Epsilon

Symbol a

Konkatenation (ab)

Alternative (a|b)

62

encodes

a

LANGUAGE RELATION

compiles intoa

REGULAR EXPRESSIONa

FINITE-STATE NETWORKde

notes

Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])

Wiederholung (a)

Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert

63

53 Transduktoren

Linguistic Transducer Machines

mesas

Generator

ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas

m e s a +Noun +Fem +Pl

m e s a 0 0 s

mesa+Noun+Fem+Pl

Analyzer

ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas

Quelle B04

Gute Eigenschaften von endlichen Automaten und Transduktoren

bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen

bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde

bull Beispiel NRumantsch Grischun

bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren

Zusammenfassung

bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben

bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen

bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den

bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt

bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden

64

Vertiefung

bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)

bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo

bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo

bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial

65

Kapitel 6

Flache Satzverarbeitung

Lernziele

bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets

bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung

bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen

bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells

bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger

bull Kenntnis uumlber partielle syntaktische Analyse

bull Kenntnis uumlber flache und verschachtelte Chunks

Welches mehrdeutige Wort hat dieses Profil

UPOS-Tag Vorkommen1

1021ADP 848ADV 61

PROPN 14ADJ 1

61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT

N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token

66

Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)

bull eineDET Kuh Lemma ldquoeinrdquo

bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)

bull lead Verb lid (fuumlhren) Nomen led (Blei)

bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe

Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren

Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to

be present tense 3rd person singular

Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch

Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist

Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]

bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)

bull Effizient Der Tagger arbeitet schnell

bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)

bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den

bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden

Was fehlt

67

611 Probleme des Taggings

Wortformen mit mehreren moumlglichen Tags

MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token

Tag-Ambiguitaumlt im Englischen

Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]

Haumlufigkeiten im Brown-Korpus

bill NN 2351

promised VBD 34~~VBN 10~~JJ 2

back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2

Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token

die~~ART 2351~~PRELS 448~~PDS 4

Mehrheit~~NN 40

bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1

Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0

Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen

bull Unterscheidung zwischen offenen und geschlossenen Wortarten

bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)

68

Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]

Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)

bull 98 aller Woumlrter mit Endung -able sind Adjektive

bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname

Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe

oo

n

e

g

n

d

senuel

l

cv

y ta

o

mtsiii

o

i

ies (NNS09 VBZ01)ons (NNS095 VBZ005)

ed (VBN04 JJ03 VBD03)

le (NN025 JJ045 NP02 VB01)

ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)

ty (NN045 JJ035 NP02)

son (NP08 NN01 JJ01)

man (NP08 NN02)ton (NP09 NN005 JJ005)

ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)

ous (JJ096 NN004)

old (JJ098 NN002)

Quelle [Schmid 1995]

Wortformen mit mehreren moumlglichen Tags Kontext

69

Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6

Vorkommen von ldquobackrdquo im Brown-Korpus

ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung

Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen

Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet

bull die moumlglichen Tags von wn aus Tagger-Lexikon

bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens

Context

3

3

Kontextmodell des Trigrammtaggers TnT [Brants 2000]

612 Fallstudie TnT-Tagger

Supervisiertes Maschinelles Lernen

70

Quelle [Raschka 2015 11]

ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt

Fallstudie TnT-Tagger trainieren und evaluieren

Testkorpustestttstesttxt

Trainingskorpustrainingtts

Getaggtes Korpus

Aufteilen des Korpus

Taggingtnt

Trainingtnt-para

Parameter-Dateien

traininglextraining123

Evaluations-korpus

evaltts

Evaluationtnt-diff

Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger

Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]

1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)

$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts

2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden

$ head --lines 278081 ud-de-v13tts gt trainingtts

3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden

$ tail --lines 30900 ud-de-v13tts gt testtts

71

4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus

$ tnt-para trainingtts

5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut

$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts

6 Man erstelle das Evaluationskorpus

$ cut -f 1 testtts gt evaltxt

7 Man tagge das Evaluationskorpus mit dem Trainingsmodell

$ tnt training evaltxt gt evaltts

8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus

$ tnt-diff testtts evaltts

62 EvaluationEvaluation

Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode

Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt

Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird

Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind

Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden

Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)

Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat

72

Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein

621 Zweck

Zweck von Evaluationen

SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert

SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist

622 Accuracy

POS-Tagger-Evaluation Genauigkeit

Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens

accuracy = N minus EN

Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit

Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus

Tagt Freqt Tagf Freqf Ant Erel Eabs

NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010

Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]

Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler

73

5-fache Kreuzvalidierung visuell

Figure 8-2 K-fold cross-validation

Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point

You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order

gtgtgt import randomgtgtgt randomshuffle(f)

If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold

gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k

Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on

Problems That Can Affect Evaluation | 179

Quelle [Pustejovsky und Stubbs 2013 179]

Genauigkeit unter 10-facher Kreuzvalidierung

Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))

accuracy =sumi=10

i=1 accuracyi

10

Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen

623 Lernkurven

624 Recall

Recall (Ausbeute Abdeckung Vollstaumlndigkeit)

Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems

R = At

Nt

Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600

800 = 75

74

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp())+-01$+-0-2)00-))304

56)77

8010

904010

6+789lt

6-=7gt8lt

6+7gtlt

6-=7gt8lt

6+7lt

6-=79lt

2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J

-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J

)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)

Qampamp)(ampI0(EI(K3amp)-++5

8

9

gt

R9 9 S gt9 8 RR gtS

$-++5NF=J

TM5ltU+B+ampE+

TM5T00I-0L

SSR

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

6)6lt$$)amp$+)=$gt=((+

Q-M-44amp-0C

5-66ampK1F3()ampKVWWJ

6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(

Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp

)-)amp3)T)C

$5-66ampK1F(0amp+KampKVWWJ

6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+

U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+

TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+

+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt

QZ]T F6-+JgtRlt gt8lt [RSlt

Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants

625 Precision

Precision (Genauigkeit Praumlzision)

Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems

P = At

A

Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600

1000 = 60

626 F-Measure

F-Measure (F-Mass)

Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems

F = 2times P timesRP +R

75

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp()

67-18-)amp+8(+5)9amp0amp4amp-

6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F

2++$G-+AH-11))Iamp8+-1

J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+

$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5

amp+)-5)amp-0)ampA+

$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()

$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5

+amp(-012344)425amp123)3627892(+lt

=+$$

gt)(5)

))(5)

D+QRSTU

D-EQVWTRU

D+QVXTRU

D-EQVRTRU

D+QWTYU

D-EQSVTMU

6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F

-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F

M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)

ampamp)(amp80(98(B3amp)-++5T

Y X M YM XM MM YMM YMXM

WM

RM

SM

VM

MM

$-++5OCEMMMF

gt75TU[+A+amp9+

gt75Tgt008-0N

PWTP PTP WTM MTR YTM ST PT TVXMTS

C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants

Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075

06+075 = 666

63 Chunk ParsingPartielle syntaktische Analyse

Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt

Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN

bull NC Ein NC (Nominalchunk) besteht

bull -gt besteht aus

bull ART aus einem Wort der Wortart ART (Artikel)

bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)

76

Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

631 Abneys Chunk-Definition

Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]

Motivationen

bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung

bull Effizienz Teilstrukturen lassen sich effizienter berechnen

bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse

bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden

632 IOB-Chunk

Flache Chunks im IOB-Format

Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist

bull B-K Anfang einer Chunk-Konstituente K

bull I-K Fortsetzung der Chunk-Konstituente K

77

bull 0 Nicht zugeordnet (wird auch chink genannt)

We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP

633 Verschachtelte Chunks

Verschachtelte Chunks

Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich

Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)

[PX [APPR fuumlr][NX [ARTIND eine]

[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]

Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC

64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo

bull Pflichtlektuumlre [Carstensen et al 2009 342-3]

bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking

bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative

bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4

78

ZusammenfassungZusammenfassung

bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung

bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets

bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input

Kontrollfragen

bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen

bull Was unterscheidet Recall und Precision von Accuracy

bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging

bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte

bull Was ist der Vorteil der IOB-Notation fuumlr Chunks

65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele

bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative

bull Kenntnis uumlber Fehlertypen und ihre Gefahr

bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung

651 TrueFalse PositivesNegatives

Evaluation von binaumlren Klassifikatoren

TruthPositive Negative

Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)

Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit

Legende zur Tabelle 63

True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

79

FP Fehlertyp I Test ist positiv wo er nicht sollte

FN Fehlertyp II Test ist negativ wo er nicht sollte

652 Fehlerparadoxe

Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet

Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter

Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet

Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter

653 Unterschiede von Evaluationsmassen

Dualitaumlt von Precision und Recall

TruthPos Neg

Test Pos TP FPNeg FN TN

R = TP

TP + FN

Tabelle 64 Recall

Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision

F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig

80

TruthPos Neg

Test Pos TP FPNeg FN TN

P = TP

TP + FP

Tabelle 65 Precision

TruthPos Neg

Test Pos TP FPNeg FN TN

F = 2times TP2times TP + FP + FN

Tabelle 66 F1-Measure

TruthPos Neg

Test Pos TP FPNeg FN TN

Accuracy = TP + TN

TP + TN + FP + FN

Tabelle 67 Accuracy

654 Mitteln von Recall und Precision

F-Measure Harmonisches vs arithmetisches Mittel

655 Vertiefung

bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]

81

Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]

82

Abbildung 68 M = P +R2 Arithmetisches Mittel

83

Literaturverzeichnis

[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235

[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications

[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University

[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231

[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl

[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen

[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf

[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt

[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf

[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl

[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov

[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl

84

[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf

[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf

[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830

[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485

[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM

[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011

[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl

[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York

[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096

[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA

[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning

[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf

[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin

[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml

85

[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098

[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps

[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd

[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf

[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf

[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf

[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean

[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574

86

Index

10-fache Kreuzvalidierung 74

Adjektiv-Flexion 34Alphabet 56

Eingabealphabet 59

DEA 59Dependenz 47

Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72

F-Measure 75

Genus 32Grad 34

IOB-Chunks 77

Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44

Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25

Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39

Named Entity Regonition 19NER 19

Numerus 33 34

partielle syntaktische 76Person 34Precision 75Probe linguistisch 35

Qualitaumlt einer Evaluation 72

Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72

Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47

Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24

Umformungsprobe 43

Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43

Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24

XML-Standard 14

Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59

87

  • Organisatorisches
    • Organisatorisches
      • Leistungsnachweis
      • Lernen und Lehren
        • Kontrollfragen
          • Tokenisierung
            • Tokenisierer
              • Grundproblem
              • Kodierung
              • Programme
                • XML
                • Tokenisierung
                  • Problem
                  • Punktdisambiguierung
                  • Normalisierung
                  • NER
                    • Multilingualitaumlt
                    • Vertiefung
                      • Linguistisches Propaumldeutikum I
                        • Wort
                          • Token
                          • Wortform
                          • synt Wort
                          • Lexem
                            • Wortarten
                              • 5 Hauptwortarten
                              • UD
                              • STTSPTTS
                                • Merkmale
                                  • Genus
                                  • Zahl
                                  • Kasus
                                  • Modus
                                  • Zeit
                                  • Person
                                  • Grad
                                  • Flexion
                                    • Proben
                                      • Ersetzen
                                      • Einsetzen
                                        • Morphologie
                                          • LemmatisierungMorphologieanalyse
                                          • Morphologiegenerierung
                                            • Vertiefung
                                              • Linguistisches Propaumldeutikum II
                                                • Proben
                                                  • Weglassen
                                                  • Verschieben
                                                  • Umformen
                                                    • Satz
                                                      • Satzglieder
                                                      • Koumlpfe
                                                        • Syntaxanalyse
                                                          • Konstituenz
                                                          • Dependenz
                                                          • UD-DE
                                                          • Suche
                                                            • Ambiguitaumlt
                                                            • Vertiefung
                                                              • Endliche Automaten
                                                                • Formale Sprachen
                                                                  • Mengen
                                                                  • Zeichen
                                                                  • Sprachen
                                                                    • EA und regulaumlre Sprachen
                                                                      • Konkatenation
                                                                      • Regulaumlre Ausdruumlcke
                                                                        • Transduktoren
                                                                          • Flache Satzverarbeitung
                                                                            • Tagging
                                                                              • Probleme
                                                                              • Fallstudie TnT-Tagger
                                                                                • Evaluation
                                                                                  • Zweck
                                                                                  • Accuracy
                                                                                  • Lernkurven
                                                                                  • Recall
                                                                                  • Precision
                                                                                  • F-Measure
                                                                                    • Chunking
                                                                                      • Abney
                                                                                      • IOB-Chunk
                                                                                      • Verschachtelte Chunks
                                                                                        • Vertiefung
                                                                                        • Exkurs Evaluation binaumlrer Klassifikatoren
                                                                                          • TPFPFNTN
                                                                                          • Fehlerparadoxe
                                                                                          • Unterschiede
                                                                                          • Mittelwerte
                                                                                          • Vertiefung
Page 7: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff

111 Leistungsnachweis

6 obligatorische schriftliche Uumlbungen (SU)

Bewertungprinzip Punkte SU = Note SU = 25 der Modulnote

Punktzahl pro UumlbungBestanden 1 Punkt

Halb bestanden 05 PunkteNicht-Bestanden 0 Punkte

Note SU = Summe der Punkte aus den 6 Uumlbungen

bull Uumlbungsausgabe donnerstags 18h (Information via OLAT-Mailversand)

bull Loumlsungsabgabe spaumltestens mittwochs 18h

bull Einige Uumlbungen werden Sie stark fordern Sie duumlrfen maximal zu zweit arbeiten Lern-partnerschaft muss deklariert sein bei der Abgabe

bull Keine Musterloumlsungen Dafuumlr Frage- und Diskussionsgelegenheit sowie Nachbesprechungin Uumlbungsstunde oder im Forum auf OLAT

bull Freiwilliges Tutorat freitags 1215-1345h im Raum AND AND-3-02

bull Start in 2 Semesterwoche (PCL-I-Tutorat bereits in 1 Semesterwoche)

Schriftliche Pruumlfung

bull Zeit Donnerstag 19 Januar 2017 von 1615 - 1800h

bull Dauer 90 Minuten

bull Stoff Skript Uumlbungen Pflichtlektuumlren

112 Lernen und Lehren

E-Learning und Uumlbungen

CLab httpclabcluzhchFuumlr einige Uumlbungen benutzen wir Lerneinheiten aus unserem interaktiven web-basierten Computerlinguistik-Laboratorium (CLab)

Applikationen auf CL-Linux-Server r2d2cluzhchEinzelne Uumlbungsteile nutzen CL-Tools auf unserem Studierenden-Server der uumlber SSH (SecureShell bzw Putty (Win)) zugaumlnglich ist Installationshilfe fuumlr Win dazu im Tutorat zu bdquoPro-grammiertechniken der CLldquo diesen Freitag 14-1545h

Virtuelle Linux-Maschine (25GB) httpkittcluzhchCLHS16ovaIm PCL-I-Tutorat der 1 Woche wird auch die VM (virtuelle Maschine) mit Linux erklaumlrtwelche die wichtigste Software fuumlr PCLECL vorinstalliert enthaumllt und auf allen Plattformen(Win MacOS) frei benutzbar ist (virtualboxorg) Fuumlr SSH benutzbar (Link ab Freitag guumlltig)

6

Anforderungen und Ruumlckmeldungen

bull Nutzen Sie die Uumlbungsstunden

bull Fragen Sie bei den Mitstudierenden nach (OLAT-Forum)

bull Wenden Sie sich an die Uumlbungsverantwortlichen

bull Geben Sie den Dozierenden Ruumlckmeldungen zu Unklarheiten und Problemen im KursDirekt nach der Stunde oder via Mail Wir machen diese Veranstaltung nur fuumlr Sie

Hochrechnung zum Workload fuumlr 6 ECTS-Punkte

ldquoBei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand beruumlck-sichtigt der fuumlr das Erreichen einer genuumlgenden Pruumlfungsleistung erforderlich istrdquo (sect14Abs 2)

ldquoEin ECTS-Punkt entspricht einer Studienleistung von 30 Stundenrdquo (sect13 Abs 2)

[Universitaumltsrat 2004]

bull Praumlsenz in Vorlesung Uumlbungsstunde und schriftlicher Pruumlfung

2times 15times 2h = 60h

bull Zeit pro Woche fuumlr (Pflicht-)Lektuumlre Loumlsen der schriftlichen Uumlbungen und Pruumlfungsvor-bereitung

180hminus 60h15 = 8h

12 KontrollfragenKontrollfragen

bull Welche Buchungsfristen fuumlr Sie relevant Bis wann koumlnnen Sie sich noch einschreibenbzw das Modul stornieren

bull Wie viele SU muumlssen Sie bestehen damit eine 45 in der schriftlichen Pruumlfung noch aufeine 5 aufgerundet wird

bull Wieso sollten Sie die Uumlbungsstunde besuchen

bull Welche Hauptthemen werden in dieser Vorlesung besprochen

7

Kapitel 2

Tokenisierung Automatische Satz-und Wortsegmentierung

Lernziele

bull Kenntnis uumlber die Kodierung sprachlicher Zeichen

bull Kenntnis uumlber den Zweck und die Probleme der textuellen Vorverarbeitung von natuumlrlicherSprache Text-Segmentierung und Text-Normalisierung

bull Kenntnis uumlber XML zur Repraumlsentation von Text und Segmentstruktur

bull Kenntnis uumlber Methoden der Punktdisambiguierung und Satzendeerkennung

bull Kenntnis uumlber Textnormalisierung und Erkennung von interessierenden Groumlssen (NamedEntity Recognition)

bull Kenntnis und Umgang mit regulaumlren Ausdruumlcken

21 Tokenisierer

211 Grundproblem

Woumlrter aus linguistischer Sicht

Definition 211 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprach-lich verwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftli-che Definitionsversuche uneinheitlich und kontrovers sind

Was ist ein Wort

1 ZB nahm sie am Text Mining Workshop teil

2 Das gibtrsquos doch nicht ldquoJooprdquo ist pleite

3 Blick Online verlost zum Film-Start das laquoIch bin Boratraquo-Kit

Wort-Segmentierung in nicht-segmentierten Schreibsystemen

8

Abbildung 21 Navigationselemente der Web-Site der Olympischen Spiele 2008

Rohtexte aus Computersicht Welt der Bytes

$ hexdump dateitxt0000000 57 61 73 20 62 65 69 6e 68 61 6c 74 65 74 20 730000010 69 65 3f 0a0000014

(Der Dateiinhalt ist als Dump1 im Hexadezimalformat wiedergegeben dh jedes Zeichen inForm seines Zeichenkodes als Hexadezimalzahl)Beispiel 212 (Folge von Zeichenkodes in Hexadezimalnotation)Wie viele und welche Woumlrter enthaumllt der folgende Datei-Inhalt57 61 73 20 62 65 69 6E 68 61 6C 74 65 74 20 73 69 65 3F 0A

212 Zeichenkodierung

Was ist ein Zeichen auf dem Computer

bull Traditionell ein Byte dh eine Folge von 8 BitsWas ist ein Bit Binaumlre Entscheidung (0 oder 1)

bull Ein Byte kann als Zahl interpretiert werden indem die Position eines Bits als Stelle imBinaumlrsystem aufgefasst wird 0100rsquo0001

bull Eine Zahl kann als BuchstabeZeichen interpretiert werden indem eine Kodierungskon-vention aufgestellt wird ZB rsquoArsquo=65 rsquorsquo=64 rsquo1rsquo=49

bull Verbreitete Kodierungskonventionen (engl charset) ASCII (128 Zeichen fuumlr Englisch)iso-latin-1 (256 Zeichen fuumlr westeuropaumlische Sprachen)

bull Typische Speicherung bei ASCII und iso-latin-1 1 Zeichen = 1 Byte

Binaumlres und Hexadezimales Stellensystem

1 Byte als binaumlre Zahlen (= 8 Bits)

__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8

__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8

Jedes Kaumlstchen = 1 Bit

4-stellige hexadezimale Zahl (= 4 Bytes)1Zum Beispiel mit dem Befehl $ hexdump dateitxt

9

__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8

__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8

Jedes Kaumlstchen = 1 Byte

Die 128 ASCII-Kodes

Die 128rsquo172 Unicode-Kodes

Moderne universale Kodierungskonvention httpwwwunicodeorgUNICODE(ISOIEC 10646) Version 90 Kodes fuumlr 128rsquo172 Zeichen in fast allen Schriftsystemender WelthttpwwwunicodeorgstandardWhatIsUnicodehtml

GRINNING FACE

bull Kode 128512 (Hexadezimal 1F600)

bull UTF-8 Byte-Repraumlsentation F0 9F 98 80

bull~ In UTF-8 sind nur Unicode-Kodes von ASCII-Zeichen direkt in ihrer Binaumlrzahl-Repraumlsentationgespeichert

10

Was ist ein Zeichen auf dem Computer UTF-8-Format

bull Speicherung bei UNICODE UTF (Abk fuumlr Unicode Transformation Format) beschreibtMethoden einen Unicode-Kode auf eine Folge von Bytes abzubilden

bull UTF-8 (Abk fuumlr 8-bit Universal Character Set Transformation Format) Ordnet jedemUnicode-Zeichen eine speziell kodierte Bytefolge von variabler Laumlnge zu UTF-8 unter-stuumltzt bis zu 4 Byte pro Zeichen

bull Dateiformat XML-Dateien sind defaultmaumlssig UTF-8 kodiert Bei andern Dateien mussman es wissen

bull Jede ASCII-Datei ist auch eine UTF-8-Datei (Ruumlckwaumlrtskompatibilitaumlt)

bull Darstellung Zeichensaumltze (engl fonts) enthalten die graphischen Formen (glyphs) damitdas Betriebssystem die Kodes fuumlrs Auge darstellen kann

bull Konversionswerkzeuge ZB GNU-Kommandozeilentool iconv

Textkonversion mit iconv

Verlustfreie Textkonversion nach UTF-8

$ iconv -f EXOTISCHEKODIERUNG -t UTF-8 lt INPUT gt OUTPUT

Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen laumlsst sich auch Text-Normalisierung durch ldquoTransliterationrdquo2 durchfuumlhren

$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIITRANSLITKlosschen

Das Loumlschen von nicht-repraumlsentierbaren Zeichen ist meist weniger nuumltzlich

$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIIIGNOREKlchen

213 Programme

Grundproblem Vom Zeichenstrom zur Folge von Tokens

RohdatenRohe elektronische Sprachdaten liegen in Dateien vor welche nichts anderes als eine Folge vonkodierten Einzelzeichen dh ein kontinuierlicher Zeichenstrom sind

Token Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung Wortkorrektur morphologische Analyse Lexikonzugriff syn-taktische Analyse

Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)

2~ Das Ergebnis kann von Landeseinstellungen (locale) abhaumlngig sein

11

bull Konsumieren der Zeichenfolge (Eingabe)

bull Gruppieren und allenfalls normalisierenmodifizieren der Zeichen (Verarbeitung)

bull Produzieren einer Folge von Tokens (Ausgabe)

Typische Beispiele fuumlr Tokenisierer Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text dh 1 Token pro Zeile Saumltzesind durch Leerzeilen voneinander abgetrennt

Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhaumlngiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkuumlrzungsdatei(ger-abbrev)

$ cat filetxtBachrsquosche Musikmag Dr Fritz Ja

$ cat ger-abbrevDrusw

$ utf8-tokenizeperl -a ger-abbrev filetxtBachrsquoscheMusikmagDrFritz

Ja

Typische Beispiele fuumlr Tokenisierer Regulaumlre AusdruumlckeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PythonPERL oder Finite-State Tools welche einen einfachen Umgang mit regulaumlren Ausdruumlcken er-lauben

Definition 213 (Regulaumlre Ausdruumlcke (engl regular expressions)) Ein regulaumlrer Ausdruck isteine relativ standardisierte Kurz-Notation um Zeichenketten mit bestimmten Eigenschaften zubeschreibenPraktisch eingesetzt werden sie fuumlr die nicht-woumlrtliche Suche (engl pattern matching) Suchen-und-Ersetzen und Segmentieren von Zeichenketten

Einfuumlhrung in regulaumlre AusdruumlckeZB in unserem CLab httpwwwcluzhchclabregex

12

Tokenisierer in der ProgrammiersprachePython

Tokenisierer mit regulaumlren Ausdruumlcken

bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben

bull Einfach anpassbar auf die Textsorte

bull Fuumlr uumlberschaubare Textmengen empfohlen

bull Vorteil Machen dieselben Fehler konsequent

bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung

Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])

1 Rohtext

This is an example There are two sentences

2 XML-Input fuumlr Tokenisierer (Vortokenisierung)

ltdocumentgtlttextgt

ltpgtThis is an example There are two sentences

ltpgtlttextgt

ltdocumentgt

3 XML-Tokenisat

ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt

13

ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt

Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert

Verschachtelung im XML-Stil

ltdocumentgtlttextgt

ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example

ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences

Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags

22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation

bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs

bull httpstubeswitchchvideos60fc01f1

XML (eXtensible Markup Language)

Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann

14

XML in der Texttechnologie

bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)

bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten

bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben

Aufbau von XML-Dokumenten

Elemente und ihre Attribute

bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt

bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)

bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt

bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt

bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt

bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt

Zeichenreferenzen und Entity-Referenzen

Entitaumlten und Referenzen

bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden

bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal

bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den

Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38

Newline amp9Σ ampx3a3

15

23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen

231 Problem

Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt

bull Wort-Zeichen [a-zA-Z0-9]

bull Einzel-Zeichen [)(rsquo$-]

bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]

ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo

Schwierigkeiten der Wortsegmentierung im engen Sinn

Schwierige Zeichen

bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim

bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr

bull Bindestriche semble-t-il rarr semble + -t-il

bull Punkte SAC

bull Masseinheiten 30 rarr 30 + 28 rarr 28 +

bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que

Teilprobleme der Tokenisierung im weiten Sinn

bull Umgang mit Markup (HTML-Tags Formatierungszeichen)

bull Erkennung der ldquonormalenrdquo Tokengrenzen

bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)

bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)

bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)

bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)

16

232 Punktdisambiguierung

Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben

Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert

Verschmelzung

bull It was due Friday by 5 pm Saturday would be too late

bull Ich kenne die USA Frankreich kenne ich nicht

WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig

Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls

bull das Token in einer Abkuumlrzungsliste steht

bull nach dem Token eines der Zeichen aus [a-z] folgt

bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht

bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt

Nach [Grefenstette und Tapanainen 1994]

LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen

Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen

Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN

1 Wie viele Zeichen umfasst TOKEN

2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale

3 Wie oft kommt TOKEN ohne Punkt vor

4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor

5 Wie oft kommt NEXTTOKEN kleingeschrieben vor

17

Satzsegmentierung mit maschinellen Lernverfahren

bull Fuumlr grosse Textmengen empfohlen

bull Nachteil Unsystematische Fehler koumlnnen auftreten

Statistisches System PUNKT ([Kiss und Strunk 2006])

bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten

bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt

iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte

233 Zeichen- und Token-Normalisierung

Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen

Normalisierung bei Suchmaschinen und anderen Anwendungen

bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich

bull 4897 4-8-97 4897 8497

bull 19000 19rsquo000 19 000 19000

bull Louisa Luise Louise Luisa

bull doesnrsquot does not

Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)

bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt

bull Hollaumlndisch chocola-tje rarr chocolaatje

Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen

18

Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung

Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens

615 5 Ruumlckbau in neue Tokens

Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus

Ruumlckgaumlngig machen von Worttrennung am Zeilenende

Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens

Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch

234 Named Entity Recognition

Named Entity Recognition

Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen

Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen

Kanonische Formen und Entity Linking

bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo

bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo

Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3

Demo Time Expression Recognition (TIMEX task)

24 MultilingualitaumltMultilinguale Dokumente und Systeme

Herausforderung Multilingualitaumlt

bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess

19

Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular

Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML

bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig

bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut

bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet

bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut

Ansatz von [Cavnar und Trenkle 1994]

20

1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten

2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)

3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil

4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm

5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand

N-Gramm-Profile und Profilabstand

Quelle [Cavnar und Trenkle 1994]

Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]

25 VertiefungZum Thema ldquoTokenisierungrdquo

bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28

bull Pflichtlektuumlre [Carstensen et al 2009 341]

bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]

Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)

bull httpwwwcluzhchclabregex

Zum Thema ldquoXMLrdquo

21

bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1

bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]

Zusammenfassung

bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen

bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen

bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen

bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung

bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar

bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen

bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden

Kontrollfragen

bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention

bull Welche Probleme stellen sich bei der Tokenisierung

bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung

bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten

bull Was versteht man unter NER

bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle

22

Kapitel 3

Linguistisches Propaumldeutikum I

Lernziele

bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen

bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg

bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch

bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte

bull Kenntnis und Anwendung linguistischer Proben

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten

bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung

31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs

Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind

Praumlzisierungsversuche des Wort-Begriffs

bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment

bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit

bull Morphologisch Grundeinheit welche flektierbar ist

bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist

bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes

23

Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach

Antworten 4 5 6 9 __

311 Token

Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9

Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText

BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann

312 Wortform

Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes

Identische Wortformen mit unterschiedlicher Bedeutung

bull Die Fliege war tot

bull Er trug eine samtene Fliege

bull Fliege nicht so schnell

313 Syntaktisches Wort

Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6

Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst

Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural

24

314 Lexem

Antwort 5 Wort als Lexem

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden

Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem

Lexikographische Notationskonventionen

Wie sehen Verb-Lemma in DeutschenLatein aus

Antwort 4 Wort als Lexemverband

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4

Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert

Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln

Stufen der Abstraktion Vom Text zum Lexemverband

bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)

bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)

bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen

bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden

bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird

25

32 Lehre von den WortartenWortarten nach [Bussmann 2002]

Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien

Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb

5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det

321 5 Hauptwortarten nach Glinz

Klassifikationskriterien

Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]

Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

26

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

322 UD

Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)

Universal Part-of-Speech Tagset (Version 1)1

12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish

ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo

Universal Part-of-Speech Tagset (Version 2) UPOS2

Version 2 hat 17 POS-Tags

+ Eigennamen (PROPN) (vorher NOUN)

+ Hilfsverben (AUX) (vorher VERB)

+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)

+ Symbole (SYM) (vorher X)

+ Interjektionen (INTJ) (vorher PRT)

= Partikel (PART) (vorher PRT)

= Interpunktion (PUNCT) (vorher )

Baumbanken sind fuumlr 51 Sprachen verfuumlgbar

27

Abbildung 32 Deutsche UD-Baumbank

UD V13 fuumlr Deutsch

NDurchsuchen

bull Suche nach Wort spaumlter

bull Nach Wort+Wortart spaumlterampADV

UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml

Mehrdeutigkeiten Unklarheiten Fehlannotationen

Linguistische Annotation und Automatisierung

Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form

Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml

28

bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)

bull Vollautomatisch Schnell billig fehlerbehaftet

bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile

Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml

N CoNLL-Format Spaltenformat fuumlr Annotationen3

bull Vertikalisierter Text

bull 1 Token pro Zeile

bull Saumltze mit Leerzeile getrennt

bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation

bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet

Bedeutung relevanter Spalten

1 Tokennummer (1-basierte Zaumlhlung) pro Satz

2 Wortform (Token)

3 Lemma

4 Grobe Wortklasse (coarse-grained part-of-speech tag)

5 Feine Wortklasse (fine-grained part-of-speech tag)

6 Morphosyntaktische Merkmale

7 Syntaktischer Kopf als Tokennummer

8 Dependenztyp

CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo

Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token

3httpuniversaldependenciesorgformathtml

29

Abbildung 33 CoNLL-U und CoNLL-X

Manuelle Annotation mit WebAnno und Exportformate

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

323 Feine Tagsets

Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis

bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags

bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert

bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch

bull Alternativen Muumlnsteraner Tagset [Steiner 2003]

Wieso ist das STTS wichtig

bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)

ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel

bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo

30

Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts

Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken

33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale

Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden

Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems

bull Konjugation von Verben

bull Deklination von Nomen Adjektiven Artikeln und Pronomen

bull Steigerung von Adjektiven (und wenigen Adverbien)

Diskussion Sind steigerbare Adverbien ein Widerspruch im System

Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet

31

Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts

Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn

331 Genus

Das Genus (UD Gender) Grammatisches Geschlecht

Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien

Tabelle 31 Uumlbersicht Genera

BemerkungDer Plural von Genus lautet Genera

Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt

Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen

Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind

Deutsch

32

Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur

AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas

332 Numerus

Der Numerus (UD Number) Grammatische Zahl

Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner

Tabelle 32 Uumlbersicht Numeri

BemerkungDer Plural von Numerus lautet Numeri

Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt

333 Kasus

Der Kasus (UD Case) FallUD-Kategorie Case

Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum

Tabelle 33 Uumlbersicht Kasus

BemerkungDer Plural von Kasus lautet Kasus

334 Modus

Der Modus (engl mode mood UD Mood) Aussageweise

Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh

Tabelle 34 Uumlbersicht Modi

In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi

33

335 Tempus

Das Tempus (UD Tense) grammatische Zeit Zeitform

Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging

Tabelle 35 Uumlbersicht Tempora

BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten

336 Person

Die Person (UD Person)

Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht

Tabelle 36 Uumlbersicht Personen

BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt

337 Grad

Der Grad (UD Degree) Steigerung Komparation

Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste

Tabelle 37 Uumlbersicht Komparation

BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt

338 Adjektiv-Flexion

Die Adjektiv-Flexion (engl adjective inflection)

BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven

Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet

34

Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse

Tabelle 38 Uumlbersicht Adjektiv-Flexion

Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern

UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt

Morphologische Englische UD-Annotation

1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _

34 Linguistische ProbenLinguistische Testverfahren

Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen

341 Ersatzprobe

Ersatzprobe

Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben

35

Beispiel 343 (Bestimmung des Kasus)

Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat

Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen

Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)

bull Das ist das Angebot das uns uumlberzeugt hat

bull Dieses ist das Angebot welches uns uumlberzeugt hat

bull Welches ist das Angebot dieses uns uumlberzeugt hat

bull Das ist dieses Angebot welches uns uumlberzeugt hat

Probleme der Interpretation

bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes

bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig

342 Einsetzprobe

Einsetzprobe

Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert

Beispiel 345 (Bestimmung der Wortart)

Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb

Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive

35 MorphologieMorphologische Ebene

Womit befasst sich die Morphologie Wortstruktur und Wortbildung

bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e

36

bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit

bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system

351 LemmatisierungMorphologieanalyse

Lemmatisierung und Morphologieanalyse

Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen

Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma

Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo

Analysen von GERTWOL5

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Probleme morphologischer Analysen Mehrdeutigkeit

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM

Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol

37

bull ldquoeinerdquo als

bull ldquoMuumlllerrdquo als Eigenname oder Substantiv

Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus

Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1

Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile

Probleme morphologischer Analyse

googelte

UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter

Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM

ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat

Lieblingsbeerelieb~lingsbeere S FEM SG NOM

Erdbeereerdbeere S FEM SG NOM

Fingerbeerenfingerbeere S FEM PL NOM

UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung

38

Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas

Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]

Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent

352 Morphologiegenerierung

Generierung von syntaktischen Wortformen

Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation

Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|

Person=2|Tense=Past|VerbForm=Fingingst

backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin

36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT

bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem

bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6

bull Die Website universaldependenciesorg hat einige Dokumentation

Zusammenfassung

bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet

bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte

bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme

bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen

6httpwwwdsuzhchstudien-cd

39

Kontrollfragen

bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo

bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2

bull Worin besteht Morphologieanalyse und -generierung

bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller

bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt

bull Was ist der Unterschied zwischen Lemma und Lexem

40

Kapitel 4

Linguistisches Propaumldeutikum II

Lernziele

bull Anwendung der klassischen syntaktischen Proben

bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf

bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte

bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen

bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug

Motivation 2 (halbwegs kompatible) Syntax-Welten

Konstituenten

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Dependenz

41

Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden

(NGoogles SyntaxNet)

41 Syntaktische ProbenKonstituentenproben

Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt

Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

411 Weglassprobe

Weglassprobe

Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten

Bestimmung eines Satzglieds

1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

FrageWarum nicht Variante 4

42

412 Verschiebeprobe

Verschiebeprobe

Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen

Bestimmung von Satzgliedern

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen bereite ich die Sitzung mit dem Chef vor

3 Ich bereite die Sitzung mit dem Chef morgen vor

Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb

Verschiebeprobe

Unzulaumlssiges Verschieben

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen ich bereite die Sitzung mit dem Chef vor

3 Die Sitzung bereite ich morgen mit dem Chef vor

413 Umformungsproben

Umformungsprobe

Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut

Funktion von Nebensaumltzen

1 Es wuumlrde mich freuen wenn du mitkaumlmest

2 Dein Mitkommen wuumlrde mich freuen

Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo

Infinitivumformung zur Subjekterkennung

1 Die Laumlrche ist ein Nadelbaum

2 ein Nadelbaum sein die Laumlrche

43

Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]

42 SatzSatz

Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist

Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten

421 Satzglieder

Moderne Satzgliedlehre

422 Koumlpfe (oder Kerne) von Konstituenten

Syntaktische Koumlpfe (engl head) Kern (engl kernel)

Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar

Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)

1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]

2 Sie rennt [mit dem Mobile hantierend] zum Kiosk

3 Es wird [viel zu oft] telefoniert

44

4 [Die Frau die zum Kiosk rannte ] war aufgeregt

5 Sie fuumlhlte sich [wie in einem schlechten Film]

6 Aber sie war auch [in einem ziemlich schlechten Film]

43 Syntaxanalyse

431 Konstituenz

Konstituenten und Konstituenz

Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist

Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten

Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten

Konstituenten in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

unmittelbare Dominanz

Konstituente auf Wortebene

Syntaktische Konstituente

Praumlzedenz auf Wortebene

Praumlzedenz zwischen Tochterkonstituenten

Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung

Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente

Konstituententypen

Typen von Konstituenten in TIGERNEGRA

1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen

45

2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern

3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern

4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern

5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern

6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern

7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo

Annotation von Relativsaumltzen

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen

Komplexe Konstituenz in der Penn-Treebank

Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white

Syntaxbaum aus der Vogelperspektive

In

IN

other

JJ

words

NNS

like

IN

automation

NN

machines

NNS

designed

VBN

-NONE-

to

TO

work

VB

in

IN

tandem

NN

they

PRP

shared

VBD

the

DT

same

JJ

programming

NN

a

DT

mutual

JJ

understanding

NN

not

RB

only

RB

of

IN

English

NNP

words

NNS

but

CC

of

IN

the

DT

four

CD

stresses

NNS

pitches

NNS

and

CC

junctures

NNS

that

WP

T

-NONE-

can

MD

change

VB

their

PRP$

meaning

NN

from

IN

black

NN

to

TO

white

NN

NP

PP

NP NP NP

PP

VP

VP

SBJ

S

VP

NP

PP

NP NP NP CONJP NP

PP

NP WHNP NP NP NP

PP

NP

PP

PP

VP

VP

SBJ

S

SBAR

NP

PP

PP

NP

NP

VP

SBJ

S

T

46

Quelle TIGERSearch-Demo-Korpora

Maximale Verschachtelungstiefe

432 Dependenz bzw syntaktische Funktion

Dependenz und syntaktische Funktion

Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten

Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen

HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt

Syntaktische Funktionen in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Syntaktische Funktion

Konstituenten

Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung

Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente

Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken

Einige Satzglieder mit TIGER-Funktion

bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein

47

Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)

bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)

bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)

bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)

bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator

bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb

Baumbankkonversion Von Konstituenz zu Dependenz

Automatische Konversion (NTIGER2Dep)

Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)

433 UD-DE-Modell

Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen

48

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

Generelle Philosophie des Universal-Dependency-Modells

bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig

bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV

bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum

bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden

bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der

bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)

bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens

Inhaltswoumlrter VERB und NOUN

Hinweisebull Spitze des Pfeils Abhaumlngiges Element

bull Startknoten des Pfeils Kopf

bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen

bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird

Das UD-Innenleben von Nominalphrasen

Hinweisebull Was ist der NP-Kopf

bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll

49

Komplexe Verb- und Adjektivphrasen

Hinweise

bull Hilfs- und Modalverben haumlngen vom Vollverb ab

bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich

Kopulakonstruktion und Gleichsetzungsnominativ

Fragen

bull Wovon haumlngt das Subjekt ab

bull NSuche nach ist im Suchwerkzeug

bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft

Interpunktion

Hinweise

bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt

50

Verschachtelte Saumltze

Hinweise

bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab

bull Wann aclrelcl und wann advcl

Koordination

Koordination Koumlpfe und Abhaumlngigkeitsrichtung

Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht

Koordination von Konstituenten aus NEGRA-Korpus

bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]

bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]

bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]

2 Fragen mit mehreren moumlglichen Antworten

bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt

bull In welche Richtung werden koordinierte Elemente verknuumlpft

Koordination in der NUD

Frage

bull Welche Antworten gibt die UD

51

Manuelle Syntax-Annotation mit WebAnno

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)

bull Click-und-Drag-Interface mit der Maus

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml

Aufgabe Annotation von Relativsatz

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Wie sieht eine UD-Annotation von diesem Satz aus

434 Suche

NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken

Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-

Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens

2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)

KOPF gt NICHTKOPF

NICHTKOPF lt KOPF

Analog zur Pfeilrichtung in der BRAT-Visualisierung

52

Grundlegende syntaktische Suchrezepte

bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging

bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging

bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde

bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld

bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor

bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _

bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist

44 AmbiguitaumltZusammenfassung

bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen

bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden

bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab

bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])

45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]

bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre

bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren

bull Quiz Die Form der Satzglieder

bull Quiz Satzglieder und Proben

bull Linguistik-CD

53

Kapitel 5

Endliche Automaten

Lernziele

bull Einstieg in die Formalisierung von Sprache

bull Was sind Zeichenketten formalmathematisch

bull Was ist eine formale Sprache

bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation

bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten

bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie

bull Wann ist ein endlicher Automat deterministisch und wann nicht

bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten

54

51 Formale Sprachen

511 Mengen

A Quick Review of Set Theory

A set is a collection of objects

A B

D E

We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E

There is no significant order in a set so A D B E is the same set as E A D B etc

Quelle B04

Cardinality of Sets

 The Empty Set

 A Finite Set

 An Infinite Set eg The Set of all Positive Integers

Norway Denmark Sweden

Quelle B04

512 Zeichen

Das Alphabet (Sigma) Menge von Zeichen

55

Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert

Zeichen des EnglischenΣEnglisch = a b c x y z

Zeichen der binaumlren ZahlenΣbin = 0 1

Zeichenketten (strings)

Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ

Zeichenketten uumlber englischen Symbolen ΣEnglisch

a we muntjac talk walk krwrk

Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0

Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast

bin = ε 0 1 00 01 10 11 001

513 Sprachen

Formal Languages

Very Important Concept in Formal Language Theory

A Language is just a Set of Words

bull  We use the terms ldquowordrdquo and ldquostringrdquo interchangeably

bull  A Language can be empty have finite cardinality or be infinite in size

bull  You can union intersect and subtract languages just like any other sets

56

Quelle B04

Union of Languages (Sets)

dog cat rat elephant mouse

Language 1 Language 2

dog cat rat

elephant mouse

Union of Language 1 and Language 2 Quelle B04

Formale Sprachen als Teilmenge von Sigma Stern

L sube Σlowast

Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast

Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes

Englische Woumlrterwalk talk work sube a b zlowast

Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt

Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit

Formales Modell Wirklichkeit

Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme

57

Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der

Wirklichkeit zu repraumlsentieren

Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working

worked works talk

talking talked talks

walk walking

walked walks

The concatenation of

the Suffix language

after the Root

language

0 or denotes the empty string

Abbildung 51 Sprache mit 3 WoumlrternZeichenketten

Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk

Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage

Beispiel fuumlr Deterministischen Endlichen Automaten

talk isin work talk walk

bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile

52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)

Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand

58

Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert

Nicht-Deterministische Endliche Automaten (NEA)

Abbildung 52 Deterministischer EA

Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg

Nicht-Determinismus IIEs gibt mindestens eine ε-Kante

Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln

Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus

1 einer endlichen Menge Zustaumlnde Φ

2 einem endlichen Eingabealphabet Σ

3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ

59

4 einem Startzustand S isin Φ

5 einer Menge von Endzustaumlnden F sube Φ

Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)

δ Φtimes (Σ cup ε)rarr weierp(Φ)

521 Konkatenation

Konkatenation von Zeichenketten und Sprachen

Konkatenation von Zeichenkettenu bull v = uv

lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo

Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V

lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo

Concatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working worked works talk talking talked talks walk walking walked walks

The concatenation of the Suffix language after the Root language

0 or ε denotes the empty string

60

Quelle B04

Concatenation of Languages II

work talk walk

Root Language

0 ing ed s

Suffix Language

rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks

The concatenation of the Prefix language Root language and the Suffix language

Prefix Language

re out 0

outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks

work working worked works talk talking talked talks walk walking walked walks

Quelle B04

Languages and Networks

w a l k

o r

t

NetworkLanguage 2 NetworkLanguage 3

s

o r The concatenation of Networks 1 2 and 3 in that order

w a l k t

a

a s

ed

i n g

0

s

ed

i n

0s

g o

r

NetworkLanguage 1

s

u t

e

0

o

r s

t

e

0 u

Quelle B04

522 Regulaumlre Ausdruumlcke

Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)

Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann

61

bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo

bull Die Mengen a1a2an sind regulaumlr RA a oder b

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)

bull Ist L regulaumlr dann auch LlowastRA (A)

Wie kann man Optionalitaumlt ausdruumlcken

Graphischer Algorithmus Konversion von RA zu NEA

JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten

Algorithmus

1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde

2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten

3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander

4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen

Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten

Epsilon

Symbol a

Konkatenation (ab)

Alternative (a|b)

62

encodes

a

LANGUAGE RELATION

compiles intoa

REGULAR EXPRESSIONa

FINITE-STATE NETWORKde

notes

Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])

Wiederholung (a)

Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert

63

53 Transduktoren

Linguistic Transducer Machines

mesas

Generator

ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas

m e s a +Noun +Fem +Pl

m e s a 0 0 s

mesa+Noun+Fem+Pl

Analyzer

ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas

Quelle B04

Gute Eigenschaften von endlichen Automaten und Transduktoren

bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen

bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde

bull Beispiel NRumantsch Grischun

bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren

Zusammenfassung

bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben

bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen

bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den

bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt

bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden

64

Vertiefung

bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)

bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo

bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo

bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial

65

Kapitel 6

Flache Satzverarbeitung

Lernziele

bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets

bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung

bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen

bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells

bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger

bull Kenntnis uumlber partielle syntaktische Analyse

bull Kenntnis uumlber flache und verschachtelte Chunks

Welches mehrdeutige Wort hat dieses Profil

UPOS-Tag Vorkommen1

1021ADP 848ADV 61

PROPN 14ADJ 1

61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT

N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token

66

Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)

bull eineDET Kuh Lemma ldquoeinrdquo

bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)

bull lead Verb lid (fuumlhren) Nomen led (Blei)

bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe

Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren

Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to

be present tense 3rd person singular

Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch

Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist

Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]

bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)

bull Effizient Der Tagger arbeitet schnell

bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)

bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den

bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden

Was fehlt

67

611 Probleme des Taggings

Wortformen mit mehreren moumlglichen Tags

MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token

Tag-Ambiguitaumlt im Englischen

Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]

Haumlufigkeiten im Brown-Korpus

bill NN 2351

promised VBD 34~~VBN 10~~JJ 2

back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2

Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token

die~~ART 2351~~PRELS 448~~PDS 4

Mehrheit~~NN 40

bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1

Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0

Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen

bull Unterscheidung zwischen offenen und geschlossenen Wortarten

bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)

68

Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]

Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)

bull 98 aller Woumlrter mit Endung -able sind Adjektive

bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname

Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe

oo

n

e

g

n

d

senuel

l

cv

y ta

o

mtsiii

o

i

ies (NNS09 VBZ01)ons (NNS095 VBZ005)

ed (VBN04 JJ03 VBD03)

le (NN025 JJ045 NP02 VB01)

ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)

ty (NN045 JJ035 NP02)

son (NP08 NN01 JJ01)

man (NP08 NN02)ton (NP09 NN005 JJ005)

ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)

ous (JJ096 NN004)

old (JJ098 NN002)

Quelle [Schmid 1995]

Wortformen mit mehreren moumlglichen Tags Kontext

69

Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6

Vorkommen von ldquobackrdquo im Brown-Korpus

ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung

Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen

Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet

bull die moumlglichen Tags von wn aus Tagger-Lexikon

bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens

Context

3

3

Kontextmodell des Trigrammtaggers TnT [Brants 2000]

612 Fallstudie TnT-Tagger

Supervisiertes Maschinelles Lernen

70

Quelle [Raschka 2015 11]

ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt

Fallstudie TnT-Tagger trainieren und evaluieren

Testkorpustestttstesttxt

Trainingskorpustrainingtts

Getaggtes Korpus

Aufteilen des Korpus

Taggingtnt

Trainingtnt-para

Parameter-Dateien

traininglextraining123

Evaluations-korpus

evaltts

Evaluationtnt-diff

Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger

Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]

1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)

$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts

2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden

$ head --lines 278081 ud-de-v13tts gt trainingtts

3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden

$ tail --lines 30900 ud-de-v13tts gt testtts

71

4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus

$ tnt-para trainingtts

5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut

$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts

6 Man erstelle das Evaluationskorpus

$ cut -f 1 testtts gt evaltxt

7 Man tagge das Evaluationskorpus mit dem Trainingsmodell

$ tnt training evaltxt gt evaltts

8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus

$ tnt-diff testtts evaltts

62 EvaluationEvaluation

Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode

Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt

Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird

Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind

Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden

Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)

Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat

72

Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein

621 Zweck

Zweck von Evaluationen

SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert

SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist

622 Accuracy

POS-Tagger-Evaluation Genauigkeit

Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens

accuracy = N minus EN

Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit

Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus

Tagt Freqt Tagf Freqf Ant Erel Eabs

NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010

Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]

Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler

73

5-fache Kreuzvalidierung visuell

Figure 8-2 K-fold cross-validation

Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point

You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order

gtgtgt import randomgtgtgt randomshuffle(f)

If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold

gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k

Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on

Problems That Can Affect Evaluation | 179

Quelle [Pustejovsky und Stubbs 2013 179]

Genauigkeit unter 10-facher Kreuzvalidierung

Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))

accuracy =sumi=10

i=1 accuracyi

10

Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen

623 Lernkurven

624 Recall

Recall (Ausbeute Abdeckung Vollstaumlndigkeit)

Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems

R = At

Nt

Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600

800 = 75

74

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp())+-01$+-0-2)00-))304

56)77

8010

904010

6+789lt

6-=7gt8lt

6+7gtlt

6-=7gt8lt

6+7lt

6-=79lt

2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J

-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J

)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)

Qampamp)(ampI0(EI(K3amp)-++5

8

9

gt

R9 9 S gt9 8 RR gtS

$-++5NF=J

TM5ltU+B+ampE+

TM5T00I-0L

SSR

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

6)6lt$$)amp$+)=$gt=((+

Q-M-44amp-0C

5-66ampK1F3()ampKVWWJ

6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(

Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp

)-)amp3)T)C

$5-66ampK1F(0amp+KampKVWWJ

6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+

U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+

TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+

+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt

QZ]T F6-+JgtRlt gt8lt [RSlt

Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants

625 Precision

Precision (Genauigkeit Praumlzision)

Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems

P = At

A

Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600

1000 = 60

626 F-Measure

F-Measure (F-Mass)

Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems

F = 2times P timesRP +R

75

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp()

67-18-)amp+8(+5)9amp0amp4amp-

6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F

2++$G-+AH-11))Iamp8+-1

J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+

$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5

amp+)-5)amp-0)ampA+

$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()

$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5

+amp(-012344)425amp123)3627892(+lt

=+$$

gt)(5)

))(5)

D+QRSTU

D-EQVWTRU

D+QVXTRU

D-EQVRTRU

D+QWTYU

D-EQSVTMU

6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F

-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F

M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)

ampamp)(amp80(98(B3amp)-++5T

Y X M YM XM MM YMM YMXM

WM

RM

SM

VM

MM

$-++5OCEMMMF

gt75TU[+A+amp9+

gt75Tgt008-0N

PWTP PTP WTM MTR YTM ST PT TVXMTS

C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants

Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075

06+075 = 666

63 Chunk ParsingPartielle syntaktische Analyse

Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt

Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN

bull NC Ein NC (Nominalchunk) besteht

bull -gt besteht aus

bull ART aus einem Wort der Wortart ART (Artikel)

bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)

76

Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

631 Abneys Chunk-Definition

Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]

Motivationen

bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung

bull Effizienz Teilstrukturen lassen sich effizienter berechnen

bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse

bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden

632 IOB-Chunk

Flache Chunks im IOB-Format

Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist

bull B-K Anfang einer Chunk-Konstituente K

bull I-K Fortsetzung der Chunk-Konstituente K

77

bull 0 Nicht zugeordnet (wird auch chink genannt)

We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP

633 Verschachtelte Chunks

Verschachtelte Chunks

Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich

Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)

[PX [APPR fuumlr][NX [ARTIND eine]

[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]

Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC

64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo

bull Pflichtlektuumlre [Carstensen et al 2009 342-3]

bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking

bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative

bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4

78

ZusammenfassungZusammenfassung

bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung

bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets

bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input

Kontrollfragen

bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen

bull Was unterscheidet Recall und Precision von Accuracy

bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging

bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte

bull Was ist der Vorteil der IOB-Notation fuumlr Chunks

65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele

bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative

bull Kenntnis uumlber Fehlertypen und ihre Gefahr

bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung

651 TrueFalse PositivesNegatives

Evaluation von binaumlren Klassifikatoren

TruthPositive Negative

Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)

Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit

Legende zur Tabelle 63

True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

79

FP Fehlertyp I Test ist positiv wo er nicht sollte

FN Fehlertyp II Test ist negativ wo er nicht sollte

652 Fehlerparadoxe

Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet

Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter

Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet

Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter

653 Unterschiede von Evaluationsmassen

Dualitaumlt von Precision und Recall

TruthPos Neg

Test Pos TP FPNeg FN TN

R = TP

TP + FN

Tabelle 64 Recall

Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision

F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig

80

TruthPos Neg

Test Pos TP FPNeg FN TN

P = TP

TP + FP

Tabelle 65 Precision

TruthPos Neg

Test Pos TP FPNeg FN TN

F = 2times TP2times TP + FP + FN

Tabelle 66 F1-Measure

TruthPos Neg

Test Pos TP FPNeg FN TN

Accuracy = TP + TN

TP + TN + FP + FN

Tabelle 67 Accuracy

654 Mitteln von Recall und Precision

F-Measure Harmonisches vs arithmetisches Mittel

655 Vertiefung

bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]

81

Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]

82

Abbildung 68 M = P +R2 Arithmetisches Mittel

83

Literaturverzeichnis

[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235

[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications

[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University

[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231

[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl

[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen

[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf

[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt

[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf

[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl

[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov

[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl

84

[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf

[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf

[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830

[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485

[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM

[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011

[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl

[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York

[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096

[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA

[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning

[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf

[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin

[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml

85

[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098

[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps

[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd

[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf

[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf

[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf

[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean

[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574

86

Index

10-fache Kreuzvalidierung 74

Adjektiv-Flexion 34Alphabet 56

Eingabealphabet 59

DEA 59Dependenz 47

Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72

F-Measure 75

Genus 32Grad 34

IOB-Chunks 77

Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44

Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25

Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39

Named Entity Regonition 19NER 19

Numerus 33 34

partielle syntaktische 76Person 34Precision 75Probe linguistisch 35

Qualitaumlt einer Evaluation 72

Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72

Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47

Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24

Umformungsprobe 43

Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43

Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24

XML-Standard 14

Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59

87

  • Organisatorisches
    • Organisatorisches
      • Leistungsnachweis
      • Lernen und Lehren
        • Kontrollfragen
          • Tokenisierung
            • Tokenisierer
              • Grundproblem
              • Kodierung
              • Programme
                • XML
                • Tokenisierung
                  • Problem
                  • Punktdisambiguierung
                  • Normalisierung
                  • NER
                    • Multilingualitaumlt
                    • Vertiefung
                      • Linguistisches Propaumldeutikum I
                        • Wort
                          • Token
                          • Wortform
                          • synt Wort
                          • Lexem
                            • Wortarten
                              • 5 Hauptwortarten
                              • UD
                              • STTSPTTS
                                • Merkmale
                                  • Genus
                                  • Zahl
                                  • Kasus
                                  • Modus
                                  • Zeit
                                  • Person
                                  • Grad
                                  • Flexion
                                    • Proben
                                      • Ersetzen
                                      • Einsetzen
                                        • Morphologie
                                          • LemmatisierungMorphologieanalyse
                                          • Morphologiegenerierung
                                            • Vertiefung
                                              • Linguistisches Propaumldeutikum II
                                                • Proben
                                                  • Weglassen
                                                  • Verschieben
                                                  • Umformen
                                                    • Satz
                                                      • Satzglieder
                                                      • Koumlpfe
                                                        • Syntaxanalyse
                                                          • Konstituenz
                                                          • Dependenz
                                                          • UD-DE
                                                          • Suche
                                                            • Ambiguitaumlt
                                                            • Vertiefung
                                                              • Endliche Automaten
                                                                • Formale Sprachen
                                                                  • Mengen
                                                                  • Zeichen
                                                                  • Sprachen
                                                                    • EA und regulaumlre Sprachen
                                                                      • Konkatenation
                                                                      • Regulaumlre Ausdruumlcke
                                                                        • Transduktoren
                                                                          • Flache Satzverarbeitung
                                                                            • Tagging
                                                                              • Probleme
                                                                              • Fallstudie TnT-Tagger
                                                                                • Evaluation
                                                                                  • Zweck
                                                                                  • Accuracy
                                                                                  • Lernkurven
                                                                                  • Recall
                                                                                  • Precision
                                                                                  • F-Measure
                                                                                    • Chunking
                                                                                      • Abney
                                                                                      • IOB-Chunk
                                                                                      • Verschachtelte Chunks
                                                                                        • Vertiefung
                                                                                        • Exkurs Evaluation binaumlrer Klassifikatoren
                                                                                          • TPFPFNTN
                                                                                          • Fehlerparadoxe
                                                                                          • Unterschiede
                                                                                          • Mittelwerte
                                                                                          • Vertiefung
Page 8: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff

Anforderungen und Ruumlckmeldungen

bull Nutzen Sie die Uumlbungsstunden

bull Fragen Sie bei den Mitstudierenden nach (OLAT-Forum)

bull Wenden Sie sich an die Uumlbungsverantwortlichen

bull Geben Sie den Dozierenden Ruumlckmeldungen zu Unklarheiten und Problemen im KursDirekt nach der Stunde oder via Mail Wir machen diese Veranstaltung nur fuumlr Sie

Hochrechnung zum Workload fuumlr 6 ECTS-Punkte

ldquoBei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand beruumlck-sichtigt der fuumlr das Erreichen einer genuumlgenden Pruumlfungsleistung erforderlich istrdquo (sect14Abs 2)

ldquoEin ECTS-Punkt entspricht einer Studienleistung von 30 Stundenrdquo (sect13 Abs 2)

[Universitaumltsrat 2004]

bull Praumlsenz in Vorlesung Uumlbungsstunde und schriftlicher Pruumlfung

2times 15times 2h = 60h

bull Zeit pro Woche fuumlr (Pflicht-)Lektuumlre Loumlsen der schriftlichen Uumlbungen und Pruumlfungsvor-bereitung

180hminus 60h15 = 8h

12 KontrollfragenKontrollfragen

bull Welche Buchungsfristen fuumlr Sie relevant Bis wann koumlnnen Sie sich noch einschreibenbzw das Modul stornieren

bull Wie viele SU muumlssen Sie bestehen damit eine 45 in der schriftlichen Pruumlfung noch aufeine 5 aufgerundet wird

bull Wieso sollten Sie die Uumlbungsstunde besuchen

bull Welche Hauptthemen werden in dieser Vorlesung besprochen

7

Kapitel 2

Tokenisierung Automatische Satz-und Wortsegmentierung

Lernziele

bull Kenntnis uumlber die Kodierung sprachlicher Zeichen

bull Kenntnis uumlber den Zweck und die Probleme der textuellen Vorverarbeitung von natuumlrlicherSprache Text-Segmentierung und Text-Normalisierung

bull Kenntnis uumlber XML zur Repraumlsentation von Text und Segmentstruktur

bull Kenntnis uumlber Methoden der Punktdisambiguierung und Satzendeerkennung

bull Kenntnis uumlber Textnormalisierung und Erkennung von interessierenden Groumlssen (NamedEntity Recognition)

bull Kenntnis und Umgang mit regulaumlren Ausdruumlcken

21 Tokenisierer

211 Grundproblem

Woumlrter aus linguistischer Sicht

Definition 211 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprach-lich verwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftli-che Definitionsversuche uneinheitlich und kontrovers sind

Was ist ein Wort

1 ZB nahm sie am Text Mining Workshop teil

2 Das gibtrsquos doch nicht ldquoJooprdquo ist pleite

3 Blick Online verlost zum Film-Start das laquoIch bin Boratraquo-Kit

Wort-Segmentierung in nicht-segmentierten Schreibsystemen

8

Abbildung 21 Navigationselemente der Web-Site der Olympischen Spiele 2008

Rohtexte aus Computersicht Welt der Bytes

$ hexdump dateitxt0000000 57 61 73 20 62 65 69 6e 68 61 6c 74 65 74 20 730000010 69 65 3f 0a0000014

(Der Dateiinhalt ist als Dump1 im Hexadezimalformat wiedergegeben dh jedes Zeichen inForm seines Zeichenkodes als Hexadezimalzahl)Beispiel 212 (Folge von Zeichenkodes in Hexadezimalnotation)Wie viele und welche Woumlrter enthaumllt der folgende Datei-Inhalt57 61 73 20 62 65 69 6E 68 61 6C 74 65 74 20 73 69 65 3F 0A

212 Zeichenkodierung

Was ist ein Zeichen auf dem Computer

bull Traditionell ein Byte dh eine Folge von 8 BitsWas ist ein Bit Binaumlre Entscheidung (0 oder 1)

bull Ein Byte kann als Zahl interpretiert werden indem die Position eines Bits als Stelle imBinaumlrsystem aufgefasst wird 0100rsquo0001

bull Eine Zahl kann als BuchstabeZeichen interpretiert werden indem eine Kodierungskon-vention aufgestellt wird ZB rsquoArsquo=65 rsquorsquo=64 rsquo1rsquo=49

bull Verbreitete Kodierungskonventionen (engl charset) ASCII (128 Zeichen fuumlr Englisch)iso-latin-1 (256 Zeichen fuumlr westeuropaumlische Sprachen)

bull Typische Speicherung bei ASCII und iso-latin-1 1 Zeichen = 1 Byte

Binaumlres und Hexadezimales Stellensystem

1 Byte als binaumlre Zahlen (= 8 Bits)

__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8

__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8

Jedes Kaumlstchen = 1 Bit

4-stellige hexadezimale Zahl (= 4 Bytes)1Zum Beispiel mit dem Befehl $ hexdump dateitxt

9

__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8

__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8

Jedes Kaumlstchen = 1 Byte

Die 128 ASCII-Kodes

Die 128rsquo172 Unicode-Kodes

Moderne universale Kodierungskonvention httpwwwunicodeorgUNICODE(ISOIEC 10646) Version 90 Kodes fuumlr 128rsquo172 Zeichen in fast allen Schriftsystemender WelthttpwwwunicodeorgstandardWhatIsUnicodehtml

GRINNING FACE

bull Kode 128512 (Hexadezimal 1F600)

bull UTF-8 Byte-Repraumlsentation F0 9F 98 80

bull~ In UTF-8 sind nur Unicode-Kodes von ASCII-Zeichen direkt in ihrer Binaumlrzahl-Repraumlsentationgespeichert

10

Was ist ein Zeichen auf dem Computer UTF-8-Format

bull Speicherung bei UNICODE UTF (Abk fuumlr Unicode Transformation Format) beschreibtMethoden einen Unicode-Kode auf eine Folge von Bytes abzubilden

bull UTF-8 (Abk fuumlr 8-bit Universal Character Set Transformation Format) Ordnet jedemUnicode-Zeichen eine speziell kodierte Bytefolge von variabler Laumlnge zu UTF-8 unter-stuumltzt bis zu 4 Byte pro Zeichen

bull Dateiformat XML-Dateien sind defaultmaumlssig UTF-8 kodiert Bei andern Dateien mussman es wissen

bull Jede ASCII-Datei ist auch eine UTF-8-Datei (Ruumlckwaumlrtskompatibilitaumlt)

bull Darstellung Zeichensaumltze (engl fonts) enthalten die graphischen Formen (glyphs) damitdas Betriebssystem die Kodes fuumlrs Auge darstellen kann

bull Konversionswerkzeuge ZB GNU-Kommandozeilentool iconv

Textkonversion mit iconv

Verlustfreie Textkonversion nach UTF-8

$ iconv -f EXOTISCHEKODIERUNG -t UTF-8 lt INPUT gt OUTPUT

Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen laumlsst sich auch Text-Normalisierung durch ldquoTransliterationrdquo2 durchfuumlhren

$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIITRANSLITKlosschen

Das Loumlschen von nicht-repraumlsentierbaren Zeichen ist meist weniger nuumltzlich

$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIIIGNOREKlchen

213 Programme

Grundproblem Vom Zeichenstrom zur Folge von Tokens

RohdatenRohe elektronische Sprachdaten liegen in Dateien vor welche nichts anderes als eine Folge vonkodierten Einzelzeichen dh ein kontinuierlicher Zeichenstrom sind

Token Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung Wortkorrektur morphologische Analyse Lexikonzugriff syn-taktische Analyse

Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)

2~ Das Ergebnis kann von Landeseinstellungen (locale) abhaumlngig sein

11

bull Konsumieren der Zeichenfolge (Eingabe)

bull Gruppieren und allenfalls normalisierenmodifizieren der Zeichen (Verarbeitung)

bull Produzieren einer Folge von Tokens (Ausgabe)

Typische Beispiele fuumlr Tokenisierer Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text dh 1 Token pro Zeile Saumltzesind durch Leerzeilen voneinander abgetrennt

Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhaumlngiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkuumlrzungsdatei(ger-abbrev)

$ cat filetxtBachrsquosche Musikmag Dr Fritz Ja

$ cat ger-abbrevDrusw

$ utf8-tokenizeperl -a ger-abbrev filetxtBachrsquoscheMusikmagDrFritz

Ja

Typische Beispiele fuumlr Tokenisierer Regulaumlre AusdruumlckeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PythonPERL oder Finite-State Tools welche einen einfachen Umgang mit regulaumlren Ausdruumlcken er-lauben

Definition 213 (Regulaumlre Ausdruumlcke (engl regular expressions)) Ein regulaumlrer Ausdruck isteine relativ standardisierte Kurz-Notation um Zeichenketten mit bestimmten Eigenschaften zubeschreibenPraktisch eingesetzt werden sie fuumlr die nicht-woumlrtliche Suche (engl pattern matching) Suchen-und-Ersetzen und Segmentieren von Zeichenketten

Einfuumlhrung in regulaumlre AusdruumlckeZB in unserem CLab httpwwwcluzhchclabregex

12

Tokenisierer in der ProgrammiersprachePython

Tokenisierer mit regulaumlren Ausdruumlcken

bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben

bull Einfach anpassbar auf die Textsorte

bull Fuumlr uumlberschaubare Textmengen empfohlen

bull Vorteil Machen dieselben Fehler konsequent

bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung

Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])

1 Rohtext

This is an example There are two sentences

2 XML-Input fuumlr Tokenisierer (Vortokenisierung)

ltdocumentgtlttextgt

ltpgtThis is an example There are two sentences

ltpgtlttextgt

ltdocumentgt

3 XML-Tokenisat

ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt

13

ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt

Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert

Verschachtelung im XML-Stil

ltdocumentgtlttextgt

ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example

ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences

Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags

22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation

bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs

bull httpstubeswitchchvideos60fc01f1

XML (eXtensible Markup Language)

Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann

14

XML in der Texttechnologie

bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)

bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten

bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben

Aufbau von XML-Dokumenten

Elemente und ihre Attribute

bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt

bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)

bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt

bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt

bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt

bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt

Zeichenreferenzen und Entity-Referenzen

Entitaumlten und Referenzen

bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden

bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal

bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den

Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38

Newline amp9Σ ampx3a3

15

23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen

231 Problem

Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt

bull Wort-Zeichen [a-zA-Z0-9]

bull Einzel-Zeichen [)(rsquo$-]

bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]

ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo

Schwierigkeiten der Wortsegmentierung im engen Sinn

Schwierige Zeichen

bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim

bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr

bull Bindestriche semble-t-il rarr semble + -t-il

bull Punkte SAC

bull Masseinheiten 30 rarr 30 + 28 rarr 28 +

bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que

Teilprobleme der Tokenisierung im weiten Sinn

bull Umgang mit Markup (HTML-Tags Formatierungszeichen)

bull Erkennung der ldquonormalenrdquo Tokengrenzen

bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)

bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)

bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)

bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)

16

232 Punktdisambiguierung

Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben

Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert

Verschmelzung

bull It was due Friday by 5 pm Saturday would be too late

bull Ich kenne die USA Frankreich kenne ich nicht

WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig

Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls

bull das Token in einer Abkuumlrzungsliste steht

bull nach dem Token eines der Zeichen aus [a-z] folgt

bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht

bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt

Nach [Grefenstette und Tapanainen 1994]

LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen

Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen

Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN

1 Wie viele Zeichen umfasst TOKEN

2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale

3 Wie oft kommt TOKEN ohne Punkt vor

4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor

5 Wie oft kommt NEXTTOKEN kleingeschrieben vor

17

Satzsegmentierung mit maschinellen Lernverfahren

bull Fuumlr grosse Textmengen empfohlen

bull Nachteil Unsystematische Fehler koumlnnen auftreten

Statistisches System PUNKT ([Kiss und Strunk 2006])

bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten

bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt

iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte

233 Zeichen- und Token-Normalisierung

Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen

Normalisierung bei Suchmaschinen und anderen Anwendungen

bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich

bull 4897 4-8-97 4897 8497

bull 19000 19rsquo000 19 000 19000

bull Louisa Luise Louise Luisa

bull doesnrsquot does not

Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)

bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt

bull Hollaumlndisch chocola-tje rarr chocolaatje

Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen

18

Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung

Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens

615 5 Ruumlckbau in neue Tokens

Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus

Ruumlckgaumlngig machen von Worttrennung am Zeilenende

Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens

Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch

234 Named Entity Recognition

Named Entity Recognition

Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen

Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen

Kanonische Formen und Entity Linking

bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo

bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo

Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3

Demo Time Expression Recognition (TIMEX task)

24 MultilingualitaumltMultilinguale Dokumente und Systeme

Herausforderung Multilingualitaumlt

bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess

19

Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular

Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML

bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig

bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut

bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet

bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut

Ansatz von [Cavnar und Trenkle 1994]

20

1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten

2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)

3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil

4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm

5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand

N-Gramm-Profile und Profilabstand

Quelle [Cavnar und Trenkle 1994]

Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]

25 VertiefungZum Thema ldquoTokenisierungrdquo

bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28

bull Pflichtlektuumlre [Carstensen et al 2009 341]

bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]

Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)

bull httpwwwcluzhchclabregex

Zum Thema ldquoXMLrdquo

21

bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1

bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]

Zusammenfassung

bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen

bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen

bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen

bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung

bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar

bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen

bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden

Kontrollfragen

bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention

bull Welche Probleme stellen sich bei der Tokenisierung

bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung

bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten

bull Was versteht man unter NER

bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle

22

Kapitel 3

Linguistisches Propaumldeutikum I

Lernziele

bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen

bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg

bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch

bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte

bull Kenntnis und Anwendung linguistischer Proben

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten

bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung

31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs

Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind

Praumlzisierungsversuche des Wort-Begriffs

bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment

bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit

bull Morphologisch Grundeinheit welche flektierbar ist

bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist

bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes

23

Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach

Antworten 4 5 6 9 __

311 Token

Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9

Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText

BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann

312 Wortform

Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes

Identische Wortformen mit unterschiedlicher Bedeutung

bull Die Fliege war tot

bull Er trug eine samtene Fliege

bull Fliege nicht so schnell

313 Syntaktisches Wort

Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6

Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst

Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural

24

314 Lexem

Antwort 5 Wort als Lexem

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden

Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem

Lexikographische Notationskonventionen

Wie sehen Verb-Lemma in DeutschenLatein aus

Antwort 4 Wort als Lexemverband

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4

Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert

Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln

Stufen der Abstraktion Vom Text zum Lexemverband

bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)

bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)

bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen

bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden

bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird

25

32 Lehre von den WortartenWortarten nach [Bussmann 2002]

Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien

Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb

5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det

321 5 Hauptwortarten nach Glinz

Klassifikationskriterien

Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]

Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

26

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

322 UD

Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)

Universal Part-of-Speech Tagset (Version 1)1

12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish

ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo

Universal Part-of-Speech Tagset (Version 2) UPOS2

Version 2 hat 17 POS-Tags

+ Eigennamen (PROPN) (vorher NOUN)

+ Hilfsverben (AUX) (vorher VERB)

+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)

+ Symbole (SYM) (vorher X)

+ Interjektionen (INTJ) (vorher PRT)

= Partikel (PART) (vorher PRT)

= Interpunktion (PUNCT) (vorher )

Baumbanken sind fuumlr 51 Sprachen verfuumlgbar

27

Abbildung 32 Deutsche UD-Baumbank

UD V13 fuumlr Deutsch

NDurchsuchen

bull Suche nach Wort spaumlter

bull Nach Wort+Wortart spaumlterampADV

UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml

Mehrdeutigkeiten Unklarheiten Fehlannotationen

Linguistische Annotation und Automatisierung

Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form

Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml

28

bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)

bull Vollautomatisch Schnell billig fehlerbehaftet

bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile

Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml

N CoNLL-Format Spaltenformat fuumlr Annotationen3

bull Vertikalisierter Text

bull 1 Token pro Zeile

bull Saumltze mit Leerzeile getrennt

bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation

bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet

Bedeutung relevanter Spalten

1 Tokennummer (1-basierte Zaumlhlung) pro Satz

2 Wortform (Token)

3 Lemma

4 Grobe Wortklasse (coarse-grained part-of-speech tag)

5 Feine Wortklasse (fine-grained part-of-speech tag)

6 Morphosyntaktische Merkmale

7 Syntaktischer Kopf als Tokennummer

8 Dependenztyp

CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo

Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token

3httpuniversaldependenciesorgformathtml

29

Abbildung 33 CoNLL-U und CoNLL-X

Manuelle Annotation mit WebAnno und Exportformate

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

323 Feine Tagsets

Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis

bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags

bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert

bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch

bull Alternativen Muumlnsteraner Tagset [Steiner 2003]

Wieso ist das STTS wichtig

bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)

ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel

bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo

30

Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts

Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken

33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale

Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden

Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems

bull Konjugation von Verben

bull Deklination von Nomen Adjektiven Artikeln und Pronomen

bull Steigerung von Adjektiven (und wenigen Adverbien)

Diskussion Sind steigerbare Adverbien ein Widerspruch im System

Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet

31

Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts

Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn

331 Genus

Das Genus (UD Gender) Grammatisches Geschlecht

Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien

Tabelle 31 Uumlbersicht Genera

BemerkungDer Plural von Genus lautet Genera

Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt

Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen

Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind

Deutsch

32

Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur

AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas

332 Numerus

Der Numerus (UD Number) Grammatische Zahl

Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner

Tabelle 32 Uumlbersicht Numeri

BemerkungDer Plural von Numerus lautet Numeri

Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt

333 Kasus

Der Kasus (UD Case) FallUD-Kategorie Case

Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum

Tabelle 33 Uumlbersicht Kasus

BemerkungDer Plural von Kasus lautet Kasus

334 Modus

Der Modus (engl mode mood UD Mood) Aussageweise

Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh

Tabelle 34 Uumlbersicht Modi

In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi

33

335 Tempus

Das Tempus (UD Tense) grammatische Zeit Zeitform

Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging

Tabelle 35 Uumlbersicht Tempora

BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten

336 Person

Die Person (UD Person)

Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht

Tabelle 36 Uumlbersicht Personen

BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt

337 Grad

Der Grad (UD Degree) Steigerung Komparation

Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste

Tabelle 37 Uumlbersicht Komparation

BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt

338 Adjektiv-Flexion

Die Adjektiv-Flexion (engl adjective inflection)

BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven

Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet

34

Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse

Tabelle 38 Uumlbersicht Adjektiv-Flexion

Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern

UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt

Morphologische Englische UD-Annotation

1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _

34 Linguistische ProbenLinguistische Testverfahren

Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen

341 Ersatzprobe

Ersatzprobe

Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben

35

Beispiel 343 (Bestimmung des Kasus)

Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat

Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen

Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)

bull Das ist das Angebot das uns uumlberzeugt hat

bull Dieses ist das Angebot welches uns uumlberzeugt hat

bull Welches ist das Angebot dieses uns uumlberzeugt hat

bull Das ist dieses Angebot welches uns uumlberzeugt hat

Probleme der Interpretation

bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes

bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig

342 Einsetzprobe

Einsetzprobe

Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert

Beispiel 345 (Bestimmung der Wortart)

Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb

Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive

35 MorphologieMorphologische Ebene

Womit befasst sich die Morphologie Wortstruktur und Wortbildung

bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e

36

bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit

bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system

351 LemmatisierungMorphologieanalyse

Lemmatisierung und Morphologieanalyse

Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen

Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma

Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo

Analysen von GERTWOL5

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Probleme morphologischer Analysen Mehrdeutigkeit

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM

Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol

37

bull ldquoeinerdquo als

bull ldquoMuumlllerrdquo als Eigenname oder Substantiv

Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus

Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1

Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile

Probleme morphologischer Analyse

googelte

UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter

Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM

ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat

Lieblingsbeerelieb~lingsbeere S FEM SG NOM

Erdbeereerdbeere S FEM SG NOM

Fingerbeerenfingerbeere S FEM PL NOM

UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung

38

Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas

Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]

Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent

352 Morphologiegenerierung

Generierung von syntaktischen Wortformen

Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation

Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|

Person=2|Tense=Past|VerbForm=Fingingst

backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin

36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT

bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem

bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6

bull Die Website universaldependenciesorg hat einige Dokumentation

Zusammenfassung

bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet

bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte

bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme

bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen

6httpwwwdsuzhchstudien-cd

39

Kontrollfragen

bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo

bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2

bull Worin besteht Morphologieanalyse und -generierung

bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller

bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt

bull Was ist der Unterschied zwischen Lemma und Lexem

40

Kapitel 4

Linguistisches Propaumldeutikum II

Lernziele

bull Anwendung der klassischen syntaktischen Proben

bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf

bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte

bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen

bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug

Motivation 2 (halbwegs kompatible) Syntax-Welten

Konstituenten

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Dependenz

41

Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden

(NGoogles SyntaxNet)

41 Syntaktische ProbenKonstituentenproben

Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt

Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

411 Weglassprobe

Weglassprobe

Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten

Bestimmung eines Satzglieds

1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

FrageWarum nicht Variante 4

42

412 Verschiebeprobe

Verschiebeprobe

Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen

Bestimmung von Satzgliedern

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen bereite ich die Sitzung mit dem Chef vor

3 Ich bereite die Sitzung mit dem Chef morgen vor

Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb

Verschiebeprobe

Unzulaumlssiges Verschieben

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen ich bereite die Sitzung mit dem Chef vor

3 Die Sitzung bereite ich morgen mit dem Chef vor

413 Umformungsproben

Umformungsprobe

Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut

Funktion von Nebensaumltzen

1 Es wuumlrde mich freuen wenn du mitkaumlmest

2 Dein Mitkommen wuumlrde mich freuen

Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo

Infinitivumformung zur Subjekterkennung

1 Die Laumlrche ist ein Nadelbaum

2 ein Nadelbaum sein die Laumlrche

43

Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]

42 SatzSatz

Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist

Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten

421 Satzglieder

Moderne Satzgliedlehre

422 Koumlpfe (oder Kerne) von Konstituenten

Syntaktische Koumlpfe (engl head) Kern (engl kernel)

Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar

Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)

1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]

2 Sie rennt [mit dem Mobile hantierend] zum Kiosk

3 Es wird [viel zu oft] telefoniert

44

4 [Die Frau die zum Kiosk rannte ] war aufgeregt

5 Sie fuumlhlte sich [wie in einem schlechten Film]

6 Aber sie war auch [in einem ziemlich schlechten Film]

43 Syntaxanalyse

431 Konstituenz

Konstituenten und Konstituenz

Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist

Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten

Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten

Konstituenten in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

unmittelbare Dominanz

Konstituente auf Wortebene

Syntaktische Konstituente

Praumlzedenz auf Wortebene

Praumlzedenz zwischen Tochterkonstituenten

Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung

Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente

Konstituententypen

Typen von Konstituenten in TIGERNEGRA

1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen

45

2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern

3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern

4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern

5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern

6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern

7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo

Annotation von Relativsaumltzen

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen

Komplexe Konstituenz in der Penn-Treebank

Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white

Syntaxbaum aus der Vogelperspektive

In

IN

other

JJ

words

NNS

like

IN

automation

NN

machines

NNS

designed

VBN

-NONE-

to

TO

work

VB

in

IN

tandem

NN

they

PRP

shared

VBD

the

DT

same

JJ

programming

NN

a

DT

mutual

JJ

understanding

NN

not

RB

only

RB

of

IN

English

NNP

words

NNS

but

CC

of

IN

the

DT

four

CD

stresses

NNS

pitches

NNS

and

CC

junctures

NNS

that

WP

T

-NONE-

can

MD

change

VB

their

PRP$

meaning

NN

from

IN

black

NN

to

TO

white

NN

NP

PP

NP NP NP

PP

VP

VP

SBJ

S

VP

NP

PP

NP NP NP CONJP NP

PP

NP WHNP NP NP NP

PP

NP

PP

PP

VP

VP

SBJ

S

SBAR

NP

PP

PP

NP

NP

VP

SBJ

S

T

46

Quelle TIGERSearch-Demo-Korpora

Maximale Verschachtelungstiefe

432 Dependenz bzw syntaktische Funktion

Dependenz und syntaktische Funktion

Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten

Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen

HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt

Syntaktische Funktionen in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Syntaktische Funktion

Konstituenten

Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung

Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente

Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken

Einige Satzglieder mit TIGER-Funktion

bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein

47

Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)

bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)

bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)

bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)

bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator

bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb

Baumbankkonversion Von Konstituenz zu Dependenz

Automatische Konversion (NTIGER2Dep)

Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)

433 UD-DE-Modell

Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen

48

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

Generelle Philosophie des Universal-Dependency-Modells

bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig

bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV

bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum

bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden

bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der

bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)

bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens

Inhaltswoumlrter VERB und NOUN

Hinweisebull Spitze des Pfeils Abhaumlngiges Element

bull Startknoten des Pfeils Kopf

bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen

bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird

Das UD-Innenleben von Nominalphrasen

Hinweisebull Was ist der NP-Kopf

bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll

49

Komplexe Verb- und Adjektivphrasen

Hinweise

bull Hilfs- und Modalverben haumlngen vom Vollverb ab

bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich

Kopulakonstruktion und Gleichsetzungsnominativ

Fragen

bull Wovon haumlngt das Subjekt ab

bull NSuche nach ist im Suchwerkzeug

bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft

Interpunktion

Hinweise

bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt

50

Verschachtelte Saumltze

Hinweise

bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab

bull Wann aclrelcl und wann advcl

Koordination

Koordination Koumlpfe und Abhaumlngigkeitsrichtung

Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht

Koordination von Konstituenten aus NEGRA-Korpus

bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]

bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]

bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]

2 Fragen mit mehreren moumlglichen Antworten

bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt

bull In welche Richtung werden koordinierte Elemente verknuumlpft

Koordination in der NUD

Frage

bull Welche Antworten gibt die UD

51

Manuelle Syntax-Annotation mit WebAnno

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)

bull Click-und-Drag-Interface mit der Maus

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml

Aufgabe Annotation von Relativsatz

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Wie sieht eine UD-Annotation von diesem Satz aus

434 Suche

NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken

Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-

Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens

2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)

KOPF gt NICHTKOPF

NICHTKOPF lt KOPF

Analog zur Pfeilrichtung in der BRAT-Visualisierung

52

Grundlegende syntaktische Suchrezepte

bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging

bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging

bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde

bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld

bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor

bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _

bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist

44 AmbiguitaumltZusammenfassung

bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen

bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden

bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab

bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])

45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]

bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre

bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren

bull Quiz Die Form der Satzglieder

bull Quiz Satzglieder und Proben

bull Linguistik-CD

53

Kapitel 5

Endliche Automaten

Lernziele

bull Einstieg in die Formalisierung von Sprache

bull Was sind Zeichenketten formalmathematisch

bull Was ist eine formale Sprache

bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation

bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten

bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie

bull Wann ist ein endlicher Automat deterministisch und wann nicht

bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten

54

51 Formale Sprachen

511 Mengen

A Quick Review of Set Theory

A set is a collection of objects

A B

D E

We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E

There is no significant order in a set so A D B E is the same set as E A D B etc

Quelle B04

Cardinality of Sets

 The Empty Set

 A Finite Set

 An Infinite Set eg The Set of all Positive Integers

Norway Denmark Sweden

Quelle B04

512 Zeichen

Das Alphabet (Sigma) Menge von Zeichen

55

Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert

Zeichen des EnglischenΣEnglisch = a b c x y z

Zeichen der binaumlren ZahlenΣbin = 0 1

Zeichenketten (strings)

Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ

Zeichenketten uumlber englischen Symbolen ΣEnglisch

a we muntjac talk walk krwrk

Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0

Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast

bin = ε 0 1 00 01 10 11 001

513 Sprachen

Formal Languages

Very Important Concept in Formal Language Theory

A Language is just a Set of Words

bull  We use the terms ldquowordrdquo and ldquostringrdquo interchangeably

bull  A Language can be empty have finite cardinality or be infinite in size

bull  You can union intersect and subtract languages just like any other sets

56

Quelle B04

Union of Languages (Sets)

dog cat rat elephant mouse

Language 1 Language 2

dog cat rat

elephant mouse

Union of Language 1 and Language 2 Quelle B04

Formale Sprachen als Teilmenge von Sigma Stern

L sube Σlowast

Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast

Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes

Englische Woumlrterwalk talk work sube a b zlowast

Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt

Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit

Formales Modell Wirklichkeit

Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme

57

Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der

Wirklichkeit zu repraumlsentieren

Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working

worked works talk

talking talked talks

walk walking

walked walks

The concatenation of

the Suffix language

after the Root

language

0 or denotes the empty string

Abbildung 51 Sprache mit 3 WoumlrternZeichenketten

Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk

Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage

Beispiel fuumlr Deterministischen Endlichen Automaten

talk isin work talk walk

bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile

52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)

Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand

58

Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert

Nicht-Deterministische Endliche Automaten (NEA)

Abbildung 52 Deterministischer EA

Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg

Nicht-Determinismus IIEs gibt mindestens eine ε-Kante

Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln

Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus

1 einer endlichen Menge Zustaumlnde Φ

2 einem endlichen Eingabealphabet Σ

3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ

59

4 einem Startzustand S isin Φ

5 einer Menge von Endzustaumlnden F sube Φ

Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)

δ Φtimes (Σ cup ε)rarr weierp(Φ)

521 Konkatenation

Konkatenation von Zeichenketten und Sprachen

Konkatenation von Zeichenkettenu bull v = uv

lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo

Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V

lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo

Concatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working worked works talk talking talked talks walk walking walked walks

The concatenation of the Suffix language after the Root language

0 or ε denotes the empty string

60

Quelle B04

Concatenation of Languages II

work talk walk

Root Language

0 ing ed s

Suffix Language

rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks

The concatenation of the Prefix language Root language and the Suffix language

Prefix Language

re out 0

outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks

work working worked works talk talking talked talks walk walking walked walks

Quelle B04

Languages and Networks

w a l k

o r

t

NetworkLanguage 2 NetworkLanguage 3

s

o r The concatenation of Networks 1 2 and 3 in that order

w a l k t

a

a s

ed

i n g

0

s

ed

i n

0s

g o

r

NetworkLanguage 1

s

u t

e

0

o

r s

t

e

0 u

Quelle B04

522 Regulaumlre Ausdruumlcke

Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)

Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann

61

bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo

bull Die Mengen a1a2an sind regulaumlr RA a oder b

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)

bull Ist L regulaumlr dann auch LlowastRA (A)

Wie kann man Optionalitaumlt ausdruumlcken

Graphischer Algorithmus Konversion von RA zu NEA

JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten

Algorithmus

1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde

2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten

3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander

4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen

Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten

Epsilon

Symbol a

Konkatenation (ab)

Alternative (a|b)

62

encodes

a

LANGUAGE RELATION

compiles intoa

REGULAR EXPRESSIONa

FINITE-STATE NETWORKde

notes

Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])

Wiederholung (a)

Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert

63

53 Transduktoren

Linguistic Transducer Machines

mesas

Generator

ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas

m e s a +Noun +Fem +Pl

m e s a 0 0 s

mesa+Noun+Fem+Pl

Analyzer

ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas

Quelle B04

Gute Eigenschaften von endlichen Automaten und Transduktoren

bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen

bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde

bull Beispiel NRumantsch Grischun

bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren

Zusammenfassung

bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben

bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen

bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den

bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt

bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden

64

Vertiefung

bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)

bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo

bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo

bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial

65

Kapitel 6

Flache Satzverarbeitung

Lernziele

bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets

bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung

bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen

bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells

bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger

bull Kenntnis uumlber partielle syntaktische Analyse

bull Kenntnis uumlber flache und verschachtelte Chunks

Welches mehrdeutige Wort hat dieses Profil

UPOS-Tag Vorkommen1

1021ADP 848ADV 61

PROPN 14ADJ 1

61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT

N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token

66

Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)

bull eineDET Kuh Lemma ldquoeinrdquo

bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)

bull lead Verb lid (fuumlhren) Nomen led (Blei)

bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe

Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren

Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to

be present tense 3rd person singular

Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch

Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist

Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]

bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)

bull Effizient Der Tagger arbeitet schnell

bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)

bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den

bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden

Was fehlt

67

611 Probleme des Taggings

Wortformen mit mehreren moumlglichen Tags

MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token

Tag-Ambiguitaumlt im Englischen

Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]

Haumlufigkeiten im Brown-Korpus

bill NN 2351

promised VBD 34~~VBN 10~~JJ 2

back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2

Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token

die~~ART 2351~~PRELS 448~~PDS 4

Mehrheit~~NN 40

bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1

Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0

Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen

bull Unterscheidung zwischen offenen und geschlossenen Wortarten

bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)

68

Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]

Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)

bull 98 aller Woumlrter mit Endung -able sind Adjektive

bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname

Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe

oo

n

e

g

n

d

senuel

l

cv

y ta

o

mtsiii

o

i

ies (NNS09 VBZ01)ons (NNS095 VBZ005)

ed (VBN04 JJ03 VBD03)

le (NN025 JJ045 NP02 VB01)

ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)

ty (NN045 JJ035 NP02)

son (NP08 NN01 JJ01)

man (NP08 NN02)ton (NP09 NN005 JJ005)

ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)

ous (JJ096 NN004)

old (JJ098 NN002)

Quelle [Schmid 1995]

Wortformen mit mehreren moumlglichen Tags Kontext

69

Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6

Vorkommen von ldquobackrdquo im Brown-Korpus

ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung

Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen

Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet

bull die moumlglichen Tags von wn aus Tagger-Lexikon

bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens

Context

3

3

Kontextmodell des Trigrammtaggers TnT [Brants 2000]

612 Fallstudie TnT-Tagger

Supervisiertes Maschinelles Lernen

70

Quelle [Raschka 2015 11]

ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt

Fallstudie TnT-Tagger trainieren und evaluieren

Testkorpustestttstesttxt

Trainingskorpustrainingtts

Getaggtes Korpus

Aufteilen des Korpus

Taggingtnt

Trainingtnt-para

Parameter-Dateien

traininglextraining123

Evaluations-korpus

evaltts

Evaluationtnt-diff

Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger

Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]

1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)

$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts

2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden

$ head --lines 278081 ud-de-v13tts gt trainingtts

3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden

$ tail --lines 30900 ud-de-v13tts gt testtts

71

4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus

$ tnt-para trainingtts

5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut

$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts

6 Man erstelle das Evaluationskorpus

$ cut -f 1 testtts gt evaltxt

7 Man tagge das Evaluationskorpus mit dem Trainingsmodell

$ tnt training evaltxt gt evaltts

8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus

$ tnt-diff testtts evaltts

62 EvaluationEvaluation

Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode

Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt

Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird

Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind

Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden

Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)

Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat

72

Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein

621 Zweck

Zweck von Evaluationen

SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert

SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist

622 Accuracy

POS-Tagger-Evaluation Genauigkeit

Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens

accuracy = N minus EN

Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit

Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus

Tagt Freqt Tagf Freqf Ant Erel Eabs

NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010

Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]

Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler

73

5-fache Kreuzvalidierung visuell

Figure 8-2 K-fold cross-validation

Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point

You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order

gtgtgt import randomgtgtgt randomshuffle(f)

If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold

gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k

Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on

Problems That Can Affect Evaluation | 179

Quelle [Pustejovsky und Stubbs 2013 179]

Genauigkeit unter 10-facher Kreuzvalidierung

Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))

accuracy =sumi=10

i=1 accuracyi

10

Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen

623 Lernkurven

624 Recall

Recall (Ausbeute Abdeckung Vollstaumlndigkeit)

Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems

R = At

Nt

Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600

800 = 75

74

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp())+-01$+-0-2)00-))304

56)77

8010

904010

6+789lt

6-=7gt8lt

6+7gtlt

6-=7gt8lt

6+7lt

6-=79lt

2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J

-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J

)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)

Qampamp)(ampI0(EI(K3amp)-++5

8

9

gt

R9 9 S gt9 8 RR gtS

$-++5NF=J

TM5ltU+B+ampE+

TM5T00I-0L

SSR

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

6)6lt$$)amp$+)=$gt=((+

Q-M-44amp-0C

5-66ampK1F3()ampKVWWJ

6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(

Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp

)-)amp3)T)C

$5-66ampK1F(0amp+KampKVWWJ

6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+

U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+

TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+

+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt

QZ]T F6-+JgtRlt gt8lt [RSlt

Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants

625 Precision

Precision (Genauigkeit Praumlzision)

Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems

P = At

A

Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600

1000 = 60

626 F-Measure

F-Measure (F-Mass)

Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems

F = 2times P timesRP +R

75

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp()

67-18-)amp+8(+5)9amp0amp4amp-

6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F

2++$G-+AH-11))Iamp8+-1

J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+

$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5

amp+)-5)amp-0)ampA+

$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()

$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5

+amp(-012344)425amp123)3627892(+lt

=+$$

gt)(5)

))(5)

D+QRSTU

D-EQVWTRU

D+QVXTRU

D-EQVRTRU

D+QWTYU

D-EQSVTMU

6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F

-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F

M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)

ampamp)(amp80(98(B3amp)-++5T

Y X M YM XM MM YMM YMXM

WM

RM

SM

VM

MM

$-++5OCEMMMF

gt75TU[+A+amp9+

gt75Tgt008-0N

PWTP PTP WTM MTR YTM ST PT TVXMTS

C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants

Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075

06+075 = 666

63 Chunk ParsingPartielle syntaktische Analyse

Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt

Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN

bull NC Ein NC (Nominalchunk) besteht

bull -gt besteht aus

bull ART aus einem Wort der Wortart ART (Artikel)

bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)

76

Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

631 Abneys Chunk-Definition

Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]

Motivationen

bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung

bull Effizienz Teilstrukturen lassen sich effizienter berechnen

bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse

bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden

632 IOB-Chunk

Flache Chunks im IOB-Format

Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist

bull B-K Anfang einer Chunk-Konstituente K

bull I-K Fortsetzung der Chunk-Konstituente K

77

bull 0 Nicht zugeordnet (wird auch chink genannt)

We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP

633 Verschachtelte Chunks

Verschachtelte Chunks

Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich

Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)

[PX [APPR fuumlr][NX [ARTIND eine]

[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]

Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC

64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo

bull Pflichtlektuumlre [Carstensen et al 2009 342-3]

bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking

bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative

bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4

78

ZusammenfassungZusammenfassung

bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung

bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets

bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input

Kontrollfragen

bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen

bull Was unterscheidet Recall und Precision von Accuracy

bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging

bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte

bull Was ist der Vorteil der IOB-Notation fuumlr Chunks

65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele

bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative

bull Kenntnis uumlber Fehlertypen und ihre Gefahr

bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung

651 TrueFalse PositivesNegatives

Evaluation von binaumlren Klassifikatoren

TruthPositive Negative

Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)

Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit

Legende zur Tabelle 63

True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

79

FP Fehlertyp I Test ist positiv wo er nicht sollte

FN Fehlertyp II Test ist negativ wo er nicht sollte

652 Fehlerparadoxe

Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet

Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter

Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet

Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter

653 Unterschiede von Evaluationsmassen

Dualitaumlt von Precision und Recall

TruthPos Neg

Test Pos TP FPNeg FN TN

R = TP

TP + FN

Tabelle 64 Recall

Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision

F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig

80

TruthPos Neg

Test Pos TP FPNeg FN TN

P = TP

TP + FP

Tabelle 65 Precision

TruthPos Neg

Test Pos TP FPNeg FN TN

F = 2times TP2times TP + FP + FN

Tabelle 66 F1-Measure

TruthPos Neg

Test Pos TP FPNeg FN TN

Accuracy = TP + TN

TP + TN + FP + FN

Tabelle 67 Accuracy

654 Mitteln von Recall und Precision

F-Measure Harmonisches vs arithmetisches Mittel

655 Vertiefung

bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]

81

Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]

82

Abbildung 68 M = P +R2 Arithmetisches Mittel

83

Literaturverzeichnis

[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235

[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications

[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University

[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231

[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl

[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen

[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf

[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt

[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf

[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl

[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov

[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl

84

[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf

[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf

[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830

[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485

[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM

[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011

[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl

[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York

[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096

[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA

[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning

[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf

[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin

[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml

85

[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098

[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps

[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd

[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf

[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf

[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf

[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean

[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574

86

Index

10-fache Kreuzvalidierung 74

Adjektiv-Flexion 34Alphabet 56

Eingabealphabet 59

DEA 59Dependenz 47

Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72

F-Measure 75

Genus 32Grad 34

IOB-Chunks 77

Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44

Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25

Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39

Named Entity Regonition 19NER 19

Numerus 33 34

partielle syntaktische 76Person 34Precision 75Probe linguistisch 35

Qualitaumlt einer Evaluation 72

Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72

Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47

Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24

Umformungsprobe 43

Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43

Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24

XML-Standard 14

Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59

87

  • Organisatorisches
    • Organisatorisches
      • Leistungsnachweis
      • Lernen und Lehren
        • Kontrollfragen
          • Tokenisierung
            • Tokenisierer
              • Grundproblem
              • Kodierung
              • Programme
                • XML
                • Tokenisierung
                  • Problem
                  • Punktdisambiguierung
                  • Normalisierung
                  • NER
                    • Multilingualitaumlt
                    • Vertiefung
                      • Linguistisches Propaumldeutikum I
                        • Wort
                          • Token
                          • Wortform
                          • synt Wort
                          • Lexem
                            • Wortarten
                              • 5 Hauptwortarten
                              • UD
                              • STTSPTTS
                                • Merkmale
                                  • Genus
                                  • Zahl
                                  • Kasus
                                  • Modus
                                  • Zeit
                                  • Person
                                  • Grad
                                  • Flexion
                                    • Proben
                                      • Ersetzen
                                      • Einsetzen
                                        • Morphologie
                                          • LemmatisierungMorphologieanalyse
                                          • Morphologiegenerierung
                                            • Vertiefung
                                              • Linguistisches Propaumldeutikum II
                                                • Proben
                                                  • Weglassen
                                                  • Verschieben
                                                  • Umformen
                                                    • Satz
                                                      • Satzglieder
                                                      • Koumlpfe
                                                        • Syntaxanalyse
                                                          • Konstituenz
                                                          • Dependenz
                                                          • UD-DE
                                                          • Suche
                                                            • Ambiguitaumlt
                                                            • Vertiefung
                                                              • Endliche Automaten
                                                                • Formale Sprachen
                                                                  • Mengen
                                                                  • Zeichen
                                                                  • Sprachen
                                                                    • EA und regulaumlre Sprachen
                                                                      • Konkatenation
                                                                      • Regulaumlre Ausdruumlcke
                                                                        • Transduktoren
                                                                          • Flache Satzverarbeitung
                                                                            • Tagging
                                                                              • Probleme
                                                                              • Fallstudie TnT-Tagger
                                                                                • Evaluation
                                                                                  • Zweck
                                                                                  • Accuracy
                                                                                  • Lernkurven
                                                                                  • Recall
                                                                                  • Precision
                                                                                  • F-Measure
                                                                                    • Chunking
                                                                                      • Abney
                                                                                      • IOB-Chunk
                                                                                      • Verschachtelte Chunks
                                                                                        • Vertiefung
                                                                                        • Exkurs Evaluation binaumlrer Klassifikatoren
                                                                                          • TPFPFNTN
                                                                                          • Fehlerparadoxe
                                                                                          • Unterschiede
                                                                                          • Mittelwerte
                                                                                          • Vertiefung
Page 9: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff

Kapitel 2

Tokenisierung Automatische Satz-und Wortsegmentierung

Lernziele

bull Kenntnis uumlber die Kodierung sprachlicher Zeichen

bull Kenntnis uumlber den Zweck und die Probleme der textuellen Vorverarbeitung von natuumlrlicherSprache Text-Segmentierung und Text-Normalisierung

bull Kenntnis uumlber XML zur Repraumlsentation von Text und Segmentstruktur

bull Kenntnis uumlber Methoden der Punktdisambiguierung und Satzendeerkennung

bull Kenntnis uumlber Textnormalisierung und Erkennung von interessierenden Groumlssen (NamedEntity Recognition)

bull Kenntnis und Umgang mit regulaumlren Ausdruumlcken

21 Tokenisierer

211 Grundproblem

Woumlrter aus linguistischer Sicht

Definition 211 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprach-lich verwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftli-che Definitionsversuche uneinheitlich und kontrovers sind

Was ist ein Wort

1 ZB nahm sie am Text Mining Workshop teil

2 Das gibtrsquos doch nicht ldquoJooprdquo ist pleite

3 Blick Online verlost zum Film-Start das laquoIch bin Boratraquo-Kit

Wort-Segmentierung in nicht-segmentierten Schreibsystemen

8

Abbildung 21 Navigationselemente der Web-Site der Olympischen Spiele 2008

Rohtexte aus Computersicht Welt der Bytes

$ hexdump dateitxt0000000 57 61 73 20 62 65 69 6e 68 61 6c 74 65 74 20 730000010 69 65 3f 0a0000014

(Der Dateiinhalt ist als Dump1 im Hexadezimalformat wiedergegeben dh jedes Zeichen inForm seines Zeichenkodes als Hexadezimalzahl)Beispiel 212 (Folge von Zeichenkodes in Hexadezimalnotation)Wie viele und welche Woumlrter enthaumllt der folgende Datei-Inhalt57 61 73 20 62 65 69 6E 68 61 6C 74 65 74 20 73 69 65 3F 0A

212 Zeichenkodierung

Was ist ein Zeichen auf dem Computer

bull Traditionell ein Byte dh eine Folge von 8 BitsWas ist ein Bit Binaumlre Entscheidung (0 oder 1)

bull Ein Byte kann als Zahl interpretiert werden indem die Position eines Bits als Stelle imBinaumlrsystem aufgefasst wird 0100rsquo0001

bull Eine Zahl kann als BuchstabeZeichen interpretiert werden indem eine Kodierungskon-vention aufgestellt wird ZB rsquoArsquo=65 rsquorsquo=64 rsquo1rsquo=49

bull Verbreitete Kodierungskonventionen (engl charset) ASCII (128 Zeichen fuumlr Englisch)iso-latin-1 (256 Zeichen fuumlr westeuropaumlische Sprachen)

bull Typische Speicherung bei ASCII und iso-latin-1 1 Zeichen = 1 Byte

Binaumlres und Hexadezimales Stellensystem

1 Byte als binaumlre Zahlen (= 8 Bits)

__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8

__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8

Jedes Kaumlstchen = 1 Bit

4-stellige hexadezimale Zahl (= 4 Bytes)1Zum Beispiel mit dem Befehl $ hexdump dateitxt

9

__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8

__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8

Jedes Kaumlstchen = 1 Byte

Die 128 ASCII-Kodes

Die 128rsquo172 Unicode-Kodes

Moderne universale Kodierungskonvention httpwwwunicodeorgUNICODE(ISOIEC 10646) Version 90 Kodes fuumlr 128rsquo172 Zeichen in fast allen Schriftsystemender WelthttpwwwunicodeorgstandardWhatIsUnicodehtml

GRINNING FACE

bull Kode 128512 (Hexadezimal 1F600)

bull UTF-8 Byte-Repraumlsentation F0 9F 98 80

bull~ In UTF-8 sind nur Unicode-Kodes von ASCII-Zeichen direkt in ihrer Binaumlrzahl-Repraumlsentationgespeichert

10

Was ist ein Zeichen auf dem Computer UTF-8-Format

bull Speicherung bei UNICODE UTF (Abk fuumlr Unicode Transformation Format) beschreibtMethoden einen Unicode-Kode auf eine Folge von Bytes abzubilden

bull UTF-8 (Abk fuumlr 8-bit Universal Character Set Transformation Format) Ordnet jedemUnicode-Zeichen eine speziell kodierte Bytefolge von variabler Laumlnge zu UTF-8 unter-stuumltzt bis zu 4 Byte pro Zeichen

bull Dateiformat XML-Dateien sind defaultmaumlssig UTF-8 kodiert Bei andern Dateien mussman es wissen

bull Jede ASCII-Datei ist auch eine UTF-8-Datei (Ruumlckwaumlrtskompatibilitaumlt)

bull Darstellung Zeichensaumltze (engl fonts) enthalten die graphischen Formen (glyphs) damitdas Betriebssystem die Kodes fuumlrs Auge darstellen kann

bull Konversionswerkzeuge ZB GNU-Kommandozeilentool iconv

Textkonversion mit iconv

Verlustfreie Textkonversion nach UTF-8

$ iconv -f EXOTISCHEKODIERUNG -t UTF-8 lt INPUT gt OUTPUT

Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen laumlsst sich auch Text-Normalisierung durch ldquoTransliterationrdquo2 durchfuumlhren

$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIITRANSLITKlosschen

Das Loumlschen von nicht-repraumlsentierbaren Zeichen ist meist weniger nuumltzlich

$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIIIGNOREKlchen

213 Programme

Grundproblem Vom Zeichenstrom zur Folge von Tokens

RohdatenRohe elektronische Sprachdaten liegen in Dateien vor welche nichts anderes als eine Folge vonkodierten Einzelzeichen dh ein kontinuierlicher Zeichenstrom sind

Token Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung Wortkorrektur morphologische Analyse Lexikonzugriff syn-taktische Analyse

Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)

2~ Das Ergebnis kann von Landeseinstellungen (locale) abhaumlngig sein

11

bull Konsumieren der Zeichenfolge (Eingabe)

bull Gruppieren und allenfalls normalisierenmodifizieren der Zeichen (Verarbeitung)

bull Produzieren einer Folge von Tokens (Ausgabe)

Typische Beispiele fuumlr Tokenisierer Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text dh 1 Token pro Zeile Saumltzesind durch Leerzeilen voneinander abgetrennt

Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhaumlngiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkuumlrzungsdatei(ger-abbrev)

$ cat filetxtBachrsquosche Musikmag Dr Fritz Ja

$ cat ger-abbrevDrusw

$ utf8-tokenizeperl -a ger-abbrev filetxtBachrsquoscheMusikmagDrFritz

Ja

Typische Beispiele fuumlr Tokenisierer Regulaumlre AusdruumlckeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PythonPERL oder Finite-State Tools welche einen einfachen Umgang mit regulaumlren Ausdruumlcken er-lauben

Definition 213 (Regulaumlre Ausdruumlcke (engl regular expressions)) Ein regulaumlrer Ausdruck isteine relativ standardisierte Kurz-Notation um Zeichenketten mit bestimmten Eigenschaften zubeschreibenPraktisch eingesetzt werden sie fuumlr die nicht-woumlrtliche Suche (engl pattern matching) Suchen-und-Ersetzen und Segmentieren von Zeichenketten

Einfuumlhrung in regulaumlre AusdruumlckeZB in unserem CLab httpwwwcluzhchclabregex

12

Tokenisierer in der ProgrammiersprachePython

Tokenisierer mit regulaumlren Ausdruumlcken

bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben

bull Einfach anpassbar auf die Textsorte

bull Fuumlr uumlberschaubare Textmengen empfohlen

bull Vorteil Machen dieselben Fehler konsequent

bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung

Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])

1 Rohtext

This is an example There are two sentences

2 XML-Input fuumlr Tokenisierer (Vortokenisierung)

ltdocumentgtlttextgt

ltpgtThis is an example There are two sentences

ltpgtlttextgt

ltdocumentgt

3 XML-Tokenisat

ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt

13

ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt

Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert

Verschachtelung im XML-Stil

ltdocumentgtlttextgt

ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example

ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences

Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags

22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation

bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs

bull httpstubeswitchchvideos60fc01f1

XML (eXtensible Markup Language)

Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann

14

XML in der Texttechnologie

bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)

bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten

bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben

Aufbau von XML-Dokumenten

Elemente und ihre Attribute

bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt

bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)

bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt

bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt

bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt

bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt

Zeichenreferenzen und Entity-Referenzen

Entitaumlten und Referenzen

bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden

bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal

bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den

Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38

Newline amp9Σ ampx3a3

15

23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen

231 Problem

Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt

bull Wort-Zeichen [a-zA-Z0-9]

bull Einzel-Zeichen [)(rsquo$-]

bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]

ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo

Schwierigkeiten der Wortsegmentierung im engen Sinn

Schwierige Zeichen

bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim

bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr

bull Bindestriche semble-t-il rarr semble + -t-il

bull Punkte SAC

bull Masseinheiten 30 rarr 30 + 28 rarr 28 +

bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que

Teilprobleme der Tokenisierung im weiten Sinn

bull Umgang mit Markup (HTML-Tags Formatierungszeichen)

bull Erkennung der ldquonormalenrdquo Tokengrenzen

bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)

bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)

bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)

bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)

16

232 Punktdisambiguierung

Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben

Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert

Verschmelzung

bull It was due Friday by 5 pm Saturday would be too late

bull Ich kenne die USA Frankreich kenne ich nicht

WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig

Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls

bull das Token in einer Abkuumlrzungsliste steht

bull nach dem Token eines der Zeichen aus [a-z] folgt

bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht

bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt

Nach [Grefenstette und Tapanainen 1994]

LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen

Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen

Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN

1 Wie viele Zeichen umfasst TOKEN

2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale

3 Wie oft kommt TOKEN ohne Punkt vor

4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor

5 Wie oft kommt NEXTTOKEN kleingeschrieben vor

17

Satzsegmentierung mit maschinellen Lernverfahren

bull Fuumlr grosse Textmengen empfohlen

bull Nachteil Unsystematische Fehler koumlnnen auftreten

Statistisches System PUNKT ([Kiss und Strunk 2006])

bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten

bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt

iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte

233 Zeichen- und Token-Normalisierung

Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen

Normalisierung bei Suchmaschinen und anderen Anwendungen

bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich

bull 4897 4-8-97 4897 8497

bull 19000 19rsquo000 19 000 19000

bull Louisa Luise Louise Luisa

bull doesnrsquot does not

Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)

bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt

bull Hollaumlndisch chocola-tje rarr chocolaatje

Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen

18

Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung

Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens

615 5 Ruumlckbau in neue Tokens

Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus

Ruumlckgaumlngig machen von Worttrennung am Zeilenende

Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens

Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch

234 Named Entity Recognition

Named Entity Recognition

Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen

Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen

Kanonische Formen und Entity Linking

bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo

bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo

Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3

Demo Time Expression Recognition (TIMEX task)

24 MultilingualitaumltMultilinguale Dokumente und Systeme

Herausforderung Multilingualitaumlt

bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess

19

Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular

Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML

bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig

bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut

bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet

bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut

Ansatz von [Cavnar und Trenkle 1994]

20

1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten

2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)

3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil

4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm

5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand

N-Gramm-Profile und Profilabstand

Quelle [Cavnar und Trenkle 1994]

Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]

25 VertiefungZum Thema ldquoTokenisierungrdquo

bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28

bull Pflichtlektuumlre [Carstensen et al 2009 341]

bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]

Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)

bull httpwwwcluzhchclabregex

Zum Thema ldquoXMLrdquo

21

bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1

bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]

Zusammenfassung

bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen

bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen

bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen

bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung

bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar

bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen

bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden

Kontrollfragen

bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention

bull Welche Probleme stellen sich bei der Tokenisierung

bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung

bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten

bull Was versteht man unter NER

bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle

22

Kapitel 3

Linguistisches Propaumldeutikum I

Lernziele

bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen

bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg

bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch

bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte

bull Kenntnis und Anwendung linguistischer Proben

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten

bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung

31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs

Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind

Praumlzisierungsversuche des Wort-Begriffs

bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment

bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit

bull Morphologisch Grundeinheit welche flektierbar ist

bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist

bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes

23

Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach

Antworten 4 5 6 9 __

311 Token

Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9

Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText

BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann

312 Wortform

Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes

Identische Wortformen mit unterschiedlicher Bedeutung

bull Die Fliege war tot

bull Er trug eine samtene Fliege

bull Fliege nicht so schnell

313 Syntaktisches Wort

Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6

Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst

Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural

24

314 Lexem

Antwort 5 Wort als Lexem

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden

Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem

Lexikographische Notationskonventionen

Wie sehen Verb-Lemma in DeutschenLatein aus

Antwort 4 Wort als Lexemverband

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4

Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert

Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln

Stufen der Abstraktion Vom Text zum Lexemverband

bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)

bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)

bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen

bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden

bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird

25

32 Lehre von den WortartenWortarten nach [Bussmann 2002]

Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien

Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb

5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det

321 5 Hauptwortarten nach Glinz

Klassifikationskriterien

Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]

Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

26

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

322 UD

Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)

Universal Part-of-Speech Tagset (Version 1)1

12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish

ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo

Universal Part-of-Speech Tagset (Version 2) UPOS2

Version 2 hat 17 POS-Tags

+ Eigennamen (PROPN) (vorher NOUN)

+ Hilfsverben (AUX) (vorher VERB)

+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)

+ Symbole (SYM) (vorher X)

+ Interjektionen (INTJ) (vorher PRT)

= Partikel (PART) (vorher PRT)

= Interpunktion (PUNCT) (vorher )

Baumbanken sind fuumlr 51 Sprachen verfuumlgbar

27

Abbildung 32 Deutsche UD-Baumbank

UD V13 fuumlr Deutsch

NDurchsuchen

bull Suche nach Wort spaumlter

bull Nach Wort+Wortart spaumlterampADV

UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml

Mehrdeutigkeiten Unklarheiten Fehlannotationen

Linguistische Annotation und Automatisierung

Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form

Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml

28

bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)

bull Vollautomatisch Schnell billig fehlerbehaftet

bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile

Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml

N CoNLL-Format Spaltenformat fuumlr Annotationen3

bull Vertikalisierter Text

bull 1 Token pro Zeile

bull Saumltze mit Leerzeile getrennt

bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation

bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet

Bedeutung relevanter Spalten

1 Tokennummer (1-basierte Zaumlhlung) pro Satz

2 Wortform (Token)

3 Lemma

4 Grobe Wortklasse (coarse-grained part-of-speech tag)

5 Feine Wortklasse (fine-grained part-of-speech tag)

6 Morphosyntaktische Merkmale

7 Syntaktischer Kopf als Tokennummer

8 Dependenztyp

CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo

Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token

3httpuniversaldependenciesorgformathtml

29

Abbildung 33 CoNLL-U und CoNLL-X

Manuelle Annotation mit WebAnno und Exportformate

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

323 Feine Tagsets

Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis

bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags

bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert

bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch

bull Alternativen Muumlnsteraner Tagset [Steiner 2003]

Wieso ist das STTS wichtig

bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)

ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel

bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo

30

Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts

Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken

33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale

Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden

Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems

bull Konjugation von Verben

bull Deklination von Nomen Adjektiven Artikeln und Pronomen

bull Steigerung von Adjektiven (und wenigen Adverbien)

Diskussion Sind steigerbare Adverbien ein Widerspruch im System

Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet

31

Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts

Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn

331 Genus

Das Genus (UD Gender) Grammatisches Geschlecht

Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien

Tabelle 31 Uumlbersicht Genera

BemerkungDer Plural von Genus lautet Genera

Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt

Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen

Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind

Deutsch

32

Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur

AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas

332 Numerus

Der Numerus (UD Number) Grammatische Zahl

Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner

Tabelle 32 Uumlbersicht Numeri

BemerkungDer Plural von Numerus lautet Numeri

Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt

333 Kasus

Der Kasus (UD Case) FallUD-Kategorie Case

Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum

Tabelle 33 Uumlbersicht Kasus

BemerkungDer Plural von Kasus lautet Kasus

334 Modus

Der Modus (engl mode mood UD Mood) Aussageweise

Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh

Tabelle 34 Uumlbersicht Modi

In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi

33

335 Tempus

Das Tempus (UD Tense) grammatische Zeit Zeitform

Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging

Tabelle 35 Uumlbersicht Tempora

BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten

336 Person

Die Person (UD Person)

Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht

Tabelle 36 Uumlbersicht Personen

BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt

337 Grad

Der Grad (UD Degree) Steigerung Komparation

Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste

Tabelle 37 Uumlbersicht Komparation

BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt

338 Adjektiv-Flexion

Die Adjektiv-Flexion (engl adjective inflection)

BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven

Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet

34

Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse

Tabelle 38 Uumlbersicht Adjektiv-Flexion

Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern

UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt

Morphologische Englische UD-Annotation

1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _

34 Linguistische ProbenLinguistische Testverfahren

Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen

341 Ersatzprobe

Ersatzprobe

Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben

35

Beispiel 343 (Bestimmung des Kasus)

Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat

Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen

Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)

bull Das ist das Angebot das uns uumlberzeugt hat

bull Dieses ist das Angebot welches uns uumlberzeugt hat

bull Welches ist das Angebot dieses uns uumlberzeugt hat

bull Das ist dieses Angebot welches uns uumlberzeugt hat

Probleme der Interpretation

bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes

bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig

342 Einsetzprobe

Einsetzprobe

Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert

Beispiel 345 (Bestimmung der Wortart)

Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb

Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive

35 MorphologieMorphologische Ebene

Womit befasst sich die Morphologie Wortstruktur und Wortbildung

bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e

36

bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit

bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system

351 LemmatisierungMorphologieanalyse

Lemmatisierung und Morphologieanalyse

Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen

Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma

Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo

Analysen von GERTWOL5

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Probleme morphologischer Analysen Mehrdeutigkeit

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM

Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol

37

bull ldquoeinerdquo als

bull ldquoMuumlllerrdquo als Eigenname oder Substantiv

Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus

Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1

Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile

Probleme morphologischer Analyse

googelte

UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter

Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM

ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat

Lieblingsbeerelieb~lingsbeere S FEM SG NOM

Erdbeereerdbeere S FEM SG NOM

Fingerbeerenfingerbeere S FEM PL NOM

UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung

38

Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas

Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]

Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent

352 Morphologiegenerierung

Generierung von syntaktischen Wortformen

Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation

Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|

Person=2|Tense=Past|VerbForm=Fingingst

backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin

36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT

bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem

bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6

bull Die Website universaldependenciesorg hat einige Dokumentation

Zusammenfassung

bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet

bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte

bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme

bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen

6httpwwwdsuzhchstudien-cd

39

Kontrollfragen

bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo

bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2

bull Worin besteht Morphologieanalyse und -generierung

bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller

bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt

bull Was ist der Unterschied zwischen Lemma und Lexem

40

Kapitel 4

Linguistisches Propaumldeutikum II

Lernziele

bull Anwendung der klassischen syntaktischen Proben

bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf

bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte

bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen

bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug

Motivation 2 (halbwegs kompatible) Syntax-Welten

Konstituenten

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Dependenz

41

Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden

(NGoogles SyntaxNet)

41 Syntaktische ProbenKonstituentenproben

Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt

Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

411 Weglassprobe

Weglassprobe

Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten

Bestimmung eines Satzglieds

1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

FrageWarum nicht Variante 4

42

412 Verschiebeprobe

Verschiebeprobe

Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen

Bestimmung von Satzgliedern

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen bereite ich die Sitzung mit dem Chef vor

3 Ich bereite die Sitzung mit dem Chef morgen vor

Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb

Verschiebeprobe

Unzulaumlssiges Verschieben

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen ich bereite die Sitzung mit dem Chef vor

3 Die Sitzung bereite ich morgen mit dem Chef vor

413 Umformungsproben

Umformungsprobe

Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut

Funktion von Nebensaumltzen

1 Es wuumlrde mich freuen wenn du mitkaumlmest

2 Dein Mitkommen wuumlrde mich freuen

Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo

Infinitivumformung zur Subjekterkennung

1 Die Laumlrche ist ein Nadelbaum

2 ein Nadelbaum sein die Laumlrche

43

Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]

42 SatzSatz

Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist

Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten

421 Satzglieder

Moderne Satzgliedlehre

422 Koumlpfe (oder Kerne) von Konstituenten

Syntaktische Koumlpfe (engl head) Kern (engl kernel)

Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar

Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)

1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]

2 Sie rennt [mit dem Mobile hantierend] zum Kiosk

3 Es wird [viel zu oft] telefoniert

44

4 [Die Frau die zum Kiosk rannte ] war aufgeregt

5 Sie fuumlhlte sich [wie in einem schlechten Film]

6 Aber sie war auch [in einem ziemlich schlechten Film]

43 Syntaxanalyse

431 Konstituenz

Konstituenten und Konstituenz

Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist

Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten

Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten

Konstituenten in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

unmittelbare Dominanz

Konstituente auf Wortebene

Syntaktische Konstituente

Praumlzedenz auf Wortebene

Praumlzedenz zwischen Tochterkonstituenten

Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung

Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente

Konstituententypen

Typen von Konstituenten in TIGERNEGRA

1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen

45

2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern

3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern

4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern

5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern

6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern

7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo

Annotation von Relativsaumltzen

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen

Komplexe Konstituenz in der Penn-Treebank

Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white

Syntaxbaum aus der Vogelperspektive

In

IN

other

JJ

words

NNS

like

IN

automation

NN

machines

NNS

designed

VBN

-NONE-

to

TO

work

VB

in

IN

tandem

NN

they

PRP

shared

VBD

the

DT

same

JJ

programming

NN

a

DT

mutual

JJ

understanding

NN

not

RB

only

RB

of

IN

English

NNP

words

NNS

but

CC

of

IN

the

DT

four

CD

stresses

NNS

pitches

NNS

and

CC

junctures

NNS

that

WP

T

-NONE-

can

MD

change

VB

their

PRP$

meaning

NN

from

IN

black

NN

to

TO

white

NN

NP

PP

NP NP NP

PP

VP

VP

SBJ

S

VP

NP

PP

NP NP NP CONJP NP

PP

NP WHNP NP NP NP

PP

NP

PP

PP

VP

VP

SBJ

S

SBAR

NP

PP

PP

NP

NP

VP

SBJ

S

T

46

Quelle TIGERSearch-Demo-Korpora

Maximale Verschachtelungstiefe

432 Dependenz bzw syntaktische Funktion

Dependenz und syntaktische Funktion

Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten

Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen

HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt

Syntaktische Funktionen in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Syntaktische Funktion

Konstituenten

Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung

Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente

Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken

Einige Satzglieder mit TIGER-Funktion

bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein

47

Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)

bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)

bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)

bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)

bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator

bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb

Baumbankkonversion Von Konstituenz zu Dependenz

Automatische Konversion (NTIGER2Dep)

Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)

433 UD-DE-Modell

Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen

48

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

Generelle Philosophie des Universal-Dependency-Modells

bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig

bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV

bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum

bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden

bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der

bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)

bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens

Inhaltswoumlrter VERB und NOUN

Hinweisebull Spitze des Pfeils Abhaumlngiges Element

bull Startknoten des Pfeils Kopf

bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen

bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird

Das UD-Innenleben von Nominalphrasen

Hinweisebull Was ist der NP-Kopf

bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll

49

Komplexe Verb- und Adjektivphrasen

Hinweise

bull Hilfs- und Modalverben haumlngen vom Vollverb ab

bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich

Kopulakonstruktion und Gleichsetzungsnominativ

Fragen

bull Wovon haumlngt das Subjekt ab

bull NSuche nach ist im Suchwerkzeug

bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft

Interpunktion

Hinweise

bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt

50

Verschachtelte Saumltze

Hinweise

bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab

bull Wann aclrelcl und wann advcl

Koordination

Koordination Koumlpfe und Abhaumlngigkeitsrichtung

Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht

Koordination von Konstituenten aus NEGRA-Korpus

bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]

bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]

bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]

2 Fragen mit mehreren moumlglichen Antworten

bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt

bull In welche Richtung werden koordinierte Elemente verknuumlpft

Koordination in der NUD

Frage

bull Welche Antworten gibt die UD

51

Manuelle Syntax-Annotation mit WebAnno

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)

bull Click-und-Drag-Interface mit der Maus

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml

Aufgabe Annotation von Relativsatz

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Wie sieht eine UD-Annotation von diesem Satz aus

434 Suche

NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken

Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-

Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens

2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)

KOPF gt NICHTKOPF

NICHTKOPF lt KOPF

Analog zur Pfeilrichtung in der BRAT-Visualisierung

52

Grundlegende syntaktische Suchrezepte

bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging

bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging

bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde

bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld

bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor

bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _

bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist

44 AmbiguitaumltZusammenfassung

bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen

bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden

bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab

bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])

45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]

bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre

bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren

bull Quiz Die Form der Satzglieder

bull Quiz Satzglieder und Proben

bull Linguistik-CD

53

Kapitel 5

Endliche Automaten

Lernziele

bull Einstieg in die Formalisierung von Sprache

bull Was sind Zeichenketten formalmathematisch

bull Was ist eine formale Sprache

bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation

bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten

bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie

bull Wann ist ein endlicher Automat deterministisch und wann nicht

bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten

54

51 Formale Sprachen

511 Mengen

A Quick Review of Set Theory

A set is a collection of objects

A B

D E

We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E

There is no significant order in a set so A D B E is the same set as E A D B etc

Quelle B04

Cardinality of Sets

 The Empty Set

 A Finite Set

 An Infinite Set eg The Set of all Positive Integers

Norway Denmark Sweden

Quelle B04

512 Zeichen

Das Alphabet (Sigma) Menge von Zeichen

55

Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert

Zeichen des EnglischenΣEnglisch = a b c x y z

Zeichen der binaumlren ZahlenΣbin = 0 1

Zeichenketten (strings)

Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ

Zeichenketten uumlber englischen Symbolen ΣEnglisch

a we muntjac talk walk krwrk

Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0

Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast

bin = ε 0 1 00 01 10 11 001

513 Sprachen

Formal Languages

Very Important Concept in Formal Language Theory

A Language is just a Set of Words

bull  We use the terms ldquowordrdquo and ldquostringrdquo interchangeably

bull  A Language can be empty have finite cardinality or be infinite in size

bull  You can union intersect and subtract languages just like any other sets

56

Quelle B04

Union of Languages (Sets)

dog cat rat elephant mouse

Language 1 Language 2

dog cat rat

elephant mouse

Union of Language 1 and Language 2 Quelle B04

Formale Sprachen als Teilmenge von Sigma Stern

L sube Σlowast

Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast

Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes

Englische Woumlrterwalk talk work sube a b zlowast

Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt

Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit

Formales Modell Wirklichkeit

Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme

57

Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der

Wirklichkeit zu repraumlsentieren

Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working

worked works talk

talking talked talks

walk walking

walked walks

The concatenation of

the Suffix language

after the Root

language

0 or denotes the empty string

Abbildung 51 Sprache mit 3 WoumlrternZeichenketten

Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk

Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage

Beispiel fuumlr Deterministischen Endlichen Automaten

talk isin work talk walk

bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile

52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)

Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand

58

Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert

Nicht-Deterministische Endliche Automaten (NEA)

Abbildung 52 Deterministischer EA

Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg

Nicht-Determinismus IIEs gibt mindestens eine ε-Kante

Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln

Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus

1 einer endlichen Menge Zustaumlnde Φ

2 einem endlichen Eingabealphabet Σ

3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ

59

4 einem Startzustand S isin Φ

5 einer Menge von Endzustaumlnden F sube Φ

Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)

δ Φtimes (Σ cup ε)rarr weierp(Φ)

521 Konkatenation

Konkatenation von Zeichenketten und Sprachen

Konkatenation von Zeichenkettenu bull v = uv

lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo

Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V

lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo

Concatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working worked works talk talking talked talks walk walking walked walks

The concatenation of the Suffix language after the Root language

0 or ε denotes the empty string

60

Quelle B04

Concatenation of Languages II

work talk walk

Root Language

0 ing ed s

Suffix Language

rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks

The concatenation of the Prefix language Root language and the Suffix language

Prefix Language

re out 0

outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks

work working worked works talk talking talked talks walk walking walked walks

Quelle B04

Languages and Networks

w a l k

o r

t

NetworkLanguage 2 NetworkLanguage 3

s

o r The concatenation of Networks 1 2 and 3 in that order

w a l k t

a

a s

ed

i n g

0

s

ed

i n

0s

g o

r

NetworkLanguage 1

s

u t

e

0

o

r s

t

e

0 u

Quelle B04

522 Regulaumlre Ausdruumlcke

Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)

Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann

61

bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo

bull Die Mengen a1a2an sind regulaumlr RA a oder b

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)

bull Ist L regulaumlr dann auch LlowastRA (A)

Wie kann man Optionalitaumlt ausdruumlcken

Graphischer Algorithmus Konversion von RA zu NEA

JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten

Algorithmus

1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde

2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten

3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander

4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen

Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten

Epsilon

Symbol a

Konkatenation (ab)

Alternative (a|b)

62

encodes

a

LANGUAGE RELATION

compiles intoa

REGULAR EXPRESSIONa

FINITE-STATE NETWORKde

notes

Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])

Wiederholung (a)

Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert

63

53 Transduktoren

Linguistic Transducer Machines

mesas

Generator

ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas

m e s a +Noun +Fem +Pl

m e s a 0 0 s

mesa+Noun+Fem+Pl

Analyzer

ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas

Quelle B04

Gute Eigenschaften von endlichen Automaten und Transduktoren

bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen

bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde

bull Beispiel NRumantsch Grischun

bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren

Zusammenfassung

bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben

bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen

bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den

bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt

bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden

64

Vertiefung

bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)

bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo

bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo

bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial

65

Kapitel 6

Flache Satzverarbeitung

Lernziele

bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets

bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung

bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen

bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells

bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger

bull Kenntnis uumlber partielle syntaktische Analyse

bull Kenntnis uumlber flache und verschachtelte Chunks

Welches mehrdeutige Wort hat dieses Profil

UPOS-Tag Vorkommen1

1021ADP 848ADV 61

PROPN 14ADJ 1

61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT

N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token

66

Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)

bull eineDET Kuh Lemma ldquoeinrdquo

bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)

bull lead Verb lid (fuumlhren) Nomen led (Blei)

bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe

Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren

Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to

be present tense 3rd person singular

Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch

Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist

Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]

bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)

bull Effizient Der Tagger arbeitet schnell

bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)

bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den

bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden

Was fehlt

67

611 Probleme des Taggings

Wortformen mit mehreren moumlglichen Tags

MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token

Tag-Ambiguitaumlt im Englischen

Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]

Haumlufigkeiten im Brown-Korpus

bill NN 2351

promised VBD 34~~VBN 10~~JJ 2

back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2

Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token

die~~ART 2351~~PRELS 448~~PDS 4

Mehrheit~~NN 40

bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1

Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0

Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen

bull Unterscheidung zwischen offenen und geschlossenen Wortarten

bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)

68

Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]

Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)

bull 98 aller Woumlrter mit Endung -able sind Adjektive

bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname

Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe

oo

n

e

g

n

d

senuel

l

cv

y ta

o

mtsiii

o

i

ies (NNS09 VBZ01)ons (NNS095 VBZ005)

ed (VBN04 JJ03 VBD03)

le (NN025 JJ045 NP02 VB01)

ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)

ty (NN045 JJ035 NP02)

son (NP08 NN01 JJ01)

man (NP08 NN02)ton (NP09 NN005 JJ005)

ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)

ous (JJ096 NN004)

old (JJ098 NN002)

Quelle [Schmid 1995]

Wortformen mit mehreren moumlglichen Tags Kontext

69

Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6

Vorkommen von ldquobackrdquo im Brown-Korpus

ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung

Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen

Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet

bull die moumlglichen Tags von wn aus Tagger-Lexikon

bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens

Context

3

3

Kontextmodell des Trigrammtaggers TnT [Brants 2000]

612 Fallstudie TnT-Tagger

Supervisiertes Maschinelles Lernen

70

Quelle [Raschka 2015 11]

ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt

Fallstudie TnT-Tagger trainieren und evaluieren

Testkorpustestttstesttxt

Trainingskorpustrainingtts

Getaggtes Korpus

Aufteilen des Korpus

Taggingtnt

Trainingtnt-para

Parameter-Dateien

traininglextraining123

Evaluations-korpus

evaltts

Evaluationtnt-diff

Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger

Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]

1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)

$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts

2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden

$ head --lines 278081 ud-de-v13tts gt trainingtts

3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden

$ tail --lines 30900 ud-de-v13tts gt testtts

71

4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus

$ tnt-para trainingtts

5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut

$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts

6 Man erstelle das Evaluationskorpus

$ cut -f 1 testtts gt evaltxt

7 Man tagge das Evaluationskorpus mit dem Trainingsmodell

$ tnt training evaltxt gt evaltts

8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus

$ tnt-diff testtts evaltts

62 EvaluationEvaluation

Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode

Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt

Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird

Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind

Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden

Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)

Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat

72

Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein

621 Zweck

Zweck von Evaluationen

SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert

SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist

622 Accuracy

POS-Tagger-Evaluation Genauigkeit

Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens

accuracy = N minus EN

Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit

Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus

Tagt Freqt Tagf Freqf Ant Erel Eabs

NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010

Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]

Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler

73

5-fache Kreuzvalidierung visuell

Figure 8-2 K-fold cross-validation

Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point

You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order

gtgtgt import randomgtgtgt randomshuffle(f)

If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold

gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k

Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on

Problems That Can Affect Evaluation | 179

Quelle [Pustejovsky und Stubbs 2013 179]

Genauigkeit unter 10-facher Kreuzvalidierung

Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))

accuracy =sumi=10

i=1 accuracyi

10

Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen

623 Lernkurven

624 Recall

Recall (Ausbeute Abdeckung Vollstaumlndigkeit)

Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems

R = At

Nt

Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600

800 = 75

74

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp())+-01$+-0-2)00-))304

56)77

8010

904010

6+789lt

6-=7gt8lt

6+7gtlt

6-=7gt8lt

6+7lt

6-=79lt

2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J

-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J

)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)

Qampamp)(ampI0(EI(K3amp)-++5

8

9

gt

R9 9 S gt9 8 RR gtS

$-++5NF=J

TM5ltU+B+ampE+

TM5T00I-0L

SSR

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

6)6lt$$)amp$+)=$gt=((+

Q-M-44amp-0C

5-66ampK1F3()ampKVWWJ

6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(

Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp

)-)amp3)T)C

$5-66ampK1F(0amp+KampKVWWJ

6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+

U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+

TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+

+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt

QZ]T F6-+JgtRlt gt8lt [RSlt

Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants

625 Precision

Precision (Genauigkeit Praumlzision)

Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems

P = At

A

Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600

1000 = 60

626 F-Measure

F-Measure (F-Mass)

Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems

F = 2times P timesRP +R

75

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp()

67-18-)amp+8(+5)9amp0amp4amp-

6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F

2++$G-+AH-11))Iamp8+-1

J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+

$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5

amp+)-5)amp-0)ampA+

$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()

$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5

+amp(-012344)425amp123)3627892(+lt

=+$$

gt)(5)

))(5)

D+QRSTU

D-EQVWTRU

D+QVXTRU

D-EQVRTRU

D+QWTYU

D-EQSVTMU

6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F

-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F

M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)

ampamp)(amp80(98(B3amp)-++5T

Y X M YM XM MM YMM YMXM

WM

RM

SM

VM

MM

$-++5OCEMMMF

gt75TU[+A+amp9+

gt75Tgt008-0N

PWTP PTP WTM MTR YTM ST PT TVXMTS

C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants

Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075

06+075 = 666

63 Chunk ParsingPartielle syntaktische Analyse

Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt

Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN

bull NC Ein NC (Nominalchunk) besteht

bull -gt besteht aus

bull ART aus einem Wort der Wortart ART (Artikel)

bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)

76

Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

631 Abneys Chunk-Definition

Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]

Motivationen

bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung

bull Effizienz Teilstrukturen lassen sich effizienter berechnen

bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse

bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden

632 IOB-Chunk

Flache Chunks im IOB-Format

Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist

bull B-K Anfang einer Chunk-Konstituente K

bull I-K Fortsetzung der Chunk-Konstituente K

77

bull 0 Nicht zugeordnet (wird auch chink genannt)

We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP

633 Verschachtelte Chunks

Verschachtelte Chunks

Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich

Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)

[PX [APPR fuumlr][NX [ARTIND eine]

[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]

Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC

64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo

bull Pflichtlektuumlre [Carstensen et al 2009 342-3]

bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking

bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative

bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4

78

ZusammenfassungZusammenfassung

bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung

bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets

bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input

Kontrollfragen

bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen

bull Was unterscheidet Recall und Precision von Accuracy

bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging

bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte

bull Was ist der Vorteil der IOB-Notation fuumlr Chunks

65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele

bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative

bull Kenntnis uumlber Fehlertypen und ihre Gefahr

bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung

651 TrueFalse PositivesNegatives

Evaluation von binaumlren Klassifikatoren

TruthPositive Negative

Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)

Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit

Legende zur Tabelle 63

True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

79

FP Fehlertyp I Test ist positiv wo er nicht sollte

FN Fehlertyp II Test ist negativ wo er nicht sollte

652 Fehlerparadoxe

Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet

Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter

Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet

Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter

653 Unterschiede von Evaluationsmassen

Dualitaumlt von Precision und Recall

TruthPos Neg

Test Pos TP FPNeg FN TN

R = TP

TP + FN

Tabelle 64 Recall

Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision

F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig

80

TruthPos Neg

Test Pos TP FPNeg FN TN

P = TP

TP + FP

Tabelle 65 Precision

TruthPos Neg

Test Pos TP FPNeg FN TN

F = 2times TP2times TP + FP + FN

Tabelle 66 F1-Measure

TruthPos Neg

Test Pos TP FPNeg FN TN

Accuracy = TP + TN

TP + TN + FP + FN

Tabelle 67 Accuracy

654 Mitteln von Recall und Precision

F-Measure Harmonisches vs arithmetisches Mittel

655 Vertiefung

bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]

81

Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]

82

Abbildung 68 M = P +R2 Arithmetisches Mittel

83

Literaturverzeichnis

[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235

[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications

[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University

[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231

[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl

[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen

[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf

[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt

[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf

[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl

[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov

[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl

84

[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf

[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf

[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830

[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485

[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM

[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011

[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl

[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York

[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096

[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA

[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning

[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf

[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin

[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml

85

[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098

[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps

[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd

[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf

[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf

[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf

[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean

[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574

86

Index

10-fache Kreuzvalidierung 74

Adjektiv-Flexion 34Alphabet 56

Eingabealphabet 59

DEA 59Dependenz 47

Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72

F-Measure 75

Genus 32Grad 34

IOB-Chunks 77

Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44

Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25

Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39

Named Entity Regonition 19NER 19

Numerus 33 34

partielle syntaktische 76Person 34Precision 75Probe linguistisch 35

Qualitaumlt einer Evaluation 72

Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72

Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47

Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24

Umformungsprobe 43

Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43

Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24

XML-Standard 14

Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59

87

  • Organisatorisches
    • Organisatorisches
      • Leistungsnachweis
      • Lernen und Lehren
        • Kontrollfragen
          • Tokenisierung
            • Tokenisierer
              • Grundproblem
              • Kodierung
              • Programme
                • XML
                • Tokenisierung
                  • Problem
                  • Punktdisambiguierung
                  • Normalisierung
                  • NER
                    • Multilingualitaumlt
                    • Vertiefung
                      • Linguistisches Propaumldeutikum I
                        • Wort
                          • Token
                          • Wortform
                          • synt Wort
                          • Lexem
                            • Wortarten
                              • 5 Hauptwortarten
                              • UD
                              • STTSPTTS
                                • Merkmale
                                  • Genus
                                  • Zahl
                                  • Kasus
                                  • Modus
                                  • Zeit
                                  • Person
                                  • Grad
                                  • Flexion
                                    • Proben
                                      • Ersetzen
                                      • Einsetzen
                                        • Morphologie
                                          • LemmatisierungMorphologieanalyse
                                          • Morphologiegenerierung
                                            • Vertiefung
                                              • Linguistisches Propaumldeutikum II
                                                • Proben
                                                  • Weglassen
                                                  • Verschieben
                                                  • Umformen
                                                    • Satz
                                                      • Satzglieder
                                                      • Koumlpfe
                                                        • Syntaxanalyse
                                                          • Konstituenz
                                                          • Dependenz
                                                          • UD-DE
                                                          • Suche
                                                            • Ambiguitaumlt
                                                            • Vertiefung
                                                              • Endliche Automaten
                                                                • Formale Sprachen
                                                                  • Mengen
                                                                  • Zeichen
                                                                  • Sprachen
                                                                    • EA und regulaumlre Sprachen
                                                                      • Konkatenation
                                                                      • Regulaumlre Ausdruumlcke
                                                                        • Transduktoren
                                                                          • Flache Satzverarbeitung
                                                                            • Tagging
                                                                              • Probleme
                                                                              • Fallstudie TnT-Tagger
                                                                                • Evaluation
                                                                                  • Zweck
                                                                                  • Accuracy
                                                                                  • Lernkurven
                                                                                  • Recall
                                                                                  • Precision
                                                                                  • F-Measure
                                                                                    • Chunking
                                                                                      • Abney
                                                                                      • IOB-Chunk
                                                                                      • Verschachtelte Chunks
                                                                                        • Vertiefung
                                                                                        • Exkurs Evaluation binaumlrer Klassifikatoren
                                                                                          • TPFPFNTN
                                                                                          • Fehlerparadoxe
                                                                                          • Unterschiede
                                                                                          • Mittelwerte
                                                                                          • Vertiefung
Page 10: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff

Abbildung 21 Navigationselemente der Web-Site der Olympischen Spiele 2008

Rohtexte aus Computersicht Welt der Bytes

$ hexdump dateitxt0000000 57 61 73 20 62 65 69 6e 68 61 6c 74 65 74 20 730000010 69 65 3f 0a0000014

(Der Dateiinhalt ist als Dump1 im Hexadezimalformat wiedergegeben dh jedes Zeichen inForm seines Zeichenkodes als Hexadezimalzahl)Beispiel 212 (Folge von Zeichenkodes in Hexadezimalnotation)Wie viele und welche Woumlrter enthaumllt der folgende Datei-Inhalt57 61 73 20 62 65 69 6E 68 61 6C 74 65 74 20 73 69 65 3F 0A

212 Zeichenkodierung

Was ist ein Zeichen auf dem Computer

bull Traditionell ein Byte dh eine Folge von 8 BitsWas ist ein Bit Binaumlre Entscheidung (0 oder 1)

bull Ein Byte kann als Zahl interpretiert werden indem die Position eines Bits als Stelle imBinaumlrsystem aufgefasst wird 0100rsquo0001

bull Eine Zahl kann als BuchstabeZeichen interpretiert werden indem eine Kodierungskon-vention aufgestellt wird ZB rsquoArsquo=65 rsquorsquo=64 rsquo1rsquo=49

bull Verbreitete Kodierungskonventionen (engl charset) ASCII (128 Zeichen fuumlr Englisch)iso-latin-1 (256 Zeichen fuumlr westeuropaumlische Sprachen)

bull Typische Speicherung bei ASCII und iso-latin-1 1 Zeichen = 1 Byte

Binaumlres und Hexadezimales Stellensystem

1 Byte als binaumlre Zahlen (= 8 Bits)

__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8

__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8

Jedes Kaumlstchen = 1 Bit

4-stellige hexadezimale Zahl (= 4 Bytes)1Zum Beispiel mit dem Befehl $ hexdump dateitxt

9

__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8

__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8

Jedes Kaumlstchen = 1 Byte

Die 128 ASCII-Kodes

Die 128rsquo172 Unicode-Kodes

Moderne universale Kodierungskonvention httpwwwunicodeorgUNICODE(ISOIEC 10646) Version 90 Kodes fuumlr 128rsquo172 Zeichen in fast allen Schriftsystemender WelthttpwwwunicodeorgstandardWhatIsUnicodehtml

GRINNING FACE

bull Kode 128512 (Hexadezimal 1F600)

bull UTF-8 Byte-Repraumlsentation F0 9F 98 80

bull~ In UTF-8 sind nur Unicode-Kodes von ASCII-Zeichen direkt in ihrer Binaumlrzahl-Repraumlsentationgespeichert

10

Was ist ein Zeichen auf dem Computer UTF-8-Format

bull Speicherung bei UNICODE UTF (Abk fuumlr Unicode Transformation Format) beschreibtMethoden einen Unicode-Kode auf eine Folge von Bytes abzubilden

bull UTF-8 (Abk fuumlr 8-bit Universal Character Set Transformation Format) Ordnet jedemUnicode-Zeichen eine speziell kodierte Bytefolge von variabler Laumlnge zu UTF-8 unter-stuumltzt bis zu 4 Byte pro Zeichen

bull Dateiformat XML-Dateien sind defaultmaumlssig UTF-8 kodiert Bei andern Dateien mussman es wissen

bull Jede ASCII-Datei ist auch eine UTF-8-Datei (Ruumlckwaumlrtskompatibilitaumlt)

bull Darstellung Zeichensaumltze (engl fonts) enthalten die graphischen Formen (glyphs) damitdas Betriebssystem die Kodes fuumlrs Auge darstellen kann

bull Konversionswerkzeuge ZB GNU-Kommandozeilentool iconv

Textkonversion mit iconv

Verlustfreie Textkonversion nach UTF-8

$ iconv -f EXOTISCHEKODIERUNG -t UTF-8 lt INPUT gt OUTPUT

Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen laumlsst sich auch Text-Normalisierung durch ldquoTransliterationrdquo2 durchfuumlhren

$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIITRANSLITKlosschen

Das Loumlschen von nicht-repraumlsentierbaren Zeichen ist meist weniger nuumltzlich

$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIIIGNOREKlchen

213 Programme

Grundproblem Vom Zeichenstrom zur Folge von Tokens

RohdatenRohe elektronische Sprachdaten liegen in Dateien vor welche nichts anderes als eine Folge vonkodierten Einzelzeichen dh ein kontinuierlicher Zeichenstrom sind

Token Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung Wortkorrektur morphologische Analyse Lexikonzugriff syn-taktische Analyse

Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)

2~ Das Ergebnis kann von Landeseinstellungen (locale) abhaumlngig sein

11

bull Konsumieren der Zeichenfolge (Eingabe)

bull Gruppieren und allenfalls normalisierenmodifizieren der Zeichen (Verarbeitung)

bull Produzieren einer Folge von Tokens (Ausgabe)

Typische Beispiele fuumlr Tokenisierer Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text dh 1 Token pro Zeile Saumltzesind durch Leerzeilen voneinander abgetrennt

Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhaumlngiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkuumlrzungsdatei(ger-abbrev)

$ cat filetxtBachrsquosche Musikmag Dr Fritz Ja

$ cat ger-abbrevDrusw

$ utf8-tokenizeperl -a ger-abbrev filetxtBachrsquoscheMusikmagDrFritz

Ja

Typische Beispiele fuumlr Tokenisierer Regulaumlre AusdruumlckeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PythonPERL oder Finite-State Tools welche einen einfachen Umgang mit regulaumlren Ausdruumlcken er-lauben

Definition 213 (Regulaumlre Ausdruumlcke (engl regular expressions)) Ein regulaumlrer Ausdruck isteine relativ standardisierte Kurz-Notation um Zeichenketten mit bestimmten Eigenschaften zubeschreibenPraktisch eingesetzt werden sie fuumlr die nicht-woumlrtliche Suche (engl pattern matching) Suchen-und-Ersetzen und Segmentieren von Zeichenketten

Einfuumlhrung in regulaumlre AusdruumlckeZB in unserem CLab httpwwwcluzhchclabregex

12

Tokenisierer in der ProgrammiersprachePython

Tokenisierer mit regulaumlren Ausdruumlcken

bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben

bull Einfach anpassbar auf die Textsorte

bull Fuumlr uumlberschaubare Textmengen empfohlen

bull Vorteil Machen dieselben Fehler konsequent

bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung

Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])

1 Rohtext

This is an example There are two sentences

2 XML-Input fuumlr Tokenisierer (Vortokenisierung)

ltdocumentgtlttextgt

ltpgtThis is an example There are two sentences

ltpgtlttextgt

ltdocumentgt

3 XML-Tokenisat

ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt

13

ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt

Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert

Verschachtelung im XML-Stil

ltdocumentgtlttextgt

ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example

ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences

Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags

22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation

bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs

bull httpstubeswitchchvideos60fc01f1

XML (eXtensible Markup Language)

Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann

14

XML in der Texttechnologie

bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)

bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten

bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben

Aufbau von XML-Dokumenten

Elemente und ihre Attribute

bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt

bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)

bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt

bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt

bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt

bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt

Zeichenreferenzen und Entity-Referenzen

Entitaumlten und Referenzen

bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden

bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal

bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den

Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38

Newline amp9Σ ampx3a3

15

23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen

231 Problem

Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt

bull Wort-Zeichen [a-zA-Z0-9]

bull Einzel-Zeichen [)(rsquo$-]

bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]

ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo

Schwierigkeiten der Wortsegmentierung im engen Sinn

Schwierige Zeichen

bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim

bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr

bull Bindestriche semble-t-il rarr semble + -t-il

bull Punkte SAC

bull Masseinheiten 30 rarr 30 + 28 rarr 28 +

bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que

Teilprobleme der Tokenisierung im weiten Sinn

bull Umgang mit Markup (HTML-Tags Formatierungszeichen)

bull Erkennung der ldquonormalenrdquo Tokengrenzen

bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)

bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)

bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)

bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)

16

232 Punktdisambiguierung

Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben

Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert

Verschmelzung

bull It was due Friday by 5 pm Saturday would be too late

bull Ich kenne die USA Frankreich kenne ich nicht

WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig

Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls

bull das Token in einer Abkuumlrzungsliste steht

bull nach dem Token eines der Zeichen aus [a-z] folgt

bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht

bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt

Nach [Grefenstette und Tapanainen 1994]

LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen

Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen

Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN

1 Wie viele Zeichen umfasst TOKEN

2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale

3 Wie oft kommt TOKEN ohne Punkt vor

4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor

5 Wie oft kommt NEXTTOKEN kleingeschrieben vor

17

Satzsegmentierung mit maschinellen Lernverfahren

bull Fuumlr grosse Textmengen empfohlen

bull Nachteil Unsystematische Fehler koumlnnen auftreten

Statistisches System PUNKT ([Kiss und Strunk 2006])

bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten

bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt

iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte

233 Zeichen- und Token-Normalisierung

Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen

Normalisierung bei Suchmaschinen und anderen Anwendungen

bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich

bull 4897 4-8-97 4897 8497

bull 19000 19rsquo000 19 000 19000

bull Louisa Luise Louise Luisa

bull doesnrsquot does not

Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)

bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt

bull Hollaumlndisch chocola-tje rarr chocolaatje

Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen

18

Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung

Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens

615 5 Ruumlckbau in neue Tokens

Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus

Ruumlckgaumlngig machen von Worttrennung am Zeilenende

Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens

Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch

234 Named Entity Recognition

Named Entity Recognition

Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen

Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen

Kanonische Formen und Entity Linking

bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo

bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo

Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3

Demo Time Expression Recognition (TIMEX task)

24 MultilingualitaumltMultilinguale Dokumente und Systeme

Herausforderung Multilingualitaumlt

bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess

19

Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular

Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML

bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig

bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut

bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet

bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut

Ansatz von [Cavnar und Trenkle 1994]

20

1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten

2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)

3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil

4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm

5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand

N-Gramm-Profile und Profilabstand

Quelle [Cavnar und Trenkle 1994]

Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]

25 VertiefungZum Thema ldquoTokenisierungrdquo

bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28

bull Pflichtlektuumlre [Carstensen et al 2009 341]

bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]

Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)

bull httpwwwcluzhchclabregex

Zum Thema ldquoXMLrdquo

21

bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1

bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]

Zusammenfassung

bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen

bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen

bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen

bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung

bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar

bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen

bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden

Kontrollfragen

bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention

bull Welche Probleme stellen sich bei der Tokenisierung

bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung

bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten

bull Was versteht man unter NER

bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle

22

Kapitel 3

Linguistisches Propaumldeutikum I

Lernziele

bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen

bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg

bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch

bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte

bull Kenntnis und Anwendung linguistischer Proben

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten

bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung

31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs

Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind

Praumlzisierungsversuche des Wort-Begriffs

bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment

bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit

bull Morphologisch Grundeinheit welche flektierbar ist

bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist

bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes

23

Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach

Antworten 4 5 6 9 __

311 Token

Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9

Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText

BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann

312 Wortform

Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes

Identische Wortformen mit unterschiedlicher Bedeutung

bull Die Fliege war tot

bull Er trug eine samtene Fliege

bull Fliege nicht so schnell

313 Syntaktisches Wort

Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6

Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst

Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural

24

314 Lexem

Antwort 5 Wort als Lexem

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden

Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem

Lexikographische Notationskonventionen

Wie sehen Verb-Lemma in DeutschenLatein aus

Antwort 4 Wort als Lexemverband

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4

Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert

Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln

Stufen der Abstraktion Vom Text zum Lexemverband

bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)

bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)

bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen

bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden

bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird

25

32 Lehre von den WortartenWortarten nach [Bussmann 2002]

Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien

Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb

5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det

321 5 Hauptwortarten nach Glinz

Klassifikationskriterien

Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]

Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

26

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

322 UD

Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)

Universal Part-of-Speech Tagset (Version 1)1

12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish

ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo

Universal Part-of-Speech Tagset (Version 2) UPOS2

Version 2 hat 17 POS-Tags

+ Eigennamen (PROPN) (vorher NOUN)

+ Hilfsverben (AUX) (vorher VERB)

+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)

+ Symbole (SYM) (vorher X)

+ Interjektionen (INTJ) (vorher PRT)

= Partikel (PART) (vorher PRT)

= Interpunktion (PUNCT) (vorher )

Baumbanken sind fuumlr 51 Sprachen verfuumlgbar

27

Abbildung 32 Deutsche UD-Baumbank

UD V13 fuumlr Deutsch

NDurchsuchen

bull Suche nach Wort spaumlter

bull Nach Wort+Wortart spaumlterampADV

UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml

Mehrdeutigkeiten Unklarheiten Fehlannotationen

Linguistische Annotation und Automatisierung

Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form

Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml

28

bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)

bull Vollautomatisch Schnell billig fehlerbehaftet

bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile

Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml

N CoNLL-Format Spaltenformat fuumlr Annotationen3

bull Vertikalisierter Text

bull 1 Token pro Zeile

bull Saumltze mit Leerzeile getrennt

bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation

bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet

Bedeutung relevanter Spalten

1 Tokennummer (1-basierte Zaumlhlung) pro Satz

2 Wortform (Token)

3 Lemma

4 Grobe Wortklasse (coarse-grained part-of-speech tag)

5 Feine Wortklasse (fine-grained part-of-speech tag)

6 Morphosyntaktische Merkmale

7 Syntaktischer Kopf als Tokennummer

8 Dependenztyp

CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo

Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token

3httpuniversaldependenciesorgformathtml

29

Abbildung 33 CoNLL-U und CoNLL-X

Manuelle Annotation mit WebAnno und Exportformate

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

323 Feine Tagsets

Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis

bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags

bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert

bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch

bull Alternativen Muumlnsteraner Tagset [Steiner 2003]

Wieso ist das STTS wichtig

bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)

ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel

bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo

30

Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts

Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken

33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale

Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden

Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems

bull Konjugation von Verben

bull Deklination von Nomen Adjektiven Artikeln und Pronomen

bull Steigerung von Adjektiven (und wenigen Adverbien)

Diskussion Sind steigerbare Adverbien ein Widerspruch im System

Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet

31

Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts

Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn

331 Genus

Das Genus (UD Gender) Grammatisches Geschlecht

Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien

Tabelle 31 Uumlbersicht Genera

BemerkungDer Plural von Genus lautet Genera

Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt

Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen

Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind

Deutsch

32

Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur

AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas

332 Numerus

Der Numerus (UD Number) Grammatische Zahl

Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner

Tabelle 32 Uumlbersicht Numeri

BemerkungDer Plural von Numerus lautet Numeri

Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt

333 Kasus

Der Kasus (UD Case) FallUD-Kategorie Case

Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum

Tabelle 33 Uumlbersicht Kasus

BemerkungDer Plural von Kasus lautet Kasus

334 Modus

Der Modus (engl mode mood UD Mood) Aussageweise

Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh

Tabelle 34 Uumlbersicht Modi

In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi

33

335 Tempus

Das Tempus (UD Tense) grammatische Zeit Zeitform

Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging

Tabelle 35 Uumlbersicht Tempora

BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten

336 Person

Die Person (UD Person)

Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht

Tabelle 36 Uumlbersicht Personen

BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt

337 Grad

Der Grad (UD Degree) Steigerung Komparation

Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste

Tabelle 37 Uumlbersicht Komparation

BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt

338 Adjektiv-Flexion

Die Adjektiv-Flexion (engl adjective inflection)

BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven

Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet

34

Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse

Tabelle 38 Uumlbersicht Adjektiv-Flexion

Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern

UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt

Morphologische Englische UD-Annotation

1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _

34 Linguistische ProbenLinguistische Testverfahren

Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen

341 Ersatzprobe

Ersatzprobe

Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben

35

Beispiel 343 (Bestimmung des Kasus)

Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat

Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen

Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)

bull Das ist das Angebot das uns uumlberzeugt hat

bull Dieses ist das Angebot welches uns uumlberzeugt hat

bull Welches ist das Angebot dieses uns uumlberzeugt hat

bull Das ist dieses Angebot welches uns uumlberzeugt hat

Probleme der Interpretation

bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes

bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig

342 Einsetzprobe

Einsetzprobe

Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert

Beispiel 345 (Bestimmung der Wortart)

Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb

Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive

35 MorphologieMorphologische Ebene

Womit befasst sich die Morphologie Wortstruktur und Wortbildung

bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e

36

bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit

bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system

351 LemmatisierungMorphologieanalyse

Lemmatisierung und Morphologieanalyse

Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen

Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma

Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo

Analysen von GERTWOL5

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Probleme morphologischer Analysen Mehrdeutigkeit

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM

Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol

37

bull ldquoeinerdquo als

bull ldquoMuumlllerrdquo als Eigenname oder Substantiv

Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus

Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1

Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile

Probleme morphologischer Analyse

googelte

UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter

Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM

ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat

Lieblingsbeerelieb~lingsbeere S FEM SG NOM

Erdbeereerdbeere S FEM SG NOM

Fingerbeerenfingerbeere S FEM PL NOM

UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung

38

Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas

Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]

Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent

352 Morphologiegenerierung

Generierung von syntaktischen Wortformen

Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation

Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|

Person=2|Tense=Past|VerbForm=Fingingst

backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin

36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT

bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem

bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6

bull Die Website universaldependenciesorg hat einige Dokumentation

Zusammenfassung

bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet

bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte

bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme

bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen

6httpwwwdsuzhchstudien-cd

39

Kontrollfragen

bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo

bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2

bull Worin besteht Morphologieanalyse und -generierung

bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller

bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt

bull Was ist der Unterschied zwischen Lemma und Lexem

40

Kapitel 4

Linguistisches Propaumldeutikum II

Lernziele

bull Anwendung der klassischen syntaktischen Proben

bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf

bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte

bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen

bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug

Motivation 2 (halbwegs kompatible) Syntax-Welten

Konstituenten

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Dependenz

41

Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden

(NGoogles SyntaxNet)

41 Syntaktische ProbenKonstituentenproben

Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt

Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

411 Weglassprobe

Weglassprobe

Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten

Bestimmung eines Satzglieds

1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

FrageWarum nicht Variante 4

42

412 Verschiebeprobe

Verschiebeprobe

Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen

Bestimmung von Satzgliedern

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen bereite ich die Sitzung mit dem Chef vor

3 Ich bereite die Sitzung mit dem Chef morgen vor

Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb

Verschiebeprobe

Unzulaumlssiges Verschieben

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen ich bereite die Sitzung mit dem Chef vor

3 Die Sitzung bereite ich morgen mit dem Chef vor

413 Umformungsproben

Umformungsprobe

Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut

Funktion von Nebensaumltzen

1 Es wuumlrde mich freuen wenn du mitkaumlmest

2 Dein Mitkommen wuumlrde mich freuen

Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo

Infinitivumformung zur Subjekterkennung

1 Die Laumlrche ist ein Nadelbaum

2 ein Nadelbaum sein die Laumlrche

43

Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]

42 SatzSatz

Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist

Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten

421 Satzglieder

Moderne Satzgliedlehre

422 Koumlpfe (oder Kerne) von Konstituenten

Syntaktische Koumlpfe (engl head) Kern (engl kernel)

Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar

Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)

1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]

2 Sie rennt [mit dem Mobile hantierend] zum Kiosk

3 Es wird [viel zu oft] telefoniert

44

4 [Die Frau die zum Kiosk rannte ] war aufgeregt

5 Sie fuumlhlte sich [wie in einem schlechten Film]

6 Aber sie war auch [in einem ziemlich schlechten Film]

43 Syntaxanalyse

431 Konstituenz

Konstituenten und Konstituenz

Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist

Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten

Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten

Konstituenten in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

unmittelbare Dominanz

Konstituente auf Wortebene

Syntaktische Konstituente

Praumlzedenz auf Wortebene

Praumlzedenz zwischen Tochterkonstituenten

Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung

Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente

Konstituententypen

Typen von Konstituenten in TIGERNEGRA

1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen

45

2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern

3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern

4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern

5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern

6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern

7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo

Annotation von Relativsaumltzen

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen

Komplexe Konstituenz in der Penn-Treebank

Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white

Syntaxbaum aus der Vogelperspektive

In

IN

other

JJ

words

NNS

like

IN

automation

NN

machines

NNS

designed

VBN

-NONE-

to

TO

work

VB

in

IN

tandem

NN

they

PRP

shared

VBD

the

DT

same

JJ

programming

NN

a

DT

mutual

JJ

understanding

NN

not

RB

only

RB

of

IN

English

NNP

words

NNS

but

CC

of

IN

the

DT

four

CD

stresses

NNS

pitches

NNS

and

CC

junctures

NNS

that

WP

T

-NONE-

can

MD

change

VB

their

PRP$

meaning

NN

from

IN

black

NN

to

TO

white

NN

NP

PP

NP NP NP

PP

VP

VP

SBJ

S

VP

NP

PP

NP NP NP CONJP NP

PP

NP WHNP NP NP NP

PP

NP

PP

PP

VP

VP

SBJ

S

SBAR

NP

PP

PP

NP

NP

VP

SBJ

S

T

46

Quelle TIGERSearch-Demo-Korpora

Maximale Verschachtelungstiefe

432 Dependenz bzw syntaktische Funktion

Dependenz und syntaktische Funktion

Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten

Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen

HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt

Syntaktische Funktionen in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Syntaktische Funktion

Konstituenten

Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung

Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente

Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken

Einige Satzglieder mit TIGER-Funktion

bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein

47

Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)

bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)

bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)

bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)

bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator

bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb

Baumbankkonversion Von Konstituenz zu Dependenz

Automatische Konversion (NTIGER2Dep)

Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)

433 UD-DE-Modell

Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen

48

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

Generelle Philosophie des Universal-Dependency-Modells

bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig

bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV

bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum

bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden

bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der

bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)

bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens

Inhaltswoumlrter VERB und NOUN

Hinweisebull Spitze des Pfeils Abhaumlngiges Element

bull Startknoten des Pfeils Kopf

bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen

bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird

Das UD-Innenleben von Nominalphrasen

Hinweisebull Was ist der NP-Kopf

bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll

49

Komplexe Verb- und Adjektivphrasen

Hinweise

bull Hilfs- und Modalverben haumlngen vom Vollverb ab

bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich

Kopulakonstruktion und Gleichsetzungsnominativ

Fragen

bull Wovon haumlngt das Subjekt ab

bull NSuche nach ist im Suchwerkzeug

bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft

Interpunktion

Hinweise

bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt

50

Verschachtelte Saumltze

Hinweise

bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab

bull Wann aclrelcl und wann advcl

Koordination

Koordination Koumlpfe und Abhaumlngigkeitsrichtung

Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht

Koordination von Konstituenten aus NEGRA-Korpus

bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]

bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]

bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]

2 Fragen mit mehreren moumlglichen Antworten

bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt

bull In welche Richtung werden koordinierte Elemente verknuumlpft

Koordination in der NUD

Frage

bull Welche Antworten gibt die UD

51

Manuelle Syntax-Annotation mit WebAnno

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)

bull Click-und-Drag-Interface mit der Maus

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml

Aufgabe Annotation von Relativsatz

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Wie sieht eine UD-Annotation von diesem Satz aus

434 Suche

NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken

Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-

Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens

2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)

KOPF gt NICHTKOPF

NICHTKOPF lt KOPF

Analog zur Pfeilrichtung in der BRAT-Visualisierung

52

Grundlegende syntaktische Suchrezepte

bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging

bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging

bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde

bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld

bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor

bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _

bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist

44 AmbiguitaumltZusammenfassung

bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen

bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden

bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab

bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])

45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]

bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre

bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren

bull Quiz Die Form der Satzglieder

bull Quiz Satzglieder und Proben

bull Linguistik-CD

53

Kapitel 5

Endliche Automaten

Lernziele

bull Einstieg in die Formalisierung von Sprache

bull Was sind Zeichenketten formalmathematisch

bull Was ist eine formale Sprache

bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation

bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten

bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie

bull Wann ist ein endlicher Automat deterministisch und wann nicht

bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten

54

51 Formale Sprachen

511 Mengen

A Quick Review of Set Theory

A set is a collection of objects

A B

D E

We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E

There is no significant order in a set so A D B E is the same set as E A D B etc

Quelle B04

Cardinality of Sets

 The Empty Set

 A Finite Set

 An Infinite Set eg The Set of all Positive Integers

Norway Denmark Sweden

Quelle B04

512 Zeichen

Das Alphabet (Sigma) Menge von Zeichen

55

Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert

Zeichen des EnglischenΣEnglisch = a b c x y z

Zeichen der binaumlren ZahlenΣbin = 0 1

Zeichenketten (strings)

Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ

Zeichenketten uumlber englischen Symbolen ΣEnglisch

a we muntjac talk walk krwrk

Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0

Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast

bin = ε 0 1 00 01 10 11 001

513 Sprachen

Formal Languages

Very Important Concept in Formal Language Theory

A Language is just a Set of Words

bull  We use the terms ldquowordrdquo and ldquostringrdquo interchangeably

bull  A Language can be empty have finite cardinality or be infinite in size

bull  You can union intersect and subtract languages just like any other sets

56

Quelle B04

Union of Languages (Sets)

dog cat rat elephant mouse

Language 1 Language 2

dog cat rat

elephant mouse

Union of Language 1 and Language 2 Quelle B04

Formale Sprachen als Teilmenge von Sigma Stern

L sube Σlowast

Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast

Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes

Englische Woumlrterwalk talk work sube a b zlowast

Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt

Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit

Formales Modell Wirklichkeit

Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme

57

Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der

Wirklichkeit zu repraumlsentieren

Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working

worked works talk

talking talked talks

walk walking

walked walks

The concatenation of

the Suffix language

after the Root

language

0 or denotes the empty string

Abbildung 51 Sprache mit 3 WoumlrternZeichenketten

Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk

Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage

Beispiel fuumlr Deterministischen Endlichen Automaten

talk isin work talk walk

bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile

52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)

Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand

58

Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert

Nicht-Deterministische Endliche Automaten (NEA)

Abbildung 52 Deterministischer EA

Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg

Nicht-Determinismus IIEs gibt mindestens eine ε-Kante

Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln

Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus

1 einer endlichen Menge Zustaumlnde Φ

2 einem endlichen Eingabealphabet Σ

3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ

59

4 einem Startzustand S isin Φ

5 einer Menge von Endzustaumlnden F sube Φ

Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)

δ Φtimes (Σ cup ε)rarr weierp(Φ)

521 Konkatenation

Konkatenation von Zeichenketten und Sprachen

Konkatenation von Zeichenkettenu bull v = uv

lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo

Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V

lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo

Concatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working worked works talk talking talked talks walk walking walked walks

The concatenation of the Suffix language after the Root language

0 or ε denotes the empty string

60

Quelle B04

Concatenation of Languages II

work talk walk

Root Language

0 ing ed s

Suffix Language

rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks

The concatenation of the Prefix language Root language and the Suffix language

Prefix Language

re out 0

outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks

work working worked works talk talking talked talks walk walking walked walks

Quelle B04

Languages and Networks

w a l k

o r

t

NetworkLanguage 2 NetworkLanguage 3

s

o r The concatenation of Networks 1 2 and 3 in that order

w a l k t

a

a s

ed

i n g

0

s

ed

i n

0s

g o

r

NetworkLanguage 1

s

u t

e

0

o

r s

t

e

0 u

Quelle B04

522 Regulaumlre Ausdruumlcke

Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)

Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann

61

bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo

bull Die Mengen a1a2an sind regulaumlr RA a oder b

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)

bull Ist L regulaumlr dann auch LlowastRA (A)

Wie kann man Optionalitaumlt ausdruumlcken

Graphischer Algorithmus Konversion von RA zu NEA

JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten

Algorithmus

1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde

2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten

3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander

4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen

Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten

Epsilon

Symbol a

Konkatenation (ab)

Alternative (a|b)

62

encodes

a

LANGUAGE RELATION

compiles intoa

REGULAR EXPRESSIONa

FINITE-STATE NETWORKde

notes

Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])

Wiederholung (a)

Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert

63

53 Transduktoren

Linguistic Transducer Machines

mesas

Generator

ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas

m e s a +Noun +Fem +Pl

m e s a 0 0 s

mesa+Noun+Fem+Pl

Analyzer

ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas

Quelle B04

Gute Eigenschaften von endlichen Automaten und Transduktoren

bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen

bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde

bull Beispiel NRumantsch Grischun

bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren

Zusammenfassung

bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben

bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen

bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den

bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt

bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden

64

Vertiefung

bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)

bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo

bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo

bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial

65

Kapitel 6

Flache Satzverarbeitung

Lernziele

bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets

bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung

bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen

bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells

bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger

bull Kenntnis uumlber partielle syntaktische Analyse

bull Kenntnis uumlber flache und verschachtelte Chunks

Welches mehrdeutige Wort hat dieses Profil

UPOS-Tag Vorkommen1

1021ADP 848ADV 61

PROPN 14ADJ 1

61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT

N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token

66

Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)

bull eineDET Kuh Lemma ldquoeinrdquo

bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)

bull lead Verb lid (fuumlhren) Nomen led (Blei)

bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe

Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren

Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to

be present tense 3rd person singular

Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch

Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist

Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]

bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)

bull Effizient Der Tagger arbeitet schnell

bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)

bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den

bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden

Was fehlt

67

611 Probleme des Taggings

Wortformen mit mehreren moumlglichen Tags

MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token

Tag-Ambiguitaumlt im Englischen

Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]

Haumlufigkeiten im Brown-Korpus

bill NN 2351

promised VBD 34~~VBN 10~~JJ 2

back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2

Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token

die~~ART 2351~~PRELS 448~~PDS 4

Mehrheit~~NN 40

bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1

Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0

Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen

bull Unterscheidung zwischen offenen und geschlossenen Wortarten

bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)

68

Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]

Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)

bull 98 aller Woumlrter mit Endung -able sind Adjektive

bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname

Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe

oo

n

e

g

n

d

senuel

l

cv

y ta

o

mtsiii

o

i

ies (NNS09 VBZ01)ons (NNS095 VBZ005)

ed (VBN04 JJ03 VBD03)

le (NN025 JJ045 NP02 VB01)

ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)

ty (NN045 JJ035 NP02)

son (NP08 NN01 JJ01)

man (NP08 NN02)ton (NP09 NN005 JJ005)

ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)

ous (JJ096 NN004)

old (JJ098 NN002)

Quelle [Schmid 1995]

Wortformen mit mehreren moumlglichen Tags Kontext

69

Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6

Vorkommen von ldquobackrdquo im Brown-Korpus

ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung

Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen

Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet

bull die moumlglichen Tags von wn aus Tagger-Lexikon

bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens

Context

3

3

Kontextmodell des Trigrammtaggers TnT [Brants 2000]

612 Fallstudie TnT-Tagger

Supervisiertes Maschinelles Lernen

70

Quelle [Raschka 2015 11]

ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt

Fallstudie TnT-Tagger trainieren und evaluieren

Testkorpustestttstesttxt

Trainingskorpustrainingtts

Getaggtes Korpus

Aufteilen des Korpus

Taggingtnt

Trainingtnt-para

Parameter-Dateien

traininglextraining123

Evaluations-korpus

evaltts

Evaluationtnt-diff

Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger

Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]

1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)

$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts

2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden

$ head --lines 278081 ud-de-v13tts gt trainingtts

3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden

$ tail --lines 30900 ud-de-v13tts gt testtts

71

4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus

$ tnt-para trainingtts

5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut

$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts

6 Man erstelle das Evaluationskorpus

$ cut -f 1 testtts gt evaltxt

7 Man tagge das Evaluationskorpus mit dem Trainingsmodell

$ tnt training evaltxt gt evaltts

8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus

$ tnt-diff testtts evaltts

62 EvaluationEvaluation

Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode

Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt

Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird

Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind

Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden

Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)

Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat

72

Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein

621 Zweck

Zweck von Evaluationen

SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert

SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist

622 Accuracy

POS-Tagger-Evaluation Genauigkeit

Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens

accuracy = N minus EN

Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit

Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus

Tagt Freqt Tagf Freqf Ant Erel Eabs

NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010

Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]

Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler

73

5-fache Kreuzvalidierung visuell

Figure 8-2 K-fold cross-validation

Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point

You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order

gtgtgt import randomgtgtgt randomshuffle(f)

If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold

gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k

Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on

Problems That Can Affect Evaluation | 179

Quelle [Pustejovsky und Stubbs 2013 179]

Genauigkeit unter 10-facher Kreuzvalidierung

Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))

accuracy =sumi=10

i=1 accuracyi

10

Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen

623 Lernkurven

624 Recall

Recall (Ausbeute Abdeckung Vollstaumlndigkeit)

Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems

R = At

Nt

Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600

800 = 75

74

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp())+-01$+-0-2)00-))304

56)77

8010

904010

6+789lt

6-=7gt8lt

6+7gtlt

6-=7gt8lt

6+7lt

6-=79lt

2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J

-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J

)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)

Qampamp)(ampI0(EI(K3amp)-++5

8

9

gt

R9 9 S gt9 8 RR gtS

$-++5NF=J

TM5ltU+B+ampE+

TM5T00I-0L

SSR

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

6)6lt$$)amp$+)=$gt=((+

Q-M-44amp-0C

5-66ampK1F3()ampKVWWJ

6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(

Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp

)-)amp3)T)C

$5-66ampK1F(0amp+KampKVWWJ

6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+

U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+

TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+

+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt

QZ]T F6-+JgtRlt gt8lt [RSlt

Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants

625 Precision

Precision (Genauigkeit Praumlzision)

Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems

P = At

A

Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600

1000 = 60

626 F-Measure

F-Measure (F-Mass)

Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems

F = 2times P timesRP +R

75

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp()

67-18-)amp+8(+5)9amp0amp4amp-

6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F

2++$G-+AH-11))Iamp8+-1

J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+

$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5

amp+)-5)amp-0)ampA+

$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()

$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5

+amp(-012344)425amp123)3627892(+lt

=+$$

gt)(5)

))(5)

D+QRSTU

D-EQVWTRU

D+QVXTRU

D-EQVRTRU

D+QWTYU

D-EQSVTMU

6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F

-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F

M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)

ampamp)(amp80(98(B3amp)-++5T

Y X M YM XM MM YMM YMXM

WM

RM

SM

VM

MM

$-++5OCEMMMF

gt75TU[+A+amp9+

gt75Tgt008-0N

PWTP PTP WTM MTR YTM ST PT TVXMTS

C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants

Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075

06+075 = 666

63 Chunk ParsingPartielle syntaktische Analyse

Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt

Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN

bull NC Ein NC (Nominalchunk) besteht

bull -gt besteht aus

bull ART aus einem Wort der Wortart ART (Artikel)

bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)

76

Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

631 Abneys Chunk-Definition

Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]

Motivationen

bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung

bull Effizienz Teilstrukturen lassen sich effizienter berechnen

bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse

bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden

632 IOB-Chunk

Flache Chunks im IOB-Format

Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist

bull B-K Anfang einer Chunk-Konstituente K

bull I-K Fortsetzung der Chunk-Konstituente K

77

bull 0 Nicht zugeordnet (wird auch chink genannt)

We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP

633 Verschachtelte Chunks

Verschachtelte Chunks

Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich

Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)

[PX [APPR fuumlr][NX [ARTIND eine]

[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]

Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC

64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo

bull Pflichtlektuumlre [Carstensen et al 2009 342-3]

bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking

bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative

bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4

78

ZusammenfassungZusammenfassung

bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung

bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets

bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input

Kontrollfragen

bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen

bull Was unterscheidet Recall und Precision von Accuracy

bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging

bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte

bull Was ist der Vorteil der IOB-Notation fuumlr Chunks

65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele

bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative

bull Kenntnis uumlber Fehlertypen und ihre Gefahr

bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung

651 TrueFalse PositivesNegatives

Evaluation von binaumlren Klassifikatoren

TruthPositive Negative

Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)

Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit

Legende zur Tabelle 63

True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

79

FP Fehlertyp I Test ist positiv wo er nicht sollte

FN Fehlertyp II Test ist negativ wo er nicht sollte

652 Fehlerparadoxe

Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet

Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter

Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet

Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter

653 Unterschiede von Evaluationsmassen

Dualitaumlt von Precision und Recall

TruthPos Neg

Test Pos TP FPNeg FN TN

R = TP

TP + FN

Tabelle 64 Recall

Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision

F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig

80

TruthPos Neg

Test Pos TP FPNeg FN TN

P = TP

TP + FP

Tabelle 65 Precision

TruthPos Neg

Test Pos TP FPNeg FN TN

F = 2times TP2times TP + FP + FN

Tabelle 66 F1-Measure

TruthPos Neg

Test Pos TP FPNeg FN TN

Accuracy = TP + TN

TP + TN + FP + FN

Tabelle 67 Accuracy

654 Mitteln von Recall und Precision

F-Measure Harmonisches vs arithmetisches Mittel

655 Vertiefung

bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]

81

Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]

82

Abbildung 68 M = P +R2 Arithmetisches Mittel

83

Literaturverzeichnis

[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235

[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications

[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University

[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231

[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl

[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen

[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf

[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt

[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf

[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl

[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov

[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl

84

[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf

[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf

[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830

[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485

[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM

[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011

[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl

[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York

[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096

[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA

[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning

[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf

[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin

[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml

85

[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098

[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps

[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd

[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf

[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf

[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf

[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean

[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574

86

Index

10-fache Kreuzvalidierung 74

Adjektiv-Flexion 34Alphabet 56

Eingabealphabet 59

DEA 59Dependenz 47

Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72

F-Measure 75

Genus 32Grad 34

IOB-Chunks 77

Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44

Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25

Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39

Named Entity Regonition 19NER 19

Numerus 33 34

partielle syntaktische 76Person 34Precision 75Probe linguistisch 35

Qualitaumlt einer Evaluation 72

Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72

Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47

Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24

Umformungsprobe 43

Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43

Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24

XML-Standard 14

Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59

87

  • Organisatorisches
    • Organisatorisches
      • Leistungsnachweis
      • Lernen und Lehren
        • Kontrollfragen
          • Tokenisierung
            • Tokenisierer
              • Grundproblem
              • Kodierung
              • Programme
                • XML
                • Tokenisierung
                  • Problem
                  • Punktdisambiguierung
                  • Normalisierung
                  • NER
                    • Multilingualitaumlt
                    • Vertiefung
                      • Linguistisches Propaumldeutikum I
                        • Wort
                          • Token
                          • Wortform
                          • synt Wort
                          • Lexem
                            • Wortarten
                              • 5 Hauptwortarten
                              • UD
                              • STTSPTTS
                                • Merkmale
                                  • Genus
                                  • Zahl
                                  • Kasus
                                  • Modus
                                  • Zeit
                                  • Person
                                  • Grad
                                  • Flexion
                                    • Proben
                                      • Ersetzen
                                      • Einsetzen
                                        • Morphologie
                                          • LemmatisierungMorphologieanalyse
                                          • Morphologiegenerierung
                                            • Vertiefung
                                              • Linguistisches Propaumldeutikum II
                                                • Proben
                                                  • Weglassen
                                                  • Verschieben
                                                  • Umformen
                                                    • Satz
                                                      • Satzglieder
                                                      • Koumlpfe
                                                        • Syntaxanalyse
                                                          • Konstituenz
                                                          • Dependenz
                                                          • UD-DE
                                                          • Suche
                                                            • Ambiguitaumlt
                                                            • Vertiefung
                                                              • Endliche Automaten
                                                                • Formale Sprachen
                                                                  • Mengen
                                                                  • Zeichen
                                                                  • Sprachen
                                                                    • EA und regulaumlre Sprachen
                                                                      • Konkatenation
                                                                      • Regulaumlre Ausdruumlcke
                                                                        • Transduktoren
                                                                          • Flache Satzverarbeitung
                                                                            • Tagging
                                                                              • Probleme
                                                                              • Fallstudie TnT-Tagger
                                                                                • Evaluation
                                                                                  • Zweck
                                                                                  • Accuracy
                                                                                  • Lernkurven
                                                                                  • Recall
                                                                                  • Precision
                                                                                  • F-Measure
                                                                                    • Chunking
                                                                                      • Abney
                                                                                      • IOB-Chunk
                                                                                      • Verschachtelte Chunks
                                                                                        • Vertiefung
                                                                                        • Exkurs Evaluation binaumlrer Klassifikatoren
                                                                                          • TPFPFNTN
                                                                                          • Fehlerparadoxe
                                                                                          • Unterschiede
                                                                                          • Mittelwerte
                                                                                          • Vertiefung
Page 11: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff

__ __ __ __ __ __ __ __ 3b s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8

__ __ __ __ 3b s163 + 162 + 161 + 160 = 12ddsdsd8

Jedes Kaumlstchen = 1 Byte

Die 128 ASCII-Kodes

Die 128rsquo172 Unicode-Kodes

Moderne universale Kodierungskonvention httpwwwunicodeorgUNICODE(ISOIEC 10646) Version 90 Kodes fuumlr 128rsquo172 Zeichen in fast allen Schriftsystemender WelthttpwwwunicodeorgstandardWhatIsUnicodehtml

GRINNING FACE

bull Kode 128512 (Hexadezimal 1F600)

bull UTF-8 Byte-Repraumlsentation F0 9F 98 80

bull~ In UTF-8 sind nur Unicode-Kodes von ASCII-Zeichen direkt in ihrer Binaumlrzahl-Repraumlsentationgespeichert

10

Was ist ein Zeichen auf dem Computer UTF-8-Format

bull Speicherung bei UNICODE UTF (Abk fuumlr Unicode Transformation Format) beschreibtMethoden einen Unicode-Kode auf eine Folge von Bytes abzubilden

bull UTF-8 (Abk fuumlr 8-bit Universal Character Set Transformation Format) Ordnet jedemUnicode-Zeichen eine speziell kodierte Bytefolge von variabler Laumlnge zu UTF-8 unter-stuumltzt bis zu 4 Byte pro Zeichen

bull Dateiformat XML-Dateien sind defaultmaumlssig UTF-8 kodiert Bei andern Dateien mussman es wissen

bull Jede ASCII-Datei ist auch eine UTF-8-Datei (Ruumlckwaumlrtskompatibilitaumlt)

bull Darstellung Zeichensaumltze (engl fonts) enthalten die graphischen Formen (glyphs) damitdas Betriebssystem die Kodes fuumlrs Auge darstellen kann

bull Konversionswerkzeuge ZB GNU-Kommandozeilentool iconv

Textkonversion mit iconv

Verlustfreie Textkonversion nach UTF-8

$ iconv -f EXOTISCHEKODIERUNG -t UTF-8 lt INPUT gt OUTPUT

Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen laumlsst sich auch Text-Normalisierung durch ldquoTransliterationrdquo2 durchfuumlhren

$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIITRANSLITKlosschen

Das Loumlschen von nicht-repraumlsentierbaren Zeichen ist meist weniger nuumltzlich

$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIIIGNOREKlchen

213 Programme

Grundproblem Vom Zeichenstrom zur Folge von Tokens

RohdatenRohe elektronische Sprachdaten liegen in Dateien vor welche nichts anderes als eine Folge vonkodierten Einzelzeichen dh ein kontinuierlicher Zeichenstrom sind

Token Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung Wortkorrektur morphologische Analyse Lexikonzugriff syn-taktische Analyse

Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)

2~ Das Ergebnis kann von Landeseinstellungen (locale) abhaumlngig sein

11

bull Konsumieren der Zeichenfolge (Eingabe)

bull Gruppieren und allenfalls normalisierenmodifizieren der Zeichen (Verarbeitung)

bull Produzieren einer Folge von Tokens (Ausgabe)

Typische Beispiele fuumlr Tokenisierer Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text dh 1 Token pro Zeile Saumltzesind durch Leerzeilen voneinander abgetrennt

Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhaumlngiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkuumlrzungsdatei(ger-abbrev)

$ cat filetxtBachrsquosche Musikmag Dr Fritz Ja

$ cat ger-abbrevDrusw

$ utf8-tokenizeperl -a ger-abbrev filetxtBachrsquoscheMusikmagDrFritz

Ja

Typische Beispiele fuumlr Tokenisierer Regulaumlre AusdruumlckeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PythonPERL oder Finite-State Tools welche einen einfachen Umgang mit regulaumlren Ausdruumlcken er-lauben

Definition 213 (Regulaumlre Ausdruumlcke (engl regular expressions)) Ein regulaumlrer Ausdruck isteine relativ standardisierte Kurz-Notation um Zeichenketten mit bestimmten Eigenschaften zubeschreibenPraktisch eingesetzt werden sie fuumlr die nicht-woumlrtliche Suche (engl pattern matching) Suchen-und-Ersetzen und Segmentieren von Zeichenketten

Einfuumlhrung in regulaumlre AusdruumlckeZB in unserem CLab httpwwwcluzhchclabregex

12

Tokenisierer in der ProgrammiersprachePython

Tokenisierer mit regulaumlren Ausdruumlcken

bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben

bull Einfach anpassbar auf die Textsorte

bull Fuumlr uumlberschaubare Textmengen empfohlen

bull Vorteil Machen dieselben Fehler konsequent

bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung

Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])

1 Rohtext

This is an example There are two sentences

2 XML-Input fuumlr Tokenisierer (Vortokenisierung)

ltdocumentgtlttextgt

ltpgtThis is an example There are two sentences

ltpgtlttextgt

ltdocumentgt

3 XML-Tokenisat

ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt

13

ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt

Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert

Verschachtelung im XML-Stil

ltdocumentgtlttextgt

ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example

ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences

Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags

22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation

bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs

bull httpstubeswitchchvideos60fc01f1

XML (eXtensible Markup Language)

Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann

14

XML in der Texttechnologie

bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)

bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten

bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben

Aufbau von XML-Dokumenten

Elemente und ihre Attribute

bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt

bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)

bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt

bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt

bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt

bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt

Zeichenreferenzen und Entity-Referenzen

Entitaumlten und Referenzen

bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden

bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal

bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den

Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38

Newline amp9Σ ampx3a3

15

23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen

231 Problem

Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt

bull Wort-Zeichen [a-zA-Z0-9]

bull Einzel-Zeichen [)(rsquo$-]

bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]

ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo

Schwierigkeiten der Wortsegmentierung im engen Sinn

Schwierige Zeichen

bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim

bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr

bull Bindestriche semble-t-il rarr semble + -t-il

bull Punkte SAC

bull Masseinheiten 30 rarr 30 + 28 rarr 28 +

bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que

Teilprobleme der Tokenisierung im weiten Sinn

bull Umgang mit Markup (HTML-Tags Formatierungszeichen)

bull Erkennung der ldquonormalenrdquo Tokengrenzen

bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)

bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)

bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)

bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)

16

232 Punktdisambiguierung

Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben

Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert

Verschmelzung

bull It was due Friday by 5 pm Saturday would be too late

bull Ich kenne die USA Frankreich kenne ich nicht

WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig

Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls

bull das Token in einer Abkuumlrzungsliste steht

bull nach dem Token eines der Zeichen aus [a-z] folgt

bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht

bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt

Nach [Grefenstette und Tapanainen 1994]

LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen

Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen

Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN

1 Wie viele Zeichen umfasst TOKEN

2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale

3 Wie oft kommt TOKEN ohne Punkt vor

4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor

5 Wie oft kommt NEXTTOKEN kleingeschrieben vor

17

Satzsegmentierung mit maschinellen Lernverfahren

bull Fuumlr grosse Textmengen empfohlen

bull Nachteil Unsystematische Fehler koumlnnen auftreten

Statistisches System PUNKT ([Kiss und Strunk 2006])

bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten

bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt

iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte

233 Zeichen- und Token-Normalisierung

Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen

Normalisierung bei Suchmaschinen und anderen Anwendungen

bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich

bull 4897 4-8-97 4897 8497

bull 19000 19rsquo000 19 000 19000

bull Louisa Luise Louise Luisa

bull doesnrsquot does not

Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)

bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt

bull Hollaumlndisch chocola-tje rarr chocolaatje

Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen

18

Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung

Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens

615 5 Ruumlckbau in neue Tokens

Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus

Ruumlckgaumlngig machen von Worttrennung am Zeilenende

Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens

Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch

234 Named Entity Recognition

Named Entity Recognition

Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen

Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen

Kanonische Formen und Entity Linking

bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo

bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo

Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3

Demo Time Expression Recognition (TIMEX task)

24 MultilingualitaumltMultilinguale Dokumente und Systeme

Herausforderung Multilingualitaumlt

bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess

19

Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular

Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML

bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig

bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut

bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet

bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut

Ansatz von [Cavnar und Trenkle 1994]

20

1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten

2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)

3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil

4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm

5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand

N-Gramm-Profile und Profilabstand

Quelle [Cavnar und Trenkle 1994]

Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]

25 VertiefungZum Thema ldquoTokenisierungrdquo

bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28

bull Pflichtlektuumlre [Carstensen et al 2009 341]

bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]

Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)

bull httpwwwcluzhchclabregex

Zum Thema ldquoXMLrdquo

21

bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1

bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]

Zusammenfassung

bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen

bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen

bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen

bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung

bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar

bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen

bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden

Kontrollfragen

bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention

bull Welche Probleme stellen sich bei der Tokenisierung

bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung

bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten

bull Was versteht man unter NER

bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle

22

Kapitel 3

Linguistisches Propaumldeutikum I

Lernziele

bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen

bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg

bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch

bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte

bull Kenntnis und Anwendung linguistischer Proben

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten

bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung

31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs

Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind

Praumlzisierungsversuche des Wort-Begriffs

bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment

bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit

bull Morphologisch Grundeinheit welche flektierbar ist

bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist

bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes

23

Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach

Antworten 4 5 6 9 __

311 Token

Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9

Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText

BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann

312 Wortform

Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes

Identische Wortformen mit unterschiedlicher Bedeutung

bull Die Fliege war tot

bull Er trug eine samtene Fliege

bull Fliege nicht so schnell

313 Syntaktisches Wort

Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6

Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst

Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural

24

314 Lexem

Antwort 5 Wort als Lexem

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden

Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem

Lexikographische Notationskonventionen

Wie sehen Verb-Lemma in DeutschenLatein aus

Antwort 4 Wort als Lexemverband

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4

Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert

Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln

Stufen der Abstraktion Vom Text zum Lexemverband

bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)

bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)

bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen

bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden

bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird

25

32 Lehre von den WortartenWortarten nach [Bussmann 2002]

Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien

Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb

5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det

321 5 Hauptwortarten nach Glinz

Klassifikationskriterien

Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]

Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

26

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

322 UD

Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)

Universal Part-of-Speech Tagset (Version 1)1

12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish

ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo

Universal Part-of-Speech Tagset (Version 2) UPOS2

Version 2 hat 17 POS-Tags

+ Eigennamen (PROPN) (vorher NOUN)

+ Hilfsverben (AUX) (vorher VERB)

+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)

+ Symbole (SYM) (vorher X)

+ Interjektionen (INTJ) (vorher PRT)

= Partikel (PART) (vorher PRT)

= Interpunktion (PUNCT) (vorher )

Baumbanken sind fuumlr 51 Sprachen verfuumlgbar

27

Abbildung 32 Deutsche UD-Baumbank

UD V13 fuumlr Deutsch

NDurchsuchen

bull Suche nach Wort spaumlter

bull Nach Wort+Wortart spaumlterampADV

UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml

Mehrdeutigkeiten Unklarheiten Fehlannotationen

Linguistische Annotation und Automatisierung

Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form

Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml

28

bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)

bull Vollautomatisch Schnell billig fehlerbehaftet

bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile

Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml

N CoNLL-Format Spaltenformat fuumlr Annotationen3

bull Vertikalisierter Text

bull 1 Token pro Zeile

bull Saumltze mit Leerzeile getrennt

bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation

bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet

Bedeutung relevanter Spalten

1 Tokennummer (1-basierte Zaumlhlung) pro Satz

2 Wortform (Token)

3 Lemma

4 Grobe Wortklasse (coarse-grained part-of-speech tag)

5 Feine Wortklasse (fine-grained part-of-speech tag)

6 Morphosyntaktische Merkmale

7 Syntaktischer Kopf als Tokennummer

8 Dependenztyp

CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo

Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token

3httpuniversaldependenciesorgformathtml

29

Abbildung 33 CoNLL-U und CoNLL-X

Manuelle Annotation mit WebAnno und Exportformate

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

323 Feine Tagsets

Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis

bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags

bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert

bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch

bull Alternativen Muumlnsteraner Tagset [Steiner 2003]

Wieso ist das STTS wichtig

bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)

ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel

bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo

30

Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts

Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken

33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale

Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden

Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems

bull Konjugation von Verben

bull Deklination von Nomen Adjektiven Artikeln und Pronomen

bull Steigerung von Adjektiven (und wenigen Adverbien)

Diskussion Sind steigerbare Adverbien ein Widerspruch im System

Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet

31

Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts

Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn

331 Genus

Das Genus (UD Gender) Grammatisches Geschlecht

Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien

Tabelle 31 Uumlbersicht Genera

BemerkungDer Plural von Genus lautet Genera

Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt

Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen

Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind

Deutsch

32

Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur

AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas

332 Numerus

Der Numerus (UD Number) Grammatische Zahl

Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner

Tabelle 32 Uumlbersicht Numeri

BemerkungDer Plural von Numerus lautet Numeri

Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt

333 Kasus

Der Kasus (UD Case) FallUD-Kategorie Case

Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum

Tabelle 33 Uumlbersicht Kasus

BemerkungDer Plural von Kasus lautet Kasus

334 Modus

Der Modus (engl mode mood UD Mood) Aussageweise

Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh

Tabelle 34 Uumlbersicht Modi

In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi

33

335 Tempus

Das Tempus (UD Tense) grammatische Zeit Zeitform

Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging

Tabelle 35 Uumlbersicht Tempora

BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten

336 Person

Die Person (UD Person)

Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht

Tabelle 36 Uumlbersicht Personen

BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt

337 Grad

Der Grad (UD Degree) Steigerung Komparation

Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste

Tabelle 37 Uumlbersicht Komparation

BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt

338 Adjektiv-Flexion

Die Adjektiv-Flexion (engl adjective inflection)

BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven

Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet

34

Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse

Tabelle 38 Uumlbersicht Adjektiv-Flexion

Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern

UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt

Morphologische Englische UD-Annotation

1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _

34 Linguistische ProbenLinguistische Testverfahren

Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen

341 Ersatzprobe

Ersatzprobe

Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben

35

Beispiel 343 (Bestimmung des Kasus)

Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat

Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen

Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)

bull Das ist das Angebot das uns uumlberzeugt hat

bull Dieses ist das Angebot welches uns uumlberzeugt hat

bull Welches ist das Angebot dieses uns uumlberzeugt hat

bull Das ist dieses Angebot welches uns uumlberzeugt hat

Probleme der Interpretation

bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes

bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig

342 Einsetzprobe

Einsetzprobe

Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert

Beispiel 345 (Bestimmung der Wortart)

Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb

Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive

35 MorphologieMorphologische Ebene

Womit befasst sich die Morphologie Wortstruktur und Wortbildung

bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e

36

bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit

bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system

351 LemmatisierungMorphologieanalyse

Lemmatisierung und Morphologieanalyse

Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen

Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma

Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo

Analysen von GERTWOL5

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Probleme morphologischer Analysen Mehrdeutigkeit

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM

Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol

37

bull ldquoeinerdquo als

bull ldquoMuumlllerrdquo als Eigenname oder Substantiv

Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus

Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1

Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile

Probleme morphologischer Analyse

googelte

UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter

Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM

ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat

Lieblingsbeerelieb~lingsbeere S FEM SG NOM

Erdbeereerdbeere S FEM SG NOM

Fingerbeerenfingerbeere S FEM PL NOM

UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung

38

Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas

Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]

Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent

352 Morphologiegenerierung

Generierung von syntaktischen Wortformen

Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation

Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|

Person=2|Tense=Past|VerbForm=Fingingst

backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin

36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT

bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem

bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6

bull Die Website universaldependenciesorg hat einige Dokumentation

Zusammenfassung

bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet

bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte

bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme

bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen

6httpwwwdsuzhchstudien-cd

39

Kontrollfragen

bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo

bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2

bull Worin besteht Morphologieanalyse und -generierung

bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller

bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt

bull Was ist der Unterschied zwischen Lemma und Lexem

40

Kapitel 4

Linguistisches Propaumldeutikum II

Lernziele

bull Anwendung der klassischen syntaktischen Proben

bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf

bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte

bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen

bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug

Motivation 2 (halbwegs kompatible) Syntax-Welten

Konstituenten

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Dependenz

41

Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden

(NGoogles SyntaxNet)

41 Syntaktische ProbenKonstituentenproben

Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt

Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

411 Weglassprobe

Weglassprobe

Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten

Bestimmung eines Satzglieds

1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

FrageWarum nicht Variante 4

42

412 Verschiebeprobe

Verschiebeprobe

Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen

Bestimmung von Satzgliedern

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen bereite ich die Sitzung mit dem Chef vor

3 Ich bereite die Sitzung mit dem Chef morgen vor

Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb

Verschiebeprobe

Unzulaumlssiges Verschieben

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen ich bereite die Sitzung mit dem Chef vor

3 Die Sitzung bereite ich morgen mit dem Chef vor

413 Umformungsproben

Umformungsprobe

Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut

Funktion von Nebensaumltzen

1 Es wuumlrde mich freuen wenn du mitkaumlmest

2 Dein Mitkommen wuumlrde mich freuen

Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo

Infinitivumformung zur Subjekterkennung

1 Die Laumlrche ist ein Nadelbaum

2 ein Nadelbaum sein die Laumlrche

43

Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]

42 SatzSatz

Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist

Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten

421 Satzglieder

Moderne Satzgliedlehre

422 Koumlpfe (oder Kerne) von Konstituenten

Syntaktische Koumlpfe (engl head) Kern (engl kernel)

Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar

Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)

1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]

2 Sie rennt [mit dem Mobile hantierend] zum Kiosk

3 Es wird [viel zu oft] telefoniert

44

4 [Die Frau die zum Kiosk rannte ] war aufgeregt

5 Sie fuumlhlte sich [wie in einem schlechten Film]

6 Aber sie war auch [in einem ziemlich schlechten Film]

43 Syntaxanalyse

431 Konstituenz

Konstituenten und Konstituenz

Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist

Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten

Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten

Konstituenten in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

unmittelbare Dominanz

Konstituente auf Wortebene

Syntaktische Konstituente

Praumlzedenz auf Wortebene

Praumlzedenz zwischen Tochterkonstituenten

Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung

Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente

Konstituententypen

Typen von Konstituenten in TIGERNEGRA

1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen

45

2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern

3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern

4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern

5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern

6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern

7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo

Annotation von Relativsaumltzen

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen

Komplexe Konstituenz in der Penn-Treebank

Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white

Syntaxbaum aus der Vogelperspektive

In

IN

other

JJ

words

NNS

like

IN

automation

NN

machines

NNS

designed

VBN

-NONE-

to

TO

work

VB

in

IN

tandem

NN

they

PRP

shared

VBD

the

DT

same

JJ

programming

NN

a

DT

mutual

JJ

understanding

NN

not

RB

only

RB

of

IN

English

NNP

words

NNS

but

CC

of

IN

the

DT

four

CD

stresses

NNS

pitches

NNS

and

CC

junctures

NNS

that

WP

T

-NONE-

can

MD

change

VB

their

PRP$

meaning

NN

from

IN

black

NN

to

TO

white

NN

NP

PP

NP NP NP

PP

VP

VP

SBJ

S

VP

NP

PP

NP NP NP CONJP NP

PP

NP WHNP NP NP NP

PP

NP

PP

PP

VP

VP

SBJ

S

SBAR

NP

PP

PP

NP

NP

VP

SBJ

S

T

46

Quelle TIGERSearch-Demo-Korpora

Maximale Verschachtelungstiefe

432 Dependenz bzw syntaktische Funktion

Dependenz und syntaktische Funktion

Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten

Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen

HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt

Syntaktische Funktionen in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Syntaktische Funktion

Konstituenten

Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung

Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente

Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken

Einige Satzglieder mit TIGER-Funktion

bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein

47

Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)

bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)

bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)

bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)

bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator

bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb

Baumbankkonversion Von Konstituenz zu Dependenz

Automatische Konversion (NTIGER2Dep)

Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)

433 UD-DE-Modell

Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen

48

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

Generelle Philosophie des Universal-Dependency-Modells

bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig

bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV

bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum

bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden

bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der

bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)

bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens

Inhaltswoumlrter VERB und NOUN

Hinweisebull Spitze des Pfeils Abhaumlngiges Element

bull Startknoten des Pfeils Kopf

bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen

bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird

Das UD-Innenleben von Nominalphrasen

Hinweisebull Was ist der NP-Kopf

bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll

49

Komplexe Verb- und Adjektivphrasen

Hinweise

bull Hilfs- und Modalverben haumlngen vom Vollverb ab

bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich

Kopulakonstruktion und Gleichsetzungsnominativ

Fragen

bull Wovon haumlngt das Subjekt ab

bull NSuche nach ist im Suchwerkzeug

bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft

Interpunktion

Hinweise

bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt

50

Verschachtelte Saumltze

Hinweise

bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab

bull Wann aclrelcl und wann advcl

Koordination

Koordination Koumlpfe und Abhaumlngigkeitsrichtung

Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht

Koordination von Konstituenten aus NEGRA-Korpus

bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]

bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]

bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]

2 Fragen mit mehreren moumlglichen Antworten

bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt

bull In welche Richtung werden koordinierte Elemente verknuumlpft

Koordination in der NUD

Frage

bull Welche Antworten gibt die UD

51

Manuelle Syntax-Annotation mit WebAnno

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)

bull Click-und-Drag-Interface mit der Maus

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml

Aufgabe Annotation von Relativsatz

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Wie sieht eine UD-Annotation von diesem Satz aus

434 Suche

NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken

Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-

Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens

2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)

KOPF gt NICHTKOPF

NICHTKOPF lt KOPF

Analog zur Pfeilrichtung in der BRAT-Visualisierung

52

Grundlegende syntaktische Suchrezepte

bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging

bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging

bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde

bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld

bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor

bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _

bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist

44 AmbiguitaumltZusammenfassung

bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen

bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden

bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab

bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])

45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]

bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre

bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren

bull Quiz Die Form der Satzglieder

bull Quiz Satzglieder und Proben

bull Linguistik-CD

53

Kapitel 5

Endliche Automaten

Lernziele

bull Einstieg in die Formalisierung von Sprache

bull Was sind Zeichenketten formalmathematisch

bull Was ist eine formale Sprache

bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation

bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten

bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie

bull Wann ist ein endlicher Automat deterministisch und wann nicht

bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten

54

51 Formale Sprachen

511 Mengen

A Quick Review of Set Theory

A set is a collection of objects

A B

D E

We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E

There is no significant order in a set so A D B E is the same set as E A D B etc

Quelle B04

Cardinality of Sets

 The Empty Set

 A Finite Set

 An Infinite Set eg The Set of all Positive Integers

Norway Denmark Sweden

Quelle B04

512 Zeichen

Das Alphabet (Sigma) Menge von Zeichen

55

Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert

Zeichen des EnglischenΣEnglisch = a b c x y z

Zeichen der binaumlren ZahlenΣbin = 0 1

Zeichenketten (strings)

Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ

Zeichenketten uumlber englischen Symbolen ΣEnglisch

a we muntjac talk walk krwrk

Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0

Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast

bin = ε 0 1 00 01 10 11 001

513 Sprachen

Formal Languages

Very Important Concept in Formal Language Theory

A Language is just a Set of Words

bull  We use the terms ldquowordrdquo and ldquostringrdquo interchangeably

bull  A Language can be empty have finite cardinality or be infinite in size

bull  You can union intersect and subtract languages just like any other sets

56

Quelle B04

Union of Languages (Sets)

dog cat rat elephant mouse

Language 1 Language 2

dog cat rat

elephant mouse

Union of Language 1 and Language 2 Quelle B04

Formale Sprachen als Teilmenge von Sigma Stern

L sube Σlowast

Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast

Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes

Englische Woumlrterwalk talk work sube a b zlowast

Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt

Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit

Formales Modell Wirklichkeit

Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme

57

Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der

Wirklichkeit zu repraumlsentieren

Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working

worked works talk

talking talked talks

walk walking

walked walks

The concatenation of

the Suffix language

after the Root

language

0 or denotes the empty string

Abbildung 51 Sprache mit 3 WoumlrternZeichenketten

Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk

Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage

Beispiel fuumlr Deterministischen Endlichen Automaten

talk isin work talk walk

bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile

52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)

Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand

58

Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert

Nicht-Deterministische Endliche Automaten (NEA)

Abbildung 52 Deterministischer EA

Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg

Nicht-Determinismus IIEs gibt mindestens eine ε-Kante

Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln

Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus

1 einer endlichen Menge Zustaumlnde Φ

2 einem endlichen Eingabealphabet Σ

3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ

59

4 einem Startzustand S isin Φ

5 einer Menge von Endzustaumlnden F sube Φ

Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)

δ Φtimes (Σ cup ε)rarr weierp(Φ)

521 Konkatenation

Konkatenation von Zeichenketten und Sprachen

Konkatenation von Zeichenkettenu bull v = uv

lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo

Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V

lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo

Concatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working worked works talk talking talked talks walk walking walked walks

The concatenation of the Suffix language after the Root language

0 or ε denotes the empty string

60

Quelle B04

Concatenation of Languages II

work talk walk

Root Language

0 ing ed s

Suffix Language

rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks

The concatenation of the Prefix language Root language and the Suffix language

Prefix Language

re out 0

outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks

work working worked works talk talking talked talks walk walking walked walks

Quelle B04

Languages and Networks

w a l k

o r

t

NetworkLanguage 2 NetworkLanguage 3

s

o r The concatenation of Networks 1 2 and 3 in that order

w a l k t

a

a s

ed

i n g

0

s

ed

i n

0s

g o

r

NetworkLanguage 1

s

u t

e

0

o

r s

t

e

0 u

Quelle B04

522 Regulaumlre Ausdruumlcke

Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)

Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann

61

bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo

bull Die Mengen a1a2an sind regulaumlr RA a oder b

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)

bull Ist L regulaumlr dann auch LlowastRA (A)

Wie kann man Optionalitaumlt ausdruumlcken

Graphischer Algorithmus Konversion von RA zu NEA

JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten

Algorithmus

1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde

2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten

3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander

4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen

Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten

Epsilon

Symbol a

Konkatenation (ab)

Alternative (a|b)

62

encodes

a

LANGUAGE RELATION

compiles intoa

REGULAR EXPRESSIONa

FINITE-STATE NETWORKde

notes

Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])

Wiederholung (a)

Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert

63

53 Transduktoren

Linguistic Transducer Machines

mesas

Generator

ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas

m e s a +Noun +Fem +Pl

m e s a 0 0 s

mesa+Noun+Fem+Pl

Analyzer

ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas

Quelle B04

Gute Eigenschaften von endlichen Automaten und Transduktoren

bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen

bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde

bull Beispiel NRumantsch Grischun

bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren

Zusammenfassung

bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben

bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen

bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den

bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt

bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden

64

Vertiefung

bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)

bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo

bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo

bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial

65

Kapitel 6

Flache Satzverarbeitung

Lernziele

bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets

bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung

bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen

bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells

bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger

bull Kenntnis uumlber partielle syntaktische Analyse

bull Kenntnis uumlber flache und verschachtelte Chunks

Welches mehrdeutige Wort hat dieses Profil

UPOS-Tag Vorkommen1

1021ADP 848ADV 61

PROPN 14ADJ 1

61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT

N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token

66

Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)

bull eineDET Kuh Lemma ldquoeinrdquo

bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)

bull lead Verb lid (fuumlhren) Nomen led (Blei)

bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe

Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren

Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to

be present tense 3rd person singular

Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch

Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist

Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]

bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)

bull Effizient Der Tagger arbeitet schnell

bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)

bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den

bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden

Was fehlt

67

611 Probleme des Taggings

Wortformen mit mehreren moumlglichen Tags

MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token

Tag-Ambiguitaumlt im Englischen

Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]

Haumlufigkeiten im Brown-Korpus

bill NN 2351

promised VBD 34~~VBN 10~~JJ 2

back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2

Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token

die~~ART 2351~~PRELS 448~~PDS 4

Mehrheit~~NN 40

bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1

Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0

Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen

bull Unterscheidung zwischen offenen und geschlossenen Wortarten

bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)

68

Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]

Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)

bull 98 aller Woumlrter mit Endung -able sind Adjektive

bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname

Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe

oo

n

e

g

n

d

senuel

l

cv

y ta

o

mtsiii

o

i

ies (NNS09 VBZ01)ons (NNS095 VBZ005)

ed (VBN04 JJ03 VBD03)

le (NN025 JJ045 NP02 VB01)

ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)

ty (NN045 JJ035 NP02)

son (NP08 NN01 JJ01)

man (NP08 NN02)ton (NP09 NN005 JJ005)

ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)

ous (JJ096 NN004)

old (JJ098 NN002)

Quelle [Schmid 1995]

Wortformen mit mehreren moumlglichen Tags Kontext

69

Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6

Vorkommen von ldquobackrdquo im Brown-Korpus

ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung

Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen

Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet

bull die moumlglichen Tags von wn aus Tagger-Lexikon

bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens

Context

3

3

Kontextmodell des Trigrammtaggers TnT [Brants 2000]

612 Fallstudie TnT-Tagger

Supervisiertes Maschinelles Lernen

70

Quelle [Raschka 2015 11]

ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt

Fallstudie TnT-Tagger trainieren und evaluieren

Testkorpustestttstesttxt

Trainingskorpustrainingtts

Getaggtes Korpus

Aufteilen des Korpus

Taggingtnt

Trainingtnt-para

Parameter-Dateien

traininglextraining123

Evaluations-korpus

evaltts

Evaluationtnt-diff

Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger

Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]

1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)

$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts

2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden

$ head --lines 278081 ud-de-v13tts gt trainingtts

3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden

$ tail --lines 30900 ud-de-v13tts gt testtts

71

4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus

$ tnt-para trainingtts

5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut

$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts

6 Man erstelle das Evaluationskorpus

$ cut -f 1 testtts gt evaltxt

7 Man tagge das Evaluationskorpus mit dem Trainingsmodell

$ tnt training evaltxt gt evaltts

8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus

$ tnt-diff testtts evaltts

62 EvaluationEvaluation

Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode

Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt

Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird

Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind

Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden

Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)

Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat

72

Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein

621 Zweck

Zweck von Evaluationen

SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert

SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist

622 Accuracy

POS-Tagger-Evaluation Genauigkeit

Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens

accuracy = N minus EN

Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit

Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus

Tagt Freqt Tagf Freqf Ant Erel Eabs

NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010

Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]

Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler

73

5-fache Kreuzvalidierung visuell

Figure 8-2 K-fold cross-validation

Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point

You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order

gtgtgt import randomgtgtgt randomshuffle(f)

If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold

gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k

Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on

Problems That Can Affect Evaluation | 179

Quelle [Pustejovsky und Stubbs 2013 179]

Genauigkeit unter 10-facher Kreuzvalidierung

Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))

accuracy =sumi=10

i=1 accuracyi

10

Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen

623 Lernkurven

624 Recall

Recall (Ausbeute Abdeckung Vollstaumlndigkeit)

Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems

R = At

Nt

Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600

800 = 75

74

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp())+-01$+-0-2)00-))304

56)77

8010

904010

6+789lt

6-=7gt8lt

6+7gtlt

6-=7gt8lt

6+7lt

6-=79lt

2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J

-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J

)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)

Qampamp)(ampI0(EI(K3amp)-++5

8

9

gt

R9 9 S gt9 8 RR gtS

$-++5NF=J

TM5ltU+B+ampE+

TM5T00I-0L

SSR

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

6)6lt$$)amp$+)=$gt=((+

Q-M-44amp-0C

5-66ampK1F3()ampKVWWJ

6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(

Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp

)-)amp3)T)C

$5-66ampK1F(0amp+KampKVWWJ

6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+

U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+

TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+

+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt

QZ]T F6-+JgtRlt gt8lt [RSlt

Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants

625 Precision

Precision (Genauigkeit Praumlzision)

Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems

P = At

A

Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600

1000 = 60

626 F-Measure

F-Measure (F-Mass)

Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems

F = 2times P timesRP +R

75

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp()

67-18-)amp+8(+5)9amp0amp4amp-

6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F

2++$G-+AH-11))Iamp8+-1

J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+

$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5

amp+)-5)amp-0)ampA+

$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()

$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5

+amp(-012344)425amp123)3627892(+lt

=+$$

gt)(5)

))(5)

D+QRSTU

D-EQVWTRU

D+QVXTRU

D-EQVRTRU

D+QWTYU

D-EQSVTMU

6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F

-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F

M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)

ampamp)(amp80(98(B3amp)-++5T

Y X M YM XM MM YMM YMXM

WM

RM

SM

VM

MM

$-++5OCEMMMF

gt75TU[+A+amp9+

gt75Tgt008-0N

PWTP PTP WTM MTR YTM ST PT TVXMTS

C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants

Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075

06+075 = 666

63 Chunk ParsingPartielle syntaktische Analyse

Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt

Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN

bull NC Ein NC (Nominalchunk) besteht

bull -gt besteht aus

bull ART aus einem Wort der Wortart ART (Artikel)

bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)

76

Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

631 Abneys Chunk-Definition

Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]

Motivationen

bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung

bull Effizienz Teilstrukturen lassen sich effizienter berechnen

bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse

bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden

632 IOB-Chunk

Flache Chunks im IOB-Format

Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist

bull B-K Anfang einer Chunk-Konstituente K

bull I-K Fortsetzung der Chunk-Konstituente K

77

bull 0 Nicht zugeordnet (wird auch chink genannt)

We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP

633 Verschachtelte Chunks

Verschachtelte Chunks

Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich

Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)

[PX [APPR fuumlr][NX [ARTIND eine]

[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]

Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC

64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo

bull Pflichtlektuumlre [Carstensen et al 2009 342-3]

bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking

bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative

bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4

78

ZusammenfassungZusammenfassung

bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung

bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets

bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input

Kontrollfragen

bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen

bull Was unterscheidet Recall und Precision von Accuracy

bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging

bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte

bull Was ist der Vorteil der IOB-Notation fuumlr Chunks

65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele

bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative

bull Kenntnis uumlber Fehlertypen und ihre Gefahr

bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung

651 TrueFalse PositivesNegatives

Evaluation von binaumlren Klassifikatoren

TruthPositive Negative

Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)

Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit

Legende zur Tabelle 63

True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

79

FP Fehlertyp I Test ist positiv wo er nicht sollte

FN Fehlertyp II Test ist negativ wo er nicht sollte

652 Fehlerparadoxe

Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet

Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter

Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet

Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter

653 Unterschiede von Evaluationsmassen

Dualitaumlt von Precision und Recall

TruthPos Neg

Test Pos TP FPNeg FN TN

R = TP

TP + FN

Tabelle 64 Recall

Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision

F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig

80

TruthPos Neg

Test Pos TP FPNeg FN TN

P = TP

TP + FP

Tabelle 65 Precision

TruthPos Neg

Test Pos TP FPNeg FN TN

F = 2times TP2times TP + FP + FN

Tabelle 66 F1-Measure

TruthPos Neg

Test Pos TP FPNeg FN TN

Accuracy = TP + TN

TP + TN + FP + FN

Tabelle 67 Accuracy

654 Mitteln von Recall und Precision

F-Measure Harmonisches vs arithmetisches Mittel

655 Vertiefung

bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]

81

Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]

82

Abbildung 68 M = P +R2 Arithmetisches Mittel

83

Literaturverzeichnis

[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235

[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications

[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University

[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231

[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl

[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen

[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf

[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt

[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf

[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl

[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov

[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl

84

[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf

[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf

[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830

[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485

[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM

[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011

[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl

[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York

[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096

[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA

[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning

[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf

[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin

[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml

85

[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098

[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps

[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd

[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf

[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf

[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf

[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean

[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574

86

Index

10-fache Kreuzvalidierung 74

Adjektiv-Flexion 34Alphabet 56

Eingabealphabet 59

DEA 59Dependenz 47

Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72

F-Measure 75

Genus 32Grad 34

IOB-Chunks 77

Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44

Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25

Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39

Named Entity Regonition 19NER 19

Numerus 33 34

partielle syntaktische 76Person 34Precision 75Probe linguistisch 35

Qualitaumlt einer Evaluation 72

Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72

Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47

Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24

Umformungsprobe 43

Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43

Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24

XML-Standard 14

Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59

87

  • Organisatorisches
    • Organisatorisches
      • Leistungsnachweis
      • Lernen und Lehren
        • Kontrollfragen
          • Tokenisierung
            • Tokenisierer
              • Grundproblem
              • Kodierung
              • Programme
                • XML
                • Tokenisierung
                  • Problem
                  • Punktdisambiguierung
                  • Normalisierung
                  • NER
                    • Multilingualitaumlt
                    • Vertiefung
                      • Linguistisches Propaumldeutikum I
                        • Wort
                          • Token
                          • Wortform
                          • synt Wort
                          • Lexem
                            • Wortarten
                              • 5 Hauptwortarten
                              • UD
                              • STTSPTTS
                                • Merkmale
                                  • Genus
                                  • Zahl
                                  • Kasus
                                  • Modus
                                  • Zeit
                                  • Person
                                  • Grad
                                  • Flexion
                                    • Proben
                                      • Ersetzen
                                      • Einsetzen
                                        • Morphologie
                                          • LemmatisierungMorphologieanalyse
                                          • Morphologiegenerierung
                                            • Vertiefung
                                              • Linguistisches Propaumldeutikum II
                                                • Proben
                                                  • Weglassen
                                                  • Verschieben
                                                  • Umformen
                                                    • Satz
                                                      • Satzglieder
                                                      • Koumlpfe
                                                        • Syntaxanalyse
                                                          • Konstituenz
                                                          • Dependenz
                                                          • UD-DE
                                                          • Suche
                                                            • Ambiguitaumlt
                                                            • Vertiefung
                                                              • Endliche Automaten
                                                                • Formale Sprachen
                                                                  • Mengen
                                                                  • Zeichen
                                                                  • Sprachen
                                                                    • EA und regulaumlre Sprachen
                                                                      • Konkatenation
                                                                      • Regulaumlre Ausdruumlcke
                                                                        • Transduktoren
                                                                          • Flache Satzverarbeitung
                                                                            • Tagging
                                                                              • Probleme
                                                                              • Fallstudie TnT-Tagger
                                                                                • Evaluation
                                                                                  • Zweck
                                                                                  • Accuracy
                                                                                  • Lernkurven
                                                                                  • Recall
                                                                                  • Precision
                                                                                  • F-Measure
                                                                                    • Chunking
                                                                                      • Abney
                                                                                      • IOB-Chunk
                                                                                      • Verschachtelte Chunks
                                                                                        • Vertiefung
                                                                                        • Exkurs Evaluation binaumlrer Klassifikatoren
                                                                                          • TPFPFNTN
                                                                                          • Fehlerparadoxe
                                                                                          • Unterschiede
                                                                                          • Mittelwerte
                                                                                          • Vertiefung
Page 12: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff

Was ist ein Zeichen auf dem Computer UTF-8-Format

bull Speicherung bei UNICODE UTF (Abk fuumlr Unicode Transformation Format) beschreibtMethoden einen Unicode-Kode auf eine Folge von Bytes abzubilden

bull UTF-8 (Abk fuumlr 8-bit Universal Character Set Transformation Format) Ordnet jedemUnicode-Zeichen eine speziell kodierte Bytefolge von variabler Laumlnge zu UTF-8 unter-stuumltzt bis zu 4 Byte pro Zeichen

bull Dateiformat XML-Dateien sind defaultmaumlssig UTF-8 kodiert Bei andern Dateien mussman es wissen

bull Jede ASCII-Datei ist auch eine UTF-8-Datei (Ruumlckwaumlrtskompatibilitaumlt)

bull Darstellung Zeichensaumltze (engl fonts) enthalten die graphischen Formen (glyphs) damitdas Betriebssystem die Kodes fuumlrs Auge darstellen kann

bull Konversionswerkzeuge ZB GNU-Kommandozeilentool iconv

Textkonversion mit iconv

Verlustfreie Textkonversion nach UTF-8

$ iconv -f EXOTISCHEKODIERUNG -t UTF-8 lt INPUT gt OUTPUT

Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen laumlsst sich auch Text-Normalisierung durch ldquoTransliterationrdquo2 durchfuumlhren

$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIITRANSLITKlosschen

Das Loumlschen von nicht-repraumlsentierbaren Zeichen ist meist weniger nuumltzlich

$ echo Kloumlszligchen | iconv -f UTF-8 -t ASCIIIGNOREKlchen

213 Programme

Grundproblem Vom Zeichenstrom zur Folge von Tokens

RohdatenRohe elektronische Sprachdaten liegen in Dateien vor welche nichts anderes als eine Folge vonkodierten Einzelzeichen dh ein kontinuierlicher Zeichenstrom sind

Token Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung Wortkorrektur morphologische Analyse Lexikonzugriff syn-taktische Analyse

Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)

2~ Das Ergebnis kann von Landeseinstellungen (locale) abhaumlngig sein

11

bull Konsumieren der Zeichenfolge (Eingabe)

bull Gruppieren und allenfalls normalisierenmodifizieren der Zeichen (Verarbeitung)

bull Produzieren einer Folge von Tokens (Ausgabe)

Typische Beispiele fuumlr Tokenisierer Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text dh 1 Token pro Zeile Saumltzesind durch Leerzeilen voneinander abgetrennt

Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhaumlngiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkuumlrzungsdatei(ger-abbrev)

$ cat filetxtBachrsquosche Musikmag Dr Fritz Ja

$ cat ger-abbrevDrusw

$ utf8-tokenizeperl -a ger-abbrev filetxtBachrsquoscheMusikmagDrFritz

Ja

Typische Beispiele fuumlr Tokenisierer Regulaumlre AusdruumlckeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PythonPERL oder Finite-State Tools welche einen einfachen Umgang mit regulaumlren Ausdruumlcken er-lauben

Definition 213 (Regulaumlre Ausdruumlcke (engl regular expressions)) Ein regulaumlrer Ausdruck isteine relativ standardisierte Kurz-Notation um Zeichenketten mit bestimmten Eigenschaften zubeschreibenPraktisch eingesetzt werden sie fuumlr die nicht-woumlrtliche Suche (engl pattern matching) Suchen-und-Ersetzen und Segmentieren von Zeichenketten

Einfuumlhrung in regulaumlre AusdruumlckeZB in unserem CLab httpwwwcluzhchclabregex

12

Tokenisierer in der ProgrammiersprachePython

Tokenisierer mit regulaumlren Ausdruumlcken

bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben

bull Einfach anpassbar auf die Textsorte

bull Fuumlr uumlberschaubare Textmengen empfohlen

bull Vorteil Machen dieselben Fehler konsequent

bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung

Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])

1 Rohtext

This is an example There are two sentences

2 XML-Input fuumlr Tokenisierer (Vortokenisierung)

ltdocumentgtlttextgt

ltpgtThis is an example There are two sentences

ltpgtlttextgt

ltdocumentgt

3 XML-Tokenisat

ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt

13

ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt

Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert

Verschachtelung im XML-Stil

ltdocumentgtlttextgt

ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example

ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences

Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags

22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation

bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs

bull httpstubeswitchchvideos60fc01f1

XML (eXtensible Markup Language)

Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann

14

XML in der Texttechnologie

bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)

bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten

bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben

Aufbau von XML-Dokumenten

Elemente und ihre Attribute

bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt

bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)

bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt

bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt

bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt

bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt

Zeichenreferenzen und Entity-Referenzen

Entitaumlten und Referenzen

bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden

bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal

bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den

Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38

Newline amp9Σ ampx3a3

15

23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen

231 Problem

Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt

bull Wort-Zeichen [a-zA-Z0-9]

bull Einzel-Zeichen [)(rsquo$-]

bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]

ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo

Schwierigkeiten der Wortsegmentierung im engen Sinn

Schwierige Zeichen

bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim

bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr

bull Bindestriche semble-t-il rarr semble + -t-il

bull Punkte SAC

bull Masseinheiten 30 rarr 30 + 28 rarr 28 +

bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que

Teilprobleme der Tokenisierung im weiten Sinn

bull Umgang mit Markup (HTML-Tags Formatierungszeichen)

bull Erkennung der ldquonormalenrdquo Tokengrenzen

bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)

bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)

bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)

bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)

16

232 Punktdisambiguierung

Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben

Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert

Verschmelzung

bull It was due Friday by 5 pm Saturday would be too late

bull Ich kenne die USA Frankreich kenne ich nicht

WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig

Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls

bull das Token in einer Abkuumlrzungsliste steht

bull nach dem Token eines der Zeichen aus [a-z] folgt

bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht

bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt

Nach [Grefenstette und Tapanainen 1994]

LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen

Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen

Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN

1 Wie viele Zeichen umfasst TOKEN

2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale

3 Wie oft kommt TOKEN ohne Punkt vor

4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor

5 Wie oft kommt NEXTTOKEN kleingeschrieben vor

17

Satzsegmentierung mit maschinellen Lernverfahren

bull Fuumlr grosse Textmengen empfohlen

bull Nachteil Unsystematische Fehler koumlnnen auftreten

Statistisches System PUNKT ([Kiss und Strunk 2006])

bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten

bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt

iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte

233 Zeichen- und Token-Normalisierung

Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen

Normalisierung bei Suchmaschinen und anderen Anwendungen

bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich

bull 4897 4-8-97 4897 8497

bull 19000 19rsquo000 19 000 19000

bull Louisa Luise Louise Luisa

bull doesnrsquot does not

Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)

bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt

bull Hollaumlndisch chocola-tje rarr chocolaatje

Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen

18

Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung

Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens

615 5 Ruumlckbau in neue Tokens

Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus

Ruumlckgaumlngig machen von Worttrennung am Zeilenende

Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens

Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch

234 Named Entity Recognition

Named Entity Recognition

Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen

Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen

Kanonische Formen und Entity Linking

bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo

bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo

Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3

Demo Time Expression Recognition (TIMEX task)

24 MultilingualitaumltMultilinguale Dokumente und Systeme

Herausforderung Multilingualitaumlt

bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess

19

Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular

Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML

bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig

bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut

bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet

bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut

Ansatz von [Cavnar und Trenkle 1994]

20

1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten

2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)

3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil

4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm

5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand

N-Gramm-Profile und Profilabstand

Quelle [Cavnar und Trenkle 1994]

Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]

25 VertiefungZum Thema ldquoTokenisierungrdquo

bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28

bull Pflichtlektuumlre [Carstensen et al 2009 341]

bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]

Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)

bull httpwwwcluzhchclabregex

Zum Thema ldquoXMLrdquo

21

bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1

bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]

Zusammenfassung

bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen

bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen

bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen

bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung

bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar

bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen

bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden

Kontrollfragen

bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention

bull Welche Probleme stellen sich bei der Tokenisierung

bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung

bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten

bull Was versteht man unter NER

bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle

22

Kapitel 3

Linguistisches Propaumldeutikum I

Lernziele

bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen

bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg

bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch

bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte

bull Kenntnis und Anwendung linguistischer Proben

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten

bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung

31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs

Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind

Praumlzisierungsversuche des Wort-Begriffs

bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment

bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit

bull Morphologisch Grundeinheit welche flektierbar ist

bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist

bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes

23

Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach

Antworten 4 5 6 9 __

311 Token

Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9

Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText

BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann

312 Wortform

Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes

Identische Wortformen mit unterschiedlicher Bedeutung

bull Die Fliege war tot

bull Er trug eine samtene Fliege

bull Fliege nicht so schnell

313 Syntaktisches Wort

Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6

Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst

Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural

24

314 Lexem

Antwort 5 Wort als Lexem

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden

Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem

Lexikographische Notationskonventionen

Wie sehen Verb-Lemma in DeutschenLatein aus

Antwort 4 Wort als Lexemverband

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4

Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert

Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln

Stufen der Abstraktion Vom Text zum Lexemverband

bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)

bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)

bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen

bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden

bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird

25

32 Lehre von den WortartenWortarten nach [Bussmann 2002]

Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien

Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb

5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det

321 5 Hauptwortarten nach Glinz

Klassifikationskriterien

Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]

Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

26

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

322 UD

Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)

Universal Part-of-Speech Tagset (Version 1)1

12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish

ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo

Universal Part-of-Speech Tagset (Version 2) UPOS2

Version 2 hat 17 POS-Tags

+ Eigennamen (PROPN) (vorher NOUN)

+ Hilfsverben (AUX) (vorher VERB)

+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)

+ Symbole (SYM) (vorher X)

+ Interjektionen (INTJ) (vorher PRT)

= Partikel (PART) (vorher PRT)

= Interpunktion (PUNCT) (vorher )

Baumbanken sind fuumlr 51 Sprachen verfuumlgbar

27

Abbildung 32 Deutsche UD-Baumbank

UD V13 fuumlr Deutsch

NDurchsuchen

bull Suche nach Wort spaumlter

bull Nach Wort+Wortart spaumlterampADV

UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml

Mehrdeutigkeiten Unklarheiten Fehlannotationen

Linguistische Annotation und Automatisierung

Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form

Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml

28

bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)

bull Vollautomatisch Schnell billig fehlerbehaftet

bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile

Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml

N CoNLL-Format Spaltenformat fuumlr Annotationen3

bull Vertikalisierter Text

bull 1 Token pro Zeile

bull Saumltze mit Leerzeile getrennt

bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation

bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet

Bedeutung relevanter Spalten

1 Tokennummer (1-basierte Zaumlhlung) pro Satz

2 Wortform (Token)

3 Lemma

4 Grobe Wortklasse (coarse-grained part-of-speech tag)

5 Feine Wortklasse (fine-grained part-of-speech tag)

6 Morphosyntaktische Merkmale

7 Syntaktischer Kopf als Tokennummer

8 Dependenztyp

CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo

Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token

3httpuniversaldependenciesorgformathtml

29

Abbildung 33 CoNLL-U und CoNLL-X

Manuelle Annotation mit WebAnno und Exportformate

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

323 Feine Tagsets

Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis

bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags

bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert

bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch

bull Alternativen Muumlnsteraner Tagset [Steiner 2003]

Wieso ist das STTS wichtig

bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)

ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel

bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo

30

Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts

Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken

33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale

Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden

Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems

bull Konjugation von Verben

bull Deklination von Nomen Adjektiven Artikeln und Pronomen

bull Steigerung von Adjektiven (und wenigen Adverbien)

Diskussion Sind steigerbare Adverbien ein Widerspruch im System

Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet

31

Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts

Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn

331 Genus

Das Genus (UD Gender) Grammatisches Geschlecht

Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien

Tabelle 31 Uumlbersicht Genera

BemerkungDer Plural von Genus lautet Genera

Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt

Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen

Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind

Deutsch

32

Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur

AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas

332 Numerus

Der Numerus (UD Number) Grammatische Zahl

Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner

Tabelle 32 Uumlbersicht Numeri

BemerkungDer Plural von Numerus lautet Numeri

Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt

333 Kasus

Der Kasus (UD Case) FallUD-Kategorie Case

Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum

Tabelle 33 Uumlbersicht Kasus

BemerkungDer Plural von Kasus lautet Kasus

334 Modus

Der Modus (engl mode mood UD Mood) Aussageweise

Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh

Tabelle 34 Uumlbersicht Modi

In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi

33

335 Tempus

Das Tempus (UD Tense) grammatische Zeit Zeitform

Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging

Tabelle 35 Uumlbersicht Tempora

BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten

336 Person

Die Person (UD Person)

Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht

Tabelle 36 Uumlbersicht Personen

BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt

337 Grad

Der Grad (UD Degree) Steigerung Komparation

Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste

Tabelle 37 Uumlbersicht Komparation

BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt

338 Adjektiv-Flexion

Die Adjektiv-Flexion (engl adjective inflection)

BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven

Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet

34

Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse

Tabelle 38 Uumlbersicht Adjektiv-Flexion

Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern

UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt

Morphologische Englische UD-Annotation

1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _

34 Linguistische ProbenLinguistische Testverfahren

Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen

341 Ersatzprobe

Ersatzprobe

Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben

35

Beispiel 343 (Bestimmung des Kasus)

Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat

Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen

Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)

bull Das ist das Angebot das uns uumlberzeugt hat

bull Dieses ist das Angebot welches uns uumlberzeugt hat

bull Welches ist das Angebot dieses uns uumlberzeugt hat

bull Das ist dieses Angebot welches uns uumlberzeugt hat

Probleme der Interpretation

bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes

bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig

342 Einsetzprobe

Einsetzprobe

Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert

Beispiel 345 (Bestimmung der Wortart)

Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb

Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive

35 MorphologieMorphologische Ebene

Womit befasst sich die Morphologie Wortstruktur und Wortbildung

bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e

36

bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit

bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system

351 LemmatisierungMorphologieanalyse

Lemmatisierung und Morphologieanalyse

Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen

Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma

Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo

Analysen von GERTWOL5

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Probleme morphologischer Analysen Mehrdeutigkeit

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM

Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol

37

bull ldquoeinerdquo als

bull ldquoMuumlllerrdquo als Eigenname oder Substantiv

Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus

Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1

Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile

Probleme morphologischer Analyse

googelte

UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter

Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM

ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat

Lieblingsbeerelieb~lingsbeere S FEM SG NOM

Erdbeereerdbeere S FEM SG NOM

Fingerbeerenfingerbeere S FEM PL NOM

UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung

38

Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas

Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]

Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent

352 Morphologiegenerierung

Generierung von syntaktischen Wortformen

Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation

Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|

Person=2|Tense=Past|VerbForm=Fingingst

backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin

36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT

bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem

bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6

bull Die Website universaldependenciesorg hat einige Dokumentation

Zusammenfassung

bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet

bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte

bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme

bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen

6httpwwwdsuzhchstudien-cd

39

Kontrollfragen

bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo

bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2

bull Worin besteht Morphologieanalyse und -generierung

bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller

bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt

bull Was ist der Unterschied zwischen Lemma und Lexem

40

Kapitel 4

Linguistisches Propaumldeutikum II

Lernziele

bull Anwendung der klassischen syntaktischen Proben

bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf

bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte

bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen

bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug

Motivation 2 (halbwegs kompatible) Syntax-Welten

Konstituenten

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Dependenz

41

Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden

(NGoogles SyntaxNet)

41 Syntaktische ProbenKonstituentenproben

Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt

Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

411 Weglassprobe

Weglassprobe

Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten

Bestimmung eines Satzglieds

1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

FrageWarum nicht Variante 4

42

412 Verschiebeprobe

Verschiebeprobe

Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen

Bestimmung von Satzgliedern

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen bereite ich die Sitzung mit dem Chef vor

3 Ich bereite die Sitzung mit dem Chef morgen vor

Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb

Verschiebeprobe

Unzulaumlssiges Verschieben

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen ich bereite die Sitzung mit dem Chef vor

3 Die Sitzung bereite ich morgen mit dem Chef vor

413 Umformungsproben

Umformungsprobe

Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut

Funktion von Nebensaumltzen

1 Es wuumlrde mich freuen wenn du mitkaumlmest

2 Dein Mitkommen wuumlrde mich freuen

Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo

Infinitivumformung zur Subjekterkennung

1 Die Laumlrche ist ein Nadelbaum

2 ein Nadelbaum sein die Laumlrche

43

Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]

42 SatzSatz

Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist

Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten

421 Satzglieder

Moderne Satzgliedlehre

422 Koumlpfe (oder Kerne) von Konstituenten

Syntaktische Koumlpfe (engl head) Kern (engl kernel)

Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar

Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)

1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]

2 Sie rennt [mit dem Mobile hantierend] zum Kiosk

3 Es wird [viel zu oft] telefoniert

44

4 [Die Frau die zum Kiosk rannte ] war aufgeregt

5 Sie fuumlhlte sich [wie in einem schlechten Film]

6 Aber sie war auch [in einem ziemlich schlechten Film]

43 Syntaxanalyse

431 Konstituenz

Konstituenten und Konstituenz

Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist

Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten

Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten

Konstituenten in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

unmittelbare Dominanz

Konstituente auf Wortebene

Syntaktische Konstituente

Praumlzedenz auf Wortebene

Praumlzedenz zwischen Tochterkonstituenten

Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung

Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente

Konstituententypen

Typen von Konstituenten in TIGERNEGRA

1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen

45

2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern

3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern

4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern

5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern

6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern

7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo

Annotation von Relativsaumltzen

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen

Komplexe Konstituenz in der Penn-Treebank

Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white

Syntaxbaum aus der Vogelperspektive

In

IN

other

JJ

words

NNS

like

IN

automation

NN

machines

NNS

designed

VBN

-NONE-

to

TO

work

VB

in

IN

tandem

NN

they

PRP

shared

VBD

the

DT

same

JJ

programming

NN

a

DT

mutual

JJ

understanding

NN

not

RB

only

RB

of

IN

English

NNP

words

NNS

but

CC

of

IN

the

DT

four

CD

stresses

NNS

pitches

NNS

and

CC

junctures

NNS

that

WP

T

-NONE-

can

MD

change

VB

their

PRP$

meaning

NN

from

IN

black

NN

to

TO

white

NN

NP

PP

NP NP NP

PP

VP

VP

SBJ

S

VP

NP

PP

NP NP NP CONJP NP

PP

NP WHNP NP NP NP

PP

NP

PP

PP

VP

VP

SBJ

S

SBAR

NP

PP

PP

NP

NP

VP

SBJ

S

T

46

Quelle TIGERSearch-Demo-Korpora

Maximale Verschachtelungstiefe

432 Dependenz bzw syntaktische Funktion

Dependenz und syntaktische Funktion

Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten

Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen

HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt

Syntaktische Funktionen in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Syntaktische Funktion

Konstituenten

Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung

Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente

Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken

Einige Satzglieder mit TIGER-Funktion

bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein

47

Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)

bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)

bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)

bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)

bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator

bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb

Baumbankkonversion Von Konstituenz zu Dependenz

Automatische Konversion (NTIGER2Dep)

Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)

433 UD-DE-Modell

Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen

48

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

Generelle Philosophie des Universal-Dependency-Modells

bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig

bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV

bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum

bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden

bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der

bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)

bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens

Inhaltswoumlrter VERB und NOUN

Hinweisebull Spitze des Pfeils Abhaumlngiges Element

bull Startknoten des Pfeils Kopf

bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen

bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird

Das UD-Innenleben von Nominalphrasen

Hinweisebull Was ist der NP-Kopf

bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll

49

Komplexe Verb- und Adjektivphrasen

Hinweise

bull Hilfs- und Modalverben haumlngen vom Vollverb ab

bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich

Kopulakonstruktion und Gleichsetzungsnominativ

Fragen

bull Wovon haumlngt das Subjekt ab

bull NSuche nach ist im Suchwerkzeug

bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft

Interpunktion

Hinweise

bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt

50

Verschachtelte Saumltze

Hinweise

bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab

bull Wann aclrelcl und wann advcl

Koordination

Koordination Koumlpfe und Abhaumlngigkeitsrichtung

Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht

Koordination von Konstituenten aus NEGRA-Korpus

bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]

bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]

bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]

2 Fragen mit mehreren moumlglichen Antworten

bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt

bull In welche Richtung werden koordinierte Elemente verknuumlpft

Koordination in der NUD

Frage

bull Welche Antworten gibt die UD

51

Manuelle Syntax-Annotation mit WebAnno

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)

bull Click-und-Drag-Interface mit der Maus

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml

Aufgabe Annotation von Relativsatz

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Wie sieht eine UD-Annotation von diesem Satz aus

434 Suche

NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken

Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-

Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens

2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)

KOPF gt NICHTKOPF

NICHTKOPF lt KOPF

Analog zur Pfeilrichtung in der BRAT-Visualisierung

52

Grundlegende syntaktische Suchrezepte

bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging

bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging

bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde

bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld

bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor

bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _

bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist

44 AmbiguitaumltZusammenfassung

bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen

bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden

bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab

bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])

45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]

bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre

bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren

bull Quiz Die Form der Satzglieder

bull Quiz Satzglieder und Proben

bull Linguistik-CD

53

Kapitel 5

Endliche Automaten

Lernziele

bull Einstieg in die Formalisierung von Sprache

bull Was sind Zeichenketten formalmathematisch

bull Was ist eine formale Sprache

bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation

bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten

bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie

bull Wann ist ein endlicher Automat deterministisch und wann nicht

bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten

54

51 Formale Sprachen

511 Mengen

A Quick Review of Set Theory

A set is a collection of objects

A B

D E

We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E

There is no significant order in a set so A D B E is the same set as E A D B etc

Quelle B04

Cardinality of Sets

 The Empty Set

 A Finite Set

 An Infinite Set eg The Set of all Positive Integers

Norway Denmark Sweden

Quelle B04

512 Zeichen

Das Alphabet (Sigma) Menge von Zeichen

55

Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert

Zeichen des EnglischenΣEnglisch = a b c x y z

Zeichen der binaumlren ZahlenΣbin = 0 1

Zeichenketten (strings)

Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ

Zeichenketten uumlber englischen Symbolen ΣEnglisch

a we muntjac talk walk krwrk

Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0

Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast

bin = ε 0 1 00 01 10 11 001

513 Sprachen

Formal Languages

Very Important Concept in Formal Language Theory

A Language is just a Set of Words

bull  We use the terms ldquowordrdquo and ldquostringrdquo interchangeably

bull  A Language can be empty have finite cardinality or be infinite in size

bull  You can union intersect and subtract languages just like any other sets

56

Quelle B04

Union of Languages (Sets)

dog cat rat elephant mouse

Language 1 Language 2

dog cat rat

elephant mouse

Union of Language 1 and Language 2 Quelle B04

Formale Sprachen als Teilmenge von Sigma Stern

L sube Σlowast

Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast

Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes

Englische Woumlrterwalk talk work sube a b zlowast

Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt

Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit

Formales Modell Wirklichkeit

Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme

57

Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der

Wirklichkeit zu repraumlsentieren

Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working

worked works talk

talking talked talks

walk walking

walked walks

The concatenation of

the Suffix language

after the Root

language

0 or denotes the empty string

Abbildung 51 Sprache mit 3 WoumlrternZeichenketten

Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk

Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage

Beispiel fuumlr Deterministischen Endlichen Automaten

talk isin work talk walk

bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile

52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)

Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand

58

Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert

Nicht-Deterministische Endliche Automaten (NEA)

Abbildung 52 Deterministischer EA

Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg

Nicht-Determinismus IIEs gibt mindestens eine ε-Kante

Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln

Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus

1 einer endlichen Menge Zustaumlnde Φ

2 einem endlichen Eingabealphabet Σ

3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ

59

4 einem Startzustand S isin Φ

5 einer Menge von Endzustaumlnden F sube Φ

Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)

δ Φtimes (Σ cup ε)rarr weierp(Φ)

521 Konkatenation

Konkatenation von Zeichenketten und Sprachen

Konkatenation von Zeichenkettenu bull v = uv

lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo

Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V

lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo

Concatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working worked works talk talking talked talks walk walking walked walks

The concatenation of the Suffix language after the Root language

0 or ε denotes the empty string

60

Quelle B04

Concatenation of Languages II

work talk walk

Root Language

0 ing ed s

Suffix Language

rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks

The concatenation of the Prefix language Root language and the Suffix language

Prefix Language

re out 0

outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks

work working worked works talk talking talked talks walk walking walked walks

Quelle B04

Languages and Networks

w a l k

o r

t

NetworkLanguage 2 NetworkLanguage 3

s

o r The concatenation of Networks 1 2 and 3 in that order

w a l k t

a

a s

ed

i n g

0

s

ed

i n

0s

g o

r

NetworkLanguage 1

s

u t

e

0

o

r s

t

e

0 u

Quelle B04

522 Regulaumlre Ausdruumlcke

Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)

Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann

61

bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo

bull Die Mengen a1a2an sind regulaumlr RA a oder b

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)

bull Ist L regulaumlr dann auch LlowastRA (A)

Wie kann man Optionalitaumlt ausdruumlcken

Graphischer Algorithmus Konversion von RA zu NEA

JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten

Algorithmus

1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde

2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten

3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander

4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen

Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten

Epsilon

Symbol a

Konkatenation (ab)

Alternative (a|b)

62

encodes

a

LANGUAGE RELATION

compiles intoa

REGULAR EXPRESSIONa

FINITE-STATE NETWORKde

notes

Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])

Wiederholung (a)

Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert

63

53 Transduktoren

Linguistic Transducer Machines

mesas

Generator

ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas

m e s a +Noun +Fem +Pl

m e s a 0 0 s

mesa+Noun+Fem+Pl

Analyzer

ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas

Quelle B04

Gute Eigenschaften von endlichen Automaten und Transduktoren

bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen

bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde

bull Beispiel NRumantsch Grischun

bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren

Zusammenfassung

bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben

bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen

bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den

bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt

bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden

64

Vertiefung

bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)

bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo

bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo

bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial

65

Kapitel 6

Flache Satzverarbeitung

Lernziele

bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets

bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung

bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen

bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells

bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger

bull Kenntnis uumlber partielle syntaktische Analyse

bull Kenntnis uumlber flache und verschachtelte Chunks

Welches mehrdeutige Wort hat dieses Profil

UPOS-Tag Vorkommen1

1021ADP 848ADV 61

PROPN 14ADJ 1

61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT

N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token

66

Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)

bull eineDET Kuh Lemma ldquoeinrdquo

bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)

bull lead Verb lid (fuumlhren) Nomen led (Blei)

bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe

Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren

Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to

be present tense 3rd person singular

Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch

Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist

Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]

bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)

bull Effizient Der Tagger arbeitet schnell

bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)

bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den

bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden

Was fehlt

67

611 Probleme des Taggings

Wortformen mit mehreren moumlglichen Tags

MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token

Tag-Ambiguitaumlt im Englischen

Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]

Haumlufigkeiten im Brown-Korpus

bill NN 2351

promised VBD 34~~VBN 10~~JJ 2

back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2

Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token

die~~ART 2351~~PRELS 448~~PDS 4

Mehrheit~~NN 40

bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1

Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0

Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen

bull Unterscheidung zwischen offenen und geschlossenen Wortarten

bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)

68

Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]

Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)

bull 98 aller Woumlrter mit Endung -able sind Adjektive

bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname

Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe

oo

n

e

g

n

d

senuel

l

cv

y ta

o

mtsiii

o

i

ies (NNS09 VBZ01)ons (NNS095 VBZ005)

ed (VBN04 JJ03 VBD03)

le (NN025 JJ045 NP02 VB01)

ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)

ty (NN045 JJ035 NP02)

son (NP08 NN01 JJ01)

man (NP08 NN02)ton (NP09 NN005 JJ005)

ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)

ous (JJ096 NN004)

old (JJ098 NN002)

Quelle [Schmid 1995]

Wortformen mit mehreren moumlglichen Tags Kontext

69

Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6

Vorkommen von ldquobackrdquo im Brown-Korpus

ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung

Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen

Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet

bull die moumlglichen Tags von wn aus Tagger-Lexikon

bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens

Context

3

3

Kontextmodell des Trigrammtaggers TnT [Brants 2000]

612 Fallstudie TnT-Tagger

Supervisiertes Maschinelles Lernen

70

Quelle [Raschka 2015 11]

ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt

Fallstudie TnT-Tagger trainieren und evaluieren

Testkorpustestttstesttxt

Trainingskorpustrainingtts

Getaggtes Korpus

Aufteilen des Korpus

Taggingtnt

Trainingtnt-para

Parameter-Dateien

traininglextraining123

Evaluations-korpus

evaltts

Evaluationtnt-diff

Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger

Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]

1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)

$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts

2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden

$ head --lines 278081 ud-de-v13tts gt trainingtts

3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden

$ tail --lines 30900 ud-de-v13tts gt testtts

71

4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus

$ tnt-para trainingtts

5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut

$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts

6 Man erstelle das Evaluationskorpus

$ cut -f 1 testtts gt evaltxt

7 Man tagge das Evaluationskorpus mit dem Trainingsmodell

$ tnt training evaltxt gt evaltts

8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus

$ tnt-diff testtts evaltts

62 EvaluationEvaluation

Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode

Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt

Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird

Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind

Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden

Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)

Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat

72

Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein

621 Zweck

Zweck von Evaluationen

SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert

SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist

622 Accuracy

POS-Tagger-Evaluation Genauigkeit

Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens

accuracy = N minus EN

Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit

Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus

Tagt Freqt Tagf Freqf Ant Erel Eabs

NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010

Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]

Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler

73

5-fache Kreuzvalidierung visuell

Figure 8-2 K-fold cross-validation

Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point

You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order

gtgtgt import randomgtgtgt randomshuffle(f)

If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold

gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k

Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on

Problems That Can Affect Evaluation | 179

Quelle [Pustejovsky und Stubbs 2013 179]

Genauigkeit unter 10-facher Kreuzvalidierung

Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))

accuracy =sumi=10

i=1 accuracyi

10

Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen

623 Lernkurven

624 Recall

Recall (Ausbeute Abdeckung Vollstaumlndigkeit)

Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems

R = At

Nt

Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600

800 = 75

74

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp())+-01$+-0-2)00-))304

56)77

8010

904010

6+789lt

6-=7gt8lt

6+7gtlt

6-=7gt8lt

6+7lt

6-=79lt

2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J

-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J

)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)

Qampamp)(ampI0(EI(K3amp)-++5

8

9

gt

R9 9 S gt9 8 RR gtS

$-++5NF=J

TM5ltU+B+ampE+

TM5T00I-0L

SSR

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

6)6lt$$)amp$+)=$gt=((+

Q-M-44amp-0C

5-66ampK1F3()ampKVWWJ

6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(

Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp

)-)amp3)T)C

$5-66ampK1F(0amp+KampKVWWJ

6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+

U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+

TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+

+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt

QZ]T F6-+JgtRlt gt8lt [RSlt

Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants

625 Precision

Precision (Genauigkeit Praumlzision)

Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems

P = At

A

Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600

1000 = 60

626 F-Measure

F-Measure (F-Mass)

Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems

F = 2times P timesRP +R

75

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp()

67-18-)amp+8(+5)9amp0amp4amp-

6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F

2++$G-+AH-11))Iamp8+-1

J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+

$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5

amp+)-5)amp-0)ampA+

$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()

$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5

+amp(-012344)425amp123)3627892(+lt

=+$$

gt)(5)

))(5)

D+QRSTU

D-EQVWTRU

D+QVXTRU

D-EQVRTRU

D+QWTYU

D-EQSVTMU

6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F

-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F

M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)

ampamp)(amp80(98(B3amp)-++5T

Y X M YM XM MM YMM YMXM

WM

RM

SM

VM

MM

$-++5OCEMMMF

gt75TU[+A+amp9+

gt75Tgt008-0N

PWTP PTP WTM MTR YTM ST PT TVXMTS

C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants

Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075

06+075 = 666

63 Chunk ParsingPartielle syntaktische Analyse

Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt

Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN

bull NC Ein NC (Nominalchunk) besteht

bull -gt besteht aus

bull ART aus einem Wort der Wortart ART (Artikel)

bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)

76

Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

631 Abneys Chunk-Definition

Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]

Motivationen

bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung

bull Effizienz Teilstrukturen lassen sich effizienter berechnen

bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse

bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden

632 IOB-Chunk

Flache Chunks im IOB-Format

Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist

bull B-K Anfang einer Chunk-Konstituente K

bull I-K Fortsetzung der Chunk-Konstituente K

77

bull 0 Nicht zugeordnet (wird auch chink genannt)

We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP

633 Verschachtelte Chunks

Verschachtelte Chunks

Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich

Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)

[PX [APPR fuumlr][NX [ARTIND eine]

[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]

Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC

64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo

bull Pflichtlektuumlre [Carstensen et al 2009 342-3]

bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking

bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative

bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4

78

ZusammenfassungZusammenfassung

bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung

bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets

bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input

Kontrollfragen

bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen

bull Was unterscheidet Recall und Precision von Accuracy

bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging

bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte

bull Was ist der Vorteil der IOB-Notation fuumlr Chunks

65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele

bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative

bull Kenntnis uumlber Fehlertypen und ihre Gefahr

bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung

651 TrueFalse PositivesNegatives

Evaluation von binaumlren Klassifikatoren

TruthPositive Negative

Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)

Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit

Legende zur Tabelle 63

True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

79

FP Fehlertyp I Test ist positiv wo er nicht sollte

FN Fehlertyp II Test ist negativ wo er nicht sollte

652 Fehlerparadoxe

Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet

Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter

Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet

Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter

653 Unterschiede von Evaluationsmassen

Dualitaumlt von Precision und Recall

TruthPos Neg

Test Pos TP FPNeg FN TN

R = TP

TP + FN

Tabelle 64 Recall

Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision

F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig

80

TruthPos Neg

Test Pos TP FPNeg FN TN

P = TP

TP + FP

Tabelle 65 Precision

TruthPos Neg

Test Pos TP FPNeg FN TN

F = 2times TP2times TP + FP + FN

Tabelle 66 F1-Measure

TruthPos Neg

Test Pos TP FPNeg FN TN

Accuracy = TP + TN

TP + TN + FP + FN

Tabelle 67 Accuracy

654 Mitteln von Recall und Precision

F-Measure Harmonisches vs arithmetisches Mittel

655 Vertiefung

bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]

81

Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]

82

Abbildung 68 M = P +R2 Arithmetisches Mittel

83

Literaturverzeichnis

[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235

[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications

[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University

[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231

[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl

[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen

[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf

[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt

[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf

[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl

[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov

[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl

84

[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf

[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf

[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830

[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485

[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM

[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011

[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl

[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York

[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096

[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA

[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning

[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf

[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin

[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml

85

[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098

[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps

[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd

[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf

[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf

[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf

[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean

[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574

86

Index

10-fache Kreuzvalidierung 74

Adjektiv-Flexion 34Alphabet 56

Eingabealphabet 59

DEA 59Dependenz 47

Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72

F-Measure 75

Genus 32Grad 34

IOB-Chunks 77

Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44

Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25

Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39

Named Entity Regonition 19NER 19

Numerus 33 34

partielle syntaktische 76Person 34Precision 75Probe linguistisch 35

Qualitaumlt einer Evaluation 72

Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72

Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47

Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24

Umformungsprobe 43

Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43

Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24

XML-Standard 14

Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59

87

  • Organisatorisches
    • Organisatorisches
      • Leistungsnachweis
      • Lernen und Lehren
        • Kontrollfragen
          • Tokenisierung
            • Tokenisierer
              • Grundproblem
              • Kodierung
              • Programme
                • XML
                • Tokenisierung
                  • Problem
                  • Punktdisambiguierung
                  • Normalisierung
                  • NER
                    • Multilingualitaumlt
                    • Vertiefung
                      • Linguistisches Propaumldeutikum I
                        • Wort
                          • Token
                          • Wortform
                          • synt Wort
                          • Lexem
                            • Wortarten
                              • 5 Hauptwortarten
                              • UD
                              • STTSPTTS
                                • Merkmale
                                  • Genus
                                  • Zahl
                                  • Kasus
                                  • Modus
                                  • Zeit
                                  • Person
                                  • Grad
                                  • Flexion
                                    • Proben
                                      • Ersetzen
                                      • Einsetzen
                                        • Morphologie
                                          • LemmatisierungMorphologieanalyse
                                          • Morphologiegenerierung
                                            • Vertiefung
                                              • Linguistisches Propaumldeutikum II
                                                • Proben
                                                  • Weglassen
                                                  • Verschieben
                                                  • Umformen
                                                    • Satz
                                                      • Satzglieder
                                                      • Koumlpfe
                                                        • Syntaxanalyse
                                                          • Konstituenz
                                                          • Dependenz
                                                          • UD-DE
                                                          • Suche
                                                            • Ambiguitaumlt
                                                            • Vertiefung
                                                              • Endliche Automaten
                                                                • Formale Sprachen
                                                                  • Mengen
                                                                  • Zeichen
                                                                  • Sprachen
                                                                    • EA und regulaumlre Sprachen
                                                                      • Konkatenation
                                                                      • Regulaumlre Ausdruumlcke
                                                                        • Transduktoren
                                                                          • Flache Satzverarbeitung
                                                                            • Tagging
                                                                              • Probleme
                                                                              • Fallstudie TnT-Tagger
                                                                                • Evaluation
                                                                                  • Zweck
                                                                                  • Accuracy
                                                                                  • Lernkurven
                                                                                  • Recall
                                                                                  • Precision
                                                                                  • F-Measure
                                                                                    • Chunking
                                                                                      • Abney
                                                                                      • IOB-Chunk
                                                                                      • Verschachtelte Chunks
                                                                                        • Vertiefung
                                                                                        • Exkurs Evaluation binaumlrer Klassifikatoren
                                                                                          • TPFPFNTN
                                                                                          • Fehlerparadoxe
                                                                                          • Unterschiede
                                                                                          • Mittelwerte
                                                                                          • Vertiefung
Page 13: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff

bull Konsumieren der Zeichenfolge (Eingabe)

bull Gruppieren und allenfalls normalisierenmodifizieren der Zeichen (Verarbeitung)

bull Produzieren einer Folge von Tokens (Ausgabe)

Typische Beispiele fuumlr Tokenisierer Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text dh 1 Token pro Zeile Saumltzesind durch Leerzeilen voneinander abgetrennt

Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhaumlngiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkuumlrzungsdatei(ger-abbrev)

$ cat filetxtBachrsquosche Musikmag Dr Fritz Ja

$ cat ger-abbrevDrusw

$ utf8-tokenizeperl -a ger-abbrev filetxtBachrsquoscheMusikmagDrFritz

Ja

Typische Beispiele fuumlr Tokenisierer Regulaumlre AusdruumlckeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PythonPERL oder Finite-State Tools welche einen einfachen Umgang mit regulaumlren Ausdruumlcken er-lauben

Definition 213 (Regulaumlre Ausdruumlcke (engl regular expressions)) Ein regulaumlrer Ausdruck isteine relativ standardisierte Kurz-Notation um Zeichenketten mit bestimmten Eigenschaften zubeschreibenPraktisch eingesetzt werden sie fuumlr die nicht-woumlrtliche Suche (engl pattern matching) Suchen-und-Ersetzen und Segmentieren von Zeichenketten

Einfuumlhrung in regulaumlre AusdruumlckeZB in unserem CLab httpwwwcluzhchclabregex

12

Tokenisierer in der ProgrammiersprachePython

Tokenisierer mit regulaumlren Ausdruumlcken

bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben

bull Einfach anpassbar auf die Textsorte

bull Fuumlr uumlberschaubare Textmengen empfohlen

bull Vorteil Machen dieselben Fehler konsequent

bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung

Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])

1 Rohtext

This is an example There are two sentences

2 XML-Input fuumlr Tokenisierer (Vortokenisierung)

ltdocumentgtlttextgt

ltpgtThis is an example There are two sentences

ltpgtlttextgt

ltdocumentgt

3 XML-Tokenisat

ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt

13

ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt

Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert

Verschachtelung im XML-Stil

ltdocumentgtlttextgt

ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example

ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences

Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags

22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation

bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs

bull httpstubeswitchchvideos60fc01f1

XML (eXtensible Markup Language)

Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann

14

XML in der Texttechnologie

bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)

bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten

bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben

Aufbau von XML-Dokumenten

Elemente und ihre Attribute

bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt

bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)

bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt

bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt

bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt

bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt

Zeichenreferenzen und Entity-Referenzen

Entitaumlten und Referenzen

bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden

bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal

bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den

Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38

Newline amp9Σ ampx3a3

15

23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen

231 Problem

Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt

bull Wort-Zeichen [a-zA-Z0-9]

bull Einzel-Zeichen [)(rsquo$-]

bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]

ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo

Schwierigkeiten der Wortsegmentierung im engen Sinn

Schwierige Zeichen

bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim

bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr

bull Bindestriche semble-t-il rarr semble + -t-il

bull Punkte SAC

bull Masseinheiten 30 rarr 30 + 28 rarr 28 +

bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que

Teilprobleme der Tokenisierung im weiten Sinn

bull Umgang mit Markup (HTML-Tags Formatierungszeichen)

bull Erkennung der ldquonormalenrdquo Tokengrenzen

bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)

bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)

bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)

bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)

16

232 Punktdisambiguierung

Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben

Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert

Verschmelzung

bull It was due Friday by 5 pm Saturday would be too late

bull Ich kenne die USA Frankreich kenne ich nicht

WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig

Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls

bull das Token in einer Abkuumlrzungsliste steht

bull nach dem Token eines der Zeichen aus [a-z] folgt

bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht

bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt

Nach [Grefenstette und Tapanainen 1994]

LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen

Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen

Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN

1 Wie viele Zeichen umfasst TOKEN

2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale

3 Wie oft kommt TOKEN ohne Punkt vor

4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor

5 Wie oft kommt NEXTTOKEN kleingeschrieben vor

17

Satzsegmentierung mit maschinellen Lernverfahren

bull Fuumlr grosse Textmengen empfohlen

bull Nachteil Unsystematische Fehler koumlnnen auftreten

Statistisches System PUNKT ([Kiss und Strunk 2006])

bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten

bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt

iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte

233 Zeichen- und Token-Normalisierung

Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen

Normalisierung bei Suchmaschinen und anderen Anwendungen

bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich

bull 4897 4-8-97 4897 8497

bull 19000 19rsquo000 19 000 19000

bull Louisa Luise Louise Luisa

bull doesnrsquot does not

Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)

bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt

bull Hollaumlndisch chocola-tje rarr chocolaatje

Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen

18

Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung

Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens

615 5 Ruumlckbau in neue Tokens

Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus

Ruumlckgaumlngig machen von Worttrennung am Zeilenende

Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens

Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch

234 Named Entity Recognition

Named Entity Recognition

Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen

Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen

Kanonische Formen und Entity Linking

bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo

bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo

Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3

Demo Time Expression Recognition (TIMEX task)

24 MultilingualitaumltMultilinguale Dokumente und Systeme

Herausforderung Multilingualitaumlt

bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess

19

Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular

Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML

bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig

bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut

bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet

bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut

Ansatz von [Cavnar und Trenkle 1994]

20

1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten

2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)

3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil

4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm

5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand

N-Gramm-Profile und Profilabstand

Quelle [Cavnar und Trenkle 1994]

Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]

25 VertiefungZum Thema ldquoTokenisierungrdquo

bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28

bull Pflichtlektuumlre [Carstensen et al 2009 341]

bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]

Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)

bull httpwwwcluzhchclabregex

Zum Thema ldquoXMLrdquo

21

bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1

bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]

Zusammenfassung

bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen

bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen

bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen

bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung

bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar

bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen

bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden

Kontrollfragen

bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention

bull Welche Probleme stellen sich bei der Tokenisierung

bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung

bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten

bull Was versteht man unter NER

bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle

22

Kapitel 3

Linguistisches Propaumldeutikum I

Lernziele

bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen

bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg

bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch

bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte

bull Kenntnis und Anwendung linguistischer Proben

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten

bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung

31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs

Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind

Praumlzisierungsversuche des Wort-Begriffs

bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment

bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit

bull Morphologisch Grundeinheit welche flektierbar ist

bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist

bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes

23

Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach

Antworten 4 5 6 9 __

311 Token

Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9

Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText

BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann

312 Wortform

Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes

Identische Wortformen mit unterschiedlicher Bedeutung

bull Die Fliege war tot

bull Er trug eine samtene Fliege

bull Fliege nicht so schnell

313 Syntaktisches Wort

Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6

Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst

Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural

24

314 Lexem

Antwort 5 Wort als Lexem

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden

Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem

Lexikographische Notationskonventionen

Wie sehen Verb-Lemma in DeutschenLatein aus

Antwort 4 Wort als Lexemverband

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4

Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert

Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln

Stufen der Abstraktion Vom Text zum Lexemverband

bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)

bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)

bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen

bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden

bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird

25

32 Lehre von den WortartenWortarten nach [Bussmann 2002]

Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien

Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb

5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det

321 5 Hauptwortarten nach Glinz

Klassifikationskriterien

Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]

Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

26

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

322 UD

Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)

Universal Part-of-Speech Tagset (Version 1)1

12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish

ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo

Universal Part-of-Speech Tagset (Version 2) UPOS2

Version 2 hat 17 POS-Tags

+ Eigennamen (PROPN) (vorher NOUN)

+ Hilfsverben (AUX) (vorher VERB)

+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)

+ Symbole (SYM) (vorher X)

+ Interjektionen (INTJ) (vorher PRT)

= Partikel (PART) (vorher PRT)

= Interpunktion (PUNCT) (vorher )

Baumbanken sind fuumlr 51 Sprachen verfuumlgbar

27

Abbildung 32 Deutsche UD-Baumbank

UD V13 fuumlr Deutsch

NDurchsuchen

bull Suche nach Wort spaumlter

bull Nach Wort+Wortart spaumlterampADV

UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml

Mehrdeutigkeiten Unklarheiten Fehlannotationen

Linguistische Annotation und Automatisierung

Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form

Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml

28

bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)

bull Vollautomatisch Schnell billig fehlerbehaftet

bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile

Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml

N CoNLL-Format Spaltenformat fuumlr Annotationen3

bull Vertikalisierter Text

bull 1 Token pro Zeile

bull Saumltze mit Leerzeile getrennt

bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation

bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet

Bedeutung relevanter Spalten

1 Tokennummer (1-basierte Zaumlhlung) pro Satz

2 Wortform (Token)

3 Lemma

4 Grobe Wortklasse (coarse-grained part-of-speech tag)

5 Feine Wortklasse (fine-grained part-of-speech tag)

6 Morphosyntaktische Merkmale

7 Syntaktischer Kopf als Tokennummer

8 Dependenztyp

CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo

Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token

3httpuniversaldependenciesorgformathtml

29

Abbildung 33 CoNLL-U und CoNLL-X

Manuelle Annotation mit WebAnno und Exportformate

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

323 Feine Tagsets

Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis

bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags

bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert

bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch

bull Alternativen Muumlnsteraner Tagset [Steiner 2003]

Wieso ist das STTS wichtig

bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)

ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel

bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo

30

Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts

Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken

33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale

Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden

Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems

bull Konjugation von Verben

bull Deklination von Nomen Adjektiven Artikeln und Pronomen

bull Steigerung von Adjektiven (und wenigen Adverbien)

Diskussion Sind steigerbare Adverbien ein Widerspruch im System

Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet

31

Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts

Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn

331 Genus

Das Genus (UD Gender) Grammatisches Geschlecht

Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien

Tabelle 31 Uumlbersicht Genera

BemerkungDer Plural von Genus lautet Genera

Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt

Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen

Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind

Deutsch

32

Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur

AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas

332 Numerus

Der Numerus (UD Number) Grammatische Zahl

Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner

Tabelle 32 Uumlbersicht Numeri

BemerkungDer Plural von Numerus lautet Numeri

Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt

333 Kasus

Der Kasus (UD Case) FallUD-Kategorie Case

Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum

Tabelle 33 Uumlbersicht Kasus

BemerkungDer Plural von Kasus lautet Kasus

334 Modus

Der Modus (engl mode mood UD Mood) Aussageweise

Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh

Tabelle 34 Uumlbersicht Modi

In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi

33

335 Tempus

Das Tempus (UD Tense) grammatische Zeit Zeitform

Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging

Tabelle 35 Uumlbersicht Tempora

BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten

336 Person

Die Person (UD Person)

Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht

Tabelle 36 Uumlbersicht Personen

BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt

337 Grad

Der Grad (UD Degree) Steigerung Komparation

Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste

Tabelle 37 Uumlbersicht Komparation

BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt

338 Adjektiv-Flexion

Die Adjektiv-Flexion (engl adjective inflection)

BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven

Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet

34

Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse

Tabelle 38 Uumlbersicht Adjektiv-Flexion

Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern

UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt

Morphologische Englische UD-Annotation

1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _

34 Linguistische ProbenLinguistische Testverfahren

Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen

341 Ersatzprobe

Ersatzprobe

Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben

35

Beispiel 343 (Bestimmung des Kasus)

Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat

Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen

Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)

bull Das ist das Angebot das uns uumlberzeugt hat

bull Dieses ist das Angebot welches uns uumlberzeugt hat

bull Welches ist das Angebot dieses uns uumlberzeugt hat

bull Das ist dieses Angebot welches uns uumlberzeugt hat

Probleme der Interpretation

bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes

bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig

342 Einsetzprobe

Einsetzprobe

Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert

Beispiel 345 (Bestimmung der Wortart)

Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb

Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive

35 MorphologieMorphologische Ebene

Womit befasst sich die Morphologie Wortstruktur und Wortbildung

bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e

36

bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit

bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system

351 LemmatisierungMorphologieanalyse

Lemmatisierung und Morphologieanalyse

Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen

Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma

Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo

Analysen von GERTWOL5

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Probleme morphologischer Analysen Mehrdeutigkeit

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM

Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol

37

bull ldquoeinerdquo als

bull ldquoMuumlllerrdquo als Eigenname oder Substantiv

Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus

Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1

Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile

Probleme morphologischer Analyse

googelte

UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter

Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM

ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat

Lieblingsbeerelieb~lingsbeere S FEM SG NOM

Erdbeereerdbeere S FEM SG NOM

Fingerbeerenfingerbeere S FEM PL NOM

UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung

38

Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas

Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]

Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent

352 Morphologiegenerierung

Generierung von syntaktischen Wortformen

Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation

Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|

Person=2|Tense=Past|VerbForm=Fingingst

backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin

36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT

bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem

bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6

bull Die Website universaldependenciesorg hat einige Dokumentation

Zusammenfassung

bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet

bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte

bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme

bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen

6httpwwwdsuzhchstudien-cd

39

Kontrollfragen

bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo

bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2

bull Worin besteht Morphologieanalyse und -generierung

bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller

bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt

bull Was ist der Unterschied zwischen Lemma und Lexem

40

Kapitel 4

Linguistisches Propaumldeutikum II

Lernziele

bull Anwendung der klassischen syntaktischen Proben

bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf

bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte

bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen

bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug

Motivation 2 (halbwegs kompatible) Syntax-Welten

Konstituenten

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Dependenz

41

Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden

(NGoogles SyntaxNet)

41 Syntaktische ProbenKonstituentenproben

Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt

Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

411 Weglassprobe

Weglassprobe

Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten

Bestimmung eines Satzglieds

1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

FrageWarum nicht Variante 4

42

412 Verschiebeprobe

Verschiebeprobe

Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen

Bestimmung von Satzgliedern

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen bereite ich die Sitzung mit dem Chef vor

3 Ich bereite die Sitzung mit dem Chef morgen vor

Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb

Verschiebeprobe

Unzulaumlssiges Verschieben

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen ich bereite die Sitzung mit dem Chef vor

3 Die Sitzung bereite ich morgen mit dem Chef vor

413 Umformungsproben

Umformungsprobe

Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut

Funktion von Nebensaumltzen

1 Es wuumlrde mich freuen wenn du mitkaumlmest

2 Dein Mitkommen wuumlrde mich freuen

Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo

Infinitivumformung zur Subjekterkennung

1 Die Laumlrche ist ein Nadelbaum

2 ein Nadelbaum sein die Laumlrche

43

Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]

42 SatzSatz

Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist

Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten

421 Satzglieder

Moderne Satzgliedlehre

422 Koumlpfe (oder Kerne) von Konstituenten

Syntaktische Koumlpfe (engl head) Kern (engl kernel)

Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar

Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)

1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]

2 Sie rennt [mit dem Mobile hantierend] zum Kiosk

3 Es wird [viel zu oft] telefoniert

44

4 [Die Frau die zum Kiosk rannte ] war aufgeregt

5 Sie fuumlhlte sich [wie in einem schlechten Film]

6 Aber sie war auch [in einem ziemlich schlechten Film]

43 Syntaxanalyse

431 Konstituenz

Konstituenten und Konstituenz

Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist

Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten

Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten

Konstituenten in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

unmittelbare Dominanz

Konstituente auf Wortebene

Syntaktische Konstituente

Praumlzedenz auf Wortebene

Praumlzedenz zwischen Tochterkonstituenten

Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung

Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente

Konstituententypen

Typen von Konstituenten in TIGERNEGRA

1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen

45

2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern

3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern

4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern

5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern

6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern

7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo

Annotation von Relativsaumltzen

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen

Komplexe Konstituenz in der Penn-Treebank

Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white

Syntaxbaum aus der Vogelperspektive

In

IN

other

JJ

words

NNS

like

IN

automation

NN

machines

NNS

designed

VBN

-NONE-

to

TO

work

VB

in

IN

tandem

NN

they

PRP

shared

VBD

the

DT

same

JJ

programming

NN

a

DT

mutual

JJ

understanding

NN

not

RB

only

RB

of

IN

English

NNP

words

NNS

but

CC

of

IN

the

DT

four

CD

stresses

NNS

pitches

NNS

and

CC

junctures

NNS

that

WP

T

-NONE-

can

MD

change

VB

their

PRP$

meaning

NN

from

IN

black

NN

to

TO

white

NN

NP

PP

NP NP NP

PP

VP

VP

SBJ

S

VP

NP

PP

NP NP NP CONJP NP

PP

NP WHNP NP NP NP

PP

NP

PP

PP

VP

VP

SBJ

S

SBAR

NP

PP

PP

NP

NP

VP

SBJ

S

T

46

Quelle TIGERSearch-Demo-Korpora

Maximale Verschachtelungstiefe

432 Dependenz bzw syntaktische Funktion

Dependenz und syntaktische Funktion

Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten

Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen

HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt

Syntaktische Funktionen in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Syntaktische Funktion

Konstituenten

Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung

Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente

Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken

Einige Satzglieder mit TIGER-Funktion

bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein

47

Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)

bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)

bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)

bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)

bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator

bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb

Baumbankkonversion Von Konstituenz zu Dependenz

Automatische Konversion (NTIGER2Dep)

Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)

433 UD-DE-Modell

Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen

48

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

Generelle Philosophie des Universal-Dependency-Modells

bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig

bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV

bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum

bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden

bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der

bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)

bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens

Inhaltswoumlrter VERB und NOUN

Hinweisebull Spitze des Pfeils Abhaumlngiges Element

bull Startknoten des Pfeils Kopf

bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen

bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird

Das UD-Innenleben von Nominalphrasen

Hinweisebull Was ist der NP-Kopf

bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll

49

Komplexe Verb- und Adjektivphrasen

Hinweise

bull Hilfs- und Modalverben haumlngen vom Vollverb ab

bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich

Kopulakonstruktion und Gleichsetzungsnominativ

Fragen

bull Wovon haumlngt das Subjekt ab

bull NSuche nach ist im Suchwerkzeug

bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft

Interpunktion

Hinweise

bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt

50

Verschachtelte Saumltze

Hinweise

bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab

bull Wann aclrelcl und wann advcl

Koordination

Koordination Koumlpfe und Abhaumlngigkeitsrichtung

Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht

Koordination von Konstituenten aus NEGRA-Korpus

bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]

bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]

bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]

2 Fragen mit mehreren moumlglichen Antworten

bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt

bull In welche Richtung werden koordinierte Elemente verknuumlpft

Koordination in der NUD

Frage

bull Welche Antworten gibt die UD

51

Manuelle Syntax-Annotation mit WebAnno

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)

bull Click-und-Drag-Interface mit der Maus

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml

Aufgabe Annotation von Relativsatz

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Wie sieht eine UD-Annotation von diesem Satz aus

434 Suche

NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken

Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-

Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens

2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)

KOPF gt NICHTKOPF

NICHTKOPF lt KOPF

Analog zur Pfeilrichtung in der BRAT-Visualisierung

52

Grundlegende syntaktische Suchrezepte

bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging

bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging

bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde

bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld

bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor

bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _

bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist

44 AmbiguitaumltZusammenfassung

bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen

bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden

bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab

bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])

45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]

bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre

bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren

bull Quiz Die Form der Satzglieder

bull Quiz Satzglieder und Proben

bull Linguistik-CD

53

Kapitel 5

Endliche Automaten

Lernziele

bull Einstieg in die Formalisierung von Sprache

bull Was sind Zeichenketten formalmathematisch

bull Was ist eine formale Sprache

bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation

bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten

bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie

bull Wann ist ein endlicher Automat deterministisch und wann nicht

bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten

54

51 Formale Sprachen

511 Mengen

A Quick Review of Set Theory

A set is a collection of objects

A B

D E

We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E

There is no significant order in a set so A D B E is the same set as E A D B etc

Quelle B04

Cardinality of Sets

 The Empty Set

 A Finite Set

 An Infinite Set eg The Set of all Positive Integers

Norway Denmark Sweden

Quelle B04

512 Zeichen

Das Alphabet (Sigma) Menge von Zeichen

55

Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert

Zeichen des EnglischenΣEnglisch = a b c x y z

Zeichen der binaumlren ZahlenΣbin = 0 1

Zeichenketten (strings)

Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ

Zeichenketten uumlber englischen Symbolen ΣEnglisch

a we muntjac talk walk krwrk

Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0

Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast

bin = ε 0 1 00 01 10 11 001

513 Sprachen

Formal Languages

Very Important Concept in Formal Language Theory

A Language is just a Set of Words

bull  We use the terms ldquowordrdquo and ldquostringrdquo interchangeably

bull  A Language can be empty have finite cardinality or be infinite in size

bull  You can union intersect and subtract languages just like any other sets

56

Quelle B04

Union of Languages (Sets)

dog cat rat elephant mouse

Language 1 Language 2

dog cat rat

elephant mouse

Union of Language 1 and Language 2 Quelle B04

Formale Sprachen als Teilmenge von Sigma Stern

L sube Σlowast

Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast

Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes

Englische Woumlrterwalk talk work sube a b zlowast

Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt

Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit

Formales Modell Wirklichkeit

Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme

57

Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der

Wirklichkeit zu repraumlsentieren

Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working

worked works talk

talking talked talks

walk walking

walked walks

The concatenation of

the Suffix language

after the Root

language

0 or denotes the empty string

Abbildung 51 Sprache mit 3 WoumlrternZeichenketten

Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk

Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage

Beispiel fuumlr Deterministischen Endlichen Automaten

talk isin work talk walk

bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile

52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)

Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand

58

Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert

Nicht-Deterministische Endliche Automaten (NEA)

Abbildung 52 Deterministischer EA

Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg

Nicht-Determinismus IIEs gibt mindestens eine ε-Kante

Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln

Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus

1 einer endlichen Menge Zustaumlnde Φ

2 einem endlichen Eingabealphabet Σ

3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ

59

4 einem Startzustand S isin Φ

5 einer Menge von Endzustaumlnden F sube Φ

Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)

δ Φtimes (Σ cup ε)rarr weierp(Φ)

521 Konkatenation

Konkatenation von Zeichenketten und Sprachen

Konkatenation von Zeichenkettenu bull v = uv

lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo

Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V

lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo

Concatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working worked works talk talking talked talks walk walking walked walks

The concatenation of the Suffix language after the Root language

0 or ε denotes the empty string

60

Quelle B04

Concatenation of Languages II

work talk walk

Root Language

0 ing ed s

Suffix Language

rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks

The concatenation of the Prefix language Root language and the Suffix language

Prefix Language

re out 0

outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks

work working worked works talk talking talked talks walk walking walked walks

Quelle B04

Languages and Networks

w a l k

o r

t

NetworkLanguage 2 NetworkLanguage 3

s

o r The concatenation of Networks 1 2 and 3 in that order

w a l k t

a

a s

ed

i n g

0

s

ed

i n

0s

g o

r

NetworkLanguage 1

s

u t

e

0

o

r s

t

e

0 u

Quelle B04

522 Regulaumlre Ausdruumlcke

Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)

Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann

61

bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo

bull Die Mengen a1a2an sind regulaumlr RA a oder b

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)

bull Ist L regulaumlr dann auch LlowastRA (A)

Wie kann man Optionalitaumlt ausdruumlcken

Graphischer Algorithmus Konversion von RA zu NEA

JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten

Algorithmus

1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde

2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten

3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander

4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen

Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten

Epsilon

Symbol a

Konkatenation (ab)

Alternative (a|b)

62

encodes

a

LANGUAGE RELATION

compiles intoa

REGULAR EXPRESSIONa

FINITE-STATE NETWORKde

notes

Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])

Wiederholung (a)

Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert

63

53 Transduktoren

Linguistic Transducer Machines

mesas

Generator

ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas

m e s a +Noun +Fem +Pl

m e s a 0 0 s

mesa+Noun+Fem+Pl

Analyzer

ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas

Quelle B04

Gute Eigenschaften von endlichen Automaten und Transduktoren

bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen

bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde

bull Beispiel NRumantsch Grischun

bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren

Zusammenfassung

bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben

bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen

bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den

bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt

bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden

64

Vertiefung

bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)

bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo

bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo

bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial

65

Kapitel 6

Flache Satzverarbeitung

Lernziele

bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets

bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung

bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen

bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells

bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger

bull Kenntnis uumlber partielle syntaktische Analyse

bull Kenntnis uumlber flache und verschachtelte Chunks

Welches mehrdeutige Wort hat dieses Profil

UPOS-Tag Vorkommen1

1021ADP 848ADV 61

PROPN 14ADJ 1

61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT

N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token

66

Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)

bull eineDET Kuh Lemma ldquoeinrdquo

bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)

bull lead Verb lid (fuumlhren) Nomen led (Blei)

bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe

Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren

Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to

be present tense 3rd person singular

Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch

Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist

Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]

bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)

bull Effizient Der Tagger arbeitet schnell

bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)

bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den

bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden

Was fehlt

67

611 Probleme des Taggings

Wortformen mit mehreren moumlglichen Tags

MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token

Tag-Ambiguitaumlt im Englischen

Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]

Haumlufigkeiten im Brown-Korpus

bill NN 2351

promised VBD 34~~VBN 10~~JJ 2

back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2

Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token

die~~ART 2351~~PRELS 448~~PDS 4

Mehrheit~~NN 40

bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1

Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0

Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen

bull Unterscheidung zwischen offenen und geschlossenen Wortarten

bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)

68

Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]

Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)

bull 98 aller Woumlrter mit Endung -able sind Adjektive

bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname

Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe

oo

n

e

g

n

d

senuel

l

cv

y ta

o

mtsiii

o

i

ies (NNS09 VBZ01)ons (NNS095 VBZ005)

ed (VBN04 JJ03 VBD03)

le (NN025 JJ045 NP02 VB01)

ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)

ty (NN045 JJ035 NP02)

son (NP08 NN01 JJ01)

man (NP08 NN02)ton (NP09 NN005 JJ005)

ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)

ous (JJ096 NN004)

old (JJ098 NN002)

Quelle [Schmid 1995]

Wortformen mit mehreren moumlglichen Tags Kontext

69

Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6

Vorkommen von ldquobackrdquo im Brown-Korpus

ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung

Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen

Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet

bull die moumlglichen Tags von wn aus Tagger-Lexikon

bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens

Context

3

3

Kontextmodell des Trigrammtaggers TnT [Brants 2000]

612 Fallstudie TnT-Tagger

Supervisiertes Maschinelles Lernen

70

Quelle [Raschka 2015 11]

ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt

Fallstudie TnT-Tagger trainieren und evaluieren

Testkorpustestttstesttxt

Trainingskorpustrainingtts

Getaggtes Korpus

Aufteilen des Korpus

Taggingtnt

Trainingtnt-para

Parameter-Dateien

traininglextraining123

Evaluations-korpus

evaltts

Evaluationtnt-diff

Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger

Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]

1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)

$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts

2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden

$ head --lines 278081 ud-de-v13tts gt trainingtts

3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden

$ tail --lines 30900 ud-de-v13tts gt testtts

71

4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus

$ tnt-para trainingtts

5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut

$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts

6 Man erstelle das Evaluationskorpus

$ cut -f 1 testtts gt evaltxt

7 Man tagge das Evaluationskorpus mit dem Trainingsmodell

$ tnt training evaltxt gt evaltts

8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus

$ tnt-diff testtts evaltts

62 EvaluationEvaluation

Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode

Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt

Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird

Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind

Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden

Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)

Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat

72

Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein

621 Zweck

Zweck von Evaluationen

SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert

SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist

622 Accuracy

POS-Tagger-Evaluation Genauigkeit

Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens

accuracy = N minus EN

Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit

Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus

Tagt Freqt Tagf Freqf Ant Erel Eabs

NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010

Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]

Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler

73

5-fache Kreuzvalidierung visuell

Figure 8-2 K-fold cross-validation

Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point

You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order

gtgtgt import randomgtgtgt randomshuffle(f)

If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold

gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k

Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on

Problems That Can Affect Evaluation | 179

Quelle [Pustejovsky und Stubbs 2013 179]

Genauigkeit unter 10-facher Kreuzvalidierung

Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))

accuracy =sumi=10

i=1 accuracyi

10

Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen

623 Lernkurven

624 Recall

Recall (Ausbeute Abdeckung Vollstaumlndigkeit)

Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems

R = At

Nt

Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600

800 = 75

74

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp())+-01$+-0-2)00-))304

56)77

8010

904010

6+789lt

6-=7gt8lt

6+7gtlt

6-=7gt8lt

6+7lt

6-=79lt

2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J

-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J

)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)

Qampamp)(ampI0(EI(K3amp)-++5

8

9

gt

R9 9 S gt9 8 RR gtS

$-++5NF=J

TM5ltU+B+ampE+

TM5T00I-0L

SSR

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

6)6lt$$)amp$+)=$gt=((+

Q-M-44amp-0C

5-66ampK1F3()ampKVWWJ

6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(

Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp

)-)amp3)T)C

$5-66ampK1F(0amp+KampKVWWJ

6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+

U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+

TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+

+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt

QZ]T F6-+JgtRlt gt8lt [RSlt

Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants

625 Precision

Precision (Genauigkeit Praumlzision)

Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems

P = At

A

Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600

1000 = 60

626 F-Measure

F-Measure (F-Mass)

Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems

F = 2times P timesRP +R

75

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp()

67-18-)amp+8(+5)9amp0amp4amp-

6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F

2++$G-+AH-11))Iamp8+-1

J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+

$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5

amp+)-5)amp-0)ampA+

$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()

$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5

+amp(-012344)425amp123)3627892(+lt

=+$$

gt)(5)

))(5)

D+QRSTU

D-EQVWTRU

D+QVXTRU

D-EQVRTRU

D+QWTYU

D-EQSVTMU

6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F

-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F

M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)

ampamp)(amp80(98(B3amp)-++5T

Y X M YM XM MM YMM YMXM

WM

RM

SM

VM

MM

$-++5OCEMMMF

gt75TU[+A+amp9+

gt75Tgt008-0N

PWTP PTP WTM MTR YTM ST PT TVXMTS

C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants

Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075

06+075 = 666

63 Chunk ParsingPartielle syntaktische Analyse

Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt

Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN

bull NC Ein NC (Nominalchunk) besteht

bull -gt besteht aus

bull ART aus einem Wort der Wortart ART (Artikel)

bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)

76

Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

631 Abneys Chunk-Definition

Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]

Motivationen

bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung

bull Effizienz Teilstrukturen lassen sich effizienter berechnen

bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse

bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden

632 IOB-Chunk

Flache Chunks im IOB-Format

Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist

bull B-K Anfang einer Chunk-Konstituente K

bull I-K Fortsetzung der Chunk-Konstituente K

77

bull 0 Nicht zugeordnet (wird auch chink genannt)

We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP

633 Verschachtelte Chunks

Verschachtelte Chunks

Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich

Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)

[PX [APPR fuumlr][NX [ARTIND eine]

[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]

Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC

64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo

bull Pflichtlektuumlre [Carstensen et al 2009 342-3]

bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking

bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative

bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4

78

ZusammenfassungZusammenfassung

bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung

bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets

bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input

Kontrollfragen

bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen

bull Was unterscheidet Recall und Precision von Accuracy

bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging

bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte

bull Was ist der Vorteil der IOB-Notation fuumlr Chunks

65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele

bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative

bull Kenntnis uumlber Fehlertypen und ihre Gefahr

bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung

651 TrueFalse PositivesNegatives

Evaluation von binaumlren Klassifikatoren

TruthPositive Negative

Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)

Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit

Legende zur Tabelle 63

True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

79

FP Fehlertyp I Test ist positiv wo er nicht sollte

FN Fehlertyp II Test ist negativ wo er nicht sollte

652 Fehlerparadoxe

Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet

Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter

Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet

Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter

653 Unterschiede von Evaluationsmassen

Dualitaumlt von Precision und Recall

TruthPos Neg

Test Pos TP FPNeg FN TN

R = TP

TP + FN

Tabelle 64 Recall

Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision

F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig

80

TruthPos Neg

Test Pos TP FPNeg FN TN

P = TP

TP + FP

Tabelle 65 Precision

TruthPos Neg

Test Pos TP FPNeg FN TN

F = 2times TP2times TP + FP + FN

Tabelle 66 F1-Measure

TruthPos Neg

Test Pos TP FPNeg FN TN

Accuracy = TP + TN

TP + TN + FP + FN

Tabelle 67 Accuracy

654 Mitteln von Recall und Precision

F-Measure Harmonisches vs arithmetisches Mittel

655 Vertiefung

bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]

81

Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]

82

Abbildung 68 M = P +R2 Arithmetisches Mittel

83

Literaturverzeichnis

[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235

[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications

[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University

[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231

[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl

[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen

[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf

[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt

[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf

[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl

[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov

[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl

84

[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf

[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf

[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830

[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485

[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM

[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011

[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl

[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York

[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096

[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA

[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning

[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf

[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin

[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml

85

[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098

[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps

[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd

[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf

[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf

[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf

[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean

[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574

86

Index

10-fache Kreuzvalidierung 74

Adjektiv-Flexion 34Alphabet 56

Eingabealphabet 59

DEA 59Dependenz 47

Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72

F-Measure 75

Genus 32Grad 34

IOB-Chunks 77

Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44

Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25

Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39

Named Entity Regonition 19NER 19

Numerus 33 34

partielle syntaktische 76Person 34Precision 75Probe linguistisch 35

Qualitaumlt einer Evaluation 72

Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72

Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47

Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24

Umformungsprobe 43

Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43

Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24

XML-Standard 14

Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59

87

  • Organisatorisches
    • Organisatorisches
      • Leistungsnachweis
      • Lernen und Lehren
        • Kontrollfragen
          • Tokenisierung
            • Tokenisierer
              • Grundproblem
              • Kodierung
              • Programme
                • XML
                • Tokenisierung
                  • Problem
                  • Punktdisambiguierung
                  • Normalisierung
                  • NER
                    • Multilingualitaumlt
                    • Vertiefung
                      • Linguistisches Propaumldeutikum I
                        • Wort
                          • Token
                          • Wortform
                          • synt Wort
                          • Lexem
                            • Wortarten
                              • 5 Hauptwortarten
                              • UD
                              • STTSPTTS
                                • Merkmale
                                  • Genus
                                  • Zahl
                                  • Kasus
                                  • Modus
                                  • Zeit
                                  • Person
                                  • Grad
                                  • Flexion
                                    • Proben
                                      • Ersetzen
                                      • Einsetzen
                                        • Morphologie
                                          • LemmatisierungMorphologieanalyse
                                          • Morphologiegenerierung
                                            • Vertiefung
                                              • Linguistisches Propaumldeutikum II
                                                • Proben
                                                  • Weglassen
                                                  • Verschieben
                                                  • Umformen
                                                    • Satz
                                                      • Satzglieder
                                                      • Koumlpfe
                                                        • Syntaxanalyse
                                                          • Konstituenz
                                                          • Dependenz
                                                          • UD-DE
                                                          • Suche
                                                            • Ambiguitaumlt
                                                            • Vertiefung
                                                              • Endliche Automaten
                                                                • Formale Sprachen
                                                                  • Mengen
                                                                  • Zeichen
                                                                  • Sprachen
                                                                    • EA und regulaumlre Sprachen
                                                                      • Konkatenation
                                                                      • Regulaumlre Ausdruumlcke
                                                                        • Transduktoren
                                                                          • Flache Satzverarbeitung
                                                                            • Tagging
                                                                              • Probleme
                                                                              • Fallstudie TnT-Tagger
                                                                                • Evaluation
                                                                                  • Zweck
                                                                                  • Accuracy
                                                                                  • Lernkurven
                                                                                  • Recall
                                                                                  • Precision
                                                                                  • F-Measure
                                                                                    • Chunking
                                                                                      • Abney
                                                                                      • IOB-Chunk
                                                                                      • Verschachtelte Chunks
                                                                                        • Vertiefung
                                                                                        • Exkurs Evaluation binaumlrer Klassifikatoren
                                                                                          • TPFPFNTN
                                                                                          • Fehlerparadoxe
                                                                                          • Unterschiede
                                                                                          • Mittelwerte
                                                                                          • Vertiefung
Page 14: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff

Tokenisierer in der ProgrammiersprachePython

Tokenisierer mit regulaumlren Ausdruumlcken

bull Jeder Computerlinguistik-Studierende im 2 Semester kann mit regulaumlren Ausdruumlcken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben

bull Einfach anpassbar auf die Textsorte

bull Fuumlr uumlberschaubare Textmengen empfohlen

bull Vorteil Machen dieselben Fehler konsequent

bull Gute Abkuumlrzungslisten erlauben 99 korrekte Satzgrenzenerkennung

Typische Beispiele fuumlr Tokenisierer XMLTokenisierung mit XML-Output (ev aus XML-Input) dh in einer Auszeichnungssprache (englmarkup language)Beispiel 214 (Der LT-TTT2 Tokenizer [Grover 2008])

1 Rohtext

This is an example There are two sentences

2 XML-Input fuumlr Tokenisierer (Vortokenisierung)

ltdocumentgtlttextgt

ltpgtThis is an example There are two sentences

ltpgtlttextgt

ltdocumentgt

3 XML-Tokenisat

ltdocumentgtlttextgtltpgtlts id=s1gtltw id=w3 c=w pws=yesgtThisltwgt ltw id=w8 c=w pws=yesgtisltwgtltw id=w11 c=w pws=yesgtanltwgt ltw id=w14 c=w pws=yesgtexampleltwgt

13

ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt

Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert

Verschachtelung im XML-Stil

ltdocumentgtlttextgt

ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example

ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences

Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags

22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation

bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs

bull httpstubeswitchchvideos60fc01f1

XML (eXtensible Markup Language)

Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann

14

XML in der Texttechnologie

bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)

bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten

bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben

Aufbau von XML-Dokumenten

Elemente und ihre Attribute

bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt

bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)

bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt

bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt

bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt

bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt

Zeichenreferenzen und Entity-Referenzen

Entitaumlten und Referenzen

bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden

bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal

bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den

Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38

Newline amp9Σ ampx3a3

15

23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen

231 Problem

Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt

bull Wort-Zeichen [a-zA-Z0-9]

bull Einzel-Zeichen [)(rsquo$-]

bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]

ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo

Schwierigkeiten der Wortsegmentierung im engen Sinn

Schwierige Zeichen

bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim

bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr

bull Bindestriche semble-t-il rarr semble + -t-il

bull Punkte SAC

bull Masseinheiten 30 rarr 30 + 28 rarr 28 +

bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que

Teilprobleme der Tokenisierung im weiten Sinn

bull Umgang mit Markup (HTML-Tags Formatierungszeichen)

bull Erkennung der ldquonormalenrdquo Tokengrenzen

bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)

bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)

bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)

bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)

16

232 Punktdisambiguierung

Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben

Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert

Verschmelzung

bull It was due Friday by 5 pm Saturday would be too late

bull Ich kenne die USA Frankreich kenne ich nicht

WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig

Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls

bull das Token in einer Abkuumlrzungsliste steht

bull nach dem Token eines der Zeichen aus [a-z] folgt

bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht

bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt

Nach [Grefenstette und Tapanainen 1994]

LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen

Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen

Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN

1 Wie viele Zeichen umfasst TOKEN

2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale

3 Wie oft kommt TOKEN ohne Punkt vor

4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor

5 Wie oft kommt NEXTTOKEN kleingeschrieben vor

17

Satzsegmentierung mit maschinellen Lernverfahren

bull Fuumlr grosse Textmengen empfohlen

bull Nachteil Unsystematische Fehler koumlnnen auftreten

Statistisches System PUNKT ([Kiss und Strunk 2006])

bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten

bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt

iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte

233 Zeichen- und Token-Normalisierung

Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen

Normalisierung bei Suchmaschinen und anderen Anwendungen

bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich

bull 4897 4-8-97 4897 8497

bull 19000 19rsquo000 19 000 19000

bull Louisa Luise Louise Luisa

bull doesnrsquot does not

Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)

bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt

bull Hollaumlndisch chocola-tje rarr chocolaatje

Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen

18

Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung

Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens

615 5 Ruumlckbau in neue Tokens

Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus

Ruumlckgaumlngig machen von Worttrennung am Zeilenende

Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens

Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch

234 Named Entity Recognition

Named Entity Recognition

Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen

Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen

Kanonische Formen und Entity Linking

bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo

bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo

Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3

Demo Time Expression Recognition (TIMEX task)

24 MultilingualitaumltMultilinguale Dokumente und Systeme

Herausforderung Multilingualitaumlt

bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess

19

Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular

Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML

bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig

bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut

bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet

bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut

Ansatz von [Cavnar und Trenkle 1994]

20

1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten

2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)

3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil

4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm

5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand

N-Gramm-Profile und Profilabstand

Quelle [Cavnar und Trenkle 1994]

Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]

25 VertiefungZum Thema ldquoTokenisierungrdquo

bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28

bull Pflichtlektuumlre [Carstensen et al 2009 341]

bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]

Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)

bull httpwwwcluzhchclabregex

Zum Thema ldquoXMLrdquo

21

bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1

bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]

Zusammenfassung

bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen

bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen

bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen

bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung

bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar

bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen

bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden

Kontrollfragen

bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention

bull Welche Probleme stellen sich bei der Tokenisierung

bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung

bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten

bull Was versteht man unter NER

bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle

22

Kapitel 3

Linguistisches Propaumldeutikum I

Lernziele

bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen

bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg

bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch

bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte

bull Kenntnis und Anwendung linguistischer Proben

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten

bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung

31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs

Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind

Praumlzisierungsversuche des Wort-Begriffs

bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment

bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit

bull Morphologisch Grundeinheit welche flektierbar ist

bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist

bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes

23

Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach

Antworten 4 5 6 9 __

311 Token

Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9

Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText

BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann

312 Wortform

Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes

Identische Wortformen mit unterschiedlicher Bedeutung

bull Die Fliege war tot

bull Er trug eine samtene Fliege

bull Fliege nicht so schnell

313 Syntaktisches Wort

Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6

Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst

Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural

24

314 Lexem

Antwort 5 Wort als Lexem

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden

Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem

Lexikographische Notationskonventionen

Wie sehen Verb-Lemma in DeutschenLatein aus

Antwort 4 Wort als Lexemverband

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4

Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert

Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln

Stufen der Abstraktion Vom Text zum Lexemverband

bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)

bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)

bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen

bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden

bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird

25

32 Lehre von den WortartenWortarten nach [Bussmann 2002]

Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien

Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb

5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det

321 5 Hauptwortarten nach Glinz

Klassifikationskriterien

Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]

Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

26

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

322 UD

Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)

Universal Part-of-Speech Tagset (Version 1)1

12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish

ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo

Universal Part-of-Speech Tagset (Version 2) UPOS2

Version 2 hat 17 POS-Tags

+ Eigennamen (PROPN) (vorher NOUN)

+ Hilfsverben (AUX) (vorher VERB)

+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)

+ Symbole (SYM) (vorher X)

+ Interjektionen (INTJ) (vorher PRT)

= Partikel (PART) (vorher PRT)

= Interpunktion (PUNCT) (vorher )

Baumbanken sind fuumlr 51 Sprachen verfuumlgbar

27

Abbildung 32 Deutsche UD-Baumbank

UD V13 fuumlr Deutsch

NDurchsuchen

bull Suche nach Wort spaumlter

bull Nach Wort+Wortart spaumlterampADV

UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml

Mehrdeutigkeiten Unklarheiten Fehlannotationen

Linguistische Annotation und Automatisierung

Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form

Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml

28

bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)

bull Vollautomatisch Schnell billig fehlerbehaftet

bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile

Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml

N CoNLL-Format Spaltenformat fuumlr Annotationen3

bull Vertikalisierter Text

bull 1 Token pro Zeile

bull Saumltze mit Leerzeile getrennt

bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation

bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet

Bedeutung relevanter Spalten

1 Tokennummer (1-basierte Zaumlhlung) pro Satz

2 Wortform (Token)

3 Lemma

4 Grobe Wortklasse (coarse-grained part-of-speech tag)

5 Feine Wortklasse (fine-grained part-of-speech tag)

6 Morphosyntaktische Merkmale

7 Syntaktischer Kopf als Tokennummer

8 Dependenztyp

CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo

Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token

3httpuniversaldependenciesorgformathtml

29

Abbildung 33 CoNLL-U und CoNLL-X

Manuelle Annotation mit WebAnno und Exportformate

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

323 Feine Tagsets

Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis

bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags

bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert

bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch

bull Alternativen Muumlnsteraner Tagset [Steiner 2003]

Wieso ist das STTS wichtig

bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)

ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel

bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo

30

Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts

Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken

33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale

Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden

Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems

bull Konjugation von Verben

bull Deklination von Nomen Adjektiven Artikeln und Pronomen

bull Steigerung von Adjektiven (und wenigen Adverbien)

Diskussion Sind steigerbare Adverbien ein Widerspruch im System

Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet

31

Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts

Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn

331 Genus

Das Genus (UD Gender) Grammatisches Geschlecht

Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien

Tabelle 31 Uumlbersicht Genera

BemerkungDer Plural von Genus lautet Genera

Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt

Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen

Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind

Deutsch

32

Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur

AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas

332 Numerus

Der Numerus (UD Number) Grammatische Zahl

Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner

Tabelle 32 Uumlbersicht Numeri

BemerkungDer Plural von Numerus lautet Numeri

Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt

333 Kasus

Der Kasus (UD Case) FallUD-Kategorie Case

Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum

Tabelle 33 Uumlbersicht Kasus

BemerkungDer Plural von Kasus lautet Kasus

334 Modus

Der Modus (engl mode mood UD Mood) Aussageweise

Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh

Tabelle 34 Uumlbersicht Modi

In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi

33

335 Tempus

Das Tempus (UD Tense) grammatische Zeit Zeitform

Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging

Tabelle 35 Uumlbersicht Tempora

BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten

336 Person

Die Person (UD Person)

Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht

Tabelle 36 Uumlbersicht Personen

BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt

337 Grad

Der Grad (UD Degree) Steigerung Komparation

Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste

Tabelle 37 Uumlbersicht Komparation

BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt

338 Adjektiv-Flexion

Die Adjektiv-Flexion (engl adjective inflection)

BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven

Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet

34

Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse

Tabelle 38 Uumlbersicht Adjektiv-Flexion

Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern

UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt

Morphologische Englische UD-Annotation

1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _

34 Linguistische ProbenLinguistische Testverfahren

Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen

341 Ersatzprobe

Ersatzprobe

Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben

35

Beispiel 343 (Bestimmung des Kasus)

Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat

Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen

Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)

bull Das ist das Angebot das uns uumlberzeugt hat

bull Dieses ist das Angebot welches uns uumlberzeugt hat

bull Welches ist das Angebot dieses uns uumlberzeugt hat

bull Das ist dieses Angebot welches uns uumlberzeugt hat

Probleme der Interpretation

bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes

bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig

342 Einsetzprobe

Einsetzprobe

Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert

Beispiel 345 (Bestimmung der Wortart)

Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb

Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive

35 MorphologieMorphologische Ebene

Womit befasst sich die Morphologie Wortstruktur und Wortbildung

bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e

36

bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit

bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system

351 LemmatisierungMorphologieanalyse

Lemmatisierung und Morphologieanalyse

Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen

Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma

Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo

Analysen von GERTWOL5

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Probleme morphologischer Analysen Mehrdeutigkeit

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM

Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol

37

bull ldquoeinerdquo als

bull ldquoMuumlllerrdquo als Eigenname oder Substantiv

Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus

Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1

Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile

Probleme morphologischer Analyse

googelte

UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter

Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM

ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat

Lieblingsbeerelieb~lingsbeere S FEM SG NOM

Erdbeereerdbeere S FEM SG NOM

Fingerbeerenfingerbeere S FEM PL NOM

UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung

38

Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas

Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]

Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent

352 Morphologiegenerierung

Generierung von syntaktischen Wortformen

Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation

Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|

Person=2|Tense=Past|VerbForm=Fingingst

backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin

36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT

bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem

bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6

bull Die Website universaldependenciesorg hat einige Dokumentation

Zusammenfassung

bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet

bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte

bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme

bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen

6httpwwwdsuzhchstudien-cd

39

Kontrollfragen

bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo

bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2

bull Worin besteht Morphologieanalyse und -generierung

bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller

bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt

bull Was ist der Unterschied zwischen Lemma und Lexem

40

Kapitel 4

Linguistisches Propaumldeutikum II

Lernziele

bull Anwendung der klassischen syntaktischen Proben

bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf

bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte

bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen

bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug

Motivation 2 (halbwegs kompatible) Syntax-Welten

Konstituenten

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Dependenz

41

Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden

(NGoogles SyntaxNet)

41 Syntaktische ProbenKonstituentenproben

Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt

Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

411 Weglassprobe

Weglassprobe

Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten

Bestimmung eines Satzglieds

1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

FrageWarum nicht Variante 4

42

412 Verschiebeprobe

Verschiebeprobe

Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen

Bestimmung von Satzgliedern

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen bereite ich die Sitzung mit dem Chef vor

3 Ich bereite die Sitzung mit dem Chef morgen vor

Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb

Verschiebeprobe

Unzulaumlssiges Verschieben

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen ich bereite die Sitzung mit dem Chef vor

3 Die Sitzung bereite ich morgen mit dem Chef vor

413 Umformungsproben

Umformungsprobe

Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut

Funktion von Nebensaumltzen

1 Es wuumlrde mich freuen wenn du mitkaumlmest

2 Dein Mitkommen wuumlrde mich freuen

Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo

Infinitivumformung zur Subjekterkennung

1 Die Laumlrche ist ein Nadelbaum

2 ein Nadelbaum sein die Laumlrche

43

Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]

42 SatzSatz

Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist

Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten

421 Satzglieder

Moderne Satzgliedlehre

422 Koumlpfe (oder Kerne) von Konstituenten

Syntaktische Koumlpfe (engl head) Kern (engl kernel)

Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar

Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)

1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]

2 Sie rennt [mit dem Mobile hantierend] zum Kiosk

3 Es wird [viel zu oft] telefoniert

44

4 [Die Frau die zum Kiosk rannte ] war aufgeregt

5 Sie fuumlhlte sich [wie in einem schlechten Film]

6 Aber sie war auch [in einem ziemlich schlechten Film]

43 Syntaxanalyse

431 Konstituenz

Konstituenten und Konstituenz

Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist

Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten

Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten

Konstituenten in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

unmittelbare Dominanz

Konstituente auf Wortebene

Syntaktische Konstituente

Praumlzedenz auf Wortebene

Praumlzedenz zwischen Tochterkonstituenten

Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung

Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente

Konstituententypen

Typen von Konstituenten in TIGERNEGRA

1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen

45

2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern

3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern

4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern

5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern

6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern

7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo

Annotation von Relativsaumltzen

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen

Komplexe Konstituenz in der Penn-Treebank

Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white

Syntaxbaum aus der Vogelperspektive

In

IN

other

JJ

words

NNS

like

IN

automation

NN

machines

NNS

designed

VBN

-NONE-

to

TO

work

VB

in

IN

tandem

NN

they

PRP

shared

VBD

the

DT

same

JJ

programming

NN

a

DT

mutual

JJ

understanding

NN

not

RB

only

RB

of

IN

English

NNP

words

NNS

but

CC

of

IN

the

DT

four

CD

stresses

NNS

pitches

NNS

and

CC

junctures

NNS

that

WP

T

-NONE-

can

MD

change

VB

their

PRP$

meaning

NN

from

IN

black

NN

to

TO

white

NN

NP

PP

NP NP NP

PP

VP

VP

SBJ

S

VP

NP

PP

NP NP NP CONJP NP

PP

NP WHNP NP NP NP

PP

NP

PP

PP

VP

VP

SBJ

S

SBAR

NP

PP

PP

NP

NP

VP

SBJ

S

T

46

Quelle TIGERSearch-Demo-Korpora

Maximale Verschachtelungstiefe

432 Dependenz bzw syntaktische Funktion

Dependenz und syntaktische Funktion

Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten

Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen

HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt

Syntaktische Funktionen in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Syntaktische Funktion

Konstituenten

Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung

Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente

Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken

Einige Satzglieder mit TIGER-Funktion

bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein

47

Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)

bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)

bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)

bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)

bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator

bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb

Baumbankkonversion Von Konstituenz zu Dependenz

Automatische Konversion (NTIGER2Dep)

Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)

433 UD-DE-Modell

Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen

48

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

Generelle Philosophie des Universal-Dependency-Modells

bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig

bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV

bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum

bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden

bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der

bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)

bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens

Inhaltswoumlrter VERB und NOUN

Hinweisebull Spitze des Pfeils Abhaumlngiges Element

bull Startknoten des Pfeils Kopf

bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen

bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird

Das UD-Innenleben von Nominalphrasen

Hinweisebull Was ist der NP-Kopf

bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll

49

Komplexe Verb- und Adjektivphrasen

Hinweise

bull Hilfs- und Modalverben haumlngen vom Vollverb ab

bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich

Kopulakonstruktion und Gleichsetzungsnominativ

Fragen

bull Wovon haumlngt das Subjekt ab

bull NSuche nach ist im Suchwerkzeug

bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft

Interpunktion

Hinweise

bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt

50

Verschachtelte Saumltze

Hinweise

bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab

bull Wann aclrelcl und wann advcl

Koordination

Koordination Koumlpfe und Abhaumlngigkeitsrichtung

Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht

Koordination von Konstituenten aus NEGRA-Korpus

bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]

bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]

bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]

2 Fragen mit mehreren moumlglichen Antworten

bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt

bull In welche Richtung werden koordinierte Elemente verknuumlpft

Koordination in der NUD

Frage

bull Welche Antworten gibt die UD

51

Manuelle Syntax-Annotation mit WebAnno

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)

bull Click-und-Drag-Interface mit der Maus

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml

Aufgabe Annotation von Relativsatz

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Wie sieht eine UD-Annotation von diesem Satz aus

434 Suche

NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken

Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-

Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens

2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)

KOPF gt NICHTKOPF

NICHTKOPF lt KOPF

Analog zur Pfeilrichtung in der BRAT-Visualisierung

52

Grundlegende syntaktische Suchrezepte

bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging

bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging

bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde

bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld

bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor

bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _

bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist

44 AmbiguitaumltZusammenfassung

bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen

bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden

bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab

bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])

45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]

bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre

bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren

bull Quiz Die Form der Satzglieder

bull Quiz Satzglieder und Proben

bull Linguistik-CD

53

Kapitel 5

Endliche Automaten

Lernziele

bull Einstieg in die Formalisierung von Sprache

bull Was sind Zeichenketten formalmathematisch

bull Was ist eine formale Sprache

bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation

bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten

bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie

bull Wann ist ein endlicher Automat deterministisch und wann nicht

bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten

54

51 Formale Sprachen

511 Mengen

A Quick Review of Set Theory

A set is a collection of objects

A B

D E

We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E

There is no significant order in a set so A D B E is the same set as E A D B etc

Quelle B04

Cardinality of Sets

 The Empty Set

 A Finite Set

 An Infinite Set eg The Set of all Positive Integers

Norway Denmark Sweden

Quelle B04

512 Zeichen

Das Alphabet (Sigma) Menge von Zeichen

55

Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert

Zeichen des EnglischenΣEnglisch = a b c x y z

Zeichen der binaumlren ZahlenΣbin = 0 1

Zeichenketten (strings)

Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ

Zeichenketten uumlber englischen Symbolen ΣEnglisch

a we muntjac talk walk krwrk

Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0

Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast

bin = ε 0 1 00 01 10 11 001

513 Sprachen

Formal Languages

Very Important Concept in Formal Language Theory

A Language is just a Set of Words

bull  We use the terms ldquowordrdquo and ldquostringrdquo interchangeably

bull  A Language can be empty have finite cardinality or be infinite in size

bull  You can union intersect and subtract languages just like any other sets

56

Quelle B04

Union of Languages (Sets)

dog cat rat elephant mouse

Language 1 Language 2

dog cat rat

elephant mouse

Union of Language 1 and Language 2 Quelle B04

Formale Sprachen als Teilmenge von Sigma Stern

L sube Σlowast

Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast

Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes

Englische Woumlrterwalk talk work sube a b zlowast

Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt

Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit

Formales Modell Wirklichkeit

Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme

57

Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der

Wirklichkeit zu repraumlsentieren

Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working

worked works talk

talking talked talks

walk walking

walked walks

The concatenation of

the Suffix language

after the Root

language

0 or denotes the empty string

Abbildung 51 Sprache mit 3 WoumlrternZeichenketten

Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk

Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage

Beispiel fuumlr Deterministischen Endlichen Automaten

talk isin work talk walk

bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile

52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)

Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand

58

Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert

Nicht-Deterministische Endliche Automaten (NEA)

Abbildung 52 Deterministischer EA

Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg

Nicht-Determinismus IIEs gibt mindestens eine ε-Kante

Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln

Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus

1 einer endlichen Menge Zustaumlnde Φ

2 einem endlichen Eingabealphabet Σ

3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ

59

4 einem Startzustand S isin Φ

5 einer Menge von Endzustaumlnden F sube Φ

Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)

δ Φtimes (Σ cup ε)rarr weierp(Φ)

521 Konkatenation

Konkatenation von Zeichenketten und Sprachen

Konkatenation von Zeichenkettenu bull v = uv

lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo

Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V

lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo

Concatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working worked works talk talking talked talks walk walking walked walks

The concatenation of the Suffix language after the Root language

0 or ε denotes the empty string

60

Quelle B04

Concatenation of Languages II

work talk walk

Root Language

0 ing ed s

Suffix Language

rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks

The concatenation of the Prefix language Root language and the Suffix language

Prefix Language

re out 0

outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks

work working worked works talk talking talked talks walk walking walked walks

Quelle B04

Languages and Networks

w a l k

o r

t

NetworkLanguage 2 NetworkLanguage 3

s

o r The concatenation of Networks 1 2 and 3 in that order

w a l k t

a

a s

ed

i n g

0

s

ed

i n

0s

g o

r

NetworkLanguage 1

s

u t

e

0

o

r s

t

e

0 u

Quelle B04

522 Regulaumlre Ausdruumlcke

Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)

Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann

61

bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo

bull Die Mengen a1a2an sind regulaumlr RA a oder b

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)

bull Ist L regulaumlr dann auch LlowastRA (A)

Wie kann man Optionalitaumlt ausdruumlcken

Graphischer Algorithmus Konversion von RA zu NEA

JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten

Algorithmus

1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde

2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten

3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander

4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen

Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten

Epsilon

Symbol a

Konkatenation (ab)

Alternative (a|b)

62

encodes

a

LANGUAGE RELATION

compiles intoa

REGULAR EXPRESSIONa

FINITE-STATE NETWORKde

notes

Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])

Wiederholung (a)

Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert

63

53 Transduktoren

Linguistic Transducer Machines

mesas

Generator

ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas

m e s a +Noun +Fem +Pl

m e s a 0 0 s

mesa+Noun+Fem+Pl

Analyzer

ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas

Quelle B04

Gute Eigenschaften von endlichen Automaten und Transduktoren

bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen

bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde

bull Beispiel NRumantsch Grischun

bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren

Zusammenfassung

bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben

bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen

bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den

bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt

bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden

64

Vertiefung

bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)

bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo

bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo

bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial

65

Kapitel 6

Flache Satzverarbeitung

Lernziele

bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets

bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung

bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen

bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells

bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger

bull Kenntnis uumlber partielle syntaktische Analyse

bull Kenntnis uumlber flache und verschachtelte Chunks

Welches mehrdeutige Wort hat dieses Profil

UPOS-Tag Vorkommen1

1021ADP 848ADV 61

PROPN 14ADJ 1

61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT

N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token

66

Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)

bull eineDET Kuh Lemma ldquoeinrdquo

bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)

bull lead Verb lid (fuumlhren) Nomen led (Blei)

bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe

Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren

Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to

be present tense 3rd person singular

Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch

Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist

Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]

bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)

bull Effizient Der Tagger arbeitet schnell

bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)

bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den

bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden

Was fehlt

67

611 Probleme des Taggings

Wortformen mit mehreren moumlglichen Tags

MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token

Tag-Ambiguitaumlt im Englischen

Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]

Haumlufigkeiten im Brown-Korpus

bill NN 2351

promised VBD 34~~VBN 10~~JJ 2

back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2

Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token

die~~ART 2351~~PRELS 448~~PDS 4

Mehrheit~~NN 40

bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1

Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0

Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen

bull Unterscheidung zwischen offenen und geschlossenen Wortarten

bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)

68

Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]

Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)

bull 98 aller Woumlrter mit Endung -able sind Adjektive

bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname

Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe

oo

n

e

g

n

d

senuel

l

cv

y ta

o

mtsiii

o

i

ies (NNS09 VBZ01)ons (NNS095 VBZ005)

ed (VBN04 JJ03 VBD03)

le (NN025 JJ045 NP02 VB01)

ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)

ty (NN045 JJ035 NP02)

son (NP08 NN01 JJ01)

man (NP08 NN02)ton (NP09 NN005 JJ005)

ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)

ous (JJ096 NN004)

old (JJ098 NN002)

Quelle [Schmid 1995]

Wortformen mit mehreren moumlglichen Tags Kontext

69

Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6

Vorkommen von ldquobackrdquo im Brown-Korpus

ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung

Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen

Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet

bull die moumlglichen Tags von wn aus Tagger-Lexikon

bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens

Context

3

3

Kontextmodell des Trigrammtaggers TnT [Brants 2000]

612 Fallstudie TnT-Tagger

Supervisiertes Maschinelles Lernen

70

Quelle [Raschka 2015 11]

ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt

Fallstudie TnT-Tagger trainieren und evaluieren

Testkorpustestttstesttxt

Trainingskorpustrainingtts

Getaggtes Korpus

Aufteilen des Korpus

Taggingtnt

Trainingtnt-para

Parameter-Dateien

traininglextraining123

Evaluations-korpus

evaltts

Evaluationtnt-diff

Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger

Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]

1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)

$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts

2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden

$ head --lines 278081 ud-de-v13tts gt trainingtts

3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden

$ tail --lines 30900 ud-de-v13tts gt testtts

71

4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus

$ tnt-para trainingtts

5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut

$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts

6 Man erstelle das Evaluationskorpus

$ cut -f 1 testtts gt evaltxt

7 Man tagge das Evaluationskorpus mit dem Trainingsmodell

$ tnt training evaltxt gt evaltts

8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus

$ tnt-diff testtts evaltts

62 EvaluationEvaluation

Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode

Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt

Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird

Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind

Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden

Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)

Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat

72

Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein

621 Zweck

Zweck von Evaluationen

SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert

SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist

622 Accuracy

POS-Tagger-Evaluation Genauigkeit

Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens

accuracy = N minus EN

Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit

Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus

Tagt Freqt Tagf Freqf Ant Erel Eabs

NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010

Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]

Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler

73

5-fache Kreuzvalidierung visuell

Figure 8-2 K-fold cross-validation

Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point

You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order

gtgtgt import randomgtgtgt randomshuffle(f)

If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold

gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k

Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on

Problems That Can Affect Evaluation | 179

Quelle [Pustejovsky und Stubbs 2013 179]

Genauigkeit unter 10-facher Kreuzvalidierung

Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))

accuracy =sumi=10

i=1 accuracyi

10

Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen

623 Lernkurven

624 Recall

Recall (Ausbeute Abdeckung Vollstaumlndigkeit)

Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems

R = At

Nt

Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600

800 = 75

74

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp())+-01$+-0-2)00-))304

56)77

8010

904010

6+789lt

6-=7gt8lt

6+7gtlt

6-=7gt8lt

6+7lt

6-=79lt

2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J

-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J

)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)

Qampamp)(ampI0(EI(K3amp)-++5

8

9

gt

R9 9 S gt9 8 RR gtS

$-++5NF=J

TM5ltU+B+ampE+

TM5T00I-0L

SSR

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

6)6lt$$)amp$+)=$gt=((+

Q-M-44amp-0C

5-66ampK1F3()ampKVWWJ

6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(

Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp

)-)amp3)T)C

$5-66ampK1F(0amp+KampKVWWJ

6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+

U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+

TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+

+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt

QZ]T F6-+JgtRlt gt8lt [RSlt

Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants

625 Precision

Precision (Genauigkeit Praumlzision)

Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems

P = At

A

Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600

1000 = 60

626 F-Measure

F-Measure (F-Mass)

Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems

F = 2times P timesRP +R

75

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp()

67-18-)amp+8(+5)9amp0amp4amp-

6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F

2++$G-+AH-11))Iamp8+-1

J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+

$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5

amp+)-5)amp-0)ampA+

$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()

$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5

+amp(-012344)425amp123)3627892(+lt

=+$$

gt)(5)

))(5)

D+QRSTU

D-EQVWTRU

D+QVXTRU

D-EQVRTRU

D+QWTYU

D-EQSVTMU

6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F

-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F

M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)

ampamp)(amp80(98(B3amp)-++5T

Y X M YM XM MM YMM YMXM

WM

RM

SM

VM

MM

$-++5OCEMMMF

gt75TU[+A+amp9+

gt75Tgt008-0N

PWTP PTP WTM MTR YTM ST PT TVXMTS

C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants

Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075

06+075 = 666

63 Chunk ParsingPartielle syntaktische Analyse

Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt

Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN

bull NC Ein NC (Nominalchunk) besteht

bull -gt besteht aus

bull ART aus einem Wort der Wortart ART (Artikel)

bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)

76

Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

631 Abneys Chunk-Definition

Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]

Motivationen

bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung

bull Effizienz Teilstrukturen lassen sich effizienter berechnen

bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse

bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden

632 IOB-Chunk

Flache Chunks im IOB-Format

Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist

bull B-K Anfang einer Chunk-Konstituente K

bull I-K Fortsetzung der Chunk-Konstituente K

77

bull 0 Nicht zugeordnet (wird auch chink genannt)

We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP

633 Verschachtelte Chunks

Verschachtelte Chunks

Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich

Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)

[PX [APPR fuumlr][NX [ARTIND eine]

[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]

Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC

64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo

bull Pflichtlektuumlre [Carstensen et al 2009 342-3]

bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking

bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative

bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4

78

ZusammenfassungZusammenfassung

bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung

bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets

bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input

Kontrollfragen

bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen

bull Was unterscheidet Recall und Precision von Accuracy

bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging

bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte

bull Was ist der Vorteil der IOB-Notation fuumlr Chunks

65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele

bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative

bull Kenntnis uumlber Fehlertypen und ihre Gefahr

bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung

651 TrueFalse PositivesNegatives

Evaluation von binaumlren Klassifikatoren

TruthPositive Negative

Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)

Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit

Legende zur Tabelle 63

True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

79

FP Fehlertyp I Test ist positiv wo er nicht sollte

FN Fehlertyp II Test ist negativ wo er nicht sollte

652 Fehlerparadoxe

Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet

Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter

Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet

Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter

653 Unterschiede von Evaluationsmassen

Dualitaumlt von Precision und Recall

TruthPos Neg

Test Pos TP FPNeg FN TN

R = TP

TP + FN

Tabelle 64 Recall

Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision

F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig

80

TruthPos Neg

Test Pos TP FPNeg FN TN

P = TP

TP + FP

Tabelle 65 Precision

TruthPos Neg

Test Pos TP FPNeg FN TN

F = 2times TP2times TP + FP + FN

Tabelle 66 F1-Measure

TruthPos Neg

Test Pos TP FPNeg FN TN

Accuracy = TP + TN

TP + TN + FP + FN

Tabelle 67 Accuracy

654 Mitteln von Recall und Precision

F-Measure Harmonisches vs arithmetisches Mittel

655 Vertiefung

bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]

81

Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]

82

Abbildung 68 M = P +R2 Arithmetisches Mittel

83

Literaturverzeichnis

[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235

[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications

[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University

[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231

[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl

[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen

[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf

[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt

[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf

[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl

[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov

[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl

84

[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf

[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf

[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830

[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485

[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM

[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011

[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl

[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York

[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096

[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA

[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning

[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf

[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin

[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml

85

[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098

[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps

[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd

[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf

[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf

[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf

[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean

[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574

86

Index

10-fache Kreuzvalidierung 74

Adjektiv-Flexion 34Alphabet 56

Eingabealphabet 59

DEA 59Dependenz 47

Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72

F-Measure 75

Genus 32Grad 34

IOB-Chunks 77

Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44

Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25

Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39

Named Entity Regonition 19NER 19

Numerus 33 34

partielle syntaktische 76Person 34Precision 75Probe linguistisch 35

Qualitaumlt einer Evaluation 72

Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72

Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47

Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24

Umformungsprobe 43

Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43

Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24

XML-Standard 14

Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59

87

  • Organisatorisches
    • Organisatorisches
      • Leistungsnachweis
      • Lernen und Lehren
        • Kontrollfragen
          • Tokenisierung
            • Tokenisierer
              • Grundproblem
              • Kodierung
              • Programme
                • XML
                • Tokenisierung
                  • Problem
                  • Punktdisambiguierung
                  • Normalisierung
                  • NER
                    • Multilingualitaumlt
                    • Vertiefung
                      • Linguistisches Propaumldeutikum I
                        • Wort
                          • Token
                          • Wortform
                          • synt Wort
                          • Lexem
                            • Wortarten
                              • 5 Hauptwortarten
                              • UD
                              • STTSPTTS
                                • Merkmale
                                  • Genus
                                  • Zahl
                                  • Kasus
                                  • Modus
                                  • Zeit
                                  • Person
                                  • Grad
                                  • Flexion
                                    • Proben
                                      • Ersetzen
                                      • Einsetzen
                                        • Morphologie
                                          • LemmatisierungMorphologieanalyse
                                          • Morphologiegenerierung
                                            • Vertiefung
                                              • Linguistisches Propaumldeutikum II
                                                • Proben
                                                  • Weglassen
                                                  • Verschieben
                                                  • Umformen
                                                    • Satz
                                                      • Satzglieder
                                                      • Koumlpfe
                                                        • Syntaxanalyse
                                                          • Konstituenz
                                                          • Dependenz
                                                          • UD-DE
                                                          • Suche
                                                            • Ambiguitaumlt
                                                            • Vertiefung
                                                              • Endliche Automaten
                                                                • Formale Sprachen
                                                                  • Mengen
                                                                  • Zeichen
                                                                  • Sprachen
                                                                    • EA und regulaumlre Sprachen
                                                                      • Konkatenation
                                                                      • Regulaumlre Ausdruumlcke
                                                                        • Transduktoren
                                                                          • Flache Satzverarbeitung
                                                                            • Tagging
                                                                              • Probleme
                                                                              • Fallstudie TnT-Tagger
                                                                                • Evaluation
                                                                                  • Zweck
                                                                                  • Accuracy
                                                                                  • Lernkurven
                                                                                  • Recall
                                                                                  • Precision
                                                                                  • F-Measure
                                                                                    • Chunking
                                                                                      • Abney
                                                                                      • IOB-Chunk
                                                                                      • Verschachtelte Chunks
                                                                                        • Vertiefung
                                                                                        • Exkurs Evaluation binaumlrer Klassifikatoren
                                                                                          • TPFPFNTN
                                                                                          • Fehlerparadoxe
                                                                                          • Unterschiede
                                                                                          • Mittelwerte
                                                                                          • Vertiefung
Page 15: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff

ltw id=w21 pws=no sb=true c=gtltwgtltsgtlts id=s2gtltw id=w23 c=w pws=yesgtThereltwgt ltw id=w29 c=w pws=yesgtareltwgtltw id=w33 c=w pws=yesgttwoltwgt ltw id=w37 c=w pws=yesgtsentencesltwgtltw id=w46 pws=no sb=true c=gtltwgtltsgtltpgtlttextgtltdocumentgt

Hinweis Fuumlr Darstellungszwecke mit zusaumltzlichen Layoutzeichen angereichert

Verschachtelung im XML-Stil

ltdocumentgtlttextgt

ltpgtltsgtltwgt ltwgt ltwgt ltwgt ltwgtThis is an example

ltsgtltwgt ltwgt ltwgt ltwgt ltwgtThere are two sentences

Abbildung 22 Schematische Darstellung der Verschachtelung der XML-Tags

22 Exkurs XMLOnline-Video zu XML und Textrepraumlsentation

bull Bitte den 1 Teil ldquoEinfuumlhrung in XMLrdquo (10 Minuten) unseres Online-Videos ldquoStrukturierteund nachhaltige Repraumlsentation von Korpusdaten XML-Standards zur Textrepraumlsentati-onrdquo aus unserem MOOC-Kurs schauen (Der 2 Teil ldquoEinfuumlhrung in TEI P5rdquo ist nicht Teildes Stoffs

bull httpstubeswitchchvideos60fc01f1

XML (eXtensible Markup Language)

Definition 221 Der XML-Standard httpwwww3orgXML spezifiziert wie wohlgeformteXML-Dokumente aufgebaut sein muumlssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann

14

XML in der Texttechnologie

bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)

bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten

bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben

Aufbau von XML-Dokumenten

Elemente und ihre Attribute

bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt

bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)

bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt

bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt

bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt

bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt

Zeichenreferenzen und Entity-Referenzen

Entitaumlten und Referenzen

bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden

bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal

bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den

Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38

Newline amp9Σ ampx3a3

15

23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen

231 Problem

Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt

bull Wort-Zeichen [a-zA-Z0-9]

bull Einzel-Zeichen [)(rsquo$-]

bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]

ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo

Schwierigkeiten der Wortsegmentierung im engen Sinn

Schwierige Zeichen

bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim

bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr

bull Bindestriche semble-t-il rarr semble + -t-il

bull Punkte SAC

bull Masseinheiten 30 rarr 30 + 28 rarr 28 +

bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que

Teilprobleme der Tokenisierung im weiten Sinn

bull Umgang mit Markup (HTML-Tags Formatierungszeichen)

bull Erkennung der ldquonormalenrdquo Tokengrenzen

bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)

bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)

bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)

bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)

16

232 Punktdisambiguierung

Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben

Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert

Verschmelzung

bull It was due Friday by 5 pm Saturday would be too late

bull Ich kenne die USA Frankreich kenne ich nicht

WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig

Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls

bull das Token in einer Abkuumlrzungsliste steht

bull nach dem Token eines der Zeichen aus [a-z] folgt

bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht

bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt

Nach [Grefenstette und Tapanainen 1994]

LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen

Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen

Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN

1 Wie viele Zeichen umfasst TOKEN

2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale

3 Wie oft kommt TOKEN ohne Punkt vor

4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor

5 Wie oft kommt NEXTTOKEN kleingeschrieben vor

17

Satzsegmentierung mit maschinellen Lernverfahren

bull Fuumlr grosse Textmengen empfohlen

bull Nachteil Unsystematische Fehler koumlnnen auftreten

Statistisches System PUNKT ([Kiss und Strunk 2006])

bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten

bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt

iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte

233 Zeichen- und Token-Normalisierung

Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen

Normalisierung bei Suchmaschinen und anderen Anwendungen

bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich

bull 4897 4-8-97 4897 8497

bull 19000 19rsquo000 19 000 19000

bull Louisa Luise Louise Luisa

bull doesnrsquot does not

Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)

bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt

bull Hollaumlndisch chocola-tje rarr chocolaatje

Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen

18

Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung

Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens

615 5 Ruumlckbau in neue Tokens

Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus

Ruumlckgaumlngig machen von Worttrennung am Zeilenende

Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens

Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch

234 Named Entity Recognition

Named Entity Recognition

Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen

Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen

Kanonische Formen und Entity Linking

bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo

bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo

Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3

Demo Time Expression Recognition (TIMEX task)

24 MultilingualitaumltMultilinguale Dokumente und Systeme

Herausforderung Multilingualitaumlt

bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess

19

Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular

Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML

bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig

bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut

bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet

bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut

Ansatz von [Cavnar und Trenkle 1994]

20

1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten

2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)

3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil

4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm

5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand

N-Gramm-Profile und Profilabstand

Quelle [Cavnar und Trenkle 1994]

Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]

25 VertiefungZum Thema ldquoTokenisierungrdquo

bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28

bull Pflichtlektuumlre [Carstensen et al 2009 341]

bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]

Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)

bull httpwwwcluzhchclabregex

Zum Thema ldquoXMLrdquo

21

bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1

bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]

Zusammenfassung

bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen

bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen

bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen

bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung

bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar

bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen

bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden

Kontrollfragen

bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention

bull Welche Probleme stellen sich bei der Tokenisierung

bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung

bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten

bull Was versteht man unter NER

bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle

22

Kapitel 3

Linguistisches Propaumldeutikum I

Lernziele

bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen

bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg

bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch

bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte

bull Kenntnis und Anwendung linguistischer Proben

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten

bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung

31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs

Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind

Praumlzisierungsversuche des Wort-Begriffs

bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment

bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit

bull Morphologisch Grundeinheit welche flektierbar ist

bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist

bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes

23

Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach

Antworten 4 5 6 9 __

311 Token

Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9

Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText

BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann

312 Wortform

Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes

Identische Wortformen mit unterschiedlicher Bedeutung

bull Die Fliege war tot

bull Er trug eine samtene Fliege

bull Fliege nicht so schnell

313 Syntaktisches Wort

Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6

Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst

Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural

24

314 Lexem

Antwort 5 Wort als Lexem

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden

Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem

Lexikographische Notationskonventionen

Wie sehen Verb-Lemma in DeutschenLatein aus

Antwort 4 Wort als Lexemverband

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4

Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert

Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln

Stufen der Abstraktion Vom Text zum Lexemverband

bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)

bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)

bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen

bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden

bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird

25

32 Lehre von den WortartenWortarten nach [Bussmann 2002]

Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien

Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb

5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det

321 5 Hauptwortarten nach Glinz

Klassifikationskriterien

Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]

Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

26

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

322 UD

Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)

Universal Part-of-Speech Tagset (Version 1)1

12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish

ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo

Universal Part-of-Speech Tagset (Version 2) UPOS2

Version 2 hat 17 POS-Tags

+ Eigennamen (PROPN) (vorher NOUN)

+ Hilfsverben (AUX) (vorher VERB)

+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)

+ Symbole (SYM) (vorher X)

+ Interjektionen (INTJ) (vorher PRT)

= Partikel (PART) (vorher PRT)

= Interpunktion (PUNCT) (vorher )

Baumbanken sind fuumlr 51 Sprachen verfuumlgbar

27

Abbildung 32 Deutsche UD-Baumbank

UD V13 fuumlr Deutsch

NDurchsuchen

bull Suche nach Wort spaumlter

bull Nach Wort+Wortart spaumlterampADV

UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml

Mehrdeutigkeiten Unklarheiten Fehlannotationen

Linguistische Annotation und Automatisierung

Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form

Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml

28

bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)

bull Vollautomatisch Schnell billig fehlerbehaftet

bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile

Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml

N CoNLL-Format Spaltenformat fuumlr Annotationen3

bull Vertikalisierter Text

bull 1 Token pro Zeile

bull Saumltze mit Leerzeile getrennt

bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation

bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet

Bedeutung relevanter Spalten

1 Tokennummer (1-basierte Zaumlhlung) pro Satz

2 Wortform (Token)

3 Lemma

4 Grobe Wortklasse (coarse-grained part-of-speech tag)

5 Feine Wortklasse (fine-grained part-of-speech tag)

6 Morphosyntaktische Merkmale

7 Syntaktischer Kopf als Tokennummer

8 Dependenztyp

CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo

Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token

3httpuniversaldependenciesorgformathtml

29

Abbildung 33 CoNLL-U und CoNLL-X

Manuelle Annotation mit WebAnno und Exportformate

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

323 Feine Tagsets

Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis

bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags

bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert

bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch

bull Alternativen Muumlnsteraner Tagset [Steiner 2003]

Wieso ist das STTS wichtig

bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)

ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel

bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo

30

Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts

Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken

33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale

Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden

Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems

bull Konjugation von Verben

bull Deklination von Nomen Adjektiven Artikeln und Pronomen

bull Steigerung von Adjektiven (und wenigen Adverbien)

Diskussion Sind steigerbare Adverbien ein Widerspruch im System

Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet

31

Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts

Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn

331 Genus

Das Genus (UD Gender) Grammatisches Geschlecht

Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien

Tabelle 31 Uumlbersicht Genera

BemerkungDer Plural von Genus lautet Genera

Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt

Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen

Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind

Deutsch

32

Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur

AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas

332 Numerus

Der Numerus (UD Number) Grammatische Zahl

Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner

Tabelle 32 Uumlbersicht Numeri

BemerkungDer Plural von Numerus lautet Numeri

Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt

333 Kasus

Der Kasus (UD Case) FallUD-Kategorie Case

Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum

Tabelle 33 Uumlbersicht Kasus

BemerkungDer Plural von Kasus lautet Kasus

334 Modus

Der Modus (engl mode mood UD Mood) Aussageweise

Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh

Tabelle 34 Uumlbersicht Modi

In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi

33

335 Tempus

Das Tempus (UD Tense) grammatische Zeit Zeitform

Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging

Tabelle 35 Uumlbersicht Tempora

BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten

336 Person

Die Person (UD Person)

Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht

Tabelle 36 Uumlbersicht Personen

BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt

337 Grad

Der Grad (UD Degree) Steigerung Komparation

Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste

Tabelle 37 Uumlbersicht Komparation

BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt

338 Adjektiv-Flexion

Die Adjektiv-Flexion (engl adjective inflection)

BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven

Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet

34

Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse

Tabelle 38 Uumlbersicht Adjektiv-Flexion

Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern

UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt

Morphologische Englische UD-Annotation

1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _

34 Linguistische ProbenLinguistische Testverfahren

Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen

341 Ersatzprobe

Ersatzprobe

Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben

35

Beispiel 343 (Bestimmung des Kasus)

Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat

Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen

Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)

bull Das ist das Angebot das uns uumlberzeugt hat

bull Dieses ist das Angebot welches uns uumlberzeugt hat

bull Welches ist das Angebot dieses uns uumlberzeugt hat

bull Das ist dieses Angebot welches uns uumlberzeugt hat

Probleme der Interpretation

bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes

bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig

342 Einsetzprobe

Einsetzprobe

Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert

Beispiel 345 (Bestimmung der Wortart)

Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb

Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive

35 MorphologieMorphologische Ebene

Womit befasst sich die Morphologie Wortstruktur und Wortbildung

bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e

36

bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit

bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system

351 LemmatisierungMorphologieanalyse

Lemmatisierung und Morphologieanalyse

Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen

Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma

Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo

Analysen von GERTWOL5

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Probleme morphologischer Analysen Mehrdeutigkeit

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM

Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol

37

bull ldquoeinerdquo als

bull ldquoMuumlllerrdquo als Eigenname oder Substantiv

Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus

Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1

Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile

Probleme morphologischer Analyse

googelte

UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter

Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM

ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat

Lieblingsbeerelieb~lingsbeere S FEM SG NOM

Erdbeereerdbeere S FEM SG NOM

Fingerbeerenfingerbeere S FEM PL NOM

UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung

38

Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas

Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]

Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent

352 Morphologiegenerierung

Generierung von syntaktischen Wortformen

Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation

Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|

Person=2|Tense=Past|VerbForm=Fingingst

backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin

36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT

bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem

bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6

bull Die Website universaldependenciesorg hat einige Dokumentation

Zusammenfassung

bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet

bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte

bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme

bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen

6httpwwwdsuzhchstudien-cd

39

Kontrollfragen

bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo

bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2

bull Worin besteht Morphologieanalyse und -generierung

bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller

bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt

bull Was ist der Unterschied zwischen Lemma und Lexem

40

Kapitel 4

Linguistisches Propaumldeutikum II

Lernziele

bull Anwendung der klassischen syntaktischen Proben

bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf

bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte

bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen

bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug

Motivation 2 (halbwegs kompatible) Syntax-Welten

Konstituenten

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Dependenz

41

Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden

(NGoogles SyntaxNet)

41 Syntaktische ProbenKonstituentenproben

Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt

Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

411 Weglassprobe

Weglassprobe

Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten

Bestimmung eines Satzglieds

1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

FrageWarum nicht Variante 4

42

412 Verschiebeprobe

Verschiebeprobe

Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen

Bestimmung von Satzgliedern

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen bereite ich die Sitzung mit dem Chef vor

3 Ich bereite die Sitzung mit dem Chef morgen vor

Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb

Verschiebeprobe

Unzulaumlssiges Verschieben

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen ich bereite die Sitzung mit dem Chef vor

3 Die Sitzung bereite ich morgen mit dem Chef vor

413 Umformungsproben

Umformungsprobe

Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut

Funktion von Nebensaumltzen

1 Es wuumlrde mich freuen wenn du mitkaumlmest

2 Dein Mitkommen wuumlrde mich freuen

Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo

Infinitivumformung zur Subjekterkennung

1 Die Laumlrche ist ein Nadelbaum

2 ein Nadelbaum sein die Laumlrche

43

Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]

42 SatzSatz

Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist

Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten

421 Satzglieder

Moderne Satzgliedlehre

422 Koumlpfe (oder Kerne) von Konstituenten

Syntaktische Koumlpfe (engl head) Kern (engl kernel)

Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar

Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)

1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]

2 Sie rennt [mit dem Mobile hantierend] zum Kiosk

3 Es wird [viel zu oft] telefoniert

44

4 [Die Frau die zum Kiosk rannte ] war aufgeregt

5 Sie fuumlhlte sich [wie in einem schlechten Film]

6 Aber sie war auch [in einem ziemlich schlechten Film]

43 Syntaxanalyse

431 Konstituenz

Konstituenten und Konstituenz

Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist

Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten

Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten

Konstituenten in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

unmittelbare Dominanz

Konstituente auf Wortebene

Syntaktische Konstituente

Praumlzedenz auf Wortebene

Praumlzedenz zwischen Tochterkonstituenten

Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung

Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente

Konstituententypen

Typen von Konstituenten in TIGERNEGRA

1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen

45

2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern

3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern

4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern

5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern

6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern

7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo

Annotation von Relativsaumltzen

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen

Komplexe Konstituenz in der Penn-Treebank

Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white

Syntaxbaum aus der Vogelperspektive

In

IN

other

JJ

words

NNS

like

IN

automation

NN

machines

NNS

designed

VBN

-NONE-

to

TO

work

VB

in

IN

tandem

NN

they

PRP

shared

VBD

the

DT

same

JJ

programming

NN

a

DT

mutual

JJ

understanding

NN

not

RB

only

RB

of

IN

English

NNP

words

NNS

but

CC

of

IN

the

DT

four

CD

stresses

NNS

pitches

NNS

and

CC

junctures

NNS

that

WP

T

-NONE-

can

MD

change

VB

their

PRP$

meaning

NN

from

IN

black

NN

to

TO

white

NN

NP

PP

NP NP NP

PP

VP

VP

SBJ

S

VP

NP

PP

NP NP NP CONJP NP

PP

NP WHNP NP NP NP

PP

NP

PP

PP

VP

VP

SBJ

S

SBAR

NP

PP

PP

NP

NP

VP

SBJ

S

T

46

Quelle TIGERSearch-Demo-Korpora

Maximale Verschachtelungstiefe

432 Dependenz bzw syntaktische Funktion

Dependenz und syntaktische Funktion

Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten

Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen

HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt

Syntaktische Funktionen in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Syntaktische Funktion

Konstituenten

Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung

Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente

Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken

Einige Satzglieder mit TIGER-Funktion

bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein

47

Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)

bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)

bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)

bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)

bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator

bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb

Baumbankkonversion Von Konstituenz zu Dependenz

Automatische Konversion (NTIGER2Dep)

Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)

433 UD-DE-Modell

Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen

48

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

Generelle Philosophie des Universal-Dependency-Modells

bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig

bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV

bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum

bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden

bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der

bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)

bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens

Inhaltswoumlrter VERB und NOUN

Hinweisebull Spitze des Pfeils Abhaumlngiges Element

bull Startknoten des Pfeils Kopf

bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen

bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird

Das UD-Innenleben von Nominalphrasen

Hinweisebull Was ist der NP-Kopf

bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll

49

Komplexe Verb- und Adjektivphrasen

Hinweise

bull Hilfs- und Modalverben haumlngen vom Vollverb ab

bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich

Kopulakonstruktion und Gleichsetzungsnominativ

Fragen

bull Wovon haumlngt das Subjekt ab

bull NSuche nach ist im Suchwerkzeug

bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft

Interpunktion

Hinweise

bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt

50

Verschachtelte Saumltze

Hinweise

bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab

bull Wann aclrelcl und wann advcl

Koordination

Koordination Koumlpfe und Abhaumlngigkeitsrichtung

Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht

Koordination von Konstituenten aus NEGRA-Korpus

bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]

bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]

bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]

2 Fragen mit mehreren moumlglichen Antworten

bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt

bull In welche Richtung werden koordinierte Elemente verknuumlpft

Koordination in der NUD

Frage

bull Welche Antworten gibt die UD

51

Manuelle Syntax-Annotation mit WebAnno

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)

bull Click-und-Drag-Interface mit der Maus

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml

Aufgabe Annotation von Relativsatz

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Wie sieht eine UD-Annotation von diesem Satz aus

434 Suche

NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken

Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-

Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens

2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)

KOPF gt NICHTKOPF

NICHTKOPF lt KOPF

Analog zur Pfeilrichtung in der BRAT-Visualisierung

52

Grundlegende syntaktische Suchrezepte

bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging

bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging

bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde

bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld

bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor

bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _

bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist

44 AmbiguitaumltZusammenfassung

bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen

bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden

bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab

bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])

45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]

bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre

bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren

bull Quiz Die Form der Satzglieder

bull Quiz Satzglieder und Proben

bull Linguistik-CD

53

Kapitel 5

Endliche Automaten

Lernziele

bull Einstieg in die Formalisierung von Sprache

bull Was sind Zeichenketten formalmathematisch

bull Was ist eine formale Sprache

bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation

bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten

bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie

bull Wann ist ein endlicher Automat deterministisch und wann nicht

bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten

54

51 Formale Sprachen

511 Mengen

A Quick Review of Set Theory

A set is a collection of objects

A B

D E

We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E

There is no significant order in a set so A D B E is the same set as E A D B etc

Quelle B04

Cardinality of Sets

 The Empty Set

 A Finite Set

 An Infinite Set eg The Set of all Positive Integers

Norway Denmark Sweden

Quelle B04

512 Zeichen

Das Alphabet (Sigma) Menge von Zeichen

55

Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert

Zeichen des EnglischenΣEnglisch = a b c x y z

Zeichen der binaumlren ZahlenΣbin = 0 1

Zeichenketten (strings)

Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ

Zeichenketten uumlber englischen Symbolen ΣEnglisch

a we muntjac talk walk krwrk

Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0

Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast

bin = ε 0 1 00 01 10 11 001

513 Sprachen

Formal Languages

Very Important Concept in Formal Language Theory

A Language is just a Set of Words

bull  We use the terms ldquowordrdquo and ldquostringrdquo interchangeably

bull  A Language can be empty have finite cardinality or be infinite in size

bull  You can union intersect and subtract languages just like any other sets

56

Quelle B04

Union of Languages (Sets)

dog cat rat elephant mouse

Language 1 Language 2

dog cat rat

elephant mouse

Union of Language 1 and Language 2 Quelle B04

Formale Sprachen als Teilmenge von Sigma Stern

L sube Σlowast

Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast

Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes

Englische Woumlrterwalk talk work sube a b zlowast

Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt

Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit

Formales Modell Wirklichkeit

Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme

57

Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der

Wirklichkeit zu repraumlsentieren

Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working

worked works talk

talking talked talks

walk walking

walked walks

The concatenation of

the Suffix language

after the Root

language

0 or denotes the empty string

Abbildung 51 Sprache mit 3 WoumlrternZeichenketten

Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk

Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage

Beispiel fuumlr Deterministischen Endlichen Automaten

talk isin work talk walk

bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile

52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)

Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand

58

Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert

Nicht-Deterministische Endliche Automaten (NEA)

Abbildung 52 Deterministischer EA

Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg

Nicht-Determinismus IIEs gibt mindestens eine ε-Kante

Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln

Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus

1 einer endlichen Menge Zustaumlnde Φ

2 einem endlichen Eingabealphabet Σ

3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ

59

4 einem Startzustand S isin Φ

5 einer Menge von Endzustaumlnden F sube Φ

Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)

δ Φtimes (Σ cup ε)rarr weierp(Φ)

521 Konkatenation

Konkatenation von Zeichenketten und Sprachen

Konkatenation von Zeichenkettenu bull v = uv

lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo

Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V

lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo

Concatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working worked works talk talking talked talks walk walking walked walks

The concatenation of the Suffix language after the Root language

0 or ε denotes the empty string

60

Quelle B04

Concatenation of Languages II

work talk walk

Root Language

0 ing ed s

Suffix Language

rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks

The concatenation of the Prefix language Root language and the Suffix language

Prefix Language

re out 0

outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks

work working worked works talk talking talked talks walk walking walked walks

Quelle B04

Languages and Networks

w a l k

o r

t

NetworkLanguage 2 NetworkLanguage 3

s

o r The concatenation of Networks 1 2 and 3 in that order

w a l k t

a

a s

ed

i n g

0

s

ed

i n

0s

g o

r

NetworkLanguage 1

s

u t

e

0

o

r s

t

e

0 u

Quelle B04

522 Regulaumlre Ausdruumlcke

Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)

Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann

61

bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo

bull Die Mengen a1a2an sind regulaumlr RA a oder b

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)

bull Ist L regulaumlr dann auch LlowastRA (A)

Wie kann man Optionalitaumlt ausdruumlcken

Graphischer Algorithmus Konversion von RA zu NEA

JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten

Algorithmus

1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde

2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten

3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander

4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen

Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten

Epsilon

Symbol a

Konkatenation (ab)

Alternative (a|b)

62

encodes

a

LANGUAGE RELATION

compiles intoa

REGULAR EXPRESSIONa

FINITE-STATE NETWORKde

notes

Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])

Wiederholung (a)

Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert

63

53 Transduktoren

Linguistic Transducer Machines

mesas

Generator

ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas

m e s a +Noun +Fem +Pl

m e s a 0 0 s

mesa+Noun+Fem+Pl

Analyzer

ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas

Quelle B04

Gute Eigenschaften von endlichen Automaten und Transduktoren

bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen

bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde

bull Beispiel NRumantsch Grischun

bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren

Zusammenfassung

bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben

bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen

bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den

bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt

bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden

64

Vertiefung

bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)

bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo

bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo

bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial

65

Kapitel 6

Flache Satzverarbeitung

Lernziele

bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets

bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung

bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen

bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells

bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger

bull Kenntnis uumlber partielle syntaktische Analyse

bull Kenntnis uumlber flache und verschachtelte Chunks

Welches mehrdeutige Wort hat dieses Profil

UPOS-Tag Vorkommen1

1021ADP 848ADV 61

PROPN 14ADJ 1

61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT

N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token

66

Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)

bull eineDET Kuh Lemma ldquoeinrdquo

bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)

bull lead Verb lid (fuumlhren) Nomen led (Blei)

bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe

Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren

Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to

be present tense 3rd person singular

Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch

Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist

Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]

bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)

bull Effizient Der Tagger arbeitet schnell

bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)

bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den

bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden

Was fehlt

67

611 Probleme des Taggings

Wortformen mit mehreren moumlglichen Tags

MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token

Tag-Ambiguitaumlt im Englischen

Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]

Haumlufigkeiten im Brown-Korpus

bill NN 2351

promised VBD 34~~VBN 10~~JJ 2

back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2

Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token

die~~ART 2351~~PRELS 448~~PDS 4

Mehrheit~~NN 40

bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1

Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0

Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen

bull Unterscheidung zwischen offenen und geschlossenen Wortarten

bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)

68

Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]

Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)

bull 98 aller Woumlrter mit Endung -able sind Adjektive

bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname

Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe

oo

n

e

g

n

d

senuel

l

cv

y ta

o

mtsiii

o

i

ies (NNS09 VBZ01)ons (NNS095 VBZ005)

ed (VBN04 JJ03 VBD03)

le (NN025 JJ045 NP02 VB01)

ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)

ty (NN045 JJ035 NP02)

son (NP08 NN01 JJ01)

man (NP08 NN02)ton (NP09 NN005 JJ005)

ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)

ous (JJ096 NN004)

old (JJ098 NN002)

Quelle [Schmid 1995]

Wortformen mit mehreren moumlglichen Tags Kontext

69

Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6

Vorkommen von ldquobackrdquo im Brown-Korpus

ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung

Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen

Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet

bull die moumlglichen Tags von wn aus Tagger-Lexikon

bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens

Context

3

3

Kontextmodell des Trigrammtaggers TnT [Brants 2000]

612 Fallstudie TnT-Tagger

Supervisiertes Maschinelles Lernen

70

Quelle [Raschka 2015 11]

ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt

Fallstudie TnT-Tagger trainieren und evaluieren

Testkorpustestttstesttxt

Trainingskorpustrainingtts

Getaggtes Korpus

Aufteilen des Korpus

Taggingtnt

Trainingtnt-para

Parameter-Dateien

traininglextraining123

Evaluations-korpus

evaltts

Evaluationtnt-diff

Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger

Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]

1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)

$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts

2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden

$ head --lines 278081 ud-de-v13tts gt trainingtts

3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden

$ tail --lines 30900 ud-de-v13tts gt testtts

71

4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus

$ tnt-para trainingtts

5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut

$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts

6 Man erstelle das Evaluationskorpus

$ cut -f 1 testtts gt evaltxt

7 Man tagge das Evaluationskorpus mit dem Trainingsmodell

$ tnt training evaltxt gt evaltts

8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus

$ tnt-diff testtts evaltts

62 EvaluationEvaluation

Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode

Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt

Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird

Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind

Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden

Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)

Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat

72

Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein

621 Zweck

Zweck von Evaluationen

SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert

SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist

622 Accuracy

POS-Tagger-Evaluation Genauigkeit

Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens

accuracy = N minus EN

Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit

Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus

Tagt Freqt Tagf Freqf Ant Erel Eabs

NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010

Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]

Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler

73

5-fache Kreuzvalidierung visuell

Figure 8-2 K-fold cross-validation

Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point

You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order

gtgtgt import randomgtgtgt randomshuffle(f)

If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold

gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k

Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on

Problems That Can Affect Evaluation | 179

Quelle [Pustejovsky und Stubbs 2013 179]

Genauigkeit unter 10-facher Kreuzvalidierung

Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))

accuracy =sumi=10

i=1 accuracyi

10

Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen

623 Lernkurven

624 Recall

Recall (Ausbeute Abdeckung Vollstaumlndigkeit)

Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems

R = At

Nt

Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600

800 = 75

74

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp())+-01$+-0-2)00-))304

56)77

8010

904010

6+789lt

6-=7gt8lt

6+7gtlt

6-=7gt8lt

6+7lt

6-=79lt

2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J

-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J

)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)

Qampamp)(ampI0(EI(K3amp)-++5

8

9

gt

R9 9 S gt9 8 RR gtS

$-++5NF=J

TM5ltU+B+ampE+

TM5T00I-0L

SSR

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

6)6lt$$)amp$+)=$gt=((+

Q-M-44amp-0C

5-66ampK1F3()ampKVWWJ

6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(

Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp

)-)amp3)T)C

$5-66ampK1F(0amp+KampKVWWJ

6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+

U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+

TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+

+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt

QZ]T F6-+JgtRlt gt8lt [RSlt

Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants

625 Precision

Precision (Genauigkeit Praumlzision)

Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems

P = At

A

Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600

1000 = 60

626 F-Measure

F-Measure (F-Mass)

Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems

F = 2times P timesRP +R

75

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp()

67-18-)amp+8(+5)9amp0amp4amp-

6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F

2++$G-+AH-11))Iamp8+-1

J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+

$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5

amp+)-5)amp-0)ampA+

$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()

$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5

+amp(-012344)425amp123)3627892(+lt

=+$$

gt)(5)

))(5)

D+QRSTU

D-EQVWTRU

D+QVXTRU

D-EQVRTRU

D+QWTYU

D-EQSVTMU

6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F

-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F

M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)

ampamp)(amp80(98(B3amp)-++5T

Y X M YM XM MM YMM YMXM

WM

RM

SM

VM

MM

$-++5OCEMMMF

gt75TU[+A+amp9+

gt75Tgt008-0N

PWTP PTP WTM MTR YTM ST PT TVXMTS

C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants

Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075

06+075 = 666

63 Chunk ParsingPartielle syntaktische Analyse

Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt

Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN

bull NC Ein NC (Nominalchunk) besteht

bull -gt besteht aus

bull ART aus einem Wort der Wortart ART (Artikel)

bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)

76

Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

631 Abneys Chunk-Definition

Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]

Motivationen

bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung

bull Effizienz Teilstrukturen lassen sich effizienter berechnen

bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse

bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden

632 IOB-Chunk

Flache Chunks im IOB-Format

Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist

bull B-K Anfang einer Chunk-Konstituente K

bull I-K Fortsetzung der Chunk-Konstituente K

77

bull 0 Nicht zugeordnet (wird auch chink genannt)

We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP

633 Verschachtelte Chunks

Verschachtelte Chunks

Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich

Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)

[PX [APPR fuumlr][NX [ARTIND eine]

[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]

Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC

64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo

bull Pflichtlektuumlre [Carstensen et al 2009 342-3]

bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking

bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative

bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4

78

ZusammenfassungZusammenfassung

bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung

bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets

bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input

Kontrollfragen

bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen

bull Was unterscheidet Recall und Precision von Accuracy

bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging

bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte

bull Was ist der Vorteil der IOB-Notation fuumlr Chunks

65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele

bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative

bull Kenntnis uumlber Fehlertypen und ihre Gefahr

bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung

651 TrueFalse PositivesNegatives

Evaluation von binaumlren Klassifikatoren

TruthPositive Negative

Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)

Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit

Legende zur Tabelle 63

True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

79

FP Fehlertyp I Test ist positiv wo er nicht sollte

FN Fehlertyp II Test ist negativ wo er nicht sollte

652 Fehlerparadoxe

Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet

Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter

Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet

Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter

653 Unterschiede von Evaluationsmassen

Dualitaumlt von Precision und Recall

TruthPos Neg

Test Pos TP FPNeg FN TN

R = TP

TP + FN

Tabelle 64 Recall

Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision

F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig

80

TruthPos Neg

Test Pos TP FPNeg FN TN

P = TP

TP + FP

Tabelle 65 Precision

TruthPos Neg

Test Pos TP FPNeg FN TN

F = 2times TP2times TP + FP + FN

Tabelle 66 F1-Measure

TruthPos Neg

Test Pos TP FPNeg FN TN

Accuracy = TP + TN

TP + TN + FP + FN

Tabelle 67 Accuracy

654 Mitteln von Recall und Precision

F-Measure Harmonisches vs arithmetisches Mittel

655 Vertiefung

bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]

81

Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]

82

Abbildung 68 M = P +R2 Arithmetisches Mittel

83

Literaturverzeichnis

[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235

[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications

[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University

[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231

[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl

[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen

[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf

[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt

[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf

[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl

[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov

[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl

84

[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf

[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf

[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830

[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485

[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM

[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011

[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl

[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York

[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096

[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA

[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning

[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf

[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin

[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml

85

[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098

[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps

[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd

[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf

[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf

[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf

[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean

[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574

86

Index

10-fache Kreuzvalidierung 74

Adjektiv-Flexion 34Alphabet 56

Eingabealphabet 59

DEA 59Dependenz 47

Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72

F-Measure 75

Genus 32Grad 34

IOB-Chunks 77

Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44

Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25

Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39

Named Entity Regonition 19NER 19

Numerus 33 34

partielle syntaktische 76Person 34Precision 75Probe linguistisch 35

Qualitaumlt einer Evaluation 72

Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72

Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47

Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24

Umformungsprobe 43

Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43

Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24

XML-Standard 14

Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59

87

  • Organisatorisches
    • Organisatorisches
      • Leistungsnachweis
      • Lernen und Lehren
        • Kontrollfragen
          • Tokenisierung
            • Tokenisierer
              • Grundproblem
              • Kodierung
              • Programme
                • XML
                • Tokenisierung
                  • Problem
                  • Punktdisambiguierung
                  • Normalisierung
                  • NER
                    • Multilingualitaumlt
                    • Vertiefung
                      • Linguistisches Propaumldeutikum I
                        • Wort
                          • Token
                          • Wortform
                          • synt Wort
                          • Lexem
                            • Wortarten
                              • 5 Hauptwortarten
                              • UD
                              • STTSPTTS
                                • Merkmale
                                  • Genus
                                  • Zahl
                                  • Kasus
                                  • Modus
                                  • Zeit
                                  • Person
                                  • Grad
                                  • Flexion
                                    • Proben
                                      • Ersetzen
                                      • Einsetzen
                                        • Morphologie
                                          • LemmatisierungMorphologieanalyse
                                          • Morphologiegenerierung
                                            • Vertiefung
                                              • Linguistisches Propaumldeutikum II
                                                • Proben
                                                  • Weglassen
                                                  • Verschieben
                                                  • Umformen
                                                    • Satz
                                                      • Satzglieder
                                                      • Koumlpfe
                                                        • Syntaxanalyse
                                                          • Konstituenz
                                                          • Dependenz
                                                          • UD-DE
                                                          • Suche
                                                            • Ambiguitaumlt
                                                            • Vertiefung
                                                              • Endliche Automaten
                                                                • Formale Sprachen
                                                                  • Mengen
                                                                  • Zeichen
                                                                  • Sprachen
                                                                    • EA und regulaumlre Sprachen
                                                                      • Konkatenation
                                                                      • Regulaumlre Ausdruumlcke
                                                                        • Transduktoren
                                                                          • Flache Satzverarbeitung
                                                                            • Tagging
                                                                              • Probleme
                                                                              • Fallstudie TnT-Tagger
                                                                                • Evaluation
                                                                                  • Zweck
                                                                                  • Accuracy
                                                                                  • Lernkurven
                                                                                  • Recall
                                                                                  • Precision
                                                                                  • F-Measure
                                                                                    • Chunking
                                                                                      • Abney
                                                                                      • IOB-Chunk
                                                                                      • Verschachtelte Chunks
                                                                                        • Vertiefung
                                                                                        • Exkurs Evaluation binaumlrer Klassifikatoren
                                                                                          • TPFPFNTN
                                                                                          • Fehlerparadoxe
                                                                                          • Unterschiede
                                                                                          • Mittelwerte
                                                                                          • Vertiefung
Page 16: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff

XML in der Texttechnologie

bull Textbasiertes Format das geeignet ist Texte und dazugehoumlrigeMetainformation programm-unabhaumlngig strukturiert zu speichern (zB Text Encoding Initiative TEI fuumlr Lexika Kor-pora und digitale Editionen)

bull Dank Standardisierung gibt es viele Werkzeuge Bibliotheken Programmierschnittstellenzum Einlesen Erstellen Modifizieren von XML-Dokumenten

bull Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben

Aufbau von XML-Dokumenten

Elemente und ihre Attribute

bull Elemente sind von Start-Tags (ldquoltpgtrdquo) und End-Tags (ldquoltpgtrdquo) begrenzt

bull Leere Elemente koumlnnen aus einem Tag bestehen (ldquoltbrgtrdquo)

bull Elemente duumlrfen hierarchisch ineinander verschachtelt werden ltpgtltsgtltsgtltpgt

bull Jedes XML-Dokument hat genau ein Wurzelelement ZB ltdocumentgtltdocumentgt

bull Attribute eines Elements erscheinen als Paare der Form NAME=WERT im Start-Taglts id=s2gt

bull Elemente koumlnnen Zeichendaten (dh normalen Text) enthalten ltwgtareltwgt

Zeichenreferenzen und Entity-Referenzen

Entitaumlten und Referenzen

bull Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet welche zwischen amp und notiert werden

bull Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens ampnnn n=Dezimal ampxhhh h=Hexadezimal

bull Zeichenreferenzen sind nur notwendig wenn nicht UTF-8-kodierte Dateien verwendet wer-den

Zeichen Entitaumlt Referenzlt amplt amp60gt ampgt amp62 ampquot amp62rsquo ampapos amp39amp ampamp amp38

Newline amp9Σ ampx3a3

15

23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen

231 Problem

Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt

bull Wort-Zeichen [a-zA-Z0-9]

bull Einzel-Zeichen [)(rsquo$-]

bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]

ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo

Schwierigkeiten der Wortsegmentierung im engen Sinn

Schwierige Zeichen

bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim

bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr

bull Bindestriche semble-t-il rarr semble + -t-il

bull Punkte SAC

bull Masseinheiten 30 rarr 30 + 28 rarr 28 +

bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que

Teilprobleme der Tokenisierung im weiten Sinn

bull Umgang mit Markup (HTML-Tags Formatierungszeichen)

bull Erkennung der ldquonormalenrdquo Tokengrenzen

bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)

bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)

bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)

bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)

16

232 Punktdisambiguierung

Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben

Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert

Verschmelzung

bull It was due Friday by 5 pm Saturday would be too late

bull Ich kenne die USA Frankreich kenne ich nicht

WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig

Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls

bull das Token in einer Abkuumlrzungsliste steht

bull nach dem Token eines der Zeichen aus [a-z] folgt

bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht

bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt

Nach [Grefenstette und Tapanainen 1994]

LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen

Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen

Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN

1 Wie viele Zeichen umfasst TOKEN

2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale

3 Wie oft kommt TOKEN ohne Punkt vor

4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor

5 Wie oft kommt NEXTTOKEN kleingeschrieben vor

17

Satzsegmentierung mit maschinellen Lernverfahren

bull Fuumlr grosse Textmengen empfohlen

bull Nachteil Unsystematische Fehler koumlnnen auftreten

Statistisches System PUNKT ([Kiss und Strunk 2006])

bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten

bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt

iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte

233 Zeichen- und Token-Normalisierung

Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen

Normalisierung bei Suchmaschinen und anderen Anwendungen

bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich

bull 4897 4-8-97 4897 8497

bull 19000 19rsquo000 19 000 19000

bull Louisa Luise Louise Luisa

bull doesnrsquot does not

Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)

bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt

bull Hollaumlndisch chocola-tje rarr chocolaatje

Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen

18

Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung

Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens

615 5 Ruumlckbau in neue Tokens

Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus

Ruumlckgaumlngig machen von Worttrennung am Zeilenende

Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens

Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch

234 Named Entity Recognition

Named Entity Recognition

Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen

Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen

Kanonische Formen und Entity Linking

bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo

bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo

Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3

Demo Time Expression Recognition (TIMEX task)

24 MultilingualitaumltMultilinguale Dokumente und Systeme

Herausforderung Multilingualitaumlt

bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess

19

Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular

Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML

bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig

bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut

bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet

bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut

Ansatz von [Cavnar und Trenkle 1994]

20

1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten

2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)

3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil

4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm

5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand

N-Gramm-Profile und Profilabstand

Quelle [Cavnar und Trenkle 1994]

Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]

25 VertiefungZum Thema ldquoTokenisierungrdquo

bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28

bull Pflichtlektuumlre [Carstensen et al 2009 341]

bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]

Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)

bull httpwwwcluzhchclabregex

Zum Thema ldquoXMLrdquo

21

bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1

bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]

Zusammenfassung

bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen

bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen

bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen

bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung

bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar

bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen

bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden

Kontrollfragen

bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention

bull Welche Probleme stellen sich bei der Tokenisierung

bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung

bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten

bull Was versteht man unter NER

bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle

22

Kapitel 3

Linguistisches Propaumldeutikum I

Lernziele

bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen

bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg

bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch

bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte

bull Kenntnis und Anwendung linguistischer Proben

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten

bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung

31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs

Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind

Praumlzisierungsversuche des Wort-Begriffs

bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment

bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit

bull Morphologisch Grundeinheit welche flektierbar ist

bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist

bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes

23

Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach

Antworten 4 5 6 9 __

311 Token

Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9

Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText

BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann

312 Wortform

Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes

Identische Wortformen mit unterschiedlicher Bedeutung

bull Die Fliege war tot

bull Er trug eine samtene Fliege

bull Fliege nicht so schnell

313 Syntaktisches Wort

Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6

Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst

Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural

24

314 Lexem

Antwort 5 Wort als Lexem

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden

Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem

Lexikographische Notationskonventionen

Wie sehen Verb-Lemma in DeutschenLatein aus

Antwort 4 Wort als Lexemverband

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4

Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert

Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln

Stufen der Abstraktion Vom Text zum Lexemverband

bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)

bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)

bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen

bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden

bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird

25

32 Lehre von den WortartenWortarten nach [Bussmann 2002]

Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien

Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb

5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det

321 5 Hauptwortarten nach Glinz

Klassifikationskriterien

Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]

Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

26

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

322 UD

Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)

Universal Part-of-Speech Tagset (Version 1)1

12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish

ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo

Universal Part-of-Speech Tagset (Version 2) UPOS2

Version 2 hat 17 POS-Tags

+ Eigennamen (PROPN) (vorher NOUN)

+ Hilfsverben (AUX) (vorher VERB)

+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)

+ Symbole (SYM) (vorher X)

+ Interjektionen (INTJ) (vorher PRT)

= Partikel (PART) (vorher PRT)

= Interpunktion (PUNCT) (vorher )

Baumbanken sind fuumlr 51 Sprachen verfuumlgbar

27

Abbildung 32 Deutsche UD-Baumbank

UD V13 fuumlr Deutsch

NDurchsuchen

bull Suche nach Wort spaumlter

bull Nach Wort+Wortart spaumlterampADV

UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml

Mehrdeutigkeiten Unklarheiten Fehlannotationen

Linguistische Annotation und Automatisierung

Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form

Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml

28

bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)

bull Vollautomatisch Schnell billig fehlerbehaftet

bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile

Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml

N CoNLL-Format Spaltenformat fuumlr Annotationen3

bull Vertikalisierter Text

bull 1 Token pro Zeile

bull Saumltze mit Leerzeile getrennt

bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation

bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet

Bedeutung relevanter Spalten

1 Tokennummer (1-basierte Zaumlhlung) pro Satz

2 Wortform (Token)

3 Lemma

4 Grobe Wortklasse (coarse-grained part-of-speech tag)

5 Feine Wortklasse (fine-grained part-of-speech tag)

6 Morphosyntaktische Merkmale

7 Syntaktischer Kopf als Tokennummer

8 Dependenztyp

CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo

Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token

3httpuniversaldependenciesorgformathtml

29

Abbildung 33 CoNLL-U und CoNLL-X

Manuelle Annotation mit WebAnno und Exportformate

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

323 Feine Tagsets

Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis

bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags

bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert

bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch

bull Alternativen Muumlnsteraner Tagset [Steiner 2003]

Wieso ist das STTS wichtig

bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)

ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel

bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo

30

Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts

Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken

33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale

Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden

Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems

bull Konjugation von Verben

bull Deklination von Nomen Adjektiven Artikeln und Pronomen

bull Steigerung von Adjektiven (und wenigen Adverbien)

Diskussion Sind steigerbare Adverbien ein Widerspruch im System

Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet

31

Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts

Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn

331 Genus

Das Genus (UD Gender) Grammatisches Geschlecht

Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien

Tabelle 31 Uumlbersicht Genera

BemerkungDer Plural von Genus lautet Genera

Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt

Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen

Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind

Deutsch

32

Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur

AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas

332 Numerus

Der Numerus (UD Number) Grammatische Zahl

Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner

Tabelle 32 Uumlbersicht Numeri

BemerkungDer Plural von Numerus lautet Numeri

Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt

333 Kasus

Der Kasus (UD Case) FallUD-Kategorie Case

Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum

Tabelle 33 Uumlbersicht Kasus

BemerkungDer Plural von Kasus lautet Kasus

334 Modus

Der Modus (engl mode mood UD Mood) Aussageweise

Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh

Tabelle 34 Uumlbersicht Modi

In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi

33

335 Tempus

Das Tempus (UD Tense) grammatische Zeit Zeitform

Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging

Tabelle 35 Uumlbersicht Tempora

BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten

336 Person

Die Person (UD Person)

Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht

Tabelle 36 Uumlbersicht Personen

BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt

337 Grad

Der Grad (UD Degree) Steigerung Komparation

Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste

Tabelle 37 Uumlbersicht Komparation

BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt

338 Adjektiv-Flexion

Die Adjektiv-Flexion (engl adjective inflection)

BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven

Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet

34

Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse

Tabelle 38 Uumlbersicht Adjektiv-Flexion

Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern

UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt

Morphologische Englische UD-Annotation

1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _

34 Linguistische ProbenLinguistische Testverfahren

Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen

341 Ersatzprobe

Ersatzprobe

Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben

35

Beispiel 343 (Bestimmung des Kasus)

Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat

Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen

Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)

bull Das ist das Angebot das uns uumlberzeugt hat

bull Dieses ist das Angebot welches uns uumlberzeugt hat

bull Welches ist das Angebot dieses uns uumlberzeugt hat

bull Das ist dieses Angebot welches uns uumlberzeugt hat

Probleme der Interpretation

bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes

bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig

342 Einsetzprobe

Einsetzprobe

Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert

Beispiel 345 (Bestimmung der Wortart)

Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb

Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive

35 MorphologieMorphologische Ebene

Womit befasst sich die Morphologie Wortstruktur und Wortbildung

bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e

36

bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit

bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system

351 LemmatisierungMorphologieanalyse

Lemmatisierung und Morphologieanalyse

Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen

Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma

Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo

Analysen von GERTWOL5

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Probleme morphologischer Analysen Mehrdeutigkeit

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM

Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol

37

bull ldquoeinerdquo als

bull ldquoMuumlllerrdquo als Eigenname oder Substantiv

Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus

Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1

Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile

Probleme morphologischer Analyse

googelte

UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter

Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM

ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat

Lieblingsbeerelieb~lingsbeere S FEM SG NOM

Erdbeereerdbeere S FEM SG NOM

Fingerbeerenfingerbeere S FEM PL NOM

UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung

38

Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas

Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]

Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent

352 Morphologiegenerierung

Generierung von syntaktischen Wortformen

Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation

Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|

Person=2|Tense=Past|VerbForm=Fingingst

backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin

36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT

bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem

bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6

bull Die Website universaldependenciesorg hat einige Dokumentation

Zusammenfassung

bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet

bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte

bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme

bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen

6httpwwwdsuzhchstudien-cd

39

Kontrollfragen

bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo

bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2

bull Worin besteht Morphologieanalyse und -generierung

bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller

bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt

bull Was ist der Unterschied zwischen Lemma und Lexem

40

Kapitel 4

Linguistisches Propaumldeutikum II

Lernziele

bull Anwendung der klassischen syntaktischen Proben

bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf

bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte

bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen

bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug

Motivation 2 (halbwegs kompatible) Syntax-Welten

Konstituenten

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Dependenz

41

Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden

(NGoogles SyntaxNet)

41 Syntaktische ProbenKonstituentenproben

Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt

Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

411 Weglassprobe

Weglassprobe

Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten

Bestimmung eines Satzglieds

1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

FrageWarum nicht Variante 4

42

412 Verschiebeprobe

Verschiebeprobe

Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen

Bestimmung von Satzgliedern

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen bereite ich die Sitzung mit dem Chef vor

3 Ich bereite die Sitzung mit dem Chef morgen vor

Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb

Verschiebeprobe

Unzulaumlssiges Verschieben

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen ich bereite die Sitzung mit dem Chef vor

3 Die Sitzung bereite ich morgen mit dem Chef vor

413 Umformungsproben

Umformungsprobe

Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut

Funktion von Nebensaumltzen

1 Es wuumlrde mich freuen wenn du mitkaumlmest

2 Dein Mitkommen wuumlrde mich freuen

Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo

Infinitivumformung zur Subjekterkennung

1 Die Laumlrche ist ein Nadelbaum

2 ein Nadelbaum sein die Laumlrche

43

Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]

42 SatzSatz

Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist

Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten

421 Satzglieder

Moderne Satzgliedlehre

422 Koumlpfe (oder Kerne) von Konstituenten

Syntaktische Koumlpfe (engl head) Kern (engl kernel)

Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar

Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)

1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]

2 Sie rennt [mit dem Mobile hantierend] zum Kiosk

3 Es wird [viel zu oft] telefoniert

44

4 [Die Frau die zum Kiosk rannte ] war aufgeregt

5 Sie fuumlhlte sich [wie in einem schlechten Film]

6 Aber sie war auch [in einem ziemlich schlechten Film]

43 Syntaxanalyse

431 Konstituenz

Konstituenten und Konstituenz

Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist

Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten

Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten

Konstituenten in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

unmittelbare Dominanz

Konstituente auf Wortebene

Syntaktische Konstituente

Praumlzedenz auf Wortebene

Praumlzedenz zwischen Tochterkonstituenten

Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung

Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente

Konstituententypen

Typen von Konstituenten in TIGERNEGRA

1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen

45

2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern

3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern

4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern

5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern

6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern

7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo

Annotation von Relativsaumltzen

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen

Komplexe Konstituenz in der Penn-Treebank

Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white

Syntaxbaum aus der Vogelperspektive

In

IN

other

JJ

words

NNS

like

IN

automation

NN

machines

NNS

designed

VBN

-NONE-

to

TO

work

VB

in

IN

tandem

NN

they

PRP

shared

VBD

the

DT

same

JJ

programming

NN

a

DT

mutual

JJ

understanding

NN

not

RB

only

RB

of

IN

English

NNP

words

NNS

but

CC

of

IN

the

DT

four

CD

stresses

NNS

pitches

NNS

and

CC

junctures

NNS

that

WP

T

-NONE-

can

MD

change

VB

their

PRP$

meaning

NN

from

IN

black

NN

to

TO

white

NN

NP

PP

NP NP NP

PP

VP

VP

SBJ

S

VP

NP

PP

NP NP NP CONJP NP

PP

NP WHNP NP NP NP

PP

NP

PP

PP

VP

VP

SBJ

S

SBAR

NP

PP

PP

NP

NP

VP

SBJ

S

T

46

Quelle TIGERSearch-Demo-Korpora

Maximale Verschachtelungstiefe

432 Dependenz bzw syntaktische Funktion

Dependenz und syntaktische Funktion

Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten

Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen

HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt

Syntaktische Funktionen in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Syntaktische Funktion

Konstituenten

Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung

Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente

Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken

Einige Satzglieder mit TIGER-Funktion

bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein

47

Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)

bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)

bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)

bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)

bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator

bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb

Baumbankkonversion Von Konstituenz zu Dependenz

Automatische Konversion (NTIGER2Dep)

Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)

433 UD-DE-Modell

Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen

48

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

Generelle Philosophie des Universal-Dependency-Modells

bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig

bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV

bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum

bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden

bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der

bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)

bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens

Inhaltswoumlrter VERB und NOUN

Hinweisebull Spitze des Pfeils Abhaumlngiges Element

bull Startknoten des Pfeils Kopf

bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen

bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird

Das UD-Innenleben von Nominalphrasen

Hinweisebull Was ist der NP-Kopf

bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll

49

Komplexe Verb- und Adjektivphrasen

Hinweise

bull Hilfs- und Modalverben haumlngen vom Vollverb ab

bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich

Kopulakonstruktion und Gleichsetzungsnominativ

Fragen

bull Wovon haumlngt das Subjekt ab

bull NSuche nach ist im Suchwerkzeug

bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft

Interpunktion

Hinweise

bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt

50

Verschachtelte Saumltze

Hinweise

bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab

bull Wann aclrelcl und wann advcl

Koordination

Koordination Koumlpfe und Abhaumlngigkeitsrichtung

Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht

Koordination von Konstituenten aus NEGRA-Korpus

bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]

bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]

bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]

2 Fragen mit mehreren moumlglichen Antworten

bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt

bull In welche Richtung werden koordinierte Elemente verknuumlpft

Koordination in der NUD

Frage

bull Welche Antworten gibt die UD

51

Manuelle Syntax-Annotation mit WebAnno

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)

bull Click-und-Drag-Interface mit der Maus

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml

Aufgabe Annotation von Relativsatz

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Wie sieht eine UD-Annotation von diesem Satz aus

434 Suche

NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken

Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-

Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens

2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)

KOPF gt NICHTKOPF

NICHTKOPF lt KOPF

Analog zur Pfeilrichtung in der BRAT-Visualisierung

52

Grundlegende syntaktische Suchrezepte

bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging

bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging

bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde

bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld

bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor

bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _

bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist

44 AmbiguitaumltZusammenfassung

bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen

bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden

bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab

bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])

45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]

bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre

bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren

bull Quiz Die Form der Satzglieder

bull Quiz Satzglieder und Proben

bull Linguistik-CD

53

Kapitel 5

Endliche Automaten

Lernziele

bull Einstieg in die Formalisierung von Sprache

bull Was sind Zeichenketten formalmathematisch

bull Was ist eine formale Sprache

bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation

bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten

bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie

bull Wann ist ein endlicher Automat deterministisch und wann nicht

bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten

54

51 Formale Sprachen

511 Mengen

A Quick Review of Set Theory

A set is a collection of objects

A B

D E

We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E

There is no significant order in a set so A D B E is the same set as E A D B etc

Quelle B04

Cardinality of Sets

 The Empty Set

 A Finite Set

 An Infinite Set eg The Set of all Positive Integers

Norway Denmark Sweden

Quelle B04

512 Zeichen

Das Alphabet (Sigma) Menge von Zeichen

55

Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert

Zeichen des EnglischenΣEnglisch = a b c x y z

Zeichen der binaumlren ZahlenΣbin = 0 1

Zeichenketten (strings)

Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ

Zeichenketten uumlber englischen Symbolen ΣEnglisch

a we muntjac talk walk krwrk

Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0

Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast

bin = ε 0 1 00 01 10 11 001

513 Sprachen

Formal Languages

Very Important Concept in Formal Language Theory

A Language is just a Set of Words

bull  We use the terms ldquowordrdquo and ldquostringrdquo interchangeably

bull  A Language can be empty have finite cardinality or be infinite in size

bull  You can union intersect and subtract languages just like any other sets

56

Quelle B04

Union of Languages (Sets)

dog cat rat elephant mouse

Language 1 Language 2

dog cat rat

elephant mouse

Union of Language 1 and Language 2 Quelle B04

Formale Sprachen als Teilmenge von Sigma Stern

L sube Σlowast

Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast

Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes

Englische Woumlrterwalk talk work sube a b zlowast

Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt

Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit

Formales Modell Wirklichkeit

Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme

57

Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der

Wirklichkeit zu repraumlsentieren

Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working

worked works talk

talking talked talks

walk walking

walked walks

The concatenation of

the Suffix language

after the Root

language

0 or denotes the empty string

Abbildung 51 Sprache mit 3 WoumlrternZeichenketten

Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk

Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage

Beispiel fuumlr Deterministischen Endlichen Automaten

talk isin work talk walk

bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile

52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)

Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand

58

Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert

Nicht-Deterministische Endliche Automaten (NEA)

Abbildung 52 Deterministischer EA

Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg

Nicht-Determinismus IIEs gibt mindestens eine ε-Kante

Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln

Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus

1 einer endlichen Menge Zustaumlnde Φ

2 einem endlichen Eingabealphabet Σ

3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ

59

4 einem Startzustand S isin Φ

5 einer Menge von Endzustaumlnden F sube Φ

Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)

δ Φtimes (Σ cup ε)rarr weierp(Φ)

521 Konkatenation

Konkatenation von Zeichenketten und Sprachen

Konkatenation von Zeichenkettenu bull v = uv

lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo

Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V

lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo

Concatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working worked works talk talking talked talks walk walking walked walks

The concatenation of the Suffix language after the Root language

0 or ε denotes the empty string

60

Quelle B04

Concatenation of Languages II

work talk walk

Root Language

0 ing ed s

Suffix Language

rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks

The concatenation of the Prefix language Root language and the Suffix language

Prefix Language

re out 0

outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks

work working worked works talk talking talked talks walk walking walked walks

Quelle B04

Languages and Networks

w a l k

o r

t

NetworkLanguage 2 NetworkLanguage 3

s

o r The concatenation of Networks 1 2 and 3 in that order

w a l k t

a

a s

ed

i n g

0

s

ed

i n

0s

g o

r

NetworkLanguage 1

s

u t

e

0

o

r s

t

e

0 u

Quelle B04

522 Regulaumlre Ausdruumlcke

Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)

Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann

61

bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo

bull Die Mengen a1a2an sind regulaumlr RA a oder b

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)

bull Ist L regulaumlr dann auch LlowastRA (A)

Wie kann man Optionalitaumlt ausdruumlcken

Graphischer Algorithmus Konversion von RA zu NEA

JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten

Algorithmus

1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde

2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten

3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander

4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen

Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten

Epsilon

Symbol a

Konkatenation (ab)

Alternative (a|b)

62

encodes

a

LANGUAGE RELATION

compiles intoa

REGULAR EXPRESSIONa

FINITE-STATE NETWORKde

notes

Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])

Wiederholung (a)

Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert

63

53 Transduktoren

Linguistic Transducer Machines

mesas

Generator

ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas

m e s a +Noun +Fem +Pl

m e s a 0 0 s

mesa+Noun+Fem+Pl

Analyzer

ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas

Quelle B04

Gute Eigenschaften von endlichen Automaten und Transduktoren

bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen

bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde

bull Beispiel NRumantsch Grischun

bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren

Zusammenfassung

bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben

bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen

bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den

bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt

bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden

64

Vertiefung

bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)

bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo

bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo

bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial

65

Kapitel 6

Flache Satzverarbeitung

Lernziele

bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets

bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung

bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen

bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells

bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger

bull Kenntnis uumlber partielle syntaktische Analyse

bull Kenntnis uumlber flache und verschachtelte Chunks

Welches mehrdeutige Wort hat dieses Profil

UPOS-Tag Vorkommen1

1021ADP 848ADV 61

PROPN 14ADJ 1

61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT

N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token

66

Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)

bull eineDET Kuh Lemma ldquoeinrdquo

bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)

bull lead Verb lid (fuumlhren) Nomen led (Blei)

bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe

Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren

Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to

be present tense 3rd person singular

Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch

Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist

Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]

bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)

bull Effizient Der Tagger arbeitet schnell

bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)

bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den

bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden

Was fehlt

67

611 Probleme des Taggings

Wortformen mit mehreren moumlglichen Tags

MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token

Tag-Ambiguitaumlt im Englischen

Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]

Haumlufigkeiten im Brown-Korpus

bill NN 2351

promised VBD 34~~VBN 10~~JJ 2

back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2

Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token

die~~ART 2351~~PRELS 448~~PDS 4

Mehrheit~~NN 40

bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1

Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0

Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen

bull Unterscheidung zwischen offenen und geschlossenen Wortarten

bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)

68

Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]

Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)

bull 98 aller Woumlrter mit Endung -able sind Adjektive

bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname

Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe

oo

n

e

g

n

d

senuel

l

cv

y ta

o

mtsiii

o

i

ies (NNS09 VBZ01)ons (NNS095 VBZ005)

ed (VBN04 JJ03 VBD03)

le (NN025 JJ045 NP02 VB01)

ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)

ty (NN045 JJ035 NP02)

son (NP08 NN01 JJ01)

man (NP08 NN02)ton (NP09 NN005 JJ005)

ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)

ous (JJ096 NN004)

old (JJ098 NN002)

Quelle [Schmid 1995]

Wortformen mit mehreren moumlglichen Tags Kontext

69

Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6

Vorkommen von ldquobackrdquo im Brown-Korpus

ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung

Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen

Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet

bull die moumlglichen Tags von wn aus Tagger-Lexikon

bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens

Context

3

3

Kontextmodell des Trigrammtaggers TnT [Brants 2000]

612 Fallstudie TnT-Tagger

Supervisiertes Maschinelles Lernen

70

Quelle [Raschka 2015 11]

ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt

Fallstudie TnT-Tagger trainieren und evaluieren

Testkorpustestttstesttxt

Trainingskorpustrainingtts

Getaggtes Korpus

Aufteilen des Korpus

Taggingtnt

Trainingtnt-para

Parameter-Dateien

traininglextraining123

Evaluations-korpus

evaltts

Evaluationtnt-diff

Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger

Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]

1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)

$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts

2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden

$ head --lines 278081 ud-de-v13tts gt trainingtts

3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden

$ tail --lines 30900 ud-de-v13tts gt testtts

71

4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus

$ tnt-para trainingtts

5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut

$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts

6 Man erstelle das Evaluationskorpus

$ cut -f 1 testtts gt evaltxt

7 Man tagge das Evaluationskorpus mit dem Trainingsmodell

$ tnt training evaltxt gt evaltts

8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus

$ tnt-diff testtts evaltts

62 EvaluationEvaluation

Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode

Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt

Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird

Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind

Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden

Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)

Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat

72

Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein

621 Zweck

Zweck von Evaluationen

SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert

SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist

622 Accuracy

POS-Tagger-Evaluation Genauigkeit

Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens

accuracy = N minus EN

Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit

Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus

Tagt Freqt Tagf Freqf Ant Erel Eabs

NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010

Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]

Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler

73

5-fache Kreuzvalidierung visuell

Figure 8-2 K-fold cross-validation

Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point

You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order

gtgtgt import randomgtgtgt randomshuffle(f)

If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold

gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k

Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on

Problems That Can Affect Evaluation | 179

Quelle [Pustejovsky und Stubbs 2013 179]

Genauigkeit unter 10-facher Kreuzvalidierung

Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))

accuracy =sumi=10

i=1 accuracyi

10

Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen

623 Lernkurven

624 Recall

Recall (Ausbeute Abdeckung Vollstaumlndigkeit)

Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems

R = At

Nt

Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600

800 = 75

74

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp())+-01$+-0-2)00-))304

56)77

8010

904010

6+789lt

6-=7gt8lt

6+7gtlt

6-=7gt8lt

6+7lt

6-=79lt

2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J

-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J

)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)

Qampamp)(ampI0(EI(K3amp)-++5

8

9

gt

R9 9 S gt9 8 RR gtS

$-++5NF=J

TM5ltU+B+ampE+

TM5T00I-0L

SSR

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

6)6lt$$)amp$+)=$gt=((+

Q-M-44amp-0C

5-66ampK1F3()ampKVWWJ

6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(

Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp

)-)amp3)T)C

$5-66ampK1F(0amp+KampKVWWJ

6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+

U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+

TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+

+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt

QZ]T F6-+JgtRlt gt8lt [RSlt

Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants

625 Precision

Precision (Genauigkeit Praumlzision)

Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems

P = At

A

Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600

1000 = 60

626 F-Measure

F-Measure (F-Mass)

Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems

F = 2times P timesRP +R

75

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp()

67-18-)amp+8(+5)9amp0amp4amp-

6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F

2++$G-+AH-11))Iamp8+-1

J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+

$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5

amp+)-5)amp-0)ampA+

$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()

$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5

+amp(-012344)425amp123)3627892(+lt

=+$$

gt)(5)

))(5)

D+QRSTU

D-EQVWTRU

D+QVXTRU

D-EQVRTRU

D+QWTYU

D-EQSVTMU

6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F

-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F

M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)

ampamp)(amp80(98(B3amp)-++5T

Y X M YM XM MM YMM YMXM

WM

RM

SM

VM

MM

$-++5OCEMMMF

gt75TU[+A+amp9+

gt75Tgt008-0N

PWTP PTP WTM MTR YTM ST PT TVXMTS

C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants

Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075

06+075 = 666

63 Chunk ParsingPartielle syntaktische Analyse

Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt

Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN

bull NC Ein NC (Nominalchunk) besteht

bull -gt besteht aus

bull ART aus einem Wort der Wortart ART (Artikel)

bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)

76

Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

631 Abneys Chunk-Definition

Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]

Motivationen

bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung

bull Effizienz Teilstrukturen lassen sich effizienter berechnen

bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse

bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden

632 IOB-Chunk

Flache Chunks im IOB-Format

Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist

bull B-K Anfang einer Chunk-Konstituente K

bull I-K Fortsetzung der Chunk-Konstituente K

77

bull 0 Nicht zugeordnet (wird auch chink genannt)

We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP

633 Verschachtelte Chunks

Verschachtelte Chunks

Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich

Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)

[PX [APPR fuumlr][NX [ARTIND eine]

[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]

Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC

64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo

bull Pflichtlektuumlre [Carstensen et al 2009 342-3]

bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking

bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative

bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4

78

ZusammenfassungZusammenfassung

bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung

bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets

bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input

Kontrollfragen

bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen

bull Was unterscheidet Recall und Precision von Accuracy

bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging

bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte

bull Was ist der Vorteil der IOB-Notation fuumlr Chunks

65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele

bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative

bull Kenntnis uumlber Fehlertypen und ihre Gefahr

bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung

651 TrueFalse PositivesNegatives

Evaluation von binaumlren Klassifikatoren

TruthPositive Negative

Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)

Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit

Legende zur Tabelle 63

True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

79

FP Fehlertyp I Test ist positiv wo er nicht sollte

FN Fehlertyp II Test ist negativ wo er nicht sollte

652 Fehlerparadoxe

Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet

Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter

Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet

Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter

653 Unterschiede von Evaluationsmassen

Dualitaumlt von Precision und Recall

TruthPos Neg

Test Pos TP FPNeg FN TN

R = TP

TP + FN

Tabelle 64 Recall

Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision

F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig

80

TruthPos Neg

Test Pos TP FPNeg FN TN

P = TP

TP + FP

Tabelle 65 Precision

TruthPos Neg

Test Pos TP FPNeg FN TN

F = 2times TP2times TP + FP + FN

Tabelle 66 F1-Measure

TruthPos Neg

Test Pos TP FPNeg FN TN

Accuracy = TP + TN

TP + TN + FP + FN

Tabelle 67 Accuracy

654 Mitteln von Recall und Precision

F-Measure Harmonisches vs arithmetisches Mittel

655 Vertiefung

bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]

81

Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]

82

Abbildung 68 M = P +R2 Arithmetisches Mittel

83

Literaturverzeichnis

[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235

[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications

[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University

[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231

[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl

[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen

[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf

[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt

[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf

[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl

[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov

[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl

84

[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf

[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf

[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830

[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485

[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM

[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011

[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl

[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York

[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096

[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA

[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning

[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf

[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin

[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml

85

[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098

[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps

[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd

[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf

[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf

[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf

[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean

[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574

86

Index

10-fache Kreuzvalidierung 74

Adjektiv-Flexion 34Alphabet 56

Eingabealphabet 59

DEA 59Dependenz 47

Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72

F-Measure 75

Genus 32Grad 34

IOB-Chunks 77

Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44

Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25

Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39

Named Entity Regonition 19NER 19

Numerus 33 34

partielle syntaktische 76Person 34Precision 75Probe linguistisch 35

Qualitaumlt einer Evaluation 72

Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72

Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47

Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24

Umformungsprobe 43

Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43

Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24

XML-Standard 14

Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59

87

  • Organisatorisches
    • Organisatorisches
      • Leistungsnachweis
      • Lernen und Lehren
        • Kontrollfragen
          • Tokenisierung
            • Tokenisierer
              • Grundproblem
              • Kodierung
              • Programme
                • XML
                • Tokenisierung
                  • Problem
                  • Punktdisambiguierung
                  • Normalisierung
                  • NER
                    • Multilingualitaumlt
                    • Vertiefung
                      • Linguistisches Propaumldeutikum I
                        • Wort
                          • Token
                          • Wortform
                          • synt Wort
                          • Lexem
                            • Wortarten
                              • 5 Hauptwortarten
                              • UD
                              • STTSPTTS
                                • Merkmale
                                  • Genus
                                  • Zahl
                                  • Kasus
                                  • Modus
                                  • Zeit
                                  • Person
                                  • Grad
                                  • Flexion
                                    • Proben
                                      • Ersetzen
                                      • Einsetzen
                                        • Morphologie
                                          • LemmatisierungMorphologieanalyse
                                          • Morphologiegenerierung
                                            • Vertiefung
                                              • Linguistisches Propaumldeutikum II
                                                • Proben
                                                  • Weglassen
                                                  • Verschieben
                                                  • Umformen
                                                    • Satz
                                                      • Satzglieder
                                                      • Koumlpfe
                                                        • Syntaxanalyse
                                                          • Konstituenz
                                                          • Dependenz
                                                          • UD-DE
                                                          • Suche
                                                            • Ambiguitaumlt
                                                            • Vertiefung
                                                              • Endliche Automaten
                                                                • Formale Sprachen
                                                                  • Mengen
                                                                  • Zeichen
                                                                  • Sprachen
                                                                    • EA und regulaumlre Sprachen
                                                                      • Konkatenation
                                                                      • Regulaumlre Ausdruumlcke
                                                                        • Transduktoren
                                                                          • Flache Satzverarbeitung
                                                                            • Tagging
                                                                              • Probleme
                                                                              • Fallstudie TnT-Tagger
                                                                                • Evaluation
                                                                                  • Zweck
                                                                                  • Accuracy
                                                                                  • Lernkurven
                                                                                  • Recall
                                                                                  • Precision
                                                                                  • F-Measure
                                                                                    • Chunking
                                                                                      • Abney
                                                                                      • IOB-Chunk
                                                                                      • Verschachtelte Chunks
                                                                                        • Vertiefung
                                                                                        • Exkurs Evaluation binaumlrer Klassifikatoren
                                                                                          • TPFPFNTN
                                                                                          • Fehlerparadoxe
                                                                                          • Unterschiede
                                                                                          • Mittelwerte
                                                                                          • Vertiefung
Page 17: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff

23 Tokenisierung Segmentieren von Woumlrtern und Saumltzen

231 Problem

Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen undoder Interpunktionbegrenzt

bull Wort-Zeichen [a-zA-Z0-9]

bull Einzel-Zeichen [)(rsquo$-]

bull Leerraum-Zeichen (white space) [s] entspricht [ tnrv]

ProblemTokens koumlnnen sowohl Einzel- wie Leerraum-Zeichen enthaltenldquoJooprdquo ldquouswrdquo ldquo1 000 000rdquo ldquolaquoIch bin Boratraquo-Kitrdquo

Schwierigkeiten der Wortsegmentierung im engen Sinn

Schwierige Zeichen

bull Anfuumlhrungszeichen laquoNaturfreunderaquo-Bergheim

bull Apostrophe gehtrsquos rarr geht + rsquos lrsquoeau rarr lrsquo + eau aujourdrsquohui donrsquot rarr

bull Bindestriche semble-t-il rarr semble + -t-il

bull Punkte SAC

bull Masseinheiten 30 rarr 30 + 28 rarr 28 +

bull Leerraumzeichen Mehrtokenwoumlrter wie New York oder parce que

Teilprobleme der Tokenisierung im weiten Sinn

bull Umgang mit Markup (HTML-Tags Formatierungszeichen)

bull Erkennung der ldquonormalenrdquo Tokengrenzen

bull Erkennung von ldquokomplexen Tokensrdquo dh Tokens welche Einzel- oder Grenzzeichen bein-halten (aujourdrsquohui) oder aufgetrennt werden sollen (semble-t-il)

bull Erkennung von Interpunktion (Disambiguierung von Punkten Erkennung von Satzenden)

bull Normalisierung von Zeichen und Token (zB Silbentrennung aufheben)

bull Named Entity Recognition (zB Erkennung von Namen und Zeitangaben)

16

232 Punktdisambiguierung

Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14 Satz ein Punkt der nicht satzfinal ist Werjeden Punkt als Satzende interpretiert liegt in 8-45 der Faumllle daneben

Verschaumlrfend Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repraumlsentiert

Verschmelzung

bull It was due Friday by 5 pm Saturday would be too late

bull Ich kenne die USA Frankreich kenne ich nicht

WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig

Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text das auf einen Punkt endetDer Punkt ist ein Abkuumlrzungspunkt falls

bull das Token in einer Abkuumlrzungsliste steht

bull nach dem Token eines der Zeichen aus [a-z] folgt

bull das Token kleingeschrieben ist aber der Teil ohne den Punkt nicht in einem Lexikon steht

bull das Token grossgeschrieben ist eher haumlufig vorkommt und im Text nicht ohne den Punktvorkommt

Nach [Grefenstette und Tapanainen 1994]

LeistungsfaumlhigkeitMit einer guten Abkuumlrzungsliste erzielt man 99 korrekte Entscheidungen

Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Haumlufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen um eine Entscheidung zu treffen

Interessante Merkmale fuumlr statistische AnsaumltzeTOKEN NEXTTOKEN

1 Wie viele Zeichen umfasst TOKEN

2 Besteht TOKEN nur aus Ziffern Enthaumllt es keine Vokale

3 Wie oft kommt TOKEN ohne Punkt vor

4 Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor

5 Wie oft kommt NEXTTOKEN kleingeschrieben vor

17

Satzsegmentierung mit maschinellen Lernverfahren

bull Fuumlr grosse Textmengen empfohlen

bull Nachteil Unsystematische Fehler koumlnnen auftreten

Statistisches System PUNKT ([Kiss und Strunk 2006])

bull benoumltigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkuumlr-zungslisten

bull klassifiziert fuumlr Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 993 der Satz-punkte und 975 der Abkuumlrzungspunkte korrekt

iSentenizer ([Wong et al 2014])Ebenfalls multilingual wie PUNKT Lernt von perfekt segmentierten Trainingsdaten Bestehen-de Modelle sind anpassbar auf neue Texte

233 Zeichen- und Token-Normalisierung

Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen

Normalisierung bei Suchmaschinen und anderen Anwendungen

bull Zuumlrich Zuerich Zurich ZURICH ZUERICH ZUumlRICH zurich zuumlrich Zuuml-rich

bull 4897 4-8-97 4897 8497

bull 19000 19rsquo000 19 000 19000

bull Louisa Luise Louise Luisa

bull doesnrsquot does not

Ruumlckgaumlngig machen von Worttrennung am ZeilenendeBeispiel 231 (Graphematische Modifikationen bei Worttrennung)

bull Deutsch alte Rechtschreibung Zuk-ker rarr Zucker Schiff-fahrt rarr Schiffahrt

bull Hollaumlndisch chocola-tje rarr chocolaatje

Definition 232 Der Ruumlckbau von Silbentrennung (engl dehyphenation) in Texten In eini-gen Schriftsystemen gibt bzw gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen

18

Zeilen in Typ101rsquo860 100 Zeilen total12rsquo473 12 mit Silbentrennung

Ruumlckbau in Typ11rsquo858 95 Ruumlckbau in existierende Tokens

615 5 Ruumlckbau in neue Tokens

Tabelle 21 Uumlbersicht Ruumlckbau von Silbentrennung im Brown-Korpus

Ruumlckgaumlngig machen von Worttrennung am Zeilenende

Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio Woumlrter) wurde automatisch umgebrochen danach Trennstriche entferntVergleich mit den manuell kontrollierten originalen Tokens

Beispiele ldquorookie-of-theyearrdquo ldquosciencefictionrdquo ldquoroleexperimentationrdquoIst im Deutschen Ruumlckgaumlngigmachung von Silbengtrennung ebenfalls so problematisch

234 Named Entity Recognition

Named Entity Recognition

Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen Organisationen geographischen Groumlssen Aber auch Mass- Waumlhrungs- und Zeitangabenoder weitere textsortenspezifische interessierende Groumlssen

Einheitliche (kanonische) Repraumlsentation (auch als Linked Data)Fuumlr die Zwecke der Informationsextraktion ist es oft sinnvoll identifizierte interessierende Groumls-sen in ein einheitliches und eindeutiges Format zu bringen

Kanonische Formen und Entity Linking

bull XXXX-XX-XXT1320 ldquo1320hrdquo ldquo120 pmrdquo ldquoZwanzig nach Einsrdquo

bull httpsviaforgviaf130168302 ldquoUSArdquoldquoUnited States of Americardquo ldquoUS of Americardquo

Demo Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3

Demo Time Expression Recognition (TIMEX task)

24 MultilingualitaumltMultilinguale Dokumente und Systeme

Herausforderung Multilingualitaumlt

bull Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3httpnlpstanfordedu8080sutimeprocess

19

Abbildung 23 Demo von Standford Temporal Tagger Eingabeformular

Abbildung 24 Demo von Standford Temporal Tagger Resultatsdarstellung in XML

bull Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkuumlrzungslexika) Re-geln oder gelernte Modelle notwendig

bull Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament auf dem alle Textanalyse aufbaut

bull Traditionelles linguistisches Wissen ist fuumlr Sprachidentifikation nicht geeignet

bull Einfache Verfahren welche auf Haumlufigkeiten von Buchstabenkombinationen aufbauenfunktionieren gut

Ansatz von [Cavnar und Trenkle 1994]

20

1 Sammle haumlufigste Zeichenkombinationen (2-5 Zeichen dh N-Gramme) der verschiedenenSprachen uumlber Trainingsdaten

2 Berechne fuumlr jede Sprache die Reihenfolge der haumlufigsten Kombinationen (N-Gramm-Profil)

3 Berechne fuumlr ein unbekanntes Dokument D sein N-Gramm-Profil

4 Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm

5 Waumlhle fuumlr D die Sprache mit dem kleinsten Profilabstand

N-Gramm-Profile und Profilabstand

Quelle [Cavnar und Trenkle 1994]

Abbildung 25 N-Gramm-Profile nach [Cavnar und Trenkle 1994]

25 VertiefungZum Thema ldquoTokenisierungrdquo

bull Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition httpstubeswitchchvideos6ce37e28

bull Pflichtlektuumlre [Carstensen et al 2009 341]

bull Guter Uumlbersichtsartikel fuumlr Interessierte [Palmer 2000]

Zum Thema ldquoRegulaumlre Ausdruumlckerdquo (fuumlr Nicht-PCL-1-Teilnehmende empfohlen)

bull httpwwwcluzhchclabregex

Zum Thema ldquoXMLrdquo

21

bull Pflichtvideo aus unserem DH-MOOC Strukturierte und nachhaltige Repraumlsentation vonKorpusdaten XML-Standards zur Textrepraumlsentation httpstubeswitchchvideos60fc01f1

bull Freiwillig Kapitel 252 Texttechnologische Grundlagen in [Carstensen et al 2009]

Zusammenfassung

bull Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zuloumlsen

bull Sie laumlsst sich fuumlr Texte mit normierter Orthographie im Allgemeinen sehr gut loumlsen mitbestehenden oder selbst erstellten Programmen

bull Aber es gibt immer Restfehler welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen

bull Regelbasierte oder statistische Loumlsungen erreichen bis 99 Genauigkeit bei der Satzseg-mentierung

bull Abkuumlrzungslexika welche auf die Textsorte zugeschnitten sind stellen ein wertvolles Hilfs-mittel dar

bull Statistische Ansaumltze koumlnnen bei genuumlgend grossen Korpora ohne Abkuumlrzungslisten ver-gleichbare Leistung erbringen

bull Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden

Kontrollfragen

bull Was ist ein Bit ein Byte und eine Zeichenkodierungskonvention

bull Welche Probleme stellen sich bei der Tokenisierung

bull Schildern Sie zwei unterschiedliche Ansaumltze zur Punktdisambiguierung

bull Was sind die wesentlichen Eigenschaften von XML-Dokumenten

bull Was versteht man unter NER

bull Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle

22

Kapitel 3

Linguistisches Propaumldeutikum I

Lernziele

bull Unterscheidung zwischen Wort Token Wortform syntaktisches Wort Lexem LemmaLexemverband kennen

bull Kenntnis der Wortartenlehre fuumlr Deutsch und der ldquouniversalenrdquo Wortartenklassen vonUniversalDependenciesorg

bull Kenntnis der morphologischen Kategorien fuumlr Deutsch und Englisch

bull Kenntnis und Anwendung des UD-Tagsets fuumlr Deutsch mit Hilfe der Referenzkarte

bull Kenntnis und Anwendung linguistischer Proben

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von Morphologie und Wortarten

bull Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung Ana-lyse und Generierung

31 WoumlrterPraumlzisierungsversuche des Wort-Begriffs

Definition 311 (nach [Bussmann 2002]) Wort Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff fuumlr sprachliche Grundeinheiten dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind

Praumlzisierungsversuche des Wort-Begriffs

bull Phonetisch-phonologisch kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment

bull Orthographisch-graphemisch durch Leerstellen im Schriftbild isolierte Einheit

bull Morphologisch Grundeinheit welche flektierbar ist

bull Lexikalisch-semantisch kleinster Bedeutungstraumlger welcher im Lexikon kodifiziert ist

bull Syntaktisch kleinste verschieb- und ersetzbare Einheit des Satzes

23

Gaumlngige Auffassungen des Worts Wort [Linke et al 2001]Wie viele verschiedene Woumlrter hat dieser SatzWenn hinter Fliegen Fliegen fliegen fliegen Fliegen Fliegen nach

Antworten 4 5 6 9 __

311 Token

Antwort 9 Wort als Vorkommen einer WortformWieviele verschiedene Woumlrter hat dieser SatzWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen6 Fliegen7 Fliegen8 nach9

Definition 312 (Token) Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText

BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet Die Antwortlautet dann

312 Wortform

Antwort 5 Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 313 (Wortform) EineWortform ist eine rein graphematische Einheit eines Textes

Identische Wortformen mit unterschiedlicher Bedeutung

bull Die Fliege war tot

bull Er trug eine samtene Fliege

bull Fliege nicht so schnell

313 Syntaktisches Wort

Antwort 6 Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5 fliegen5 Fliegen4 Fliegen3 nach6

Definition 314 (Syntaktisches Wort) Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen MerkmalenRein orthographische Varianten einer Wortform werden fuumlr ein syntaktisches Wort normaler-weise zusammengefasst

Wortform vs syntaktisches WortDie Wortform ldquoFliegenrdquo kann mindestens 4 syntaktische Woumlrter repraumlsentieren ldquoFliegerdquo inNominativ Akkusativ Dativ oder Genitiv Plural

24

314 Lexem

Antwort 5 Wort als Lexem

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4 fliegen4 Fliegen3 Fliegen3 nach5

Definition 315 (Lexem im engen Sinn) Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Woumlrtern welche sich nur in bestimmten morphosyntaktischen Merkmalen (KasusNumerus Tempus usw) unterscheiden

Definition 316 (Nennform Zitierform Grundform Lemma) Ein Lemma ist eine lexikogra-phische Standard-Notation fuumlr ein Lexem

Lexikographische Notationskonventionen

Wie sehen Verb-Lemma in DeutschenLatein aus

Antwort 4 Wort als Lexemverband

Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3 fliegen3 Fliegen3 Fliegen3 nach4

Definition 317 (Lexemverband auch Lexem im weiten Sinn) Ein Lexemverband ist eineMenge von Lexemen deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert

Beispiel 318 (Derivationen von ldquofliegenrdquo in Canoo)Lexemverbaumlnde umfassen typischerweise Lexeme mit unterschiedlichen Wortarten Die Wort-bildungsinformation in httpwwwcanoonet illustriert dies schoumln

Stufen der Abstraktion Vom Text zum Lexemverband

bull Jedes Token ist eine Zeichenfolge welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence)

bull Jede Wortform ist eine Menge von Tokens welche aus der identischen Zeichenfolge beste-hen (sog Type)

bull Jedes syntaktisches Wort ist eine Menge von Tokens welche identische morphosyntaktischeund semantische Eigenschaften aufweisen

bull Jedes Lexem ist eine Menge syntaktischer Woumlrter welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden

bull Jeder Lexemverband ist eine Menge der Lexeme fuumlr die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird

25

32 Lehre von den WortartenWortarten nach [Bussmann 2002]

Definition 321 (Redeteile engl parts of speech (PoS)) Wortarten sind das Ergebnis derKlassifizierung der Woumlrter einer Sprache nach morphologischen syntaktischen undoder se-mantischen Kriterien

Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca 100 vor Chr) wirkte stark bis ins 19 Jahr-hundert Fuumlr Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemaumlssAdelung (1781) vermittelt Substantiv Verb Adjektiv Artikel Konjunktion Interjektion Nu-merale Pronomen Praumlposition Adverb

5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch welche explizite (operationalisierbare) und durchgaumlngige Klassifikationskriterien anwen-det

321 5 Hauptwortarten nach Glinz

Klassifikationskriterien

Abbildung 31 Die 5 Hauptwortarten nach Glinz [Stocker et al 2004]

Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

26

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

322 UD

Uumlbersicht zu Annotationsebenen in der NUDDie Kuumlrzel fuumlr die Wortarten nennt man ldquoTagsrdquo (Etikett) (POS Tags = Part-of-Speech Tags)

Universal Part-of-Speech Tagset (Version 1)1

12 grundlegende Wortarten fuumlr viele Sprachen [Petrov et al 2012]Fuumlr Baumbanken in 22 Sprachen angewendet Arabic Basque Bulgarian Catalan ChineseCzech Danish Dutch English French German Greek Hungarian Italian Japanese KoreanPortuguese Russian Slovene Spanish Swedish Turkish

ldquoOur universal POS tagset unifies this previous work and extends it to 22 lan-guages defining the following twelve POS tags NOUN (nouns) VERB (verbs)ADJ (adjectives) ADV (adverbs) PRON (pronouns) DET (determiners and artic-les) ADP (prepositions and postpositions) NUM (numerals) CONJ (conjunctions)PRT (particles) lsquorsquo (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words)rdquo

Universal Part-of-Speech Tagset (Version 2) UPOS2

Version 2 hat 17 POS-Tags

+ Eigennamen (PROPN) (vorher NOUN)

+ Hilfsverben (AUX) (vorher VERB)

+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)

+ Symbole (SYM) (vorher X)

+ Interjektionen (INTJ) (vorher PRT)

= Partikel (PART) (vorher PRT)

= Interpunktion (PUNCT) (vorher )

Baumbanken sind fuumlr 51 Sprachen verfuumlgbar

27

Abbildung 32 Deutsche UD-Baumbank

UD V13 fuumlr Deutsch

NDurchsuchen

bull Suche nach Wort spaumlter

bull Nach Wort+Wortart spaumlterampADV

UD V13 fuumlr Deutsch Schwierigkeiten der AnnotationhttpuniversaldependenciesorgdeposADJhtml

Mehrdeutigkeiten Unklarheiten Fehlannotationen

Linguistische Annotation und Automatisierung

Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten morphologischen Merkmalen Grundfor-men syntaktischen Beziehungen etc in digitaler Form

Moumlglichkeiten der Annotationserstellung1httpsgithubcomslavpetrovuniversal-pos-tags2httpuniversaldependenciesorguposindexhtml

28

bull Manuell zeitaufwaumlndig teuer genau (wenn unabhaumlngige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)

bull Vollautomatisch Schnell billig fehlerbehaftet

bull Halbautomatisch Zuerst automatisch annotieren dann Fehler korrigieren Vorteile Nach-teile

Automatische Vorannotation mit computerlinguistischen Werkzeugenhttppubcluzhchuserssiclematlehreecl1ud-de-hunpos-maltparserhtml

N CoNLL-Format Spaltenformat fuumlr Annotationen3

bull Vertikalisierter Text

bull 1 Token pro Zeile

bull Saumltze mit Leerzeile getrennt

bull 10 tabulatorgetrennte Spalten fuumlr die Annotationsinformation

bull Fuumlr nicht-verfuumlgbare Information wird ldquo_rdquo verwendet

Bedeutung relevanter Spalten

1 Tokennummer (1-basierte Zaumlhlung) pro Satz

2 Wortform (Token)

3 Lemma

4 Grobe Wortklasse (coarse-grained part-of-speech tag)

5 Feine Wortklasse (fine-grained part-of-speech tag)

6 Morphosyntaktische Merkmale

7 Syntaktischer Kopf als Tokennummer

8 Dependenztyp

CoNLL-U Aufgetrennte TokensDie NUD-Tokenisierung loumlst gewisse verschmolzene Woumlrter auf in 2 Token au = agrave le daacutemelo= da me lo

Praumlposition und Artikel im Deutschen ldquobeim = bei derrdquo Abweichung vom UD Wir lassen es in den Uumlbungen als ein Token

3httpuniversaldependenciesorgformathtml

29

Abbildung 33 CoNLL-U und CoNLL-X

Manuelle Annotation mit WebAnno und Exportformate

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur (DE-MO)

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

323 Feine Tagsets

Verfeinertes StuttgartTuumlbingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis

bull Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al 1999] mit 54Tags

bull Eine Notationsvariante von STTS wurde als europaumlischer Standard fuumlr Deutsch (EAGLESELM-DE) [Teufel und Stoumlckert 1996] spezifiziert

bull Vergleichbar mit dem Tagset der Penn-Treebank fuumlr Englisch

bull Alternativen Muumlnsteraner Tagset [Steiner 2003]

Wieso ist das STTS wichtig

bull Wichtige linguistisch annotierte Korpora (sog Baumbanken) verwenden fuumlr die WortartenSTTS (nach Entstehungszeit geordnet)

ndash (20rsquo000 Saumltze) NNEGRA-Korpus NBeispielndash (50rsquo000 Saumltze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispielndash (90rsquo000 Saumltze) NTuumlBa-DZndash (160rsquo000 Saumltze) NHamburg Dependency Treebank NBeispiel

bull Es gibt verfuumlgbare Programme welche Woumlrter im Lauftext automatisch mit ihren STTS-Tags etikettieren Solche Programme (zB TreeTagger) nennt man ldquoTaggerrdquo und denProzess ldquoTaggingrdquo

30

Abbildung 34 Die Hauptkategorien von STTShttpwwwcluzhchclabhilfestts

Penn-Treebank-Tagset II Ein wichtiges Tagset fuumlr EnglischFuumlr die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken

33 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale

Definition 331 (auch morphosyntaktisches oder grammatisches Merkmal) Die morphologi-schen Merkmale sind Auspraumlgungen von morphologischen Kategorien wie Genus Kasus Nu-merus Person Tempus Modus und Komparation welche durch die Flexion (Wortbeugung)realisiert werden

Flexion Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems

bull Konjugation von Verben

bull Deklination von Nomen Adjektiven Artikeln und Pronomen

bull Steigerung von Adjektiven (und wenigen Adverbien)

Diskussion Sind steigerbare Adverbien ein Widerspruch im System

Nach Glinz zaumlhlen die Adverbien zu den Partikeln Partikeln sind gemaumlss dieser Einteilungnicht flektierbar Zur Flexion wird normalerweise auch die Komparation gezaumlhlt Es gibt einigeAdverbien welche komparierbar sind (ldquosehr mehr am meistenrdquo ldquogern lieber am liebstenrdquo )Ist dies ein Widerspruch Ein bisschen schon Aber Steigerung wird oftmals nur fuumlr Adjektiveals Flexion betrachtet

31

Abbildung 35 Die Hauptkategorien des PTTS httpwwwcluzhchclabhilfeptts

Ist dies ein definitorischer Zirkel Ein bisschen schon Aber Was ein Adjektiv ausmacht istdie Gesamtheit der Attribute im Klassifikationsbaum dh flektierbar nach Kasus Genus undkomparierbar Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheidenAber es gibt doch auch Adjektiv-Lexeme welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (dh in flektierter Position) verwendet werden koumlnnen Hmmh dann musses wohl noch andere Gruumlnde geben ein Adjektiv-Lexem zu seinWelche denn

331 Genus

Das Genus (UD Gender) Grammatisches Geschlecht

Fachbegriff Deutsch Englisch UD BeispielMaskulinum maumlnnlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum saumlchlich neuter Neut HuhnUnterspezifiziert na na Ferien

Tabelle 31 Uumlbersicht Genera

BemerkungDer Plural von Genus lautet Genera

Bei welchen Wortarten ist die Kategorie Genus ausgepraumlgt

Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen

Nicht-ErwaumlhnungKategorie soll ganz weggelassen werden wenn alle Werte moumlglich sind

Deutsch

32

Wir hatten schoumlneCase=Acc|Degree=Pos|Number=Plur FerienCase=Acc|Number=Plur

AufzaumlhlungUntermenge an moumlglichen Werten wird komma-separiert aufgezaumlhltSpanischEl ordenador que compreacute aqui meCase=AccDat|Number=Sing|Person=1 dioacute problemas

332 Numerus

Der Numerus (UD Number) Grammatische Zahl

Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Huumlhner

Tabelle 32 Uumlbersicht Numeri

BemerkungDer Plural von Numerus lautet Numeri

Bei welchen Wortarten ist die Kategorie Numerus ausgepraumlgt

333 Kasus

Der Kasus (UD Case) FallUD-Kategorie Case

Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum

Tabelle 33 Uumlbersicht Kasus

BemerkungDer Plural von Kasus lautet Kasus

334 Modus

Der Modus (engl mode mood UD Mood) Aussageweise

Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Moumlglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh

Tabelle 34 Uumlbersicht Modi

In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschiedenBemerkungenDer Plural von Modus lautet Modi

33

335 Tempus

Das Tempus (UD Tense) grammatische Zeit Zeitform

Fachbegriff Deutsch Englisch UD BeispielPraumlsens Gegenwart present tense Pres er gehtPraumlteritum Vergangenheit past tense Past er ging

Tabelle 35 Uumlbersicht Tempora

BemerkungenDer Plural von Tempus lautet Tempora Wieso gibt es nur 2 morphologische Kategorien fuumlrTempus im Deutschen Es gibt doch viel mehr Zeiten

336 Person

Die Person (UD Person)

Fachbegriff Deutsch Englisch UD Beispiel1 Person Sprecher first person 1 ich gehe2 Person Angesprochene second person 2 du gehst3 Person Person Sachverhalt third person 3 er geht

Tabelle 36 Uumlbersicht Personen

BemerkungenDer Plural von Person lautet Personen die Verwendung ist allerdings ungebraumluchlichBei welchen Wortarten ist die Kategorie Person ausgepraumlgt

337 Grad

Der Grad (UD Degree) Steigerung Komparation

Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Houmlchststufe superlative Sup schlauste

Tabelle 37 Uumlbersicht Komparation

BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgepraumlgt

338 Adjektiv-Flexion

Die Adjektiv-Flexion (engl adjective inflection)

BemerkungBis jetzt noch keine UD-Merkmale dafuumlr definiert Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven

Beispiel 332 (Flexion von ldquoschlaurdquo)Darstellung bei wwwcanoonet

34

Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein kein mixed Mix keine schlauen FuumlchseStarke Flexion ohne Artikel strong St schlaue Fuumlchse

Tabelle 38 Uumlbersicht Adjektiv-Flexion

Weitere morphologische KategorienIn der UD koumlnnen morphologische Kategorien auch benutzt werden um die groben UPOS-Tagszu verfeinern

UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt

Morphologische Englische UD-Annotation

1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmodposs_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 PUNCT _ 9 punct _ _

34 Linguistische ProbenLinguistische Testverfahren

Definition 341 (Linguistische Proben) Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik das gezielt die sprachliche Kompetenz benutzt umgrammatische Aussagen verifizieren (bestaumltigen) oder falsifizieren (verwerfen) zu koumlnnen

341 Ersatzprobe

Ersatzprobe

Definition 342 In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt Die Interpretation des Satzrestesmuss dabei unveraumlndert bleiben

35

Beispiel 343 (Bestimmung des Kasus)

Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat

Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen

Bestimmung der Wortart von ldquodasrdquo DET oder PRON (Demonstrativ-Relativpronomen)

bull Das ist das Angebot das uns uumlberzeugt hat

bull Dieses ist das Angebot welches uns uumlberzeugt hat

bull Welches ist das Angebot dieses uns uumlberzeugt hat

bull Das ist dieses Angebot welches uns uumlberzeugt hat

Probleme der Interpretation

bull Test bestanden vs nicht bestanden ist manchmal abhaumlngig von der urspruumlnglichen Inter-pretation des Satzes

bull Ob sich der Sinn des Satzrests aumlndert durch den Ersatz ist nicht immer ganz eindeutig

342 Einsetzprobe

Einsetzprobe

Definition 344 In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt der ihn grammatisch eindeutig interpretiert

Beispiel 345 (Bestimmung der Wortart)

Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis Der gratis Baum Adverb

Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfuumlr Verben oder Steigerung fuumlr Adjektive

35 MorphologieMorphologische Ebene

Womit befasst sich die Morphologie Wortstruktur und Wortbildung

bull Flexion (Wortbeugung) such+en such+e such+test such+ten ge+such+t such+end FruchtFruumlcht+e

36

bull Derivation (Wortableitung) suchen Suche Frucht frucht+en frucht+bar un+frucht+barUn+frucht+bar+keit

bull Komposition (Wortzusammensetzung) Such+ergebnis4 Text+zusammenfassung+s+system

351 LemmatisierungMorphologieanalyse

Lemmatisierung und Morphologieanalyse

Definition 351 (Lemmatisierung) Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas welche einer Wortform zugrunde liegen

Definition 352 (Morphologieanalyse) Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma

Beispiel 353 (Analyse von ldquoeinerdquo)Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform ldquoeinerdquo

Analysen von GERTWOL5

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Probleme morphologischer Analysen Mehrdeutigkeit

eineein ART INDEF SG NOM FEMein ART INDEF SG AKK FEMeiner PRON INDEF SG NOM FEMeiner PRON INDEF SG AKK FEMein~en V IND PRAumlS SG1ein~en V KONJ PRAumlS SG1ein~en V KONJ PRAumlS SG3ein~en V IMP PRAumlS SG2

Muumlllermuumlller S EIGEN Famname SG NOMmuumlller S MASK SG NOM

Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo wwwcanoonetwordformationsuchergebnisNN5httpwww2lingsoftficgi-bingertwol

37

bull ldquoeinerdquo als

bull ldquoMuumlllerrdquo als Eigenname oder Substantiv

Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus

Verbrechenverbrechen S MASK SG NOMverbrech~en S NEUTR SG NOMver|brech~en S NEUTR PL DATver|brech~en V INFver|brech~en V IND PRAumlS PL1

Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw unklare Gruppierung der Bestandteile

Probleme morphologischer Analyse

googelte

UnvollstaumlndigkeitNeubildungen Spontanbildungen Fremdwoumlrter

Abchaseabchas~e S MASK SG NOMabchase S MASK SG NOM

ZielkonfliktJe umfassender und vollstaumlndiger umso mehrdeutiger das Resultat

Lieblingsbeerelieb~lingsbeere S FEM SG NOM

Erdbeereerdbeere S FEM SG NOM

Fingerbeerenfingerbeere S FEM PL NOM

UumlberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung

38

Morphologieanalyse mit dem RFTaggerBestimmt fuumlr Lauftext die bestmoumlgliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas

Output des RFTaggers fuumlr Deutsch (STTS-artige Tags) [Schmid und Laws 2008]

Das PRODemSubstNomSgNeut dieist VFINAux3SgPresInd seinein ARTIndefNomSgMasc eineschwacher ADJAPosNomSgMasc schwachTrost NRegNomSgMasc Trost SYMPunSent

352 Morphologiegenerierung

Generierung von syntaktischen Wortformen

Definition 354 (Morphologiegenerierung) Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation

Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|

Person=2|Tense=Past|VerbForm=Fingingst

backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin

36 Vertiefungbull Referenzkarte zum Annotieren liegt in OLAT

bull httpwwwcanoonet aus Basel hat eine sorgfaumlltige traditionelle linguistische Terminolo-gie im Web und viel () Anschauungsmaterial aus ihrem Morphologiesystem

bull Die CDROM zum ldquoStudienbuch Linguistikrdquo enthaumllt viel interaktiv aufbereitetes Lernma-terial6

bull Die Website universaldependenciesorg hat einige Dokumentation

Zusammenfassung

bull Unter ldquoWortrdquo werden verschiedene Abstraktionen von Sprachmaterial bezeichnet

bull Linguistische Annotation benoumltigt festgelegte und dokumentierte Kategorien und Werte

bull Fuumlr Wortarten gibt es grobe (sprachuumlbergreifende) und feine (sprachspezifische) Klassifi-kationssysteme

bull AutomatischeWortartenbestimmung morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen

6httpwwwdsuzhchstudien-cd

39

Kontrollfragen

bull Welche verschiedenen Auffassungen verbergen sich hinter dem Wort ldquoWortrdquo

bull Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2

bull Worin besteht Morphologieanalyse und -generierung

bull Welche Vorteile und Nachteile hat automatische Annotation gegenuumlber manueller

bull Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt

bull Was ist der Unterschied zwischen Lemma und Lexem

40

Kapitel 4

Linguistisches Propaumldeutikum II

Lernziele

bull Anwendung der klassischen syntaktischen Proben

bull Kenntnis der Begriffe Satz Konstituenz Satzglied Dependenz Konstituente PhraseKernKopf

bull Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte

bull Bewusstsein uumlber die hohe Ambiguitaumlt syntaktischer Strukturen

bull Erfahrungen mit computerlinguistisch unterstuumltzter halbautomatischer linguistischer An-notation von syntaktischen Strukturen

bull Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug

Motivation 2 (halbwegs kompatible) Syntax-Welten

Konstituenten

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Dependenz

41

Hierarchische Verschachtelungsstruktur von PhrasenBinaumlre Abhaumlngigkeitsverknuumlpfung zwischen WoumlrternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden

(NGoogles SyntaxNet)

41 Syntaktische ProbenKonstituentenproben

Definition 411 (Konstituententests) Ein Konstituententest ist eine linguistische Probe umfestzustellen ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt

Hintergrund- und Uumlbungsmaterial auf Studien-CD-Linguistik[Stocker et al 2004] enthaumllt eine ausfuumlhrliche interaktive Einfuumlhrung in Konstituenten undKonstituententestsFuumlr Studierende der UZH frei verfuumlgbar unter httpwwwdsuzhchstaticstudien-cdssl-dir10web

411 Weglassprobe

Weglassprobe

Definition 412 In der Weglassprobe wird von einem groumlsseren unuumlbersichtlichen Ausdrucksoviel Material wie moumlglich entfernt um einen einfacheren Ausdruck zu erhalten

Bestimmung eines Satzglieds

1 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

2 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

3 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

4 Schon einen Tag nach der Abreise seiner Freundin fuumlhlte er sich einsam

FrageWarum nicht Variante 4

42

412 Verschiebeprobe

Verschiebeprobe

Definition 413 In der Verschiebeprobe werden Woumlrter und Wortgruppen im Satz umgestelltso dass der Satz grammatisch bleibt und sich am Inhalt houmlchstens die Gewichtung aumlndertDamit lassen sich Anfang und Ende von Satzgliedern erkennen

Bestimmung von Satzgliedern

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen bereite ich die Sitzung mit dem Chef vor

3 Ich bereite die Sitzung mit dem Chef morgen vor

Tipp Ersetze in einfachen Saumltzen immer das Satzglied vor dem flektierten Verb

Verschiebeprobe

Unzulaumlssiges Verschieben

1 Die Sitzung mit dem Chef bereite ich morgen vor

2 Morgen ich bereite die Sitzung mit dem Chef vor

3 Die Sitzung bereite ich morgen mit dem Chef vor

413 Umformungsproben

Umformungsprobe

Definition 414 In der Umformungsprobe werden Saumltze umfassend umgebaut

Funktion von Nebensaumltzen

1 Es wuumlrde mich freuen wenn du mitkaumlmest

2 Dein Mitkommen wuumlrde mich freuen

Der Nebensatz mit lsquowennrsquo erfuumlllt eine analoge Funktion wie lsquoEsrsquo

Infinitivumformung zur Subjekterkennung

1 Die Laumlrche ist ein Nadelbaum

2 ein Nadelbaum sein die Laumlrche

43

Abbildung 41 Moderne Satzgliedlehre nach [Stocker et al 2004]

42 SatzSatz

Definition 421 (nach [Bussmann 2002]) Satz (engl clause oder sentence) Nach sprach-spezifischen Regeln aus kleineren Einheiten (sog Konstituenten) konstruierte Redeeinheit diehinsichtlich Inhalt grammatischer Struktur und Intonation relativ vollstaumlndig und unabhaumlngigist

Definition 422 (nach [Dudenredaktion 2005]) Ein Satz ist eine Einheit die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht Daruumlber hinaus kann der Satzzusaumltzliche Angaben enthalten

421 Satzglieder

Moderne Satzgliedlehre

422 Koumlpfe (oder Kerne) von Konstituenten

Syntaktische Koumlpfe (engl head) Kern (engl kernel)

Definition 423 Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituentewelche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhaumlngig sind Der Kern ist normalerweise nicht weglassbar

Beispiel 424 (Welches ist der Kern der geklammerten Konstituenten)

1 Er [haumllt ihm den Ausweis unter die geschwollene Nase]

2 Sie rennt [mit dem Mobile hantierend] zum Kiosk

3 Es wird [viel zu oft] telefoniert

44

4 [Die Frau die zum Kiosk rannte ] war aufgeregt

5 Sie fuumlhlte sich [wie in einem schlechten Film]

6 Aber sie war auch [in einem ziemlich schlechten Film]

43 Syntaxanalyse

431 Konstituenz

Konstituenten und Konstituenz

Definition 431 (Konstituente nach [Bussmann 2002]) Konstituente In der strukturellenSatzanalyse [sog Konstituentenanalyse] Bezeichnung fuumlr jede sprachliche Einheit (Wort Wort-gruppe) die Teil einer groumlsseren sprachlichen Einheit ist

Definition 432 (Konstituentenanalyse nach [Bussmann 2002]) Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten

Definition 433 (Konstituenz) Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Praumlzedenz zwischen Konstituenten

Konstituenten in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

unmittelbare Dominanz

Konstituente auf Wortebene

Syntaktische Konstituente

Praumlzedenz auf Wortebene

Praumlzedenz zwischen Tochterkonstituenten

Abbildung 42 Konstituenz Dominanz und Praumlzedenz in NEGRA-Darstellung

Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repraumlsentiert eine Konstituente

Konstituententypen

Typen von Konstituenten in TIGERNEGRA

1 (Teil-)Saumltze (S) Konstituente mit finiten Verbalkernen

45

2 Verbalgruppe -phrase (VP) Konstituente mit einem nicht-finiten () verbalen Kern

3 Nominalgruppe -phrase (NP) Konstituente mit Nomen oder Pronomen als Kern

4 Adjektivgruppe -phrase (AP) Konstituente mit Adjektiv oder adjektivisch verwendetemPartizip als Kern

5 Adverbgruppe -phrase (AVP) Konstituente mit Adverb als Kern

6 Praumlpositionalgruppe -phrase (PP) Konstituente mit Praumlposition oder Postposition alsKern

7 Konjunktionalgruppe -phrase (PP) Konstituente mit der Konjunktion ldquoalsrdquo oder ldquowierdquoals Kern (aber nicht als Vergleichskonstruktion gebraucht) lsquoEr fuumlhlte sich als Gewinnerrsquo

Annotation von Relativsaumltzen

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 43 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Relativsaumltze gehoumlren immer in die NP auf die sie sich beziehen

Komplexe Konstituenz in der Penn-Treebank

Satz aus dem Brown-KorpusteilIn other words like automation machines designed to work in tandem they shared the sameprogramming a mutual understanding not only of English words but of the four stresses pitches and junctures that can change their meaning from black to white

Syntaxbaum aus der Vogelperspektive

In

IN

other

JJ

words

NNS

like

IN

automation

NN

machines

NNS

designed

VBN

-NONE-

to

TO

work

VB

in

IN

tandem

NN

they

PRP

shared

VBD

the

DT

same

JJ

programming

NN

a

DT

mutual

JJ

understanding

NN

not

RB

only

RB

of

IN

English

NNP

words

NNS

but

CC

of

IN

the

DT

four

CD

stresses

NNS

pitches

NNS

and

CC

junctures

NNS

that

WP

T

-NONE-

can

MD

change

VB

their

PRP$

meaning

NN

from

IN

black

NN

to

TO

white

NN

NP

PP

NP NP NP

PP

VP

VP

SBJ

S

VP

NP

PP

NP NP NP CONJP NP

PP

NP WHNP NP NP NP

PP

NP

PP

PP

VP

VP

SBJ

S

SBAR

NP

PP

PP

NP

NP

VP

SBJ

S

T

46

Quelle TIGERSearch-Demo-Korpora

Maximale Verschachtelungstiefe

432 Dependenz bzw syntaktische Funktion

Dependenz und syntaktische Funktion

Definition 434 Dependenz ist die syntaktische Relation der Abhaumlngigkeit zwischen Konsti-tuenten

Definition 435 (frei nach [Bussmann 2002]) Syntaktische Funktion ist ein Sammelbegriff fuumlrBeschreibungsgroumlssen wie ldquoSubjektrdquo ldquoObjektrdquo ldquoPraumldikatrdquo ldquoAdverbialrdquo ldquoAttributrdquo ua welchenach Sprachtyp oder Grammatiktheorie unterschiedlich verwendet werden um die Beziehungzwischen abhaumlngigen Konstituenten zu bestimmen

HinweisInnerhalb von Konstituenten ist die syntaktische Funktion des ldquoKopfesrdquo fundamental abertraditionell wenig explizit dargestellt

Syntaktische Funktionen in der TIGERSearch-Darstellung

$$amp

($)((+-

0

1123+

($)($45(306

789

lt

$5((==($)(9

14gt0600

++

2-(==($)(

06

A+

amp5=0

++

+9(==($)(

0

$B1C

D

ED

F45G0

1123+

($)($45(306

4

$$AB

(==($)

HI)G=90

++

2-(==($)(

85J4J0

113CK

(

E(

+ + + +

+$

Llt L Llt

+$

A M

N M

L+$

A 1$ M

1$

AL

Llt

Llt

O P Q R S T U V W PO PP PQ

SOO SOP

SOQ SO

SOR SOS

SOT

L

Syntaktische Funktion

Konstituenten

Abbildung 44 Syntaktische Funktion in der NEGRA-Darstellung

Jedes eckige Kaumlstchen repraumlsentiert eine Funktion zwischen der dominierten und der dominie-renden Konstituente

Syntaktische Funktion in der Balken-DarstellungSyntaktische Funktionen als Schicht zwischen sich dominierenden Balken

Einige Satzglieder mit TIGER-Funktion

bull Subjekt (SB) Infinitivprobe oder Frageprobe (Wer oder was) Subjekt kann auch ein Soder eine VP sein

47

Abbildung 45 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm)

bull Akkusativ-Objekt (OA) Frageprobe (Wen oder was) oder Ersatzprobe (ldquoihnrdquo)

bull Dativ-Objekt (DA) Frage- (Wem) oder Ersatzprobe (ldquoihmrdquo)

bull Genitiv-Objekt (OG) Frage- (Wessen) oder Ersatzprobe (ldquoseinerrdquo)

bull Adverbiales und praumldikatives Praumlpositionalglied Adverbglied Konjunktionalglied uauml (MO)Modifikator

bull Nicht-finite Verbalteile (OC object clause) Abhaumlngig vom flektierten oder nicht-flektiertenVerb

Baumbankkonversion Von Konstituenz zu Dependenz

Automatische Konversion (NTIGER2Dep)

Automatische (linguistisch informierte) Umformung von Baumbanken mit Konstituenz zu reinenCoNLL-basierten Dependenzformaten (NBRAT)

433 UD-DE-Modell

Universal Dependencies (NUD DEP)Ziel Sprachuumlbergreifende Dependenzlabels und Annotationskonventionen welche allerdings sprach-spezifisch verfeinert werden koumlnnenmuumlssen

48

UniversalAnnotaon

UniversalPOSTags(Wortart)

UniversalFeatures

(Morphologie)

UniversalDependencies

(Syntax)

Generelle Philosophie des Universal-Dependency-Modells

bull Jedes Token ist genau von einem syntaktischen Kopf abhaumlngig

bull Als Koumlpfe fungieren grundsaumltzlich immer die Inhaltswoumlrter VERB NOUN ADJ ADV

bull Achtung Praumlpositionen werden als funktional abhaumlngige Kasus-Markierungen betrachtetWarum

bull Interpunktionszeichen werden in die syntaktische Struktur eingebunden

bull Syntaktische Woumlrter koumlnnen aus Teilen einer orthographischen Einheit bestehen (wir igno-rieren das fuumlr die Annotation) beim rarr bei der

bull Disclaimer I Die Konsistenz und Qualitaumlt der Annotationen in der deutschen UD-Baumbankliegt deutlich unter anderen Baumbanken (TIGER TUEBA HDT)

bull Disclaimer II Die sprachspezifischen Guidelines fuumlr Deutsch fehlen meistens

Inhaltswoumlrter VERB und NOUN

Hinweisebull Spitze des Pfeils Abhaumlngiges Element

bull Startknoten des Pfeils Kopf

bull Nomen koumlnnen von Verben (zB Subjekt nsubj Akkusativobjekt dobj) oder anderenNomen (nmod) abhaumlngen

bull Was passiert wenn ldquoLeinerdquo von ldquojagtrdquo abhaumlngig gemacht wird

Das UD-Innenleben von Nominalphrasen

Hinweisebull Was ist der NP-Kopf

bull Genitivattribute werden als Determiner angehaumlngt Sinnvoll

49

Komplexe Verb- und Adjektivphrasen

Hinweise

bull Hilfs- und Modalverben haumlngen vom Vollverb ab

bull Modifikation ist zwischen verschiedenen Wortklassen moumlglich

Kopulakonstruktion und Gleichsetzungsnominativ

Fragen

bull Wovon haumlngt das Subjekt ab

bull NSuche nach ist im Suchwerkzeug

bull Mehrwortausdruumlcke (ldquonach wie vorrdquo) und mehrteilige Eigennamen (ldquoPeter Musterrdquo) wer-den unterschiedlich verknuumlpft

Interpunktion

Hinweise

bull Interpunktion wird an den syntaktischen inhaltlichen Kopf angehaumlngt

50

Verschachtelte Saumltze

Hinweise

bull Ein Nebensatz haumlngt via seinem Kopf vom Kopf des uumlbergeordneten Satzes ab

bull Wann aclrelcl und wann advcl

Koordination

Koordination Koumlpfe und Abhaumlngigkeitsrichtung

Definition 436 Koordination (Beiordnung) ist eine syntaktische Struktur welche aus zweioder mehr Konjunkten (Woumlrter Wortgruppen oder Saumltzen) besteht

Koordination von Konstituenten aus NEGRA-Korpus

bull Selbst die flotteren Passagen werden nie ausgelassen und froumlhlich [Satz 35]

bull Oder saszlig es wieder einmal immer nur mit der Teeflasche im Auto und in der Sportkarre[Satz 9328]

bull Wenn es eine Organisation gibt der vertraut wird und die etwas erreichen kann ist dasdie Kirche [Satz 11978]

2 Fragen mit mehreren moumlglichen Antworten

bull Was ist der Kopf von koordinierten Konstituenten Konjunktion oder Konjunkt

bull In welche Richtung werden koordinierte Elemente verknuumlpft

Koordination in der NUD

Frage

bull Welche Antworten gibt die UD

51

Manuelle Syntax-Annotation mit WebAnno

bull WebAnnoGraphische Benutzerschnittstelle fuumlr die manuelle AnnotationKorrektur)

bull Click-und-Drag-Interface mit der Maus

bull Automatische Generierung des korrekten CoNLL-Datenformats

bull Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenuumlber unsermGoldstandard httppubcluzhchuserssiclematlehreecl1ud-de-maltevalhtml

Gesamtuumlberblick aller UD-DE-Relationen inkl Statistikenhttpuniversaldependenciesorgdedepindexhtml

Aufgabe Annotation von Relativsatz

Der Hund den die Katze anfauchte knurrte leise

NP

S

NP

S

Abbildung 46 Beispielsatz mit allen zu annotierenden NP- und S-Knoten

Wie sieht eine UD-Annotation von diesem Satz aus

434 Suche

NSETS Scalable and Efficient Tree Search in Dependency Graphs [Luotolahtiet al 2015]Lernen aus BeispielenBeim Annotieren ist es hilfreich aus bereits annotiertem Material zu lernen Eine gezielte Sucheist besser als Ngenerelle Statistiken

Die 2 kombinierbaren Abfrageebenen der NAbfragesprache1 Tokenebene Boolrsquosche Suche (logisches UND amp ODER | NICHT ) fuumlr Wortform UPOS-

Tag Lemma und Morphologiefalls vorhanden Der Platzhalter _ steht fuumlr unspezifizierteTokens

2 Dependenzebene Boolrsquosche Suche uumlber Dependenzrelationen (Operatoren lt und gt)

KOPF gt NICHTKOPF

NICHTKOPF lt KOPF

Analog zur Pfeilrichtung in der BRAT-Visualisierung

52

Grundlegende syntaktische Suchrezepte

bull Welche Tokens haumlngen direkt von ldquogingrdquo ab _ lt ging

bull Welche nominalen Subjekte hat ldquogingrdquo _ ltnsubj ging

bull Welche nominalen Passivsubjekte stehen rechts (R) von ldquowurderdquo _ ltnsubjpassR wurde

bull Welche Verben haben ldquoGeldrdquo als Subjekt oder (in)direktes ObjektVERB gtnsubj|gtdobj|gtiobj Geld

bull Welche Saumltze enthalten die Woumlrter ldquonachrdquo und ldquovorrdquo enthalten nach + vor

bull Fallstrick Welche Nomen haben keinen Determinierer NOUN gtdet _

bull Erklaumlrung Existentielle Interpretation Nomen welche mindestens ein abhaumlngiges Ele-ment haben das kein Determinierer ist

44 AmbiguitaumltZusammenfassung

bull Linguistische Proben helfen uns die zusammengehoumlrigen Wortgruppen (Konstituenten)und ihre Abhaumlngigkeiten (Dependenz) zu bestimmen

bull Reine Dependenzanalysen sind in der CL und Sprachtechnologie enorm wichtig geworden

bull Die universalen Dependenzrelationen zielen auf sprachuumlbergreifende inhaltsorientierteSyntaxanalyse ab

bull Syntaktische Baumbanken sind zentral fuumlr maschinelle Lernverfahren (Paradigma Manualannotation for machine learning [Pustejovsky und Stubbs 2013])

45 Vertiefungbull Pflichtlektuumlre Das Kapitel 42 ldquoBaumbankenrdquo in [Carstensen et al 2009]

bull Nachbereitungsauftrag Wie passen die syntaktischen Funktionen der UD-DE auf die mo-derne Satzgliedlehre

bull Selber Anfragen mit SETS auf der UD-DE Version 13 ausdenken und ausfuumlhren

bull Quiz Die Form der Satzglieder

bull Quiz Satzglieder und Proben

bull Linguistik-CD

53

Kapitel 5

Endliche Automaten

Lernziele

bull Einstieg in die Formalisierung von Sprache

bull Was sind Zeichenketten formalmathematisch

bull Was ist eine formale Sprache

bull Welche wichtigen Operationen uumlber formalen Sprachen gibt es Mengenoperationen undKonkatenation

bull Was sind regulaumlre Sprachen Was ist ihr Bezug zu regulaumlren Ausdruumlcken und endlichenAutomaten

bull Wie zeichnet man Zustandsdiagramme fuumlr endliche Automaten Wie interpretiert mansie

bull Wann ist ein endlicher Automat deterministisch und wann nicht

bull Umgang mit dem Simulationswerkzeug JFLAP fuumlr formale Sprachen Grammatiken undAutomaten

54

51 Formale Sprachen

511 Mengen

A Quick Review of Set Theory

A set is a collection of objects

A B

D E

We can enumerate the ldquomembersrdquo or ldquoelementsrdquo of finite sets A D B E

There is no significant order in a set so A D B E is the same set as E A D B etc

Quelle B04

Cardinality of Sets

 The Empty Set

 A Finite Set

 An Infinite Set eg The Set of all Positive Integers

Norway Denmark Sweden

Quelle B04

512 Zeichen

Das Alphabet (Sigma) Menge von Zeichen

55

Definition 511 Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole) Eswird mit Σ (Sigma) notiert

Zeichen des EnglischenΣEnglisch = a b c x y z

Zeichen der binaumlren ZahlenΣbin = 0 1

Zeichenketten (strings)

Definition 512 Eine Zeichenkette (formales Wort string) der Laumlnge n ist eine endliche Folgeaus n Zeichen uumlber Σ

Zeichenketten uumlber englischen Symbolen ΣEnglisch

a we muntjac talk walk krwrk

Leere ZeichenketteDie leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen Sie wird mit ε (Epsilon) oderλ (Lambda) notiert und hat die Laumlnge 0

Sigma SternΣlowast ist die Menge aller Zeichenketten welche aus dem Alphabet Σ gebildet werden koumlnnenΣlowast

bin = ε 0 1 00 01 10 11 001

513 Sprachen

Formal Languages

Very Important Concept in Formal Language Theory

A Language is just a Set of Words

bull  We use the terms ldquowordrdquo and ldquostringrdquo interchangeably

bull  A Language can be empty have finite cardinality or be infinite in size

bull  You can union intersect and subtract languages just like any other sets

56

Quelle B04

Union of Languages (Sets)

dog cat rat elephant mouse

Language 1 Language 2

dog cat rat

elephant mouse

Union of Language 1 and Language 2 Quelle B04

Formale Sprachen als Teilmenge von Sigma Stern

L sube Σlowast

Binaumlre Zahlen0 1 00 01 10 11 000 001 010 100 011 101 110 111 sube 0 1lowast

Wie lautet ein regulaumlrer Ausdruck der exakt alle Zeichenketten der obigen Sprachen matchenkann und nichts anderes

Englische Woumlrterwalk talk work sube a b zlowast

Wie sieht ein regulaumlrer Ausdruck aus der genau folgende 3 Woumlrter erkennt

Exkurs Formale Sprachen als Modell fuumlr natuumlrlich vorkommende Sprache in derWirklichkeit

Formales Modell Wirklichkeit

Niederschlagsmodell Realer NiederschlagFormale Sprache natuumlrliche SpracheZeichenketten Zeichenketten SchallwellenMathematische Abstraktion komplexe physische Systeme

57

Modelle als Abstraktion der Wirklichkeit (Modellbewusstsein)Ein Modell ist nicht wahr oder falsch sondern mehr oder weniger adaumlquat um Aspekte der

Wirklichkeit zu repraumlsentieren

Ist eine Zeichenkette in einer Sprache drin oder nichtConcatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working

worked works talk

talking talked talks

walk walking

walked walks

The concatenation of

the Suffix language

after the Root

language

0 or denotes the empty string

Abbildung 51 Sprache mit 3 WoumlrternZeichenketten

Ist ldquotalkrdquo ein Element der Sprache Ja oder neintalk isin work talk walk

Endliche Automaten (EA) (engl Finite-State Automatons (FA))Endliche Automaten berechnen die Antwort auf diese Frage

Beispiel fuumlr Deterministischen Endlichen Automaten

talk isin work talk walk

bull Was bedeuten (mehrere) ausgehende und eingehende Pfeile

52 Endliche Automaten und regulaumlre SprachenDeterministische Endliche Automaten (DEA)

Idee des akzeptierenden deterministischen endlichen AutomatenEin endlicher Automat ist eine (abstrakte) Maschine zur zeichenweisen Erkennung von Woumlrterneiner regulaumlren SpracheVor dem Einlesen des ersten Zeichens einer Zeichenkette ist der Automat immer im Startzu-stand

58

Ein DEA ist nach jedem Verarbeitungsschritt in genau einem ZustandBei jedem Schritt wird ein Zeichen gelesen und aufgrund des aktuellen Zustands und der Kan-tenbeschriftung in einen Nachfolgezustand gewechseltWenn kein Zeichen mehr zu lesen ist und die Maschine in einem Endzustand ist gilt die geleseneZeichenkette als akzeptiertWenn kein Uumlbergang mit dem gelesenen Zeichen moumlglich ist gilt die zu verarbeitende Zeichen-kette als nicht akzeptiert

Nicht-Deterministische Endliche Automaten (NEA)

Abbildung 52 Deterministischer EA

Nicht-Determinismus IVon einem Zustand geht mehr als eine Kante mit derselben Beschriftung weg

Nicht-Determinismus IIEs gibt mindestens eine ε-Kante

Wichtiges ResultatJeder Nicht-Deterministische Endliche Automat laumlsst sich in einen deterministischen verwan-deln

Deterministischer endlicher Automat (DEA)Ein deterministischer endlicher Automat A = 〈ΦΣ δ S F 〉 besteht aus

1 einer endlichen Menge Zustaumlnde Φ

2 einem endlichen Eingabealphabet Σ

3 einer (partiellen) Zustandsuumlbergangsfunktion δ Φtimes Σrarr Φ

59

4 einem Startzustand S isin Φ

5 einer Menge von Endzustaumlnden F sube Φ

Deterministische vs nicht-deterministische UumlbergangsfunktionDie Uumlbergangsfunktion δ bestimmt bei DEA den Folgezustand der beim Lesen eines einzelnenZeichens erreicht wirdBei nicht-deterministischen EA (NEA) sind die Folgezustaumlnde eine beliebige Teilmenge derZustaumlnde (Potenzmenge)

δ Φtimes (Σ cup ε)rarr weierp(Φ)

521 Konkatenation

Konkatenation von Zeichenketten und Sprachen

Konkatenation von Zeichenkettenu bull v = uv

lsquoworkrsquo bull lsquoedrsquo = lsquoworkedrsquo

Konkatenation von SprachenU bull V = u bull v | u isin U und v isin V

lsquoworkrsquo bull lsquoedrsquo lsquosrsquo = lsquoworkrsquobulllsquoedrsquo lsquoworkrsquobulllsquosrsquo= lsquoworkedrsquo lsquoworksrsquo

Concatenation of Languages

work talk walk

Root Language

0 ing ed s

Suffix Language

work working worked works talk talking talked talks walk walking walked walks

The concatenation of the Suffix language after the Root language

0 or ε denotes the empty string

60

Quelle B04

Concatenation of Languages II

work talk walk

Root Language

0 ing ed s

Suffix Language

rework reworking reworked reworks retalk retalking retalked retalks rewalk rewalking rewalked rewalks

The concatenation of the Prefix language Root language and the Suffix language

Prefix Language

re out 0

outwork outworking outworked outworks outtalk outtalking outtalked outtalks outwalk outwalking outwalked outwalks

work working worked works talk talking talked talks walk walking walked walks

Quelle B04

Languages and Networks

w a l k

o r

t

NetworkLanguage 2 NetworkLanguage 3

s

o r The concatenation of Networks 1 2 and 3 in that order

w a l k t

a

a s

ed

i n g

0

s

ed

i n

0s

g o

r

NetworkLanguage 1

s

u t

e

0

o

r s

t

e

0 u

Quelle B04

522 Regulaumlre Ausdruumlcke

Regulaumlre Sprachen und regulaumlre Ausdruumlcke (RA)

Definition 521 Eine Sprache uumlber Σ = a1 a2 an heisst regulaumlr genau dann wenn siedurch folgende regulaumlre Mengenausdruumlcke beschrieben werden kann

61

bull Die leere Menge und die Menge ε ist regulaumlr Als regulaumlrer Ausdruck (RA) in JFLAPwird ε geschrieben als ldquordquo

bull Die Mengen a1a2an sind regulaumlr RA a oder b

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 cup L2) RA (A|B) (~ in JFLAP (A+B))

bull Wenn L1 und L2 regulaumlr sind dann auch (L1 bull L2) RA (AB)

bull Ist L regulaumlr dann auch LlowastRA (A)

Wie kann man Optionalitaumlt ausdruumlcken

Graphischer Algorithmus Konversion von RA zu NEA

JFLAP Regulaumlre Ausdruumlcke in NEA verwandelnJFLAP unterstuumltzt die algorithmische (systematische) Verwandlung von beliebigen regulaumlrenAusdruumlcke in nicht-deterministische Automaten

Algorithmus

1 Schreibe den regulaumlren Ausdruck als Kantenbeschriftung zwischen 2 Zustaumlnde

2 Loumlse den aumlussersten Operator des regulaumlren Ausdrucks auf und schreibe die Teilausdruumlckeauf eigene Kanten

3 Verknuumlpfe die richtigen Zustaumlnde mit ε-Kanten miteinander

4 Wiederhole Schritt 2 bis nur noch einzelne Zeichen an den Kanten stehen

Nicht-deterministische algorithmisch verwendbare Schablonen von regulaumlren Grund-konstrukten

Epsilon

Symbol a

Konkatenation (ab)

Alternative (a|b)

62

encodes

a

LANGUAGE RELATION

compiles intoa

REGULAR EXPRESSIONa

FINITE-STATE NETWORKde

notes

Abbildung 53 Beziehung zwischen formalen Sprachen regulaumlren Ausdruumlcken und endlichenAutomaten (aus [Beesley und Karttunen 2003])

Wiederholung (a)

Beziehung zwischen RA EA und formalen SprachenZu jedem regulaumlren Ausdruck RA existiert mindestens ein EA (deterministisch und nicht-deterministisch) der die vom RA bezeichnete regulaumlre Sprache akzeptiert

63

53 Transduktoren

Linguistic Transducer Machines

mesas

Generator

ldquoApply Downrdquo mesa+Noun+Fem+Pl mesas

m e s a +Noun +Fem +Pl

m e s a 0 0 s

mesa+Noun+Fem+Pl

Analyzer

ldquoApply Uprdquo mesa+Noun+Fem+Pl mesas

Quelle B04

Gute Eigenschaften von endlichen Automaten und Transduktoren

bull Extrem kompakte Repraumlsentation von Lexika mit Millionen von Eintraumlgen

bull Extrem effiziente Verarbeitung Tausende von Wortanalysen pro Sekunde

bull Beispiel NRumantsch Grischun

bull Beispiel NSchweizerdeutsch (BA BE ZH) mit gewichteten Transduktoren

Zusammenfassung

bull Mit regulaumlren Ausdruumlcken lassen sich alle regulaumlren Sprachen beschreiben

bull Mit endlichen Automaten lassen sich alle regulaumlren Sprachen erkennen

bull Jeder regulaumlre Ausdruck kann in einen endlichen Automaten verwandeltkompiliert wer-den

bull Jeder nicht-deterministische Automat kann in einen deterministischen umgewandelt wer-den und umgekehrt

bull Mit Transduktoren (EAs mit Symbolpaaren) lassen sich praktische Morphologiesystemefuumlr alle natuumlrlichen Sprachen bilden

64

Vertiefung

bull Kleines freiwilliges Uebungsblatt mit JFLAP (im OLAT-Materialordner)

bull Carstensen Abschnitt 223 lsquoEndliche Automaten einseitig-lineare Grammatiken undregulaumlre Sprachenrsquo

bull Carstensen Abschnitt 334 lsquoMorphologie mit endlichen Automatenrsquo

bull JFLAP httpwwwjflaporg Tutorial gibt eine Einfuumlhrung httpwwwjflaporgtutorial

65

Kapitel 6

Flache Satzverarbeitung

Lernziele

bull Kenntnis uumlber POS-Tagger ihre Aufgabe und Probleme sowie uumlber wichtige POS-Tagsets

bull Kenntnis uumlber grundlegende Evaluationsmethodik und -anwendung

bull Kenntnis der Grundregel der Evaluation von datenbasierten Systemen

bull Training mit einem datenbasierten probabilistischen POS-Tagger und Evaluation des re-sultierenden Modells

bull Faumlhigkeit zur Berechnung von Accuracy Precision Recall F-Measure fuumlr Tagger

bull Kenntnis uumlber partielle syntaktische Analyse

bull Kenntnis uumlber flache und verschachtelte Chunks

Welches mehrdeutige Wort hat dieses Profil

UPOS-Tag Vorkommen1

1021ADP 848ADV 61

PROPN 14ADJ 1

61 Wortarten-TaggingWortarten-TaggingDefinition 611 (Wortarten-Tagger Part-of-Speech Tagger POS-Tagger) Ein Wortarten-Tagger ist ein Programm das fuumlr jedes Token eines Texts die Wortart bestimmt indem es einKlassifikationskuumlrzel als POS-Tag zuordnetBeispiel 612 (Zeilenformat mit Schraumlgstrich)ManassePROPN istVERB einDET einzigartigerADJ ParfuumlmeurNOUN PUNCT

N-Best-TaggingBenoumltigt einen Tagger der die wahrscheinlichsten n Wortarten zuruumlckliefert (ev mit der Wahr-scheinlichkeit) fuumlr ein Token

66

Nutzen und Anwendung des POS-TaggingDefinition 613 (POS-Tagging (automatische Wortartenbestimmung)) POS-Tagging ist ei-ne eigenstaumlndige und vielfaumlltig benoumltigte sprachtechnologische Anwendung welche effizient undzuverlaumlssig funktioniert Anwendungen Lemmatisierung Lexikographie Sprachsynthese Spra-cherkennung Maschinelle Uumlbersetzung BedeutungsdesambiguierungBeispiel 614 (Lemmatisierung)

bull eineDET Kuh Lemma ldquoeinrdquo

bull eineVERB dich mit ihm Lemma ldquoeinenrdquoBeispiel 615 (SprachsyntheseBedeutungsdesambiguierung)

bull lead Verb lid (fuumlhren) Nomen led (Blei)

bull increase Nomen rsquoinkris (Anstieg) Verb inkrrsquois (ansteigen)Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe

Tag-Sets fuumlr EnglischDefinition 616 (Tag-Set) Ein Tag-Set (Menge der Tags) kodiert typischerweise nebst Wort-arteninformation noch semantische syntaktische oder morphologische Information Die Groumlsseeines Tag-Sets kann stark variieren

Tag-Set Groumlsse Beispiel BedeutungBrown 87 (179) shePPS Pronoun personal subject 3SGPenn 45 shePRP Pronoun (personal or reflexive)CLAWS c5 62 shePNP Pronoun personalLondon-Lund 197 shersquosRAVB+3 pronoun personal nominative + verb to

be present tense 3rd person singular

Tabelle 61 Uumlbersicht Tag-Sets fuumlr Englisch

Penn-Treebank-Tag-Set (PTTS)Das wichtigste Tag-Set fuumlr Englisch ist eine vereinfachte Version des Brown-Tag-Sets welchesab den 60-er Jahren in Amerika im Zusammenhang mit dem Brown-Korpus entstanden ist

Anforderungen an ein Programm fuumlr TaggingPositive Eigenschaften eines Taggers nach [Cutting et al 1992 133]

bull Robust Der Tagger verarbeitet beliebigen Input (inkl unbekannte Woumlrter SonderzeichenMarkup)

bull Effizient Der Tagger arbeitet schnell

bull Genau Der Tagger arbeitet mit einer geringen Fehlerrate (lt 5)

bull Anpassbar Der Tagger kann an besondere Anforderungen eines Texttyps angepasst wer-den

bull Wiederverwertbar Der Tagger kann leicht fuumlr neue Aufgabengebiete eingesetzt werden

Was fehlt

67

611 Probleme des Taggings

Wortformen mit mehreren moumlglichen Tags

MehrdeutigkeitIm Brown-Corpus sind 11 aller Wortformen ambig Das entspricht jedoch 40 der Token

Tag-Ambiguitaumlt im Englischen

Baseline (Basis-Algorithmus) Lexikalische WahrscheinlichkeitWaumlhle fuumlr jedes Wort das Tag mit dem es am haumlufigsten vorkommtErgibt bis maximal 90 richtige Entscheidungen [Manning und Schuumltze 1999 344]

Haumlufigkeiten im Brown-Korpus

bill NN 2351

promised VBD 34~~VBN 10~~JJ 2

back RB 1026~~NN 206~~JJ 46~~VB 6~~RP 6~~VBP 2

Mehrdeutigkeit bei deutschen WoumlrternBeispiel 617 (Verteilung der Mehrdeutigkeit)Vorkommen in einem Korpus von ca 80rsquo000 Token

die~~ART 2351~~PRELS 448~~PDS 4

Mehrheit~~NN 40

bestimmt~~VVPP 7~~VVFIN 4~~ADV 1~~ADJD 1

Mehrdeutigkeit in einem deutschen Testkorpus (STTS)~ Ungesehene Wortformen zaumlhlen als Ambiguitaumltsrate 0

Unbekannte WoumlrterJedes Tagger-Lexikon ist unvollstaumlndig Eigennamen Fremdwoumlrter Woumlrter mit Ziffern (63jaumlh-rig 123345) Komposita Wie kann ein Tagger sinnvolle Vorschlaumlge machen

bull Unterscheidung zwischen offenen und geschlossenen Wortarten

bull Heuristiken aufgrund der Buchstabenform der unbekannten Woumlrter Beginn oder Endevon Woumlrtern Ziffern Typischerweise N-Gramme von Wortsuffixen (gespeichert als Suffix-Tree)

68

Abbildung 61 Ambiguitaumltsraten aus der Frankfurter Rundschau (ausgezaumlhlt auf 18 des Korpusgegenuumlber 78) [Volk und Schneider 1998]

Beispiel 618 (Morphologische Heuristiken fuumlr Englisch)

bull 98 aller Woumlrter mit Endung -able sind Adjektive

bull Ein grossgeschriebenes Wort ist wahrscheinlich ein Eigenname

Unbekannte Woumlrter Vorhersagen von Wortarten uumlber Suffixe

oo

n

e

g

n

d

senuel

l

cv

y ta

o

mtsiii

o

i

ies (NNS09 VBZ01)ons (NNS095 VBZ005)

ed (VBN04 JJ03 VBD03)

le (NN025 JJ045 NP02 VB01)

ce (NN04 JJ025 NP02 VB01)ive (JJ07 NN015 NP01 VB005)

ty (NN045 JJ035 NP02)

son (NP08 NN01 JJ01)

man (NP08 NN02)ton (NP09 NN005 JJ005)

ion (NN07 NP02 JJ01)ing (VBG06 NN02 JJ02)

ous (JJ096 NN004)

old (JJ098 NN002)

Quelle [Schmid 1995]

Wortformen mit mehreren moumlglichen Tags Kontext

69

Tag VorkommenRB 1026NN 206JJ 46VB 6RP 6

Vorkommen von ldquobackrdquo im Brown-Korpus

ProblemLexikalische Wahrscheinlichkeit ergibt nicht immer die korrekte Loumlsung

Optimierungspotential KontextBeruumlcksichtige den linken Kontext (Tags undoder Woumlrter) und ev den rechten Kontext (Woumlr-ter) um die Baseline-Entscheidung umzustossen

Verwendeter Kontext des Trigramm-Taggers TnTZum Bestimmen des Tags eines Tokens wn werden verwendet

bull die moumlglichen Tags von wn aus Tagger-Lexikon

bull die bereits berechneten Wahrscheinlichkeiten der Tags der beiden vorangehenden Tokens

Context

3

3

Kontextmodell des Trigrammtaggers TnT [Brants 2000]

612 Fallstudie TnT-Tagger

Supervisiertes Maschinelles Lernen

70

Quelle [Raschka 2015 11]

ErkenntniszielWie wurde der statistische Tagger der Neinfachen UD-DE-13-Pipeline erstellt

Fallstudie TnT-Tagger trainieren und evaluieren

Testkorpustestttstesttxt

Trainingskorpustrainingtts

Getaggtes Korpus

Aufteilen des Korpus

Taggingtnt

Trainingtnt-para

Parameter-Dateien

traininglextraining123

Evaluations-korpus

evaltts

Evaluationtnt-diff

Abbildung 62 Training Tagging und Evaluation mit dem TnT-Tagger

Fallstudie TnT-Tagger Anpassbarkeit konkretEin Kochrezept fuumlrs Terminal [Clematide 2016]

1 Man nehme ein getaggtes Korpus (vertikalisierter Textformat)

$ head -n 3 ud-de-v13ttsManasse PROPNist VERBein DET$ wc ud-de-v13tts308982 586176 3296137 ud-de-v13tts

2 Man nehme 910 davon als Trainingskorpus indem die ersten 278081 Zeilen in eine neueDatei geschrieben werden

$ head --lines 278081 ud-de-v13tts gt trainingtts

3 Man nehme die restlichen 110 als Testkorpus indem die letzten 30900 Zeilen in eine neueDatei geschrieben werden

$ tail --lines 30900 ud-de-v13tts gt testtts

71

4 Man erzeuge die Parameterdateien (Modell) aus dem Trainingskorpus

$ tnt-para trainingtts

5 Man schmecke ab ob der Tagger was Vernuumlnftiges tut

$ tnt training devstdin gt outttsDerTaggerlaumluft [mit Control-D fuumlr Dateiende abschliessen$ more outtts

6 Man erstelle das Evaluationskorpus

$ cut -f 1 testtts gt evaltxt

7 Man tagge das Evaluationskorpus mit dem Trainingsmodell

$ tnt training evaltxt gt evaltts

8 Man evaluiere das automatisch getaggte Evaluationskorpus gegen den Goldstandard imTestkorpus

$ tnt-diff testtts evaltts

62 EvaluationEvaluation

Definition 621 Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung einesWertes auf einer Werteskala aufgrund einer Messmethode

Definition 622 (Qualitaumlt einer Evaluation) Die Qualitaumlt einer Messmethode basiert auf ihrerValiditaumlt und Reliabilitaumlt

Definition 623 (Validitaumlt Guumlltigkeit Angemessenheit) Die Validitaumlt einer Messmethodesagt aus ob das was gemessen werden soll (Messintention) auch das ist was effektiv gemessenwird

Definition 624 (Reliabilitaumlt Zuverlaumlssigkeit Genauigkeit) Die Reliabilitaumlt einer Messme-thode sagt aus wie genau und reproduzierbar die Messresultate sind

Uumlberlegungen zu Reliabilitaumlt und ValiditaumltMessintention und MessmethodeEs soll das Verstaumlndnis von Studierenden fuumlr regulaumlre Ausdruumlcke mittels eines Multiple-Choice-Tests gepruumlft werden

Uumlberlegung IWie steht es um die Reliabilitaumlt (Genauigkeit) und Validitaumlt (Angemessenheit)

Uumlberlegung IIWas passiert bezuumlglich der Qualitaumlt der Evaluation wenn die Person die Testfragen und ihrekorrekten Antworten schon beim Lernen benutzt hat

72

Grundregel der Evaluation von lernenden SystemenTestdaten (test set) duumlrfen NIE Teil der Trainingsdaten (training set) sein

621 Zweck

Zweck von Evaluationen

SystemverbesserungVon System A wird eine neue Version Arsquo erstellt wobei eine Komponente Z modifiziert wordenist Die Evaluation von System A gegenuumlber Arsquo hilft einzuschaumltzen inwiefern die KomponenteZ das System optimiert

SystemvergleichUm ein Problem P zu loumlsen steht ein System A und ein System B zur Verfuumlgung Die Evaluationanhand einer Testaufgabe T zeigt auf welches System besser ist

622 Accuracy

POS-Tagger-Evaluation Genauigkeit

Definition 625 (Genauigkeit engl accuracy) Die Tagging-Genauigkeit uumlber einem Text mitN Tokens ist der Anteil der korrekt getaggten TokensFormal Sei E die Anzahl von falsch getaggten Vorkommen von Tokens

accuracy = N minus EN

Beispiel 626 (Genauigkeitsberechnung von TnT-Tagger)Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 967wie viele Tags im Testkorpus von 100rsquo000 sind falschWenn man nur mit 1rsquo000 Tokens trainiert sind im Schnitt etwa 31rsquo400 Fehler im Testkorpusvon 100rsquo000 Tokens Wie hoch ist die Genauigkeit

Haumlufigste Tagging-Fehler von TnT im NEGRA-Korpus

Tagt Freqt Tagf Freqf Ant Erel Eabs

NE 15069 NN 2092 139 196 074VVFIN 11595 VVINF 667 58 63 023NN 58563 NE 615 11 58 022VVFIN 11595 VVPP 425 37 40 015ADJA 16843 NN 270 16 25 010

Tabelle 62 Uumlbersicht NEGRA-Konfusionsmatrix [Brants 1999 112]

Legende62Tagt Korrektes Tag Tagf Falsch getaggtes TagFreqt Vorkommenshaumlufigkeit des korrekten TagsFreqf Vorkommenshaumlufigkeit des falschen TagsAnt Anteil der falschen Tags an den korrekt erkanntenErelEabs Relativeabsolute Fehlerquote dh Anteil dieses Fehlers am Gesamtfehler

73

5-fache Kreuzvalidierung visuell

Figure 8-2 K-fold cross-validation

Once you have run your algorithm on all the subset variations of your testing and trainshying data you can evaluate the accuracy of each round of testing and give the average of all the results There are other methods of dividing your test and training sets as well such as performing a fixed number of tests but randomly selecting what documents will be in the training and testing sets each time While the random selection method does help take care of some problems that can still be found using the k-fold method (eg if one of your folds randomly ended up with a set of documents thatrsquos very different from the rest of the folds) randomly selecting files means you canrsquot be sure that every file will end up in both the testing and training sets at some point

You can use Python to randomize your list of inputs and to select your folds Assuming you have a list of files f you can call Pythonrsquos shuffle function over the list to randomize the order

gtgtgt import randomgtgtgt randomshuffle(f)

If yoursquore performing k-fold cross-validation and you want to use Python to select each fold you can do that in a loop to create a list of the set of files in each fold

gtgtgt k = 20gtgtgt i=0gtgtgt folds = []gtgtgt while iltlen(f)gtgtgt foldsappend(f[ii+k])gtgtgt i = i+k

Of course yoursquoll want to make sure you pick a k that doesnrsquot leave your last set too small to use so make sure the k you pick either divides the size of your list perfectly or at least leaves a high enough remainder for the algorithm to be trained on

Problems That Can Affect Evaluation | 179

Quelle [Pustejovsky und Stubbs 2013 179]

Genauigkeit unter 10-facher Kreuzvalidierung

Definition 627 (10-fache Kreuzvalidierung engl ten-fold cross-validation) Bei der 10-facheKreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt In 10 Testlaumlufen wird je-weils 110 der Daten als Testmaterial verwendet und die restlichen 910 der Daten als Trainings-material Dies lsquoneutralisiertrsquo besonders gute oder schlechte Resultate welche beim Aufteilenzufaumlllig entstehen koumlnnenBeispiel 628 (Durchschnittliche Genauigkeit (average accuracy))

accuracy =sumi=10

i=1 accuracyi

10

Warum 10Die Verwendung von 10 ist eine bewaumlhrte Konvention Andere Splits wie 2x5 oder 5x2 werdenauch empfohlen

623 Lernkurven

624 Recall

Recall (Ausbeute Abdeckung Vollstaumlndigkeit)

Definition 629 Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Sys-tems gemessen an allen moumlglichen korrekten Antworten anFormal Sei Nt die Anzahl aller moumlglichen korrekten Antworten und At die Anzahl der korrektenAntworten des Systems

R = At

Nt

Beispiel 6210 (Recall eines Taggers)Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFINklassifiziertAt = 600 und Nt = 800 Der Recall berechnet sich als R = 600

800 = 75

74

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp())+-01$+-0-2)00-))304

56)77

8010

904010

6+789lt

6-=7gt8lt

6+7gtlt

6-=7gt8lt

6+7lt

6-=79lt

2++$A-+BCD611amp+)ampB+(+E(4-4)=)FG-11))HampI+-1J

-+Kamp61L(10)K)-++5FM--A1(NJ-+K)()4-)(FD)ampB+(J

)-)amp+(3amp-0)-++5(NO)-++5-+K)()4-)(-K(Pamp+)

Qampamp)(ampI0(EI(K3amp)-++5

8

9

gt

R9 9 S gt9 8 RR gtS

$-++5NF=J

TM5ltU+B+ampE+

TM5T00I-0L

SSR

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

6)6lt$$)amp$+)=$gt=((+

Q-M-44amp-0C

5-66ampK1F3()ampKVWWJ

6ampamp)+5C-KK)amp+amp3c 7)ampNamp3XI+0(U+B+ampE+EampK(C)-5K()AI)amp+()6-)K3amp6-11EampK(

Qamp(+)+0AampI+K-L-+K0-4)-1N-)amp++3amp

)-)amp3)T)C

$5-66ampK1F(0amp+KampKVWWJ

6ampamp)+5CYamp+)=)+K4+K+)1+-+)4amp1-)amp+

U+B+ampE+EampK(C(I33=-+-1L((-+K(I00((M-A()-0)amp+

TI)amp6-)06ampK1+5amp3(+)+0AampI+K-(-+K0-4)-1N-)amp+

+-M()-)amp3)-)∆GH FZ+51(Jgtlt gt8lt [8lt

QZ]T F6-+JgtRlt gt8lt [RSlt

Abbildung 63 Tnt-Evaluation an Penn Treebank durch Thorsten Brants

625 Precision

Precision (Genauigkeit Praumlzision)

Definition 6211 Precision gibt den Anteil der korrekten Antworten (Entscheidungen) einesSystems gemessen an allen gegebenen Antworten des Systems anFormal Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten desSystems

P = At

A

Beispiel 6212 (Precision eines Taggers)Ein Tagger hat in einem Testkorpus 1rsquo000 Token als VVFIN klassifiziert aber nur 600 davonwaren tatsaumlchlich VVFINAt = 600 und A = 1000 Die Precision berechnet sich als P = 600

1000 = 60

626 F-Measure

F-Measure (F-Mass)

Definition 6213 (F1-Measure) Das F-Measure ist ein Evaluationsmass das Precision undRecall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnetFormal Sei P die Precision und R der Recall eines Systems

F = 2times P timesRP +R

75

$amp()+-+amp $amp()+-+)()-)()0-12-)amp340$-55+5

$amp()

67-18-)amp+8(+5)9amp0amp4amp-

6lt=gtamp48(-+A38)=8+B(0-8CltD-++9(4-4)E)(F

2++$G-+AH-11))Iamp8+-1

J(Kamp+))-++5-+B)()4-)(LM3amp1B0amp((7-1B-)amp+

$-55+5-008-0N40+)-5amp30amp0)1N-((5+B)-5(9+-((5++5

amp+)-5)amp-0)ampA+

$-55+5-008-0NB4+B+5amp+)(Oamp3))-++5()

$amp()+-+ampP $amp()+-+)()-)()0-12-)amp340$-55+5

+amp(-012344)425amp123)3627892(+lt

=+$$

gt)(5)

))(5)

D+QRSTU

D-EQVWTRU

D+QVXTRU

D-EQVRTRU

D+QWTYU

D-EQSVTMU

6lt=gt0amp48(XMLMMM)ampA+(+9(4-4)E)C-+A38)=8+B(0-8F

-+BampD1N(10)B)-++5C7--G1(OF-+B)()4-)(CMLMMM)ampA+(F

M)-)amp+(3amp-0)-++5(OZ)-++5-+B)()4-)(-B(Kamp+)

ampamp)(amp80(98(B3amp)-++5T

Y X M YM XM MM YMM YMXM

WM

RM

SM

VM

MM

$-++5OCEMMMF

gt75TU[+A+amp9+

gt75Tgt008-0N

PWTP PTP WTM MTR YTM ST PT TVXMTS

C())4999T0amp1T8+(GTB])amp()+)+)FAbbildung 64 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants

Beispiel 6214 (F-Mass eines Taggers)Ein Tagger hat in einem Testkorpus eine Praumlzision von 60 und ein Recall von 75 fuumlr VVFINDas F-Measure berechnet sich somit F = 2times06times075

06+075 = 666

63 Chunk ParsingPartielle syntaktische Analyse

Definition 631 Eine partielle syntaktische Analyse (flache Analyse engl shallow parsing)berechnet fuumlr einen Satz keine vollstaumlndige Analyse bezuumlglich Konstituenz und DependenzGewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt

Chunking-Regeln schreiben in NPfeilnotationWie kann man die zulaumlssigen Chunks beschreibenNC -gt ART NN

bull NC Ein NC (Nominalchunk) besteht

bull -gt besteht aus

bull ART aus einem Wort der Wortart ART (Artikel)

bull NN gefolgt von einem Wort der Wortart NN (normales Nomen)

76

Abbildung 65 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

Abbildung 66 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H Schmid

631 Abneys Chunk-Definition

Chunks (Teilstrukturen) nach [Abney 1991]Beispiel 632 (Chunks nach Abney)[I begin] [with an intuition] [when I read] [a sentence] [I read it] [a chunk] [at a time]

Motivationen

bull Intonation sprachliche Einheiten mit jeweils 1 staumlrkeren Betonung

bull Effizienz Teilstrukturen lassen sich effizienter berechnen

bull Minimaler Aufwand Fuumlr gewisse Anwendungen braucht es keine vollstaumlndige syntaktischeAnalyse

bull Robustheit Fuumlr syntaktisch fehlerhaften Input braucht es fehler-tolerante oberflaumlchlichereAnalysemethoden

632 IOB-Chunk

Flache Chunks im IOB-Format

Definition 633 (IOB-Chunks) IOB-Chunks beschreiben eine flache syntaktische Schicht uumlberdie getaggten Wortformen welche in Form von Chunk-Tags auf die Token abbildbar ist

bull B-K Anfang einer Chunk-Konstituente K

bull I-K Fortsetzung der Chunk-Konstituente K

77

bull 0 Nicht zugeordnet (wird auch chink genannt)

We PRP B-NPsaw VBD 0the DT B-NPyellow JJ I-NPdog NN I-NP

633 Verschachtelte Chunks

Verschachtelte Chunks

Definition 634 (Verschachtelte Chunks) Verschachtelte Chunks beschreiben eine syntakti-sche Struktur von begrenzter Tiefe Rekursive Verschachtelung zB ein Nominal-Chunk inner-halb eines Nominal-Chunks ist normalerweise nicht moumlglich

Beispiel 635 (Chunk Parsing Output mit Verschachtelungstiefe 3)

[PX [APPR fuumlr][NX [ARTIND eine]

[AJXatt [ADJA gewisse]][NN Reibungslosigkeit]]]

Hinweis zur Chunk-BenennungChunks werden manchmal wie Phrasen (NP) notiert gebraumluchlich sind auch NX oder NC

64 VertiefungZum Thema lsquoPOS-Taggingrsquo und lsquoChunk Parsingrsquo

bull Pflichtlektuumlre [Carstensen et al 2009 342-3]

bull Lerneinheit ldquoChunk Parsingrdquo im CLab httpwwwcluzhchclabchunking

bull TnT ist leider nicht als Open-Source-Programm verfuumlgbar Mit hunpos [Halaacutecsy et al2007] existiert allerdings eine gute quelloffene Alternative

bull Video-Vorlesung aus DH-MOOC zum Thema ldquoAutomatische Korpusannotation mit com-puterlinguistischen Werkzeugen Bestimmung von Wortarten und Grundformenrdquo httpstubeswitchchvideosb126a8f4

78

ZusammenfassungZusammenfassung

bull Automatische Wortartenbestimmung (PoS-Tagging) ist eine grundlegende sprachtechno-logische Anwendung

bull Statistische Wortarten-Tagger erreichen meist 93 -97 Genauigkeit abhaumlngig von Trai-ningsdaten und Groumlsse des Wortarten-Tagsets

bull Chunker sind robuste Verfahren zur Gruppierung von zusammengehoumlrigen Woumlrtern undoperieren meist auf PoS-getaggtem Input

Kontrollfragen

bull Was sind 2 typische Szenarien fuumlr systematische Evaluation von Systemen

bull Was unterscheidet Recall und Precision von Accuracy

bull Was sind typische Fehlerquoten und Fehlerquellen fuumlr STTS-Tagging

bull Wie viel Trainingsmaterial braucht es fuumlr eine Tagging-Genauigkeit von etwa 95 fuumlrenglische (PTB-getaggte) oder deutsche (STTS-getaggte) Zeitungstexte

bull Was ist der Vorteil der IOB-Notation fuumlr Chunks

65 Exkurs Evaluation binaumlrer KlassifikatorenLernziele

bull Kenntnis uumlber True Positive True Negative False Positive sowie False Negative

bull Kenntnis uumlber Fehlertypen und ihre Gefahr

bull Kenntnis uumlber Unterschiede von Recall Precision F-Measure und Accuracy in Form derTPFPFNTN-Darstellung

651 TrueFalse PositivesNegatives

Evaluation von binaumlren Klassifikatoren

TruthPositive Negative

Test Positive True Positive (TP) False Positive (FP)Negative False Negative (FN) True Negative (TN)

Tabelle 63 Schema zum Abgleich von Test-Klassifikator und Wahrheit

Legende zur Tabelle 63

True Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

False Keine Uumlbereinstimmung zwischen ldquoTestrdquo und ldquoTruthrdquo

79

FP Fehlertyp I Test ist positiv wo er nicht sollte

FN Fehlertyp II Test ist negativ wo er nicht sollte

652 Fehlerparadoxe

Problem der Fehlerabschaumltzung IBeispiel 651 (FP Fehlertyp I) Ein syntaktischer Test zur Identifizierung einer seltenen Kon-struktion welche nur in 1 von 100rsquo001 Saumltzen auftaucht findet zwar alle vorhandenen Kon-struktionen liefert aber leider 1 Falsch-Positive Somit ist die Korrektheit (accuracy) 99Wie wahrscheinlich ist es dass der Test tatsaumlchlich eine gesuchte Konstruktion gefunden hatwenn er ein positives Resultat vermeldet

Man uumlberlegeWie oft wird ein positives Testresultat bei 100rsquo001 Saumltzen gemeldet Wieviele TP sind im Schnittdarunter

Problem der Fehlerabschaumltzung IIBeispiel 652 (FN Fehlertyp II) Ein syntaktischer Test zur Identifizierung einer haumlufigen Kon-struktion welche in 80rsquo000 von 100rsquo000 Saumltzen auftaucht findet 125 der Faumllle nicht produziertjedoch keine falschen TrefferWie wahrscheinlich ist es dass ein Satz die Konstruktion trotzdem enthaumllt obwohl der Test einnegatives Resultat vermeldet

Man uumlberlegeWie oft wird ein negatives Testresultat bei 100rsquo000 Saumltzen gemeldet Wieviele FN sind darunter

653 Unterschiede von Evaluationsmassen

Dualitaumlt von Precision und Recall

TruthPos Neg

Test Pos TP FPNeg FN TN

R = TP

TP + FN

Tabelle 64 Recall

Recall ignoriert FP Je weniger falsche Negative desto houmlher der RecallPrecision ignoriert FN Je weniger falsche Positive desto houmlher die Precision

F-Measure vs AccuracyF-Measure ignoriert TN TP interessieren insbesondereAccuracy ignoriert nichts TP und TN interessieren gleichwertig

80

TruthPos Neg

Test Pos TP FPNeg FN TN

P = TP

TP + FP

Tabelle 65 Precision

TruthPos Neg

Test Pos TP FPNeg FN TN

F = 2times TP2times TP + FP + FN

Tabelle 66 F1-Measure

TruthPos Neg

Test Pos TP FPNeg FN TN

Accuracy = TP + TN

TP + TN + FP + FN

Tabelle 67 Accuracy

654 Mitteln von Recall und Precision

F-Measure Harmonisches vs arithmetisches Mittel

655 Vertiefung

bull Artikel zum Harmonischen Mittel in [Wikipedia 2013]

81

Abbildung 67 F = 2timesP timesRP +R yx-Achse Recall F-Mass [F-Mass 2006]

82

Abbildung 68 M = P +R2 Arithmetisches Mittel

83

Literaturverzeichnis

[Abney 1991] Abney Steven (1991) Parsing by Chunks In Berwick Robert S Abneyund C Tenny Hrsg Principle-Based Parsing Kluwer Academics LIN 235

[Beesley und Karttunen 2003] Beesley Kenneth R und L Karttunen (2003) Finite-State Morphology Xerox Tools and Techniques CSLI Publications

[Brants 1999] Brants Thorsten (1999) Tagging and Parsing with Cascaded Markov Mo-dels Automation of Corpus Annotation Saarbruumlcken Dissertations in Computational Lingui-stics and Language Technology 6 Saarland University

[Brants 2000] Brants Thorsten (2000) TnT ndash A Statistical Part-of-Speech Tagger InProceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000 S224ndash231

[Bussmann 2002] Bussmann Hadumod (2002) Lexikon der Sprachwissenschaft KroumlnerStuttgart 3 aktual und erw Aufl

[Carstensen et al 2009] Carstensen Kai-Uwe C Ebert C Endriss S JekatR Klabunde und H Langer Hrsg (2009) Computerlinguistik und Sprachtechnologie Eine Einfuumlhrung Spektrum Muumlnchen

[Cavnar und Trenkle 1994] Cavnar William B und J M Trenkle (1994) N-Gram-Based Text Categorization In Proceedings of SDAIR94 3rd Annual Symposium on Docu-ment Analysis and Information Retrieval S 161ndash175 Citeseer httpciteseerxistpsueduviewdocdownloaddoi=1011539367amprep=rep1amptype=pdf

[Clematide 2016] Clematide Simon (2016) Tagger-Training und Evaluation mit TnT httpwwwcluzhchsiclematlehrepaperstnt-training2016txt

[Cutting et al 1992] Cutting D J Kupiec J Pedersen und P Sibun(1992) A Practical Part-of-Speech Tagger In Proceedings of the Third Confe-rence on Applied Natural Language Processing Trento S 133ndash140 Trento Asso-ciation for Computational Linguistics httpwwwaclweborganthologyA92-1018pdfhttpwwwcluzhchsiclematlehrepapersCuttingKupiec1992pdf

[Dudenredaktion 2005] Dudenredaktion Hrsg (2005) Duden die Grammatik Unent-behrlich fuumlr richtiges Deutsch Bd 4 d Reihe Der Duden Dudenverlag 7 Aufl

[F-Mass 2006] F-Mass (2006) F1-Mass in 3D als Funktion von Recall (x) und Precision (y)httpwwwcluzhchsiclematlehrepapersF-Mass2006mov

[Gallmann und Sitta 2010] Gallmann Peter und H Sitta (2010) Deutsche GrammatikLehrmittelverlag 6 Aufl

84

[Grefenstette und Tapanainen 1994] Grefenstette Gregory und P Tapanai-nen (1994) What is a Word What is a Sentence Problems of Tokenisa-tion In Proceedings of the 3rd Conference on Computational Lexicography andText Research COMPLEXrsquo94 Budapest httpciteseeristpsuedugrefenstette94whathtmlhttpwwwcluzhchsiclematlehrepapersGrefenstetteTapanainen1994pdf

[Grover 2008] Grover Claire (2008) LT-TTT2 Exam-ple Pipelines Documentation httpwwwltgedacuksoftwarelt-ttt2httpwwwcluzhchsiclematlehrepapersGrover2008pdf

[Halaacutecsy et al 2007] Halaacutecsy Peacuteter A Kornai und C Oravecz (2007) HunPos anopen source trigram tagger In Proceedings of the 45th Annual Meeting of the ACL on Inter-active Poster and Demonstration Sessions ACL rsquo07 S 209ndash212 Stroudsburg PA USA As-sociation for Computational Linguistics httpdlacmorgcitationcfmid=15577691557830

[Kiss und Strunk 2006] Kiss Tibor und J Strunk (2006) Unsupervised Multilingual Sen-tence Boundary Detection Computational Linguistics 32(4)485ndash525 httpdxdoiorg101162coli2006324485

[Linke et al 2001] Linke Angelika M Nussbaumer und P R Portmann Hrsg (2001)Studienbuch Linguistik Niemeyer Mit interaktivem Lernprogramm auf CD-ROM

[Luotolahti et al 2015] Luotolahti Juhani J Kanerva S Pyysalo und F Ginter(2015) SETS Scalable and Efficient Tree Search in Dependency Graphs In Proceedings ofthe 2015 Conference of the North American Chapter of the Association for ComputationalLinguistics Demonstrations S 51ndash55 httpwwwaclweborganthologyN15-3011

[Manning und Schuumltze 1999] Manning Christopher D und H Schuumltze (1999) Foun-dations of Statistical Natural Language Processing MIT Press Cambridge MA 3rd printingAufl

[Palmer 2000] Palmer David D (2000) Tokenisation and Sentence Segmentation In DaleRobert H Moisl und H Somers Hrsg Handbook of natural language processing S 11ndash35 New York

[Petrov et al 2012] Petrov Slav D Das und R McDonald (2012) A Universal Part-of-Speech Tagset In Proc LREC 2012 S 2089ndash2096

[Pustejovsky und Stubbs 2013] Pustejovsky J und A Stubbs (2013) Natural languageannotation for machine learning OrsquoReilly Media Sebastopol CA

[Raschka 2015] Raschka Sebastian (2015) Python Machine Learning Packt Publishinghttpswwwpacktpubcombig-data-and-business-intelligencepython-machine-learning

[Schiller et al 1999] Schiller Anne S Teufel und C Stoumlckert (1999) Guidelines fuumlrdas Tagging deutscher Textcorpora mit STTS (Kleines und groszliges Tagset) httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf

[Schmid 1995] Schmid Helmut (1995) Improvements in Part-of-Speech Tagging with anApplication to German In Proceedings of the ACL SIGDAT-Workshop S 47ndash50 Dublin

[Schmid 2006] Schmid Helmut (2006) TreeTagger httpwwwimsuni-stuttgartdeprojektecorplexTreeTaggerDecisionTreeTaggerhtml

85

[Schmid und Laws 2008] Schmid Helmut und F Laws (2008) Estimation of ConditionalProbabilities With Decision Trees and an Application to Fine-Grained POS Tagging In Pro-ceedings of the 22nd International Conference on Computational Linguistics (Coling 2008)S 777ndash784 Manchester UK httpwwwaclweborganthologyC08-1098

[Steiner 2003] Steiner Petra (2003) Das revidierte Muumlnsteraner Tagset Deutsch(MTD) Beschreibung Anwendung Beispiele und Problemfaumllle httpsantanauni-muensterdePublicationstagbeschr_finalps

[Stocker et al 2004] Stocker Christa D Macher R Studler N BubenhoferD Crevlin R Liniger und M Volk (2004) Studien-CD Linguistik Multimediale Ein-fuumlhrungen und interaktive Uumlbungen zur germanistischen Sprachwissenschaft Max NiemeyerVerlag httpwwwdsuzhchstudien-cd

[Teufel und Stoumlckert 1996] Teufel Simone und C Stoumlckert (1996) ELM-DE EAGLES Specifications for German morphosyntax Lexicon Specification andClassification Guidelines electronic (httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgz) httpwwwilccnritEAGLES96pubeagleslexiconselm_depsgzhttpwwwcluzhchsiclematlehrepapersEAGLES1996pdf

[Universitaumltsrat 2004] Universitaumltsrat (2004) Richtlinie uumlber die Umsetzung desBologna-Prozesses an der Universitaumlt Zuumlrich httpwwwsaeuzhchrechtsgrundlagenuzhreglementeBolognaRichtlinie_UZH_2004pdf

[Volk und Schneider 1998] Volk Martin und G Schneider (1998) Comparing a sta-tistical and a rule-based tagger for German In Proceedings of KONVENS-98 S 125ndash137Bonn httpwwwcluzhchsiclematlehrepapersVolkSchneider1998pdf

[Wikipedia 2013] Wikipedia (2013) Harmonic mean mdash Wikipedia The Free Encyclopediahttpenwikipediaorgwindexphptitle=Harmonic_mean

[Wong et al 2014] Wong Derek F L S Chao und X Zeng (2014) iSentenizer-Multilingual Sentence Boundary Detection Model The Scientific World Journal 201410httpdxdoiorg1011552014196574]196574

86

Index

10-fache Kreuzvalidierung 74

Adjektiv-Flexion 34Alphabet 56

Eingabealphabet 59

DEA 59Dependenz 47

Einsetzprobe 36Endzustand 60Epsilon 56Ersatzprobe 35Evaluation 72

F-Measure 75

Genus 32Grad 34

IOB-Chunks 77

Kasus 33Kern 44Komparation siehe GradKonstituente 45Konstituentenanalyse 45Konstituententest 42Konstituenz 45Koordination 51Kopf 44

Lemma 25Lemmatisierung 37Lexem 25Lexemverband 25

Merkmal morphologisch 31Modus 33Morphologieanalyse 37Morphologiegenerierung 39

Named Entity Regonition 19NER 19

Numerus 33 34

partielle syntaktische 76Person 34Precision 75Probe linguistisch 35

Qualitaumlt einer Evaluation 72

Recall 74regulaumlrer Ausdruck 12Reliabilitaumlt 72

Satz 44Sigma 56Silbentrennung 18Startzustand 60Syntaktische Funktion 47

Tag-Set 67Tagging-Genauigkeit 73Tempus 34Text-Segmentierung 11Token 24

Umformungsprobe 43

Validitaumlt 72Verschachtelte Chunks 78Verschiebeprobe 43

Weglassprobe 42Wort 8 23 56Wortsyntaktisch 24Wortarten 26Wortarten-Tagger 66Wortform 24

XML-Standard 14

Zeichenkette 56Zeichenkette leer 56Zustand 59Zustandsuumlbergangsfunktion 59

87

  • Organisatorisches
    • Organisatorisches
      • Leistungsnachweis
      • Lernen und Lehren
        • Kontrollfragen
          • Tokenisierung
            • Tokenisierer
              • Grundproblem
              • Kodierung
              • Programme
                • XML
                • Tokenisierung
                  • Problem
                  • Punktdisambiguierung
                  • Normalisierung
                  • NER
                    • Multilingualitaumlt
                    • Vertiefung
                      • Linguistisches Propaumldeutikum I
                        • Wort
                          • Token
                          • Wortform
                          • synt Wort
                          • Lexem
                            • Wortarten
                              • 5 Hauptwortarten
                              • UD
                              • STTSPTTS
                                • Merkmale
                                  • Genus
                                  • Zahl
                                  • Kasus
                                  • Modus
                                  • Zeit
                                  • Person
                                  • Grad
                                  • Flexion
                                    • Proben
                                      • Ersetzen
                                      • Einsetzen
                                        • Morphologie
                                          • LemmatisierungMorphologieanalyse
                                          • Morphologiegenerierung
                                            • Vertiefung
                                              • Linguistisches Propaumldeutikum II
                                                • Proben
                                                  • Weglassen
                                                  • Verschieben
                                                  • Umformen
                                                    • Satz
                                                      • Satzglieder
                                                      • Koumlpfe
                                                        • Syntaxanalyse
                                                          • Konstituenz
                                                          • Dependenz
                                                          • UD-DE
                                                          • Suche
                                                            • Ambiguitaumlt
                                                            • Vertiefung
                                                              • Endliche Automaten
                                                                • Formale Sprachen
                                                                  • Mengen
                                                                  • Zeichen
                                                                  • Sprachen
                                                                    • EA und regulaumlre Sprachen
                                                                      • Konkatenation
                                                                      • Regulaumlre Ausdruumlcke
                                                                        • Transduktoren
                                                                          • Flache Satzverarbeitung
                                                                            • Tagging
                                                                              • Probleme
                                                                              • Fallstudie TnT-Tagger
                                                                                • Evaluation
                                                                                  • Zweck
                                                                                  • Accuracy
                                                                                  • Lernkurven
                                                                                  • Recall
                                                                                  • Precision
                                                                                  • F-Measure
                                                                                    • Chunking
                                                                                      • Abney
                                                                                      • IOB-Chunk
                                                                                      • Verschachtelte Chunks
                                                                                        • Vertiefung
                                                                                        • Exkurs Evaluation binaumlrer Klassifikatoren
                                                                                          • TPFPFNTN
                                                                                          • Fehlerparadoxe
                                                                                          • Unterschiede
                                                                                          • Mittelwerte
                                                                                          • Vertiefung
Page 18: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 19: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 20: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 21: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 22: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 23: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 24: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 25: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 26: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 27: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 28: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 29: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 30: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 31: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 32: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 33: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 34: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 35: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 36: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 37: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 38: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 39: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 40: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 41: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 42: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 43: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 44: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 45: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 46: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 47: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 48: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 49: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 50: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 51: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 52: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 53: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 54: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 55: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 56: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 57: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 58: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 59: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 60: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 61: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 62: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 63: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 64: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 65: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 66: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 67: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 68: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 69: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 70: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 71: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 72: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 73: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 74: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 75: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 76: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 77: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 78: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 79: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 80: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 81: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 82: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 83: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 84: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 85: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 86: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 87: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff
Page 88: HS 2016: Einführung in die Computerlinguistik I · 2016. 11. 4. · HS 2016: Einführung in die Computerlinguistik I Simon Clematide simon.clematide@cl.uzh.ch Hinweis:DiesesSkriptumfasstnurdenStoff