39
Wortarten-Tagging (auch Part-of-Speech(PoS)-Tagging) Ein erster Schritt zur syntaktischen Annotation

Wortarten-Tagging · einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht Beispiel: Suche ``Artikel gefolgt von Wort auf -en gefolgt von Wort auf

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Wortarten-Tagging(auch Part-of-Speech(PoS)-Tagging)

Ein erster Schritt zur syntaktischen Annotation

Übersicht

• Allgemeines zur Ambiguität• Einführung Wortarten-Tagging• Tagsets• Automatisches Taggen eines Korpus

Ambiguität• verschiedene Arten der Ambiguität

(Mehrdeutigkeit)– syntaktische– lexikalische– phonologische– orthografische

Mehrdeutigkeit tritt in echten Kommunikations-situationen sehr selten auf.

Sprachwissenschaftliche Beispiele sind meist konstruiert.

Ambiguität

Beispiel (1) ist ein typisches konstruiertes Beispiel.

(1) Der Mann sieht den Jungen mit dem Teleskop.

Beispiele (2) und (3) sind im echten Kontext sicher nicht mehrdeutig.

(2) Klaus hat ein(en) Laster.(3) Klara isst im Garten.

Ambiguität

• Für Rechner gibt es kaum Strukturen, die nicht mehrdeutig sind.

• Grund: mangelnde Informationen über– Semantik– Wahrscheinlichkeit– Weltwissen– Kontext

Ambiguität

(1) Diese Brause trinkt sie am Liebsten.(2) Die Mutter liebt die Tochter.(3a) Klaus hat lange Nudeln gegessen.(3b) Klaus hat lange Äpfel gegessen.• Aufgrund reiner morpho-syntaktischer

Informationen sind diese Sätze für Maschinen nicht disambiguierbar.

Motivation für Wortarten-Tagging

• explizite Annotierung von syntaktischen Informationen dient der maschinellen Bearbeitung

• z.B.:– Suche in Korpora (für uns wichtig!)– maschinelle Übersetzung– weitere maschinelle Annotation

• z.B. Parsing• z.B. morphologische Annotation

Motivation für Wortarten-Tagging

• Auflösung unterschiedlicher Funktion bei orthografischer Ambiguität

(1) Ohne/KOUI den Applaus abzuwarten, ging der Künstler.

(2) Ohne/APPR den Applaus ging der Künstler.

• Wortartentags disambiguieren (vereindeutigen) verschiedene Lesarten

Motivation für Wortarten-Tagging

• in einigen Fällen wird die Motivation für Wortarten-Tagging noch deutlicher

• Fragestellung: Welches zweier aufeinanderfolgender Adjektive im Dativ (mask./neut.) endet auf ``m´´?

(1) in einem schönem großen Garten(2) in einem schönen großem Garten(3) in einem schönem großem Garten

Motivation für Wortarten-Tagging

• wenn nicht explizit vermerkt ist, welche Wortart ein Wort hat, kann man nur nach Buchstaben-folgen suchen

Hier:``Wort auf -en gefolgt von Wort auf –em gefolgt

von groß geschriebenem Wort´´Diese Suche unterscheidet nicht nach WortartenErgebnis auf folgender Folie zeigt viele nicht

gewollte Resultate

Suchausdruck: [word="[a-z].+en"][word="[a-z].+em"][word="[A-Z].+"]

mit einem deutlich erhöhten gesundheitslichem Risiko . Sie seien. Für Deutschland nehmen außerdem Bundestagspräsidentin Rita Süssmuth ,

an . Es werden außerdem Projekte und Institutionen besuchtwurde halboffiziell mit dessen mangelhaftem Französisch begründet . Ein

gleichsam eine Schnittstelle zwischen reinem Klangstück und Diskurs ., eine Welt zwischen enttäuschtem Sturm und Drang und

zu Kunden in dessen angestammtem Versorgungsgebiet . Wirtschaftsminister GünterNur wenige Jordanier trauen seinem Bruder und designierten Nachfolger

, die Gratwanderung zwischen eigenem Umfeld und etablierten Machtstrukturenund Dorothea Schrade kommen diesem Bedürfnis nach . Seit

Frauen mit seinem gewohnten nachrichtlichem Blick zu erfassen ,weiter die Schere zwischen gewerkschaftlichem Forderungskatalog und Alltag in

Motivation für Wortarten-Tagging

• wenn man versucht die Treffermenge einzuschränken, indem man die Artikel aufzählt, dann findet man viele Beispiele nicht

Beispiel:Suche ``Artikel gefolgt von Wort auf -en

gefolgt von Wort auf -em gefolgt von groß geschriebenem Wort´´

Ergebnis auf folgender Folie

[word="einem|dem|seinem|ihrem|diesem|dem"][word="[a-z].+en"][word="[a-z].+em"][word="[A-Z].+"]

der Frauen mit seinem gewohnten nachrichtlichem Blick zu erfassen ,

Motivation für Wortarten-Tagging

Fazit• zu ``weite´´ Kriterien liefern zu viele

Ergebnisse – d.h. zu viele falsche Treffer

• zu ``enge´´ Kriterien liefern zu wenige Ergebnisse– d.h. zu viele richtige Treffer werden nicht

gefunden

Motivation für Wortarten-Tagging

• Und mit Wortarten-Tags?Suchausdruck:[pos="ADJA" & word=".+en"][pos="ADJA" & word=".+em"]

mit einem deutlich erhöhten gesundheitslichem Risiko . SieFrauen mit seinem gewohnten nachrichtlichem Blick zu erfassen

Motivation für Wortarten-Tagging

• ohne Wortarten-Tags umfasst die Menge der Ergebnisse entweder– alle richtigen Ergebnisse, aber auch viele

falsche (Übergenerierung)– nur richtige Ergebnisse, aber nicht alle

richtigen (Untergenerierung)

Motivation für Wortarten-Tagging

Übergenerierung

Menge der gesuchten Strukturen

Menge der Treffer

Motivation für Wortarten-Tagging

Untergenerierung

Menge der gesuchten Strukturen

Menge der Treffer

Definition Wortarten-Tagging

• Wortarten-Tagging ist die Zuweisung von Wortarten-Kennungen (Tags) an Wortformen (Tokens) im Text

• ein Token ist eine typischerweise durch Leerzeichen abgegrenzte Buchstaben-folge im Text– ein Token kommt also immer nur ``einmal´´

vor

Definition Wortarten-TaggingJohn/NEMack/NEträgt/VVFINseinen/PPOSATSpitznamen/NN"/$(das/ARTMesser/NN"/$(zu/APPRRecht/NN./$.

links Tokensrechts Tags

zwei Tokens,ein Type

Tagsets

• Zuweisung der Wortarten-Tags erfolgt durch eine endliche Menge von Tags, die eine Wortart oder Unterwortart beschreiben

• diese Menge nennt man Tagsets• Tagsets müssen

– Tags eindeutig definieren– jedes Token definieren können– Konventionen für Zweifelsfälle bereithalten

STTS

• einen Quasi-Standard beim Wortarten-Tagging stellt das STTS dar

• STTS = Stuttgart-Tübingen-Tagset• das STTS umfasst in seiner ``kleinen´´

Version 54 Tags• das STTS wird in einer Tagset-

Beschreibung (Guidelines) definiert

Hauptwortarten im STTS• 1. Nomina (N) Hund, Katze, Maus, Peter

• 2. Verben (V) arbeiten, beten, sollen, sein

• 3. Artikel (ART) der, die, das, ein

• 4. Adjektive (ADJ) schön, blöd, töfte

• 5. Pronomina (P) er, sie, es, sich, irgendein

• 6. Kardinalzahlen (CARD) zwei, 231.456, III

• 7. Adverbien (ADV) sehr, üblicherweise

• 8. Konjunktionen (KO) und, oder, dass, weil

• 9. Adpositionen (AP) mit, ohne, an ... entlang

• 10. Interjektionen (ITJ) oh weh, zapperlot

• 11. Partikeln (PTK) zu, wider, bitte

Kriterien für Definition von Tags

• Einteilung nach unterschiedlichen Kriterien– distributionelle: über/APPR die Straße

die Straße entlang/APPO– morphologische: findet/VVFIN,

gefunden/VVPP– semantische: Klaus/NE, Maus/NN

• Mischung der Kriterien kann zu unterschiedlichen Ergebnissen führen

• Einteilung ist theorieabhängig

Konventionen für Tagging

• Konventionen halten Vorgehen für strittige Fälle fest

• Sie müssen – eindeutig sein– intersubjektiv sein– möglichst vollständig sein

Beispiele für Konventionen

• einige Wörter tragen Merkmale verschiedener Wortarten ins sich

• Konventionen legen eindeutige Annotierung fest(1) eine gute/ADJA Idee(2) Das ist das Gute/NN daran.(3) der angemalte/ADJA Zaun(4) Man hat den Zaun angemalt/VVPP.

Umsetzung der KonventionenDie korrekte händische Annotation eines Korpus

erfordert die Einhaltung der Konventionen und folgender Regeln:

• Korpus wird zunächst unabhängig von zwei verschiedenen Annotatoren annotiert

• Ergebnisse werden gegeneinander abgeglichen und Inter Annotator Agreement gemessen(d.i. die Übereistimmung zwischen den Entscheidungen der unterschiedlichen Annotatoren)

• erst bei hinreichender Übereinstimmung wird nur noch von einem Linguisten annotiert

AnwendbarkeitFür ein Tagset müssen immer die Argumente des

linguistisch Wünschenswerten gegen die des technisch Machbaren abgewogen werden.

• hohes Inter Annotator Agreement muss erreichbar sein

• Einteilung der Klassen muss automatische Annotation mit niedriger Fehlerrate ermöglichen, d.h.– Klassen müssen auch automatisch klar

gegeneinander abgrenzbar sein– Klassen dürfen nicht zu selten auftreten, da sonst zu

geringe Trainingsdatenmenge für automatisches Lernen

Beispiel für KompromissEin Standardbeispiel für einen Kompromiss ist das Tag

ADJD im Standard-Tagset STTS.• Wörter, die sowohl als prädikatives Adjektiv als auch als

Adverb fungieren können, werden ADJD getaggt -losgelöst von ihrer jeweiligen Verwendung.

(1) Maria singt schön/ADJD. --> adverbial

(2) Maria ist schön/ADJD. --> prädikativ

Eine Aufteilung der beiden Lesarten wäre sowohl mit stochastischen als auch mit regelbasierten Verfahren nicht möglich.

Automatisches Tagging

Es gibt zwei Arten des automatischen Taggings:

• regelbasiertes Tagging– benötigt (handgeschriebene) Grammatik

• stochastisches Tagging– benötigt (handannotiertes) Trainings-Korpus

Regelbasiertes Tagging

• typischerweise zwei Ebenen für regelbasierte Tagger– Lexikon-Nachschlag weist Ambiguitätsklasse

zu– Grammatik-Regeln disambiguieren

Eine Ambiguitätsklasse ist die Menge aller Tags, die ein Wort losgelöst vom Kontext haben kann.

Regelbasiertes Tagging

Die/ART-PRELS-PDS Hose/NN sitzt/VVFIN schlecht/ADJD ./$.

• ``Constraints´´ schränken die Lesarten ein, z.B.:– kein Relativpronomen am Satzanfang– kein (substituierendes) Demonstrativ-

pronomen vor Nomen

Regelbasiertes Tagging

• Probleme regelbasierten Taggings:– Lexikon ist nie vollständig– es gibt kaum echte Constraints– Interaktion der Regeln schlecht überschaubar

Selten/ADJD trinkt/VVFIN die/ART-PRELS-PDS Milch/NN.

Stochastisches Tagging

• benötigt nur getaggtes Korpus als Trainingsdaten

• berechnet Übergangswahrscheinlichkeiten• weist wahrscheinlichstes Tag zu• kann auch Rangfolge zuweisen

Stochastisches Tagging

• zwei Arten von Wahrscheinlichkeiten1. Wahrscheinlichkeit für Tag in Bezug auf

vorausgehende(s) Tag(s) (distributionell)2. Wahrscheinlichkeit für Wort in Bezug auf

Tag (lexikalisch)

P (Tag|vorhergehende(s) Tag(s)) * (Wort|Tag)

Stochastisches Tagging(1) Ich/PPER bügle/VVFIN meine/PPOSAT-VVFIN

Hose/NN ./\$.(2) Ich/PPER meine/PPOSAT-VVFIN ,\$. das/PDS

ist/VAFIN falsch/ADJD .\$.• Es wird die Wahrscheinlichkeit, dass VVFIN

oder PPOSAT `meine' ist, multipliziert mit der Wahrscheinlichkeit, dass VVFIN oder PPOSAT entweder VVFIN (1) oder PPER (2) folgen.

• Höhere lexikalische Wahrscheinlichkeit von `meine' für PPOSAT wird in (2) durch höhere distributionelle Wahrscheinlichkeit von VVFIN nach PPER ausgeglichen.

Probleme stochastischen Taggings

• Wahrscheinlichkeit bedeutet nicht unbedingt Sicherheit

• Tagger sehr abhängig von Trainingskorpus

• Entscheidungen – typischerweise auf engen Kontext begrenzt– Entscheidungen des Taggers nicht

nachvollziehbar

Wortarten-Tagging

Besondere Relevanz für Korpuslinguistik• Korpora meist nicht hand-annotiert• daher können Tags fehlerhaft sein• dies muss in Interpretation der

Suchergebnisse berücksichtigt werden