25
Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014 Andreas Vogt E-Mail: avogt5 @ smail.uni-koeln.de

Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014

Embed Size (px)

Citation preview

Page 1: Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014

Linguistische Annotationen

Universitaumlt zu KoumllnStudiengang InformationsverarbeitungWS 201415HS AnnotationssystemeProf Dr Thaller

23 Oktober 2014

Andreas VogtE-Mail avogt5smailuni-koelnde

2

Gliederung

bull Wo werden linguistische Annotationen verwendetndash Was ist Korpuslinguistikndash Was ist ein Korpusndash Korpusabfragen

bull Welche linguistische Merkmale werden annotiertbull Wie werden linguistische Merkmale annotiert bzw

mit welchen System koumlnnen sie sinnvoll annotiert werden

23102014

Anforderungen an das Annotationssystem

3

Korpuslinguistik

bull Forschungsfeld zwischen Informatik Computerlinguistik und Linguistik

bull Aufbau der Aufbereitung und der Auswertung von (elektronischen) Korpora

bull Empirischer Ansatz in der Linguistik (harr Introspektion Sprecherurteile)

bull Korpora als empirische Basis fuumlr Theoriebildung und Uumlberpruumlfung theoretischer Annahmen an authentischen Sprachdaten

bull qualitative und quantitative Analysen23102014

4

Korpus

bdquoEin Korpus ist eine Sammlung schriftlicher oder gesprochener Aumluszligerungen Die Daten des Korpus sind typischerweise digitalisiert d h auf Rechnern gespeichert und maschinenlesbar Die Bestandteile des Korpus die Texte bestehen aus den Daten selbst sowie moumlglicherweise aus Metadaten die diese Daten beschreiben und aus linguistischen Annotationen die diesen Daten zugeordnet sindldquo

LemnitzerZinsmeister Korpuslinguistik Eine Einfuumlhrung S 7

23102014

5

Korpus

bull Primaumlrdaten (Textdokumente Gespraumlchstranskriptionen Bild- Ton- und Videodateien)

bull Metadaten (Titel Autor Erscheinungsdatum Ort bzw Aufnahmedatum -ort -dauer Gespraumlchsbeteiligte Anlass Transkriptionsstandard)

bull Linguistische Annotationenbull Werkzeuge zur Abfrage des Korpus

bull Korpus ne digitalisierte Textsammlungbull Korpus ne Suchwerkzeug im WWW23102014

6

GrundbegriffeGrundbegriffebull Token (Wortvorkommen) Jedes Vorkommen eines Wortes in einem fortlaufenden Text

bull Wortform Wort unabhaumlngig davon wie haumlufig es vorkommtbull Lexem semantisch bestimmte Wortschatzeinheiten Z B alle Formen des Verbs

bdquoseinldquo

Auf Grundlage der Primaumlrdaten kann eine Korpusabfrage nur auf den Wortformen operieren

-gt einfache Suche nach Strings oder Substrings-gt Mustersuche uumlber regulaumlre Ausdruumlcke

Homographieproblemkomplexere Analysen ermoumlglichen(z B Suche nach typischen Akkusativobjekten

zum Verb bdquofindenldquo)

23102014

7

Linguistische Annotationen

bdquoAls linguistische Annotation bezeichnet man Informationen zu linguistischen Merkmalen die den Primaumlrdaten des Korpus in digitaler Form beigefuumlgt sindldquo Storrer

Linguistische Merkmalebull Part-of-speech (POS Wortartenannotation)bull Lemmatisierungbull Semantische Lesartenbull Auszeichnung morphosyntaktischer Eigenschaftenbull Syntaktische Strukturen (Phrasen topologische Felder)bull Pragmatik Koreferenz

bull Weitere Merkmale z B Sprecher

23102014

Wortebene

Subwortebene

mehrere Woumlrter

Bezieht sich auf einzelne Woumlrter auch uumlber Satzgrenzen hinweg

Eine Aumluszligerung muss nicht mit Wort- oder Satzgrenzen zusammenfallen

8

Linguistische Annotationen 2

bull Auszeichnung erfolgt aufgrund des Umfangs der Korpora meist automatisiert POS-Tagging und Lemmatisierung funktionieren sehr gut die automatische Wortsinndisambiguierung wird zumindest besser

bull Fehler wird es bei der automatischen Annotierung immer geben Manuelle Korrektur ist wuumlnschenswert

-gt Umgang mit Fehlern Korrekturmoumlglichkeit bull Die Merkmalskategorien variieren mit dem

zugrundegelegten Grammatikmodell -gt allgemeines moumlglichst theorieneutrales

Auszeichnungssystem23102014

9

Part-of-Speech-Tagging

bull Tagset Legt das Inventar und die Bedeutung von (POS-)Tags fest

bull Stuttgart-Tuumlbingen-Tagset (STTS)httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSets

stts-1999pdf Kleines Tagset 54 TagszB ADJA attributives Adjektiv

PPOS PossesivpronomenNN AppelativaNE Eigennamen

Groszliges Tagset (inkl Morphologischer Informationen) Kombinatorisch mehrere Hundert bdquoTagsldquomit ganzemADJAPosMaskDatSgSt Einsatz

23102014

10

XML als Basis linguistischer Annotation

bull XML als Metasprache ist in der linguistischen Annotation fest etabliert

bull Es bestehen mehrere Standards zur linguistischen Annotation mit XML (TEI XCES)

bull XML findet Verwendung uandash BNC British National Corpus httpwwwnatcorpoxacuk

(TEI)ndash DeReKo Deutsches Referenz Korpus IDS Mannheim (IDS-

XCES)ndash DWDS Digitales Woumlrterbuch der deutschen Sprache

httpwwwdwdsde (TEI-P5)

23102014

11

Eignung von XML

bull Trennung von Primaumlrtext und Annotation durch xml-Struktur gegebenltannotation1 attr1=value1gt primaumlrtextltannotationgt

bull Formalismen zur Erstellung von Dokumentgrammatiken (dtd Relax-NG) die Anzahl und Art der Elemente ihre Verschachtelung und moumlgliche Attribute festlegen

bull Standards TEI XCEShellip meist generische Annotationsformate in Kombination mit festen Datenkategorien z B keine Festlegung auf ein bestimmtes POS-Tagset

23102014

12

Beispiel aus dem BNCltwtext type=FICTIONgt

ltpb n=5gt ltdiv level=1gt

ltheadgtlts n=1gt

ltw c5=NN1 hw=chapter pos=SUBSTgtCHAPTER ltwgt ltw c5=CRD hw=1 pos=ADJgt1ltwgt

ltsgtltheadgtltpgt

lts n=2gt ltc c5=PUQgtlsquoltcgt ltw c5=CJC hw=but pos=CONJgtButltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquo ltcgt ltw c5=VVD hw=say pos=VERBgtsaid ltwgt ltw c5=NP0 hw=owen pos=SUBSTgtOwenltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtlsquoltcgt ltw c5=AVQ hw=where pos=ADVgtwhere ltwgt ltw c5=VBZ hw=be pos=VERBgtis ltwgt ltw c5=AT0 hw=the pos=ARTgtthe ltwgt ltw c5=NN1 hw=body pos=SUBSTgtbodyltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquoltcgt

ltsgtltpgt

23102014

ltwtextgt written text

ltpbgt page breakltsgt sentenceltpgt paragraphltdivgt divisionltcgt punctuation markltwgt wordAttributec5 CLAWS5 Tagsethw rootStamm des Wortespos Part of Speech

Vgl httpwwwnatcorpoxacukdocsURGcdifbasehtmlcdifsgml

13

Einschraumlnkungen von XML

Nachteilebull Darstellung multipler sich uumlberlappender

Annotationen problematischbull Begrenzter semantischer Gehalt d h einzig

die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung

23102014

14

Uumlberlappende Annotationen 1

Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo

Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden

23102014

15

Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt

23102014

16

Uumlberlappende Annotationen 3

bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit

bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation

23102014

17

Loumlsungen

1 Multiple Dokumente

Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei

bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden

bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

18

Loumlsungen 2

2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile

ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar

bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen

23102014

19

Loumlsungen 3

3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen

bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien

moumlglichndash Widersprechende Auszeichnung moumlglich

bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

20

TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben

die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung

multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen

Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden

bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig

23102014

21

XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding

Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-

Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer

Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor

bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in

der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung

23102014

22

XCES Beispiel

Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any

formalacceptance of creed or system or of mistaking for a house in which to live an inn that

is butsuitable for the sojourn of a night in which there are no stars and the moon is in

travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis

In myfatherrsquos house are many mansionsTo get there you have to leave somewhere

elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt

23102014

Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt

23

XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt

23102014

24

Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und

Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)

bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr

bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)

bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)

23102014

25

Vielen Dank fuumlr Eure Aufmerksamkeit

23102014

  • Linguistische Annotationen
  • Gliederung
  • Korpuslinguistik
  • Korpus
  • Korpus (2)
  • Grundbegriffe
  • Linguistische Annotationen (2)
  • Linguistische Annotationen 2
  • Part-of-Speech-Tagging
  • XML als Basis linguistischer Annotation
  • Eignung von XML
  • Beispiel aus dem BNC
  • Einschraumlnkungen von XML
  • Uumlberlappende Annotationen 1
  • Uumlberlappende Annotationen 2
  • Uumlberlappende Annotationen 3
  • Loumlsungen
  • Loumlsungen 2
  • Loumlsungen 3
  • TEI
  • XCES
  • XCES Beispiel
  • XCES Beispiel 2
  • Quellen
  • Slide 25
Page 2: Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014

2

Gliederung

bull Wo werden linguistische Annotationen verwendetndash Was ist Korpuslinguistikndash Was ist ein Korpusndash Korpusabfragen

bull Welche linguistische Merkmale werden annotiertbull Wie werden linguistische Merkmale annotiert bzw

mit welchen System koumlnnen sie sinnvoll annotiert werden

23102014

Anforderungen an das Annotationssystem

3

Korpuslinguistik

bull Forschungsfeld zwischen Informatik Computerlinguistik und Linguistik

bull Aufbau der Aufbereitung und der Auswertung von (elektronischen) Korpora

bull Empirischer Ansatz in der Linguistik (harr Introspektion Sprecherurteile)

bull Korpora als empirische Basis fuumlr Theoriebildung und Uumlberpruumlfung theoretischer Annahmen an authentischen Sprachdaten

bull qualitative und quantitative Analysen23102014

4

Korpus

bdquoEin Korpus ist eine Sammlung schriftlicher oder gesprochener Aumluszligerungen Die Daten des Korpus sind typischerweise digitalisiert d h auf Rechnern gespeichert und maschinenlesbar Die Bestandteile des Korpus die Texte bestehen aus den Daten selbst sowie moumlglicherweise aus Metadaten die diese Daten beschreiben und aus linguistischen Annotationen die diesen Daten zugeordnet sindldquo

LemnitzerZinsmeister Korpuslinguistik Eine Einfuumlhrung S 7

23102014

5

Korpus

bull Primaumlrdaten (Textdokumente Gespraumlchstranskriptionen Bild- Ton- und Videodateien)

bull Metadaten (Titel Autor Erscheinungsdatum Ort bzw Aufnahmedatum -ort -dauer Gespraumlchsbeteiligte Anlass Transkriptionsstandard)

bull Linguistische Annotationenbull Werkzeuge zur Abfrage des Korpus

bull Korpus ne digitalisierte Textsammlungbull Korpus ne Suchwerkzeug im WWW23102014

6

GrundbegriffeGrundbegriffebull Token (Wortvorkommen) Jedes Vorkommen eines Wortes in einem fortlaufenden Text

bull Wortform Wort unabhaumlngig davon wie haumlufig es vorkommtbull Lexem semantisch bestimmte Wortschatzeinheiten Z B alle Formen des Verbs

bdquoseinldquo

Auf Grundlage der Primaumlrdaten kann eine Korpusabfrage nur auf den Wortformen operieren

-gt einfache Suche nach Strings oder Substrings-gt Mustersuche uumlber regulaumlre Ausdruumlcke

Homographieproblemkomplexere Analysen ermoumlglichen(z B Suche nach typischen Akkusativobjekten

zum Verb bdquofindenldquo)

23102014

7

Linguistische Annotationen

bdquoAls linguistische Annotation bezeichnet man Informationen zu linguistischen Merkmalen die den Primaumlrdaten des Korpus in digitaler Form beigefuumlgt sindldquo Storrer

Linguistische Merkmalebull Part-of-speech (POS Wortartenannotation)bull Lemmatisierungbull Semantische Lesartenbull Auszeichnung morphosyntaktischer Eigenschaftenbull Syntaktische Strukturen (Phrasen topologische Felder)bull Pragmatik Koreferenz

bull Weitere Merkmale z B Sprecher

23102014

Wortebene

Subwortebene

mehrere Woumlrter

Bezieht sich auf einzelne Woumlrter auch uumlber Satzgrenzen hinweg

Eine Aumluszligerung muss nicht mit Wort- oder Satzgrenzen zusammenfallen

8

Linguistische Annotationen 2

bull Auszeichnung erfolgt aufgrund des Umfangs der Korpora meist automatisiert POS-Tagging und Lemmatisierung funktionieren sehr gut die automatische Wortsinndisambiguierung wird zumindest besser

bull Fehler wird es bei der automatischen Annotierung immer geben Manuelle Korrektur ist wuumlnschenswert

-gt Umgang mit Fehlern Korrekturmoumlglichkeit bull Die Merkmalskategorien variieren mit dem

zugrundegelegten Grammatikmodell -gt allgemeines moumlglichst theorieneutrales

Auszeichnungssystem23102014

9

Part-of-Speech-Tagging

bull Tagset Legt das Inventar und die Bedeutung von (POS-)Tags fest

bull Stuttgart-Tuumlbingen-Tagset (STTS)httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSets

stts-1999pdf Kleines Tagset 54 TagszB ADJA attributives Adjektiv

PPOS PossesivpronomenNN AppelativaNE Eigennamen

Groszliges Tagset (inkl Morphologischer Informationen) Kombinatorisch mehrere Hundert bdquoTagsldquomit ganzemADJAPosMaskDatSgSt Einsatz

23102014

10

XML als Basis linguistischer Annotation

bull XML als Metasprache ist in der linguistischen Annotation fest etabliert

bull Es bestehen mehrere Standards zur linguistischen Annotation mit XML (TEI XCES)

bull XML findet Verwendung uandash BNC British National Corpus httpwwwnatcorpoxacuk

(TEI)ndash DeReKo Deutsches Referenz Korpus IDS Mannheim (IDS-

XCES)ndash DWDS Digitales Woumlrterbuch der deutschen Sprache

httpwwwdwdsde (TEI-P5)

23102014

11

Eignung von XML

bull Trennung von Primaumlrtext und Annotation durch xml-Struktur gegebenltannotation1 attr1=value1gt primaumlrtextltannotationgt

bull Formalismen zur Erstellung von Dokumentgrammatiken (dtd Relax-NG) die Anzahl und Art der Elemente ihre Verschachtelung und moumlgliche Attribute festlegen

bull Standards TEI XCEShellip meist generische Annotationsformate in Kombination mit festen Datenkategorien z B keine Festlegung auf ein bestimmtes POS-Tagset

23102014

12

Beispiel aus dem BNCltwtext type=FICTIONgt

ltpb n=5gt ltdiv level=1gt

ltheadgtlts n=1gt

ltw c5=NN1 hw=chapter pos=SUBSTgtCHAPTER ltwgt ltw c5=CRD hw=1 pos=ADJgt1ltwgt

ltsgtltheadgtltpgt

lts n=2gt ltc c5=PUQgtlsquoltcgt ltw c5=CJC hw=but pos=CONJgtButltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquo ltcgt ltw c5=VVD hw=say pos=VERBgtsaid ltwgt ltw c5=NP0 hw=owen pos=SUBSTgtOwenltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtlsquoltcgt ltw c5=AVQ hw=where pos=ADVgtwhere ltwgt ltw c5=VBZ hw=be pos=VERBgtis ltwgt ltw c5=AT0 hw=the pos=ARTgtthe ltwgt ltw c5=NN1 hw=body pos=SUBSTgtbodyltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquoltcgt

ltsgtltpgt

23102014

ltwtextgt written text

ltpbgt page breakltsgt sentenceltpgt paragraphltdivgt divisionltcgt punctuation markltwgt wordAttributec5 CLAWS5 Tagsethw rootStamm des Wortespos Part of Speech

Vgl httpwwwnatcorpoxacukdocsURGcdifbasehtmlcdifsgml

13

Einschraumlnkungen von XML

Nachteilebull Darstellung multipler sich uumlberlappender

Annotationen problematischbull Begrenzter semantischer Gehalt d h einzig

die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung

23102014

14

Uumlberlappende Annotationen 1

Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo

Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden

23102014

15

Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt

23102014

16

Uumlberlappende Annotationen 3

bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit

bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation

23102014

17

Loumlsungen

1 Multiple Dokumente

Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei

bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden

bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

18

Loumlsungen 2

2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile

ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar

bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen

23102014

19

Loumlsungen 3

3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen

bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien

moumlglichndash Widersprechende Auszeichnung moumlglich

bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

20

TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben

die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung

multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen

Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden

bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig

23102014

21

XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding

Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-

Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer

Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor

bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in

der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung

23102014

22

XCES Beispiel

Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any

formalacceptance of creed or system or of mistaking for a house in which to live an inn that

is butsuitable for the sojourn of a night in which there are no stars and the moon is in

travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis

In myfatherrsquos house are many mansionsTo get there you have to leave somewhere

elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt

23102014

Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt

23

XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt

23102014

24

Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und

Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)

bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr

bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)

bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)

23102014

25

Vielen Dank fuumlr Eure Aufmerksamkeit

23102014

  • Linguistische Annotationen
  • Gliederung
  • Korpuslinguistik
  • Korpus
  • Korpus (2)
  • Grundbegriffe
  • Linguistische Annotationen (2)
  • Linguistische Annotationen 2
  • Part-of-Speech-Tagging
  • XML als Basis linguistischer Annotation
  • Eignung von XML
  • Beispiel aus dem BNC
  • Einschraumlnkungen von XML
  • Uumlberlappende Annotationen 1
  • Uumlberlappende Annotationen 2
  • Uumlberlappende Annotationen 3
  • Loumlsungen
  • Loumlsungen 2
  • Loumlsungen 3
  • TEI
  • XCES
  • XCES Beispiel
  • XCES Beispiel 2
  • Quellen
  • Slide 25
Page 3: Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014

3

Korpuslinguistik

bull Forschungsfeld zwischen Informatik Computerlinguistik und Linguistik

bull Aufbau der Aufbereitung und der Auswertung von (elektronischen) Korpora

bull Empirischer Ansatz in der Linguistik (harr Introspektion Sprecherurteile)

bull Korpora als empirische Basis fuumlr Theoriebildung und Uumlberpruumlfung theoretischer Annahmen an authentischen Sprachdaten

bull qualitative und quantitative Analysen23102014

4

Korpus

bdquoEin Korpus ist eine Sammlung schriftlicher oder gesprochener Aumluszligerungen Die Daten des Korpus sind typischerweise digitalisiert d h auf Rechnern gespeichert und maschinenlesbar Die Bestandteile des Korpus die Texte bestehen aus den Daten selbst sowie moumlglicherweise aus Metadaten die diese Daten beschreiben und aus linguistischen Annotationen die diesen Daten zugeordnet sindldquo

LemnitzerZinsmeister Korpuslinguistik Eine Einfuumlhrung S 7

23102014

5

Korpus

bull Primaumlrdaten (Textdokumente Gespraumlchstranskriptionen Bild- Ton- und Videodateien)

bull Metadaten (Titel Autor Erscheinungsdatum Ort bzw Aufnahmedatum -ort -dauer Gespraumlchsbeteiligte Anlass Transkriptionsstandard)

bull Linguistische Annotationenbull Werkzeuge zur Abfrage des Korpus

bull Korpus ne digitalisierte Textsammlungbull Korpus ne Suchwerkzeug im WWW23102014

6

GrundbegriffeGrundbegriffebull Token (Wortvorkommen) Jedes Vorkommen eines Wortes in einem fortlaufenden Text

bull Wortform Wort unabhaumlngig davon wie haumlufig es vorkommtbull Lexem semantisch bestimmte Wortschatzeinheiten Z B alle Formen des Verbs

bdquoseinldquo

Auf Grundlage der Primaumlrdaten kann eine Korpusabfrage nur auf den Wortformen operieren

-gt einfache Suche nach Strings oder Substrings-gt Mustersuche uumlber regulaumlre Ausdruumlcke

Homographieproblemkomplexere Analysen ermoumlglichen(z B Suche nach typischen Akkusativobjekten

zum Verb bdquofindenldquo)

23102014

7

Linguistische Annotationen

bdquoAls linguistische Annotation bezeichnet man Informationen zu linguistischen Merkmalen die den Primaumlrdaten des Korpus in digitaler Form beigefuumlgt sindldquo Storrer

Linguistische Merkmalebull Part-of-speech (POS Wortartenannotation)bull Lemmatisierungbull Semantische Lesartenbull Auszeichnung morphosyntaktischer Eigenschaftenbull Syntaktische Strukturen (Phrasen topologische Felder)bull Pragmatik Koreferenz

bull Weitere Merkmale z B Sprecher

23102014

Wortebene

Subwortebene

mehrere Woumlrter

Bezieht sich auf einzelne Woumlrter auch uumlber Satzgrenzen hinweg

Eine Aumluszligerung muss nicht mit Wort- oder Satzgrenzen zusammenfallen

8

Linguistische Annotationen 2

bull Auszeichnung erfolgt aufgrund des Umfangs der Korpora meist automatisiert POS-Tagging und Lemmatisierung funktionieren sehr gut die automatische Wortsinndisambiguierung wird zumindest besser

bull Fehler wird es bei der automatischen Annotierung immer geben Manuelle Korrektur ist wuumlnschenswert

-gt Umgang mit Fehlern Korrekturmoumlglichkeit bull Die Merkmalskategorien variieren mit dem

zugrundegelegten Grammatikmodell -gt allgemeines moumlglichst theorieneutrales

Auszeichnungssystem23102014

9

Part-of-Speech-Tagging

bull Tagset Legt das Inventar und die Bedeutung von (POS-)Tags fest

bull Stuttgart-Tuumlbingen-Tagset (STTS)httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSets

stts-1999pdf Kleines Tagset 54 TagszB ADJA attributives Adjektiv

PPOS PossesivpronomenNN AppelativaNE Eigennamen

Groszliges Tagset (inkl Morphologischer Informationen) Kombinatorisch mehrere Hundert bdquoTagsldquomit ganzemADJAPosMaskDatSgSt Einsatz

23102014

10

XML als Basis linguistischer Annotation

bull XML als Metasprache ist in der linguistischen Annotation fest etabliert

bull Es bestehen mehrere Standards zur linguistischen Annotation mit XML (TEI XCES)

bull XML findet Verwendung uandash BNC British National Corpus httpwwwnatcorpoxacuk

(TEI)ndash DeReKo Deutsches Referenz Korpus IDS Mannheim (IDS-

XCES)ndash DWDS Digitales Woumlrterbuch der deutschen Sprache

httpwwwdwdsde (TEI-P5)

23102014

11

Eignung von XML

bull Trennung von Primaumlrtext und Annotation durch xml-Struktur gegebenltannotation1 attr1=value1gt primaumlrtextltannotationgt

bull Formalismen zur Erstellung von Dokumentgrammatiken (dtd Relax-NG) die Anzahl und Art der Elemente ihre Verschachtelung und moumlgliche Attribute festlegen

bull Standards TEI XCEShellip meist generische Annotationsformate in Kombination mit festen Datenkategorien z B keine Festlegung auf ein bestimmtes POS-Tagset

23102014

12

Beispiel aus dem BNCltwtext type=FICTIONgt

ltpb n=5gt ltdiv level=1gt

ltheadgtlts n=1gt

ltw c5=NN1 hw=chapter pos=SUBSTgtCHAPTER ltwgt ltw c5=CRD hw=1 pos=ADJgt1ltwgt

ltsgtltheadgtltpgt

lts n=2gt ltc c5=PUQgtlsquoltcgt ltw c5=CJC hw=but pos=CONJgtButltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquo ltcgt ltw c5=VVD hw=say pos=VERBgtsaid ltwgt ltw c5=NP0 hw=owen pos=SUBSTgtOwenltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtlsquoltcgt ltw c5=AVQ hw=where pos=ADVgtwhere ltwgt ltw c5=VBZ hw=be pos=VERBgtis ltwgt ltw c5=AT0 hw=the pos=ARTgtthe ltwgt ltw c5=NN1 hw=body pos=SUBSTgtbodyltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquoltcgt

ltsgtltpgt

23102014

ltwtextgt written text

ltpbgt page breakltsgt sentenceltpgt paragraphltdivgt divisionltcgt punctuation markltwgt wordAttributec5 CLAWS5 Tagsethw rootStamm des Wortespos Part of Speech

Vgl httpwwwnatcorpoxacukdocsURGcdifbasehtmlcdifsgml

13

Einschraumlnkungen von XML

Nachteilebull Darstellung multipler sich uumlberlappender

Annotationen problematischbull Begrenzter semantischer Gehalt d h einzig

die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung

23102014

14

Uumlberlappende Annotationen 1

Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo

Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden

23102014

15

Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt

23102014

16

Uumlberlappende Annotationen 3

bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit

bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation

23102014

17

Loumlsungen

1 Multiple Dokumente

Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei

bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden

bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

18

Loumlsungen 2

2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile

ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar

bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen

23102014

19

Loumlsungen 3

3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen

bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien

moumlglichndash Widersprechende Auszeichnung moumlglich

bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

20

TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben

die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung

multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen

Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden

bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig

23102014

21

XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding

Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-

Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer

Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor

bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in

der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung

23102014

22

XCES Beispiel

Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any

formalacceptance of creed or system or of mistaking for a house in which to live an inn that

is butsuitable for the sojourn of a night in which there are no stars and the moon is in

travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis

In myfatherrsquos house are many mansionsTo get there you have to leave somewhere

elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt

23102014

Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt

23

XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt

23102014

24

Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und

Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)

bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr

bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)

bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)

23102014

25

Vielen Dank fuumlr Eure Aufmerksamkeit

23102014

  • Linguistische Annotationen
  • Gliederung
  • Korpuslinguistik
  • Korpus
  • Korpus (2)
  • Grundbegriffe
  • Linguistische Annotationen (2)
  • Linguistische Annotationen 2
  • Part-of-Speech-Tagging
  • XML als Basis linguistischer Annotation
  • Eignung von XML
  • Beispiel aus dem BNC
  • Einschraumlnkungen von XML
  • Uumlberlappende Annotationen 1
  • Uumlberlappende Annotationen 2
  • Uumlberlappende Annotationen 3
  • Loumlsungen
  • Loumlsungen 2
  • Loumlsungen 3
  • TEI
  • XCES
  • XCES Beispiel
  • XCES Beispiel 2
  • Quellen
  • Slide 25
Page 4: Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014

4

Korpus

bdquoEin Korpus ist eine Sammlung schriftlicher oder gesprochener Aumluszligerungen Die Daten des Korpus sind typischerweise digitalisiert d h auf Rechnern gespeichert und maschinenlesbar Die Bestandteile des Korpus die Texte bestehen aus den Daten selbst sowie moumlglicherweise aus Metadaten die diese Daten beschreiben und aus linguistischen Annotationen die diesen Daten zugeordnet sindldquo

LemnitzerZinsmeister Korpuslinguistik Eine Einfuumlhrung S 7

23102014

5

Korpus

bull Primaumlrdaten (Textdokumente Gespraumlchstranskriptionen Bild- Ton- und Videodateien)

bull Metadaten (Titel Autor Erscheinungsdatum Ort bzw Aufnahmedatum -ort -dauer Gespraumlchsbeteiligte Anlass Transkriptionsstandard)

bull Linguistische Annotationenbull Werkzeuge zur Abfrage des Korpus

bull Korpus ne digitalisierte Textsammlungbull Korpus ne Suchwerkzeug im WWW23102014

6

GrundbegriffeGrundbegriffebull Token (Wortvorkommen) Jedes Vorkommen eines Wortes in einem fortlaufenden Text

bull Wortform Wort unabhaumlngig davon wie haumlufig es vorkommtbull Lexem semantisch bestimmte Wortschatzeinheiten Z B alle Formen des Verbs

bdquoseinldquo

Auf Grundlage der Primaumlrdaten kann eine Korpusabfrage nur auf den Wortformen operieren

-gt einfache Suche nach Strings oder Substrings-gt Mustersuche uumlber regulaumlre Ausdruumlcke

Homographieproblemkomplexere Analysen ermoumlglichen(z B Suche nach typischen Akkusativobjekten

zum Verb bdquofindenldquo)

23102014

7

Linguistische Annotationen

bdquoAls linguistische Annotation bezeichnet man Informationen zu linguistischen Merkmalen die den Primaumlrdaten des Korpus in digitaler Form beigefuumlgt sindldquo Storrer

Linguistische Merkmalebull Part-of-speech (POS Wortartenannotation)bull Lemmatisierungbull Semantische Lesartenbull Auszeichnung morphosyntaktischer Eigenschaftenbull Syntaktische Strukturen (Phrasen topologische Felder)bull Pragmatik Koreferenz

bull Weitere Merkmale z B Sprecher

23102014

Wortebene

Subwortebene

mehrere Woumlrter

Bezieht sich auf einzelne Woumlrter auch uumlber Satzgrenzen hinweg

Eine Aumluszligerung muss nicht mit Wort- oder Satzgrenzen zusammenfallen

8

Linguistische Annotationen 2

bull Auszeichnung erfolgt aufgrund des Umfangs der Korpora meist automatisiert POS-Tagging und Lemmatisierung funktionieren sehr gut die automatische Wortsinndisambiguierung wird zumindest besser

bull Fehler wird es bei der automatischen Annotierung immer geben Manuelle Korrektur ist wuumlnschenswert

-gt Umgang mit Fehlern Korrekturmoumlglichkeit bull Die Merkmalskategorien variieren mit dem

zugrundegelegten Grammatikmodell -gt allgemeines moumlglichst theorieneutrales

Auszeichnungssystem23102014

9

Part-of-Speech-Tagging

bull Tagset Legt das Inventar und die Bedeutung von (POS-)Tags fest

bull Stuttgart-Tuumlbingen-Tagset (STTS)httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSets

stts-1999pdf Kleines Tagset 54 TagszB ADJA attributives Adjektiv

PPOS PossesivpronomenNN AppelativaNE Eigennamen

Groszliges Tagset (inkl Morphologischer Informationen) Kombinatorisch mehrere Hundert bdquoTagsldquomit ganzemADJAPosMaskDatSgSt Einsatz

23102014

10

XML als Basis linguistischer Annotation

bull XML als Metasprache ist in der linguistischen Annotation fest etabliert

bull Es bestehen mehrere Standards zur linguistischen Annotation mit XML (TEI XCES)

bull XML findet Verwendung uandash BNC British National Corpus httpwwwnatcorpoxacuk

(TEI)ndash DeReKo Deutsches Referenz Korpus IDS Mannheim (IDS-

XCES)ndash DWDS Digitales Woumlrterbuch der deutschen Sprache

httpwwwdwdsde (TEI-P5)

23102014

11

Eignung von XML

bull Trennung von Primaumlrtext und Annotation durch xml-Struktur gegebenltannotation1 attr1=value1gt primaumlrtextltannotationgt

bull Formalismen zur Erstellung von Dokumentgrammatiken (dtd Relax-NG) die Anzahl und Art der Elemente ihre Verschachtelung und moumlgliche Attribute festlegen

bull Standards TEI XCEShellip meist generische Annotationsformate in Kombination mit festen Datenkategorien z B keine Festlegung auf ein bestimmtes POS-Tagset

23102014

12

Beispiel aus dem BNCltwtext type=FICTIONgt

ltpb n=5gt ltdiv level=1gt

ltheadgtlts n=1gt

ltw c5=NN1 hw=chapter pos=SUBSTgtCHAPTER ltwgt ltw c5=CRD hw=1 pos=ADJgt1ltwgt

ltsgtltheadgtltpgt

lts n=2gt ltc c5=PUQgtlsquoltcgt ltw c5=CJC hw=but pos=CONJgtButltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquo ltcgt ltw c5=VVD hw=say pos=VERBgtsaid ltwgt ltw c5=NP0 hw=owen pos=SUBSTgtOwenltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtlsquoltcgt ltw c5=AVQ hw=where pos=ADVgtwhere ltwgt ltw c5=VBZ hw=be pos=VERBgtis ltwgt ltw c5=AT0 hw=the pos=ARTgtthe ltwgt ltw c5=NN1 hw=body pos=SUBSTgtbodyltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquoltcgt

ltsgtltpgt

23102014

ltwtextgt written text

ltpbgt page breakltsgt sentenceltpgt paragraphltdivgt divisionltcgt punctuation markltwgt wordAttributec5 CLAWS5 Tagsethw rootStamm des Wortespos Part of Speech

Vgl httpwwwnatcorpoxacukdocsURGcdifbasehtmlcdifsgml

13

Einschraumlnkungen von XML

Nachteilebull Darstellung multipler sich uumlberlappender

Annotationen problematischbull Begrenzter semantischer Gehalt d h einzig

die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung

23102014

14

Uumlberlappende Annotationen 1

Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo

Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden

23102014

15

Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt

23102014

16

Uumlberlappende Annotationen 3

bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit

bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation

23102014

17

Loumlsungen

1 Multiple Dokumente

Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei

bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden

bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

18

Loumlsungen 2

2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile

ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar

bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen

23102014

19

Loumlsungen 3

3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen

bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien

moumlglichndash Widersprechende Auszeichnung moumlglich

bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

20

TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben

die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung

multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen

Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden

bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig

23102014

21

XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding

Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-

Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer

Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor

bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in

der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung

23102014

22

XCES Beispiel

Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any

formalacceptance of creed or system or of mistaking for a house in which to live an inn that

is butsuitable for the sojourn of a night in which there are no stars and the moon is in

travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis

In myfatherrsquos house are many mansionsTo get there you have to leave somewhere

elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt

23102014

Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt

23

XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt

23102014

24

Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und

Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)

bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr

bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)

bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)

23102014

25

Vielen Dank fuumlr Eure Aufmerksamkeit

23102014

  • Linguistische Annotationen
  • Gliederung
  • Korpuslinguistik
  • Korpus
  • Korpus (2)
  • Grundbegriffe
  • Linguistische Annotationen (2)
  • Linguistische Annotationen 2
  • Part-of-Speech-Tagging
  • XML als Basis linguistischer Annotation
  • Eignung von XML
  • Beispiel aus dem BNC
  • Einschraumlnkungen von XML
  • Uumlberlappende Annotationen 1
  • Uumlberlappende Annotationen 2
  • Uumlberlappende Annotationen 3
  • Loumlsungen
  • Loumlsungen 2
  • Loumlsungen 3
  • TEI
  • XCES
  • XCES Beispiel
  • XCES Beispiel 2
  • Quellen
  • Slide 25
Page 5: Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014

5

Korpus

bull Primaumlrdaten (Textdokumente Gespraumlchstranskriptionen Bild- Ton- und Videodateien)

bull Metadaten (Titel Autor Erscheinungsdatum Ort bzw Aufnahmedatum -ort -dauer Gespraumlchsbeteiligte Anlass Transkriptionsstandard)

bull Linguistische Annotationenbull Werkzeuge zur Abfrage des Korpus

bull Korpus ne digitalisierte Textsammlungbull Korpus ne Suchwerkzeug im WWW23102014

6

GrundbegriffeGrundbegriffebull Token (Wortvorkommen) Jedes Vorkommen eines Wortes in einem fortlaufenden Text

bull Wortform Wort unabhaumlngig davon wie haumlufig es vorkommtbull Lexem semantisch bestimmte Wortschatzeinheiten Z B alle Formen des Verbs

bdquoseinldquo

Auf Grundlage der Primaumlrdaten kann eine Korpusabfrage nur auf den Wortformen operieren

-gt einfache Suche nach Strings oder Substrings-gt Mustersuche uumlber regulaumlre Ausdruumlcke

Homographieproblemkomplexere Analysen ermoumlglichen(z B Suche nach typischen Akkusativobjekten

zum Verb bdquofindenldquo)

23102014

7

Linguistische Annotationen

bdquoAls linguistische Annotation bezeichnet man Informationen zu linguistischen Merkmalen die den Primaumlrdaten des Korpus in digitaler Form beigefuumlgt sindldquo Storrer

Linguistische Merkmalebull Part-of-speech (POS Wortartenannotation)bull Lemmatisierungbull Semantische Lesartenbull Auszeichnung morphosyntaktischer Eigenschaftenbull Syntaktische Strukturen (Phrasen topologische Felder)bull Pragmatik Koreferenz

bull Weitere Merkmale z B Sprecher

23102014

Wortebene

Subwortebene

mehrere Woumlrter

Bezieht sich auf einzelne Woumlrter auch uumlber Satzgrenzen hinweg

Eine Aumluszligerung muss nicht mit Wort- oder Satzgrenzen zusammenfallen

8

Linguistische Annotationen 2

bull Auszeichnung erfolgt aufgrund des Umfangs der Korpora meist automatisiert POS-Tagging und Lemmatisierung funktionieren sehr gut die automatische Wortsinndisambiguierung wird zumindest besser

bull Fehler wird es bei der automatischen Annotierung immer geben Manuelle Korrektur ist wuumlnschenswert

-gt Umgang mit Fehlern Korrekturmoumlglichkeit bull Die Merkmalskategorien variieren mit dem

zugrundegelegten Grammatikmodell -gt allgemeines moumlglichst theorieneutrales

Auszeichnungssystem23102014

9

Part-of-Speech-Tagging

bull Tagset Legt das Inventar und die Bedeutung von (POS-)Tags fest

bull Stuttgart-Tuumlbingen-Tagset (STTS)httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSets

stts-1999pdf Kleines Tagset 54 TagszB ADJA attributives Adjektiv

PPOS PossesivpronomenNN AppelativaNE Eigennamen

Groszliges Tagset (inkl Morphologischer Informationen) Kombinatorisch mehrere Hundert bdquoTagsldquomit ganzemADJAPosMaskDatSgSt Einsatz

23102014

10

XML als Basis linguistischer Annotation

bull XML als Metasprache ist in der linguistischen Annotation fest etabliert

bull Es bestehen mehrere Standards zur linguistischen Annotation mit XML (TEI XCES)

bull XML findet Verwendung uandash BNC British National Corpus httpwwwnatcorpoxacuk

(TEI)ndash DeReKo Deutsches Referenz Korpus IDS Mannheim (IDS-

XCES)ndash DWDS Digitales Woumlrterbuch der deutschen Sprache

httpwwwdwdsde (TEI-P5)

23102014

11

Eignung von XML

bull Trennung von Primaumlrtext und Annotation durch xml-Struktur gegebenltannotation1 attr1=value1gt primaumlrtextltannotationgt

bull Formalismen zur Erstellung von Dokumentgrammatiken (dtd Relax-NG) die Anzahl und Art der Elemente ihre Verschachtelung und moumlgliche Attribute festlegen

bull Standards TEI XCEShellip meist generische Annotationsformate in Kombination mit festen Datenkategorien z B keine Festlegung auf ein bestimmtes POS-Tagset

23102014

12

Beispiel aus dem BNCltwtext type=FICTIONgt

ltpb n=5gt ltdiv level=1gt

ltheadgtlts n=1gt

ltw c5=NN1 hw=chapter pos=SUBSTgtCHAPTER ltwgt ltw c5=CRD hw=1 pos=ADJgt1ltwgt

ltsgtltheadgtltpgt

lts n=2gt ltc c5=PUQgtlsquoltcgt ltw c5=CJC hw=but pos=CONJgtButltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquo ltcgt ltw c5=VVD hw=say pos=VERBgtsaid ltwgt ltw c5=NP0 hw=owen pos=SUBSTgtOwenltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtlsquoltcgt ltw c5=AVQ hw=where pos=ADVgtwhere ltwgt ltw c5=VBZ hw=be pos=VERBgtis ltwgt ltw c5=AT0 hw=the pos=ARTgtthe ltwgt ltw c5=NN1 hw=body pos=SUBSTgtbodyltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquoltcgt

ltsgtltpgt

23102014

ltwtextgt written text

ltpbgt page breakltsgt sentenceltpgt paragraphltdivgt divisionltcgt punctuation markltwgt wordAttributec5 CLAWS5 Tagsethw rootStamm des Wortespos Part of Speech

Vgl httpwwwnatcorpoxacukdocsURGcdifbasehtmlcdifsgml

13

Einschraumlnkungen von XML

Nachteilebull Darstellung multipler sich uumlberlappender

Annotationen problematischbull Begrenzter semantischer Gehalt d h einzig

die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung

23102014

14

Uumlberlappende Annotationen 1

Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo

Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden

23102014

15

Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt

23102014

16

Uumlberlappende Annotationen 3

bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit

bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation

23102014

17

Loumlsungen

1 Multiple Dokumente

Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei

bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden

bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

18

Loumlsungen 2

2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile

ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar

bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen

23102014

19

Loumlsungen 3

3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen

bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien

moumlglichndash Widersprechende Auszeichnung moumlglich

bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

20

TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben

die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung

multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen

Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden

bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig

23102014

21

XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding

Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-

Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer

Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor

bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in

der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung

23102014

22

XCES Beispiel

Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any

formalacceptance of creed or system or of mistaking for a house in which to live an inn that

is butsuitable for the sojourn of a night in which there are no stars and the moon is in

travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis

In myfatherrsquos house are many mansionsTo get there you have to leave somewhere

elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt

23102014

Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt

23

XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt

23102014

24

Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und

Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)

bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr

bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)

bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)

23102014

25

Vielen Dank fuumlr Eure Aufmerksamkeit

23102014

  • Linguistische Annotationen
  • Gliederung
  • Korpuslinguistik
  • Korpus
  • Korpus (2)
  • Grundbegriffe
  • Linguistische Annotationen (2)
  • Linguistische Annotationen 2
  • Part-of-Speech-Tagging
  • XML als Basis linguistischer Annotation
  • Eignung von XML
  • Beispiel aus dem BNC
  • Einschraumlnkungen von XML
  • Uumlberlappende Annotationen 1
  • Uumlberlappende Annotationen 2
  • Uumlberlappende Annotationen 3
  • Loumlsungen
  • Loumlsungen 2
  • Loumlsungen 3
  • TEI
  • XCES
  • XCES Beispiel
  • XCES Beispiel 2
  • Quellen
  • Slide 25
Page 6: Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014

6

GrundbegriffeGrundbegriffebull Token (Wortvorkommen) Jedes Vorkommen eines Wortes in einem fortlaufenden Text

bull Wortform Wort unabhaumlngig davon wie haumlufig es vorkommtbull Lexem semantisch bestimmte Wortschatzeinheiten Z B alle Formen des Verbs

bdquoseinldquo

Auf Grundlage der Primaumlrdaten kann eine Korpusabfrage nur auf den Wortformen operieren

-gt einfache Suche nach Strings oder Substrings-gt Mustersuche uumlber regulaumlre Ausdruumlcke

Homographieproblemkomplexere Analysen ermoumlglichen(z B Suche nach typischen Akkusativobjekten

zum Verb bdquofindenldquo)

23102014

7

Linguistische Annotationen

bdquoAls linguistische Annotation bezeichnet man Informationen zu linguistischen Merkmalen die den Primaumlrdaten des Korpus in digitaler Form beigefuumlgt sindldquo Storrer

Linguistische Merkmalebull Part-of-speech (POS Wortartenannotation)bull Lemmatisierungbull Semantische Lesartenbull Auszeichnung morphosyntaktischer Eigenschaftenbull Syntaktische Strukturen (Phrasen topologische Felder)bull Pragmatik Koreferenz

bull Weitere Merkmale z B Sprecher

23102014

Wortebene

Subwortebene

mehrere Woumlrter

Bezieht sich auf einzelne Woumlrter auch uumlber Satzgrenzen hinweg

Eine Aumluszligerung muss nicht mit Wort- oder Satzgrenzen zusammenfallen

8

Linguistische Annotationen 2

bull Auszeichnung erfolgt aufgrund des Umfangs der Korpora meist automatisiert POS-Tagging und Lemmatisierung funktionieren sehr gut die automatische Wortsinndisambiguierung wird zumindest besser

bull Fehler wird es bei der automatischen Annotierung immer geben Manuelle Korrektur ist wuumlnschenswert

-gt Umgang mit Fehlern Korrekturmoumlglichkeit bull Die Merkmalskategorien variieren mit dem

zugrundegelegten Grammatikmodell -gt allgemeines moumlglichst theorieneutrales

Auszeichnungssystem23102014

9

Part-of-Speech-Tagging

bull Tagset Legt das Inventar und die Bedeutung von (POS-)Tags fest

bull Stuttgart-Tuumlbingen-Tagset (STTS)httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSets

stts-1999pdf Kleines Tagset 54 TagszB ADJA attributives Adjektiv

PPOS PossesivpronomenNN AppelativaNE Eigennamen

Groszliges Tagset (inkl Morphologischer Informationen) Kombinatorisch mehrere Hundert bdquoTagsldquomit ganzemADJAPosMaskDatSgSt Einsatz

23102014

10

XML als Basis linguistischer Annotation

bull XML als Metasprache ist in der linguistischen Annotation fest etabliert

bull Es bestehen mehrere Standards zur linguistischen Annotation mit XML (TEI XCES)

bull XML findet Verwendung uandash BNC British National Corpus httpwwwnatcorpoxacuk

(TEI)ndash DeReKo Deutsches Referenz Korpus IDS Mannheim (IDS-

XCES)ndash DWDS Digitales Woumlrterbuch der deutschen Sprache

httpwwwdwdsde (TEI-P5)

23102014

11

Eignung von XML

bull Trennung von Primaumlrtext und Annotation durch xml-Struktur gegebenltannotation1 attr1=value1gt primaumlrtextltannotationgt

bull Formalismen zur Erstellung von Dokumentgrammatiken (dtd Relax-NG) die Anzahl und Art der Elemente ihre Verschachtelung und moumlgliche Attribute festlegen

bull Standards TEI XCEShellip meist generische Annotationsformate in Kombination mit festen Datenkategorien z B keine Festlegung auf ein bestimmtes POS-Tagset

23102014

12

Beispiel aus dem BNCltwtext type=FICTIONgt

ltpb n=5gt ltdiv level=1gt

ltheadgtlts n=1gt

ltw c5=NN1 hw=chapter pos=SUBSTgtCHAPTER ltwgt ltw c5=CRD hw=1 pos=ADJgt1ltwgt

ltsgtltheadgtltpgt

lts n=2gt ltc c5=PUQgtlsquoltcgt ltw c5=CJC hw=but pos=CONJgtButltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquo ltcgt ltw c5=VVD hw=say pos=VERBgtsaid ltwgt ltw c5=NP0 hw=owen pos=SUBSTgtOwenltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtlsquoltcgt ltw c5=AVQ hw=where pos=ADVgtwhere ltwgt ltw c5=VBZ hw=be pos=VERBgtis ltwgt ltw c5=AT0 hw=the pos=ARTgtthe ltwgt ltw c5=NN1 hw=body pos=SUBSTgtbodyltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquoltcgt

ltsgtltpgt

23102014

ltwtextgt written text

ltpbgt page breakltsgt sentenceltpgt paragraphltdivgt divisionltcgt punctuation markltwgt wordAttributec5 CLAWS5 Tagsethw rootStamm des Wortespos Part of Speech

Vgl httpwwwnatcorpoxacukdocsURGcdifbasehtmlcdifsgml

13

Einschraumlnkungen von XML

Nachteilebull Darstellung multipler sich uumlberlappender

Annotationen problematischbull Begrenzter semantischer Gehalt d h einzig

die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung

23102014

14

Uumlberlappende Annotationen 1

Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo

Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden

23102014

15

Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt

23102014

16

Uumlberlappende Annotationen 3

bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit

bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation

23102014

17

Loumlsungen

1 Multiple Dokumente

Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei

bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden

bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

18

Loumlsungen 2

2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile

ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar

bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen

23102014

19

Loumlsungen 3

3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen

bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien

moumlglichndash Widersprechende Auszeichnung moumlglich

bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

20

TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben

die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung

multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen

Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden

bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig

23102014

21

XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding

Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-

Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer

Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor

bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in

der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung

23102014

22

XCES Beispiel

Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any

formalacceptance of creed or system or of mistaking for a house in which to live an inn that

is butsuitable for the sojourn of a night in which there are no stars and the moon is in

travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis

In myfatherrsquos house are many mansionsTo get there you have to leave somewhere

elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt

23102014

Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt

23

XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt

23102014

24

Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und

Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)

bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr

bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)

bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)

23102014

25

Vielen Dank fuumlr Eure Aufmerksamkeit

23102014

  • Linguistische Annotationen
  • Gliederung
  • Korpuslinguistik
  • Korpus
  • Korpus (2)
  • Grundbegriffe
  • Linguistische Annotationen (2)
  • Linguistische Annotationen 2
  • Part-of-Speech-Tagging
  • XML als Basis linguistischer Annotation
  • Eignung von XML
  • Beispiel aus dem BNC
  • Einschraumlnkungen von XML
  • Uumlberlappende Annotationen 1
  • Uumlberlappende Annotationen 2
  • Uumlberlappende Annotationen 3
  • Loumlsungen
  • Loumlsungen 2
  • Loumlsungen 3
  • TEI
  • XCES
  • XCES Beispiel
  • XCES Beispiel 2
  • Quellen
  • Slide 25
Page 7: Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014

7

Linguistische Annotationen

bdquoAls linguistische Annotation bezeichnet man Informationen zu linguistischen Merkmalen die den Primaumlrdaten des Korpus in digitaler Form beigefuumlgt sindldquo Storrer

Linguistische Merkmalebull Part-of-speech (POS Wortartenannotation)bull Lemmatisierungbull Semantische Lesartenbull Auszeichnung morphosyntaktischer Eigenschaftenbull Syntaktische Strukturen (Phrasen topologische Felder)bull Pragmatik Koreferenz

bull Weitere Merkmale z B Sprecher

23102014

Wortebene

Subwortebene

mehrere Woumlrter

Bezieht sich auf einzelne Woumlrter auch uumlber Satzgrenzen hinweg

Eine Aumluszligerung muss nicht mit Wort- oder Satzgrenzen zusammenfallen

8

Linguistische Annotationen 2

bull Auszeichnung erfolgt aufgrund des Umfangs der Korpora meist automatisiert POS-Tagging und Lemmatisierung funktionieren sehr gut die automatische Wortsinndisambiguierung wird zumindest besser

bull Fehler wird es bei der automatischen Annotierung immer geben Manuelle Korrektur ist wuumlnschenswert

-gt Umgang mit Fehlern Korrekturmoumlglichkeit bull Die Merkmalskategorien variieren mit dem

zugrundegelegten Grammatikmodell -gt allgemeines moumlglichst theorieneutrales

Auszeichnungssystem23102014

9

Part-of-Speech-Tagging

bull Tagset Legt das Inventar und die Bedeutung von (POS-)Tags fest

bull Stuttgart-Tuumlbingen-Tagset (STTS)httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSets

stts-1999pdf Kleines Tagset 54 TagszB ADJA attributives Adjektiv

PPOS PossesivpronomenNN AppelativaNE Eigennamen

Groszliges Tagset (inkl Morphologischer Informationen) Kombinatorisch mehrere Hundert bdquoTagsldquomit ganzemADJAPosMaskDatSgSt Einsatz

23102014

10

XML als Basis linguistischer Annotation

bull XML als Metasprache ist in der linguistischen Annotation fest etabliert

bull Es bestehen mehrere Standards zur linguistischen Annotation mit XML (TEI XCES)

bull XML findet Verwendung uandash BNC British National Corpus httpwwwnatcorpoxacuk

(TEI)ndash DeReKo Deutsches Referenz Korpus IDS Mannheim (IDS-

XCES)ndash DWDS Digitales Woumlrterbuch der deutschen Sprache

httpwwwdwdsde (TEI-P5)

23102014

11

Eignung von XML

bull Trennung von Primaumlrtext und Annotation durch xml-Struktur gegebenltannotation1 attr1=value1gt primaumlrtextltannotationgt

bull Formalismen zur Erstellung von Dokumentgrammatiken (dtd Relax-NG) die Anzahl und Art der Elemente ihre Verschachtelung und moumlgliche Attribute festlegen

bull Standards TEI XCEShellip meist generische Annotationsformate in Kombination mit festen Datenkategorien z B keine Festlegung auf ein bestimmtes POS-Tagset

23102014

12

Beispiel aus dem BNCltwtext type=FICTIONgt

ltpb n=5gt ltdiv level=1gt

ltheadgtlts n=1gt

ltw c5=NN1 hw=chapter pos=SUBSTgtCHAPTER ltwgt ltw c5=CRD hw=1 pos=ADJgt1ltwgt

ltsgtltheadgtltpgt

lts n=2gt ltc c5=PUQgtlsquoltcgt ltw c5=CJC hw=but pos=CONJgtButltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquo ltcgt ltw c5=VVD hw=say pos=VERBgtsaid ltwgt ltw c5=NP0 hw=owen pos=SUBSTgtOwenltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtlsquoltcgt ltw c5=AVQ hw=where pos=ADVgtwhere ltwgt ltw c5=VBZ hw=be pos=VERBgtis ltwgt ltw c5=AT0 hw=the pos=ARTgtthe ltwgt ltw c5=NN1 hw=body pos=SUBSTgtbodyltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquoltcgt

ltsgtltpgt

23102014

ltwtextgt written text

ltpbgt page breakltsgt sentenceltpgt paragraphltdivgt divisionltcgt punctuation markltwgt wordAttributec5 CLAWS5 Tagsethw rootStamm des Wortespos Part of Speech

Vgl httpwwwnatcorpoxacukdocsURGcdifbasehtmlcdifsgml

13

Einschraumlnkungen von XML

Nachteilebull Darstellung multipler sich uumlberlappender

Annotationen problematischbull Begrenzter semantischer Gehalt d h einzig

die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung

23102014

14

Uumlberlappende Annotationen 1

Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo

Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden

23102014

15

Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt

23102014

16

Uumlberlappende Annotationen 3

bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit

bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation

23102014

17

Loumlsungen

1 Multiple Dokumente

Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei

bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden

bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

18

Loumlsungen 2

2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile

ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar

bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen

23102014

19

Loumlsungen 3

3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen

bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien

moumlglichndash Widersprechende Auszeichnung moumlglich

bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

20

TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben

die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung

multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen

Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden

bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig

23102014

21

XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding

Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-

Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer

Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor

bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in

der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung

23102014

22

XCES Beispiel

Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any

formalacceptance of creed or system or of mistaking for a house in which to live an inn that

is butsuitable for the sojourn of a night in which there are no stars and the moon is in

travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis

In myfatherrsquos house are many mansionsTo get there you have to leave somewhere

elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt

23102014

Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt

23

XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt

23102014

24

Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und

Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)

bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr

bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)

bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)

23102014

25

Vielen Dank fuumlr Eure Aufmerksamkeit

23102014

  • Linguistische Annotationen
  • Gliederung
  • Korpuslinguistik
  • Korpus
  • Korpus (2)
  • Grundbegriffe
  • Linguistische Annotationen (2)
  • Linguistische Annotationen 2
  • Part-of-Speech-Tagging
  • XML als Basis linguistischer Annotation
  • Eignung von XML
  • Beispiel aus dem BNC
  • Einschraumlnkungen von XML
  • Uumlberlappende Annotationen 1
  • Uumlberlappende Annotationen 2
  • Uumlberlappende Annotationen 3
  • Loumlsungen
  • Loumlsungen 2
  • Loumlsungen 3
  • TEI
  • XCES
  • XCES Beispiel
  • XCES Beispiel 2
  • Quellen
  • Slide 25
Page 8: Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014

8

Linguistische Annotationen 2

bull Auszeichnung erfolgt aufgrund des Umfangs der Korpora meist automatisiert POS-Tagging und Lemmatisierung funktionieren sehr gut die automatische Wortsinndisambiguierung wird zumindest besser

bull Fehler wird es bei der automatischen Annotierung immer geben Manuelle Korrektur ist wuumlnschenswert

-gt Umgang mit Fehlern Korrekturmoumlglichkeit bull Die Merkmalskategorien variieren mit dem

zugrundegelegten Grammatikmodell -gt allgemeines moumlglichst theorieneutrales

Auszeichnungssystem23102014

9

Part-of-Speech-Tagging

bull Tagset Legt das Inventar und die Bedeutung von (POS-)Tags fest

bull Stuttgart-Tuumlbingen-Tagset (STTS)httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSets

stts-1999pdf Kleines Tagset 54 TagszB ADJA attributives Adjektiv

PPOS PossesivpronomenNN AppelativaNE Eigennamen

Groszliges Tagset (inkl Morphologischer Informationen) Kombinatorisch mehrere Hundert bdquoTagsldquomit ganzemADJAPosMaskDatSgSt Einsatz

23102014

10

XML als Basis linguistischer Annotation

bull XML als Metasprache ist in der linguistischen Annotation fest etabliert

bull Es bestehen mehrere Standards zur linguistischen Annotation mit XML (TEI XCES)

bull XML findet Verwendung uandash BNC British National Corpus httpwwwnatcorpoxacuk

(TEI)ndash DeReKo Deutsches Referenz Korpus IDS Mannheim (IDS-

XCES)ndash DWDS Digitales Woumlrterbuch der deutschen Sprache

httpwwwdwdsde (TEI-P5)

23102014

11

Eignung von XML

bull Trennung von Primaumlrtext und Annotation durch xml-Struktur gegebenltannotation1 attr1=value1gt primaumlrtextltannotationgt

bull Formalismen zur Erstellung von Dokumentgrammatiken (dtd Relax-NG) die Anzahl und Art der Elemente ihre Verschachtelung und moumlgliche Attribute festlegen

bull Standards TEI XCEShellip meist generische Annotationsformate in Kombination mit festen Datenkategorien z B keine Festlegung auf ein bestimmtes POS-Tagset

23102014

12

Beispiel aus dem BNCltwtext type=FICTIONgt

ltpb n=5gt ltdiv level=1gt

ltheadgtlts n=1gt

ltw c5=NN1 hw=chapter pos=SUBSTgtCHAPTER ltwgt ltw c5=CRD hw=1 pos=ADJgt1ltwgt

ltsgtltheadgtltpgt

lts n=2gt ltc c5=PUQgtlsquoltcgt ltw c5=CJC hw=but pos=CONJgtButltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquo ltcgt ltw c5=VVD hw=say pos=VERBgtsaid ltwgt ltw c5=NP0 hw=owen pos=SUBSTgtOwenltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtlsquoltcgt ltw c5=AVQ hw=where pos=ADVgtwhere ltwgt ltw c5=VBZ hw=be pos=VERBgtis ltwgt ltw c5=AT0 hw=the pos=ARTgtthe ltwgt ltw c5=NN1 hw=body pos=SUBSTgtbodyltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquoltcgt

ltsgtltpgt

23102014

ltwtextgt written text

ltpbgt page breakltsgt sentenceltpgt paragraphltdivgt divisionltcgt punctuation markltwgt wordAttributec5 CLAWS5 Tagsethw rootStamm des Wortespos Part of Speech

Vgl httpwwwnatcorpoxacukdocsURGcdifbasehtmlcdifsgml

13

Einschraumlnkungen von XML

Nachteilebull Darstellung multipler sich uumlberlappender

Annotationen problematischbull Begrenzter semantischer Gehalt d h einzig

die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung

23102014

14

Uumlberlappende Annotationen 1

Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo

Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden

23102014

15

Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt

23102014

16

Uumlberlappende Annotationen 3

bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit

bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation

23102014

17

Loumlsungen

1 Multiple Dokumente

Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei

bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden

bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

18

Loumlsungen 2

2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile

ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar

bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen

23102014

19

Loumlsungen 3

3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen

bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien

moumlglichndash Widersprechende Auszeichnung moumlglich

bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

20

TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben

die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung

multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen

Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden

bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig

23102014

21

XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding

Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-

Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer

Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor

bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in

der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung

23102014

22

XCES Beispiel

Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any

formalacceptance of creed or system or of mistaking for a house in which to live an inn that

is butsuitable for the sojourn of a night in which there are no stars and the moon is in

travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis

In myfatherrsquos house are many mansionsTo get there you have to leave somewhere

elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt

23102014

Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt

23

XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt

23102014

24

Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und

Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)

bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr

bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)

bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)

23102014

25

Vielen Dank fuumlr Eure Aufmerksamkeit

23102014

  • Linguistische Annotationen
  • Gliederung
  • Korpuslinguistik
  • Korpus
  • Korpus (2)
  • Grundbegriffe
  • Linguistische Annotationen (2)
  • Linguistische Annotationen 2
  • Part-of-Speech-Tagging
  • XML als Basis linguistischer Annotation
  • Eignung von XML
  • Beispiel aus dem BNC
  • Einschraumlnkungen von XML
  • Uumlberlappende Annotationen 1
  • Uumlberlappende Annotationen 2
  • Uumlberlappende Annotationen 3
  • Loumlsungen
  • Loumlsungen 2
  • Loumlsungen 3
  • TEI
  • XCES
  • XCES Beispiel
  • XCES Beispiel 2
  • Quellen
  • Slide 25
Page 9: Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014

9

Part-of-Speech-Tagging

bull Tagset Legt das Inventar und die Bedeutung von (POS-)Tags fest

bull Stuttgart-Tuumlbingen-Tagset (STTS)httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSets

stts-1999pdf Kleines Tagset 54 TagszB ADJA attributives Adjektiv

PPOS PossesivpronomenNN AppelativaNE Eigennamen

Groszliges Tagset (inkl Morphologischer Informationen) Kombinatorisch mehrere Hundert bdquoTagsldquomit ganzemADJAPosMaskDatSgSt Einsatz

23102014

10

XML als Basis linguistischer Annotation

bull XML als Metasprache ist in der linguistischen Annotation fest etabliert

bull Es bestehen mehrere Standards zur linguistischen Annotation mit XML (TEI XCES)

bull XML findet Verwendung uandash BNC British National Corpus httpwwwnatcorpoxacuk

(TEI)ndash DeReKo Deutsches Referenz Korpus IDS Mannheim (IDS-

XCES)ndash DWDS Digitales Woumlrterbuch der deutschen Sprache

httpwwwdwdsde (TEI-P5)

23102014

11

Eignung von XML

bull Trennung von Primaumlrtext und Annotation durch xml-Struktur gegebenltannotation1 attr1=value1gt primaumlrtextltannotationgt

bull Formalismen zur Erstellung von Dokumentgrammatiken (dtd Relax-NG) die Anzahl und Art der Elemente ihre Verschachtelung und moumlgliche Attribute festlegen

bull Standards TEI XCEShellip meist generische Annotationsformate in Kombination mit festen Datenkategorien z B keine Festlegung auf ein bestimmtes POS-Tagset

23102014

12

Beispiel aus dem BNCltwtext type=FICTIONgt

ltpb n=5gt ltdiv level=1gt

ltheadgtlts n=1gt

ltw c5=NN1 hw=chapter pos=SUBSTgtCHAPTER ltwgt ltw c5=CRD hw=1 pos=ADJgt1ltwgt

ltsgtltheadgtltpgt

lts n=2gt ltc c5=PUQgtlsquoltcgt ltw c5=CJC hw=but pos=CONJgtButltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquo ltcgt ltw c5=VVD hw=say pos=VERBgtsaid ltwgt ltw c5=NP0 hw=owen pos=SUBSTgtOwenltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtlsquoltcgt ltw c5=AVQ hw=where pos=ADVgtwhere ltwgt ltw c5=VBZ hw=be pos=VERBgtis ltwgt ltw c5=AT0 hw=the pos=ARTgtthe ltwgt ltw c5=NN1 hw=body pos=SUBSTgtbodyltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquoltcgt

ltsgtltpgt

23102014

ltwtextgt written text

ltpbgt page breakltsgt sentenceltpgt paragraphltdivgt divisionltcgt punctuation markltwgt wordAttributec5 CLAWS5 Tagsethw rootStamm des Wortespos Part of Speech

Vgl httpwwwnatcorpoxacukdocsURGcdifbasehtmlcdifsgml

13

Einschraumlnkungen von XML

Nachteilebull Darstellung multipler sich uumlberlappender

Annotationen problematischbull Begrenzter semantischer Gehalt d h einzig

die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung

23102014

14

Uumlberlappende Annotationen 1

Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo

Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden

23102014

15

Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt

23102014

16

Uumlberlappende Annotationen 3

bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit

bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation

23102014

17

Loumlsungen

1 Multiple Dokumente

Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei

bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden

bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

18

Loumlsungen 2

2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile

ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar

bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen

23102014

19

Loumlsungen 3

3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen

bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien

moumlglichndash Widersprechende Auszeichnung moumlglich

bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

20

TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben

die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung

multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen

Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden

bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig

23102014

21

XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding

Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-

Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer

Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor

bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in

der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung

23102014

22

XCES Beispiel

Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any

formalacceptance of creed or system or of mistaking for a house in which to live an inn that

is butsuitable for the sojourn of a night in which there are no stars and the moon is in

travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis

In myfatherrsquos house are many mansionsTo get there you have to leave somewhere

elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt

23102014

Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt

23

XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt

23102014

24

Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und

Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)

bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr

bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)

bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)

23102014

25

Vielen Dank fuumlr Eure Aufmerksamkeit

23102014

  • Linguistische Annotationen
  • Gliederung
  • Korpuslinguistik
  • Korpus
  • Korpus (2)
  • Grundbegriffe
  • Linguistische Annotationen (2)
  • Linguistische Annotationen 2
  • Part-of-Speech-Tagging
  • XML als Basis linguistischer Annotation
  • Eignung von XML
  • Beispiel aus dem BNC
  • Einschraumlnkungen von XML
  • Uumlberlappende Annotationen 1
  • Uumlberlappende Annotationen 2
  • Uumlberlappende Annotationen 3
  • Loumlsungen
  • Loumlsungen 2
  • Loumlsungen 3
  • TEI
  • XCES
  • XCES Beispiel
  • XCES Beispiel 2
  • Quellen
  • Slide 25
Page 10: Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014

10

XML als Basis linguistischer Annotation

bull XML als Metasprache ist in der linguistischen Annotation fest etabliert

bull Es bestehen mehrere Standards zur linguistischen Annotation mit XML (TEI XCES)

bull XML findet Verwendung uandash BNC British National Corpus httpwwwnatcorpoxacuk

(TEI)ndash DeReKo Deutsches Referenz Korpus IDS Mannheim (IDS-

XCES)ndash DWDS Digitales Woumlrterbuch der deutschen Sprache

httpwwwdwdsde (TEI-P5)

23102014

11

Eignung von XML

bull Trennung von Primaumlrtext und Annotation durch xml-Struktur gegebenltannotation1 attr1=value1gt primaumlrtextltannotationgt

bull Formalismen zur Erstellung von Dokumentgrammatiken (dtd Relax-NG) die Anzahl und Art der Elemente ihre Verschachtelung und moumlgliche Attribute festlegen

bull Standards TEI XCEShellip meist generische Annotationsformate in Kombination mit festen Datenkategorien z B keine Festlegung auf ein bestimmtes POS-Tagset

23102014

12

Beispiel aus dem BNCltwtext type=FICTIONgt

ltpb n=5gt ltdiv level=1gt

ltheadgtlts n=1gt

ltw c5=NN1 hw=chapter pos=SUBSTgtCHAPTER ltwgt ltw c5=CRD hw=1 pos=ADJgt1ltwgt

ltsgtltheadgtltpgt

lts n=2gt ltc c5=PUQgtlsquoltcgt ltw c5=CJC hw=but pos=CONJgtButltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquo ltcgt ltw c5=VVD hw=say pos=VERBgtsaid ltwgt ltw c5=NP0 hw=owen pos=SUBSTgtOwenltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtlsquoltcgt ltw c5=AVQ hw=where pos=ADVgtwhere ltwgt ltw c5=VBZ hw=be pos=VERBgtis ltwgt ltw c5=AT0 hw=the pos=ARTgtthe ltwgt ltw c5=NN1 hw=body pos=SUBSTgtbodyltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquoltcgt

ltsgtltpgt

23102014

ltwtextgt written text

ltpbgt page breakltsgt sentenceltpgt paragraphltdivgt divisionltcgt punctuation markltwgt wordAttributec5 CLAWS5 Tagsethw rootStamm des Wortespos Part of Speech

Vgl httpwwwnatcorpoxacukdocsURGcdifbasehtmlcdifsgml

13

Einschraumlnkungen von XML

Nachteilebull Darstellung multipler sich uumlberlappender

Annotationen problematischbull Begrenzter semantischer Gehalt d h einzig

die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung

23102014

14

Uumlberlappende Annotationen 1

Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo

Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden

23102014

15

Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt

23102014

16

Uumlberlappende Annotationen 3

bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit

bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation

23102014

17

Loumlsungen

1 Multiple Dokumente

Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei

bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden

bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

18

Loumlsungen 2

2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile

ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar

bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen

23102014

19

Loumlsungen 3

3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen

bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien

moumlglichndash Widersprechende Auszeichnung moumlglich

bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

20

TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben

die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung

multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen

Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden

bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig

23102014

21

XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding

Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-

Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer

Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor

bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in

der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung

23102014

22

XCES Beispiel

Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any

formalacceptance of creed or system or of mistaking for a house in which to live an inn that

is butsuitable for the sojourn of a night in which there are no stars and the moon is in

travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis

In myfatherrsquos house are many mansionsTo get there you have to leave somewhere

elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt

23102014

Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt

23

XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt

23102014

24

Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und

Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)

bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr

bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)

bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)

23102014

25

Vielen Dank fuumlr Eure Aufmerksamkeit

23102014

  • Linguistische Annotationen
  • Gliederung
  • Korpuslinguistik
  • Korpus
  • Korpus (2)
  • Grundbegriffe
  • Linguistische Annotationen (2)
  • Linguistische Annotationen 2
  • Part-of-Speech-Tagging
  • XML als Basis linguistischer Annotation
  • Eignung von XML
  • Beispiel aus dem BNC
  • Einschraumlnkungen von XML
  • Uumlberlappende Annotationen 1
  • Uumlberlappende Annotationen 2
  • Uumlberlappende Annotationen 3
  • Loumlsungen
  • Loumlsungen 2
  • Loumlsungen 3
  • TEI
  • XCES
  • XCES Beispiel
  • XCES Beispiel 2
  • Quellen
  • Slide 25
Page 11: Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014

11

Eignung von XML

bull Trennung von Primaumlrtext und Annotation durch xml-Struktur gegebenltannotation1 attr1=value1gt primaumlrtextltannotationgt

bull Formalismen zur Erstellung von Dokumentgrammatiken (dtd Relax-NG) die Anzahl und Art der Elemente ihre Verschachtelung und moumlgliche Attribute festlegen

bull Standards TEI XCEShellip meist generische Annotationsformate in Kombination mit festen Datenkategorien z B keine Festlegung auf ein bestimmtes POS-Tagset

23102014

12

Beispiel aus dem BNCltwtext type=FICTIONgt

ltpb n=5gt ltdiv level=1gt

ltheadgtlts n=1gt

ltw c5=NN1 hw=chapter pos=SUBSTgtCHAPTER ltwgt ltw c5=CRD hw=1 pos=ADJgt1ltwgt

ltsgtltheadgtltpgt

lts n=2gt ltc c5=PUQgtlsquoltcgt ltw c5=CJC hw=but pos=CONJgtButltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquo ltcgt ltw c5=VVD hw=say pos=VERBgtsaid ltwgt ltw c5=NP0 hw=owen pos=SUBSTgtOwenltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtlsquoltcgt ltw c5=AVQ hw=where pos=ADVgtwhere ltwgt ltw c5=VBZ hw=be pos=VERBgtis ltwgt ltw c5=AT0 hw=the pos=ARTgtthe ltwgt ltw c5=NN1 hw=body pos=SUBSTgtbodyltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquoltcgt

ltsgtltpgt

23102014

ltwtextgt written text

ltpbgt page breakltsgt sentenceltpgt paragraphltdivgt divisionltcgt punctuation markltwgt wordAttributec5 CLAWS5 Tagsethw rootStamm des Wortespos Part of Speech

Vgl httpwwwnatcorpoxacukdocsURGcdifbasehtmlcdifsgml

13

Einschraumlnkungen von XML

Nachteilebull Darstellung multipler sich uumlberlappender

Annotationen problematischbull Begrenzter semantischer Gehalt d h einzig

die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung

23102014

14

Uumlberlappende Annotationen 1

Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo

Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden

23102014

15

Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt

23102014

16

Uumlberlappende Annotationen 3

bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit

bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation

23102014

17

Loumlsungen

1 Multiple Dokumente

Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei

bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden

bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

18

Loumlsungen 2

2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile

ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar

bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen

23102014

19

Loumlsungen 3

3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen

bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien

moumlglichndash Widersprechende Auszeichnung moumlglich

bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

20

TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben

die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung

multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen

Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden

bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig

23102014

21

XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding

Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-

Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer

Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor

bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in

der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung

23102014

22

XCES Beispiel

Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any

formalacceptance of creed or system or of mistaking for a house in which to live an inn that

is butsuitable for the sojourn of a night in which there are no stars and the moon is in

travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis

In myfatherrsquos house are many mansionsTo get there you have to leave somewhere

elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt

23102014

Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt

23

XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt

23102014

24

Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und

Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)

bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr

bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)

bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)

23102014

25

Vielen Dank fuumlr Eure Aufmerksamkeit

23102014

  • Linguistische Annotationen
  • Gliederung
  • Korpuslinguistik
  • Korpus
  • Korpus (2)
  • Grundbegriffe
  • Linguistische Annotationen (2)
  • Linguistische Annotationen 2
  • Part-of-Speech-Tagging
  • XML als Basis linguistischer Annotation
  • Eignung von XML
  • Beispiel aus dem BNC
  • Einschraumlnkungen von XML
  • Uumlberlappende Annotationen 1
  • Uumlberlappende Annotationen 2
  • Uumlberlappende Annotationen 3
  • Loumlsungen
  • Loumlsungen 2
  • Loumlsungen 3
  • TEI
  • XCES
  • XCES Beispiel
  • XCES Beispiel 2
  • Quellen
  • Slide 25
Page 12: Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014

12

Beispiel aus dem BNCltwtext type=FICTIONgt

ltpb n=5gt ltdiv level=1gt

ltheadgtlts n=1gt

ltw c5=NN1 hw=chapter pos=SUBSTgtCHAPTER ltwgt ltw c5=CRD hw=1 pos=ADJgt1ltwgt

ltsgtltheadgtltpgt

lts n=2gt ltc c5=PUQgtlsquoltcgt ltw c5=CJC hw=but pos=CONJgtButltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquo ltcgt ltw c5=VVD hw=say pos=VERBgtsaid ltwgt ltw c5=NP0 hw=owen pos=SUBSTgtOwenltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtlsquoltcgt ltw c5=AVQ hw=where pos=ADVgtwhere ltwgt ltw c5=VBZ hw=be pos=VERBgtis ltwgt ltw c5=AT0 hw=the pos=ARTgtthe ltwgt ltw c5=NN1 hw=body pos=SUBSTgtbodyltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquoltcgt

ltsgtltpgt

23102014

ltwtextgt written text

ltpbgt page breakltsgt sentenceltpgt paragraphltdivgt divisionltcgt punctuation markltwgt wordAttributec5 CLAWS5 Tagsethw rootStamm des Wortespos Part of Speech

Vgl httpwwwnatcorpoxacukdocsURGcdifbasehtmlcdifsgml

13

Einschraumlnkungen von XML

Nachteilebull Darstellung multipler sich uumlberlappender

Annotationen problematischbull Begrenzter semantischer Gehalt d h einzig

die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung

23102014

14

Uumlberlappende Annotationen 1

Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo

Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden

23102014

15

Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt

23102014

16

Uumlberlappende Annotationen 3

bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit

bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation

23102014

17

Loumlsungen

1 Multiple Dokumente

Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei

bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden

bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

18

Loumlsungen 2

2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile

ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar

bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen

23102014

19

Loumlsungen 3

3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen

bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien

moumlglichndash Widersprechende Auszeichnung moumlglich

bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

20

TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben

die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung

multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen

Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden

bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig

23102014

21

XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding

Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-

Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer

Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor

bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in

der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung

23102014

22

XCES Beispiel

Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any

formalacceptance of creed or system or of mistaking for a house in which to live an inn that

is butsuitable for the sojourn of a night in which there are no stars and the moon is in

travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis

In myfatherrsquos house are many mansionsTo get there you have to leave somewhere

elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt

23102014

Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt

23

XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt

23102014

24

Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und

Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)

bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr

bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)

bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)

23102014

25

Vielen Dank fuumlr Eure Aufmerksamkeit

23102014

  • Linguistische Annotationen
  • Gliederung
  • Korpuslinguistik
  • Korpus
  • Korpus (2)
  • Grundbegriffe
  • Linguistische Annotationen (2)
  • Linguistische Annotationen 2
  • Part-of-Speech-Tagging
  • XML als Basis linguistischer Annotation
  • Eignung von XML
  • Beispiel aus dem BNC
  • Einschraumlnkungen von XML
  • Uumlberlappende Annotationen 1
  • Uumlberlappende Annotationen 2
  • Uumlberlappende Annotationen 3
  • Loumlsungen
  • Loumlsungen 2
  • Loumlsungen 3
  • TEI
  • XCES
  • XCES Beispiel
  • XCES Beispiel 2
  • Quellen
  • Slide 25
Page 13: Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014

13

Einschraumlnkungen von XML

Nachteilebull Darstellung multipler sich uumlberlappender

Annotationen problematischbull Begrenzter semantischer Gehalt d h einzig

die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung

23102014

14

Uumlberlappende Annotationen 1

Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo

Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden

23102014

15

Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt

23102014

16

Uumlberlappende Annotationen 3

bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit

bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation

23102014

17

Loumlsungen

1 Multiple Dokumente

Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei

bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden

bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

18

Loumlsungen 2

2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile

ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar

bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen

23102014

19

Loumlsungen 3

3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen

bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien

moumlglichndash Widersprechende Auszeichnung moumlglich

bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

20

TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben

die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung

multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen

Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden

bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig

23102014

21

XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding

Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-

Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer

Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor

bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in

der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung

23102014

22

XCES Beispiel

Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any

formalacceptance of creed or system or of mistaking for a house in which to live an inn that

is butsuitable for the sojourn of a night in which there are no stars and the moon is in

travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis

In myfatherrsquos house are many mansionsTo get there you have to leave somewhere

elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt

23102014

Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt

23

XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt

23102014

24

Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und

Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)

bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr

bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)

bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)

23102014

25

Vielen Dank fuumlr Eure Aufmerksamkeit

23102014

  • Linguistische Annotationen
  • Gliederung
  • Korpuslinguistik
  • Korpus
  • Korpus (2)
  • Grundbegriffe
  • Linguistische Annotationen (2)
  • Linguistische Annotationen 2
  • Part-of-Speech-Tagging
  • XML als Basis linguistischer Annotation
  • Eignung von XML
  • Beispiel aus dem BNC
  • Einschraumlnkungen von XML
  • Uumlberlappende Annotationen 1
  • Uumlberlappende Annotationen 2
  • Uumlberlappende Annotationen 3
  • Loumlsungen
  • Loumlsungen 2
  • Loumlsungen 3
  • TEI
  • XCES
  • XCES Beispiel
  • XCES Beispiel 2
  • Quellen
  • Slide 25
Page 14: Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014

14

Uumlberlappende Annotationen 1

Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo

Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden

23102014

15

Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt

23102014

16

Uumlberlappende Annotationen 3

bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit

bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation

23102014

17

Loumlsungen

1 Multiple Dokumente

Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei

bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden

bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

18

Loumlsungen 2

2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile

ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar

bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen

23102014

19

Loumlsungen 3

3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen

bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien

moumlglichndash Widersprechende Auszeichnung moumlglich

bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

20

TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben

die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung

multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen

Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden

bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig

23102014

21

XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding

Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-

Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer

Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor

bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in

der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung

23102014

22

XCES Beispiel

Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any

formalacceptance of creed or system or of mistaking for a house in which to live an inn that

is butsuitable for the sojourn of a night in which there are no stars and the moon is in

travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis

In myfatherrsquos house are many mansionsTo get there you have to leave somewhere

elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt

23102014

Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt

23

XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt

23102014

24

Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und

Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)

bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr

bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)

bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)

23102014

25

Vielen Dank fuumlr Eure Aufmerksamkeit

23102014

  • Linguistische Annotationen
  • Gliederung
  • Korpuslinguistik
  • Korpus
  • Korpus (2)
  • Grundbegriffe
  • Linguistische Annotationen (2)
  • Linguistische Annotationen 2
  • Part-of-Speech-Tagging
  • XML als Basis linguistischer Annotation
  • Eignung von XML
  • Beispiel aus dem BNC
  • Einschraumlnkungen von XML
  • Uumlberlappende Annotationen 1
  • Uumlberlappende Annotationen 2
  • Uumlberlappende Annotationen 3
  • Loumlsungen
  • Loumlsungen 2
  • Loumlsungen 3
  • TEI
  • XCES
  • XCES Beispiel
  • XCES Beispiel 2
  • Quellen
  • Slide 25
Page 15: Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014

15

Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt

23102014

16

Uumlberlappende Annotationen 3

bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit

bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation

23102014

17

Loumlsungen

1 Multiple Dokumente

Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei

bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden

bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

18

Loumlsungen 2

2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile

ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar

bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen

23102014

19

Loumlsungen 3

3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen

bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien

moumlglichndash Widersprechende Auszeichnung moumlglich

bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

20

TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben

die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung

multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen

Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden

bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig

23102014

21

XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding

Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-

Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer

Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor

bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in

der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung

23102014

22

XCES Beispiel

Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any

formalacceptance of creed or system or of mistaking for a house in which to live an inn that

is butsuitable for the sojourn of a night in which there are no stars and the moon is in

travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis

In myfatherrsquos house are many mansionsTo get there you have to leave somewhere

elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt

23102014

Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt

23

XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt

23102014

24

Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und

Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)

bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr

bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)

bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)

23102014

25

Vielen Dank fuumlr Eure Aufmerksamkeit

23102014

  • Linguistische Annotationen
  • Gliederung
  • Korpuslinguistik
  • Korpus
  • Korpus (2)
  • Grundbegriffe
  • Linguistische Annotationen (2)
  • Linguistische Annotationen 2
  • Part-of-Speech-Tagging
  • XML als Basis linguistischer Annotation
  • Eignung von XML
  • Beispiel aus dem BNC
  • Einschraumlnkungen von XML
  • Uumlberlappende Annotationen 1
  • Uumlberlappende Annotationen 2
  • Uumlberlappende Annotationen 3
  • Loumlsungen
  • Loumlsungen 2
  • Loumlsungen 3
  • TEI
  • XCES
  • XCES Beispiel
  • XCES Beispiel 2
  • Quellen
  • Slide 25
Page 16: Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014

16

Uumlberlappende Annotationen 3

bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit

bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation

23102014

17

Loumlsungen

1 Multiple Dokumente

Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei

bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden

bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

18

Loumlsungen 2

2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile

ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar

bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen

23102014

19

Loumlsungen 3

3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen

bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien

moumlglichndash Widersprechende Auszeichnung moumlglich

bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

20

TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben

die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung

multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen

Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden

bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig

23102014

21

XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding

Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-

Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer

Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor

bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in

der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung

23102014

22

XCES Beispiel

Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any

formalacceptance of creed or system or of mistaking for a house in which to live an inn that

is butsuitable for the sojourn of a night in which there are no stars and the moon is in

travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis

In myfatherrsquos house are many mansionsTo get there you have to leave somewhere

elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt

23102014

Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt

23

XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt

23102014

24

Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und

Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)

bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr

bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)

bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)

23102014

25

Vielen Dank fuumlr Eure Aufmerksamkeit

23102014

  • Linguistische Annotationen
  • Gliederung
  • Korpuslinguistik
  • Korpus
  • Korpus (2)
  • Grundbegriffe
  • Linguistische Annotationen (2)
  • Linguistische Annotationen 2
  • Part-of-Speech-Tagging
  • XML als Basis linguistischer Annotation
  • Eignung von XML
  • Beispiel aus dem BNC
  • Einschraumlnkungen von XML
  • Uumlberlappende Annotationen 1
  • Uumlberlappende Annotationen 2
  • Uumlberlappende Annotationen 3
  • Loumlsungen
  • Loumlsungen 2
  • Loumlsungen 3
  • TEI
  • XCES
  • XCES Beispiel
  • XCES Beispiel 2
  • Quellen
  • Slide 25
Page 17: Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014

17

Loumlsungen

1 Multiple Dokumente

Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei

bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden

bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

18

Loumlsungen 2

2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile

ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar

bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen

23102014

19

Loumlsungen 3

3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen

bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien

moumlglichndash Widersprechende Auszeichnung moumlglich

bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

20

TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben

die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung

multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen

Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden

bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig

23102014

21

XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding

Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-

Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer

Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor

bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in

der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung

23102014

22

XCES Beispiel

Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any

formalacceptance of creed or system or of mistaking for a house in which to live an inn that

is butsuitable for the sojourn of a night in which there are no stars and the moon is in

travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis

In myfatherrsquos house are many mansionsTo get there you have to leave somewhere

elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt

23102014

Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt

23

XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt

23102014

24

Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und

Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)

bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr

bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)

bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)

23102014

25

Vielen Dank fuumlr Eure Aufmerksamkeit

23102014

  • Linguistische Annotationen
  • Gliederung
  • Korpuslinguistik
  • Korpus
  • Korpus (2)
  • Grundbegriffe
  • Linguistische Annotationen (2)
  • Linguistische Annotationen 2
  • Part-of-Speech-Tagging
  • XML als Basis linguistischer Annotation
  • Eignung von XML
  • Beispiel aus dem BNC
  • Einschraumlnkungen von XML
  • Uumlberlappende Annotationen 1
  • Uumlberlappende Annotationen 2
  • Uumlberlappende Annotationen 3
  • Loumlsungen
  • Loumlsungen 2
  • Loumlsungen 3
  • TEI
  • XCES
  • XCES Beispiel
  • XCES Beispiel 2
  • Quellen
  • Slide 25
Page 18: Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014

18

Loumlsungen 2

2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile

ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar

bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen

23102014

19

Loumlsungen 3

3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen

bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien

moumlglichndash Widersprechende Auszeichnung moumlglich

bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

20

TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben

die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung

multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen

Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden

bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig

23102014

21

XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding

Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-

Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer

Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor

bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in

der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung

23102014

22

XCES Beispiel

Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any

formalacceptance of creed or system or of mistaking for a house in which to live an inn that

is butsuitable for the sojourn of a night in which there are no stars and the moon is in

travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis

In myfatherrsquos house are many mansionsTo get there you have to leave somewhere

elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt

23102014

Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt

23

XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt

23102014

24

Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und

Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)

bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr

bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)

bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)

23102014

25

Vielen Dank fuumlr Eure Aufmerksamkeit

23102014

  • Linguistische Annotationen
  • Gliederung
  • Korpuslinguistik
  • Korpus
  • Korpus (2)
  • Grundbegriffe
  • Linguistische Annotationen (2)
  • Linguistische Annotationen 2
  • Part-of-Speech-Tagging
  • XML als Basis linguistischer Annotation
  • Eignung von XML
  • Beispiel aus dem BNC
  • Einschraumlnkungen von XML
  • Uumlberlappende Annotationen 1
  • Uumlberlappende Annotationen 2
  • Uumlberlappende Annotationen 3
  • Loumlsungen
  • Loumlsungen 2
  • Loumlsungen 3
  • TEI
  • XCES
  • XCES Beispiel
  • XCES Beispiel 2
  • Quellen
  • Slide 25
Page 19: Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014

19

Loumlsungen 3

3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen

bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien

moumlglichndash Widersprechende Auszeichnung moumlglich

bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten

23102014

20

TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben

die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung

multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen

Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden

bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig

23102014

21

XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding

Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-

Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer

Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor

bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in

der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung

23102014

22

XCES Beispiel

Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any

formalacceptance of creed or system or of mistaking for a house in which to live an inn that

is butsuitable for the sojourn of a night in which there are no stars and the moon is in

travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis

In myfatherrsquos house are many mansionsTo get there you have to leave somewhere

elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt

23102014

Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt

23

XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt

23102014

24

Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und

Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)

bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr

bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)

bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)

23102014

25

Vielen Dank fuumlr Eure Aufmerksamkeit

23102014

  • Linguistische Annotationen
  • Gliederung
  • Korpuslinguistik
  • Korpus
  • Korpus (2)
  • Grundbegriffe
  • Linguistische Annotationen (2)
  • Linguistische Annotationen 2
  • Part-of-Speech-Tagging
  • XML als Basis linguistischer Annotation
  • Eignung von XML
  • Beispiel aus dem BNC
  • Einschraumlnkungen von XML
  • Uumlberlappende Annotationen 1
  • Uumlberlappende Annotationen 2
  • Uumlberlappende Annotationen 3
  • Loumlsungen
  • Loumlsungen 2
  • Loumlsungen 3
  • TEI
  • XCES
  • XCES Beispiel
  • XCES Beispiel 2
  • Quellen
  • Slide 25
Page 20: Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014

20

TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben

die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung

multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen

Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden

bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig

23102014

21

XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding

Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-

Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer

Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor

bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in

der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung

23102014

22

XCES Beispiel

Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any

formalacceptance of creed or system or of mistaking for a house in which to live an inn that

is butsuitable for the sojourn of a night in which there are no stars and the moon is in

travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis

In myfatherrsquos house are many mansionsTo get there you have to leave somewhere

elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt

23102014

Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt

23

XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt

23102014

24

Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und

Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)

bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr

bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)

bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)

23102014

25

Vielen Dank fuumlr Eure Aufmerksamkeit

23102014

  • Linguistische Annotationen
  • Gliederung
  • Korpuslinguistik
  • Korpus
  • Korpus (2)
  • Grundbegriffe
  • Linguistische Annotationen (2)
  • Linguistische Annotationen 2
  • Part-of-Speech-Tagging
  • XML als Basis linguistischer Annotation
  • Eignung von XML
  • Beispiel aus dem BNC
  • Einschraumlnkungen von XML
  • Uumlberlappende Annotationen 1
  • Uumlberlappende Annotationen 2
  • Uumlberlappende Annotationen 3
  • Loumlsungen
  • Loumlsungen 2
  • Loumlsungen 3
  • TEI
  • XCES
  • XCES Beispiel
  • XCES Beispiel 2
  • Quellen
  • Slide 25
Page 21: Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014

21

XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding

Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-

Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer

Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor

bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in

der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung

23102014

22

XCES Beispiel

Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any

formalacceptance of creed or system or of mistaking for a house in which to live an inn that

is butsuitable for the sojourn of a night in which there are no stars and the moon is in

travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis

In myfatherrsquos house are many mansionsTo get there you have to leave somewhere

elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt

23102014

Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt

23

XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt

23102014

24

Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und

Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)

bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr

bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)

bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)

23102014

25

Vielen Dank fuumlr Eure Aufmerksamkeit

23102014

  • Linguistische Annotationen
  • Gliederung
  • Korpuslinguistik
  • Korpus
  • Korpus (2)
  • Grundbegriffe
  • Linguistische Annotationen (2)
  • Linguistische Annotationen 2
  • Part-of-Speech-Tagging
  • XML als Basis linguistischer Annotation
  • Eignung von XML
  • Beispiel aus dem BNC
  • Einschraumlnkungen von XML
  • Uumlberlappende Annotationen 1
  • Uumlberlappende Annotationen 2
  • Uumlberlappende Annotationen 3
  • Loumlsungen
  • Loumlsungen 2
  • Loumlsungen 3
  • TEI
  • XCES
  • XCES Beispiel
  • XCES Beispiel 2
  • Quellen
  • Slide 25
Page 22: Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014

22

XCES Beispiel

Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any

formalacceptance of creed or system or of mistaking for a house in which to live an inn that

is butsuitable for the sojourn of a night in which there are no stars and the moon is in

travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis

In myfatherrsquos house are many mansionsTo get there you have to leave somewhere

elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt

23102014

Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt

23

XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt

23102014

24

Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und

Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)

bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr

bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)

bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)

23102014

25

Vielen Dank fuumlr Eure Aufmerksamkeit

23102014

  • Linguistische Annotationen
  • Gliederung
  • Korpuslinguistik
  • Korpus
  • Korpus (2)
  • Grundbegriffe
  • Linguistische Annotationen (2)
  • Linguistische Annotationen 2
  • Part-of-Speech-Tagging
  • XML als Basis linguistischer Annotation
  • Eignung von XML
  • Beispiel aus dem BNC
  • Einschraumlnkungen von XML
  • Uumlberlappende Annotationen 1
  • Uumlberlappende Annotationen 2
  • Uumlberlappende Annotationen 3
  • Loumlsungen
  • Loumlsungen 2
  • Loumlsungen 3
  • TEI
  • XCES
  • XCES Beispiel
  • XCES Beispiel 2
  • Quellen
  • Slide 25
Page 23: Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014

23

XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt

23102014

24

Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und

Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)

bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr

bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)

bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)

23102014

25

Vielen Dank fuumlr Eure Aufmerksamkeit

23102014

  • Linguistische Annotationen
  • Gliederung
  • Korpuslinguistik
  • Korpus
  • Korpus (2)
  • Grundbegriffe
  • Linguistische Annotationen (2)
  • Linguistische Annotationen 2
  • Part-of-Speech-Tagging
  • XML als Basis linguistischer Annotation
  • Eignung von XML
  • Beispiel aus dem BNC
  • Einschraumlnkungen von XML
  • Uumlberlappende Annotationen 1
  • Uumlberlappende Annotationen 2
  • Uumlberlappende Annotationen 3
  • Loumlsungen
  • Loumlsungen 2
  • Loumlsungen 3
  • TEI
  • XCES
  • XCES Beispiel
  • XCES Beispiel 2
  • Quellen
  • Slide 25
Page 24: Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014

24

Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und

Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)

bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr

bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)

bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)

23102014

25

Vielen Dank fuumlr Eure Aufmerksamkeit

23102014

  • Linguistische Annotationen
  • Gliederung
  • Korpuslinguistik
  • Korpus
  • Korpus (2)
  • Grundbegriffe
  • Linguistische Annotationen (2)
  • Linguistische Annotationen 2
  • Part-of-Speech-Tagging
  • XML als Basis linguistischer Annotation
  • Eignung von XML
  • Beispiel aus dem BNC
  • Einschraumlnkungen von XML
  • Uumlberlappende Annotationen 1
  • Uumlberlappende Annotationen 2
  • Uumlberlappende Annotationen 3
  • Loumlsungen
  • Loumlsungen 2
  • Loumlsungen 3
  • TEI
  • XCES
  • XCES Beispiel
  • XCES Beispiel 2
  • Quellen
  • Slide 25
Page 25: Linguistische Annotationen Universität zu Köln Studiengang Informationsverarbeitung WS 2014/15 HS Annotationssysteme Prof. Dr Thaller 23. Oktober 2014

25

Vielen Dank fuumlr Eure Aufmerksamkeit

23102014

  • Linguistische Annotationen
  • Gliederung
  • Korpuslinguistik
  • Korpus
  • Korpus (2)
  • Grundbegriffe
  • Linguistische Annotationen (2)
  • Linguistische Annotationen 2
  • Part-of-Speech-Tagging
  • XML als Basis linguistischer Annotation
  • Eignung von XML
  • Beispiel aus dem BNC
  • Einschraumlnkungen von XML
  • Uumlberlappende Annotationen 1
  • Uumlberlappende Annotationen 2
  • Uumlberlappende Annotationen 3
  • Loumlsungen
  • Loumlsungen 2
  • Loumlsungen 3
  • TEI
  • XCES
  • XCES Beispiel
  • XCES Beispiel 2
  • Quellen
  • Slide 25