Upload
verena-bohnet
View
105
Download
2
Embed Size (px)
Citation preview
Linguistische Annotationen
Universitaumlt zu KoumllnStudiengang InformationsverarbeitungWS 201415HS AnnotationssystemeProf Dr Thaller
23 Oktober 2014
Andreas VogtE-Mail avogt5smailuni-koelnde
2
Gliederung
bull Wo werden linguistische Annotationen verwendetndash Was ist Korpuslinguistikndash Was ist ein Korpusndash Korpusabfragen
bull Welche linguistische Merkmale werden annotiertbull Wie werden linguistische Merkmale annotiert bzw
mit welchen System koumlnnen sie sinnvoll annotiert werden
23102014
Anforderungen an das Annotationssystem
3
Korpuslinguistik
bull Forschungsfeld zwischen Informatik Computerlinguistik und Linguistik
bull Aufbau der Aufbereitung und der Auswertung von (elektronischen) Korpora
bull Empirischer Ansatz in der Linguistik (harr Introspektion Sprecherurteile)
bull Korpora als empirische Basis fuumlr Theoriebildung und Uumlberpruumlfung theoretischer Annahmen an authentischen Sprachdaten
bull qualitative und quantitative Analysen23102014
4
Korpus
bdquoEin Korpus ist eine Sammlung schriftlicher oder gesprochener Aumluszligerungen Die Daten des Korpus sind typischerweise digitalisiert d h auf Rechnern gespeichert und maschinenlesbar Die Bestandteile des Korpus die Texte bestehen aus den Daten selbst sowie moumlglicherweise aus Metadaten die diese Daten beschreiben und aus linguistischen Annotationen die diesen Daten zugeordnet sindldquo
LemnitzerZinsmeister Korpuslinguistik Eine Einfuumlhrung S 7
23102014
5
Korpus
bull Primaumlrdaten (Textdokumente Gespraumlchstranskriptionen Bild- Ton- und Videodateien)
bull Metadaten (Titel Autor Erscheinungsdatum Ort bzw Aufnahmedatum -ort -dauer Gespraumlchsbeteiligte Anlass Transkriptionsstandard)
bull Linguistische Annotationenbull Werkzeuge zur Abfrage des Korpus
bull Korpus ne digitalisierte Textsammlungbull Korpus ne Suchwerkzeug im WWW23102014
6
GrundbegriffeGrundbegriffebull Token (Wortvorkommen) Jedes Vorkommen eines Wortes in einem fortlaufenden Text
bull Wortform Wort unabhaumlngig davon wie haumlufig es vorkommtbull Lexem semantisch bestimmte Wortschatzeinheiten Z B alle Formen des Verbs
bdquoseinldquo
Auf Grundlage der Primaumlrdaten kann eine Korpusabfrage nur auf den Wortformen operieren
-gt einfache Suche nach Strings oder Substrings-gt Mustersuche uumlber regulaumlre Ausdruumlcke
Homographieproblemkomplexere Analysen ermoumlglichen(z B Suche nach typischen Akkusativobjekten
zum Verb bdquofindenldquo)
23102014
7
Linguistische Annotationen
bdquoAls linguistische Annotation bezeichnet man Informationen zu linguistischen Merkmalen die den Primaumlrdaten des Korpus in digitaler Form beigefuumlgt sindldquo Storrer
Linguistische Merkmalebull Part-of-speech (POS Wortartenannotation)bull Lemmatisierungbull Semantische Lesartenbull Auszeichnung morphosyntaktischer Eigenschaftenbull Syntaktische Strukturen (Phrasen topologische Felder)bull Pragmatik Koreferenz
bull Weitere Merkmale z B Sprecher
23102014
Wortebene
Subwortebene
mehrere Woumlrter
Bezieht sich auf einzelne Woumlrter auch uumlber Satzgrenzen hinweg
Eine Aumluszligerung muss nicht mit Wort- oder Satzgrenzen zusammenfallen
8
Linguistische Annotationen 2
bull Auszeichnung erfolgt aufgrund des Umfangs der Korpora meist automatisiert POS-Tagging und Lemmatisierung funktionieren sehr gut die automatische Wortsinndisambiguierung wird zumindest besser
bull Fehler wird es bei der automatischen Annotierung immer geben Manuelle Korrektur ist wuumlnschenswert
-gt Umgang mit Fehlern Korrekturmoumlglichkeit bull Die Merkmalskategorien variieren mit dem
zugrundegelegten Grammatikmodell -gt allgemeines moumlglichst theorieneutrales
Auszeichnungssystem23102014
9
Part-of-Speech-Tagging
bull Tagset Legt das Inventar und die Bedeutung von (POS-)Tags fest
bull Stuttgart-Tuumlbingen-Tagset (STTS)httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSets
stts-1999pdf Kleines Tagset 54 TagszB ADJA attributives Adjektiv
PPOS PossesivpronomenNN AppelativaNE Eigennamen
Groszliges Tagset (inkl Morphologischer Informationen) Kombinatorisch mehrere Hundert bdquoTagsldquomit ganzemADJAPosMaskDatSgSt Einsatz
23102014
10
XML als Basis linguistischer Annotation
bull XML als Metasprache ist in der linguistischen Annotation fest etabliert
bull Es bestehen mehrere Standards zur linguistischen Annotation mit XML (TEI XCES)
bull XML findet Verwendung uandash BNC British National Corpus httpwwwnatcorpoxacuk
(TEI)ndash DeReKo Deutsches Referenz Korpus IDS Mannheim (IDS-
XCES)ndash DWDS Digitales Woumlrterbuch der deutschen Sprache
httpwwwdwdsde (TEI-P5)
23102014
11
Eignung von XML
bull Trennung von Primaumlrtext und Annotation durch xml-Struktur gegebenltannotation1 attr1=value1gt primaumlrtextltannotationgt
bull Formalismen zur Erstellung von Dokumentgrammatiken (dtd Relax-NG) die Anzahl und Art der Elemente ihre Verschachtelung und moumlgliche Attribute festlegen
bull Standards TEI XCEShellip meist generische Annotationsformate in Kombination mit festen Datenkategorien z B keine Festlegung auf ein bestimmtes POS-Tagset
23102014
12
Beispiel aus dem BNCltwtext type=FICTIONgt
ltpb n=5gt ltdiv level=1gt
ltheadgtlts n=1gt
ltw c5=NN1 hw=chapter pos=SUBSTgtCHAPTER ltwgt ltw c5=CRD hw=1 pos=ADJgt1ltwgt
ltsgtltheadgtltpgt
lts n=2gt ltc c5=PUQgtlsquoltcgt ltw c5=CJC hw=but pos=CONJgtButltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquo ltcgt ltw c5=VVD hw=say pos=VERBgtsaid ltwgt ltw c5=NP0 hw=owen pos=SUBSTgtOwenltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtlsquoltcgt ltw c5=AVQ hw=where pos=ADVgtwhere ltwgt ltw c5=VBZ hw=be pos=VERBgtis ltwgt ltw c5=AT0 hw=the pos=ARTgtthe ltwgt ltw c5=NN1 hw=body pos=SUBSTgtbodyltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquoltcgt
ltsgtltpgt
23102014
ltwtextgt written text
ltpbgt page breakltsgt sentenceltpgt paragraphltdivgt divisionltcgt punctuation markltwgt wordAttributec5 CLAWS5 Tagsethw rootStamm des Wortespos Part of Speech
Vgl httpwwwnatcorpoxacukdocsURGcdifbasehtmlcdifsgml
13
Einschraumlnkungen von XML
Nachteilebull Darstellung multipler sich uumlberlappender
Annotationen problematischbull Begrenzter semantischer Gehalt d h einzig
die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung
23102014
14
Uumlberlappende Annotationen 1
Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo
Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden
23102014
15
Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt
23102014
16
Uumlberlappende Annotationen 3
bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit
bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation
23102014
17
Loumlsungen
1 Multiple Dokumente
Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei
bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden
bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
18
Loumlsungen 2
2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile
ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar
bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen
23102014
19
Loumlsungen 3
3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen
bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien
moumlglichndash Widersprechende Auszeichnung moumlglich
bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
20
TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben
die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung
multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen
Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden
bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig
23102014
21
XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding
Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-
Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer
Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor
bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in
der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung
23102014
22
XCES Beispiel
Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any
formalacceptance of creed or system or of mistaking for a house in which to live an inn that
is butsuitable for the sojourn of a night in which there are no stars and the moon is in
travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis
In myfatherrsquos house are many mansionsTo get there you have to leave somewhere
elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt
23102014
Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt
23
XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt
23102014
24
Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und
Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)
bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr
bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)
bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)
23102014
25
Vielen Dank fuumlr Eure Aufmerksamkeit
23102014
2
Gliederung
bull Wo werden linguistische Annotationen verwendetndash Was ist Korpuslinguistikndash Was ist ein Korpusndash Korpusabfragen
bull Welche linguistische Merkmale werden annotiertbull Wie werden linguistische Merkmale annotiert bzw
mit welchen System koumlnnen sie sinnvoll annotiert werden
23102014
Anforderungen an das Annotationssystem
3
Korpuslinguistik
bull Forschungsfeld zwischen Informatik Computerlinguistik und Linguistik
bull Aufbau der Aufbereitung und der Auswertung von (elektronischen) Korpora
bull Empirischer Ansatz in der Linguistik (harr Introspektion Sprecherurteile)
bull Korpora als empirische Basis fuumlr Theoriebildung und Uumlberpruumlfung theoretischer Annahmen an authentischen Sprachdaten
bull qualitative und quantitative Analysen23102014
4
Korpus
bdquoEin Korpus ist eine Sammlung schriftlicher oder gesprochener Aumluszligerungen Die Daten des Korpus sind typischerweise digitalisiert d h auf Rechnern gespeichert und maschinenlesbar Die Bestandteile des Korpus die Texte bestehen aus den Daten selbst sowie moumlglicherweise aus Metadaten die diese Daten beschreiben und aus linguistischen Annotationen die diesen Daten zugeordnet sindldquo
LemnitzerZinsmeister Korpuslinguistik Eine Einfuumlhrung S 7
23102014
5
Korpus
bull Primaumlrdaten (Textdokumente Gespraumlchstranskriptionen Bild- Ton- und Videodateien)
bull Metadaten (Titel Autor Erscheinungsdatum Ort bzw Aufnahmedatum -ort -dauer Gespraumlchsbeteiligte Anlass Transkriptionsstandard)
bull Linguistische Annotationenbull Werkzeuge zur Abfrage des Korpus
bull Korpus ne digitalisierte Textsammlungbull Korpus ne Suchwerkzeug im WWW23102014
6
GrundbegriffeGrundbegriffebull Token (Wortvorkommen) Jedes Vorkommen eines Wortes in einem fortlaufenden Text
bull Wortform Wort unabhaumlngig davon wie haumlufig es vorkommtbull Lexem semantisch bestimmte Wortschatzeinheiten Z B alle Formen des Verbs
bdquoseinldquo
Auf Grundlage der Primaumlrdaten kann eine Korpusabfrage nur auf den Wortformen operieren
-gt einfache Suche nach Strings oder Substrings-gt Mustersuche uumlber regulaumlre Ausdruumlcke
Homographieproblemkomplexere Analysen ermoumlglichen(z B Suche nach typischen Akkusativobjekten
zum Verb bdquofindenldquo)
23102014
7
Linguistische Annotationen
bdquoAls linguistische Annotation bezeichnet man Informationen zu linguistischen Merkmalen die den Primaumlrdaten des Korpus in digitaler Form beigefuumlgt sindldquo Storrer
Linguistische Merkmalebull Part-of-speech (POS Wortartenannotation)bull Lemmatisierungbull Semantische Lesartenbull Auszeichnung morphosyntaktischer Eigenschaftenbull Syntaktische Strukturen (Phrasen topologische Felder)bull Pragmatik Koreferenz
bull Weitere Merkmale z B Sprecher
23102014
Wortebene
Subwortebene
mehrere Woumlrter
Bezieht sich auf einzelne Woumlrter auch uumlber Satzgrenzen hinweg
Eine Aumluszligerung muss nicht mit Wort- oder Satzgrenzen zusammenfallen
8
Linguistische Annotationen 2
bull Auszeichnung erfolgt aufgrund des Umfangs der Korpora meist automatisiert POS-Tagging und Lemmatisierung funktionieren sehr gut die automatische Wortsinndisambiguierung wird zumindest besser
bull Fehler wird es bei der automatischen Annotierung immer geben Manuelle Korrektur ist wuumlnschenswert
-gt Umgang mit Fehlern Korrekturmoumlglichkeit bull Die Merkmalskategorien variieren mit dem
zugrundegelegten Grammatikmodell -gt allgemeines moumlglichst theorieneutrales
Auszeichnungssystem23102014
9
Part-of-Speech-Tagging
bull Tagset Legt das Inventar und die Bedeutung von (POS-)Tags fest
bull Stuttgart-Tuumlbingen-Tagset (STTS)httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSets
stts-1999pdf Kleines Tagset 54 TagszB ADJA attributives Adjektiv
PPOS PossesivpronomenNN AppelativaNE Eigennamen
Groszliges Tagset (inkl Morphologischer Informationen) Kombinatorisch mehrere Hundert bdquoTagsldquomit ganzemADJAPosMaskDatSgSt Einsatz
23102014
10
XML als Basis linguistischer Annotation
bull XML als Metasprache ist in der linguistischen Annotation fest etabliert
bull Es bestehen mehrere Standards zur linguistischen Annotation mit XML (TEI XCES)
bull XML findet Verwendung uandash BNC British National Corpus httpwwwnatcorpoxacuk
(TEI)ndash DeReKo Deutsches Referenz Korpus IDS Mannheim (IDS-
XCES)ndash DWDS Digitales Woumlrterbuch der deutschen Sprache
httpwwwdwdsde (TEI-P5)
23102014
11
Eignung von XML
bull Trennung von Primaumlrtext und Annotation durch xml-Struktur gegebenltannotation1 attr1=value1gt primaumlrtextltannotationgt
bull Formalismen zur Erstellung von Dokumentgrammatiken (dtd Relax-NG) die Anzahl und Art der Elemente ihre Verschachtelung und moumlgliche Attribute festlegen
bull Standards TEI XCEShellip meist generische Annotationsformate in Kombination mit festen Datenkategorien z B keine Festlegung auf ein bestimmtes POS-Tagset
23102014
12
Beispiel aus dem BNCltwtext type=FICTIONgt
ltpb n=5gt ltdiv level=1gt
ltheadgtlts n=1gt
ltw c5=NN1 hw=chapter pos=SUBSTgtCHAPTER ltwgt ltw c5=CRD hw=1 pos=ADJgt1ltwgt
ltsgtltheadgtltpgt
lts n=2gt ltc c5=PUQgtlsquoltcgt ltw c5=CJC hw=but pos=CONJgtButltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquo ltcgt ltw c5=VVD hw=say pos=VERBgtsaid ltwgt ltw c5=NP0 hw=owen pos=SUBSTgtOwenltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtlsquoltcgt ltw c5=AVQ hw=where pos=ADVgtwhere ltwgt ltw c5=VBZ hw=be pos=VERBgtis ltwgt ltw c5=AT0 hw=the pos=ARTgtthe ltwgt ltw c5=NN1 hw=body pos=SUBSTgtbodyltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquoltcgt
ltsgtltpgt
23102014
ltwtextgt written text
ltpbgt page breakltsgt sentenceltpgt paragraphltdivgt divisionltcgt punctuation markltwgt wordAttributec5 CLAWS5 Tagsethw rootStamm des Wortespos Part of Speech
Vgl httpwwwnatcorpoxacukdocsURGcdifbasehtmlcdifsgml
13
Einschraumlnkungen von XML
Nachteilebull Darstellung multipler sich uumlberlappender
Annotationen problematischbull Begrenzter semantischer Gehalt d h einzig
die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung
23102014
14
Uumlberlappende Annotationen 1
Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo
Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden
23102014
15
Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt
23102014
16
Uumlberlappende Annotationen 3
bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit
bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation
23102014
17
Loumlsungen
1 Multiple Dokumente
Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei
bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden
bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
18
Loumlsungen 2
2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile
ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar
bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen
23102014
19
Loumlsungen 3
3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen
bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien
moumlglichndash Widersprechende Auszeichnung moumlglich
bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
20
TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben
die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung
multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen
Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden
bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig
23102014
21
XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding
Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-
Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer
Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor
bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in
der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung
23102014
22
XCES Beispiel
Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any
formalacceptance of creed or system or of mistaking for a house in which to live an inn that
is butsuitable for the sojourn of a night in which there are no stars and the moon is in
travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis
In myfatherrsquos house are many mansionsTo get there you have to leave somewhere
elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt
23102014
Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt
23
XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt
23102014
24
Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und
Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)
bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr
bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)
bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)
23102014
25
Vielen Dank fuumlr Eure Aufmerksamkeit
23102014
3
Korpuslinguistik
bull Forschungsfeld zwischen Informatik Computerlinguistik und Linguistik
bull Aufbau der Aufbereitung und der Auswertung von (elektronischen) Korpora
bull Empirischer Ansatz in der Linguistik (harr Introspektion Sprecherurteile)
bull Korpora als empirische Basis fuumlr Theoriebildung und Uumlberpruumlfung theoretischer Annahmen an authentischen Sprachdaten
bull qualitative und quantitative Analysen23102014
4
Korpus
bdquoEin Korpus ist eine Sammlung schriftlicher oder gesprochener Aumluszligerungen Die Daten des Korpus sind typischerweise digitalisiert d h auf Rechnern gespeichert und maschinenlesbar Die Bestandteile des Korpus die Texte bestehen aus den Daten selbst sowie moumlglicherweise aus Metadaten die diese Daten beschreiben und aus linguistischen Annotationen die diesen Daten zugeordnet sindldquo
LemnitzerZinsmeister Korpuslinguistik Eine Einfuumlhrung S 7
23102014
5
Korpus
bull Primaumlrdaten (Textdokumente Gespraumlchstranskriptionen Bild- Ton- und Videodateien)
bull Metadaten (Titel Autor Erscheinungsdatum Ort bzw Aufnahmedatum -ort -dauer Gespraumlchsbeteiligte Anlass Transkriptionsstandard)
bull Linguistische Annotationenbull Werkzeuge zur Abfrage des Korpus
bull Korpus ne digitalisierte Textsammlungbull Korpus ne Suchwerkzeug im WWW23102014
6
GrundbegriffeGrundbegriffebull Token (Wortvorkommen) Jedes Vorkommen eines Wortes in einem fortlaufenden Text
bull Wortform Wort unabhaumlngig davon wie haumlufig es vorkommtbull Lexem semantisch bestimmte Wortschatzeinheiten Z B alle Formen des Verbs
bdquoseinldquo
Auf Grundlage der Primaumlrdaten kann eine Korpusabfrage nur auf den Wortformen operieren
-gt einfache Suche nach Strings oder Substrings-gt Mustersuche uumlber regulaumlre Ausdruumlcke
Homographieproblemkomplexere Analysen ermoumlglichen(z B Suche nach typischen Akkusativobjekten
zum Verb bdquofindenldquo)
23102014
7
Linguistische Annotationen
bdquoAls linguistische Annotation bezeichnet man Informationen zu linguistischen Merkmalen die den Primaumlrdaten des Korpus in digitaler Form beigefuumlgt sindldquo Storrer
Linguistische Merkmalebull Part-of-speech (POS Wortartenannotation)bull Lemmatisierungbull Semantische Lesartenbull Auszeichnung morphosyntaktischer Eigenschaftenbull Syntaktische Strukturen (Phrasen topologische Felder)bull Pragmatik Koreferenz
bull Weitere Merkmale z B Sprecher
23102014
Wortebene
Subwortebene
mehrere Woumlrter
Bezieht sich auf einzelne Woumlrter auch uumlber Satzgrenzen hinweg
Eine Aumluszligerung muss nicht mit Wort- oder Satzgrenzen zusammenfallen
8
Linguistische Annotationen 2
bull Auszeichnung erfolgt aufgrund des Umfangs der Korpora meist automatisiert POS-Tagging und Lemmatisierung funktionieren sehr gut die automatische Wortsinndisambiguierung wird zumindest besser
bull Fehler wird es bei der automatischen Annotierung immer geben Manuelle Korrektur ist wuumlnschenswert
-gt Umgang mit Fehlern Korrekturmoumlglichkeit bull Die Merkmalskategorien variieren mit dem
zugrundegelegten Grammatikmodell -gt allgemeines moumlglichst theorieneutrales
Auszeichnungssystem23102014
9
Part-of-Speech-Tagging
bull Tagset Legt das Inventar und die Bedeutung von (POS-)Tags fest
bull Stuttgart-Tuumlbingen-Tagset (STTS)httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSets
stts-1999pdf Kleines Tagset 54 TagszB ADJA attributives Adjektiv
PPOS PossesivpronomenNN AppelativaNE Eigennamen
Groszliges Tagset (inkl Morphologischer Informationen) Kombinatorisch mehrere Hundert bdquoTagsldquomit ganzemADJAPosMaskDatSgSt Einsatz
23102014
10
XML als Basis linguistischer Annotation
bull XML als Metasprache ist in der linguistischen Annotation fest etabliert
bull Es bestehen mehrere Standards zur linguistischen Annotation mit XML (TEI XCES)
bull XML findet Verwendung uandash BNC British National Corpus httpwwwnatcorpoxacuk
(TEI)ndash DeReKo Deutsches Referenz Korpus IDS Mannheim (IDS-
XCES)ndash DWDS Digitales Woumlrterbuch der deutschen Sprache
httpwwwdwdsde (TEI-P5)
23102014
11
Eignung von XML
bull Trennung von Primaumlrtext und Annotation durch xml-Struktur gegebenltannotation1 attr1=value1gt primaumlrtextltannotationgt
bull Formalismen zur Erstellung von Dokumentgrammatiken (dtd Relax-NG) die Anzahl und Art der Elemente ihre Verschachtelung und moumlgliche Attribute festlegen
bull Standards TEI XCEShellip meist generische Annotationsformate in Kombination mit festen Datenkategorien z B keine Festlegung auf ein bestimmtes POS-Tagset
23102014
12
Beispiel aus dem BNCltwtext type=FICTIONgt
ltpb n=5gt ltdiv level=1gt
ltheadgtlts n=1gt
ltw c5=NN1 hw=chapter pos=SUBSTgtCHAPTER ltwgt ltw c5=CRD hw=1 pos=ADJgt1ltwgt
ltsgtltheadgtltpgt
lts n=2gt ltc c5=PUQgtlsquoltcgt ltw c5=CJC hw=but pos=CONJgtButltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquo ltcgt ltw c5=VVD hw=say pos=VERBgtsaid ltwgt ltw c5=NP0 hw=owen pos=SUBSTgtOwenltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtlsquoltcgt ltw c5=AVQ hw=where pos=ADVgtwhere ltwgt ltw c5=VBZ hw=be pos=VERBgtis ltwgt ltw c5=AT0 hw=the pos=ARTgtthe ltwgt ltw c5=NN1 hw=body pos=SUBSTgtbodyltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquoltcgt
ltsgtltpgt
23102014
ltwtextgt written text
ltpbgt page breakltsgt sentenceltpgt paragraphltdivgt divisionltcgt punctuation markltwgt wordAttributec5 CLAWS5 Tagsethw rootStamm des Wortespos Part of Speech
Vgl httpwwwnatcorpoxacukdocsURGcdifbasehtmlcdifsgml
13
Einschraumlnkungen von XML
Nachteilebull Darstellung multipler sich uumlberlappender
Annotationen problematischbull Begrenzter semantischer Gehalt d h einzig
die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung
23102014
14
Uumlberlappende Annotationen 1
Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo
Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden
23102014
15
Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt
23102014
16
Uumlberlappende Annotationen 3
bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit
bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation
23102014
17
Loumlsungen
1 Multiple Dokumente
Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei
bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden
bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
18
Loumlsungen 2
2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile
ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar
bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen
23102014
19
Loumlsungen 3
3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen
bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien
moumlglichndash Widersprechende Auszeichnung moumlglich
bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
20
TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben
die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung
multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen
Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden
bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig
23102014
21
XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding
Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-
Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer
Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor
bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in
der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung
23102014
22
XCES Beispiel
Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any
formalacceptance of creed or system or of mistaking for a house in which to live an inn that
is butsuitable for the sojourn of a night in which there are no stars and the moon is in
travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis
In myfatherrsquos house are many mansionsTo get there you have to leave somewhere
elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt
23102014
Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt
23
XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt
23102014
24
Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und
Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)
bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr
bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)
bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)
23102014
25
Vielen Dank fuumlr Eure Aufmerksamkeit
23102014
4
Korpus
bdquoEin Korpus ist eine Sammlung schriftlicher oder gesprochener Aumluszligerungen Die Daten des Korpus sind typischerweise digitalisiert d h auf Rechnern gespeichert und maschinenlesbar Die Bestandteile des Korpus die Texte bestehen aus den Daten selbst sowie moumlglicherweise aus Metadaten die diese Daten beschreiben und aus linguistischen Annotationen die diesen Daten zugeordnet sindldquo
LemnitzerZinsmeister Korpuslinguistik Eine Einfuumlhrung S 7
23102014
5
Korpus
bull Primaumlrdaten (Textdokumente Gespraumlchstranskriptionen Bild- Ton- und Videodateien)
bull Metadaten (Titel Autor Erscheinungsdatum Ort bzw Aufnahmedatum -ort -dauer Gespraumlchsbeteiligte Anlass Transkriptionsstandard)
bull Linguistische Annotationenbull Werkzeuge zur Abfrage des Korpus
bull Korpus ne digitalisierte Textsammlungbull Korpus ne Suchwerkzeug im WWW23102014
6
GrundbegriffeGrundbegriffebull Token (Wortvorkommen) Jedes Vorkommen eines Wortes in einem fortlaufenden Text
bull Wortform Wort unabhaumlngig davon wie haumlufig es vorkommtbull Lexem semantisch bestimmte Wortschatzeinheiten Z B alle Formen des Verbs
bdquoseinldquo
Auf Grundlage der Primaumlrdaten kann eine Korpusabfrage nur auf den Wortformen operieren
-gt einfache Suche nach Strings oder Substrings-gt Mustersuche uumlber regulaumlre Ausdruumlcke
Homographieproblemkomplexere Analysen ermoumlglichen(z B Suche nach typischen Akkusativobjekten
zum Verb bdquofindenldquo)
23102014
7
Linguistische Annotationen
bdquoAls linguistische Annotation bezeichnet man Informationen zu linguistischen Merkmalen die den Primaumlrdaten des Korpus in digitaler Form beigefuumlgt sindldquo Storrer
Linguistische Merkmalebull Part-of-speech (POS Wortartenannotation)bull Lemmatisierungbull Semantische Lesartenbull Auszeichnung morphosyntaktischer Eigenschaftenbull Syntaktische Strukturen (Phrasen topologische Felder)bull Pragmatik Koreferenz
bull Weitere Merkmale z B Sprecher
23102014
Wortebene
Subwortebene
mehrere Woumlrter
Bezieht sich auf einzelne Woumlrter auch uumlber Satzgrenzen hinweg
Eine Aumluszligerung muss nicht mit Wort- oder Satzgrenzen zusammenfallen
8
Linguistische Annotationen 2
bull Auszeichnung erfolgt aufgrund des Umfangs der Korpora meist automatisiert POS-Tagging und Lemmatisierung funktionieren sehr gut die automatische Wortsinndisambiguierung wird zumindest besser
bull Fehler wird es bei der automatischen Annotierung immer geben Manuelle Korrektur ist wuumlnschenswert
-gt Umgang mit Fehlern Korrekturmoumlglichkeit bull Die Merkmalskategorien variieren mit dem
zugrundegelegten Grammatikmodell -gt allgemeines moumlglichst theorieneutrales
Auszeichnungssystem23102014
9
Part-of-Speech-Tagging
bull Tagset Legt das Inventar und die Bedeutung von (POS-)Tags fest
bull Stuttgart-Tuumlbingen-Tagset (STTS)httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSets
stts-1999pdf Kleines Tagset 54 TagszB ADJA attributives Adjektiv
PPOS PossesivpronomenNN AppelativaNE Eigennamen
Groszliges Tagset (inkl Morphologischer Informationen) Kombinatorisch mehrere Hundert bdquoTagsldquomit ganzemADJAPosMaskDatSgSt Einsatz
23102014
10
XML als Basis linguistischer Annotation
bull XML als Metasprache ist in der linguistischen Annotation fest etabliert
bull Es bestehen mehrere Standards zur linguistischen Annotation mit XML (TEI XCES)
bull XML findet Verwendung uandash BNC British National Corpus httpwwwnatcorpoxacuk
(TEI)ndash DeReKo Deutsches Referenz Korpus IDS Mannheim (IDS-
XCES)ndash DWDS Digitales Woumlrterbuch der deutschen Sprache
httpwwwdwdsde (TEI-P5)
23102014
11
Eignung von XML
bull Trennung von Primaumlrtext und Annotation durch xml-Struktur gegebenltannotation1 attr1=value1gt primaumlrtextltannotationgt
bull Formalismen zur Erstellung von Dokumentgrammatiken (dtd Relax-NG) die Anzahl und Art der Elemente ihre Verschachtelung und moumlgliche Attribute festlegen
bull Standards TEI XCEShellip meist generische Annotationsformate in Kombination mit festen Datenkategorien z B keine Festlegung auf ein bestimmtes POS-Tagset
23102014
12
Beispiel aus dem BNCltwtext type=FICTIONgt
ltpb n=5gt ltdiv level=1gt
ltheadgtlts n=1gt
ltw c5=NN1 hw=chapter pos=SUBSTgtCHAPTER ltwgt ltw c5=CRD hw=1 pos=ADJgt1ltwgt
ltsgtltheadgtltpgt
lts n=2gt ltc c5=PUQgtlsquoltcgt ltw c5=CJC hw=but pos=CONJgtButltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquo ltcgt ltw c5=VVD hw=say pos=VERBgtsaid ltwgt ltw c5=NP0 hw=owen pos=SUBSTgtOwenltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtlsquoltcgt ltw c5=AVQ hw=where pos=ADVgtwhere ltwgt ltw c5=VBZ hw=be pos=VERBgtis ltwgt ltw c5=AT0 hw=the pos=ARTgtthe ltwgt ltw c5=NN1 hw=body pos=SUBSTgtbodyltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquoltcgt
ltsgtltpgt
23102014
ltwtextgt written text
ltpbgt page breakltsgt sentenceltpgt paragraphltdivgt divisionltcgt punctuation markltwgt wordAttributec5 CLAWS5 Tagsethw rootStamm des Wortespos Part of Speech
Vgl httpwwwnatcorpoxacukdocsURGcdifbasehtmlcdifsgml
13
Einschraumlnkungen von XML
Nachteilebull Darstellung multipler sich uumlberlappender
Annotationen problematischbull Begrenzter semantischer Gehalt d h einzig
die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung
23102014
14
Uumlberlappende Annotationen 1
Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo
Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden
23102014
15
Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt
23102014
16
Uumlberlappende Annotationen 3
bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit
bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation
23102014
17
Loumlsungen
1 Multiple Dokumente
Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei
bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden
bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
18
Loumlsungen 2
2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile
ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar
bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen
23102014
19
Loumlsungen 3
3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen
bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien
moumlglichndash Widersprechende Auszeichnung moumlglich
bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
20
TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben
die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung
multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen
Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden
bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig
23102014
21
XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding
Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-
Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer
Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor
bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in
der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung
23102014
22
XCES Beispiel
Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any
formalacceptance of creed or system or of mistaking for a house in which to live an inn that
is butsuitable for the sojourn of a night in which there are no stars and the moon is in
travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis
In myfatherrsquos house are many mansionsTo get there you have to leave somewhere
elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt
23102014
Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt
23
XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt
23102014
24
Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und
Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)
bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr
bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)
bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)
23102014
25
Vielen Dank fuumlr Eure Aufmerksamkeit
23102014
5
Korpus
bull Primaumlrdaten (Textdokumente Gespraumlchstranskriptionen Bild- Ton- und Videodateien)
bull Metadaten (Titel Autor Erscheinungsdatum Ort bzw Aufnahmedatum -ort -dauer Gespraumlchsbeteiligte Anlass Transkriptionsstandard)
bull Linguistische Annotationenbull Werkzeuge zur Abfrage des Korpus
bull Korpus ne digitalisierte Textsammlungbull Korpus ne Suchwerkzeug im WWW23102014
6
GrundbegriffeGrundbegriffebull Token (Wortvorkommen) Jedes Vorkommen eines Wortes in einem fortlaufenden Text
bull Wortform Wort unabhaumlngig davon wie haumlufig es vorkommtbull Lexem semantisch bestimmte Wortschatzeinheiten Z B alle Formen des Verbs
bdquoseinldquo
Auf Grundlage der Primaumlrdaten kann eine Korpusabfrage nur auf den Wortformen operieren
-gt einfache Suche nach Strings oder Substrings-gt Mustersuche uumlber regulaumlre Ausdruumlcke
Homographieproblemkomplexere Analysen ermoumlglichen(z B Suche nach typischen Akkusativobjekten
zum Verb bdquofindenldquo)
23102014
7
Linguistische Annotationen
bdquoAls linguistische Annotation bezeichnet man Informationen zu linguistischen Merkmalen die den Primaumlrdaten des Korpus in digitaler Form beigefuumlgt sindldquo Storrer
Linguistische Merkmalebull Part-of-speech (POS Wortartenannotation)bull Lemmatisierungbull Semantische Lesartenbull Auszeichnung morphosyntaktischer Eigenschaftenbull Syntaktische Strukturen (Phrasen topologische Felder)bull Pragmatik Koreferenz
bull Weitere Merkmale z B Sprecher
23102014
Wortebene
Subwortebene
mehrere Woumlrter
Bezieht sich auf einzelne Woumlrter auch uumlber Satzgrenzen hinweg
Eine Aumluszligerung muss nicht mit Wort- oder Satzgrenzen zusammenfallen
8
Linguistische Annotationen 2
bull Auszeichnung erfolgt aufgrund des Umfangs der Korpora meist automatisiert POS-Tagging und Lemmatisierung funktionieren sehr gut die automatische Wortsinndisambiguierung wird zumindest besser
bull Fehler wird es bei der automatischen Annotierung immer geben Manuelle Korrektur ist wuumlnschenswert
-gt Umgang mit Fehlern Korrekturmoumlglichkeit bull Die Merkmalskategorien variieren mit dem
zugrundegelegten Grammatikmodell -gt allgemeines moumlglichst theorieneutrales
Auszeichnungssystem23102014
9
Part-of-Speech-Tagging
bull Tagset Legt das Inventar und die Bedeutung von (POS-)Tags fest
bull Stuttgart-Tuumlbingen-Tagset (STTS)httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSets
stts-1999pdf Kleines Tagset 54 TagszB ADJA attributives Adjektiv
PPOS PossesivpronomenNN AppelativaNE Eigennamen
Groszliges Tagset (inkl Morphologischer Informationen) Kombinatorisch mehrere Hundert bdquoTagsldquomit ganzemADJAPosMaskDatSgSt Einsatz
23102014
10
XML als Basis linguistischer Annotation
bull XML als Metasprache ist in der linguistischen Annotation fest etabliert
bull Es bestehen mehrere Standards zur linguistischen Annotation mit XML (TEI XCES)
bull XML findet Verwendung uandash BNC British National Corpus httpwwwnatcorpoxacuk
(TEI)ndash DeReKo Deutsches Referenz Korpus IDS Mannheim (IDS-
XCES)ndash DWDS Digitales Woumlrterbuch der deutschen Sprache
httpwwwdwdsde (TEI-P5)
23102014
11
Eignung von XML
bull Trennung von Primaumlrtext und Annotation durch xml-Struktur gegebenltannotation1 attr1=value1gt primaumlrtextltannotationgt
bull Formalismen zur Erstellung von Dokumentgrammatiken (dtd Relax-NG) die Anzahl und Art der Elemente ihre Verschachtelung und moumlgliche Attribute festlegen
bull Standards TEI XCEShellip meist generische Annotationsformate in Kombination mit festen Datenkategorien z B keine Festlegung auf ein bestimmtes POS-Tagset
23102014
12
Beispiel aus dem BNCltwtext type=FICTIONgt
ltpb n=5gt ltdiv level=1gt
ltheadgtlts n=1gt
ltw c5=NN1 hw=chapter pos=SUBSTgtCHAPTER ltwgt ltw c5=CRD hw=1 pos=ADJgt1ltwgt
ltsgtltheadgtltpgt
lts n=2gt ltc c5=PUQgtlsquoltcgt ltw c5=CJC hw=but pos=CONJgtButltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquo ltcgt ltw c5=VVD hw=say pos=VERBgtsaid ltwgt ltw c5=NP0 hw=owen pos=SUBSTgtOwenltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtlsquoltcgt ltw c5=AVQ hw=where pos=ADVgtwhere ltwgt ltw c5=VBZ hw=be pos=VERBgtis ltwgt ltw c5=AT0 hw=the pos=ARTgtthe ltwgt ltw c5=NN1 hw=body pos=SUBSTgtbodyltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquoltcgt
ltsgtltpgt
23102014
ltwtextgt written text
ltpbgt page breakltsgt sentenceltpgt paragraphltdivgt divisionltcgt punctuation markltwgt wordAttributec5 CLAWS5 Tagsethw rootStamm des Wortespos Part of Speech
Vgl httpwwwnatcorpoxacukdocsURGcdifbasehtmlcdifsgml
13
Einschraumlnkungen von XML
Nachteilebull Darstellung multipler sich uumlberlappender
Annotationen problematischbull Begrenzter semantischer Gehalt d h einzig
die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung
23102014
14
Uumlberlappende Annotationen 1
Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo
Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden
23102014
15
Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt
23102014
16
Uumlberlappende Annotationen 3
bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit
bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation
23102014
17
Loumlsungen
1 Multiple Dokumente
Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei
bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden
bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
18
Loumlsungen 2
2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile
ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar
bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen
23102014
19
Loumlsungen 3
3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen
bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien
moumlglichndash Widersprechende Auszeichnung moumlglich
bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
20
TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben
die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung
multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen
Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden
bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig
23102014
21
XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding
Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-
Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer
Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor
bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in
der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung
23102014
22
XCES Beispiel
Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any
formalacceptance of creed or system or of mistaking for a house in which to live an inn that
is butsuitable for the sojourn of a night in which there are no stars and the moon is in
travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis
In myfatherrsquos house are many mansionsTo get there you have to leave somewhere
elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt
23102014
Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt
23
XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt
23102014
24
Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und
Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)
bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr
bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)
bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)
23102014
25
Vielen Dank fuumlr Eure Aufmerksamkeit
23102014
6
GrundbegriffeGrundbegriffebull Token (Wortvorkommen) Jedes Vorkommen eines Wortes in einem fortlaufenden Text
bull Wortform Wort unabhaumlngig davon wie haumlufig es vorkommtbull Lexem semantisch bestimmte Wortschatzeinheiten Z B alle Formen des Verbs
bdquoseinldquo
Auf Grundlage der Primaumlrdaten kann eine Korpusabfrage nur auf den Wortformen operieren
-gt einfache Suche nach Strings oder Substrings-gt Mustersuche uumlber regulaumlre Ausdruumlcke
Homographieproblemkomplexere Analysen ermoumlglichen(z B Suche nach typischen Akkusativobjekten
zum Verb bdquofindenldquo)
23102014
7
Linguistische Annotationen
bdquoAls linguistische Annotation bezeichnet man Informationen zu linguistischen Merkmalen die den Primaumlrdaten des Korpus in digitaler Form beigefuumlgt sindldquo Storrer
Linguistische Merkmalebull Part-of-speech (POS Wortartenannotation)bull Lemmatisierungbull Semantische Lesartenbull Auszeichnung morphosyntaktischer Eigenschaftenbull Syntaktische Strukturen (Phrasen topologische Felder)bull Pragmatik Koreferenz
bull Weitere Merkmale z B Sprecher
23102014
Wortebene
Subwortebene
mehrere Woumlrter
Bezieht sich auf einzelne Woumlrter auch uumlber Satzgrenzen hinweg
Eine Aumluszligerung muss nicht mit Wort- oder Satzgrenzen zusammenfallen
8
Linguistische Annotationen 2
bull Auszeichnung erfolgt aufgrund des Umfangs der Korpora meist automatisiert POS-Tagging und Lemmatisierung funktionieren sehr gut die automatische Wortsinndisambiguierung wird zumindest besser
bull Fehler wird es bei der automatischen Annotierung immer geben Manuelle Korrektur ist wuumlnschenswert
-gt Umgang mit Fehlern Korrekturmoumlglichkeit bull Die Merkmalskategorien variieren mit dem
zugrundegelegten Grammatikmodell -gt allgemeines moumlglichst theorieneutrales
Auszeichnungssystem23102014
9
Part-of-Speech-Tagging
bull Tagset Legt das Inventar und die Bedeutung von (POS-)Tags fest
bull Stuttgart-Tuumlbingen-Tagset (STTS)httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSets
stts-1999pdf Kleines Tagset 54 TagszB ADJA attributives Adjektiv
PPOS PossesivpronomenNN AppelativaNE Eigennamen
Groszliges Tagset (inkl Morphologischer Informationen) Kombinatorisch mehrere Hundert bdquoTagsldquomit ganzemADJAPosMaskDatSgSt Einsatz
23102014
10
XML als Basis linguistischer Annotation
bull XML als Metasprache ist in der linguistischen Annotation fest etabliert
bull Es bestehen mehrere Standards zur linguistischen Annotation mit XML (TEI XCES)
bull XML findet Verwendung uandash BNC British National Corpus httpwwwnatcorpoxacuk
(TEI)ndash DeReKo Deutsches Referenz Korpus IDS Mannheim (IDS-
XCES)ndash DWDS Digitales Woumlrterbuch der deutschen Sprache
httpwwwdwdsde (TEI-P5)
23102014
11
Eignung von XML
bull Trennung von Primaumlrtext und Annotation durch xml-Struktur gegebenltannotation1 attr1=value1gt primaumlrtextltannotationgt
bull Formalismen zur Erstellung von Dokumentgrammatiken (dtd Relax-NG) die Anzahl und Art der Elemente ihre Verschachtelung und moumlgliche Attribute festlegen
bull Standards TEI XCEShellip meist generische Annotationsformate in Kombination mit festen Datenkategorien z B keine Festlegung auf ein bestimmtes POS-Tagset
23102014
12
Beispiel aus dem BNCltwtext type=FICTIONgt
ltpb n=5gt ltdiv level=1gt
ltheadgtlts n=1gt
ltw c5=NN1 hw=chapter pos=SUBSTgtCHAPTER ltwgt ltw c5=CRD hw=1 pos=ADJgt1ltwgt
ltsgtltheadgtltpgt
lts n=2gt ltc c5=PUQgtlsquoltcgt ltw c5=CJC hw=but pos=CONJgtButltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquo ltcgt ltw c5=VVD hw=say pos=VERBgtsaid ltwgt ltw c5=NP0 hw=owen pos=SUBSTgtOwenltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtlsquoltcgt ltw c5=AVQ hw=where pos=ADVgtwhere ltwgt ltw c5=VBZ hw=be pos=VERBgtis ltwgt ltw c5=AT0 hw=the pos=ARTgtthe ltwgt ltw c5=NN1 hw=body pos=SUBSTgtbodyltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquoltcgt
ltsgtltpgt
23102014
ltwtextgt written text
ltpbgt page breakltsgt sentenceltpgt paragraphltdivgt divisionltcgt punctuation markltwgt wordAttributec5 CLAWS5 Tagsethw rootStamm des Wortespos Part of Speech
Vgl httpwwwnatcorpoxacukdocsURGcdifbasehtmlcdifsgml
13
Einschraumlnkungen von XML
Nachteilebull Darstellung multipler sich uumlberlappender
Annotationen problematischbull Begrenzter semantischer Gehalt d h einzig
die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung
23102014
14
Uumlberlappende Annotationen 1
Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo
Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden
23102014
15
Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt
23102014
16
Uumlberlappende Annotationen 3
bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit
bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation
23102014
17
Loumlsungen
1 Multiple Dokumente
Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei
bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden
bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
18
Loumlsungen 2
2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile
ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar
bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen
23102014
19
Loumlsungen 3
3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen
bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien
moumlglichndash Widersprechende Auszeichnung moumlglich
bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
20
TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben
die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung
multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen
Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden
bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig
23102014
21
XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding
Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-
Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer
Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor
bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in
der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung
23102014
22
XCES Beispiel
Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any
formalacceptance of creed or system or of mistaking for a house in which to live an inn that
is butsuitable for the sojourn of a night in which there are no stars and the moon is in
travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis
In myfatherrsquos house are many mansionsTo get there you have to leave somewhere
elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt
23102014
Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt
23
XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt
23102014
24
Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und
Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)
bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr
bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)
bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)
23102014
25
Vielen Dank fuumlr Eure Aufmerksamkeit
23102014
7
Linguistische Annotationen
bdquoAls linguistische Annotation bezeichnet man Informationen zu linguistischen Merkmalen die den Primaumlrdaten des Korpus in digitaler Form beigefuumlgt sindldquo Storrer
Linguistische Merkmalebull Part-of-speech (POS Wortartenannotation)bull Lemmatisierungbull Semantische Lesartenbull Auszeichnung morphosyntaktischer Eigenschaftenbull Syntaktische Strukturen (Phrasen topologische Felder)bull Pragmatik Koreferenz
bull Weitere Merkmale z B Sprecher
23102014
Wortebene
Subwortebene
mehrere Woumlrter
Bezieht sich auf einzelne Woumlrter auch uumlber Satzgrenzen hinweg
Eine Aumluszligerung muss nicht mit Wort- oder Satzgrenzen zusammenfallen
8
Linguistische Annotationen 2
bull Auszeichnung erfolgt aufgrund des Umfangs der Korpora meist automatisiert POS-Tagging und Lemmatisierung funktionieren sehr gut die automatische Wortsinndisambiguierung wird zumindest besser
bull Fehler wird es bei der automatischen Annotierung immer geben Manuelle Korrektur ist wuumlnschenswert
-gt Umgang mit Fehlern Korrekturmoumlglichkeit bull Die Merkmalskategorien variieren mit dem
zugrundegelegten Grammatikmodell -gt allgemeines moumlglichst theorieneutrales
Auszeichnungssystem23102014
9
Part-of-Speech-Tagging
bull Tagset Legt das Inventar und die Bedeutung von (POS-)Tags fest
bull Stuttgart-Tuumlbingen-Tagset (STTS)httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSets
stts-1999pdf Kleines Tagset 54 TagszB ADJA attributives Adjektiv
PPOS PossesivpronomenNN AppelativaNE Eigennamen
Groszliges Tagset (inkl Morphologischer Informationen) Kombinatorisch mehrere Hundert bdquoTagsldquomit ganzemADJAPosMaskDatSgSt Einsatz
23102014
10
XML als Basis linguistischer Annotation
bull XML als Metasprache ist in der linguistischen Annotation fest etabliert
bull Es bestehen mehrere Standards zur linguistischen Annotation mit XML (TEI XCES)
bull XML findet Verwendung uandash BNC British National Corpus httpwwwnatcorpoxacuk
(TEI)ndash DeReKo Deutsches Referenz Korpus IDS Mannheim (IDS-
XCES)ndash DWDS Digitales Woumlrterbuch der deutschen Sprache
httpwwwdwdsde (TEI-P5)
23102014
11
Eignung von XML
bull Trennung von Primaumlrtext und Annotation durch xml-Struktur gegebenltannotation1 attr1=value1gt primaumlrtextltannotationgt
bull Formalismen zur Erstellung von Dokumentgrammatiken (dtd Relax-NG) die Anzahl und Art der Elemente ihre Verschachtelung und moumlgliche Attribute festlegen
bull Standards TEI XCEShellip meist generische Annotationsformate in Kombination mit festen Datenkategorien z B keine Festlegung auf ein bestimmtes POS-Tagset
23102014
12
Beispiel aus dem BNCltwtext type=FICTIONgt
ltpb n=5gt ltdiv level=1gt
ltheadgtlts n=1gt
ltw c5=NN1 hw=chapter pos=SUBSTgtCHAPTER ltwgt ltw c5=CRD hw=1 pos=ADJgt1ltwgt
ltsgtltheadgtltpgt
lts n=2gt ltc c5=PUQgtlsquoltcgt ltw c5=CJC hw=but pos=CONJgtButltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquo ltcgt ltw c5=VVD hw=say pos=VERBgtsaid ltwgt ltw c5=NP0 hw=owen pos=SUBSTgtOwenltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtlsquoltcgt ltw c5=AVQ hw=where pos=ADVgtwhere ltwgt ltw c5=VBZ hw=be pos=VERBgtis ltwgt ltw c5=AT0 hw=the pos=ARTgtthe ltwgt ltw c5=NN1 hw=body pos=SUBSTgtbodyltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquoltcgt
ltsgtltpgt
23102014
ltwtextgt written text
ltpbgt page breakltsgt sentenceltpgt paragraphltdivgt divisionltcgt punctuation markltwgt wordAttributec5 CLAWS5 Tagsethw rootStamm des Wortespos Part of Speech
Vgl httpwwwnatcorpoxacukdocsURGcdifbasehtmlcdifsgml
13
Einschraumlnkungen von XML
Nachteilebull Darstellung multipler sich uumlberlappender
Annotationen problematischbull Begrenzter semantischer Gehalt d h einzig
die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung
23102014
14
Uumlberlappende Annotationen 1
Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo
Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden
23102014
15
Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt
23102014
16
Uumlberlappende Annotationen 3
bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit
bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation
23102014
17
Loumlsungen
1 Multiple Dokumente
Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei
bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden
bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
18
Loumlsungen 2
2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile
ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar
bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen
23102014
19
Loumlsungen 3
3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen
bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien
moumlglichndash Widersprechende Auszeichnung moumlglich
bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
20
TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben
die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung
multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen
Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden
bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig
23102014
21
XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding
Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-
Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer
Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor
bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in
der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung
23102014
22
XCES Beispiel
Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any
formalacceptance of creed or system or of mistaking for a house in which to live an inn that
is butsuitable for the sojourn of a night in which there are no stars and the moon is in
travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis
In myfatherrsquos house are many mansionsTo get there you have to leave somewhere
elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt
23102014
Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt
23
XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt
23102014
24
Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und
Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)
bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr
bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)
bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)
23102014
25
Vielen Dank fuumlr Eure Aufmerksamkeit
23102014
8
Linguistische Annotationen 2
bull Auszeichnung erfolgt aufgrund des Umfangs der Korpora meist automatisiert POS-Tagging und Lemmatisierung funktionieren sehr gut die automatische Wortsinndisambiguierung wird zumindest besser
bull Fehler wird es bei der automatischen Annotierung immer geben Manuelle Korrektur ist wuumlnschenswert
-gt Umgang mit Fehlern Korrekturmoumlglichkeit bull Die Merkmalskategorien variieren mit dem
zugrundegelegten Grammatikmodell -gt allgemeines moumlglichst theorieneutrales
Auszeichnungssystem23102014
9
Part-of-Speech-Tagging
bull Tagset Legt das Inventar und die Bedeutung von (POS-)Tags fest
bull Stuttgart-Tuumlbingen-Tagset (STTS)httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSets
stts-1999pdf Kleines Tagset 54 TagszB ADJA attributives Adjektiv
PPOS PossesivpronomenNN AppelativaNE Eigennamen
Groszliges Tagset (inkl Morphologischer Informationen) Kombinatorisch mehrere Hundert bdquoTagsldquomit ganzemADJAPosMaskDatSgSt Einsatz
23102014
10
XML als Basis linguistischer Annotation
bull XML als Metasprache ist in der linguistischen Annotation fest etabliert
bull Es bestehen mehrere Standards zur linguistischen Annotation mit XML (TEI XCES)
bull XML findet Verwendung uandash BNC British National Corpus httpwwwnatcorpoxacuk
(TEI)ndash DeReKo Deutsches Referenz Korpus IDS Mannheim (IDS-
XCES)ndash DWDS Digitales Woumlrterbuch der deutschen Sprache
httpwwwdwdsde (TEI-P5)
23102014
11
Eignung von XML
bull Trennung von Primaumlrtext und Annotation durch xml-Struktur gegebenltannotation1 attr1=value1gt primaumlrtextltannotationgt
bull Formalismen zur Erstellung von Dokumentgrammatiken (dtd Relax-NG) die Anzahl und Art der Elemente ihre Verschachtelung und moumlgliche Attribute festlegen
bull Standards TEI XCEShellip meist generische Annotationsformate in Kombination mit festen Datenkategorien z B keine Festlegung auf ein bestimmtes POS-Tagset
23102014
12
Beispiel aus dem BNCltwtext type=FICTIONgt
ltpb n=5gt ltdiv level=1gt
ltheadgtlts n=1gt
ltw c5=NN1 hw=chapter pos=SUBSTgtCHAPTER ltwgt ltw c5=CRD hw=1 pos=ADJgt1ltwgt
ltsgtltheadgtltpgt
lts n=2gt ltc c5=PUQgtlsquoltcgt ltw c5=CJC hw=but pos=CONJgtButltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquo ltcgt ltw c5=VVD hw=say pos=VERBgtsaid ltwgt ltw c5=NP0 hw=owen pos=SUBSTgtOwenltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtlsquoltcgt ltw c5=AVQ hw=where pos=ADVgtwhere ltwgt ltw c5=VBZ hw=be pos=VERBgtis ltwgt ltw c5=AT0 hw=the pos=ARTgtthe ltwgt ltw c5=NN1 hw=body pos=SUBSTgtbodyltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquoltcgt
ltsgtltpgt
23102014
ltwtextgt written text
ltpbgt page breakltsgt sentenceltpgt paragraphltdivgt divisionltcgt punctuation markltwgt wordAttributec5 CLAWS5 Tagsethw rootStamm des Wortespos Part of Speech
Vgl httpwwwnatcorpoxacukdocsURGcdifbasehtmlcdifsgml
13
Einschraumlnkungen von XML
Nachteilebull Darstellung multipler sich uumlberlappender
Annotationen problematischbull Begrenzter semantischer Gehalt d h einzig
die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung
23102014
14
Uumlberlappende Annotationen 1
Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo
Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden
23102014
15
Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt
23102014
16
Uumlberlappende Annotationen 3
bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit
bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation
23102014
17
Loumlsungen
1 Multiple Dokumente
Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei
bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden
bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
18
Loumlsungen 2
2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile
ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar
bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen
23102014
19
Loumlsungen 3
3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen
bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien
moumlglichndash Widersprechende Auszeichnung moumlglich
bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
20
TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben
die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung
multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen
Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden
bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig
23102014
21
XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding
Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-
Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer
Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor
bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in
der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung
23102014
22
XCES Beispiel
Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any
formalacceptance of creed or system or of mistaking for a house in which to live an inn that
is butsuitable for the sojourn of a night in which there are no stars and the moon is in
travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis
In myfatherrsquos house are many mansionsTo get there you have to leave somewhere
elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt
23102014
Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt
23
XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt
23102014
24
Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und
Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)
bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr
bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)
bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)
23102014
25
Vielen Dank fuumlr Eure Aufmerksamkeit
23102014
9
Part-of-Speech-Tagging
bull Tagset Legt das Inventar und die Bedeutung von (POS-)Tags fest
bull Stuttgart-Tuumlbingen-Tagset (STTS)httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSets
stts-1999pdf Kleines Tagset 54 TagszB ADJA attributives Adjektiv
PPOS PossesivpronomenNN AppelativaNE Eigennamen
Groszliges Tagset (inkl Morphologischer Informationen) Kombinatorisch mehrere Hundert bdquoTagsldquomit ganzemADJAPosMaskDatSgSt Einsatz
23102014
10
XML als Basis linguistischer Annotation
bull XML als Metasprache ist in der linguistischen Annotation fest etabliert
bull Es bestehen mehrere Standards zur linguistischen Annotation mit XML (TEI XCES)
bull XML findet Verwendung uandash BNC British National Corpus httpwwwnatcorpoxacuk
(TEI)ndash DeReKo Deutsches Referenz Korpus IDS Mannheim (IDS-
XCES)ndash DWDS Digitales Woumlrterbuch der deutschen Sprache
httpwwwdwdsde (TEI-P5)
23102014
11
Eignung von XML
bull Trennung von Primaumlrtext und Annotation durch xml-Struktur gegebenltannotation1 attr1=value1gt primaumlrtextltannotationgt
bull Formalismen zur Erstellung von Dokumentgrammatiken (dtd Relax-NG) die Anzahl und Art der Elemente ihre Verschachtelung und moumlgliche Attribute festlegen
bull Standards TEI XCEShellip meist generische Annotationsformate in Kombination mit festen Datenkategorien z B keine Festlegung auf ein bestimmtes POS-Tagset
23102014
12
Beispiel aus dem BNCltwtext type=FICTIONgt
ltpb n=5gt ltdiv level=1gt
ltheadgtlts n=1gt
ltw c5=NN1 hw=chapter pos=SUBSTgtCHAPTER ltwgt ltw c5=CRD hw=1 pos=ADJgt1ltwgt
ltsgtltheadgtltpgt
lts n=2gt ltc c5=PUQgtlsquoltcgt ltw c5=CJC hw=but pos=CONJgtButltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquo ltcgt ltw c5=VVD hw=say pos=VERBgtsaid ltwgt ltw c5=NP0 hw=owen pos=SUBSTgtOwenltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtlsquoltcgt ltw c5=AVQ hw=where pos=ADVgtwhere ltwgt ltw c5=VBZ hw=be pos=VERBgtis ltwgt ltw c5=AT0 hw=the pos=ARTgtthe ltwgt ltw c5=NN1 hw=body pos=SUBSTgtbodyltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquoltcgt
ltsgtltpgt
23102014
ltwtextgt written text
ltpbgt page breakltsgt sentenceltpgt paragraphltdivgt divisionltcgt punctuation markltwgt wordAttributec5 CLAWS5 Tagsethw rootStamm des Wortespos Part of Speech
Vgl httpwwwnatcorpoxacukdocsURGcdifbasehtmlcdifsgml
13
Einschraumlnkungen von XML
Nachteilebull Darstellung multipler sich uumlberlappender
Annotationen problematischbull Begrenzter semantischer Gehalt d h einzig
die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung
23102014
14
Uumlberlappende Annotationen 1
Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo
Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden
23102014
15
Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt
23102014
16
Uumlberlappende Annotationen 3
bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit
bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation
23102014
17
Loumlsungen
1 Multiple Dokumente
Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei
bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden
bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
18
Loumlsungen 2
2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile
ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar
bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen
23102014
19
Loumlsungen 3
3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen
bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien
moumlglichndash Widersprechende Auszeichnung moumlglich
bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
20
TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben
die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung
multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen
Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden
bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig
23102014
21
XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding
Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-
Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer
Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor
bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in
der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung
23102014
22
XCES Beispiel
Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any
formalacceptance of creed or system or of mistaking for a house in which to live an inn that
is butsuitable for the sojourn of a night in which there are no stars and the moon is in
travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis
In myfatherrsquos house are many mansionsTo get there you have to leave somewhere
elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt
23102014
Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt
23
XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt
23102014
24
Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und
Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)
bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr
bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)
bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)
23102014
25
Vielen Dank fuumlr Eure Aufmerksamkeit
23102014
10
XML als Basis linguistischer Annotation
bull XML als Metasprache ist in der linguistischen Annotation fest etabliert
bull Es bestehen mehrere Standards zur linguistischen Annotation mit XML (TEI XCES)
bull XML findet Verwendung uandash BNC British National Corpus httpwwwnatcorpoxacuk
(TEI)ndash DeReKo Deutsches Referenz Korpus IDS Mannheim (IDS-
XCES)ndash DWDS Digitales Woumlrterbuch der deutschen Sprache
httpwwwdwdsde (TEI-P5)
23102014
11
Eignung von XML
bull Trennung von Primaumlrtext und Annotation durch xml-Struktur gegebenltannotation1 attr1=value1gt primaumlrtextltannotationgt
bull Formalismen zur Erstellung von Dokumentgrammatiken (dtd Relax-NG) die Anzahl und Art der Elemente ihre Verschachtelung und moumlgliche Attribute festlegen
bull Standards TEI XCEShellip meist generische Annotationsformate in Kombination mit festen Datenkategorien z B keine Festlegung auf ein bestimmtes POS-Tagset
23102014
12
Beispiel aus dem BNCltwtext type=FICTIONgt
ltpb n=5gt ltdiv level=1gt
ltheadgtlts n=1gt
ltw c5=NN1 hw=chapter pos=SUBSTgtCHAPTER ltwgt ltw c5=CRD hw=1 pos=ADJgt1ltwgt
ltsgtltheadgtltpgt
lts n=2gt ltc c5=PUQgtlsquoltcgt ltw c5=CJC hw=but pos=CONJgtButltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquo ltcgt ltw c5=VVD hw=say pos=VERBgtsaid ltwgt ltw c5=NP0 hw=owen pos=SUBSTgtOwenltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtlsquoltcgt ltw c5=AVQ hw=where pos=ADVgtwhere ltwgt ltw c5=VBZ hw=be pos=VERBgtis ltwgt ltw c5=AT0 hw=the pos=ARTgtthe ltwgt ltw c5=NN1 hw=body pos=SUBSTgtbodyltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquoltcgt
ltsgtltpgt
23102014
ltwtextgt written text
ltpbgt page breakltsgt sentenceltpgt paragraphltdivgt divisionltcgt punctuation markltwgt wordAttributec5 CLAWS5 Tagsethw rootStamm des Wortespos Part of Speech
Vgl httpwwwnatcorpoxacukdocsURGcdifbasehtmlcdifsgml
13
Einschraumlnkungen von XML
Nachteilebull Darstellung multipler sich uumlberlappender
Annotationen problematischbull Begrenzter semantischer Gehalt d h einzig
die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung
23102014
14
Uumlberlappende Annotationen 1
Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo
Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden
23102014
15
Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt
23102014
16
Uumlberlappende Annotationen 3
bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit
bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation
23102014
17
Loumlsungen
1 Multiple Dokumente
Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei
bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden
bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
18
Loumlsungen 2
2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile
ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar
bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen
23102014
19
Loumlsungen 3
3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen
bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien
moumlglichndash Widersprechende Auszeichnung moumlglich
bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
20
TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben
die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung
multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen
Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden
bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig
23102014
21
XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding
Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-
Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer
Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor
bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in
der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung
23102014
22
XCES Beispiel
Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any
formalacceptance of creed or system or of mistaking for a house in which to live an inn that
is butsuitable for the sojourn of a night in which there are no stars and the moon is in
travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis
In myfatherrsquos house are many mansionsTo get there you have to leave somewhere
elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt
23102014
Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt
23
XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt
23102014
24
Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und
Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)
bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr
bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)
bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)
23102014
25
Vielen Dank fuumlr Eure Aufmerksamkeit
23102014
11
Eignung von XML
bull Trennung von Primaumlrtext und Annotation durch xml-Struktur gegebenltannotation1 attr1=value1gt primaumlrtextltannotationgt
bull Formalismen zur Erstellung von Dokumentgrammatiken (dtd Relax-NG) die Anzahl und Art der Elemente ihre Verschachtelung und moumlgliche Attribute festlegen
bull Standards TEI XCEShellip meist generische Annotationsformate in Kombination mit festen Datenkategorien z B keine Festlegung auf ein bestimmtes POS-Tagset
23102014
12
Beispiel aus dem BNCltwtext type=FICTIONgt
ltpb n=5gt ltdiv level=1gt
ltheadgtlts n=1gt
ltw c5=NN1 hw=chapter pos=SUBSTgtCHAPTER ltwgt ltw c5=CRD hw=1 pos=ADJgt1ltwgt
ltsgtltheadgtltpgt
lts n=2gt ltc c5=PUQgtlsquoltcgt ltw c5=CJC hw=but pos=CONJgtButltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquo ltcgt ltw c5=VVD hw=say pos=VERBgtsaid ltwgt ltw c5=NP0 hw=owen pos=SUBSTgtOwenltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtlsquoltcgt ltw c5=AVQ hw=where pos=ADVgtwhere ltwgt ltw c5=VBZ hw=be pos=VERBgtis ltwgt ltw c5=AT0 hw=the pos=ARTgtthe ltwgt ltw c5=NN1 hw=body pos=SUBSTgtbodyltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquoltcgt
ltsgtltpgt
23102014
ltwtextgt written text
ltpbgt page breakltsgt sentenceltpgt paragraphltdivgt divisionltcgt punctuation markltwgt wordAttributec5 CLAWS5 Tagsethw rootStamm des Wortespos Part of Speech
Vgl httpwwwnatcorpoxacukdocsURGcdifbasehtmlcdifsgml
13
Einschraumlnkungen von XML
Nachteilebull Darstellung multipler sich uumlberlappender
Annotationen problematischbull Begrenzter semantischer Gehalt d h einzig
die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung
23102014
14
Uumlberlappende Annotationen 1
Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo
Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden
23102014
15
Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt
23102014
16
Uumlberlappende Annotationen 3
bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit
bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation
23102014
17
Loumlsungen
1 Multiple Dokumente
Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei
bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden
bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
18
Loumlsungen 2
2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile
ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar
bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen
23102014
19
Loumlsungen 3
3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen
bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien
moumlglichndash Widersprechende Auszeichnung moumlglich
bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
20
TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben
die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung
multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen
Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden
bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig
23102014
21
XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding
Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-
Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer
Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor
bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in
der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung
23102014
22
XCES Beispiel
Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any
formalacceptance of creed or system or of mistaking for a house in which to live an inn that
is butsuitable for the sojourn of a night in which there are no stars and the moon is in
travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis
In myfatherrsquos house are many mansionsTo get there you have to leave somewhere
elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt
23102014
Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt
23
XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt
23102014
24
Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und
Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)
bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr
bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)
bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)
23102014
25
Vielen Dank fuumlr Eure Aufmerksamkeit
23102014
12
Beispiel aus dem BNCltwtext type=FICTIONgt
ltpb n=5gt ltdiv level=1gt
ltheadgtlts n=1gt
ltw c5=NN1 hw=chapter pos=SUBSTgtCHAPTER ltwgt ltw c5=CRD hw=1 pos=ADJgt1ltwgt
ltsgtltheadgtltpgt
lts n=2gt ltc c5=PUQgtlsquoltcgt ltw c5=CJC hw=but pos=CONJgtButltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquo ltcgt ltw c5=VVD hw=say pos=VERBgtsaid ltwgt ltw c5=NP0 hw=owen pos=SUBSTgtOwenltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtlsquoltcgt ltw c5=AVQ hw=where pos=ADVgtwhere ltwgt ltw c5=VBZ hw=be pos=VERBgtis ltwgt ltw c5=AT0 hw=the pos=ARTgtthe ltwgt ltw c5=NN1 hw=body pos=SUBSTgtbodyltwgt ltc c5=PUNgtltcgt ltc c5=PUQgtrsquoltcgt
ltsgtltpgt
23102014
ltwtextgt written text
ltpbgt page breakltsgt sentenceltpgt paragraphltdivgt divisionltcgt punctuation markltwgt wordAttributec5 CLAWS5 Tagsethw rootStamm des Wortespos Part of Speech
Vgl httpwwwnatcorpoxacukdocsURGcdifbasehtmlcdifsgml
13
Einschraumlnkungen von XML
Nachteilebull Darstellung multipler sich uumlberlappender
Annotationen problematischbull Begrenzter semantischer Gehalt d h einzig
die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung
23102014
14
Uumlberlappende Annotationen 1
Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo
Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden
23102014
15
Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt
23102014
16
Uumlberlappende Annotationen 3
bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit
bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation
23102014
17
Loumlsungen
1 Multiple Dokumente
Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei
bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden
bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
18
Loumlsungen 2
2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile
ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar
bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen
23102014
19
Loumlsungen 3
3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen
bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien
moumlglichndash Widersprechende Auszeichnung moumlglich
bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
20
TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben
die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung
multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen
Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden
bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig
23102014
21
XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding
Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-
Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer
Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor
bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in
der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung
23102014
22
XCES Beispiel
Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any
formalacceptance of creed or system or of mistaking for a house in which to live an inn that
is butsuitable for the sojourn of a night in which there are no stars and the moon is in
travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis
In myfatherrsquos house are many mansionsTo get there you have to leave somewhere
elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt
23102014
Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt
23
XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt
23102014
24
Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und
Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)
bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr
bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)
bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)
23102014
25
Vielen Dank fuumlr Eure Aufmerksamkeit
23102014
13
Einschraumlnkungen von XML
Nachteilebull Darstellung multipler sich uumlberlappender
Annotationen problematischbull Begrenzter semantischer Gehalt d h einzig
die Namen der Elemente und Attribute geben Hinweis auf die Motivation zur Auszeichnung
23102014
14
Uumlberlappende Annotationen 1
Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo
Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden
23102014
15
Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt
23102014
16
Uumlberlappende Annotationen 3
bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit
bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation
23102014
17
Loumlsungen
1 Multiple Dokumente
Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei
bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden
bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
18
Loumlsungen 2
2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile
ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar
bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen
23102014
19
Loumlsungen 3
3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen
bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien
moumlglichndash Widersprechende Auszeichnung moumlglich
bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
20
TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben
die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung
multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen
Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden
bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig
23102014
21
XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding
Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-
Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer
Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor
bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in
der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung
23102014
22
XCES Beispiel
Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any
formalacceptance of creed or system or of mistaking for a house in which to live an inn that
is butsuitable for the sojourn of a night in which there are no stars and the moon is in
travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis
In myfatherrsquos house are many mansionsTo get there you have to leave somewhere
elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt
23102014
Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt
23
XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt
23102014
24
Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und
Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)
bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr
bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)
bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)
23102014
25
Vielen Dank fuumlr Eure Aufmerksamkeit
23102014
14
Uumlberlappende Annotationen 1
Konstruiertes Beispiel einer TranskriptionPeter ldquoHey Paul Would you give merdquoPaul bdquothe hammerldquo
Aufgabe Es soll nicht nur die Satzstruktur festgehalten werden sondern auch die Aumluszligerungen den Sprechern zugeordnet werden
23102014
15
Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt
23102014
16
Uumlberlappende Annotationen 3
bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit
bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation
23102014
17
Loumlsungen
1 Multiple Dokumente
Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei
bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden
bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
18
Loumlsungen 2
2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile
ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar
bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen
23102014
19
Loumlsungen 3
3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen
bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien
moumlglichndash Widersprechende Auszeichnung moumlglich
bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
20
TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben
die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung
multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen
Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden
bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig
23102014
21
XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding
Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-
Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer
Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor
bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in
der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung
23102014
22
XCES Beispiel
Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any
formalacceptance of creed or system or of mistaking for a house in which to live an inn that
is butsuitable for the sojourn of a night in which there are no stars and the moon is in
travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis
In myfatherrsquos house are many mansionsTo get there you have to leave somewhere
elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt
23102014
Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt
23
XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt
23102014
24
Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und
Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)
bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr
bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)
bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)
23102014
25
Vielen Dank fuumlr Eure Aufmerksamkeit
23102014
15
Uumlberlappende Annotationen 2ltposgtltsentence id=0gtltu who=Petergtltword wid=0 pos=NNPgtHeyltwordgtltword wid=1 pos=NNPgtPaulltwordgtltword wid=2 pos=gtltwordgtltsentencegtltsentence id=1gtltword wid=0 pos=MDgtWouldltwordgtltword wid=1 pos=PRPgtyoultwordgtltword wid=2 pos=VBgtgiveltwordgtltword wid=3 pos=PRPgtmeltwordgtltugtltu who=Paulgtltword wid=4 pos=DTgttheltwordgtltword wid=5 pos=NNgthammerltwordgtltword wid=6 pos=gtltwordgtltsentencegtltposgt
23102014
16
Uumlberlappende Annotationen 3
bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit
bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation
23102014
17
Loumlsungen
1 Multiple Dokumente
Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei
bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden
bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
18
Loumlsungen 2
2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile
ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar
bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen
23102014
19
Loumlsungen 3
3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen
bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien
moumlglichndash Widersprechende Auszeichnung moumlglich
bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
20
TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben
die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung
multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen
Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden
bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig
23102014
21
XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding
Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-
Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer
Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor
bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in
der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung
23102014
22
XCES Beispiel
Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any
formalacceptance of creed or system or of mistaking for a house in which to live an inn that
is butsuitable for the sojourn of a night in which there are no stars and the moon is in
travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis
In myfatherrsquos house are many mansionsTo get there you have to leave somewhere
elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt
23102014
Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt
23
XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt
23102014
24
Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und
Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)
bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr
bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)
bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)
23102014
25
Vielen Dank fuumlr Eure Aufmerksamkeit
23102014
16
Uumlberlappende Annotationen 3
bull Problem uumlberlappende Annotationen sind in XML nicht repraumlsentierbar (vgl Definition von Wohlgeformtheit
bull Loumlsungenndash Multiple Dokumentendash Fragmentierungenndash Standoff-Notation
23102014
17
Loumlsungen
1 Multiple Dokumente
Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei
bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden
bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
18
Loumlsungen 2
2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile
ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar
bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen
23102014
19
Loumlsungen 3
3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen
bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien
moumlglichndash Widersprechende Auszeichnung moumlglich
bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
20
TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben
die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung
multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen
Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden
bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig
23102014
21
XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding
Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-
Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer
Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor
bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in
der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung
23102014
22
XCES Beispiel
Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any
formalacceptance of creed or system or of mistaking for a house in which to live an inn that
is butsuitable for the sojourn of a night in which there are no stars and the moon is in
travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis
In myfatherrsquos house are many mansionsTo get there you have to leave somewhere
elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt
23102014
Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt
23
XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt
23102014
24
Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und
Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)
bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr
bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)
bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)
23102014
25
Vielen Dank fuumlr Eure Aufmerksamkeit
23102014
17
Loumlsungen
1 Multiple Dokumente
Speicherung jeweils einer Annotationsebene inkl Primaumlrdaten in einer Datei
bull Vorteilendash Jede Datei ist vollstaumlndig und einzeln verwendbarndash Gut verarbeitbar (sowohl durch menschliche als auch maschinelle Leser)ndash Fuumlr jede Annotationsebene kann eine separate Dokumentgrammatik erstelltndash werden
bull Nachteilendash Primaumlrdaten werden redundant gespeichertndash Bezug der Annotationen untereinander nur schwer und aufwaumlndig zundash realisierenndash Geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
18
Loumlsungen 2
2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile
ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar
bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen
23102014
19
Loumlsungen 3
3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen
bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien
moumlglichndash Widersprechende Auszeichnung moumlglich
bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
20
TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben
die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung
multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen
Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden
bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig
23102014
21
XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding
Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-
Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer
Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor
bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in
der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung
23102014
22
XCES Beispiel
Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any
formalacceptance of creed or system or of mistaking for a house in which to live an inn that
is butsuitable for the sojourn of a night in which there are no stars and the moon is in
travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis
In myfatherrsquos house are many mansionsTo get there you have to leave somewhere
elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt
23102014
Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt
23
XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt
23102014
24
Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und
Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)
bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr
bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)
bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)
23102014
25
Vielen Dank fuumlr Eure Aufmerksamkeit
23102014
18
Loumlsungen 2
2 FragmentierungenAufbrechen der einzelnen uumlberlappenden Elemente in kleinere Teilfragmente die sich ohne Uumlberlappungen in die Dokumentstruktur einbetten lassen bull Vorteile
ndash Durch Hinzufuumlgen des part-Attributs wird die logischendash Zusammengehoumlrigkeit der Fragmente deutlich gemachtndash Self Overlap durch Verwendung des next-Attributs prinzipiell abbildbar
bull Nachteilendash Bei vielfacher Uumlberlappung unuumlbersichtlichndash Schlecht maschinell verarbeitbarndash Keine Unterscheidung von Inklusion und Dominanzbeziehungen
23102014
19
Loumlsungen 3
3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen
bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien
moumlglichndash Widersprechende Auszeichnung moumlglich
bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
20
TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben
die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung
multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen
Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden
bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig
23102014
21
XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding
Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-
Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer
Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor
bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in
der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung
23102014
22
XCES Beispiel
Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any
formalacceptance of creed or system or of mistaking for a house in which to live an inn that
is butsuitable for the sojourn of a night in which there are no stars and the moon is in
travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis
In myfatherrsquos house are many mansionsTo get there you have to leave somewhere
elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt
23102014
Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt
23
XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt
23102014
24
Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und
Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)
bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr
bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)
bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)
23102014
25
Vielen Dank fuumlr Eure Aufmerksamkeit
23102014
19
Loumlsungen 3
3 Standoff-NotationTrennung von Primaumlrdaten und Markup und anschlieszligende Referenzierung durch Zeigemechanismen
bull Vorteilendash Beliebig viele Annotationsebenen kombinierbar auch Sub-Wort-Ebenendash Prinzipiell gut skalierbar da Verwendung von beliebiger Anzahl von Dateien
moumlglichndash Widersprechende Auszeichnung moumlglich
bull Nachteilendash Fuumlr menschliche Leser sehr schlecht verarbeitbarndash Maschinelle Verarbeitung problematischndash Je nach Ansatz geringe Robustheit bzgl Integritaumlt der Primaumlrdaten
23102014
20
TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben
die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung
multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen
Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden
bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig
23102014
21
XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding
Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-
Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer
Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor
bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in
der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung
23102014
22
XCES Beispiel
Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any
formalacceptance of creed or system or of mistaking for a house in which to live an inn that
is butsuitable for the sojourn of a night in which there are no stars and the moon is in
travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis
In myfatherrsquos house are many mansionsTo get there you have to leave somewhere
elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt
23102014
Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt
23
XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt
23102014
24
Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und
Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)
bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr
bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)
bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)
23102014
25
Vielen Dank fuumlr Eure Aufmerksamkeit
23102014
20
TEIbull Die TEI Guidelines sind seit uumlber 20 Jahren weltweit im Einsatzbull Neue Fassungen sind entweder abwaumlrtskompatibel oder erlauben
die Transformation bestehender Datenbull Fuumlr die Annotation linguistischer Daten bietet die TEI Elemente zurbull Segmentierung hinunter auf Zeichenenebenebull Die TEI unterstuumltzt eine Vielzahl an Mechanismen zur Speicherung
multiplerAnnotationenbull Fuumlr die Auszeichnung konkreter linguistischer Merkmale fehlen
Elemente undAttribute ndash hier muumlssen externe Ressourcen herangezogen werden
bull Das Tagset ist sehr komplex und ermoumlglicht mehrere Wege um Phaumlnomene zu beschreiben daher zusaumltzliche Annotation Guidelines notwendig
23102014
21
XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding
Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-
Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer
Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor
bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in
der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung
23102014
22
XCES Beispiel
Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any
formalacceptance of creed or system or of mistaking for a house in which to live an inn that
is butsuitable for the sojourn of a night in which there are no stars and the moon is in
travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis
In myfatherrsquos house are many mansionsTo get there you have to leave somewhere
elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt
23102014
Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt
23
XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt
23102014
24
Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und
Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)
bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr
bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)
bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)
23102014
25
Vielen Dank fuumlr Eure Aufmerksamkeit
23102014
21
XCESbull Teil der EAGLES Guidelines (Expert Advisory Group on Languagebull Engineering Standards)bull XCES ist eine weiterentwickelte XML-Fassung des Corpus Encoding
Standards (CES) das eine Modifikation der TEI-P3 Richtlinien istbull Beim IDS in Mannheim wird aktuell an einer TEI P5-kompatiblen XCES-
Version gearbeitet (IDS-XCES)bull XCES sieht eine Kodierung der Primaumlrdaten (in Form einer
Basisannotation) sowie die Annotation der eigentlichen linguistischen Phaumlnomene vor
bull Metadaten (analog zur TEI) werden in einer externen Datei gespeichertbull Annotationsebenen werden mittels Merkmalsstrukturen (definiert in
der Dokumentgrammatik cesAna) kodiert die eigentliche Annotation erfolgt inStandoff-Notation auf Basis der Primaumlrdatenkodierung
23102014
22
XCES Beispiel
Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any
formalacceptance of creed or system or of mistaking for a house in which to live an inn that
is butsuitable for the sojourn of a night in which there are no stars and the moon is in
travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis
In myfatherrsquos house are many mansionsTo get there you have to leave somewhere
elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt
23102014
Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt
23
XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt
23102014
24
Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und
Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)
bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr
bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)
bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)
23102014
25
Vielen Dank fuumlr Eure Aufmerksamkeit
23102014
22
XCES Beispiel
Primaumlrdatenltxml version=10 encoding=UTF-8gtltcesDoc xmlns=httpwwwxcesorgschema2003 version=04gtlttextgtltbodygtltpgtThe Story Continues a serial enovel by Ferd Egganltpgtltpgt1 Welcome to Hotel Real DesertltpgtltpgtBut he never fell into the error of arresting his intellectual development by any
formalacceptance of creed or system or of mistaking for a house in which to live an inn that
is butsuitable for the sojourn of a night in which there are no stars and the moon is in
travailltpgtltpgtThe HotelltpgtltpgtHotel is next door to a perfect metaphor for the mind and thus for psychoanalysis
In myfatherrsquos house are many mansionsTo get there you have to leave somewhere
elseltpgtlt10485761048576 [] 10485761048576gtltbodygtlttextgtltcesDocgt
23102014
Metadatenltxml version=10 encoding=UTF-8gtltcesHeader creator=KBS datecreated=20050222gtltfileDescgtlttitleStmtgtlttitlegtThe Story ContinueslttitlegtltauthorgtFerd EgganltauthorgtlttitleStmtgtltsourceDescgtlt-- [] --gtltsourceDescgtltfileDescgtltprofileDescgtlttextClassgtltdomaingtFictionltdomaingtltsubdomaingtGeneral fictionltsubdomaingtlt-- [] --gtlttextClassgtltannotationsgtltannotation annloc=TheStorytxt type=contentgtText contentltannotationgtltannotation annloc=TheStory-logicalxml type=logicalgtLogical structureltannotationgtlt-- [] --gtltannotationsgtltprofileDescgtltcesHeadergt
23
XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt
23102014
24
Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und
Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)
bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr
bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)
bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)
23102014
25
Vielen Dank fuumlr Eure Aufmerksamkeit
23102014
23
XCES Beispiel 2Annotationenltxml version=10 encoding=UTF-8gtltcesAna xmlns=httpwwwxcesorgschema2003 version=104gtltstruct type=cesDoc from=0 to=400307gtltfeat name=xmlns value=httpwwwxcesorgschema2003gtltfeat name=version value=104gtltstructgtltstruct type=text from=2 to=400306gtltstruct type=body from=5 to=400304gtltstruct type=div from=9 to=73gtltstruct type=p from=14 to=69gtltfeat name=id value=p1gtltstructgtltstruct type=head from=77 to=108gtltfeat name=type value=h1gtltstructgtltstruct type=p from=112 to=414gtltfeat name=id value=p2gtltstructgtltstruct type=hi from=409 to=410gtltfeat name=rend value=supgtltstructgtlt-- [] --gtltcesAnagt
23102014
24
Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und
Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)
bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr
bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)
bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)
23102014
25
Vielen Dank fuumlr Eure Aufmerksamkeit
23102014
24
Quellenbull Storrer bdquoKorpusgestuumltzte Sprachanalyse in Lexikographie und
Phraseologieldquo (httpwwwstudigertu-dortmunddeimagesPre_storrer-korpuslinguistik-2pdf 23102014)
bull Lemnitzer L Zinsmeister H (2006) Korpuslinguistik Eine Einfuumlhrung Tuumlbingen Narr
bull httpwwwmaik-stuehrenbergdefilesStuehrenberg-Kolloquium2012pdf (23102014)
bull httpwwwimsuni-stuttgartdeforschungressourcenlexikaTagSetsstts-1999pdf (23102014)
23102014
25
Vielen Dank fuumlr Eure Aufmerksamkeit
23102014
25
Vielen Dank fuumlr Eure Aufmerksamkeit
23102014