50
Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de 4/5/2014 Das DWDS-Wortinformationssystem Alexander Geyken, Berlin-Brandenburgische Akademie der Wissenschaften 5. Potsdamer I-Science Tag Potsdam, 19. März 2014

Deutsches Textarchiv kodieren – denkbare Perspektiven ... · grauen Tag und eine graue Woche und einen grauen Monat FEUCHTW. Tag 78; In Dresden ging der graue Alltag wieder los

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

4/5/2014

Das DWDS-Wortinformationssystem

Alexander Geyken, Berlin-Brandenburgische Akademie der

Wissenschaften

5. Potsdamer I-Science Tag

Potsdam, 19. März 2014

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

Gliederung

1. DWDS: ein Informationssystem heterogener

lexikalischer und textueller Ressourcen

2. Computerlinguistik im DWDS

3. Visualisierung

4/5/2014

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

1. DWDS – Informationssystem

• Ziel: Aufbau eines umfassenden lexikalischen

Auskunftssystems der deutschen Sprache in

Geschichte und Gegenwart

• Förderzeitraum: 2007-2025 (seit Okt. 2013,

synchrone Lexikographie)

• Anwendungsbezogenheit:

– Nutzung von computerlinguistischen/lexikologischen

Werkzeugen und Forschungsergebnissen

– Frühe Verfügbarkeit der Ergebnisse

4/5/2014

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

1. Kontext im Jahr 2014

• (deutsche) Lexikographie im Umbruch:

– Verlagslexikographie: Wahrig, Duden

– Akademische Lexikographie:

Sprachstadienwörterbücher, Grimm

• Informationstechnologie

– Traditionell Weg: Daten, Wörterbucherstellung, Druck

(Aktualisierung ‚statisch‘)

– Heute: Daten <-> Wörterbucherstellung <->

Publikation (Aktualisierung ‚dynamisch‘)

4/5/2014

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

1. DWDS: heterogene Ressourcen

(A) Über 410 000 Wörterbucheinträge aus 5

Wörterbuchquellen

Grimmsches Wörterbuch, Etymolog. Wörterbuch,

WDG/DWDS-W-2013

(B) 1,8 (2,7) Milliarden Korpusbelege aus 15

Korpora

Kernkorpus 20. Jh, Zeitungen (Bild, FAZ, SZ, Welt, ,

Zeit…), Deutsches Textarchiv …

(C) Statistische Auswertungen

Wortverlaufskurven, Wortprofil

4/5/2014

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

DWDS-erweitert

DWDS Basis

DWDS Kern

• 2,6 G Tokens

• 7,5 M docs

• 250 M Tokens

• 272 000 docs

• 100 M Tokens

• 80 000 docs

DWDS: 1900 -

DTA erweitert

DTA Kern

• 120 M

• 100 M

Deutsches Textarchiv

~1600-1900

Korpora

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

Hist. Korpora: Deutsches Textarchiv

• Disziplinen- und

gattungsübergreifender

Grundbestand (1600 – ~1900)

– Kommentierte Vorschläge von

Mitgliedern der BBAW

– Euler, Boltzmann, Hilbert; Marx,

Wundt; Goethe, Lessing …

• Digitalisierung (Erstausgaben, sehr

hohe Erfassungsqualität),

XML/TEI-P5;

schreibweisentolerante

Durchsuchbarkeit (Theil->Teil,

dictirte -> diktierte)

• Kooperationen / Textaustausch

• Gefördert:

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

Mitmachplattform

• Webbasiert (400 Nutzer)

• Nutzerbeteiligung:

– Text korrigieren

– Struktur korrigieren (XML/TEI)

– Zitateerkennung validieren

• Versionierung (GIT)

• Veröffentlichung: TEI, epub

(cc-by-nc)

→ deutschestextarchiv.de/dtaq

8

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

Web-Editoren

a. WYSIWYG-editor – Nur Änderungen auf

Text(knoten)ebene

b. XML Editor

Änderungen auf

Strukturebene

basiert auf ACE

(ajaxorg/ace · GitHub)

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

10

DWDS vs ngrams

• Hol(t)zweg im DTA

(Erstbeleg 1602)

Holzweg ngram (Erstbeleg 1760, nachgeschlagen am

12.3.14)

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

DWDS vs ngrams

11

• Hol(t)zweg im DTA

(Erstbeleg 1602)

Hol(t)zweg ngram (Erstbeleg 1760, nachgeschlagen am

12.3.14)

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

www.dwds.de

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

Gliederung

1. DWDS: ein Informationssystem heterogener

lexikalischer und textueller Ressourcen

2. Computerlinguistik im DWDS

3. Visualisierung

4/5/2014

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

Computerlinguistik im DWDS

Drei Generationen von Korpusabfragewerkzeugen

– 1. Konkordanzen (~snippets google)

– 2. Statistik „collocations“ (z.B. Projekt Deutscher

Wortschatz)

– 3. Kombination Linguistik und Statistik (DWDS-

Wortprofil)

Quellen zu 3: www.dwds.de/publikationen sowie sketch

engine (Kilgarriff 2004-2012)

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

CL im DWDS: Das Wortprofil

Problemstellung – Beispiel:

Welches sind die typischen

„Mitspieler“ von Feindbild?

•Adjektive: perfekt (14),

dämonisierend (15), neu (17)

oder klar (19)

•Verb_pp: beharren auf (12,13)

•Verb_akk: verlieren (5),

abgeben (14)

Konkordanzen (1. Generation),

Suchwort Feindbild 1-20 von

2364

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

CL im DWDS: Das Wortprofil

4/5/2014

2. Generation: Statistik

Beispiel: Projekt Deutscher

Wortschatz

Extrakt der Ergebnisse aus

dem Projekt Deutscher

Wortschatz (=Statistik ohne

Syntaxanalyse)

Schwierig (syntaktisch)

motivierbare Kollokationen

Z3: Türk, Globetrotter,

Schmähgesänge

Projekt Deutscher Wortschatz;

Zugriff 12/2011

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

CL im DWDS: Das Wortprofil

Das Wortprofil: dritte Generation von

Korpusabfragewerkzeugen

Kombination Linguistik und Statistik

Extraktion von syntaktischen Relationen (z,B. Adjektiv-

Nomen, Verb-direktes_Objekt)

statistische Salienz von Relationstupeln (z.B. Mutual

Information, LogDice)

4/5/2014

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

CL im DWDS: Das Wortprofil

Auswahl von Relationstypen:

• Relationstypen innerhalb von Phrasen

– Adjektiv-Nomen (Etikett: ATTR): klares Feindbild, schöne Bescherung

– Nomen-Koordination-Nomen (CJ): grün und blau, Kopf oder Zahl

– Nomen-Nomen (im Genitiv) (GMOD): Abbau des Feindbildes, Abbau von Vorurteilen

– Adverb-Adjektiv (AdvA): sehr intelligent, hoch erfreut

• Phrasenübergreifende Relationen

– Nomen -Verb (SUBJ): das Feindbild verblasst, das Badewasser läuft aus

– Nomen-Verb (PSUBJ): die Flasche wurde entkorkt

– Nomen -Verb (OBJA): ein Feindbild abbauen, eine Rede halten

– Nomen -Verb (OBJD): dem Publikum verkünden

– Verb-Präposition-Nomen (V PP): zur Verfügung stehen, auskommen ohne Feindbild

– Verb-Verb (InfObj): aufgehen sehen, (auf etw.) zu sprechen kommen

– Adverb Verb (VAdv): schallend lachen, freimütig zugeben

4/5/2014

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

CL im DWDS: Das Wortprofil

Berechnung des Wortprofils: Etappen

1. Syntaktische Analyse des gesamten Korpus mit

dem Syntaxparser Syncope (Ergebnis:

Parsebäume des Korpus)

2. Extraktion der Relationen aus den

Parsebäumen

3. Berechnung der statistischen Salienz

4. Speicherung aller Sätze, in denen mindestens

eine saliente Relation vorkommt; Verknüpfung

Relation mit zugehörigem Satz

4/5/2014

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

Statistik im DWDS: Das Wortprofil

• Entwicklung des „Wortprofils“ für das Deutsche

– angelehnt an word-sketch (Kilgarriff 2004f.)

– basiert auf shallow parser SynCope (Didakowski

2008)

– Erster Prototyp: 2008; mittlerweile 3. Version unter

www.dwds.de

– Publikationen www.dwds.de

4/5/2014

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

CL im DWDS: Das Wortprofil

Berechnung des Wortprofils: Etappen

1. Syntaktische Analyse des gesamten Korpus mit

dem Syntaxparser Syncope (Ergebnis:

‚Parsewald‘ des Korpus)

2. Extraktion der Relationen aus den

Parsebäumen

3. Berechnung der statistischen Salienz

4. Speicherung aller Sätze, in denen mindestens

eine saliente Relation vorkommt; Verknüpfung

Relation mit zugehörigem Satz

4/5/2014

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

CL im DWDS: das Wortprofil

Beispiel Etappe 2: Extraktion der Relationen

• Angst – active-clause_subject_of – aufessen

• Seele – active-clause_object_of – aufessen

• auf – verb_particle_of – aufessen

• aufessen – has_active-clause_subject – Angst

• aufessen – has_active-clause_object – Seele

• aufessen – has_verb_particle – auf

4/5/2014

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

CL im DWDS: das Wortprofil

Parsebaum für Beispiel (b)

4/5/2014

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

Das Wortprofil

Beispiel (b) - Etappe 2:

Jeder Aspekt des Vertrags von Rom sowie der im Anschluß an seine Unterzeichnung

getroffenen Entscheidung und alle Folgen und Auswirkungen, die ein britischer

Beitritt nach sich ziehen dürfte, sind von allen Seiten beleuchtet worden.

• Aspekt – passive-clause_subject_of – beleuchten

• jeder – determinier_of – Aspekt

• Vertrag – genitive_attribute_of – Aspekt

• beleuchten – has_passive-clause_subject – Aspekt

• Aspekt – has_determinier – jeder

• Aspekt – has_genitive_attribute – Vertrag

• Aspekt – noun_coordination – Folge

• Aspekt – noun_coordination – Auswirkung

• Folge – noun_coordination – Aspekt

• Auswirkung – noun_coordination – Aspekt

4/5/2014

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

Wortprofil - Zahlen

• Korpusgröße: 1,7 Milliarden laufende Textwörter

(Grundlage: DWDS-Korpora)

• verschiedene Wortverbindungen (Tupel): 11.975.986 – Beispiel: [ schick(Adj), Kleid(Nomen), Adjektivattribut]

• Sätze mit mind. einer relevanten (statistisch salienten)

Wortverbindung: 466.005.198 (249.078.149)

• Sätzen, die als Belege verwendet werden: 67.711.555

• Anzahl abfragbarer Wörter (mit >= 1 sal. Tupel): 92.542 – genauer gesagt werden Paare aus Lemma und Wortart abgefragt; Beispiel:

schick,Adjektiv; Schick,Substantiv; schick,Verb - Imperativ)

• Anzahl syntaktischer Relationen: 13 (Adj_NN, V_Obj…)

4/5/2014

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

Wortprofil vs. Wörterbuch (WDG)

grau /Adj./ 1. /Mischfarbe aus Schwarz und Weiß/ die g. Haut des Elefanten; g. wie eine Maus; ein g.

Stoff, Kostüm; eine g. Uniform; er hat g. Augen; g. Gestein; g. Mauern; Am grauen Strand, am

grauen Meer /Und seitab liegt die Stadt STORM 8,194; g. Rauch-, Regenwolken; der Himmel ist

ganz g.; g. Frühlicht; Grau ist"s immer, wenn ein Morgen naht BRECHT Gedichte 278; /sprichw./

bei Nacht sind alle Katzen g. (nachts erkennt man keine äußerlichen Unterschiede) ein helles,

dunkles, düsteres, bleiches, kaltes, fahles, farbloses Grau; das Grau der Regenwolken; das Blau

des Himmels ging in Weiß und Grau über; eine Bluse in Grau; die Dame in Grau; sie kam in Grau,

bevorzugt die Farbe Grau; vgl. Grauchen 2. farblos, bleich a) durch zunehmendes Alter: g. Haar;

eine g. Haarsträhne; Sie hatte bereits einen grauen Scheitel G. HAUPTM. 4,552; ein g. Bart;

Achtung vor einem g. Haupte (einem alten Menschen) haben sein g. Haar färben; alt und g.

werden; er ist in Erhren g. geworden; der g. Star (krankhafte Trübung der Linse im Auge) /bildl./

umg. darüber, deshalb brauchst du dir keine g. Haare wachsen zu lassen (darüber brauchst du dir

keine Sorgen zu machen) b) durch Blutleere: ein g. Gesicht; mein mageres graues Gesicht und

die Trostlosigkeit meines Blickes BÖLL Wort 12; eine g. Gesichtsfarbe; Der alte Mann wurde ganz

grau im Gesicht BRECHT Dreigroschenroman 296; Sie starrte mich grau vor Haß an MARCHWITZA

Jugend 248 3. /übertr./ trostlos, trübe, öde: Es hieß warten, einen grauen Morgen und einen

grauen Tag und eine graue Woche und einen grauen Monat FEUCHTW. Tag 78; In Dresden ging

der graue Alltag wieder los RENN Kindheit 23; Grau, teurer Freund, ist alle Theorie GOETHE Faust I

2038; ihr erschien die Welt g. und öde; umg. scherzh. das g. Elend kriegen (sich tief unglücklich

fühlen, zeigen)⌝ ich kann das Grau in Grau unserer Nachkriegsepoche auf die Dauer nicht

aushalten G. HAUPTM. Sonnenuntergang I 4. weit zurückliegend, längst vergangen: in g. Vorzeit;

im g. Altertum, Mittelalter; vor g. Jahren, Zeiten; 5. unbestimmt, ungewiß: das liegt noch in g.

Ferne, Zukunft

4/5/2014

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

Wortprofil vs. Wörterbuch (Bsp. grau)

• + Wortprofil (mit Salienz > 10); -Wörterbuch

graue Eminenz

graue Maus (fehlt im übertragenen Sinne; nur Lesart 1: grau wie eine Maus)

graue Kapitalmarkt,

graue Schläfen

graue Pfandbriefmarkt (i.S.v. geschlossener Fonds)

Graue Ackerschnecke (limax agrestis)

graue Zellen

Ferner fehlen folgende Eigennamen-Kontexte:

graue Panther (politische Partei) (sal 24,99)

graue Wölfe (extremistische politische Partei), 19,84

graues Kloster (Gymnasium in Berlin)

4/5/2014

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

Wortprofil vs. Wörterbuch (Bsp. grau)

• WP (sal. > 5); -Wörterbuch – graues Einerlei,

– graue Umweltpapier,

– graue Asche (von Toten oder von verbranntem Material),

– graue Habenzinsen (auf dem nicht freien Kapitalmarkt),

– graue Markt,

– grauer Haarkranz

– grauer Nadelstreifen

– Sowie Adjektiv Modifizierer: schütteres graues Haar graues Einerlei,

– graue Umweltpapier,

– graue Asche (von Toten oder von verbranntem Material),

– graue Habenzinsen (auf dem nicht freien Kapitalmarkt),

– graue Markt,

– grauer Haarkranz

– grauer Nadelstreifen

4/5/2014

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

Gliederung

1. DWDS: ein Informationssystem heterogener

lexikalischer und textueller Ressourcen

2. Computerlinguistik im DWDS

3. Visualisierung

4/5/2014

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

Zusammenfassung

• Wörterbücher → lexikalische

Informationssysteme

• Aufgaben:

– Aggregation

– Zuverlässigkeit vs. automatisch extrahierte

Information

– Nutzerbeteiligung

– Visualisierung

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

3. Visualisierung: Panels und Sichten

• Prinzipien:

– jede Ressource erhält ihren autonomen

Darstellungsraum (als „Panel“)

– Panel sind größenverstellbar (Min. vs. Max)

– Komprimierte Darstellung: Darstellung mehrerer

Panels auf einer Seite („Sicht“)

– Sichten können frei zusammengestellt werden;

Panels können abgewählt/hinzugefügt werden

– Es gibt vorkonfigurierte Sichten (Wörterbuchsicht,

Korpussicht, Statistiksicht …)

– Suchabfrage = Klammer über alle Sichten

4/5/2014

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

3. Panels und Sichten

• Abfrage typspezifisch

– Wörterbuch, Wortprofil: Einzelwortabfrage

– Korpus:

• Abfragesprache: boolsch, Abstand, reg. Ausdrücke…

• Korpora linguistisch annotiert:

• Lemma: Arzt -> Ärzte, Arztes…

• Historische Normaliserung:

– kleidt, kleydt, cleytt, cleydt -> Kleid

– dictirte -> diktierte

4/5/2014

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

3. Grenzen des Panel-view Ansatzes

• Technisch:

– Problem der leeren Panels (abhängig von der

Abfrage bzw. Sicht)

– Positionierung der Panels in der Sicht derzeit nicht

beeinflussbar (Optimierungsproblem)

– Ideale Größe eines Panels für eine Suchabfrage nicht

beeinflussbar

• Lange Wörterbuchartikel => große Panel

• Kurze Wörterbuchartikel => kleine Panel, dafür mehr

Panel auf einer Bildschirmseite (Sicht)

4/5/2014

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

3. Grenzen des Panel-view Ansatzes

• Inhaltlich:

– Heterogenität zwischen „geprüften“ und „maschinell“

erzeugten Panels

– Divergenzen oder Widersprüche der Informationen in

2 Panels (neue Korpora vs. alte Wb-Substanz)

wird je nach Nutzer als Gegebenheit akzeptiert oder

als Unzuverlässigkeit interpretiert

Andererseits: lexikografisch geprüfte Informationen nur

für einen Teilbereich vorhanden (ca. 50.000 neuere

Wörter fehlen im WDG, 1DWB weist viele Lücken im

fremdsprachlichen Bereich auf …)

4/5/2014

Alternative 1

• Wörterbuchsicht auf die Startseite (Default: DWDS-WB)

• Nur lexikographisch geprüfte Informationen auf der Startseite

• Nutzer wird über „Reiter“ in andere Wörterbücher, Korpora bzw. Statistikbereich geführt

• Nachteil: für viele Wörter informationsärmer; Verlinkungsgrad schwach

Alternative 2

• Dynamische Generierung eines „universellen“ Wörterbucheintrags, bestehend aus „Zonen“

• Inhalte für die einzelnen „Zonen“ aus versch. Quellen

• Lexikographisch geprüfte Informationen werden gegenüber maschinell erzeugter bevorzugt

• Datierung für alle Zonen !

• Problem: Kohärenz über alle Zonen bzgl. aller Quellen?

Eintragstypen

• WDG-Eintrag

• Überarbeiteter WDG-Eintrag

• Neueintrag-Basisartikel

• Neueintrag-Vollartikel

Zonen

• Form – Flexion

– Orth

– Wortbildung

– Etymologie

• Bedeutung – Definition

– Beispiele, Belege

– Kollokationen

• Datierung für alle Zonen (1 Lesart=1 Zone)

• Problem: Kohärenz über alle Zonen bzgl. aller Quellen?

Ressourcen

• Wörterbücher

• Textkorpora

• Automatisch extrahierte Informationen (Wortprofil…)

Technisches

• Autorenumgebung oXygen:

– Aktualisierung lexikographischer Informationen erfolgt zonenweise

– checkbox für jede Zone; checkbox wird mit Zeitstempel verbunden

– Zeitstempel wird bei der Veröffentlichung angezeigt

• Backend eXist:

– Laden der Artikel + Versionsverwaltung

Beispiel – Eintrag kaltstellen Typ: überarbeiteter WDG-Eintrag; (ausgewählte Zonen)

Kaltstellen, kalt stellen

•Form

•sense

Gramm

•Aus WDG

•Datum: 1975

Orth

•§34.2.1, 2.2

•Datum: 2012

Etymologie

•Aus Pfeifer

•Datum: 1982

Wortbildung

•Aus DWDS

•Datum: 2013

Lesarten

•Def1+Belege überarbeitet

•Datum: 2013

•Def2+Belege aus WDG

•Datum: ~1970

Kollokationen

•Aus Wortprofil

•Datum 2013

Beispiel – Eintrag Coca-Cola Typ: überarbeiteter WDG-Eintrag; (ausgewählte Zonen)

Schnittstelle

• -> Neueintrag

• sense

Gramm

• Genus fem hinzugefügt

• Datum: 2013

Etymologie

• Kein Eintrag

Wortbildung

•Kein Eintrag

Lesarten

• Definitionen

• Datum: 2013

Kollokationen

• Aus Wortprofil 2013

• Es gibt nur WP zu Cola

• Datum 2013

Beispiel – Eintrag Hahnenkamm Typ: WDG-Eintrag ; (ausgewählte Zonen)

-> Konsistenz WDG-EtymWB prüfen

Hahnenkamm

•Form

•sense

Gramm

•Aus WDG

•Datum: 1975

Etymologie

•Aus Pfeifer

•Datum: 1982

•Problem: Inkonsistenz Definition! (Pflanzen lesart)

Wortbildung

•Aus DWDS

•Datum: 2013

• -> Hahn1, Kamm1

Lesarten

•Definitionen

•Datum: 2013

•Problem: nur Tierlesart

Kollokationen

•Kein Wortprofileintrag

Problem: Konsistenz EtymWb - WDG

Zusammenfassung

• Wörterbücher → lexikalische Informationssysteme

• Aufgaben:

– Aggregation

– Zuverlässigkeit vs. automatisch extrahierte Information

– Nutzerbeteiligung

– Visualisierung