42
Interoperable Standards als Voraussetzung für die Nutzung von Volltexten als Forschungsdaten Dr. Alexander Geyken Deutsches Textarchiv Digitales Wörterbuch www.deutschestextarchiv.de www.dwds.de - Zentrum Sprache - Berlin-Brandenburgische Akademie der Wissenschaften Beiratstreffen, Etelsen, 28.2.2014

Interoperable Standards als Voraussetzung für die Nutzung ... · blau, währenb bie Metopen unb bas Giebelfeld einen rothen Hinter- Interoperable Standards als Voraussetzung für

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Interoperable Standards als Voraussetzung für die Nutzung von Volltexten als Forschungsdaten

Dr. Alexander Geyken

Deutsches Textarchiv Digitales Wörterbuch

www.deutschestextarchiv.de www.dwds.de

- Zentrum Sprache -

Berlin-Brandenburgische Akademie der Wissenschaften

Beiratstreffen, Etelsen, 28.2.2014

Gliederung

Interoperable Standards als Voraussetzung für die Nutzung von Volltexten als Forschungsdaten

1. Einleitung: Historische Textkorpora für die Forschung

2. Welche Qualität?

3. Standardisierung und Interoperabilität

2

1. Einleitung: Historische Korpora …

• Aufbau historischer Korpora

– Verfahren der Erfassung, Qualitätskriterien

– Strukturierung, Annotation

• Interoperabilität von Korpusressourcen

• Analyse historischer Korpora

– Maschinell: Normalisierung der Schreibung, morpho-syntaktische Analyse, Eigennamenextraktion, …

– Philologische Auswertung

• Nachhaltige Sicherung der Ressourcen

… eingebettet in langfristiges Ziel

Momentaner Stand historischer deutscher Korpora (~15.–20. Jh.):

(1) Historische Korpora vielfältig vorhanden, aber sie liegen „verstreut“ in der Korpuslandschaft

(2) Unterschiedliche Kodierungsformate; Problem der Interoperabilität

(3) Kein anerkanntes System der Qualitätssicherung

(4) Keine etablierte Kultur des Teilens von Ressourcen (Lizenzen!)

(5) Unsicherheit über die nachhaltige Verfügbarkeit von Korpora

Ziel: Ein (verteilter) Ort, an dem man die verfügbaren bzw. verlässlichen Texte finden kann und eine (verteilte) Plattform, auf der diese analysiert werden können (Panel DH-2012 (Hamburg): Th. Gloning, Th. Stäcker, A. Geyken)

Gliederung

Interoperable Standards als Voraussetzung für die Nutzung von Volltexten als Forschungsdaten

1. Einleitung: Historische Textkorpora für die Forschung

2. Welche Qualität?

3. Standardisierung und Interoperabilität

5

2. Qualität: Kontext - Deutsches Textarchiv

• Disziplinen- und gattungsübergreifender Grundbestand (1600 – ~1900)

– Kommentierte Vorschläge von Mitgliedern aller Klassen der BBAW

– Euler, Boltzmann, Hilbert; Marx, Wundt; Goethe, Lessing …

• Digitalisierung (Erstausgaben, sehr hohe Erfassungsqualität), XML/TEI-P5; schreibweisentolerante Durchsuchbarkeit

• Kooperationen / Textaustausch

• Gefördert:

DTA (Erstausgaben) vs. Zeno

DTA (Erstausgaben) vs. Zeno

gieb ] gib Brod ] Brot Thüre ] Türe Klex ] Klecks

zu Muthe ] zumute

Kniee ] Knie

citiren ] zitieren examiniren ] examinieren

Corset ] Korsett Guitarre ] Gitarre

Epheukranz ] Efeukranz

gräuliche ] greuliche behülflich ] behilflich

Verabscheuenswürdiges ] Verabscheuungswürdiges

Kawboy ] Cowboy

unverrichteter Sache ] unverrichtetersache

DTA (Erstausgaben) vs. Zeno

seit fünfzig Jahren ] seit fünfzehn Jahren

Adelar trank aus der Zuckerdose ] Adelar trank aus dem Aschenbecher

dich küssen, daß dir der Athem vergeht ] dich küssen, daß dir der Atem ausgeht

eine Drainage in die Stirnhöhle appliciren zu lassen ] […] einen Ventilator […]

Ist's denn nicht der stupendeste Beweis ] Ist's denn nicht der eklatanteste Beweis

Der einmalige Fehltritt könne noch zu ihrem Glücke führen ] Der ehemalige […]

in Gottes freier Natur ] draußen

dringend darum ersuchen ] bitten

Ich schmiß die Staffelei um ] Ich werfe […]

Artig ] Brav

DTA (Erstausgaben) vs. Zeno

Weiß der Himmel, mir ist um mich nicht mehr bange. Ich habe diesmal zu tief hinunterblickt. ] Weiß der Himmel, mir ist um mich nicht mehr bange. Dazu habe ich diesmal zu tief hinuntergeblickt.

so wird uns ein hohes Cultusministerium für das hereingebrochene Unglück, an dem neben dem Verunglückten unser schuldbeladener Schüler die Hauptschuld trägt, verantwortlich machen.

Wir sehen uns, wie wir einander einstimmig eingestehen, in die zwingende Nothwendigkeit versetzt, den Schuldbeladenen zu richten.

DTA (Erstausgaben) vs. Zeno

DTA und Qualitätssicherung

• Web-basierte Korrekturplattform für XML/TEI

• Ansichten: Faksimile + Volltext (HTML, XML/TEI, Linguistische Ansicht)

• Für alle Nutzer (derzeit 400): Fehlermeldesystem

• Für Administratoren: Editiermöglichkeiten WYSIWYG und XML

www.deutschestextarchiv.de/dtaq

DTAQ: Qualitätssicherung

DTA: Qualitätssicherung

Qualitätssicherung

a. WYSIWYG-editor – Nur Änderungen auf

Text(knoten)ebene

b. XML Editor Änderungen auf

Strukturebene

basiert auf ACE (ajaxorg/ace · GitHub)

b. XML Editor

Linguistische Normalisierung

DTAQ: Fakten

• 400 Nutzer (Feb. 2014)

• Wachsender Bestand:

– 1000 Werke (500 M. Zeichen), Nov. 2012

– 1500 Werke (~720 M. Zeichen), Aug. 2013

• Über 70 000 Anmerkungen, davon ~ 55 000 korrigiert

OCR: Qualität und Interoperabilität

• Zwei Ebenen der Qualitätskontrolle:

– Textkorrektur (hierfür webbasierte verteilte Editoren, z.B. Typewright, TextBerg-Editor, DTAQ, …

– Strukturkorrektur

• Beispiel 1: DFG-Projekt Grenzbote

– Nationalliberale Zeitschrift (1841-1922)

– 270 Bände, 187 000 Seiten, ca. 450 Mill. Zeichen

– Phase 1: 2011-2013 Digitalisierung

– Phase 2: Seit 08/2013 Text- und Strukturkorrektur

Partner: Univ. Bremen; DTA (für Phase 2)

www.deutschestextarchiv.de/files/ error-hl_nn_charaktere01_1848.html

Basis der Evaluierung: • 20 Textseiten • ca. 59700 Zeichen • 663 fehlerhafte Stellen = ca. 98.89 % korrekte

Erkennungsrate ⌀ 33,15 Fehler pro

Textseite

Korrektheit OCR: 98,89 %

ABBYY-OCR-Zonen (<block/>-Tags)

Probleme:

• Überschrift

• Schmuckinitiale

• Falsche Grenzen

• Fußnotenerkennung

Lösungen (Skript + manuelle Nachkorrektur):

• Überschrift (d1)

• Absatzgrenzen (p)

• Schmuckinitiale

• Markup semantischer Funktionen von Zonen (pb, column title, initial vs. figure, footnote)

<p>…</p>

<p>…</p>

<p>…</p>

<p>…</p>

Zonenkorrektur(DTA)

OCR: Qualität und Interoperabilität

• Beispiel 2:

– Georg-Eckert-Institut (Braunschweig)

– GEI-Digital: Sammlung historischer Lehrwerke

– Geplant bis 2015: 3000 Werke, 1 Mill. Seiten

– Genauigkeit der OCR: ~ 98%

Grundriß der Akropolis von Athen, E die eherne Athene, Promnrih n3. *) Diese Bemalung der Architektur, sowie die der Bildhauerarbeiten nennt rnttft : - n Polychromie. 208 Die Baukunst. II § 62 Mirnietl ^^udes aus vollen, runden Statuen bestehend. - Ein Dachaesims. as. ©tebelfclb roxcber ein. Auf dem Gipfel und über den Ecken des Giebels befanben st* Steinplatten, n, welche eine Giebelblume, oft auch einen Dreifuß oder eine Statue trugen. ' 1 ; Die hinter der Säulenhalle befinbliche Wand zierte oben ein Fries beffen Figuren aber nur Flachrelief waren. Die Decke bes Tempels war eine' aerobe ^te [*£ beL.^°ä ^thtg machte. Auch später kannten bte Griechen die Wolbekunst mcht. Die Decke der ^anlenhalle war durch die hinter den Triglyphen liegenden Balken m viereckige Felber getheilt. _ dem Dache wurde bei größeren Tempeln eine Öffnung gelassen, durch welche das -jnnere Licht erhielt. Solche Gebäude nennt man Hypathraltempel. Man baute bte Tempel, ober wenigstens beren Vorderseite, meistens aus 4ß weißem Marmor. Manchmal würbe ber leuchteube tir9' ' ^lanZ bes pentelischen Marmors burch maßvoll angebrachten Farbenschmuck*) gemilbert. Die Triglyphen waren gewöhnlich blau, währenb bie Metopen unb bas Giebelfeld einen rothen Hinter- (m.. ^ r c grunb hatten. Die Verzierungen waren mit Blättern Maanderbanb. ober mit Mäanderschmuck bemalt. §62. Architektur (Fortsetzung). Der^ griechische Tempel war nicht zur Aufnahme großer Menschenmassen bestimmt unb war beshalb von einem fest umgrenzten heiligen Tempelbezirk um-Leben, in welchem bie großen Feierlichkeiten stattfanben, unb in welchem sich häufia ein heiliger Ham befanb. Gleich vor dem Tempel stanb ber Altar für bas große Branbopfer, fo gestellt, baß bas Bilb ber Gottheit burch bie geöffnete Tempelpforte baranf Hinblicken konnte. Man liebte'es oft, mehrere Heiligthümer nahe zusammen zu erbauen. Der Eingang zu bereit Bezirk würbe bann burch ein prächtiges Thor, ja burch einen förmlichen Portalb au (Propyläen b. h. Vorhallen) aebilbet. 1* Dte Zeit von Solon bis auf Kimon 390—470 v. Chr. In biefer Zeit würbe in Griechenland) unb in bett westlichen Colonieen (namentlich in Unterttalien unb Sicilien) in borischem Style, in Kleinasien in ionischem Fig' 47. x S'%%iM!SSlÄi//iiiiiiiiiii////Z',,

Döring, Emilie: Lehrbuch der Geschichte der alten Welt. Teil 1. Frankf./Main: Diesterweg 1880, S. 208 URL: http://gei-digital.gei.de/viewer/!image/PPN622799606/220/-/

Grundriß der Akropolis von Athen, E die eherne Athene, Promnrih n3. *) Diese Bemalung der Architektur, sowie die der Bildhauerarbeiten nennt rnttft : - n Polychromie. 208 Die Baukunst. II § 62 Mirnietl ^^udes aus vollen, runden Statuen bestehend. - Ein Dachaesims. as. ©tebelfclb roxcber ein. Auf dem Gipfel und über den Ecken des Giebels befanben st* Steinplatten, n, welche eine Giebelblume, oft auch einen Dreifuß oder eine Statue trugen. ' 1 ; Die hinter der Säulenhalle befinbliche Wand zierte oben ein Fries beffen Figuren aber nur Flachrelief waren. Die Decke bes Tempels war eine' aerobe ^te [*£ beL.^°ä ^thtg machte. Auch später kannten bte Griechen die Wolbekunst mcht. Die Decke der ^anlenhalle war durch die hinter den Triglyphen liegenden Balken m viereckige Felber getheilt. _ dem Dache wurde bei größeren Tempeln eine Öffnung gelassen, durch welche das -jnnere Licht erhielt. Solche Gebäude nennt man Hypathraltempel. Man baute bte Tempel, ober wenigstens beren Vorderseite, meistens aus 4ß weißem Marmor. Manchmal würbe ber leuchteube tir9' ' ^lanZ bes pentelischen Marmors burch maßvoll angebrachten Farbenschmuck*) gemilbert. Die Triglyphen waren gewöhnlich blau, währenb bie Metopen unb bas Giebelfeld einen rothen Hinter- (m.. ^ r c grunb hatten. Die Verzierungen waren mit Blättern Maanderbanb. ober mit Mäanderschmuck bemalt. §62. Architektur (Fortsetzung). Der^ griechische Tempel war nicht zur Aufnahme großer Menschenmassen bestimmt unb war beshalb von einem fest umgrenzten heiligen Tempelbezirk um-Leben, in welchem bie großen Feierlichkeiten stattfanben, unb in welchem sich häufia ein heiliger Ham befanb. Gleich vor dem Tempel stanb ber Altar für bas große Branbopfer, fo gestellt, baß bas Bilb ber Gottheit burch bie geöffnete Tempelpforte baranf Hinblicken konnte. Man liebte'es oft, mehrere Heiligthümer nahe zusammen zu erbauen. Der Eingang zu bereit Bezirk würbe bann burch ein prächtiges Thor, ja burch einen förmlichen Portalb au (Propyläen b. h. Vorhallen) aebilbet. 1* Dte Zeit von Solon bis auf Kimon 390—470 v. Chr. In biefer Zeit würbe in Griechenland) unb in bett westlichen Colonieen (namentlich in Unterttalien unb Sicilien) in borischem Style, in Kleinasien in ionischem Fig' 47. x S'%%iM!SSlÄi//iiiiiiiiiii////Z',,

Grundriß der Akropolis von Athen, E die eherne Athene, Promnrih n3. *) Diese Bemalung der Architektur, sowie die der Bildhauerarbeiten nennt rnttft : - n Polychromie. 208 Die Baukunst. II § 62 Mirnietl ^^udes aus vollen, runden Statuen bestehend. - Ein Dachaesims. as. ©tebelfclb roxcber ein. Auf dem Gipfel und über den Ecken des Giebels befanben st* Steinplatten, n, welche eine Giebelblume, oft auch einen Dreifuß oder eine Statue trugen. ' 1 ; Die hinter der Säulenhalle befinbliche Wand zierte oben ein Fries beffen Figuren aber nur Flachrelief waren. Die Decke bes Tempels war eine' aerobe ^te [*£ beL.^°ä ^thtg machte. Auch später kannten bte Griechen die Wolbekunst mcht. Die Decke der ^anlenhalle war durch die hinter den Triglyphen liegenden Balken m viereckige Felber getheilt. _ dem Dache wurde bei größeren Tempeln eine Öffnung gelassen, durch welche das -jnnere Licht erhielt. Solche Gebäude nennt man Hypathraltempel. Man baute bte Tempel, ober wenigstens beren Vorderseite, meistens aus 4ß weißem Marmor. Manchmal würbe ber leuchteube tir9' ' ^lanZ bes pentelischen Marmors burch maßvoll angebrachten Farbenschmuck*) gemilbert. Die Triglyphen waren gewöhnlich blau, währenb bie Metopen unb bas Giebelfeld einen rothen Hinter- (m.. ^ r c grunb hatten. Die Verzierungen waren mit Blättern Maanderbanb. ober mit Mäanderschmuck bemalt. §62. Architektur (Fortsetzung). Der^ griechische Tempel war nicht zur Aufnahme großer Menschenmassen bestimmt unb war beshalb von einem fest umgrenzten heiligen Tempelbezirk um-Leben, in welchem bie großen Feierlichkeiten stattfanben, unb in welchem sich häufia ein heiliger Ham befanb. Gleich vor dem Tempel stanb ber Altar für bas große Branbopfer, fo gestellt, baß bas Bilb ber Gottheit burch bie geöffnete Tempelpforte baranf Hinblicken konnte. Man liebte'es oft, mehrere Heiligthümer nahe zusammen zu erbauen. Der Eingang zu bereit Bezirk würbe bann burch ein prächtiges Thor, ja burch einen förmlichen Portalb au (Propyläen b. h. Vorhallen) aebilbet. 1* Dte Zeit von Solon bis auf Kimon 390—470 v. Chr. In biefer Zeit würbe in Griechenland) unb in bett westlichen Colonieen (namentlich in Unterttalien unb Sicilien) in borischem Style, in Kleinasien in ionischem Fig' 47. x S'%%iM!SSlÄi//iiiiiiiiiii////Z',,

Zeichengenauigkeit

hier ca. 94,958% (2261 Zeichen, 114 fehlerhafte Stellen)

Grundriß der Akropolis von Athen, E die eherne Athene, Promnrih n3. *) Diese Bemalung der Architektur, sowie die der Bildhauerarbeiten nennt rnttft : - n Polychromie. 208 Die Baukunst. II § 62 Mirnietl ^^udes aus vollen, runden Statuen bestehend. - Ein Dachaesims. as. ©tebelfclb roxcber ein. Auf dem Gipfel und über den Ecken des Giebels befanben st* Steinplatten, n, welche eine Giebelblume, oft auch einen Dreifuß oder eine Statue trugen. ' 1 ; Die hinter der Säulenhalle befinbliche Wand zierte oben ein Fries beffen Figuren aber nur Flachrelief waren. Die Decke bes Tempels war eine' aerobe ^te [*£ beL.^°ä ^thtg machte. Auch später kannten bte Griechen die Wolbekunst mcht. Die Decke der ^anlenhalle war durch die hinter den Triglyphen liegenden Balken m viereckige Felber getheilt. _ dem Dache wurde bei größeren Tempeln eine Öffnung gelassen, durch welche das -jnnere Licht erhielt. Solche Gebäude nennt man Hypathraltempel. Man baute bte Tempel, ober wenigstens beren Vorderseite, meistens aus 4ß weißem Marmor. Manchmal würbe ber leuchteube tir9' ' ^lanZ bes pentelischen Marmors burch maßvoll angebrachten Farbenschmuck*) gemilbert. Die Triglyphen waren gewöhnlich blau, währenb bie Metopen unb bas Giebelfeld einen rothen Hinter- (m.. ^ r c grunb hatten. Die Verzierungen waren mit Blättern Maanderbanb. ober mit Mäanderschmuck bemalt. §62. Architektur (Fortsetzung). Der^ griechische Tempel war nicht zur Aufnahme großer Menschenmassen bestimmt unb war beshalb von einem fest umgrenzten heiligen Tempelbezirk um-Leben, in welchem bie großen Feierlichkeiten stattfanben, unb in welchem sich häufia ein heiliger Ham befanb. Gleich vor dem Tempel stanb ber Altar für bas große Branbopfer, fo gestellt, baß bas Bilb ber Gottheit burch bie geöffnete Tempelpforte baranf Hinblicken konnte. Man liebte'es oft, mehrere Heiligthümer nahe zusammen zu erbauen. Der Eingang zu bereit Bezirk würbe bann burch ein prächtiges Thor, ja burch einen förmlichen Portalb au (Propyläen b. h. Vorhallen) aebilbet. 1* Dte Zeit von Solon bis auf Kimon 390—470 v. Chr. In biefer Zeit würbe in Griechenland) unb in bett westlichen Colonieen (namentlich in Unterttalien unb Sicilien) in borischem Style, in Kleinasien in ionischem Fig' 47. x S'%%iM!SSlÄi//iiiiiiiiiii////Z',,

Zeichengenauigkeit

hier ca. 94,958% (2261 Zeichen, 114 fehlerhafte Stellen)

Gliederung

Interoperable Standards als Voraussetzung für die Nutzung von Volltexten als Forschungsdaten

1. Einleitung: Historische Textkorpora für die Forschung

2. Welche Qualität?

3. Standardisierung und Interoperabilität im Kontext von CLARIN (http://de.clarin.eu/de/)

30

C. Thomas: Optimierung und Nutzung des "Grenzboten" mit Werkzeugen des DTA www.bbaw.de, thomas @bbaw.de

Das Deutsche Textarchiv: Projektziele

• Servicezentren (Repositorien; verteilte Architektur; PIDs, OAI-PMH)

• Bündelung der Metadaten

• Data Mining mit IT-Werkzeugen: WebLicht (Verarbeitungskette)

• 9 Facharbeitsgruppen (Historiker, Politikwiss., Germanistik…)

• Übergreifende Suche

• Standards (TEI) und „Best Practices“

Interoperabilität im DTA/CLARIN-D

XML/TEI-P5 als Startpunkt

2007: DTA startet mit der Idee eines „Basisformats“: DTABf

Definition einer geeigneten Untermenge von TEI-P5 für die Strukturierung von historischen gedruckten Texten

Ziel: Interoperabilität (Unsworth 2011) gewährleisten

• establish high quality transcription of the text

• provide high quality metadata

• focus on non-controversial aspects of the text, thus providing unambiguous solutions for text annotation

2012: DTABf wird „Best Practice-Format“ für historische Texte in CLARIN-D (Benutzerhandbuch, http://de.clarin.eu/de/)

32

C. Thomas: Optimierung und Nutzung des "Grenzboten" mit Werkzeugen des DTA www.bbaw.de, thomas @bbaw.de

TEI: Das DTA-Basisformat

ODD

Dokumentation

RelaxNG-Schema

Nutzung als Forschungsdaten

Software zur Integration von textuellen Forschungsdaten in die CLARIN-D Infrastruktur:

(1) Teilautomatisierte Integration der Metadaten in DTABf

(2) Konvertierung der Texte in das DTABf a. OxGarage (für alle Formate außer TEI-P5)

b. DTA-oXygen Framework (für TEI-P5)

(3) Qualitätskontrolle über DTAQ

(4) Generisches web-basiertes Framework zur Integration in die CLARIN-D Infrastruktur

(5) Analysen via verteilter Verarbeitungskette WebLicht (WebLicht enthält >60 Web-Services; Zusammensetzung nach dem Lego-Prinzip)

34

Basis: oXygen-

XML-Editor

WYSIWYG-Ansicht

für XML/TEI-P5

Toolbar für DTABf-

Elemente

Farbschema für

verschiedene

Annotationslevels:

grün: obligatorisch

blau: empfohlen

violett: fakultativ

Zu (2b) DTA-oXygen-Framework

• Normalisierung der Struktur in DTABf

• Normalisierung Orthographie: – Bsp.: seyn/sein; Theyl/Teil…

• Damit automatische Reanalyse in CLARIN-D möglich (Wortverlaufskurven, Active Learning, Syntax/NER)

36

Mehrwert CLARIN-D am Beispiel „Dingler“

http://clarin01.ims.uni-stuttgart.de/dingler/index.jsp (Demo-Seite, aufgerufen Jan. 2014)

Wortverlauf ohne Konvertierungs-mehraufwand möglich

Text-Mining, Active Learning

• Thematische Gruppierungen von Dokumenten

• Relationsextraktionen

– „active learning“-Ansatz

– Erstellung eines Syntaxbaums

– Relationen werden festgelegt

– Kontexte werden vom Benutzer trainiert (d.h. er markiert positive und negative Instanzen in einem interaktiven Prozess)

– Daraus werden Merkmale „gelernt“

– Z.B. „X hat_Beruf Y“ oder „X ist_geboren_in Y“

Relationsextraktion: „active learning“

39

Blessing, Andre; Stegmann, Jens; Kuhn, Jonas SOA meets Relation Extraction: Less may

be more in Interaction in Proceedings of the Workshop on Service-oriented Architectures

(SOAs) for the Humanities: Solutions and Impacts, Digital Humanities pp. 6-11.

Parsebaum mit Normalisierung

Eine Lösung dieser scheinbaren Anomalie dürfte einigen

Lesern nicht unwillkommen sein.

Parsebaum ohne Normalisierung

41

Eine Lösung dieser scheinbaren Anomalie dürfte einigen

Lesern nicht unwillkommen seyn.

POS-Verteilung normalisiert vs. original

• Normalisierung durch CAB-Werkzeug des DTA

• Normalisierte Fassung: Abnahme: NE (-20% ), XY

(-41% ), ADJA (-5% )

Zunahme: VAINF (+14%), ITJ (+57%) sowie mehr analysierte Funktionswörter

(Analyse: Normalisierung, B. Jurish

(DTA-CAB), Syntaxanalyse A. Blessing, (IMS-Stuttgart), Feb. 2013

42

Vielen Dank für Ihre Aufmerksamkeit!

DTA-Projektgruppe: A. Geyken, S. Haaf, B. Jurish,

M. Schulz, C. Thomas, F. Wiegand