38
DAS KORPUS DIGITALISIERTER HISTORISCHER SCHULBÜCHER VON GEI-DIGITAL ALS AUSGANGSPUNKT GEISTESWISSENSCHAFTLICHER FORSCHUNGSFRAGEN Robert Strötgen Georg-Eckert-Institut Leibniz-Institut für internationale Schulbuchforschung

Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

DAS KORPUS DIGITALISIERTER HISTORISCHER

SCHULBÜCHER VON GEI-DIGITAL ALS AUSGANGSPUNKT

GEISTESWISSENSCHAFTLICHER FORSCHUNGSFRAGEN

Robert Strötgen

Georg-Eckert-Institut – Leibniz-Institut für internationale Schulbuchforschung

Page 2: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

DAS GEORG-ECKERT-INSTITUT

Zentrale Aufgaben:

• Erforschung historisch, politisch und geographisch

bedeutsamer Darstellungen in schulrelevanten

Bildungsmedien

• Beratung von Bildungspolitikern, -praktikern und -

organisationen

• Bereitstellung von (Forschungs-)Infrastrukturen und

Wissenstransferleistungen

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 2

Georg Eckert (1912-1974)

Schulbuch- und Bildungsmedienforschung mit einem

kulturwissenschaftlich-historischen Schwerpunkt

Page 3: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

DIE FORSCHUNGSBIBLIOTHEK

Ca. 250.000 Medien aus mehr als 173 Ländern

• 178.000 internationale Schulbücher

Davon: Historische Sammlung bis 1945: 24.000 Bände

• 74.000 Bände begleitende

Forschungsliteratur

Einmalige Schulbuchsammlung für:

• Geschichte, Geographie, Politik/

Sozialkunde und Religion/

Werteerziehung

• Fibeln und Erstlesebücher

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 3

Page 4: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

GEI-DIGITAL

DFG-Förderung seit 2009

Schulbücher (Geschichte, Geographie und

Realienkunde) bis 1918

Aktuell ca. 3.300 Bände mit ca. 700.000 Seiten,

nahezu vollständig OCR

Online seit Juni 2010

http://gei-digital.gei.de/

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 4

Page 5: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 5

Page 6: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 6

Page 7: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 7

Page 8: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

DIGITALISIERUNG EXT. BESTÄNDE

Knapp ein Drittel aus 41 Partnerbibliotheken

http://gei-digital.gei.de/viewer/sites/partner/

Bände wurden (in der ersten Phase) vom GEI

erfasst, digitalisiert, mit Meta- und Strukturdaten

versehen etc.

Benennung der Partnerbibliothek in den

Metadaten

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 8

Page 9: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

INTEGRATION EXT. BESTÄNDE

Z.B. 111 Titel BSB München, 60 Titel SLUB

Dresden, 60 Titel SUB Göttingen, 54 Titel ULB

Halle, 4 Titel HAB Wolfenbüttel, ...

Individuelle Recherchen, da einheitliche formale

Auszeichnung fehlt

Durch die DFG gefördert: Integration von

anderswo schon digitalisierten Schulbüchern

Ziel: Fachliche Plattform für Digitalisate

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 9

Page 10: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

VOLLTEXTE: OCR

OCR mit Abbyy SDK

• Fehlerquote in Stichproben bei ca. 1 %

(Zeichen) für Fraktur und Antiqua

• Typische Fehlerquellen:

Titelseiten mit Stempeln und Notizen

Struktur (Tabellen, Tafeln, Fußnoten,

Karten)

Randnotizen, Anstreichungen

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 10

Page 11: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

ONLINE-BEFRAGUNG

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 11

42%

7% 8%

34%

9%

Zweck

wissenschaftliche Forschung

akademische Lehre

schulische Lehre

privat

sonstiges:

Page 12: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

ONLINE-BEFRAGUNG

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 12

30%

17%

16%

8%

3%

11%

6%

3%

6%

Genutzte Funktionen

Einfache Suche

Erweiterte Suche

Volltextsuche

Browsing (über Inhaltsstrukturen, Kategorien etc.)

Bildnavigation

PDF-Export

Volltext-Export

Dauerhafte Links (URN)

Sonstige

Page 13: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

ONLINE-BEFRAGUNG

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 13

7%

14%

25%

25%

29%

Zufriedenheit OCR-Qualität

gar nicht zufrieden [0]

[1]

[2]

[3]

sehr zufrieden [4]

Page 14: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

ONLINE-BEFRAGUNG

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 14

36%

25%

27%

12%

Volltext-Nutzung

Suche

Anzeige der gefundenen Wörter auf der Trefferseite

Volltexansicht

PDF-Export mit eingebundenem Volltext

Page 15: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

ONLINE-BEFRAGUNG

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 15

24%

76%

Volltext-Export gewünscht?

nein

ja

Page 16: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 16

Page 17: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

VOLLTEXTE: FORMATE

Plain Text

Deutschen entgegengestellt hatte, wurde bei

Belfort geschlagen, worauf

Wortkoordinaten <p id="ID18b"> <w function="205,481,458,534" match="deutschen">Deutschen</w>

<w function="506,479,926,535" match="entgegengestellt">entgegengestellt</w>

<w function="970,479,1099,531" match="hatte">hatte</w>

<w function="1103,514,1112,532" match=",">,</w>

<w function="1157,478,1319,522" match="wurde">wurde</w>

<w function="1356,477,1429,521" match="bei">bei</w>

Zeichenkoordinaten <block blockType="Text" pageElemId="{F7B2FB7A-6718-4B24-A122-8D1C925FD43B}" l="196" t="468" r="1793"

b="2971"><region><rect l="196" t="468" r="1793" b="2971"/></region>

<text id="{F7B2FB7A-6718-4B24-A122-8D1C925FD43B}">

<par align="Justified" leftIndent="100" rightIndent="100" lineSpacing="1278">

<line baseline="522" l="205" t="476" r="1778" b="535"><formatting lang="GermanStandard" ff="Times

New Roman" fs="9.5" spacing="20">

<charParams l="205" t="484" r="246" b="527">D</charParams>

<charParams l="254" t="496" r="277" b="526">e</charParams>

<charParams l="283" t="496" r="309" b="525">u</charParams>

PDF mit eingebettetem Text (searchable)

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 17

Page 18: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

VOLLTEXTE (OAI-PMH)

Volltexte sind seit Sommer 2014 per OAI-

PMH oder direkt als METS/MODS abrufbar

http://gei-digital.gei.de/viewer/oai/?verb=Identify

Beispiel:

http://gei-digital.gei.de/viewer/metsresolver?id=PPN65627140X

Also: Ran an die Volltexte! ;-)

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 18

Page 19: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

VOLLTEXTE (OAI-PMH)

<mets:structMap TYPE="PHYSICAL">

<mets:div CONTENTIDS="urn:nbn:de:0220-gd-4302982"

ID="PHYS_0001" ORDER="1" ORDERLABEL=" - " TYPE="page">

<mets:div DMDID="DMDPHYS_0000" ID="PHYS_0000"

TYPE="physSequence">

<mets:fptr FILEID="FILE_0000_MIN"/>

<mets:fptr FILEID="FILE_0000_FULLTEXT"/>

<mets:fptr FILEID="FILE_0000_WORDCOORDS"/>

<mets:fptr FILEID="FILE_0000_THUMBS"/>

<mets:fptr FILEID="FILE_0000_DEFAULT"/>

<mets:fptr FILEID="FILE_0000_ABBYYXML"/>

<mets:fptr FILEID="FILE_0000_MAX"/>

<mets:fptr FILEID="FILE_0000_PRESENTATION"/>

</mets:div>

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 19

Page 20: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

VOLLTEXTE (OAI-PMH)

<mets:fileGrp USE="FULLTEXT">

...

<mets:file ID="FILE_0074_FULLTEXT" MIMETYPE="text/plain">

<mets:FLocat LOCTYPE="URL" xlink:href="http://gei-

digital.gei.de/viewer/content?action=text&format=txt&sourcepath=PPN6562

7140X/00000075.txt"/>

</mets:file>

<mets:file ID="FILE_0075_FULLTEXT" MIMETYPE="text/plain">

<mets:FLocat LOCTYPE="URL" xlink:href="http://gei-

digital.gei.de/viewer/content?action=text&format=txt&sourcepath=PPN6562

7140X/00000076.txt"/>

</mets:file>

...

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 20

Page 21: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

WELT DER KINDER

„Weltwissen und Weltdeutung in Schul- und Kinderbüchern

zwischen 1850 und 1918“

Projekt im Leibniz-Wettbewerb (2014-2017)

Antragsteller:

• DIPF und Uni Darmstadt (Informatik)

• Uni Hildesheim (Informationswissenschaft)

• Georg-Eckert-Institut (Schulbuchforschung)

Partner:

• Bayerische Staatsbibliothek (Schul- und Kinderbücher)

• UB Braunschweig (Kinderbücher)

• GCDH (Summerschool)

• Schweizerisches Institut für Kinder- und Jugendmedien (Literaturwissenschaft)

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 21

Page 22: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

WELT DER KINDER

Welche Bilder von der Welt hatten

Heranwachsende im 19. und frühen 20.

Jahrhundert und wie haben sie sich

verändert?

Medien: Schul- und Kinderbücher

Material: Mehr als 7.000 Schul- und

Kinderbücher mit über 1 Mio. Seiten (OCR)

Methoden: Topic Detection (DKPro/MALLET)

und Sentiment-Analyse vs. Hermeneutik Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 22

Page 23: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 23

Page 24: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 24

Page 25: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 25

Page 26: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 26

Page 27: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 27

Page 28: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 28

Page 29: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

WELT DER KINDER: AUSBLICK

Gemeinsame Weiterentwicklung der Text-

Mining-Ergebnisse (diachroner Blick!)

Parallel hermeneutische Analyse

Methodenkritik

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 29

Page 30: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

CLARIN-D F-AG „NEUERE GESCHICHTE“

Im September 2014 als 9. F-AG in CLARIN-

D konstituiert (am Rand des Historikertags)

Ca. 30 interessierte WissenschaftlerInnen

Thema: Anwendbarkeit von CLARIN-D-

Werkzeugen für Fragen der neueren

Geschichte

Kurationsprojekt geplant

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 30

Page 31: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

CLARIN-D KURATIONSPROJEKT

Geplant gemeinsam mit der Akademie der

Wissenschaften zu Göttingen und dem

GCDH

Thema: „Quellen des Neuen: Realkundliches

und naturwissenschaftliches Wissen für

Dilettanten und Experten zwischen

Aufklärung und Moderne“

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 31

Page 32: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

CLARIN-D KURATIONSPROJEKT

Material:

• Blumenbach Online (ca. 25.000 Seiten

Volltext TEI P5)

• GEI-Digital

Methode

• Metadaten zunächst im CMDI-Format

• Nutzung und Evaluation von CLARIN-

Webservices

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 32

Page 33: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

CLARIN-D KURATIONSPROJEKT

Beispiel-Fragen:

• Welche synchronen und diachronen Unterschiede und

Verschiebungen finden sich in der Textgestalt?

• Welche Themen finden Eingang in schulische Lehre und

welche nicht?

• Mit welchen sprachlichen Mitteln wird „sicheres Wissen“

konstruiert, welche moralischen und gesellschaftlichen

Implikationen finden sich in naturwissenschaftlicher Lehre?

• Wie präsentieren sich „die Wissenschaft“ bzw. ihre Akteure?

• Wo entstehen Fachbegriffe, wie und in welchem Maße finden

naturwissenschaftliche Konzepte Eingang in Alltagssprache

und -vorstellungen?

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 33

Page 34: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

CLARIN-D KURATIONSPROJEKT

Ziele

• Möglichkeiten und Grenzen der CLARIN-

D-Werkzeuge für die Neuere Geschichte

• Bedarf an zusätzlichen oder angepassten

Werkzeugen

• „Leistungsvergleich“ TEI und OCR

• Methodenkritik

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 34

Page 35: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

WORLDVIEWS

Geplantes BMBF-Vorhaben auf der Basis der

Internet-Edition EurViews

(http://www.eurviews.eu/)

Ziel: Konsolidierung der GEI-

Forschungsinfrastrukturen (CLARIN-kompatibel)

Fragestellung: Welche Wissensbestände und

Sinnstiftungsangebote kommen mit welchen Motiven an

welchen Orten auf, über welche Zeiträume und

Zusammenhänge bestehen sie, wann und wie wandeln

sie sich, vergehen und werden durch andere ersetzt?

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 35

Page 36: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

ISLAM IN DEUTSCHEN LESEBÜCHERN

Geplantes Projekt gemeinsam mit der Uni

Osnabrück (Prof. Dr. Christian Dawidowski)

Analyse der Islam-Darstellung in

Schulbüchern 1820 bis 1890

Leitfrage: Wie wurden der Islam und die

Muslime im Untersuchungszeitraum im

deutschen Lesebuch dargestellt?

Ausdehnung des Bestands im GEI-Digital

um Lesebücher Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 36

Page 37: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

FAZIT

• GEI-Digital mit kurzfristiger Zielmarke von ca.

1 Mio. Seiten im Volltext in einem engen

thematischen Zusammenhang ist eine

wertvolle Ressource

• GEI nutzt Korpus zunehmend für eigene

Forschung und regt externe Forschungen an

• Offene Frage: Wie weit kommt man mit den

OCR-Volltexten und wie lässt sich die

Qualität des Korpus effizient verbessern

Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 37

Page 38: Das Korpus digitalisierter historischer Schulbücher von ... · Einfache Suche Erweiterte Suche Volltextsuche Browsing (über Inhaltsstrukturen, Kategorien etc.) Bildnavigation PDF-Export

VIELEN DANK FÜR IHRE

AUFMERKSAMKEIT

Robert Strötgen

[email protected]