Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
DAS KORPUS DIGITALISIERTER HISTORISCHER
SCHULBÜCHER VON GEI-DIGITAL ALS AUSGANGSPUNKT
GEISTESWISSENSCHAFTLICHER FORSCHUNGSFRAGEN
Robert Strötgen
Georg-Eckert-Institut – Leibniz-Institut für internationale Schulbuchforschung
DAS GEORG-ECKERT-INSTITUT
Zentrale Aufgaben:
• Erforschung historisch, politisch und geographisch
bedeutsamer Darstellungen in schulrelevanten
Bildungsmedien
• Beratung von Bildungspolitikern, -praktikern und -
organisationen
• Bereitstellung von (Forschungs-)Infrastrukturen und
Wissenstransferleistungen
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 2
Georg Eckert (1912-1974)
Schulbuch- und Bildungsmedienforschung mit einem
kulturwissenschaftlich-historischen Schwerpunkt
DIE FORSCHUNGSBIBLIOTHEK
Ca. 250.000 Medien aus mehr als 173 Ländern
• 178.000 internationale Schulbücher
Davon: Historische Sammlung bis 1945: 24.000 Bände
• 74.000 Bände begleitende
Forschungsliteratur
Einmalige Schulbuchsammlung für:
• Geschichte, Geographie, Politik/
Sozialkunde und Religion/
Werteerziehung
• Fibeln und Erstlesebücher
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 3
GEI-DIGITAL
DFG-Förderung seit 2009
Schulbücher (Geschichte, Geographie und
Realienkunde) bis 1918
Aktuell ca. 3.300 Bände mit ca. 700.000 Seiten,
nahezu vollständig OCR
Online seit Juni 2010
http://gei-digital.gei.de/
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 4
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 5
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 6
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 7
DIGITALISIERUNG EXT. BESTÄNDE
Knapp ein Drittel aus 41 Partnerbibliotheken
http://gei-digital.gei.de/viewer/sites/partner/
Bände wurden (in der ersten Phase) vom GEI
erfasst, digitalisiert, mit Meta- und Strukturdaten
versehen etc.
Benennung der Partnerbibliothek in den
Metadaten
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 8
INTEGRATION EXT. BESTÄNDE
Z.B. 111 Titel BSB München, 60 Titel SLUB
Dresden, 60 Titel SUB Göttingen, 54 Titel ULB
Halle, 4 Titel HAB Wolfenbüttel, ...
Individuelle Recherchen, da einheitliche formale
Auszeichnung fehlt
Durch die DFG gefördert: Integration von
anderswo schon digitalisierten Schulbüchern
Ziel: Fachliche Plattform für Digitalisate
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 9
VOLLTEXTE: OCR
OCR mit Abbyy SDK
• Fehlerquote in Stichproben bei ca. 1 %
(Zeichen) für Fraktur und Antiqua
• Typische Fehlerquellen:
Titelseiten mit Stempeln und Notizen
Struktur (Tabellen, Tafeln, Fußnoten,
Karten)
Randnotizen, Anstreichungen
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 10
ONLINE-BEFRAGUNG
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 11
42%
7% 8%
34%
9%
Zweck
wissenschaftliche Forschung
akademische Lehre
schulische Lehre
privat
sonstiges:
ONLINE-BEFRAGUNG
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 12
30%
17%
16%
8%
3%
11%
6%
3%
6%
Genutzte Funktionen
Einfache Suche
Erweiterte Suche
Volltextsuche
Browsing (über Inhaltsstrukturen, Kategorien etc.)
Bildnavigation
PDF-Export
Volltext-Export
Dauerhafte Links (URN)
Sonstige
ONLINE-BEFRAGUNG
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 13
7%
14%
25%
25%
29%
Zufriedenheit OCR-Qualität
gar nicht zufrieden [0]
[1]
[2]
[3]
sehr zufrieden [4]
ONLINE-BEFRAGUNG
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 14
36%
25%
27%
12%
Volltext-Nutzung
Suche
Anzeige der gefundenen Wörter auf der Trefferseite
Volltexansicht
PDF-Export mit eingebundenem Volltext
ONLINE-BEFRAGUNG
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 15
24%
76%
Volltext-Export gewünscht?
nein
ja
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 16
VOLLTEXTE: FORMATE
Plain Text
Deutschen entgegengestellt hatte, wurde bei
Belfort geschlagen, worauf
Wortkoordinaten <p id="ID18b"> <w function="205,481,458,534" match="deutschen">Deutschen</w>
<w function="506,479,926,535" match="entgegengestellt">entgegengestellt</w>
<w function="970,479,1099,531" match="hatte">hatte</w>
<w function="1103,514,1112,532" match=",">,</w>
<w function="1157,478,1319,522" match="wurde">wurde</w>
<w function="1356,477,1429,521" match="bei">bei</w>
Zeichenkoordinaten <block blockType="Text" pageElemId="{F7B2FB7A-6718-4B24-A122-8D1C925FD43B}" l="196" t="468" r="1793"
b="2971"><region><rect l="196" t="468" r="1793" b="2971"/></region>
<text id="{F7B2FB7A-6718-4B24-A122-8D1C925FD43B}">
<par align="Justified" leftIndent="100" rightIndent="100" lineSpacing="1278">
<line baseline="522" l="205" t="476" r="1778" b="535"><formatting lang="GermanStandard" ff="Times
New Roman" fs="9.5" spacing="20">
<charParams l="205" t="484" r="246" b="527">D</charParams>
<charParams l="254" t="496" r="277" b="526">e</charParams>
<charParams l="283" t="496" r="309" b="525">u</charParams>
PDF mit eingebettetem Text (searchable)
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 17
VOLLTEXTE (OAI-PMH)
Volltexte sind seit Sommer 2014 per OAI-
PMH oder direkt als METS/MODS abrufbar
http://gei-digital.gei.de/viewer/oai/?verb=Identify
Beispiel:
http://gei-digital.gei.de/viewer/metsresolver?id=PPN65627140X
Also: Ran an die Volltexte! ;-)
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 18
VOLLTEXTE (OAI-PMH)
<mets:structMap TYPE="PHYSICAL">
<mets:div CONTENTIDS="urn:nbn:de:0220-gd-4302982"
ID="PHYS_0001" ORDER="1" ORDERLABEL=" - " TYPE="page">
<mets:div DMDID="DMDPHYS_0000" ID="PHYS_0000"
TYPE="physSequence">
<mets:fptr FILEID="FILE_0000_MIN"/>
<mets:fptr FILEID="FILE_0000_FULLTEXT"/>
<mets:fptr FILEID="FILE_0000_WORDCOORDS"/>
<mets:fptr FILEID="FILE_0000_THUMBS"/>
<mets:fptr FILEID="FILE_0000_DEFAULT"/>
<mets:fptr FILEID="FILE_0000_ABBYYXML"/>
<mets:fptr FILEID="FILE_0000_MAX"/>
<mets:fptr FILEID="FILE_0000_PRESENTATION"/>
</mets:div>
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 19
VOLLTEXTE (OAI-PMH)
<mets:fileGrp USE="FULLTEXT">
...
<mets:file ID="FILE_0074_FULLTEXT" MIMETYPE="text/plain">
<mets:FLocat LOCTYPE="URL" xlink:href="http://gei-
digital.gei.de/viewer/content?action=text&format=txt&sourcepath=PPN6562
7140X/00000075.txt"/>
</mets:file>
<mets:file ID="FILE_0075_FULLTEXT" MIMETYPE="text/plain">
<mets:FLocat LOCTYPE="URL" xlink:href="http://gei-
digital.gei.de/viewer/content?action=text&format=txt&sourcepath=PPN6562
7140X/00000076.txt"/>
</mets:file>
...
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 20
WELT DER KINDER
„Weltwissen und Weltdeutung in Schul- und Kinderbüchern
zwischen 1850 und 1918“
Projekt im Leibniz-Wettbewerb (2014-2017)
Antragsteller:
• DIPF und Uni Darmstadt (Informatik)
• Uni Hildesheim (Informationswissenschaft)
• Georg-Eckert-Institut (Schulbuchforschung)
Partner:
• Bayerische Staatsbibliothek (Schul- und Kinderbücher)
• UB Braunschweig (Kinderbücher)
• GCDH (Summerschool)
• Schweizerisches Institut für Kinder- und Jugendmedien (Literaturwissenschaft)
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 21
WELT DER KINDER
Welche Bilder von der Welt hatten
Heranwachsende im 19. und frühen 20.
Jahrhundert und wie haben sie sich
verändert?
Medien: Schul- und Kinderbücher
Material: Mehr als 7.000 Schul- und
Kinderbücher mit über 1 Mio. Seiten (OCR)
Methoden: Topic Detection (DKPro/MALLET)
und Sentiment-Analyse vs. Hermeneutik Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 22
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 23
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 24
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 25
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 26
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 27
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 28
WELT DER KINDER: AUSBLICK
Gemeinsame Weiterentwicklung der Text-
Mining-Ergebnisse (diachroner Blick!)
Parallel hermeneutische Analyse
Methodenkritik
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 29
CLARIN-D F-AG „NEUERE GESCHICHTE“
Im September 2014 als 9. F-AG in CLARIN-
D konstituiert (am Rand des Historikertags)
Ca. 30 interessierte WissenschaftlerInnen
Thema: Anwendbarkeit von CLARIN-D-
Werkzeugen für Fragen der neueren
Geschichte
Kurationsprojekt geplant
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 30
CLARIN-D KURATIONSPROJEKT
Geplant gemeinsam mit der Akademie der
Wissenschaften zu Göttingen und dem
GCDH
Thema: „Quellen des Neuen: Realkundliches
und naturwissenschaftliches Wissen für
Dilettanten und Experten zwischen
Aufklärung und Moderne“
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 31
CLARIN-D KURATIONSPROJEKT
Material:
• Blumenbach Online (ca. 25.000 Seiten
Volltext TEI P5)
• GEI-Digital
Methode
• Metadaten zunächst im CMDI-Format
• Nutzung und Evaluation von CLARIN-
Webservices
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 32
CLARIN-D KURATIONSPROJEKT
Beispiel-Fragen:
• Welche synchronen und diachronen Unterschiede und
Verschiebungen finden sich in der Textgestalt?
• Welche Themen finden Eingang in schulische Lehre und
welche nicht?
• Mit welchen sprachlichen Mitteln wird „sicheres Wissen“
konstruiert, welche moralischen und gesellschaftlichen
Implikationen finden sich in naturwissenschaftlicher Lehre?
• Wie präsentieren sich „die Wissenschaft“ bzw. ihre Akteure?
• Wo entstehen Fachbegriffe, wie und in welchem Maße finden
naturwissenschaftliche Konzepte Eingang in Alltagssprache
und -vorstellungen?
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 33
CLARIN-D KURATIONSPROJEKT
Ziele
• Möglichkeiten und Grenzen der CLARIN-
D-Werkzeuge für die Neuere Geschichte
• Bedarf an zusätzlichen oder angepassten
Werkzeugen
• „Leistungsvergleich“ TEI und OCR
• Methodenkritik
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 34
WORLDVIEWS
Geplantes BMBF-Vorhaben auf der Basis der
Internet-Edition EurViews
(http://www.eurviews.eu/)
Ziel: Konsolidierung der GEI-
Forschungsinfrastrukturen (CLARIN-kompatibel)
Fragestellung: Welche Wissensbestände und
Sinnstiftungsangebote kommen mit welchen Motiven an
welchen Orten auf, über welche Zeiträume und
Zusammenhänge bestehen sie, wann und wie wandeln
sie sich, vergehen und werden durch andere ersetzt?
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 35
ISLAM IN DEUTSCHEN LESEBÜCHERN
Geplantes Projekt gemeinsam mit der Uni
Osnabrück (Prof. Dr. Christian Dawidowski)
Analyse der Islam-Darstellung in
Schulbüchern 1820 bis 1890
Leitfrage: Wie wurden der Islam und die
Muslime im Untersuchungszeitraum im
deutschen Lesebuch dargestellt?
Ausdehnung des Bestands im GEI-Digital
um Lesebücher Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 36
FAZIT
• GEI-Digital mit kurzfristiger Zielmarke von ca.
1 Mio. Seiten im Volltext in einem engen
thematischen Zusammenhang ist eine
wertvolle Ressource
• GEI nutzt Korpus zunehmend für eigene
Forschung und regt externe Forschungen an
• Offene Frage: Wie weit kommt man mit den
OCR-Volltexten und wie lässt sich die
Qualität des Korpus effizient verbessern
Robert Strötgen | 2. DTA-/CLARIN-D-Konferenz und CLARIN-D-Workshop 2014 | Seite 37