17
Ansätze der vertieften Erschließung von Zeitungsdigitalisaten aus den Projekten Europeana Newspapers und OPATCH Herbsttagung der Arbeitsgemeinschaft der Regionalbibliotheken im Deutschen Bibliotheksverband, Darmstadt, 29./30.09.2014 Johannes Andresen

Ansätze der vertieften Erschließung von ... · −Vom digitalen Image zur Volltextsuche −Sucheinstiege über Familiennamen, Orte und Ereignisse ... umfangreichen Textsammlungen

Embed Size (px)

Citation preview

Page 1: Ansätze der vertieften Erschließung von ... · −Vom digitalen Image zur Volltextsuche −Sucheinstiege über Familiennamen, Orte und Ereignisse ... umfangreichen Textsammlungen

Ansätze der vertieften Erschließung von Zeitungsdigitalisaten aus den Projekten

Europeana Newspapers und OPATCH

Herbsttagung der Arbeitsgemeinschaft der Regionalbibliotheken

im Deutschen Bibliotheksverband, Darmstadt, 29./30.09.2014

Johannes Andresen

Page 2: Ansätze der vertieften Erschließung von ... · −Vom digitalen Image zur Volltextsuche −Sucheinstiege über Familiennamen, Orte und Ereignisse ... umfangreichen Textsammlungen

Inhalt

� Hier stehen wir: Digitales Zeitungsarchiv der Landesbibliothek

� Hier wollen wir hin: Weiterentwicklung durch drei Vorhaben

� Europeana Newspapers

� Open Platform for Access to and Analysis of Textual Documents

of Cultural Heritage (OPATCH)

� Erstes Ergebnis: Teßmann digital

Page 3: Ansätze der vertieften Erschließung von ... · −Vom digitalen Image zur Volltextsuche −Sucheinstiege über Familiennamen, Orte und Ereignisse ... umfangreichen Textsammlungen
Page 4: Ansätze der vertieften Erschließung von ... · −Vom digitalen Image zur Volltextsuche −Sucheinstiege über Familiennamen, Orte und Ereignisse ... umfangreichen Textsammlungen
Page 5: Ansätze der vertieften Erschließung von ... · −Vom digitalen Image zur Volltextsuche −Sucheinstiege über Familiennamen, Orte und Ereignisse ... umfangreichen Textsammlungen

Leitfrage der Weiterentwicklung: Welche Funktionali täten werden aus Benutzerperspektive erwartet?(Ergebnisse einer Nutzerumfrage im Rahmen des Projekts OPATCH)

� Recherchemöglichkeiten ausbauen und verbessern

− Vom digitalen Image zur Volltextsuche− Sucheinstiege über Familiennamen, Orte und Ereignisse

(named entities recognition)− Zugriff auf Seitenelemente (Strukturanalyse der Zeitungsseiten)

� Personalisierbare Forschungsumgebung

− Registrierungsmodul− Speichermöglichkeit von Suchanfragen etc.− Speicherung von Ergebnislisten

Page 6: Ansätze der vertieften Erschließung von ... · −Vom digitalen Image zur Volltextsuche −Sucheinstiege über Familiennamen, Orte und Ereignisse ... umfangreichen Textsammlungen

Drei Projekte – ein Ziel: Verbesserung der Recherche möglichkeit durch vertiefte Erschließung der Zeitungsdigitalisa te

Page 7: Ansätze der vertieften Erschließung von ... · −Vom digitalen Image zur Volltextsuche −Sucheinstiege über Familiennamen, Orte und Ereignisse ... umfangreichen Textsammlungen

Europeana NewspapersA Gateway To Newspapers Online

� Zusammenführung, Aufbereitung und freie Nutzung digitalisierter Zeitungsbestände

� Projektdauer: Februar 2012 – Januar 2015

� Budget: 4,3 Millionen Euro(Landesbibliothek: 133.000 Euro)

� 17 Partnereinrichtungen aus ganz Europa

� Bereitstellung von 18 Millionen digitalisierter Zeitungsseiten (Landesbibliothek: 1,5 Millionen)

� Europeana wird dadurch zum europaweit größten Online-Kulturportal digitalisierter Zeitungsbestände

Page 8: Ansätze der vertieften Erschließung von ... · −Vom digitalen Image zur Volltextsuche −Sucheinstiege über Familiennamen, Orte und Ereignisse ... umfangreichen Textsammlungen

12 content providers 4 technology providers

2 networking partners

Page 9: Ansätze der vertieften Erschließung von ... · −Vom digitalen Image zur Volltextsuche −Sucheinstiege über Familiennamen, Orte und Ereignisse ... umfangreichen Textsammlungen

� Vereinfachung der Recherche in historischen Zeitungsse iten

− OCR (Optical Character Recognition)

− OLR (Optical Layout Recognition)

− NER (Named entities word recognition

� Quality Assurance & Best Practice recommendations

− Optimierung der automatisierten Texterkennung von historischen Druckwerken (UIBK, CCS)

− Bereitstellung von Best-Practice Empfehlungen für Digitalisierung, Metadaten usw.

� Verbreitung der Ergebnisse und Öffentlichkeitsarbei t

− Europeana Zeitungsbrowser

− Information Days

Page 10: Ansätze der vertieften Erschließung von ... · −Vom digitalen Image zur Volltextsuche −Sucheinstiege über Familiennamen, Orte und Ereignisse ... umfangreichen Textsammlungen

Open Platform for Access to and Analysis of TextualDocuments of Cultural Heritage (OPATCH)� Partner: Landesbibliothek Dr. Friedrich Teßmann, Europäische Akademie

Bozen - Institut für Fachkommunikation und Mehrsprachigkeit, Österreichische Akademie der Wissenschaften – Institut für Corpuslinguistik und Texttechnologie

� Projektdauer: Januar 2014 – Januar 2016

� Budget: 180.000 Euro (Südtiroler Forschungsfond)(Landesbibliothek: 60.000 Euro)

� Ziel 1: vereinfachte und vertiefte Zugangsmöglichkeiten zu umfangreichen Textsammlungen mit Hilfe von neuen Methoden und Verfahren der Computerlinguistik und Informationsvisualisierung am Beispiel von historischen Zeitungsmaterialien

� Ziel 2: Aufbau von zwei Portalen: 1. Portal für historische Zeitungen (Teßmann digital), 2. Korpusanwendung mit Visualisierungen (sprachwissenschaftliches Portal)

Page 11: Ansätze der vertieften Erschließung von ... · −Vom digitalen Image zur Volltextsuche −Sucheinstiege über Familiennamen, Orte und Ereignisse ... umfangreichen Textsammlungen

Exkurs:Verbesserung von Fraktur-OCR

mit Hilfe computerlinguistischer Methoden

Page 12: Ansätze der vertieften Erschließung von ... · −Vom digitalen Image zur Volltextsuche −Sucheinstiege über Familiennamen, Orte und Ereignisse ... umfangreichen Textsammlungen
Page 13: Ansätze der vertieften Erschließung von ... · −Vom digitalen Image zur Volltextsuche −Sucheinstiege über Familiennamen, Orte und Ereignisse ... umfangreichen Textsammlungen
Page 14: Ansätze der vertieften Erschließung von ... · −Vom digitalen Image zur Volltextsuche −Sucheinstiege über Familiennamen, Orte und Ereignisse ... umfangreichen Textsammlungen
Page 15: Ansätze der vertieften Erschließung von ... · −Vom digitalen Image zur Volltextsuche −Sucheinstiege über Familiennamen, Orte und Ereignisse ... umfangreichen Textsammlungen

Struktur-Analyse

Lucene SOLR -Kompetenz

NER

Visuali-

sierung

Teßmann digital

Wie können die unter-schiedlichen Ansätze wechselseitig voneinander profitieren?

Computer-

linguistische

Fehlerkorrektur

Linguistische

Analyse

OCR

OCR

Page 16: Ansätze der vertieften Erschließung von ... · −Vom digitalen Image zur Volltextsuche −Sucheinstiege über Familiennamen, Orte und Ereignisse ... umfangreichen Textsammlungen

OPATCH Europeana Newspapers

XML ALTO XML METS

NER –

TOOL

Teßmann digital

Lucene

SOLR

Tokenizer

Stru

ktur-

An

alyse

(+ andere linguistische

Tools )

Registrierung

Page 17: Ansätze der vertieften Erschließung von ... · −Vom digitalen Image zur Volltextsuche −Sucheinstiege über Familiennamen, Orte und Ereignisse ... umfangreichen Textsammlungen