Ansätze der vertieften Erschließung von ... · −Vom digitalen Image zur Volltextsuche...

Preview:

Citation preview

Ansätze der vertieften Erschließung von Zeitungsdigitalisaten aus den Projekten

Europeana Newspapers und OPATCH

Herbsttagung der Arbeitsgemeinschaft der Regionalbibliotheken

im Deutschen Bibliotheksverband, Darmstadt, 29./30.09.2014

Johannes Andresen

Inhalt

� Hier stehen wir: Digitales Zeitungsarchiv der Landesbibliothek

� Hier wollen wir hin: Weiterentwicklung durch drei Vorhaben

� Europeana Newspapers

� Open Platform for Access to and Analysis of Textual Documents

of Cultural Heritage (OPATCH)

� Erstes Ergebnis: Teßmann digital

Leitfrage der Weiterentwicklung: Welche Funktionali täten werden aus Benutzerperspektive erwartet?(Ergebnisse einer Nutzerumfrage im Rahmen des Projekts OPATCH)

� Recherchemöglichkeiten ausbauen und verbessern

− Vom digitalen Image zur Volltextsuche− Sucheinstiege über Familiennamen, Orte und Ereignisse

(named entities recognition)− Zugriff auf Seitenelemente (Strukturanalyse der Zeitungsseiten)

� Personalisierbare Forschungsumgebung

− Registrierungsmodul− Speichermöglichkeit von Suchanfragen etc.− Speicherung von Ergebnislisten

Drei Projekte – ein Ziel: Verbesserung der Recherche möglichkeit durch vertiefte Erschließung der Zeitungsdigitalisa te

Europeana NewspapersA Gateway To Newspapers Online

� Zusammenführung, Aufbereitung und freie Nutzung digitalisierter Zeitungsbestände

� Projektdauer: Februar 2012 – Januar 2015

� Budget: 4,3 Millionen Euro(Landesbibliothek: 133.000 Euro)

� 17 Partnereinrichtungen aus ganz Europa

� Bereitstellung von 18 Millionen digitalisierter Zeitungsseiten (Landesbibliothek: 1,5 Millionen)

� Europeana wird dadurch zum europaweit größten Online-Kulturportal digitalisierter Zeitungsbestände

12 content providers 4 technology providers

2 networking partners

� Vereinfachung der Recherche in historischen Zeitungsse iten

− OCR (Optical Character Recognition)

− OLR (Optical Layout Recognition)

− NER (Named entities word recognition

� Quality Assurance & Best Practice recommendations

− Optimierung der automatisierten Texterkennung von historischen Druckwerken (UIBK, CCS)

− Bereitstellung von Best-Practice Empfehlungen für Digitalisierung, Metadaten usw.

� Verbreitung der Ergebnisse und Öffentlichkeitsarbei t

− Europeana Zeitungsbrowser

− Information Days

Open Platform for Access to and Analysis of TextualDocuments of Cultural Heritage (OPATCH)� Partner: Landesbibliothek Dr. Friedrich Teßmann, Europäische Akademie

Bozen - Institut für Fachkommunikation und Mehrsprachigkeit, Österreichische Akademie der Wissenschaften – Institut für Corpuslinguistik und Texttechnologie

� Projektdauer: Januar 2014 – Januar 2016

� Budget: 180.000 Euro (Südtiroler Forschungsfond)(Landesbibliothek: 60.000 Euro)

� Ziel 1: vereinfachte und vertiefte Zugangsmöglichkeiten zu umfangreichen Textsammlungen mit Hilfe von neuen Methoden und Verfahren der Computerlinguistik und Informationsvisualisierung am Beispiel von historischen Zeitungsmaterialien

� Ziel 2: Aufbau von zwei Portalen: 1. Portal für historische Zeitungen (Teßmann digital), 2. Korpusanwendung mit Visualisierungen (sprachwissenschaftliches Portal)

Exkurs:Verbesserung von Fraktur-OCR

mit Hilfe computerlinguistischer Methoden

Struktur-Analyse

Lucene SOLR -Kompetenz

NER

Visuali-

sierung

Teßmann digital

Wie können die unter-schiedlichen Ansätze wechselseitig voneinander profitieren?

Computer-

linguistische

Fehlerkorrektur

Linguistische

Analyse

OCR

OCR

OPATCH Europeana Newspapers

XML ALTO XML METS

NER –

TOOL

Teßmann digital

Lucene

SOLR

Tokenizer

Stru

ktur-

An

alyse

(+ andere linguistische

Tools )

Registrierung

Recommended