View
224
Download
0
Category
Preview:
Citation preview
Ansätze der vertieften Erschließung von Zeitungsdigitalisaten aus den Projekten
Europeana Newspapers und OPATCH
Herbsttagung der Arbeitsgemeinschaft der Regionalbibliotheken
im Deutschen Bibliotheksverband, Darmstadt, 29./30.09.2014
Johannes Andresen
Inhalt
� Hier stehen wir: Digitales Zeitungsarchiv der Landesbibliothek
� Hier wollen wir hin: Weiterentwicklung durch drei Vorhaben
� Europeana Newspapers
� Open Platform for Access to and Analysis of Textual Documents
of Cultural Heritage (OPATCH)
� Erstes Ergebnis: Teßmann digital
Leitfrage der Weiterentwicklung: Welche Funktionali täten werden aus Benutzerperspektive erwartet?(Ergebnisse einer Nutzerumfrage im Rahmen des Projekts OPATCH)
� Recherchemöglichkeiten ausbauen und verbessern
− Vom digitalen Image zur Volltextsuche− Sucheinstiege über Familiennamen, Orte und Ereignisse
(named entities recognition)− Zugriff auf Seitenelemente (Strukturanalyse der Zeitungsseiten)
� Personalisierbare Forschungsumgebung
− Registrierungsmodul− Speichermöglichkeit von Suchanfragen etc.− Speicherung von Ergebnislisten
Drei Projekte – ein Ziel: Verbesserung der Recherche möglichkeit durch vertiefte Erschließung der Zeitungsdigitalisa te
Europeana NewspapersA Gateway To Newspapers Online
� Zusammenführung, Aufbereitung und freie Nutzung digitalisierter Zeitungsbestände
� Projektdauer: Februar 2012 – Januar 2015
� Budget: 4,3 Millionen Euro(Landesbibliothek: 133.000 Euro)
� 17 Partnereinrichtungen aus ganz Europa
� Bereitstellung von 18 Millionen digitalisierter Zeitungsseiten (Landesbibliothek: 1,5 Millionen)
� Europeana wird dadurch zum europaweit größten Online-Kulturportal digitalisierter Zeitungsbestände
12 content providers 4 technology providers
2 networking partners
� Vereinfachung der Recherche in historischen Zeitungsse iten
− OCR (Optical Character Recognition)
− OLR (Optical Layout Recognition)
− NER (Named entities word recognition
� Quality Assurance & Best Practice recommendations
− Optimierung der automatisierten Texterkennung von historischen Druckwerken (UIBK, CCS)
− Bereitstellung von Best-Practice Empfehlungen für Digitalisierung, Metadaten usw.
� Verbreitung der Ergebnisse und Öffentlichkeitsarbei t
− Europeana Zeitungsbrowser
− Information Days
Open Platform for Access to and Analysis of TextualDocuments of Cultural Heritage (OPATCH)� Partner: Landesbibliothek Dr. Friedrich Teßmann, Europäische Akademie
Bozen - Institut für Fachkommunikation und Mehrsprachigkeit, Österreichische Akademie der Wissenschaften – Institut für Corpuslinguistik und Texttechnologie
� Projektdauer: Januar 2014 – Januar 2016
� Budget: 180.000 Euro (Südtiroler Forschungsfond)(Landesbibliothek: 60.000 Euro)
� Ziel 1: vereinfachte und vertiefte Zugangsmöglichkeiten zu umfangreichen Textsammlungen mit Hilfe von neuen Methoden und Verfahren der Computerlinguistik und Informationsvisualisierung am Beispiel von historischen Zeitungsmaterialien
� Ziel 2: Aufbau von zwei Portalen: 1. Portal für historische Zeitungen (Teßmann digital), 2. Korpusanwendung mit Visualisierungen (sprachwissenschaftliches Portal)
Exkurs:Verbesserung von Fraktur-OCR
mit Hilfe computerlinguistischer Methoden
Struktur-Analyse
Lucene SOLR -Kompetenz
NER
Visuali-
sierung
Teßmann digital
Wie können die unter-schiedlichen Ansätze wechselseitig voneinander profitieren?
Computer-
linguistische
Fehlerkorrektur
Linguistische
Analyse
OCR
OCR
OPATCH Europeana Newspapers
XML ALTO XML METS
NER –
TOOL
Teßmann digital
Lucene
SOLR
Tokenizer
Stru
ktur-
An
alyse
(+ andere linguistische
Tools )
Registrierung
Recommended