Ansätze der vertieften Erschließung von ... · −Vom digitalen Image zur Volltextsuche...

Ansätze der vertieften Erschließung von Zeitungsdigitalisaten aus den Projekten

Europeana Newspapers und OPATCH

Herbsttagung der Arbeitsgemeinschaft der Regionalbibliotheken

im Deutschen Bibliotheksverband, Darmstadt, 29./30.09.2014

Johannes Andresen

Inhalt

� Hier stehen wir: Digitales Zeitungsarchiv der Landesbibliothek

� Hier wollen wir hin: Weiterentwicklung durch drei Vorhaben

� Europeana Newspapers

� Open Platform for Access to and Analysis of Textual Documents

of Cultural Heritage (OPATCH)

� Erstes Ergebnis: Teßmann digital

Leitfrage der Weiterentwicklung: Welche Funktionali täten werden aus Benutzerperspektive erwartet?(Ergebnisse einer Nutzerumfrage im Rahmen des Projekts OPATCH)

� Recherchemöglichkeiten ausbauen und verbessern

− Vom digitalen Image zur Volltextsuche− Sucheinstiege über Familiennamen, Orte und Ereignisse

(named entities recognition)− Zugriff auf Seitenelemente (Strukturanalyse der Zeitungsseiten)

� Personalisierbare Forschungsumgebung

− Registrierungsmodul− Speichermöglichkeit von Suchanfragen etc.− Speicherung von Ergebnislisten

Drei Projekte – ein Ziel: Verbesserung der Recherche möglichkeit durch vertiefte Erschließung der Zeitungsdigitalisa te

Europeana NewspapersA Gateway To Newspapers Online

� Zusammenführung, Aufbereitung und freie Nutzung digitalisierter Zeitungsbestände

� Projektdauer: Februar 2012 – Januar 2015

� Budget: 4,3 Millionen Euro(Landesbibliothek: 133.000 Euro)

� 17 Partnereinrichtungen aus ganz Europa

� Bereitstellung von 18 Millionen digitalisierter Zeitungsseiten (Landesbibliothek: 1,5 Millionen)

� Europeana wird dadurch zum europaweit größten Online-Kulturportal digitalisierter Zeitungsbestände

12 content providers 4 technology providers

2 networking partners

� Vereinfachung der Recherche in historischen Zeitungsse iten

− OCR (Optical Character Recognition)

− OLR (Optical Layout Recognition)

− NER (Named entities word recognition

� Quality Assurance & Best Practice recommendations

− Optimierung der automatisierten Texterkennung von historischen Druckwerken (UIBK, CCS)

− Bereitstellung von Best-Practice Empfehlungen für Digitalisierung, Metadaten usw.

� Verbreitung der Ergebnisse und Öffentlichkeitsarbei t

− Europeana Zeitungsbrowser

− Information Days

Open Platform for Access to and Analysis of TextualDocuments of Cultural Heritage (OPATCH)� Partner: Landesbibliothek Dr. Friedrich Teßmann, Europäische Akademie

Bozen - Institut für Fachkommunikation und Mehrsprachigkeit, Österreichische Akademie der Wissenschaften – Institut für Corpuslinguistik und Texttechnologie

� Projektdauer: Januar 2014 – Januar 2016

� Budget: 180.000 Euro (Südtiroler Forschungsfond)(Landesbibliothek: 60.000 Euro)

� Ziel 1: vereinfachte und vertiefte Zugangsmöglichkeiten zu umfangreichen Textsammlungen mit Hilfe von neuen Methoden und Verfahren der Computerlinguistik und Informationsvisualisierung am Beispiel von historischen Zeitungsmaterialien

� Ziel 2: Aufbau von zwei Portalen: 1. Portal für historische Zeitungen (Teßmann digital), 2. Korpusanwendung mit Visualisierungen (sprachwissenschaftliches Portal)

Exkurs:Verbesserung von Fraktur-OCR

mit Hilfe computerlinguistischer Methoden

Struktur-Analyse

Lucene SOLR -Kompetenz

Visuali-

sierung

Teßmann digital

Wie können die unter-schiedlichen Ansätze wechselseitig voneinander profitieren?

Computer-

linguistische

Fehlerkorrektur

Linguistische

Analyse

OPATCH Europeana Newspapers

XML ALTO XML METS

NER –

Teßmann digital

Lucene

Tokenizer

(+ andere linguistische

Tools )

Registrierung

Ansätze der vertieften Erschließung von ... · −Vom digitalen Image zur Volltextsuche...

Documents

5. Information Retrieval - swl.htwsaar.deswl.htwsaar.de/lehre/ws15/dbis/slides/2015-vl-dbis-kap5... · § Volltextsuche (z.B. in MS SQL Server und PostgreSQL) ... § ElasticSearchund

Literaturverzeichnis - Springer978-3-322-98707-5/1.pdf · Literaturverzeichnis Primärliteratur HansArp Textsammlungen und selbstiindige Veröffentlichungen die wolken pumpe. Hannover:

Dynamisches Nachrichtenwesen 100,00 EUR mit dem ... · Ihre Nachrichten sind durch eine intelligente Nachrichtenablage stets geordnet. Durch die Volltextsuche und die dynamische Filterfunktion

„Wir ertrinken in Informationen und hungern nach Wissen“ (John …gcc.uni-paderborn.de/www/wi/wi2/wi2_lit.nsf... · 2007-10-13 · Management ¾Integrierte Volltextsuche mit Verity

Grundlagen des US-amerikanischen Steuerrechts · 2009. 1. 16. · Die Darstellung bietet dem deutschen Steuerpflichtigen die Möglichkeit, wenn nicht auf Augenhöhe, so doch mit vertieften

Die Sewastopoler spezialisierte Schule der I-III Stufen 3 mit dem vertieften Erlernen von Englisch Lasst die Welt von unserer Lesja wissen

Editorial - wheregroup.com Q1_2014.pdf · Und fand mit der Where2B auch einen richtig ... Volltextsuche, Einfeldsuche, Ähnlichkeitssuche durch phonetische Algorithmen, das alles

Seminar Serious Games · Seminar – Serious Games Qualifikationsziele Die Studierenden haben Kenntnisse zu vertieften und speziellen fachlichen Themen des jeweiligen Themengebiets

Westfäl isches Landesmuseum - LWL-Startseite · che verfasst. Die Zeilen sind als Relief auf der vertieften Mau erfläche unterhalb der Fensterbrüstung eingemeißelt. Die Verse

Der kontinuierliche Praxistag Ein Modell der vertieften Berufsorientierung des Schulamtsbezirkes Bad Kissingen

Arbeitsanregungen zur vertieften Auseinandersetzung mit den Inhalten des Erklärvideos Big Data Material ist unter den gleichen Bedingungen veröffentlicht

Suchgetriebene Anwendungen mit Elasticsearch und Solr · Autocomplete Did you mean Synonyme . Für Suchmaschinen gibt es viele Einsatzszenarien Volltextsuche Speicher Cache Geo-Suche

Mit der Bürgerbeteiligung auf dem Weg zur vertieften ... · Mit der Bürgerbeteiligung auf dem Weg zur vertieften Demokratie - Erfahrungen aus Baden-Württemberg - Sebastian Schöneck

karlshochschule.de · Ein Referat (Seminar Paper) besteht aus einer eigenständigen, vertieften schriftlichen Auseinandersetzung mit einem Thema aus dem Arbeitszusam- menhang des

Was allem zugrunde liegt… unser Schulkonzept. Ziele des achtjährigen Gymnasiums Vermittlung einer vertieften Allgemeinbildung Hinführung zur Studierfähigkeit

Willkommen zum Aktionstag der „Vertieften ... · © ISPA consult GmbH im Auftrag Willkommen zum Aktionstag der „Vertieften Berufsorientierung für Gymnasiasten“ am 03.12.2008

Text Mining Nichterl Markus, Steindorfer Jochen. AGENDA Einleitung Einleitung Grundlagen der Volltextsuche Grundlagen der Volltextsuche Retrievalmodelle

Module der vertieften Berufsorientierung in den ...€¦ · - Kooperationsspiele Förderumfang: ... Klassen werden Praxis und Theorie zunehmend komplexer - Vorbereiten auf Handwerksberufe

Aufgaben des Praxistag Koordinators Maßnahmen/Projekte der vertieften Berufsorientierung (vBO)

Ein Projekt für Schülerinnen und Schüler an weiterführenden allgemein bildenden und beruflichen Schulen. Ein ergänzendes Angebot zur vertieften Berufsorientierung