Schlarb Werkzeuge Impact Workshop MUC

Preview:

Citation preview

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

4. März 2010, München

Funktionsweise und Zusammenwirken der technischen Werkzeuge von IMPACT

Sven Schlarb, Österreichische Nationalbibliothek

4. März 2010, München

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.Einige Herausforderungen der Digitalisate historischer Zeitungen und Bücher Gewölbte Buchseiten (verursacht durch dicke Buchrücken) Schräge und verzerrte Scans Verkrümmte Textlinien (verursacht durch zerknittertes oder

durch Feuchtigkeit gewölbtes Papier) Störende Farbflecken, unterschiedliche Druckintensität Durchscheinen oder Druckfarbe der Zeichen von der

Kehrseite Frakturschrift Handschriftliche Anmerkungen im Text Komplexes Layout, zum Beispiel Zeitungsseiten mit

komplizierter Lesesequenz Historische Sprache und Eigennamen aus dem zeitlichen

Kontext des Dokuments

4. März 2010, München

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Tabellen

4. März 2010, München

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Extreme Wölbung Historische Schrift Anmerkungen Kapitel- und

Zeitenangaben

4. März 2010, München

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Knitterfalten (Feuchtigkeit) Punkte und Flecken Seiten- u. Kapitelzahl

4. März 2010, München

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Komplexes Layout Logische Reihenfolge der

Textblöcke

4. März 2010, München

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Fraktur Seitenwölbung Schwarzer Rand Gekrümmte

Textlinien Seiten-/Kapitelzahl

4. März 2010, München

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

4. März 2010, München

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

4. März 2010, München

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Randerkennung und -entfernung

4. März 2010, München

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Geometrische Korrektur (Wölbung)

4. März 2010, München

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Geometrische Korrektur - Falten

4. März 2010, München

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Binarisierung

4. März 2010, München

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Historische Lexika Lexika für Deutsch, Niederländisch, Englisch sowie

weitere Europäische Sprachen Werkzeuge zur Erstellung historischer Lexika Schnittstelle zu ABBYY FRE zur Einbindung externer

Lexika ABBYY legt offen wie der Wortlisten-Gewichtungsparameter

basierend auf der Worthäufigkeit gebildet werden kann. Aber: ABBYY FRE ist eine „Black Box“. Es gibt keine

Informationen darüber, wie die Lexika genau verwendet werden, sondern es kann nur das Ergebnis beurteilt werden.

4. März 2010, München

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Eigennamen-Verzeichnis Kollaboratives

Eigennamen-Verzeichnis

Eigennamen können als Lexikon in Abbyy eingebunden werden

4. März 2010, München

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Linguistische Nachverbesserung

OCR (ABBYY) und OCR Analyse (LMU-CIS) Normal Not normal Unknown Modern Historical Hypothetical With errors (highlighted) Compound Short

4. März 2010, München

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Kollaborative Korrektur Integriertes Web-

basiertes System für die kollaborative Nachverbesserung von OCR-Ergebnissen

4. März 2010, München

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Functional Extension Parser Erkennung der

Strukturinformationen von Buchseiten– Druckbereich– Standard-Schriftart des

Haupttextes– Seitenzahlen

Anreicherung des OCR Resultats mit Strukturinformationen

4. März 2010, München

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Word-Spotting Eine alternative Technik für die

Indexierung historischer Dokumente

Nach der Wort-Segmentierung werden die relevanten Wörter gesucht

Die Schlüsselwörter können bekannte Namen, Orte oder Begriffe sein (z.B. aus dem Eigennamenverzeichnis)

4. März 2010, München

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Interoperabilität

4. März 2010, München

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Modularisierung

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

http://www.impact-project.eu

Recommended