Vom Image zum Volltext – Texterkennung im Projekt OstDok Monika Patrnciakova, Dr. Norbert Kunz, Doris Skaric Bayerische Staatsbibliothek, Osteuropaabteilung,

Vom Image zum Volltext – Texterkennung im Projekt „OstDok“

Monika Patrnciakova, Dr. Norbert Kunz, Doris SkaricBayerische Staatsbibliothek, Osteuropaabteilung,

22.06.2010

Gliederung

• Die OCR-Software

• Texterkennung im Projekt „OstDok“

• Probleme und Grenzen der Texterkennung

Die „Optical Character Recognition“-Software (OCR)

• Verfahren: – Retrodigitalisat (Image) wird analysiert– Einflussfaktoren: u.a. Druckbild, Schattierungen, Schriftsystem– Erstellung einer durchsuchbaren Textes unabhängig vom Image– Mit Hilfe von „Wörterbüchern“ (Spracheinstellung!) Überprüfung

sprachlicher Plausibilität– Vorschlag „Fehler“– Korrekturbedarf?: „intellektuelle“ Leistung

• Allgemeine Praxis der Texterkennung– Geringe Fehlerquoten v.a. bei einsprachigen Texten in „modernem“

Schriftsystem– In der Regel keine OCR-Kontrolle erforderlich (oder finanzierbar)

Voraussetzungen im Projekt „OstDok“

• Material:– Kombination von Schriftsystemen (lat., kyrill., griech. Alphabet)– Kombination verschiedener OE-Sprachen– Sonderzeichen, teils von Hand

=> Fehlerquote deutlich höher, Korrekturbedarf unbedingt gegeben=> Pilotprojekt

• Nutzung: – Anzeige: Image-Datei– Volltextsuche: im Index „hinter“ dem Image – „Highlighting“ der Fundstelle im Image

OCR-Korrektur in der BSB-Praxis

• Workflow (vereinfacht): 1. upload Digitalisate in Korrekturstation,2. Korrektur3. Bestätigung, automatische Weiterleitung an anderen Server4. nachträgliche Korrekturen erfordern Wiederholung des

Gesamtworkflows!=> zeitintensiv, Nachbesserungen kaum möglich

• Ressourcen:– Aktuell eine Korrekturstation im Betrieb (Lizenzen), Ausweitung in

Planung– Mehrere OCR-Korrektoren in zwei Schichten a 3-4h– Auslastung der Station!!!

Index

Index

Imagevorlage

Index

Korrekturvorschlag

Probleme und Grenzen der Texterkennung

• Menschliche Faktoren:– Hoher Schulungs- und Eingewöhnungsbedarf– Vorkenntnisse und Sorgfalt des Korrektors– Konzentration begrenzt (max. 4 Stunden)

• Technische Faktoren:– „Kinderkrankheiten“ der technischen Einrichtung (Serverausfall)– Vollständigkeit und Reihenfolge der Images (Anzahl, Fehlen, Reihenfolge, Navigation)– Fehlen „wünschenswerter“ Funktionen (Sonderzeichen, z.B. Altrussisch)– Probleme bei der Erkennung von Nichttext (z.B. Tabellen)– Groß-/Kleinschreibung– Diakritische Zeichen

• Materialspezifische Faktoren:– „Experimentier“-Bedarf bei Spracheinstellungen wg. Mehrsprachigkeit (Slowenisch!)– Keine „perfekten“ Fehlervorschläge: teils Anzeige korrekter Zeichen, teils Nichtanzeige

falscher Zeichen– teils manuelles Umstellen bei Fehlererkennung nötig (erheblicher Zeitaufwand)

=> selbst 100% korrekte Korrektur führt nicht zu 100% korrektem Text=> Es gibt keine 100% Texterkennung bei Retrodigitalisaten!

• Zeitbedarf / Budget:– Variiert stark in Abhängigkeit vom Material– lateinischer Text mit Transliterationen: 1-2 Minuten je Seite, erhöhter Zeitbedarf bei

Korrektur griechischen oder altkirchenslawischer Zeichen => Grenzen des Machbaren mit verfügbaren Hilfskraftmitteln

• Was wird korrigiert:– Korrektur nur von sinntragenden Begriffen, die recherchewürdig sind, z.B. Eigennamen,

Hauptwörter, polit. / ideologische / historische Adjektive– Nicht aber: z.B. Artikel, wenig aussagekräftige Adjektive usw.

• Erfahrungen– in drei Monaten „guter Auslastung“: ca. 35 Bücher der „Dezemberaktion“

Probleme und Grenzen der Texterkennung

Vielen Dank für IhreAufmerksamkeit!

Kontakt: [email protected]

Documents

Vom Image zum Volltext – Texterkennung im Projekt OstDok Monika Patrnciakova, Dr. Norbert Kunz, Doris Skaric Bayerische Staatsbibliothek, Osteuropaabteilung,