Upload
rosamund-neubaum
View
109
Download
0
Embed Size (px)
Citation preview
Vom Image zum Volltext – Texterkennung im Projekt „OstDok“
Monika Patrnciakova, Dr. Norbert Kunz, Doris SkaricBayerische Staatsbibliothek, Osteuropaabteilung,
22.06.2010
Gliederung
• Die OCR-Software
• Texterkennung im Projekt „OstDok“
• Probleme und Grenzen der Texterkennung
Die „Optical Character Recognition“-Software (OCR)
• Verfahren: – Retrodigitalisat (Image) wird analysiert– Einflussfaktoren: u.a. Druckbild, Schattierungen, Schriftsystem– Erstellung einer durchsuchbaren Textes unabhängig vom Image– Mit Hilfe von „Wörterbüchern“ (Spracheinstellung!) Überprüfung
sprachlicher Plausibilität– Vorschlag „Fehler“– Korrekturbedarf?: „intellektuelle“ Leistung
• Allgemeine Praxis der Texterkennung– Geringe Fehlerquoten v.a. bei einsprachigen Texten in „modernem“
Schriftsystem– In der Regel keine OCR-Kontrolle erforderlich (oder finanzierbar)
Voraussetzungen im Projekt „OstDok“
• Material:– Kombination von Schriftsystemen (lat., kyrill., griech. Alphabet)– Kombination verschiedener OE-Sprachen– Sonderzeichen, teils von Hand
=> Fehlerquote deutlich höher, Korrekturbedarf unbedingt gegeben=> Pilotprojekt
• Nutzung: – Anzeige: Image-Datei– Volltextsuche: im Index „hinter“ dem Image – „Highlighting“ der Fundstelle im Image
OCR-Korrektur in der BSB-Praxis
• Workflow (vereinfacht): 1. upload Digitalisate in Korrekturstation,2. Korrektur3. Bestätigung, automatische Weiterleitung an anderen Server4. nachträgliche Korrekturen erfordern Wiederholung des
Gesamtworkflows!=> zeitintensiv, Nachbesserungen kaum möglich
• Ressourcen:– Aktuell eine Korrekturstation im Betrieb (Lizenzen), Ausweitung in
Planung– Mehrere OCR-Korrektoren in zwei Schichten a 3-4h– Auslastung der Station!!!
Index
Index
Imagevorlage
Index
Korrekturvorschlag
Probleme und Grenzen der Texterkennung
• Menschliche Faktoren:– Hoher Schulungs- und Eingewöhnungsbedarf– Vorkenntnisse und Sorgfalt des Korrektors– Konzentration begrenzt (max. 4 Stunden)
• Technische Faktoren:– „Kinderkrankheiten“ der technischen Einrichtung (Serverausfall)– Vollständigkeit und Reihenfolge der Images (Anzahl, Fehlen, Reihenfolge, Navigation)– Fehlen „wünschenswerter“ Funktionen (Sonderzeichen, z.B. Altrussisch)– Probleme bei der Erkennung von Nichttext (z.B. Tabellen)– Groß-/Kleinschreibung– Diakritische Zeichen
• Materialspezifische Faktoren:– „Experimentier“-Bedarf bei Spracheinstellungen wg. Mehrsprachigkeit (Slowenisch!)– Keine „perfekten“ Fehlervorschläge: teils Anzeige korrekter Zeichen, teils Nichtanzeige
falscher Zeichen– teils manuelles Umstellen bei Fehlererkennung nötig (erheblicher Zeitaufwand)
=> selbst 100% korrekte Korrektur führt nicht zu 100% korrektem Text=> Es gibt keine 100% Texterkennung bei Retrodigitalisaten!
• Zeitbedarf / Budget:– Variiert stark in Abhängigkeit vom Material– lateinischer Text mit Transliterationen: 1-2 Minuten je Seite, erhöhter Zeitbedarf bei
Korrektur griechischen oder altkirchenslawischer Zeichen => Grenzen des Machbaren mit verfügbaren Hilfskraftmitteln
• Was wird korrigiert:– Korrektur nur von sinntragenden Begriffen, die recherchewürdig sind, z.B. Eigennamen,
Hauptwörter, polit. / ideologische / historische Adjektive– Nicht aber: z.B. Artikel, wenig aussagekräftige Adjektive usw.
• Erfahrungen– in drei Monaten „guter Auslastung“: ca. 35 Bücher der „Dezemberaktion“
Probleme und Grenzen der Texterkennung
Vielen Dank für IhreAufmerksamkeit!
Kontakt: [email protected]