Upload
cneudecker
View
44
Download
0
Embed Size (px)
Citation preview
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen
an Layout- und Strukturanalyse
Clemens NeudeckerStaatsbibliothek zu Berlin
@cneudecker
Inhalt
1. Überblick Zeitungsdigitalisierung2. Stand der Technik3. Qualität
a) OCR / Texterkennungb) OLR / Layoutanalyse
4. Herausforderungen5. Ausblick
Zeitungsdigitalisierung
• EU: Europeana Newspapers (12 Mio. Seiten)– ANNO Austrian Newspapers Online (17 Mio.)– KBNL Historische Kranten (10 Mio.)
• US: Chronicling America (10 Mio.)• UK: British Newspaper Archive (15 Mio.)• AU: Trove Newspapers (16,5 Mio.)• DE: DFG Pilotprojekt Zeitungsdigitalisierung
Massendigitalisierung von Zeitungen ist Realität- OCR inzwischen auch bei Zeitungen Standard- Meist Retro-Digitalisierung von Mikrofilm
Stand der Technik
• Üblicherweise: ABBYY FineReader + X– CCS docWORKS– Fraunhofer IAIS– GFaI Dacapo– P.P.S.– ZISSOR– uvm.
• Open Source Alternativen?
Formate
• Üblicherweise: METS (Struktur) + ALTO (OCR)
• „In the wild“:– PDF (mit/ohne eingebetteten Volltext)– hOCR (Google Tesseract/OCRopy)– TEI (Text Encoding Initiative)– Proprietäre Formate, XML-basiert (z.B. Olive)– Plain text, keine Strukturdaten/Koordinaten– MS Word .DOC (ja, wirklich…)
Qualität: Texterkennung
• Europeana Newspapers Evaluation: OCR Qualität von rund 80% Wortgenauigkeit
82.4% 85.3%80.9%
75.9%67.5%
83.4% 84.1%
68.1%
93.1%
57.6%
87.0%
68.3%76.1%
82.6%
54.1%
32.7%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Succ
ess
Rate
Language Setti ng
Bag of Words OCR EvaluationPer Language
Qualität: Layoutanalyse (I)
• ICDAR Competition HNLA2013
58.3%
83.7% 83.2%85.6% 86.4% 86.9% 85.5%
50%
60%
70%
80%
90%
100%
Tesseract 3 FRE 10 EPITA JOUVE PAL Fraunhofer 2013
Fraunhofer 2011
Succ
ess
Rate
Segmentation
Qualität: Layoutanalyse (II)
• ICDAR Competition HNLA2013
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Tesseract 3 FRE 10 EPITA JOUVE PAL Fraunhofer 2013
Fraunhofer 2011
Missclas-sification
False Detection
Miss/ Partial Miss
Split
Merge
Besondere Herausforderungen
• Qualität der Vorlage (Original)• Qualität Mikrofilmdigitalisierung• Komplexität Layout und Struktur• Artikelsegmentierung, teilweise über
mehrere Seiten• Tabellen• Werbung, Anzeigen
Layoutanalyse
• Artikel, Überschriften, Abbildungen, …
Artikelsegmentierung
• Inhalte und Reihenfolge von Artikeln erfassen
Werbung, Anzeigen
• Vielfalt an Schriftarten, grafischen Elementen
Strukturanalyse (I)
• Deep structuring (Mühlberger, 2016)
Strukturanalyse (II)
• Structify (Universität Innsbruck)
Ausblick
• Verbesserte Layoutanalysewerkzeuge speziell für (historische) Zeitungen - bevorzugt Open Source
• Nachkorrekturmöglichkeiten für Layouterkennung und -klassifikation
• Modelle und Werkzeuge zur inhaltlichen Tiefenstrukturierung
Danke für ihre Aufmerksamkeit!
Fragen?Clemens Neudecker
Staatsbibliothek zu Berlin@cneudecker