17
Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse Clemens Neudecker Staatsbibliothek zu Berlin @ cneudecker

Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

Embed Size (px)

Citation preview

Page 1: Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

Zeitungsdigitalisierung: Stand der Technik und Herausforderungen

an Layout- und Strukturanalyse

Clemens NeudeckerStaatsbibliothek zu Berlin

@cneudecker

Page 2: Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

Inhalt

1. Überblick Zeitungsdigitalisierung2. Stand der Technik3. Qualität

a) OCR / Texterkennungb) OLR / Layoutanalyse

4. Herausforderungen5. Ausblick

Page 3: Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

Zeitungsdigitalisierung

• EU: Europeana Newspapers (12 Mio. Seiten)– ANNO Austrian Newspapers Online (17 Mio.)– KBNL Historische Kranten (10 Mio.)

• US: Chronicling America (10 Mio.)• UK: British Newspaper Archive (15 Mio.)• AU: Trove Newspapers (16,5 Mio.)• DE: DFG Pilotprojekt Zeitungsdigitalisierung

Massendigitalisierung von Zeitungen ist Realität- OCR inzwischen auch bei Zeitungen Standard- Meist Retro-Digitalisierung von Mikrofilm

Page 5: Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

Formate

• Üblicherweise: METS (Struktur) + ALTO (OCR)

• „In the wild“:– PDF (mit/ohne eingebetteten Volltext)– hOCR (Google Tesseract/OCRopy)– TEI (Text Encoding Initiative)– Proprietäre Formate, XML-basiert (z.B. Olive)– Plain text, keine Strukturdaten/Koordinaten– MS Word .DOC (ja, wirklich…)

Page 6: Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

Qualität: Texterkennung

• Europeana Newspapers Evaluation: OCR Qualität von rund 80% Wortgenauigkeit

82.4% 85.3%80.9%

75.9%67.5%

83.4% 84.1%

68.1%

93.1%

57.6%

87.0%

68.3%76.1%

82.6%

54.1%

32.7%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Succ

ess

Rate

Language Setti ng

Bag of Words OCR EvaluationPer Language

Page 7: Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

Qualität: Layoutanalyse (I)

• ICDAR Competition HNLA2013

58.3%

83.7% 83.2%85.6% 86.4% 86.9% 85.5%

50%

60%

70%

80%

90%

100%

Tesseract 3 FRE 10 EPITA JOUVE PAL Fraunhofer 2013

Fraunhofer 2011

Succ

ess

Rate

Segmentation

Page 8: Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

Qualität: Layoutanalyse (II)

• ICDAR Competition HNLA2013

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Tesseract 3 FRE 10 EPITA JOUVE PAL Fraunhofer 2013

Fraunhofer 2011

Missclas-sification

False Detection

Miss/ Partial Miss

Split

Merge

Page 9: Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

Besondere Herausforderungen

• Qualität der Vorlage (Original)• Qualität Mikrofilmdigitalisierung• Komplexität Layout und Struktur• Artikelsegmentierung, teilweise über

mehrere Seiten• Tabellen• Werbung, Anzeigen

Page 10: Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

Layoutanalyse

• Artikel, Überschriften, Abbildungen, …

Page 11: Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

Artikelsegmentierung

• Inhalte und Reihenfolge von Artikeln erfassen

Page 12: Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

Tabellen

• Bsp. HEBIS Projekt „Historische Finanzdaten“

Page 13: Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

Werbung, Anzeigen

• Vielfalt an Schriftarten, grafischen Elementen

Page 14: Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

Strukturanalyse (I)

• Deep structuring (Mühlberger, 2016)

Page 15: Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

Strukturanalyse (II)

• Structify (Universität Innsbruck)

Page 16: Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

Ausblick

• Verbesserte Layoutanalysewerkzeuge speziell für (historische) Zeitungen - bevorzugt Open Source

• Nachkorrekturmöglichkeiten für Layouterkennung und -klassifikation

• Modelle und Werkzeuge zur inhaltlichen Tiefenstrukturierung

Page 17: Zeitungsdigitalisierung: Stand der Technik und Herausforderungen an Layout- und Strukturanalyse

Danke für ihre Aufmerksamkeit!

Fragen?Clemens Neudecker

Staatsbibliothek zu Berlin@cneudecker