52
Volltexte und OCR am MDZ Dr. Markus Brantl

Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Volltexte und OCR am MDZ

Dr. Markus Brantl

Page 2: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Agenda

1. OCR im Überblick

2. OCR am MDZ: Inhouse ‐ Outsourcing

3. OCR‐Inhouse‐Produktion ‐ Schritt für Schritt

4. OCR und Outsourcing

5. Projektbeispiel: Integration der Digital Library Copy

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 2

Page 3: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

OCR im Überblick

Voraussetzung: Guter Scan• hohe Auflösung, Tiefenschärfe, Seitenausrichtung,  wenn 

möglich: keine Verzerrung…

1. Image Enhancement (Flecken entfernen, Binarisierung, Seiten gerade rücken, etc.)

2. Layout‐Analyse (Aufbau einer Seite, Bilder etc.)3. Segmentierung (Block, Zeile, Wort, Zeichen)4. Merkmalserkennung (Zeichen)  und Klassifikation 

(Wörter)5. Lexikalische Analyse 

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 3

Page 4: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

OCR‐Software (Auswahl)Open‐Source‐Software• Tesseract (Google, letztes Release 2011)

• OCRopus (letztes Release: 2009)

Lizenzpflichtige Software• Abbyy ‐ verschiedene Module

– Recognition Server– SDK– Finereader Standalone– XIX – derzeit einzige Omnifont‐Fraktur am Markt 

• Arpa– PaperIn Book

• B.I.T. Tomasi– BIT Alpha

• Nuance– Omnipage

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 4

Page 5: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

OCR‐Anforderungen/ Qualität

• Wissenschaftler benötigen i.d.R. eine Genauigkeit      von 99,95%, um positive Aussagen zum Text machen zu können ‐> Steigende Kosten

• Qualitäten darunter eignen sich – oft in Verbindung mit den Bildern (Highlighting der Treffer im Image) ‐als Mittelweg für die Suche

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 5

Page 6: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Die Frage der OCR‐Qualität?

Sehr gutGut 

= 99,6‐99,95 %= 97‐99,5% 

Durchschnittlich = 90‐96% Schlecht = unter 90% 

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 6

Page 7: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

OCR am MDZ

• 35 OCR – Projekte (Antiqua und Fraktur)

• 24 Projekte mit Dienstleistern

• Google‐Projekt: Übernahme und Bereitstellung der Digitalisierungs‐Daten durch das MDZ (derzeit 350.000 Titel mit OCR‐Daten/Volltext)

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 7

Page 8: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

OCR‐Produktion: Inhouse und OutsourcingI. Inhouse‐Produktion

Texte in Antiqua flach erschlossen/strukturiert

Imageproduktion (TIFF)[aus ZEND‐Workflow]

a)  OCR                  b) OCR[ohne Korrektur]      [mit Korrektur]

II. Produktion via Outsourcing

Texte in Fraktur / Antiquatief erschlossen/strukturiert

Imageproduktion (TIFF) [ZEND oder Dienstleister]

OCR/Volltexterfassung nach den Vorgaben der MDZ‐Leistungsbeschreibung

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ

BSB‐OCR‐Server Dienstleister

8

Page 9: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Projekte ‐ Auswahl

Outsourcing• Reichstag • Zedler• Regesta Imperii• dMGH• Landtagsprotokolle

Inhouse• Digi20• ZBLG• Jahrbuch für fränkische 

Landesforschung• Passauer Neue Presse• Leibniz Publik

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 9

Page 10: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Entwicklung von OCR‐Projekten 

ZEDLER• Projekt 1 (1999): Erfassung der 

Lemmata• Projekt 2 (2004): 

Kategorisierung der Artikel• Volltext (2009 Google)• Integration des Google‐Volltexts 

in Planung

dMGH• Projekt (2004‐2010)• Bild als die einzige  zuverlässige 

Referenz• Volltext verborgen • Auszeichnung in drei Blöcken

– Text– Anmerkungen– Kritischer Apparat

• Hoher QS‐Aufwand seitens der MGH

• Seit Relaunch (2010) auch mit Textanzeige

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 10

Page 11: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Produktion im Überblick

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 11

Page 12: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Workflow – ZENDZEND= Zentrale Erfassungs- und Nachweis-Datenbank bietet u.a.• Abbildung des gesamten Produktionsprozesses in einem modularen System • Eigen-Entwicklung auf Basis von Open-Source-Software• Workflow-Kontrolle• Jedes komplett gescannte Werk der BSB wird mit der ZEND verarbeitet• Offen und beliebig skalierbar• Unterschiedliche Provider (Scannen, Texterfassung etc.) können unlimitierte Daten

an die ZEND liefern• Verwaltet alle bei der Produktion anfallenden Metadaten - administrativ,

bibliographisch, strukturell (m.Volltext), technisch• Steuert auch die Inhouse-OCR-Produktion

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 12

Page 13: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

ZEND im Überblick

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 13

Page 14: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

ZEND‐OCR‐Unterstützung   

• Steuerung mittels– Organisatorischer Parameter

• Digitalisierung Inhouse / Outsourcing• Projektzugehörigkeit• OCR ja/nein

– Technischer Parameter• Farbtiefe• Auflösung• Sprachenvorgabe für OCR‐Erkennung

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 14

Page 15: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

OCR‐Inhouse‐Produktion: Schritt für Schritt

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 15

Page 16: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Vorbereitung (1)

• Projektmanagement / Festlegung der Projektziele / Organisation

• Klärung der juristischen Rahmenbedingungen (z.B. bei Projekten im 20. Jh.)

• Sichtung der Vorlagen (Format, Seitenzahlen, Erhaltungszustand, Aufschneiden? etc.) 

• OCR via Outsourcing– Pflichtenhefterstellung – Formales Ausschreibungs‐ und Vergabeverfahren (ca. 3 

Monate!) 

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 16

Page 17: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Vorbereitung (2) 

Materialauswahlfür OCR‐Produktion

Urheberrechtsfreies Material

Urherberrechtsgeschützes Material im Rahmen von Kooperationen

Komplettes Buch Nur Text [keine Bilder] Nur bestimmte Abschnitte/Artikel

Auswahl der geeigneten Exemplare [ggf. werden beschädigte oder fehlende 

Seiten durch Seiten aus anderen Exemplaren ersetzt]

Auswahl der Produktionsart nach Schriftart: Antiqua – Inhouse Fraktur – Dienstleister

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 17

Page 18: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Materialauswahl: Beispiele für problematisches Ausgangsmaterial 

Enge Bindung mit TextverlustVerwerfungen im Papier

• Beschädigte Seiten (z.B. Risse)• Restaurierte Seiten (z.B. mit Überklebungen)• Schrift (zu klein, kursiv, Formeln, handschriftliches)

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 18

Page 19: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Vorbereitung (3) 

• Titelaufnahme in ZEND

• Erstellen des Digitalisierungsauftrags =>XML‐Ticket für OCR‐Produktion

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 19

Page 20: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Digitalisierungsauftrag mit OCR‐Parametern

Printmedien:  Schrift: Antiqua

Imageproduktion – Parameter: TIF‐Format unkomprimiert 300 ppi Graustufen pro Seite ein Image

OCR‐Produktion – Parameter: OCR [Standard oder mit Korrektur  über 

Korrekturstation] Spracheinstellung [z.B. German]

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 20

Page 21: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Scannen: Handauflage, Roboter oder Einzugsscanner?

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 21

Page 22: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Anforderungen an einen guten Scan für OCR

• Hohe Auflösung 300 ppi, besser 400 (neue Entwicklungen)

• Farbtiefe‐ in Abhängigkeit von der Vorlage : Farbe, Graustufen bei guter Binarisierung u.U. auch bitonalmit 600 ppi

• Möglichst keine Verzerrung (Buchfalz)

• Scan vom Mikrofilm?Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 22

Page 23: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

ZEND ‐nach dem Scannen

Roma 19.10.2011  "Digitization Lifecycle"

• Images: Master‐TIFFs und Derivate: JPEG • Es liegt eine erste Strukturdatei vor 

(logisch/physikalisch)• QS der Images mit Webfreigabe =>Zugleich 

Weiterleitung der TIFFs für1. digitale Langzeitarchivierung2. OCR‐Produktion

• Verlinkung vom Katalogisat zur• Standardpräsentation der ZEND• Es gibt eine URN,  die über eine OAI‐Schnittstelle 

an die DNB gemeldet wirdDr. Markus Brantl  © BSB/MDZ 23

Page 24: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

ZEND – QS Images für Webbreitstellung bzw. OCR

Qualitätskontrolle der Images imZEND‐ToC‐Editor:

• Vollständigkeit • Korrekte Reihenfolge • Scanparameter erfüllt • Lesbarkeit • Seiten gerade ausgerichtet • Seiten korrekt gedreht 

Weiterleitung der TIFFs an OCR‐Server

oder Reklamation

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 24

Page 25: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Standardpräsentation: ZEND‐Viewer

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 25

Page 26: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Vom Image zum maschinenlesbaren Text amBeispiel: Digi20

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 26

Page 27: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 27

Page 28: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 28

Page 29: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Inhouse‐Produktion (nach Scannen und QS)• Derzeit beschränkt auf Drucktype Antiqua

• 2 Maschinen, davon eine als Korrekturstation

• Verwendung des Abbyy Recognition Server:– Sehr gute Qualtität der FineReader – Maschine– Anhängen von Korrekturstationen– XML‐Ausgabe mit Koordinaten– Generierung von PDFs

• MDZ‐Workflows:– Gesteuert durch „XML‐Tickets“1. Standard (ohne Korrektur)2. Korrektur via Korrekturstationen (bei entsprechenden Ressourcen)

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 29

Page 30: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

OCR‐Ergebnisse

• OCR‐Ergebnisse pro Seite

– eine XML‐Raw‐Datei mit den erkannten Buchstaben und deren Koordinaten

– eine PDF‐Datei (mittels eines Skriptes werden die einzelnen PDFs automatisiert zu einer einzigen Datei zusammengefasst, die dann für den Download zur Verfügung steht)

• „Result"‐Datei mit Statistiken zur OCR‐Erkennung:  Anzahl der Zeichen, Erkennungsgenauigkeit etc.

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 30

Page 31: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

XML‐Raw: Buchstaben‐Koordinaten „Napoleon“

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 31

Page 32: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Weitere Arbeitsschritte

• Ausgangsmaterialien:– Images– Strukturdaten– Volltexte mit Buchstaben‐Koordinaten

• Übernahme der Daten in das MDZ‐Standardformats (TEI P5)

• Indexierung

• Web‐PräsentationRoma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 32

Page 33: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

MDZ-Standardformat

o Alle Metadaten in einemXML-Framework: TEI P5• Administrativ• Technisch• Bibliographisch• Strukturell, wie Volltext

oder digitaleInhaltsverzeichnisse

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 33

Page 34: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

MDZ‐Standardformat und OCR

• Warum?– Einheitlichkeit,– Nicht proprietärer Standard für LZA– Weiterverwendbarkeit

• Automatische Kontrolle des OCR‐Output:– Vollständigkeit– Nicht leer– Erkennungsgenauigkeit?

• Wesentliche Aufgaben :1. Zusammenführung der Buchstaben zu Worten2. Zusammenführung der Seiten zu einem zusammenhängenden Dokument3. Koordinatentransformation4. Codierung in TEI‐XML

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 34

Page 35: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Bestandteile des MDZ‐Standardformat

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 35

Page 36: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

„Napoleon“: Wort‐ID mit ZEND‐ID, Image‐, Zeilen‐, Wort‐Nummer

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 36

Page 37: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Koordinaten für „Napoleon“

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 37

Page 38: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Standard‐Indexierung

• Verwendung von Apache Solr/Lucene

• Ausgangsdatei dynamisch generiert

• Konfigurationsdatei Vorschriften zur Indexierung, Darin Stopwörter, Zeichenersetzungen Vorgaben zur Wortgewichtung u.a.   

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 38

Page 39: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Web‐Bereitstellung  

• Verwendung von Apache Cocoon– XML‐ Publishing Framework– Pipelining Mechanismus – Zusammenführung der Bestandteile des digitalen Objekts: XML, ZEND, Bilder, Volltextindex …

– Beispiel: Highlighting

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 39

Page 40: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

XML‐Ergebnis der Suche nach Napoleon

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 40

Page 41: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Einsatz von SVG (Scalable Vector Graphics)

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 41

Page 42: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

OCR und Outsourcing

• Projektmanagement / Dienstleisterführung

• Pflichtenhefterstellung bei OCR‐Produktion über Dienstleister

• Datenbasis: Digitale Master (TIFF)

• Ausschreibungs‐ Vergabeverfahren bei Produktion über Dienstleister 

Pflichtenheft für OCR/Volltexte:

Vorgaben des MDZ: Lieferbedingungen [Lieferfristen] Netzanbindung (NFS oder CIFS) Testdatenlieferung Ablauf Qualitätssicherung und Korrekturen Produktionsparameter allgemein: 

‐ Dateiformat [XML, PDF]‐ pro Seite eine XML‐Datei‐ Dateinamen [ZEND‐Dateinamen]‐ Erfassungsgenauigkeit [in %]‐ Erfassung der Wortkoordinaten‐ Erfassung der Formatierungen

Produktionsparameter speziell: Spezielle/tiefere Textauszeichnung Artikelseparierung

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 42

Page 43: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

OCR‐Produktion durch DienstleisterPflichtenheft für OCR/Volltexte

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ

Beispiel: Ausschnitte aus einem Pflichtenheft

Aufwand für die Erstellung:• 1 Pflichtenheft insgesamt oder pro Buch?• Voraussetzung: Genaue Materialanalyse bzw. Kenntnis des Inhalts• ggf. in Englisch für internationale Dienstleister

43

Page 44: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

OCR‐Produktion durch DienstleisterAuswahl des Dienstleisters

Anforderung von Testdaten: 

• Vor Auftragsvergabe erfolgt eine Marktsichtung mit Anforderung von Testdaten von ausgewählten, repräsentativen Seiten

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 44

Page 45: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Integration von Google: Beispiel RegionalportalProjektbeispiel: Integration der Digital Library Copy

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 45

Page 46: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Trefferliste Trefferliste

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 46

Page 47: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Snippet-View-Trefferliste mit Trefferanzeige im Image

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 47

Page 48: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Image mit Treffer Image mit Treffer und

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 48

Page 49: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Treffer in der Volltext-Anzeige

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 49

Page 50: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Einige Zahlen

• 350.000 Volltexte mit 1,2 Terabyte Indexdaten– Vergleich: Gesamt‐Datenvolumen des MDZ in der Langzeitarchivierung 330 Terabyte (Stand: Sept. 2011)

• Zeitbedarf für Reindexierung: 9 Tage 

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 50

Page 51: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Probleme mit OCR(‐Workflows) 

• Zu späte oder nachträgliche Festlegung der zu erfassenden Strukturen 

• Abstimmung zwischen Vorlagenqualität und gewünschter Textgenauigkeit bzw. ‐struktur (Schriftgröße, Bindung, Erhaltungszustand, Bilder, Tabellen, ...)

• Qualitätskontrolle: – wer, wann? – was und wie wird kontrolliert?

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 51

Page 52: Volltexte und OCR am MDZ - digitale-sammlungen.de · • 35 OCR –Projekte (Antiqua und Fraktur) • 24 Projekte mit Dienstleistern • Google‐Projekt: Übernahme und Bereitstellung

Contact:

Vielen Dank!

Vielen Dank!Kontakt: brantl[at]bsb-muenchen.de

Acknowledgements: Dr. Birgit Gilcher, Dirk Scholz

Roma 19.10.2011  "Digitization Lifecycle" Dr. Markus Brantl  © BSB/MDZ 52