Bild-Datenkomprimierungaus Sicht der Nutzer:
Experimente und Befunde aus der Wissenschaftspraxis
Dipl. Sozw. Ralf Stockmann
SUB Göttingen, Abteilung Forschung und EntwicklungGöttinger Digitalisierungszentrum
Kolloquium: Datenkomprimierung bei Bild, Audio und Video
Vor 11 Jahren an der Staats- und Universitätsbibliothek Göttingen mit Unterstützung der DFG gegründet
Auftrag: Grundlagenforschung im Bereich Digitalisierung an Bibliotheken
Entwicklung von Verfahren und best practice
Andere Einrichtungen befähigen effizient und für die Nutzer gewinnbringend zu digitalisieren
Insgesamt 17 DFG-Projekte mit 9 Mio. digitalisierten Seiten
Im Jahr 2000 Digitalisierung der Göttinger Gutenberg-Bible (400 MB pro Seite)
Entwicklung von Workflow-Tools für die Massendigitalisierung (Goobi)
Ausgangslage
Deutschland: DFG-Praxisregeln Verwendung von TIFF Kompression nur verlustfrei
KB: Einführung des Begriffes „visually lossless“
Mit der Massendigitalisierung explodieren die Storage-Anforderungen
Ein Rechenbeispiel (GDZ 2010):
Produktion des GDZ 2010
8 Scanstationen, 3 Schichten zu je 4 Stunden, 200 Tage = 19.200 Scanstunden
Durchschnittlicher Scandurchsatz: 250 Seiten pro Stunde (Summe: 4,8 Mio Seiten)
Speicherbedarf eine Seite TIFF uncompressed Farbe: 24 MB
Summe: 115 TB pro Jahr
Standpunkt DFG:
„Speicherplatz wird nicht finanziert sondern ist – wie früher die Regalböden – als Infrastruktur durch die Bibliotheken zu erbringen“
Lösungsansatz: Kompression
Für bitonale Scans schon immer erfolgreich eingesetzt 600 dpi optische Auflösung Verlustfreie FAX G4 Kompression (160KB statt 24
MB) Anwendung: was nach ca. 1850 bitonal gedruckt
wurde dürfen wir auch bitonal scannen
Problem: Farbscans
JPEG 2000
Pro Sowohl lossless als verlustbehaftete Kompression möglich Quellofen Kompression granular regelbar Zoomstufen können direkt aus Original abgeleitet werden Metadaten im Header gut strukturierbar Gute Robustheit gegen Fehler (Bild wird dennoch aufgebaut)
Contra Geringe Verbreitung (Browser, Editoren) Rendering aufwändiger Ungewisse Zukunft
These
„Die durch eine verlustbehaftete Kompression entstehenden Bildverfälschungen sind weniger sichtbar als die Varianz des Digitalisierungsprozesses selbst und somit zu vernachlässigen.“
Gegenthesen
Durch Kompression entstehen Artefakte sie sich systematisch an den relevanten Stellen (Text) ablagern. Diese wiegen schwerer als Fehler im Hintergrund (Blattstruktur) und verfälschen die relevanten Informationen.
Durch Kompression verliert man unwiederbringlich „Headroom“ für eine nachträgliche Bearbeitung um spezielle Bildanalysen (etwa: Wasserzeichen) durchführen zu können.
Beispiel JPG Artefakte
Beispiel Headroom
Original RAW Optimierung aus JPG Optimierung aus RAW
Testsystem
Mac OS 10.6.2
Adobe Photoshop CS4
Adobe JPEG 2000 Filter
ZEUTSCHEL OS 10000 300 dpi Buchscanner (ca. 38.000 €)
Vorlagen aus aktuellen Scanprojekten des GDZ
Test 1Auswirkungen Kompression
300 dpi
15,7 x 22,6 cm
Ca. 5 Megapixel
Messverfahren: Differenzbild
Zwei Ebenen in Photoshop, exakt gleicher Bildausschnitt
Ebene 1: Referenzebene (TIFF uncompressed)
Ebene 2: Testebene (verändert)
Ebene 2 über Ebeneneffekt „Differenz“ von Ebene 1 „substrahiert“, Unterschiede werden in Graustufenbild sichtbar
Je heller das Bild desto stärker die Abweichung
Beispiel: einheitliche Störung (Rauschfilter)
Original 3% Rauschen
Differenzbild(bitonalisiert mit threshhold 3)
Differenzwert: 81 (Mittelwert des Helligkeitswertes, 0 = keineAbweichung, 100 = extreme Abweichung)
Partielle Verfremdungen: unscharf maskieren
Original unscharfmaskiert
Differenzwert 31
Vergleich visuell (Kompression JPEG 2000 / Zoomstufe ab der Unterschiede sichtbar werden)
Original 90 / - 80 / 800% 70 / 600%
60 / 300% 50 / 200% 40 / 200%
Differenzmessung(Kompression JPEG 2000 / Differenzwert)
Lossless / 0 90 / 0 80 / 1 70 / 8
60 / 41 50 / 64 40 / 75
ÜbersichtKompression Zoomstufe
visuelle Unterschiede
Strukturelle Unterschiede messbar
Differenzwert (0 = keiner, 100 = extrem)
Dateigröße
TIFF uncompressed Entfällt Entfällt 0 15,7 MB
TIFF LZW Entfällt Entfällt 0 12,5 MB
JPEG 2000 lossless Entfällt Entfällt 0 9,5 MB
JPEG 2000 / 90 > 800 % Nein 0 6,9 MB
JPEG 2000 / 80 800 % Nein 1 5,6 MB
JPEG 2000 / 70 600 % Nein 8 4,4 MB
JPEG 2000 / 60 300 % Leicht 41 3,2 MB
JPEG 2000 / 50 200 % Mittel 64 2,2 MB
JPEG 2000 / 40 200 % Stark 75 1,5 MB
JPEG Stufe 10 200 % Stark 62 2,4 MB
Test 2Varianz bei Neuaufnahme
Zwei mal hintereinander Scanprozess gestartet ohne das Buch neu zu justieren (fixiert durch Glasplatte), gleiche Aufnahmesituation TIFF vs. TIFF
Visueller Vergleich
Vergleich TIFF zu TIFF visuell: ab 100 % Unterschiede sichtbar
Differenzbild TIFF zu TIFF
Differenzwert 82Original
Differenzbild TIFF-Scan nachdem Buch neu aufgelegt wurde
Differenzwert 86nach Rotation
Differenzwert 90
EinordnungKompression Zoomstufe
visuelle Unterschiede
Strukturelle Unterschiede messbar
Differenzwert (0 = keiner, 100 = extrem)
Dateigröße
TIFF uncompressed Entfällt Entfällt 0 15,7 MB
TIFF LZW Entfällt Entfällt 0 12,5 MB
JPEG 2000 lossless Entfällt Entfällt 0 9,5 MB
JPEG 2000 / 90 > 800 % Nein 0 6,9 MB
JPEG 2000 / 80 800 % Nein 1 5,6 MB
JPEG 2000 / 70 600 % Nein 8 4,4 MB
JPEG 2000 / 60 300 % Leicht 41 3,2 MB
JPEG 2000 / 50 200 % Mittel 64 2,2 MB
JPEG 2000 / 40 200 % Stark 75 1,5 MB
TIFF Neuaufnahme 100 % Leicht 82 15,7 MB
Zwischenergebnis Selbst bei hohen Kompressionsstufen liegen die Abweichungen
unterhalb derer, die durch einen Neuscan am selben Gerät entstehen
Es gibt nicht „das richtige Pixel an der richtigen Stelle“, die Interpretation und Unschärfe beginnt im Scangerät
Strukturelle Unterschiede sind erst ab einer Kompression von JPEG 2000 / 60 messbar (nicht: sichtbar)
„visually lossless“ muss sich auf die Zoomstufe beziehen. Bis 100 % sind alle Kompressionen nicht sichtbar zu unterschieden.
Der „sweet spot“ liegt bei einer Kompression von 70 (Platzersparnis: Faktor 3,6), eine konservative Ausrichtung wäre 80 (Faktor 2,8)
Kompression Zoomstufe visuelle Unterschiede
Strukturelle Unterschiede sichtbar
Differenzwert (0 = keiner, 100 = extrem)
Dateigröße
JPEG 2000 / 80 800 % Nein 1 5,6 MB
JPEG 2000 / 70 600 % Nein 8 4,4 MB
Test 3Headroom TIFF vs. JPEG 2000 /
70
Differenzwert 8
Extreme Tonwertkorrektur
Original Angepasst TIFF
Angepasst TIFF vs. JPG 2000 / 70
TIFF angepasst JPEG 2000 angepasst
Differenzbilder
70er Kompression Differenzwert: 80 80er Kompression Differenzwert: 54
Zwischenergebnis
Beim Vergleich TIFF gegen JPEG 2000 besteht kein relevanter Unterschied in Bezug auf Headroom für weitere Bildmanipulationen.
Bestehende Differenzunterschiede potenzieren sich mit dem Grad der Bildmanipulation
Einen echten Mehrwert liefert nur ein RAW Format
Fazit Für den Bereich Archivierung der Massendigitalisierung spricht die
reine Bildqualität nicht gegen die Nutzung einer verlustbehafteten Kompression mit JPEG 2000 der Stufen 70 oder 80 im Vergleich zu TIFF uncompressed.
Der Platzgewinn (ca. Faktor 3) muss somit nur gegen die Merkmale „Robustheit“ und „Langzeitverfügbarkeit“ abgewogen werden.
Für die explizit hochwertige Spezial-Digitalisierung ist als Alternative eher ein RAW-Format sinnvoll - mit den bekannten Einschränkungen in Bezug auf Langzeitverfügbarkeit.
Offene Frage: überflüssige Debatte weil Speicher schneller preiswert wird als wir digitalisieren? Ja: Consumer Speicher Fraglich: Archivspeicher (seit Jahren konstant teuer)