32
Bild-Datenkomprimierung aus Sicht der Nutzer: Experimente und Befunde aus der Wissenschaftspraxis Dipl. Sozw. Ralf Stockmann SUB Göttingen, Abteilung Forschung und Entwicklung Göttinger Digitalisierungszentrum Kolloquium: Datenkomprimierung bei Bild, Audio und Video

Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Embed Size (px)

DESCRIPTION

Seit einiger Zeit wird im Digitalisierungsbereich an Bibliotheken eine neue Begrifflichkeit diskutiert: „visually lossless compression“. Das Konzept geht davon aus, das eine verlustbehaftete Datenkompression dann hinzunehmen ist wenn auch unter fortschrittlichen Nutzungsbedingungen (kalibrierter Monitor, hohe Zoomstufe) Unterschiede zum nicht komprimierten Original vielleicht zu messen, aber nicht visuell wahrzunehmen sind. Als Dateiformat wird hier insbesondere JPEG 2000 in Feld geführt. Nach der hier dargestellten Messreihe konnte ich nachweisen, das in der Tat die Unterschiede die durch eine maßvolle Komprimierung entstehen erheblich weniger mess- und sichtbar sind als die Unterschiede die entstehen wenn ich dieselbe Seite vom selben Scanoperateur auf dem selben Gerät noch einmal scannen lasse. Der mögliche Platzgewinn liegt hier in etwa um den Faktor 3, was ein spürbarer Gewinn wäre, aber andererseits noch kein Quantensprung. Hier ist zu Recht zu hinterfragen, ob dieser moderate Vorteil bei der Dateigröße mit dem Prinzipiellen Makel des Weglassens bestehender Daten wirklich erkauft werden sollte. Als Argument dagegen wird angebracht das die Speicherpreise sehr schnell sinken, wir also in absehbarer Zeit kein Problem mehr mit der Speicherung haben werden. Dies mag für Consumerstorage aus den Elektronikmärkten zutreffend sein, für redundanten Archivspeicher hingegen liegen die Preise seit ca. 3 Jahren konstant, ohne dass sich eine Änderung abzeichnen würde.

Citation preview

Page 1: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Bild-Datenkomprimierungaus Sicht der Nutzer:

Experimente und Befunde aus der Wissenschaftspraxis

Dipl. Sozw. Ralf Stockmann

SUB Göttingen, Abteilung Forschung und EntwicklungGöttinger Digitalisierungszentrum

Kolloquium: Datenkomprimierung bei Bild, Audio und Video

Page 2: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Vor 11 Jahren an der Staats- und Universitätsbibliothek Göttingen mit Unterstützung der DFG gegründet

Auftrag: Grundlagenforschung im Bereich Digitalisierung an Bibliotheken

Entwicklung von Verfahren und best practice

Andere Einrichtungen befähigen effizient und für die Nutzer gewinnbringend zu digitalisieren

Insgesamt 17 DFG-Projekte mit 9 Mio. digitalisierten Seiten

Im Jahr 2000 Digitalisierung der Göttinger Gutenberg-Bible (400 MB pro Seite)

Entwicklung von Workflow-Tools für die Massendigitalisierung (Goobi)

Page 3: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Ausgangslage

Deutschland: DFG-Praxisregeln Verwendung von TIFF Kompression nur verlustfrei

KB: Einführung des Begriffes „visually lossless“

Mit der Massendigitalisierung explodieren die Storage-Anforderungen

Ein Rechenbeispiel (GDZ 2010):

Page 4: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Produktion des GDZ 2010

8 Scanstationen, 3 Schichten zu je 4 Stunden, 200 Tage = 19.200 Scanstunden

Durchschnittlicher Scandurchsatz: 250 Seiten pro Stunde (Summe: 4,8 Mio Seiten)

Speicherbedarf eine Seite TIFF uncompressed Farbe: 24 MB

Summe: 115 TB pro Jahr

Page 5: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Standpunkt DFG:

„Speicherplatz wird nicht finanziert sondern ist – wie früher die Regalböden – als Infrastruktur durch die Bibliotheken zu erbringen“

Page 6: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Lösungsansatz: Kompression

Für bitonale Scans schon immer erfolgreich eingesetzt 600 dpi optische Auflösung Verlustfreie FAX G4 Kompression (160KB statt 24

MB) Anwendung: was nach ca. 1850 bitonal gedruckt

wurde dürfen wir auch bitonal scannen

Problem: Farbscans

Page 7: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

JPEG 2000

Pro Sowohl lossless als verlustbehaftete Kompression möglich Quellofen Kompression granular regelbar Zoomstufen können direkt aus Original abgeleitet werden Metadaten im Header gut strukturierbar Gute Robustheit gegen Fehler (Bild wird dennoch aufgebaut)

Contra Geringe Verbreitung (Browser, Editoren) Rendering aufwändiger Ungewisse Zukunft

Page 8: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

These

„Die durch eine verlustbehaftete Kompression entstehenden Bildverfälschungen sind weniger sichtbar als die Varianz des Digitalisierungsprozesses selbst und somit zu vernachlässigen.“

Page 9: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Gegenthesen

Durch Kompression entstehen Artefakte sie sich systematisch an den relevanten Stellen (Text) ablagern. Diese wiegen schwerer als Fehler im Hintergrund (Blattstruktur) und verfälschen die relevanten Informationen.

Durch Kompression verliert man unwiederbringlich „Headroom“ für eine nachträgliche Bearbeitung um spezielle Bildanalysen (etwa: Wasserzeichen) durchführen zu können.

Page 10: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Beispiel JPG Artefakte

Page 11: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Beispiel Headroom

Original RAW Optimierung aus JPG Optimierung aus RAW

Page 12: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Testsystem

Mac OS 10.6.2

Adobe Photoshop CS4

Adobe JPEG 2000 Filter

ZEUTSCHEL OS 10000 300 dpi Buchscanner (ca. 38.000 €)

Vorlagen aus aktuellen Scanprojekten des GDZ

Page 13: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Test 1Auswirkungen Kompression

300 dpi

15,7 x 22,6 cm

Ca. 5 Megapixel

Page 14: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Messverfahren: Differenzbild

Zwei Ebenen in Photoshop, exakt gleicher Bildausschnitt

Ebene 1: Referenzebene (TIFF uncompressed)

Ebene 2: Testebene (verändert)

Ebene 2 über Ebeneneffekt „Differenz“ von Ebene 1 „substrahiert“, Unterschiede werden in Graustufenbild sichtbar

Je heller das Bild desto stärker die Abweichung

Page 15: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Beispiel: einheitliche Störung (Rauschfilter)

Original 3% Rauschen

Page 16: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Differenzbild(bitonalisiert mit threshhold 3)

Differenzwert: 81 (Mittelwert des Helligkeitswertes, 0 = keineAbweichung, 100 = extreme Abweichung)

Page 17: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Partielle Verfremdungen: unscharf maskieren

Original unscharfmaskiert

Differenzwert 31

Page 18: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Vergleich visuell (Kompression JPEG 2000 / Zoomstufe ab der Unterschiede sichtbar werden)

Original 90 / - 80 / 800% 70 / 600%

60 / 300% 50 / 200% 40 / 200%

Page 19: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Differenzmessung(Kompression JPEG 2000 / Differenzwert)

Lossless / 0 90 / 0 80 / 1 70 / 8

60 / 41 50 / 64 40 / 75

Page 20: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

ÜbersichtKompression Zoomstufe

visuelle Unterschiede

Strukturelle Unterschiede messbar

Differenzwert (0 = keiner, 100 = extrem)

Dateigröße

TIFF uncompressed Entfällt Entfällt 0 15,7 MB

TIFF LZW Entfällt Entfällt 0 12,5 MB

JPEG 2000 lossless Entfällt Entfällt 0 9,5 MB

JPEG 2000 / 90 > 800 % Nein 0 6,9 MB

JPEG 2000 / 80 800 % Nein 1 5,6 MB

JPEG 2000 / 70 600 % Nein 8 4,4 MB

JPEG 2000 / 60 300 % Leicht 41 3,2 MB

JPEG 2000 / 50 200 % Mittel 64 2,2 MB

JPEG 2000 / 40 200 % Stark 75 1,5 MB

JPEG Stufe 10 200 % Stark 62 2,4 MB

Page 21: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Test 2Varianz bei Neuaufnahme

Zwei mal hintereinander Scanprozess gestartet ohne das Buch neu zu justieren (fixiert durch Glasplatte), gleiche Aufnahmesituation TIFF vs. TIFF

Page 22: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Visueller Vergleich

Vergleich TIFF zu TIFF visuell: ab 100 % Unterschiede sichtbar

Page 23: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Differenzbild TIFF zu TIFF

Differenzwert 82Original

Page 24: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Differenzbild TIFF-Scan nachdem Buch neu aufgelegt wurde

Differenzwert 86nach Rotation

Differenzwert 90

Page 25: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

EinordnungKompression Zoomstufe

visuelle Unterschiede

Strukturelle Unterschiede messbar

Differenzwert (0 = keiner, 100 = extrem)

Dateigröße

TIFF uncompressed Entfällt Entfällt 0 15,7 MB

TIFF LZW Entfällt Entfällt 0 12,5 MB

JPEG 2000 lossless Entfällt Entfällt 0 9,5 MB

JPEG 2000 / 90 > 800 % Nein 0 6,9 MB

JPEG 2000 / 80 800 % Nein 1 5,6 MB

JPEG 2000 / 70 600 % Nein 8 4,4 MB

JPEG 2000 / 60 300 % Leicht 41 3,2 MB

JPEG 2000 / 50 200 % Mittel 64 2,2 MB

JPEG 2000 / 40 200 % Stark 75 1,5 MB

TIFF Neuaufnahme 100 % Leicht 82 15,7 MB

Page 26: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Zwischenergebnis Selbst bei hohen Kompressionsstufen liegen die Abweichungen

unterhalb derer, die durch einen Neuscan am selben Gerät entstehen

Es gibt nicht „das richtige Pixel an der richtigen Stelle“, die Interpretation und Unschärfe beginnt im Scangerät

Strukturelle Unterschiede sind erst ab einer Kompression von JPEG 2000 / 60 messbar (nicht: sichtbar)

„visually lossless“ muss sich auf die Zoomstufe beziehen. Bis 100 % sind alle Kompressionen nicht sichtbar zu unterschieden.

Der „sweet spot“ liegt bei einer Kompression von 70 (Platzersparnis: Faktor 3,6), eine konservative Ausrichtung wäre 80 (Faktor 2,8)

Kompression Zoomstufe visuelle Unterschiede

Strukturelle Unterschiede sichtbar

Differenzwert (0 = keiner, 100 = extrem)

Dateigröße

JPEG 2000 / 80 800 % Nein 1 5,6 MB

JPEG 2000 / 70 600 % Nein 8 4,4 MB

Page 27: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Test 3Headroom TIFF vs. JPEG 2000 /

70

Differenzwert 8

Page 28: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Extreme Tonwertkorrektur

Original Angepasst TIFF

Page 29: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Angepasst TIFF vs. JPG 2000 / 70

TIFF angepasst JPEG 2000 angepasst

Page 30: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Differenzbilder

70er Kompression Differenzwert: 80 80er Kompression Differenzwert: 54

Page 31: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Zwischenergebnis

Beim Vergleich TIFF gegen JPEG 2000 besteht kein relevanter Unterschied in Bezug auf Headroom für weitere Bildmanipulationen.

Bestehende Differenzunterschiede potenzieren sich mit dem Grad der Bildmanipulation

Einen echten Mehrwert liefert nur ein RAW Format

Page 32: Visually Lossless Kompression für die Digitalisierung an Bibliotheken

Fazit Für den Bereich Archivierung der Massendigitalisierung spricht die

reine Bildqualität nicht gegen die Nutzung einer verlustbehafteten Kompression mit JPEG 2000 der Stufen 70 oder 80 im Vergleich zu TIFF uncompressed.

Der Platzgewinn (ca. Faktor 3) muss somit nur gegen die Merkmale „Robustheit“ und „Langzeitverfügbarkeit“ abgewogen werden.

Für die explizit hochwertige Spezial-Digitalisierung ist als Alternative eher ein RAW-Format sinnvoll - mit den bekannten Einschränkungen in Bezug auf Langzeitverfügbarkeit.

Offene Frage: überflüssige Debatte weil Speicher schneller preiswert wird als wir digitalisieren? Ja: Consumer Speicher Fraglich: Archivspeicher (seit Jahren konstant teuer)