33
PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller verfasst von: Jana Köllmann

PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Embed Size (px)

Citation preview

Page 1: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

PDF und PDF/A

Universität zu KölnHistorisch Kulturwissenschaftliche Informationsverarbeitung

WS 2011/2012Digitale Langzeitarchivierung

Dozent: M.Thallerverfasst von: Jana Köllmann

Page 2: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Inhalt

1.Das Adobe Grafikmodell

2. Das Dateiformat PDF

3. Wege zur PDF

4. Grenzen von PDF

5. Tagged PDF

6. Warum PDF/A?

7. Wege zur Archiv-PDF

8. Welche Datenformate sind archivtauglich?

9. Was tun mit „alten“ Archivformaten?

10. Quellen

Page 3: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Das Adobe Grafikmodell

Bildet Grundlage der Kerntechnologie von PDF Zusätzlich Grundlage für Modelle anderer

Softwareentwickler Modell ist gerätunabhängig

→ ohne Bezug auf Eigenschaften des Geräts → Graphiken werden in abstrakter Beschreibung gespeichert und von Acrobat wieder hergestellt

Basiert auf Berechnung von Vektorgraphiken

Page 4: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Eigenschaften der Basiselemente

Vektorgraphiken: alle Elemente, die aus Linien und Kurven gebildet werden können

Text: Untermenge der Vektorgraphik Rastergraphiken: Rechteckiges Fläche mit Pixeln

Page 5: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Warum Text nicht als Vektorgraphik speichern?

Verarbeitungsgeschwindigkeit zu gering, da jeder Buchstabe immer wieder berechnet werden müsste

Hoher Anspruch an Ausgabegenauigkeit, da Menschliches Auge sehr sensibel

Page 6: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Zusatzfunktionen

Farbseparation Farbverläufe Maskierung von Bildern Transparenz und Alphakanal

Page 7: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Zusatzfunktionen

Farbverläufe

Page 8: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Technische Eigenschaften

Kompression: Einzelne Objekte der Datei werden selektiv komprimiert, da nicht jede Kompression für jeden Datentyp sinnvoll

Wiederverwendbare Grafikmodelle:

Durch einmalige Speicherung und Wiederverwendung von Grafiken kann die Dateigröße optimiert werden

Page 9: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Schriften in Acrobat

Schriften könnenin PDF eingebettet werden

→ stehen auch Benutzern zu Verfügung wenn sie nicht auf dem Rechner installiert sind

Fontdeskriptor: beschreibt die wichtigsten Strukturen einer Schrift (z.B. Serifen, Ober-/Unterlänge)

Mit diesen Angaben kann Acrobat eine Ersatzschrift generieren

Page 10: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Das Dateiformat PDF

Page 11: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Das Dateiformat PDF 2

Page 12: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller
Page 13: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Bedeutung der Pfade

Page 14: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Wege zur PDF

Acrobat Distiller: Umwandlung von PostScript zu PDF

Acrobat PDFWriter:

- Druckertreiber für Windows und Mac

- Einschränkungen zu Distiller (kann z.B. kein PostScript verarbeiten)

- meist schlechte Qualität, da mit Bitmap-Fassung der Graphik gearbeitet wird

Page 15: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Wege zur PDF

Acrobat Web Capture:

- Konvertierung von Webseiten zu PDF

- Wandelt HTML zu PDF um mit internen Mitteln der Software

Konvertieren von Bilddateien: in Acrobat über das „Datei“-Menü möglich, hat jedoch viele Nachteile

Page 16: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Wege zur PDF

Konvertierung gescannter Seiten mit Acrobat Paper Capture:

- ist für Umwandlung gedruckter Dokumente zuständig

- Software versucht Gescanntes als Text zu erkennen und umzuwandeln

Page 17: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Direkte Erzeugung mit Anwenderprogrammen

Immer mehr Software unterstützt die Exportmodeule für PDF

Oft ist nicht der komplette Funktionsumfang von PDF unterstützt

In vielen Programmen läuft die Konvertierung versteckt über Distiller

Page 18: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Grenzen von PDF

Text aus PDF selten weiterverwendbar Weiterverwendung durch fehlende

Strukturinformationen zusätzlich erschwert Inhalt eines PDF-Dokuments schwer für

Sehbehinderte zugänglich, da Screenreader sie nicht verarbeiten können

Page 19: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Unicode

Internationales Codesystem Langfristig wird für jedes bestehende

Schriftzeichen ein digitaler Code festgelegt Ziel ist die unterschiedliche und inkompatible

Kodierungen aus verschiedenen Ländern zu beseitigen

Mittlerweile sind 109.242 Zeichen aus 93 Schriftsystemen genormt

Page 20: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Tagged PDF

Kündigt an Probleme der PDF zu lösen Screenraeder sollen Text Problemlos auslesen

können zuverlässige Konvertierung von PDF in andere

Dateiformate Dynamische Umformatierung am Bildschirm

Page 21: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Tagged PDF liegt vor, wenn:...

Dokument enthält PDF-Strukturbaum Bedeutungen aller Zeichen sind bekannt und

Unicode-Zuordnung Dokumentinhalte sind nach Wichtigkeit

geordnet Lesereihenfolge ist dokumentiert

Page 22: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Warum PDF/A?

Erforderliche Schriften MÜSSEN eingebettet werden

Einige PDF Elemente beeinträchtigen die Beständigkeit (z.B. Ebenen, interaktive Elemente)

PDF-Dokument das bestimmte Anforderungen der DLZA erfüllt

Page 23: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Informationen zu PDF/A

Erster Standard besteht seit 2005, zugrunde liegt PFD-Version 1.4

Zweiter Standard aufgrund von Version 1.7 besteht seit Frühjahr 2011

Spezifiziert zwei Übereinstimmungsgrade für Version 1: PDF/A_1a, PDF/A_1b

Spezifiziert drei Übereinstimmungsgrade für Version 2: PDF/A_2a, PDF/A_2b,

PDF/A_2u

Page 24: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

PDF/A_1b

Betrifft die visuelle Integrität Jede PDF/A_1a-Datei entspricht auch dem

nicht so strengen Standard der PDF/A_1b-Datei Referenzen auf Resorsen ausserhalb des

Dokuments sind nicht erlaubt Transparenz darf nicht verwendet werden Eindeutige Farbdarstellung Verschlüsselung ist untersagt

Page 25: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

PDF/A_1a

Bezieht sich auf semantische Korrektheit und Struktur

Struktur basiert auf Tagged PDF Schriftzeichen müssen Unicode-Entsprecchung

haben Lesbar durch den Screenreader

Page 26: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Wege zur Archiv-PDF

PDF/A aus Dateien oder Daten:

- Über Export durch Ursprungsprogramme, Distiller oder PDF Konverter

- auch Programme zur „Massenabvertigung“ erhältlich

Gescannte Papiervorlage zu PDF/A

- Text wird durch OCR durchsuchbar gemacht

- Durch das Scannen mit Acrobat Professional umwandelbar (ab Version 8)

Page 27: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Wege zur PDF/A

PDF/A aus PDF:

- Acrobat 8 Professional erledigt dies

- kann ausserdem prüfen ob zugesannte Datei wirklich PDF/A und nicht PDF ist

- weitere zahlreiche andere Software ist in der Lage zu konvertieren

Page 28: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Wer kann von PDF/A profitieren?

Emails als PDF/A um den Umstieg zwischen Mailkonten zu erleichtern

Online PDFs alternativ als PDF/A speichern Pläne, kartographische Werke,

Konstruktionszeichnungen, da sie oft über Jahrzehnte aufbewahrt werden müssen

Signierte digitale Verträge Sichere Farbe in Bilddokumenten Druckvorlagen Barrierefreie PDF-Dateien

Page 29: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Welche Dateiformate sind archivtauglich?

Page 30: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller
Page 31: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller
Page 32: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Was tun mit „alten“ Archivformaten?

Beliebt zur Archivierung waren bei Bildern bisher vor allem JPEG oder TIFF-G4

Man kann permanent oder temporär umwandeln:

permanent: besonders bei überschaubaren Datenmengen von Vorteil

temporär: bei vielen Daten sinnvoll, Daten können bei Aufruf „on the fly“ umgewandelt werden

Page 33: PDF und PDF/A Universität zu Köln Historisch Kulturwissenschaftliche Informationsverarbeitung WS 2011/2012 Digitale Langzeitarchivierung Dozent: M.Thaller

Quellen

Merz, Thomas; Drümmer, Olaf: Die PostScript- & PDF-Bibel, dpunkt Verlag, 2. Auflage, 2002.

http://de.wikipedia.org/wiki/Unicode http://www.callassoftware.com/callas/doku.php/

de:pdfakompakt:start http://unicode.org/ http://de.wikipedia.org/wiki/PDF/A http://www.einfach-fuer-alle.de/artikel/pdf-barrie

refrei-umsetzen/