21
Carsten Heiermann Geschäftsführer www.pdfa.org Was ist PDF/A-2? Carsten Heiermann Member of the Board, PDF/A Competence Center Geschäftsführer, LuraTech Europe GmbH © 2011 PDF/A Competence Center, www.pdfa.org

Was ist PDF/A-2? - doc-forum.de · Carsten Heiermann Materialien wie Fachartikel, Technotes, FAQ, etc. Geschäftsführer PDF/A Competence Center Verband zur Förderung des PDF/A Standards

Embed Size (px)

Citation preview

Page 1: Was ist PDF/A-2? - doc-forum.de · Carsten Heiermann Materialien wie Fachartikel, Technotes, FAQ, etc. Geschäftsführer PDF/A Competence Center Verband zur Förderung des PDF/A Standards

Carsten Heiermann Geschäftsführer

www.pdfa.org

Was ist PDF/A-2?

Carsten Heiermann Member of the Board, PDF/A Competence Center Geschäftsführer, LuraTech Europe GmbH

© 2011 PDF/A Competence Center, www.pdfa.org

Page 2: Was ist PDF/A-2? - doc-forum.de · Carsten Heiermann Materialien wie Fachartikel, Technotes, FAQ, etc. Geschäftsführer PDF/A Competence Center Verband zur Förderung des PDF/A Standards

Carsten Heiermann Geschäftsführer

www.pdfa.org

PDF/A Competence Center

Verband zur Förderung des PDF/A Standards

Neu in 2011: Erweiterung auf PDF Standards (VT, UA, usw.)

Über 115 Firmen-Mitglieder weltweit

Technik rund um PDF/A (TWG) Aktive Mitarbeit im ISO-Standard-Komitee (Class A Liasion)

Technische Arbeit (TechNotes) und Informationen

Veranstaltungen (MWG) Informations-Seminare

Messe-Auftritte weltweit

Webinare

Webseite pdfa.org als zentrale Anlaufstelle Informationen zu Fachfragen und Kontaktvermittlung

Materialien wie Fachartikel, Technotes, FAQ, etc.

Mailinglisten und Newsletter

2

Page 3: Was ist PDF/A-2? - doc-forum.de · Carsten Heiermann Materialien wie Fachartikel, Technotes, FAQ, etc. Geschäftsführer PDF/A Competence Center Verband zur Förderung des PDF/A Standards

Carsten Heiermann Geschäftsführer

www.pdfa.org

PDF/A – was ist das überhaupt?

Native, teils private Formate wie MS Word genügen nicht den Anforderungen bei der Langzeitarchivierung

PDF ist ein universell einsetzbares offenes Format für elektronische Dokumente

Mit veröffentlichter Norm, ISO 32.000

Viele Unternehmen, Behörden und Institutionen benötigen die uneingeschränkte und unveränderte Verfügbarkeit von PDF-Dokumenten über viele Technologie-Generationen

Aber PDF ist so mächtig und reich an Features, das Archivierungsbemühungen sich stark verkomplizieren

Anwender definieren PDF Sub-Dialekte?

3

Page 4: Was ist PDF/A-2? - doc-forum.de · Carsten Heiermann Materialien wie Fachartikel, Technotes, FAQ, etc. Geschäftsführer PDF/A Competence Center Verband zur Förderung des PDF/A Standards

Carsten Heiermann Geschäftsführer

www.pdfa.org

PDF/A – Zielsetzung der Standardisierung

Langzeitarchivierung – lange oder „für immer“

PDF/A soll sein:

Device-/ Software-/ Versions-unabhängig: Inhalte werden immer gleich dargestellt

Self Contained: eine PDF/A kompatible Datei beinhaltet alle Komponenten, die zur Darstellung nötig sind

Self Documented: eine PDF/A kompatible Datei beschreibt und dokumentiert sich selbst (Metadaten)

Transparent: Eine PDF/A kompatible Datei ist mit einfachen Mitteln analysierbar

Dateiformat zur statischen Erhaltung des Erscheinungsbildes – elektronisches Papier

-> fachspezifische Anwendungsrichtlinie!

4

Page 5: Was ist PDF/A-2? - doc-forum.de · Carsten Heiermann Materialien wie Fachartikel, Technotes, FAQ, etc. Geschäftsführer PDF/A Competence Center Verband zur Förderung des PDF/A Standards

Carsten Heiermann Geschäftsführer

www.pdfa.org

PDF/A – Vorteile des unabhängigen PDF

PDF/A kann Volltext, automatisches Indexing, neue Kompressionsschemata, Metadaten etc.

Vereinheitlichung des Archivformates

Scan in Farbe und scharz-weiss - Rastergrafik

Digitale Dokumente – Vektorgrafik

Reine Datenströme XML, AFP, 1403, PCL

! Damit Reduzierung auf einen Viewer möglich

! Damit Migrationsaufwände geringer

! Damit langfristige Lesbarkeit garantiert, länger als Technologieprognosen für Viewer reichen

5

Page 6: Was ist PDF/A-2? - doc-forum.de · Carsten Heiermann Materialien wie Fachartikel, Technotes, FAQ, etc. Geschäftsführer PDF/A Competence Center Verband zur Förderung des PDF/A Standards

Carsten Heiermann Geschäftsführer

www.pdfa.org

PDF/A für gescannte Dokumente

Bei schwarz/weissen Belegen

JBIG2 - ISO/IEC 14492

Positioniert sich „statt TIFF G4“

Eingebettet in PDF/A, verfügbar im Reader

FAX G4

60 kB

JBIG2/lossless

46 kB

JBIG2/lossy

29 kB

6

Page 7: Was ist PDF/A-2? - doc-forum.de · Carsten Heiermann Materialien wie Fachartikel, Technotes, FAQ, etc. Geschäftsführer PDF/A Competence Center Verband zur Förderung des PDF/A Standards

Carsten Heiermann Geschäftsführer

www.pdfa.org

Bei farbigen Belegen MRC- Kompression, Layertechnik

Positioniert sich „statt JPEG“

Eingebettet in PDF/A, verfügbar im Reader

TIFF

65 KB 180 KB 60 KB

FAX G4 MRC PDF/A JPEG/PDF

23.8 MB

PDF/A für gescannte Dokumente

7

Page 8: Was ist PDF/A-2? - doc-forum.de · Carsten Heiermann Materialien wie Fachartikel, Technotes, FAQ, etc. Geschäftsführer PDF/A Competence Center Verband zur Förderung des PDF/A Standards

Carsten Heiermann Geschäftsführer

www.pdfa.org

PDF/A für gescannte Dokumente

Funktionsweise MRC

Zerlegung des Dokuments in drei Ebenen, die voneinander unabhängig codiert werden.

8

Page 9: Was ist PDF/A-2? - doc-forum.de · Carsten Heiermann Materialien wie Fachartikel, Technotes, FAQ, etc. Geschäftsführer PDF/A Competence Center Verband zur Förderung des PDF/A Standards

Carsten Heiermann Geschäftsführer

www.pdfa.org

Erzeugung PDF/A aus gescannten Dokumenten Durchsuchbarkeit der Akten auf Dateiebene

z.B., elektronische Bibliothek, „nach dem Download“

z.B. Handbuch, Konstruktionsunterlage oder Bauakte im Archiv im Rahmen der Produkthaftung

z.B. Ein zum Kunden, Steuerberater, Rechtsanwalt gesendetes Dokument

9

Page 10: Was ist PDF/A-2? - doc-forum.de · Carsten Heiermann Materialien wie Fachartikel, Technotes, FAQ, etc. Geschäftsführer PDF/A Competence Center Verband zur Förderung des PDF/A Standards

Carsten Heiermann Geschäftsführer

www.pdfa.org

PDF/A-1 erster Standardsteil und Konformitätslevel

PDF/A-1 (ISO 19005-1, basiert auf PDF 1.4)

PDF/A-1b (dauerhaft identische Darstellung)

Reproduzierbares Archiv PDF

-> „b“ ist richtig für gescannte Dokumente!

PDF/A-1a (zusätzlich Semantik und Struktur)

Zusätzlich Zugang zu allen Inhalten (Text, Bild,…)

Volle Strukturinformation (Lesefluss, Reflow,…)

Voraussetzungen für barrierefreien Zugang (TAGS, Sprache festlegen, Bildbeschreibungen: Read Aloud)

-> Machbar für Office Dokumente etc.

10

Page 11: Was ist PDF/A-2? - doc-forum.de · Carsten Heiermann Materialien wie Fachartikel, Technotes, FAQ, etc. Geschäftsführer PDF/A Competence Center Verband zur Förderung des PDF/A Standards

Carsten Heiermann Geschäftsführer

www.pdfa.org

PDF/A-2 zweiter Standardsteil und Konformitätslevel

PDF/A-2 (ISO 19005-2, basiert auf ISO 32000-1 / PDF1.7)

PDF/A-2b (dauerhaft identische Darstellung)

Reproduzierbares Archiv PDF

-> „b“ grundsätzlich richtig für gescannte Dokumente

PDF/A-2u (zusätzlich Semantik (Unicode))

Zusätzlich voller Zugang zu Texten

Text suchen, kopieren, eindeutig extrahieren

-> „u“: Empfehlung für gescannte Dokumente mit OCR!

PDF/A-2a (zusätzlich Struktur)

Volle Strukturinformation (Lesefluss, Reflow,…)

Voll barrierefreier Zugang (TAGS, Sprache festlegen, Bildbeschreibungen: Read Aloud)

11

Page 12: Was ist PDF/A-2? - doc-forum.de · Carsten Heiermann Materialien wie Fachartikel, Technotes, FAQ, etc. Geschäftsführer PDF/A Competence Center Verband zur Förderung des PDF/A Standards

Carsten Heiermann Geschäftsführer

www.pdfa.org

Charakteristische Gemeinsamkeiten PDF/A-1 und PDF/A-2

Keine verknüpften Inhalte („selbsttragend“)

Schriften müssen eingebettet werden („selbsttragend“)

Schriftcodierung muss eindeutig sein

Keine alternativen Bilder (zwei Versionen „Drucker/Screen“)

Keine aktiven Inhalte (JavaScript)

Keine Verschlüsselung (Passwort zum Öffnen)

Keine Actions (Filme starten, volle Funktion für Formulare)

LZW Komprimierung weiterhin nicht zulässig

-> Es bleibt statisch / elektronisches Papier!

12

Page 13: Was ist PDF/A-2? - doc-forum.de · Carsten Heiermann Materialien wie Fachartikel, Technotes, FAQ, etc. Geschäftsführer PDF/A Competence Center Verband zur Förderung des PDF/A Standards

Carsten Heiermann Geschäftsführer

www.pdfa.org

Charakteristische Unterschiede PDF/A-1 und PDF/A-2

Features jetzt PDF 1.7/ISO 32.000-1 (mit Einschränkungen):

JPEG2000 Kompression jetzt zulässig

Layer / optionaler Content

Erweiterte (Text-)Annotationen gemäß ISO 32000

Portfolios (PDF/A Dateien in PDF/A Dateien)

PDF/A-2u – z.B. für OCR gelesene Zeichen

Seitengrößenlimit praktisch aufgehoben

Verschärfungen:

XMP Konformität jetzt für Metadaten einzelner Objekte

Lockerungen:

Transparenz jetzt zulässig

PDF Ebenen (schalten) jetzt zulässig

13

Page 14: Was ist PDF/A-2? - doc-forum.de · Carsten Heiermann Materialien wie Fachartikel, Technotes, FAQ, etc. Geschäftsführer PDF/A Competence Center Verband zur Förderung des PDF/A Standards

Carsten Heiermann Geschäftsführer

www.pdfa.org

Bei farbigen Belegen MRC- Kompression, Layertechnik

Positioniert sich „statt JPEG“

Eingebettet in PDF/A, verfügbar im Reader

14

PDF/A-2: JPEG2000

TIFF

65 kB 180 kB 60 kB

TIFF G4 PDF/A-1 JPEG

23,8 MB 55 kB

PDF/A-2

Page 15: Was ist PDF/A-2? - doc-forum.de · Carsten Heiermann Materialien wie Fachartikel, Technotes, FAQ, etc. Geschäftsführer PDF/A Competence Center Verband zur Förderung des PDF/A Standards

Carsten Heiermann Geschäftsführer

www.pdfa.org

PDF/A-2: Layer

MRC Layer gab es schon in PDF/A-1

Mit PDF/A-2 ist optionaler Content erlaubt

Die Layer können ein- und ausgeschaltet werden

15

Page 16: Was ist PDF/A-2? - doc-forum.de · Carsten Heiermann Materialien wie Fachartikel, Technotes, FAQ, etc. Geschäftsführer PDF/A Competence Center Verband zur Förderung des PDF/A Standards

Carsten Heiermann Geschäftsführer

www.pdfa.org

PDF/A-2: Unicode (PDF/A-2u)

PDF/A-2a für gescannte Dokumente falsch

PDF/A-2u: nützlicher Teil von „a“ für Scans

Bedeutung der Zeichen, zusätzlich zum Aussehen

Aber “Leserichtung” und “Tags” nicht gefordert

Semantik, Suche, sichere Textextraktion

16

B CID 2

B U+0042 CID 2 LATIN CAPITAL LETTER B

€ CID 1

€ U+20AC CID 1 EURO SIGN

Page 17: Was ist PDF/A-2? - doc-forum.de · Carsten Heiermann Materialien wie Fachartikel, Technotes, FAQ, etc. Geschäftsführer PDF/A Competence Center Verband zur Förderung des PDF/A Standards

Carsten Heiermann Geschäftsführer

www.pdfa.org

PDF/A-2: Portfolios

Generally useful, also for organizing scanned files

“PDF file-in-file”

Embedded files

PDF/A-2 compliant, if all embedded files are PDF/A

17

Page 18: Was ist PDF/A-2? - doc-forum.de · Carsten Heiermann Materialien wie Fachartikel, Technotes, FAQ, etc. Geschäftsführer PDF/A Competence Center Verband zur Förderung des PDF/A Standards

Carsten Heiermann Geschäftsführer

www.pdfa.org

PDF/A-2: höhere Seitengrößen

Größere Seiten

PDF/A-1 and PDF 1.4 max Seitengröße 5 x 5 m

PDF/A-2 und ISO 32.000-1 max 381 x 381 km (“User Units”)

Karten, Baupläne, …

Maßstabstreue Anzeige und Druck!

18

Page 19: Was ist PDF/A-2? - doc-forum.de · Carsten Heiermann Materialien wie Fachartikel, Technotes, FAQ, etc. Geschäftsführer PDF/A Competence Center Verband zur Förderung des PDF/A Standards

Carsten Heiermann Geschäftsführer

www.pdfa.org

Welchen Standardsteil nimmt man denn nun?

Immer den kleinsten möglichen Standardsteil

Kein JPEG2000 benötigt?

-> dann PDF/A-1

Beide Standardsteile sind gleichwertig verfügbar!

Immer den im Sinne des Standards erreichbaren und den niedrigsten benötigen Konformitätslevel

Gescannte Dokumente?

-> dann „b“. Oder „u“, wenn OCR genutzt wird.

Formal geht auch „a“, aber „ohne Inhalt“

-> Scan in Farbe mit LuraTech:

Empfehlung ab Verfügbarkeit PDF/A-2u, bis dahin PDF/A-1b

19

Page 20: Was ist PDF/A-2? - doc-forum.de · Carsten Heiermann Materialien wie Fachartikel, Technotes, FAQ, etc. Geschäftsführer PDF/A Competence Center Verband zur Förderung des PDF/A Standards

Carsten Heiermann Geschäftsführer

www.pdfa.org

PDF/A – findet längst in großem Umfang statt (nur hier zusammen mehrere Mrd. Seiten!)

APO-Bank (D)

West LB (D)

Bank Julius Baer (CH)

Sparkassen (D)

Swiss RE (CH)

Techniker Krankenkasse (D)

DAK Versicherung (D)

Universa Versicherungen (D)

AOK (D)

Southern Nuclear (USA)

RWE Energie (D)

Siemens (D)

Vattenfall (D)

Airbus (D)

Blohm & Voss (D)

Bosch Rexroth (D)

International Labor Organization (CH)

British Library (UK)

Harvard Library (USA)

Het Utrechts Archief (NL)

Internet Archive (USA)

20

Page 21: Was ist PDF/A-2? - doc-forum.de · Carsten Heiermann Materialien wie Fachartikel, Technotes, FAQ, etc. Geschäftsführer PDF/A Competence Center Verband zur Förderung des PDF/A Standards

Carsten Heiermann Geschäftsführer

www.pdfa.org

Was ist PDF/A-2?

Vielen Dank für Ihre Aufmerksamkeit!

Mehr Information?

[email protected]