Upload
nguyendan
View
214
Download
0
Embed Size (px)
Citation preview
Carsten Heiermann Geschäftsführer
www.pdfa.org
Was ist PDF/A-2?
Carsten Heiermann Member of the Board, PDF/A Competence Center Geschäftsführer, LuraTech Europe GmbH
© 2011 PDF/A Competence Center, www.pdfa.org
Carsten Heiermann Geschäftsführer
www.pdfa.org
PDF/A Competence Center
Verband zur Förderung des PDF/A Standards
Neu in 2011: Erweiterung auf PDF Standards (VT, UA, usw.)
Über 115 Firmen-Mitglieder weltweit
Technik rund um PDF/A (TWG) Aktive Mitarbeit im ISO-Standard-Komitee (Class A Liasion)
Technische Arbeit (TechNotes) und Informationen
Veranstaltungen (MWG) Informations-Seminare
Messe-Auftritte weltweit
Webinare
Webseite pdfa.org als zentrale Anlaufstelle Informationen zu Fachfragen und Kontaktvermittlung
Materialien wie Fachartikel, Technotes, FAQ, etc.
Mailinglisten und Newsletter
2
Carsten Heiermann Geschäftsführer
www.pdfa.org
PDF/A – was ist das überhaupt?
Native, teils private Formate wie MS Word genügen nicht den Anforderungen bei der Langzeitarchivierung
PDF ist ein universell einsetzbares offenes Format für elektronische Dokumente
Mit veröffentlichter Norm, ISO 32.000
Viele Unternehmen, Behörden und Institutionen benötigen die uneingeschränkte und unveränderte Verfügbarkeit von PDF-Dokumenten über viele Technologie-Generationen
Aber PDF ist so mächtig und reich an Features, das Archivierungsbemühungen sich stark verkomplizieren
Anwender definieren PDF Sub-Dialekte?
3
Carsten Heiermann Geschäftsführer
www.pdfa.org
PDF/A – Zielsetzung der Standardisierung
Langzeitarchivierung – lange oder „für immer“
PDF/A soll sein:
Device-/ Software-/ Versions-unabhängig: Inhalte werden immer gleich dargestellt
Self Contained: eine PDF/A kompatible Datei beinhaltet alle Komponenten, die zur Darstellung nötig sind
Self Documented: eine PDF/A kompatible Datei beschreibt und dokumentiert sich selbst (Metadaten)
Transparent: Eine PDF/A kompatible Datei ist mit einfachen Mitteln analysierbar
Dateiformat zur statischen Erhaltung des Erscheinungsbildes – elektronisches Papier
-> fachspezifische Anwendungsrichtlinie!
4
Carsten Heiermann Geschäftsführer
www.pdfa.org
PDF/A – Vorteile des unabhängigen PDF
PDF/A kann Volltext, automatisches Indexing, neue Kompressionsschemata, Metadaten etc.
Vereinheitlichung des Archivformates
Scan in Farbe und scharz-weiss - Rastergrafik
Digitale Dokumente – Vektorgrafik
Reine Datenströme XML, AFP, 1403, PCL
! Damit Reduzierung auf einen Viewer möglich
! Damit Migrationsaufwände geringer
! Damit langfristige Lesbarkeit garantiert, länger als Technologieprognosen für Viewer reichen
5
Carsten Heiermann Geschäftsführer
www.pdfa.org
PDF/A für gescannte Dokumente
Bei schwarz/weissen Belegen
JBIG2 - ISO/IEC 14492
Positioniert sich „statt TIFF G4“
Eingebettet in PDF/A, verfügbar im Reader
FAX G4
60 kB
JBIG2/lossless
46 kB
JBIG2/lossy
29 kB
6
Carsten Heiermann Geschäftsführer
www.pdfa.org
Bei farbigen Belegen MRC- Kompression, Layertechnik
Positioniert sich „statt JPEG“
Eingebettet in PDF/A, verfügbar im Reader
TIFF
65 KB 180 KB 60 KB
FAX G4 MRC PDF/A JPEG/PDF
23.8 MB
PDF/A für gescannte Dokumente
7
Carsten Heiermann Geschäftsführer
www.pdfa.org
PDF/A für gescannte Dokumente
Funktionsweise MRC
Zerlegung des Dokuments in drei Ebenen, die voneinander unabhängig codiert werden.
8
Carsten Heiermann Geschäftsführer
www.pdfa.org
Erzeugung PDF/A aus gescannten Dokumenten Durchsuchbarkeit der Akten auf Dateiebene
z.B., elektronische Bibliothek, „nach dem Download“
z.B. Handbuch, Konstruktionsunterlage oder Bauakte im Archiv im Rahmen der Produkthaftung
z.B. Ein zum Kunden, Steuerberater, Rechtsanwalt gesendetes Dokument
9
Carsten Heiermann Geschäftsführer
www.pdfa.org
PDF/A-1 erster Standardsteil und Konformitätslevel
PDF/A-1 (ISO 19005-1, basiert auf PDF 1.4)
PDF/A-1b (dauerhaft identische Darstellung)
Reproduzierbares Archiv PDF
-> „b“ ist richtig für gescannte Dokumente!
PDF/A-1a (zusätzlich Semantik und Struktur)
Zusätzlich Zugang zu allen Inhalten (Text, Bild,…)
Volle Strukturinformation (Lesefluss, Reflow,…)
Voraussetzungen für barrierefreien Zugang (TAGS, Sprache festlegen, Bildbeschreibungen: Read Aloud)
-> Machbar für Office Dokumente etc.
10
Carsten Heiermann Geschäftsführer
www.pdfa.org
PDF/A-2 zweiter Standardsteil und Konformitätslevel
PDF/A-2 (ISO 19005-2, basiert auf ISO 32000-1 / PDF1.7)
PDF/A-2b (dauerhaft identische Darstellung)
Reproduzierbares Archiv PDF
-> „b“ grundsätzlich richtig für gescannte Dokumente
PDF/A-2u (zusätzlich Semantik (Unicode))
Zusätzlich voller Zugang zu Texten
Text suchen, kopieren, eindeutig extrahieren
-> „u“: Empfehlung für gescannte Dokumente mit OCR!
PDF/A-2a (zusätzlich Struktur)
Volle Strukturinformation (Lesefluss, Reflow,…)
Voll barrierefreier Zugang (TAGS, Sprache festlegen, Bildbeschreibungen: Read Aloud)
11
Carsten Heiermann Geschäftsführer
www.pdfa.org
Charakteristische Gemeinsamkeiten PDF/A-1 und PDF/A-2
Keine verknüpften Inhalte („selbsttragend“)
Schriften müssen eingebettet werden („selbsttragend“)
Schriftcodierung muss eindeutig sein
Keine alternativen Bilder (zwei Versionen „Drucker/Screen“)
Keine aktiven Inhalte (JavaScript)
Keine Verschlüsselung (Passwort zum Öffnen)
Keine Actions (Filme starten, volle Funktion für Formulare)
LZW Komprimierung weiterhin nicht zulässig
-> Es bleibt statisch / elektronisches Papier!
12
Carsten Heiermann Geschäftsführer
www.pdfa.org
Charakteristische Unterschiede PDF/A-1 und PDF/A-2
Features jetzt PDF 1.7/ISO 32.000-1 (mit Einschränkungen):
JPEG2000 Kompression jetzt zulässig
Layer / optionaler Content
Erweiterte (Text-)Annotationen gemäß ISO 32000
Portfolios (PDF/A Dateien in PDF/A Dateien)
PDF/A-2u – z.B. für OCR gelesene Zeichen
Seitengrößenlimit praktisch aufgehoben
Verschärfungen:
XMP Konformität jetzt für Metadaten einzelner Objekte
Lockerungen:
Transparenz jetzt zulässig
PDF Ebenen (schalten) jetzt zulässig
13
Carsten Heiermann Geschäftsführer
www.pdfa.org
Bei farbigen Belegen MRC- Kompression, Layertechnik
Positioniert sich „statt JPEG“
Eingebettet in PDF/A, verfügbar im Reader
14
PDF/A-2: JPEG2000
TIFF
65 kB 180 kB 60 kB
TIFF G4 PDF/A-1 JPEG
23,8 MB 55 kB
PDF/A-2
Carsten Heiermann Geschäftsführer
www.pdfa.org
PDF/A-2: Layer
MRC Layer gab es schon in PDF/A-1
Mit PDF/A-2 ist optionaler Content erlaubt
Die Layer können ein- und ausgeschaltet werden
15
Carsten Heiermann Geschäftsführer
www.pdfa.org
PDF/A-2: Unicode (PDF/A-2u)
PDF/A-2a für gescannte Dokumente falsch
PDF/A-2u: nützlicher Teil von „a“ für Scans
Bedeutung der Zeichen, zusätzlich zum Aussehen
Aber “Leserichtung” und “Tags” nicht gefordert
Semantik, Suche, sichere Textextraktion
16
B CID 2
B U+0042 CID 2 LATIN CAPITAL LETTER B
€ CID 1
€ U+20AC CID 1 EURO SIGN
Carsten Heiermann Geschäftsführer
www.pdfa.org
PDF/A-2: Portfolios
Generally useful, also for organizing scanned files
“PDF file-in-file”
Embedded files
PDF/A-2 compliant, if all embedded files are PDF/A
17
Carsten Heiermann Geschäftsführer
www.pdfa.org
PDF/A-2: höhere Seitengrößen
Größere Seiten
PDF/A-1 and PDF 1.4 max Seitengröße 5 x 5 m
PDF/A-2 und ISO 32.000-1 max 381 x 381 km (“User Units”)
Karten, Baupläne, …
Maßstabstreue Anzeige und Druck!
18
Carsten Heiermann Geschäftsführer
www.pdfa.org
Welchen Standardsteil nimmt man denn nun?
Immer den kleinsten möglichen Standardsteil
Kein JPEG2000 benötigt?
-> dann PDF/A-1
Beide Standardsteile sind gleichwertig verfügbar!
Immer den im Sinne des Standards erreichbaren und den niedrigsten benötigen Konformitätslevel
Gescannte Dokumente?
-> dann „b“. Oder „u“, wenn OCR genutzt wird.
Formal geht auch „a“, aber „ohne Inhalt“
-> Scan in Farbe mit LuraTech:
Empfehlung ab Verfügbarkeit PDF/A-2u, bis dahin PDF/A-1b
19
Carsten Heiermann Geschäftsführer
www.pdfa.org
PDF/A – findet längst in großem Umfang statt (nur hier zusammen mehrere Mrd. Seiten!)
APO-Bank (D)
West LB (D)
Bank Julius Baer (CH)
Sparkassen (D)
Swiss RE (CH)
Techniker Krankenkasse (D)
DAK Versicherung (D)
Universa Versicherungen (D)
AOK (D)
Southern Nuclear (USA)
RWE Energie (D)
Siemens (D)
Vattenfall (D)
Airbus (D)
Blohm & Voss (D)
Bosch Rexroth (D)
International Labor Organization (CH)
British Library (UK)
Harvard Library (USA)
Het Utrechts Archief (NL)
Internet Archive (USA)
20
Carsten Heiermann Geschäftsführer
www.pdfa.org
Was ist PDF/A-2?
Vielen Dank für Ihre Aufmerksamkeit!
Mehr Information?