14
Neue Wege für Metadaten: Scanning, Inputmanagement, Data Capture BITKOM Arbeitskreis ECM Standards, Carsten Heiermann, LuraTech PDF/A-3 Stuttgart, 25.10.2012

Scanning, Inputmanagement, Data Capture – Neue Wege für Metadaten mit PDF/A-3 | Luratech Europe GmbH |ECM Solutions Park DMS Expo 2012

Embed Size (px)

DESCRIPTION

Vortrag von Luratech Europe GmbH auf dem BITKOM ECM Solutions Park zur DMS Expo 2012. Referent: Carsten Heiermann, Geschäftsführer, Luratech Europe GmbH, Berlin

Citation preview

Page 1: Scanning, Inputmanagement, Data Capture – Neue Wege für Metadaten mit PDF/A-3  | Luratech Europe GmbH  |ECM Solutions Park DMS Expo 2012

Neue Wege für Metadaten: Scanning, Inputmanagement, Data Capture BITKOM Arbeitskreis ECM Standards, Carsten Heiermann, LuraTech

PDF/A-3

Stuttgart, 25.10.2012

Page 2: Scanning, Inputmanagement, Data Capture – Neue Wege für Metadaten mit PDF/A-3  | Luratech Europe GmbH  |ECM Solutions Park DMS Expo 2012

Thema:

Gescannte Dokumente in PDF/A

Begleitende Daten zu Scans: Metadaten, „Dublin Core“ bis XML, CSV

Metadaten schon immer Teil von PDF/A

„Self documenting“, Metadaten beschreiben den Kontext

Allerdings „relativ kompliziert“ mit XMP, XMP Extension Schema

Adobe Reader zeigt keine Extensions an

User sieht „XML-Strukturen“

Metadaten und PDF/A

Schon immer gelöst, aber nicht intuitiv oder interoperabel

2

Gescannte Dokumente und Metadaten

Page 3: Scanning, Inputmanagement, Data Capture – Neue Wege für Metadaten mit PDF/A-3  | Luratech Europe GmbH  |ECM Solutions Park DMS Expo 2012

Schon seit dem ersten Normteil gut gelöst

Stapelverarbeitung / Massenkonvertierung einfach machbar

Dunkelverarbeitung möglich durch sehr vorhersagbare Ergebnisse

Wenige Konvertierungsrisiken, keine 100% Kontrolle nötig

Schon immer mit bekannten Optionen

Voll interoperable Durchsuchbarkeit

Kompressionsschemata wie JBIG2 oder MRC-/Layer-Technik verfügbar

-> War und ist oft der erste Schritt mit PDF/A

-> Am schnellsten verbreitetes Anwendungsfeld

3

Gescannte Dokumente in PDF/A

Page 4: Scanning, Inputmanagement, Data Capture – Neue Wege für Metadaten mit PDF/A-3  | Luratech Europe GmbH  |ECM Solutions Park DMS Expo 2012

MRC-/Layer-Kompression in PDF/A

Layer PDF/A-1 PDF/A-2, 3

Text Color Foreground

JPEG JPEG JPEG2000

Text b/w Mask

TIFF G4 JBIG2

TIFF G4 JBIG2

Color Background

JPEG JPEG JPEG2000

Page 5: Scanning, Inputmanagement, Data Capture – Neue Wege für Metadaten mit PDF/A-3  | Luratech Europe GmbH  |ECM Solutions Park DMS Expo 2012

5

MRC-/Layer-Kompression in PDF/A

TIFF

65 kB 180 kB 60 kB

TIFF G4 PDF/A-1 JPEG

23,8 MB 55 kB

PDF/A-2

Page 6: Scanning, Inputmanagement, Data Capture – Neue Wege für Metadaten mit PDF/A-3  | Luratech Europe GmbH  |ECM Solutions Park DMS Expo 2012

erst mal

Originaldatei (Scan, TIFF)

PDF/A-1 mit einfachem Image Embedding

PDF/A-1 mit MRC-Kompression

PDF/A-2 mit MRC-Kompression

und

Volltext / Durchsuchbarkeit: OCR

und

XMP-Metadaten-Datei (notepad.exe)

XMP-Metadaten in PDF/A eingebettet

6

Wie sieht das praktisch aus?

Page 7: Scanning, Inputmanagement, Data Capture – Neue Wege für Metadaten mit PDF/A-3  | Luratech Europe GmbH  |ECM Solutions Park DMS Expo 2012

PDF/A-3 mit einem neuen Feature: Einbettung beliebiger Dateiformate

Ein oder mehrere

Mit Bezug auf Datei, Seite, Objekt in der PDF-Datei (z.B. „ist Quelle von“)

Metadaten im Inputmanagement, Data Capture, Scanning?

CSV-Dateien

XML-Dateien

Excel-Dateien

….

7

Metadaten in PDF/A-3

Page 8: Scanning, Inputmanagement, Data Capture – Neue Wege für Metadaten mit PDF/A-3  | Luratech Europe GmbH  |ECM Solutions Park DMS Expo 2012

Benötigt zum

z.B. Datenaustausch Scandienstleister (<)-> Kunde

z.B. Import Daten in DMS / ERP

z.B. als eigener, selbsttragender Index

z.B. zum Datenaustausch Kunde <-> Lieferant

-> Bisher:

Unverbunden, stand-alone, parallel zu den Images

-> Jetzt:

Images und Daten korrekt zugeordnet und untrennbar verbunden

Fehlervermeidend in der Image Datei eingebettet

8

Metadaten in PDF/A-3

Page 9: Scanning, Inputmanagement, Data Capture – Neue Wege für Metadaten mit PDF/A-3  | Luratech Europe GmbH  |ECM Solutions Park DMS Expo 2012

Dienstleister scannt Rechnungen

Und bettet die Prüfdaten gleich in die gescannte Rechnung ein

Umfragerückläufer scannen und Daten erfassen

Und die Images samt der Auswertung in Excel als eine Datei

Zeichnungen scannen und Zeichnungskopf erfassen

Und Zeichnungskopfdaten als Excel o.ä. einbetten für „Copy&Paste“

Bauakten samt Daten

Personalakten samt Daten

-> Allgemein: „Images“ plus leicht lesbare / weiter verwertbare „Metadaten“

-> Sicher weit mehr Anwendungsfälle, als vorab ausgedacht!

9

Mögliche Use Cases

Page 10: Scanning, Inputmanagement, Data Capture – Neue Wege für Metadaten mit PDF/A-3  | Luratech Europe GmbH  |ECM Solutions Park DMS Expo 2012

Dokumente werden viel „verkehrsfähiger“

Funktionieren auch außerhalb des DMS-/ECM-Systems gut

Auch für gescannte Dokumente relevant, fest verknüpft:

„Arbeitsdaten“, (wieder) im Dokumenten-Lebenszyklus

Passende archivierbare „Rendition“ der Daten

Gescannte Dokumente in PDF/A-3:

Darstellung gesichert – PDF/A

Kompression – z.B. MRC

Volltext – OCR

Kontext – Verarbeitbare Metadaten eingebettet

10

Gescannte Dokumente und PDF/A-3

Page 11: Scanning, Inputmanagement, Data Capture – Neue Wege für Metadaten mit PDF/A-3  | Luratech Europe GmbH  |ECM Solutions Park DMS Expo 2012

erst noch mal PDF/A-2 konform:

Angehängte Dateien (nur PDF/A-Dateien einbetten!)

Dann PDF/A-3 konform:

PDF/A-3-Datei mit angehängtem Excel

11

Wie sieht das praktisch aus?

Page 12: Scanning, Inputmanagement, Data Capture – Neue Wege für Metadaten mit PDF/A-3  | Luratech Europe GmbH  |ECM Solutions Park DMS Expo 2012

PDF/A-3 jenseits gescannter Dokumente, z.B. Rechnungen

AK Faktura Base im Bitkom, BMWi, AVW

FeRD – Forum elektronische Rechnung Deutschland

PDF/A-3 mit eingebetteten XML Rechnungsdaten

Bemühungen Richtung Norm (DIN)

Z.B. Dokumente im Lebenszyklus

Wann Archiv-Derivat erzeugen? Wie weiterentwickeln?

Hybride Archivierung, mit PDF/A-3 in einer Datei abzubilden

-> Dokumentenbasierte Prozesse prüfen, Optimierungspotential!

12

Über den Tellerrand geschaut

Page 13: Scanning, Inputmanagement, Data Capture – Neue Wege für Metadaten mit PDF/A-3  | Luratech Europe GmbH  |ECM Solutions Park DMS Expo 2012

www.ecm-navigator.de www.bitkom.org/ecm

Vielen Dank für Ihre Aufmerksamkeit

Carsten Heiermann Geschäftsführer

LuraTech Europe GmbH 0171/3377023 [email protected]

www.luratech.com

Page 14: Scanning, Inputmanagement, Data Capture – Neue Wege für Metadaten mit PDF/A-3  | Luratech Europe GmbH  |ECM Solutions Park DMS Expo 2012

http://ecm-navigator.de/termine/scanning-inputmanagement-data-capture-neue-wege-fuer-metadaten-mit-pdfa-3

1

Das Video zum Vortrag sowie weitere Informationen gibt es unter:

Vortrag auf dem Forum des BITKOM ECM Solutions Park zur DMS Expo 2012 25. Oktober 2012, 12:00-12:30 Uhr