3

WISSEN | DOKUMENTENMANAGEMENT · das Verarbeiten der Dokumen-te erleichtern können. Denn ... men der ausstellenden Firma. XMP basiert auf offenen Stan-dards und bettet die vom World

  • Upload
    vobao

  • View
    218

  • Download
    0

Embed Size (px)

Citation preview

Page 1: WISSEN | DOKUMENTENMANAGEMENT · das Verarbeiten der Dokumen-te erleichtern können. Denn ... men der ausstellenden Firma. XMP basiert auf offenen Stan-dards und bettet die vom World
Page 2: WISSEN | DOKUMENTENMANAGEMENT · das Verarbeiten der Dokumen-te erleichtern können. Denn ... men der ausstellenden Firma. XMP basiert auf offenen Stan-dards und bettet die vom World

links 110

Unternehmen verarbei tenRechnungen, Schadens -meldungen, Verträge,

Kündigungsbestätigungen undandere Schriftstücke zuneh-mend digital. Input- und Output-Management müssen in folgedessen zusammenwach-sen. Grundlage für ein weit -gehend automatisiertes Do -kumentenmanagement sindMe tadaten, externe Informa-tionen über ein Dokument.Das können die Art oder derTyp sein, das Ausstellungsda-tum, der Absender, der Bezugzu anderen Vorgängen undÄhnliches. Ein typisches Sze-nario im Input-Management:

Die Anwender scannen Do -kumente, lesen ihren Inhalt per OCR (Optical CharacterRecog nition) aus und legen siein einem Archiv oder DMS ab.Gleichzeitig müssen sie mittelsBarcodes, Regeln und Heuris-tiken die zugehörigen Metada-ten ermitteln und aufbewahren.Nur so lässt sich der Schrift-verkehr korrekt zuordnen, ka-tegorisieren und jederzeit wie-der abrufen. Ohne aufwendigemanuelle Kontrollen geht esderzeit meist noch nicht.

Es existieren zwei Grund-varianten des Dokumentenaus-tausches: klassisch in Papier-form und digital in einem

XML- oder EDIFACT-Format.Aktuelle Standards wie ZUG-FeRD sollen beide Welten ver-einen [1]. Das seltsame Akro-nym steht für „Zentrale UserGuidelines des Forums elek-tronische Rechnung Deutsch-land“. ZUGFeRD basiert aufPDF/A-3 und schreibt vor,dass die XML-Rohdaten, aufdenen das Dokument beruht,als Attachment in die PDF-Datei eingebettet werden (sie-he „Alle Links“). Man will somanuelle Eingriffe in die au-tomatische Verarbeitungskettevermeiden. Die Anwenderkönnen solch ein Dokumentlesen und drucken, der Com-

puter kann sich die Rohdatenherausziehen und ohne Infor-mationsverlust weiterverar-beiten.

Programmierte InformationsverlusteVielerorts arbeitet das Output-Management jedoch immernoch druckorientiert, dasheißt, die Systeme erzeugenprimär Druckströme. Es gehtalso lediglich um die visuelleRepräsentation der Dokumen-te, die Steuerung der Druckerund eventuell der Verpa-ckungsmaschinen. Die ausdem Druckdatenstrom extra-hierten Schriftstücke sind qua-si Abfallprodukte, die man inPDF konvertiert und an denEmpfänger übermittelt – derelektronische Austausch wirdsozusagen nachgerüstet. Indiesem Schritt können bereitsviele Informationen verlorengehen. Auch wenn ein Menschauf den ersten Blick sieht, dasses sich beispielsweise um eineRechnung handelt, ist derRechner hier zunächst blind.

Er muss daher in den Meta-daten der Datei nachsehen, obim Feld für den Dokumenten-typ ein aussagekräftiger Wertsteht. Oder er extrahiert dengesamten Text und sucht nachder Zeichenkette „Rechnung“.Auch wenn er sie findet, könn-te es sich trotzdem um eineMahnung handeln, die sich aufeine Rechnung bezieht. Man-che Anwendungen verankerndie einzelnen Seiten sogar alsBitmaps (Bilder) in das PDF,vielleicht um vermeintlichSpeicherplatz zu sparen. Indiesem Fall kann der Empfän-ger nicht einmal mehr denFließtext herausfiltern undmuss wie beim Papierdoku-ment zum OCR-Werkzeuggreifen. Es entsteht ein Me-dienbruch, weil trotz elektroni-schem Transfer zu wenig Me-tadaten zur Verfügung stehen.

Wer den unstandardisiertenDokumentenaustausch stärkerautomatisieren will, muss sichmit Adobes Extensible Meta-data Platform, kurz XMP, be-fassen (siehe Kasten „Stan-

110 iX 11/2014

WISSEN | DOKUMENTENMANAGEMENT

XMP: Einbetten von Metadaten in Dokumente

AngeheftetJeremias Märki, Jörg Palmer

Ohne aussagekräftige Metadaten lässt sich die Dokumentenverarbei-tung nicht durch gängig automatisieren. Das Format XMP spielt hier eine wichtige Rolle, indem es Regeln zum Umgang mit beschreibendenInformationen festlegt.

ix.1114.110-111.neu3 14.10.14 11:02 Seite 110

© Copyright by Heise Zeitschriften Verlag

Page 3: WISSEN | DOKUMENTENMANAGEMENT · das Verarbeiten der Dokumen-te erleichtern können. Denn ... men der ausstellenden Firma. XMP basiert auf offenen Stan-dards und bettet die vom World

111 rechts

dards und Normen“). DieseSpezifikation liefert Richtlini-en zum Einbetten von Meta -daten in Dokumente. Zwardürften PDFs der häufigsteAnwendungsfall sein, aberauch PostScript-, JPG-, PNG-,TIFF-, HTML- und AFP-Da-teien lassen sich mit Kontext-informationen anreichern. Eingroßer Vorteil von XMP-Pa-keten, die nichts anderes sindals XML-Dateien: Sie enthal-ten einen eindeutigen Markerund werden praktisch immerim Klartext abgelegt. So kannein Programm, auch ohne dasDateiformat zu kennen, dieMetadaten auslesen. Wegender Klartextform sollte manVorsicht walten lassen und kei-ne potenziell sen siblen Datenwie Versichertennummern hi-neinschreiben (siehe Listing).

XMP definiert einen Satzuniverseller Kerneigenschaftenwie Titel, Erzeuger, Thema,Datum, Identifikator, Spracheund Beschreibung. Dafür greiftdie Spezifikation zurück auf

vorhandene Methoden undStandards zur Beschreibungvon Metadaten (Ontologien)wie Dublin Core, IPTC undExif (siehe Kasten „Standardsund Normen“). Darüber hinauskann der Anwender indivi -duelle Merkmale definieren,zum Beispiel Kunden- undPolice nnummer, Gültigkeit ei-nes Dokuments, Fälligkeit ei-ner Rechnung oder Name/Ver-sion einer Dokumentvorlage.

In der Praxis noch nicht verbreitetAnwendung findet XMP der-zeit vor allem bei PDF/A. DerISO-Standard enthält Hinweisezum Definieren und Hinterle-gen von Metadaten. Beispiels-weise macht er das XMP- Paket für PDF/A-Dokumenteobligatorisch und rät, eineneindeutigen Identifikator zubenutzen. Weiterhin empfiehltPDF/A, Herkunftsinformatio-nen durch den gesamten Do-

kumenten-Workflow mitzu-führen. Alle individuellen Ei-genschaften muss der Benutzerbei PDF/A-Dateien in einemeingebetteten Schema be-schreiben. Dieses Prozederedürfte ein Grund dafür sein,dass XMP sowie der ausgiebi-ge Einsatz des Standards in derPraxis viel zu kurz kommen.

Dabei ist die Sache wenigerkompliziert, als es den An-schein hat. ZUGFeRD setzthier einen Akzent und ermutigtdie Anwender, XMP-Erweite-rungsschemata zu verwenden.Die schon angesprochene Ver-schmelzung von Eingangs-und Ausgangsverarbeitung alsFolge des elektronischen Do-kumentenaustausches verlangtallerdings einige technischeund organisatorische Änderun-gen. Bisher ging es im Output-Management meist nur darum,die eigenen Belege effizientund zuverlässig zu produzierenund zu senden. Inzwischenmuss sich der Versender eben-so Gedanken darüber machen,welche Daten dem Empfängerdas Verarbeiten der Dokumen-te erleichtern können. Dennbei jedem Medienbruch gehenInformationen verloren, die imNachgang mühsam wiederher-gestellt werden müssen.

Schon ein minimales Da-tenset kann das elektronischeDokumentenmanagement er-heblich voranbringen. Ein paarsinnvolle Werte – etwa eineindeutiger Identifikator fürjeden Beleg oder ein In dikatordes Dokumententyps (Rech-

nung, Mahnung et cetera) –helfen schon, das Input-Ma-nagement zu vereinfachen.Allerdings sollte man die ver-fügbaren Felder nicht fürsachfremde Zwecke miss-brauchen, was leider oft vor-kommt. Der Einsatz vonXMP ist jedenfalls ein wichti-ger Schritt auf dem Weg zurdurchgängigen Automatisie-rung auf der Eingangs- sowieauf der Ausgangsseite. Natür-lich könnte man auch ohneXMP Dokumente mit Meta-daten versehen, allerdings nurin abgespeckter Form undminderer Qualität. Für PDF-Dokumente gibt es zu XMPderzeit keine Alternative. (jd)

Jeremias Märki

ist selbstständiger Software-entwickler und IT-Berater in Luzern (www.jeremias- maerki.ch).

Jörg Palmer

ist Chief Development Officer bei der Compart AGin Böblingen.

Literatur

[1] Vadim Bauer; Standards;Fakturierungsautomat;ZUGFeRD – ein Datenfor-mat für den elektronischenRechnungsaustausch; iX 8/2014, S. 98

iX 11/2014 111

<?xpacket begin="<U+FEFF>" id="W5M0MpCehiHzreSzNTczkc9d"?><x:xmpmeta xmlns:x="adobe:ns:meta/"><rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"><rdf:Description xmlns:dc="http://purl.org/dc/elements/1.1/"

rdf:about=""><dc:language>de</dc:language><dc:title>Whitepaper: XMP</dc:title><dc:creator>Compart AG</dc:creator><dc:type>Whitepaper</dc:type><dc:identifier>83db4e23-e840-4b8d-b93f-c3b96cc54ae7</

dc:identifier><dc:subject><rdf:Bag><rdf:li>XMP</rdf:li><rdf:li>Metadaten</rdf:li>

</rdf:Bag></dc:subject><dc:date>2013-12-11T15:50:15+02:00</dc:date>

</rdf:Description><rdf:Description xmlns:pdf="http://ns.adobe.com/pdf/1.3/"

rdf:about=""><pdf:PDFVersion>1.4</pdf:PDFVersion>

</rdf:Description><rdf:Description xmlns:xmp="http://ns.adobe.com/xap/1.0/"

rdf:about=""><xmp:CreateDate>2013-12-11T15:50:15+02:00</xmp:CreateDate><xmp:MetadataDate>2013-12-11T15:50:15+02:00</xmp:MetadataDate>

</rdf:Description></rdf:RDF>

</x:xmpmeta><?xpacket end="r"?>

Listing: Beispielhaftes XMP-Paket

Standards und NormenXMP (Extensible Metadata Plat-form) ist ein Standard zum Ein-betten von Metadaten in Datei-en. Adobe hat ihn im Jahr 2001vorgestellt und erstmals in denAcrobat Readerˇ5 integriert. ImFebruar 2012 wurde der Kern derSpezifikation als ISO-Standard16684-1 veröffentlicht. Alle Ado-be-Produkte sowie verschiedeneAnbieter von Redaktionssyste-men und anderer Software nut-zen XMP. Das Format definiertunter anderem die Sprache desDokuments, das Erstellungsda-tum, den Verfasser und den Na-men der ausstellenden Firma.

XMP basiert auf offenen Stan-dards und bettet die vom WorldWide Web Consortium (W3C)entwickelte formale SpracheRDF (Resource Description Fra-mework) in Binärdaten ein. Da-mit lassen sich die Metadaten in verschiedenen Applikationennach einem einheitlichen Sche-ma so integrieren, dass andereProgramme die Dateien weiter-hin lesen können. Mit RDF wer-den Ressourcen (Objekte, Posi-tionen, Personen) sowie ihr

Verhältnis zueinander beschrie-ben. Ursprünglich hatte dasW3C die Sprache zum Definie-ren von Metadaten konzipiert.Mittlerweile gilt RDF als eingrundlegender Baustein des „se-mantischen Webs“.

Die Technik ähnelt den Metho-den zum Modellieren von UML-Klassendiagrammen und En ti ty-Relationship-Modellen. Häu figbenutzte Aussagen über ein Ob-jekt fasst sie zu sogenanntenOntologien zusammen, die sichüber einen Namensraum (URI,Universal Resource Identifier)identifizieren lassen. Dies ermög-licht Programmen, Daten für denMenschen sinnvoll darzustellen.Eine Ontologie bezeichnet eineSammlung von Begriffen, mit de-nen man Metadaten beschreibt,etwa Titel, Autor, Thema, Datum,Identifikator, Sprache, Ort einerAufnahme und Kameratyp (beiFotos). Gängige Ontologien sindetwa Dublin Core (Bibliothekswe-sen), IPTC (International PressTe lecommunica tions Council)und Exif (Exchangeable ImageFile Format).

Alle Links: www.ix.de/ix1411110 ⬛

ix.1114.110-111.neu3 14.10.14 11:02 Seite 111

© Copyright by Heise Zeitschriften Verlag