2
PDF-Formate Geschäftsprozesse 44 | BIT 6 –2014 PDF Tools: Hohe Bildqualität bei geringer Datenmenge Vom Scan zur Information Mit einem zentralen Scan-Server-Dienst lassen sich große Mengen von Papierdokumenten elegant in elektronische Dokumente umwandeln, für die Weiterverarbeitung auf- bereiten und im Langzeitarchiv ablegen. Ein Scan-Server, wie ihn die PDF Tools AG mit dem „3-Heights Scan to PDF Server“ anbietet, wandelt gescannte Dateien und dazu- gehörige Indexdateien in das standardisierte Dateiformat PDF/A um. Papier hat im Zeitalter von E-Rech- nung, Online-Schalter und E-Com- merce keineswegs ausgedient: Doku- mente wie Rechnungen, Steuerformu- lare, Service-Berichte und Verträge werden nach wie vor oft auf Papier ausgefertigt, per Post verschickt und auf dem Postweg entgegengenommen. Spätestens innerhalb der Unterneh- mens- oder Behördengrenzen sind IT- Systeme für die Verarbeitung der Infor- mationen zuständig – was auf dem Pa- pier steht, muss eingescannt, in ma- schinenlesbarer Form aufbereitet, ge- speichert und archiviert werden. Gescannt wird typischerweise di- rekt in den Fachabteilungen mit Multi- funktionsgeräten (MFP mit zusätzli- cher Druck- und Faxfunktion) oder zentral mit Hochleistungs-Scannern. Scans fallen in den meisten Unterneh- men an verschiedenen Stellen an: Am zentralen Eingang im Postbüro, an Scan-Stationen in den Abteilungen sowie auf Mobilgeräten, z. B. beim Kundenbesuch im Außendienst. Auch empfangene Faxmeldungen sind nichts anderes als gescannte Bildinformationen. Vom Bild zum standar- disierten Dokument Beim Scannen entsteht zunächst immer ein Faksimile in Form einer Bilddatei. Dabei kommen Rasterfor- mate wie TIFF und JPEG zum Einsatz. Ein Rasterdokument ist jedoch bloß ein Abbild ohne Zusatzinformationen. Texte sowie in Barcodes enthaltene In- formationen müssen nach dem Scan- nen durch Texterkennung (OCR, Opti- cal Character Recognition) aus dem Bild extrahiert werden. Idealerweise werden Text und Bilddarstellung da- nach gemeinsam im gleichen Doku- ment gespeichert. Dies vereinfacht die Ablage und sichert sowohl das Erschei- nungsbild als auch den Informations- gehalt des Ursprungsdokuments. Als Format für die standardisierte Ablage und für die Langzeitarchivie- rung gescannter wie auch elektronisch erzeugter Dokumente hat sich PDF/A etabliert. Der PDF/A-Standard unter- stützt die gewünschte Speicherung von Bild- und Textinformationen im gleichen Dokument. Die Dokumente sind damit per Volltextsuche durch- suchbar. Für die Bildinformationen arbeitet PDF/A mit leistungsfähigen Kompres- sionsverfahren. Dadurch verringert sich die ursprüngliche Dateigröße ohne Informationsverlust massiv. Dies fällt besonders ins Gewicht, wenn neben Schwarzweiß- auch Farbbilder enthal- ten sind und die Farbinformationen für die weitere Nutzung erhalten werden sollen. Zusätzlich erlaubt PDF/A, Metada- ten wie beispielsweise Klassifizierungs- informationen direkt im Dokument zu speichern – hierbei kommt das XMP- Format (Extensible Metadata Platform) zum Zug, das wie PDF/A als eigener ISO-Standard definiert ist. Eine weitere Möglichkeit von PDF/A ist die digitale Signierung, um die Authentizität der Dokumente und die Integrität der In- halte zu gewährleisten. Insgesamt bie- tet PDF/A die Sicherheit eines interna- tionalen, funktional umfassenden und auf langfristige Stabilität ausgerichteten Dokumentenstandards. Dezentral scannen, zentral verarbeiten Das eigentliche Scannen stellt keine hohen Leistungsanforderungen an die Hardware und Software. Im Prinzip lassen sich „Scans“ bereits mit einer einfachen Digitalkamera erzeugen. Die darauf folgenden Bearbeitungsschritte verlangen deutlich mehr an Rechen- leistung und Intelligenz. Bildkompres- sion, OCR und Konversion zu PDF/A sind relativ aufwändige Vorgänge. Zumal es dabei zwei gegenläufige Be- dürfnisse zu berücksichtigen gilt: Die zuverlässige Texterkennung setzt eine möglichst hohe Bildqualität voraus. PDF Tools Die PDF Tools AG ist ein Herstel- ler von Software-Lösungen und Programmierkomponenten für die PDF- und PDF/A-Erzeugung, Bearbeitung, Wiedergabe und Archivierung. (www.pdf-tools.com) Nadine Schuppisser von der PDF Tools AG: „Ein zentraler Scan-Server bietet sich als effiziente und vielseitige Lösung an, wenn große Volumen an gescannten Dokumenten aus verschiedenen Quellen verarbeitet werden sollen.“

Vom Scan zur Information - PDF-Tools AG€¦ · Vom Scan zur Information Mit einem zentralen Scan-Server-Dienst lassen sich große Mengen von Papierdokumenten elegant in elektronische

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Vom Scan zur Information - PDF-Tools AG€¦ · Vom Scan zur Information Mit einem zentralen Scan-Server-Dienst lassen sich große Mengen von Papierdokumenten elegant in elektronische

PDF-Formate

Geschäftsprozesse

44 | BIT 6–2014

PDF Tools: Hohe Bildqualität bei geringer Datenmenge

Vom Scan zur InformationMit einem zentralen Scan-Server-Dienst lassen sich große

Mengen von Papierdokumenten elegant in elektronische

Dokumente umwandeln, für die Weiterverarbeitung auf -

be reiten und im Langzeitarchiv ablegen. Ein Scan-Server,

wie ihn die PDF Tools AG mit dem „3-Heights Scan to PDF

Server“ anbietet, wandelt gescannte Dateien und dazu-

gehörige Indexdateien in das standardisierte Dateiformat

PDF/A um.

Papier hat im Zeitalter von E-Rech-nung, Online-Schalter und E-Com-merce keineswegs ausgedient: Doku-mente wie Rechnungen, Steuerformu-lare, Service-Berichte und Verträgewerden nach wie vor oft auf Papierausgefertigt, per Post verschickt undauf dem Postweg entgegengenommen.Spätestens innerhalb der Unterneh-mens- oder Behördengrenzen sind IT-Systeme für die Verarbeitung der Infor-mationen zuständig – was auf dem Pa-pier steht, muss eingescannt, in ma-schinenlesbarer Form aufbereitet, ge-speichert und archiviert werden.

Gescannt wird typischerweise di-rekt in den Fachabteilungen mit Multi-funktionsgeräten (MFP mit zusätzli-cher Druck- und Faxfunktion) oderzentral mit Hochleistungs-Scannern.Scans fallen in den meisten Unterneh-men an verschiedenen Stellen an: Am

zentralen Eingang im Postbüro, anScan-Stationen in den Abteilungensowie auf Mobilgeräten, z. B. beimKundenbesuch im Außendienst. Auch empfangene Faxmeldungen sind nichts anderes als gescannte Bildinformationen.

Vom Bild zum standar -disierten DokumentBeim Scannen entsteht zunächstimmer ein Faksimile in Form einerBilddatei. Dabei kommen Rasterfor-mate wie TIFF und JPEG zum Einsatz.Ein Rasterdokument ist jedoch bloß einAbbild ohne Zusatzinformationen.Texte sowie in Barcodes enthaltene In-formationen müssen nach dem Scan-nen durch Texterkennung (OCR, Opti-cal Character Recognition) aus demBild extrahiert werden. Idealerweisewerden Text und Bilddarstellung da-nach gemeinsam im gleichen Doku-ment gespeichert. Dies vereinfacht dieAblage und sichert sowohl das Erschei-nungsbild als auch den Informations -gehalt des Ursprungsdokuments.

Als Format für die standardisierteAblage und für die Langzeitarchivie-rung gescannter wie auch elektronischerzeugter Dokumente hat sich PDF/Aetabliert. Der PDF/A-Standard unter-stützt die gewünschte Speicherung

von Bild- und Textinformationen imgleichen Dokument. Die Dokumentesind damit per Volltextsuche durch-suchbar.

Für die Bildinformationen arbeitetPDF/A mit leistungsfähigen Kompres-sionsverfahren. Dadurch verringertsich die ursprüngliche Dateigröße ohneInformationsverlust massiv. Dies fälltbesonders ins Gewicht, wenn nebenSchwarzweiß- auch Farbbilder enthal-ten sind und die Farbinformationen fürdie weitere Nutzung erhalten werdensollen.

Zusätzlich erlaubt PDF/A, Metada-ten wie beispielsweise Klassifizierungs-informationen direkt im Dokument zuspeichern – hierbei kommt das XMP-Format (Extensible Metadata Platform)zum Zug, das wie PDF/A als eigenerISO-Standard definiert ist. Eine weitereMöglichkeit von PDF/A ist die digitaleSignierung, um die Authentizität derDokumente und die Integrität der In-halte zu gewährleisten. Insgesamt bie-tet PDF/A die Sicherheit eines interna-tionalen, funktional umfassenden undauf langfristige Stabilität ausgerichtetenDokumentenstandards.

Dezentral scannen, zentral verarbeitenDas eigentliche Scannen stellt keinehohen Leistungsanforderungen an dieHardware und Software. Im Prinziplassen sich „Scans“ bereits mit einereinfachen Digitalkamera erzeugen. Diedarauf folgenden Bearbeitungsschritteverlangen deutlich mehr an Rechen-leistung und Intelligenz. Bildkompres-sion, OCR und Konversion zu PDF/Asind relativ aufwändige Vorgänge.Zumal es dabei zwei gegenläufige Be-dürfnisse zu berücksichtigen gilt: Diezuverlässige Texterkennung setzt einemöglichst hohe Bildqualität voraus.

PDF Tools

Die PDF Tools AG ist ein Herstel-ler von Software-Lösungen undProgrammierkomponenten fürdie PDF- und PDF/A-Erzeugung,Bearbeitung, Wiedergabe undArchivierung. (www.pdf-tools.com)

Nadine Schuppisservon der PDF ToolsAG: „Ein zentralerScan-Server bietetsich als effizienteund vielseitige Lösung an, wenngroße Volumen an gescannten Dokumenten aus verschiedenenQuellen verarbeitetwerden sollen.“

Page 2: Vom Scan zur Information - PDF-Tools AG€¦ · Vom Scan zur Information Mit einem zentralen Scan-Server-Dienst lassen sich große Mengen von Papierdokumenten elegant in elektronische

BIT 6–2014 | 45

Damit steigt der Speicherbedarf. Fürdie Ablage wünscht man dagegen einemöglichst geringe Datenmenge. Soft-ware, die beide Ansprüche in Einklangbringen soll, stellt hohe Ansprüche andie Rechenleistung – vor allem dann,wenn ein großes Volumen an gescann-ten Dokumenten verarbeitet werdensoll.

Dazu kommt ein weiterer Aspekt:Für die Einbettung von Index-, Klassi -fizierungs- und anderen Metadatensowie digitalen Signaturen werden oftInformationen von anderen Arbeitssta-tionen und aus verschiedenen IT-Syste-men benötigt. Diese dezentral vorhan-denen Daten müssen für die Erstellungdes PDF/A-Dokuments zusammenge-führt werden.

Leistungsintensive OperationenDie Lösung für beide Probleme ist einzentraler Scan-Server – ein Beispiel istder „3-Heights Scan to PDF Server“aus dem Hause PDF Tools AG. Ernimmt die eingescannten Bilddateienentgegen, analysiert die Dokumenteund erzeugt ein PDF/A-Dokument mitallen Text- und Bildinformationen in je-weils passender Kompression. Optionalmarkiert er das Dokument mit einemZeitstempel oder einer digitalen Signa-tur. Die erfassten Informationen stehendamit sowohl für menschliche Leserals auch zur automatisierten Weiter -verarbeitung mit IT-Anwendungen instandardisierter, qualitativ hochwer -tiger Form zur Verfügung.

Ein zentraler Scan-Server verein-facht zusätzlich die Software-Vertei-lung und Wartung. Auf den Scan-Sta-tionen muss keine umfassende Scan-Software mit integrierter OCR-Funktio-nalität einzeln ausgerollt, konfiguriertund gepflegt werden. Eine elementareOperator-Anwendung zur Bildakquisi-tion genügt. Probleme bei den komple-xeren Verarbeitungsschritten müssennicht individuell an den Arbeitsplätzengelöst werden. Stattdessen wird derScan-Server-Dienst auf einer Testinfra-struktur implementiert, wo sich zu-

vice nimmt der Scan-Server Aufträgeentgegen, die über eine webbasierteAnwendung erfasst wurden, undschickt die umgewandelten Doku-mente an den Auftraggeber zurück.Der Scan-Server kann darüber hinausweitere nützliche Aufgaben überneh-men, darunter die Validierung der er-zeugten PDF/A-Dokumente auf Kon-formität mit dem ISO-Standard, dasMarkieren der Dokumente mit einemWasserzeichen und die Kombinationverschiedener Einzeldokumente, diezum gleichen Geschäftsfall gehören, zueinem Gesamtdokument.

Ein zentraler Scan-Server bietetsich als effiziente und vielseitige Lö-sung an, wenn große Volumen an ge-scannten Dokumenten aus verschiede-nen Quellen verarbeitet werden sollen.Er wandelt die gescannten Bilddaten instandardisierte, durchsuchbare PDF/A-Dokumente mit reichem Informations-gehalt auf, entlastet die Scan-Stationenvon leistungsintensiven Verarbeitungs-schritten, unterstützt die Einbindungweiterer IT-Systeme und hilft, einenunternehmensweit einheitlichen Do-kumentenstandard einzuhalten.

nächst alle Probleme analysieren undFehler beheben lassen. Danach wirdder Dienst in den produktiven Betriebüberführt.

Damit sich der Scan-Server optimalan die jeweilige Umgebung anpassenund bei Bedarf durch Aufteilung aufverschiedene Rechner skalieren lässt,sind die Aufgaben beim „3-HeightsScan to PDF Server“ auf mehrere Sub-systeme verteilt:• Der eigentliche Scan-Server nimmtAufträge für die Konversion insPDF/A-Format entgegen, delegiert dieTexterkennung an den OCR-Serverund kombiniert die OCR-Resultate, dasgescannte Bild und die Metadaten zumfertigen PDF/A-Dokument.• Der OCR-Server nimmt vom Scan-Server Aufträge zur Erkennung vonTexten und Barcodes entgegen, berei-tet die Bildinformationen durch Opera-tionen wie Geraderichten und Entfer-nen von Störungen für die bestmögli-che Texterkennung auf, gliedert dasDokument in Text-, Barcode- und Bild-bereiche und führt die Erkennungdurch.

Für dezentral erzeugte Scans bietetder Server zwei zusätzliche Dienste:Ein Watched-Folder-Service übermitteltalle Dateien, die in bestimmten Ver-zeichnissen abgelegt wurden, zur auto-matischen Weiterverarbeitung an denScan-Server. Mithilfe eines Web-Ser-

Der Scan-Server arbeitet als zentralePDF/A-Aufbereitungsinstanz und verarbeitet Scans aus verschiedenenQuellen.