View
223
Download
0
Category
Preview:
Citation preview
Postscript- und PDF-Dokumente durchsuchen
Frank Hofmann/Thomas Winde
24. Marz 2012
Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 1 / 19
Inhalt
1 Uber die Referenten
2 Informationen wiederfinden
3 Aufbau der Formate PostScript und PDF
4 PostScript-Dateien durchsuchen
5 PDF-Dateien durchsuchen
6 Schlussworte
Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 2 / 19
Uber die Referenten
Frank Hofmann – OpenSource-Aktivitaten und Projekte
2000-2007
seit 2006
seit 2009
RegionalesLUG-TreffenBerlin-Brandenburgseit 2008
Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 3 / 19
Uber die Referenten
Uber Hofmann EDV – Linux, Layout und Satz
Layout und Satz, Druckvorstufe
Administration und Service
Betreuung von Linux-Systemen(Debian)Programmierung undAutomatisierung auf der Basis vonPHP und PythonWireless Devices fur den Innen- undAußeneinsatz
Trainings fur IT-Spezialisten
Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 4 / 19
Uber die Referenten
Uber Thomas Winde Ausflugsfahrten
Chemnitzer Linux User Group (CLUG)
Mitorganisation der ChemnitzerLinux-Tage
Betreuung des EinsteigerforumsSponsor und Tagungsfahrdienst
Thomas Winde Ausflugsfahrten
AusflugsfahrtenMietfahrtenFlughafenzubringerGutertaxiFahrten zu Linux-Veranstaltungen
Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 5 / 19
Informationen wiederfinden
Suchen in Daten
Werkzeug: Suchmaschine, Programm, Desktopsuche
Darstellung der Suchergebnisse als Liste, Ringe oder Waben
Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 6 / 19
Informationen wiederfinden
Datenbasis
Ziel: Dokumente und Daten wiederfinden und thematisch zuordnen
zweckdienliche Verzeichnishierarchie anlegensinnvolle Dateinamen vergeben
Dokumente mussen durchsuchbar seinlesbar fur uns und die Maschine (Programm)
offene Dokumentation der Formate
Text als Text im PDF einbinden, nicht als Bild ;-)
Dokument klassifizierenMetainformationen setzen
Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 7 / 19
Informationen wiederfinden
Textseite – ohne Metainformationen
Spruche
Vegetarische Gerichte schmecken besonders gut, wenn dazu
ein kleines Schnitzel gereicht wird.
Sollten Sie einmal das Schnitzel nicht finden -- es liegt
immer unter der Zitronenscheibe.
Milchreis schmeckt hervorragend, wenn man es vor dem
Verzehr durch ein saftiges Steak ersetzt.
siehe: http://www.frag-mutti.de/
Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 8 / 19
Informationen wiederfinden
Metainformationen bei Docbook
Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 9 / 19
Informationen wiederfinden
DVI-Dokumente
DVI: gerateunabhangigesDokumentenformat
Suche in Xdvi und Okular
unabhangig von Groß-und Kleinschreibungfarbige Hervorhebungder SuchtrefferXdvi: unterstutztRegulare Ausdrucke
auf der Kommandozeile:
dvitype datei.dvi |
grep Muster
Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 10 / 19
Informationen wiederfinden
Metainformationen bei OpenOffice
Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 11 / 19
Informationen wiederfinden
Metainformationen im PDF
LATEX-Paket: hyperref
Anzeigen der Metadaten mit UNIX-Kommando pdfinfo
einfach: pdfinfo datei.pdf
ausfuhrlich: pdfinfo -box datei.pdf
Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 12 / 19
Aufbau der Formate PostScript und PDF
Das PostScript-Dokumentformat
PostScript: stackbasierteProgrammiersprache mitVariablendefinitionen,Prozeduren undZuweisungen
Prolog: Vorspann desDokuments
Script: Inhalt,Seitengroße, Grafik- undTextobjekte
Trailer: Anhang
Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 13 / 19
Aufbau der Formate PostScript und PDF
Das PDF-Dokumentformat
PDF: Dokumentenformatvon Adobe
Header: Vorspann desDokuments mitMetainformationen
Body: Inhalt, Grafik- undTextobjekte mitPositionsangaben(genannt Object Stream)
Cross-reference Table:Inhaltsverzeichnis dereinzelnen Objekte
Trailer: Anhang
Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 14 / 19
PostScript-Dateien durchsuchen
PostScript-Dokumente
Dokumentbetrachter: Ghostview, Kghostview, Evince und Okularbei unseren Tests funktionierte die Suchfunktion nicht
auf der Kommandozeile:
pstotext datei.ps | grep Muster
ps2ascii datei.ps | grep Muster
Nachteil: nur zuverlassig fur Encoding ISO 8859-1 (Latin-1)
Alternative uber die Konvertierung nach PDF:ps2pdf datei.ps ; pdftotext datei.pdf | grep Muster
ps2pdf datei.ps ; pdfgrep datei.pdf Muster
Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 15 / 19
PDF-Dateien durchsuchen
PDF-Betrachter
Dokumentbetrachter:
Ghostview: keine SucheEpdfview, Evince, Okular, XpdfSuche uber Button,
”/“ (außer Xpdf) und Ctrl+F
Apvlv, Mupdf, ZathuraSuche analog zu vi(m)-Tastenschema
Suche im Dokument beginnt bereits wahrend der Eingabe desMusters, Cursor springt zum nachsten Suchtreffer
Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 16 / 19
PDF-Dateien durchsuchen
Suche automatisieren – Variante 1
pdftotext und grep mit einer Pipe in einer for-Schleife:
for datei in $(ls *.pdf); do pdftotext $datei - | grep
--color Muster ; done
pdftotext kommt problemlos mit den Encodings ISO 8859-1, 8859-15und UTF-8 zurecht
explizite Auswahl des Encodings uber die Option -enc Encoding
Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 17 / 19
PDF-Dateien durchsuchen
Suche automatisieren – Variante 2
... mit pdfgrep:
pdfgrep Muster
Dateiliste
Option -i: unabhangigvon Groß- undKleinschreibung
Option -n: Seite, auf derder Suchtreffer gefundenwurde
Option -C Anzahl :Ausgabe max. AnzahlZeichen
Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 18 / 19
Schlussworte
Vielen Dank
Danke fur Eure Aufmerksamkeit :-)Kontakt:Dipl.-Inf. Frank HofmannHofmann EDV – Linux, Layout und Satzc/o buro 2.0Weigandufer 45 – 12059 BerlinEmail <frank.hofmann@efho.de>web www.efho.de
Thomas Winde AusflugsfahrtenAm Bahrebach 140 – 09114 ChemnitzEmail <ausflug@web.de>web www.ausflug-web.de
Frank Hofmann/Thomas Winde () Postscript- und PDF-Dokumente durchsuchen 24. Marz 2012 19 / 19
Recommended