Upload
ralf-stockmann
View
407
Download
0
Embed Size (px)
Citation preview
Fit für die digitale Bibliothek?
Digitalisierungsprojekte zukunftssicher gestalten:Planung und Durchführung
Dipl. Sozw. Ralf StockmannNiedersächsische Staats- und Universitätsbibliothek Göttingen
Fit – wofür?
• Für den (DFG) Projektantrag• Für die Direktion / die Politik• Für die Ewigkeit (LZA)• Für die Nutzer
Das Göttinger Digitalisierungszentrum
• Abteilung der Staats- und Universitätsbibliothek Göttingen (SUB)
• seit 1997, zu Beginn 4 Jahre gefördert von der Deutschen Forschungsgemeinschaft (DFG)
• Nationales und Internationales Service- und Kompetenzzentrum
• Entwicklung eines Produktionsworkflows für große Mengen an Digitalisaten im Printbereich
• Standardisierungsaktivitäten• Mehr als 6 Millionen Seiten digitalisiert, über 5 Millionen
Seiten online bereitgestellt• Konzeption, Beratung und Durchführung von Projekten
(häufig kooperativ)• Zielsetzung: Masse UND Klasse
Ablauf eines Digitalisierungsprojektes1. Zielsetzung
2. Auswahl des Materials
3. Benchmarking / Standards
4. Produktionsorganisation / Logistik
5. Arbeitsvorbereitungen (AV)
6. Digitalisierung
7. Qualitätskontrolle (QK)
8. Bildoptimierung / Verarbeitung
9. OCR / Volltextgenerierung
10. Metadatengenerierung
11. Präsentation / Verwertung
12. Zugang / Evaluation
13. (Langzeit) Archivierung
Management Wheel
Logistiksoftware
• Bildet Workflow ab• Organisationseinheit: physischer Band• Controlling• Personalmanagement• Auftragsmanagement• Qualitätskontrolle• Metadatenerfassung• Webbasiert• Beispiele: myBib, Goobi, ZENDpro, …
Workflow Orchestrierung
Bearbeitungsstand
Controlling
Laufzeiten
Modulares Open Source Konzept
5. Arbeitsvorbereitung
• Büchertransport• Laufzettel / Barcode• Aufnahme in Workflowverwaltung• Bibliographische Uraufnahme (OPAC)• Zuordnung Gerät / Scanner
6. Digitalisierung
• Scanumfang– Von Buchdeckel zu Buchdeckel– Alle Seiten– Titel + Inhalt– Einzelne Kapitel / Artikel
• Ziel– Auf lokalen Scanrechner– Auf zentralen Scanserver
• On the fly• Nach Digitalisierung• Im Batchbetrieb (über Nacht)
7. Qualitätskontrolle
• Fehlende Seiten
• Doppelte Seiten
• Seitenreihenfolge
• Qualität
• Schmutz
• Werkzeug: Bildviewer (etwa: ACDSee)
• Rückgabe an Scanner / Feedback / selbst korrigieren
8. ImagenachbearbeitungBildnachbearbeitung mit „PixEdit“ im Batchmodus: Ausschneiden und Zentrieren, Reinigen, „de-speckle und speckle“
Original nach de-speckling nachspeckling
Volltexterfassung
• OCR – „schmutzig“ (unkorrigiert) • OCR – korrigiert (über 99,5%)• Manuell – einfach mit Korrekturlesen• Manuell – Doublekeying mit
automatischem Fehlerabgleich– Ca.: 1€ pro 1.000 Zeichen
• Problematisch: Fraktur, Handschriften, Inkunablen, …– Warten! Die OCR kann jederzeit nachgeholt
werden…
Finereader Lizenzen
Ausgabevariationen Volltext
• Versteckt: nur für Retrieval– Highlighting der Treffer im Image (Wortkoordinaten benötigt)
• Anzeige des Trefferkontext für Suchergebnis-Kontrolle (+/- 100 Zeichen)
• PDF:– Volltext hinter Image– Volltext vor Image (Auffüllung)
• Ausgabe Volltext– Ohne Formatierung– Mit Formatierung– Schmutzig / bereinigt– Zur Bewertung der Suchgenauigkeit– TEI Format: für Wissenschaftler direkt verwertbar
• Rechtliche Rahmenbedingungen (Subito-Urteil)
Das neue Nutzungsparadigma
Vergangenheit
Projektbezogene WebseitenInstitutionelle Repositorien
Gegenwart
PortaleVerteilte Suche
Zukunft (sehr bald!)
• Dezentrale Web Services– Basierend auf
• Personalisierung• Soziale / Wissenschaftliche Communities• Semantische Netze • Grid Computing (Ende der Ressourcenknappheit)
– Bieten an:• Dynamische, personalisierte Dienste (privates Bücherregal, …)• Werkzeuge zur Analyse, Annotation, Vernetzung, Bewertung, von
Informationen• Collaborative Arbeitsumgebungen• Adressierung kleinster Informationseinheiten
• “Scientific Mashups”– Online / Offline wird verschwinden (ist!)– NASA Portal
Konsequenzen
• Bedeutungswandel– Weniger:
• Eigner / Institution• Niederige Qualität• Abgeschottete “Black Box” Software mit “vanilla” features
– Mehr:• Metadaten• Volltext• Granularität• Hohe Auflösungen• Schnittstellen / Protokolle• Spezialisierte, gekapselte, kombinierbare Werkzeuge
• Beispiel: DFG-Viewer
DFG Viewer (Alpha)
Benötigte Schnittstellen
• OAI Harvesting
• Eines der definierten Metadaten-Profile– ZVDD– MuseumDAT– EAI
• Adressierbarkeit einzelner Images
• Sinnvoll aber freiwillig:– RSS-Feed (Neu hinzugekommene Werke, demnächst über
personalisierte Nutzersuchen)– Open URL– TEI
• Sehr klare Standardisierungstendenzen
9. Metadaten
• Bibliographische Metadaten (Mindeststandard)– Verbindung mit dem Verbundkatalog (PICA/GBV)
und dem OPAC
• Technische Metadaten
• Datenbanken (z.B. Wörterbücher)
• Klassifizierungen (z.B. Dewey)
• Inhaltlich-strukturelle Metadaten (z.B. Inhaltsverzeichnisse, Wörterbuchpositionen, gattungsspezifisches Markup etc.)
Warum Strukturdaten?
Elektronisches Inhaltsverzeichnis:Beispiel PDF, ebenso online
Strukturdaten Pro / Contra
• Pro– Bessere Bedienung
• Navigation im PDF• Digitales Inhaltsverzeichnis auf Webseite
– Exaktere Suche• Kapitel/Aufsätze als Treffer bei Suche (gehen nicht im Volltext
unter)• Verlässlich
– Erweiterte Dienste• Download einzelner Kapitel als PDF• Zusammenbinden neuer „digitaler Bücher“ mit Print on
Demand
• Contra– Produktion zeitaufwändig (30-50 Minuten pro Band)– Teilweise subsumierbar durch OCR-Volltext
Das METS Dokumentenmodell
• Logische Struktur– Monographie / Kapitel / Artikel etc.
• Physische Struktur– Seiten, Spalten
• Beschreibende Metadaten (Autor, Jahr etc.)• Technische Metadaten (Bildformat/Auflösung etc.)• Volltext (mit Wortkoordinaten)• Eingebettete Dateien (Images)
• Vorteile:– Alles in 1 Datei (XML)– Komplette Dokumentlogik ist „aus sich heraus“ verstehbar– Import/Export
• Nachteil: bisher aufwendige Implementierung
Goobi METS Editor
Integrierter Bildbetrachter
(AJAX)OCR integration
10. Präsentation / Verwertung
• Online-Präsentation– Seitenweise in Browser– Nur als gebundene Datei (PDF, DEJAVU, Multi-TIFF)– Eigene Web-Applikation
• British Library• Open Content Aliance
• Offline Nutzung– Intranet (s.o.)– CD / DVD
• Images• Applikation
– FTP
Ausgabe im GDZ
• Rendering „on the fly“ – frei wählbarer Zoomfaktor
• Pre-Rendering der nächsten Seite• Im PDF (strukturiert) originalauflösende
TIFFs• Digitales Inhaltsverzeichnis
11. Zugang / Evaluation
• Gemeinfreies Material– Urheberrecht: vor 1900– Weltweit freier Zugang (open access)
• Geschütztes Material– Beispiel Digizeitschriften:– Trilateraler Vertrag von Bibliotheken, Verlagen und Verwertungsgemeinschaft (VG
Wort)– Bibliotheken abbonieren Service und stellen ihren Nutzern kostenlos zur
Verfügung– Ausschüttung an Verlag und VG
• Technische Umsetzung– IP-Bereiche– Passwort / Nutzername– Konsortien– Backend-Verwaltung– Biling-Service
Zugriffsstatistik
• Counter.org
• Unterteilung nach– Material– Nutzer
• Anonymisiert / personalisiert
• Auswertungsintervall
• Technische Umsetzung– Logfilenalyse (etwa: Apache Webserver)– Integriertes Nutzertracking (Session Cookies)
Schnittstellen
• GDZ-Dokumentenserverserver (incl. OAI)
• OPAC der SUB Göttingen
• Flexible Präsentationssysteme (Virtuelle Fachbibliotheken etc.)
• Verbundkataloge
• Zentrales Verzeichnis Digitalisierter Drucke (ZVDD)
• EROMM (Digitale Master)
• Deutsche Digitale Bibliothek (DDB)
• European Digital Library (EDL)– November 2008!
Schnittstellen zu Diensten
• Geo-Tagging
• Wikipedia
• Social Bookmarking
• Verwertungsdienste– Print on Demand– OCR Correction on Demand– Digitization on Demand
• Es wird immer einfacher!– API (Application Programming Interface)
• Zentrales Diensteverzeichnis für Digitale Bibliotheken
12. Langzeitarchivierung
• Über welchen Zeitraum reden wir?– 10 Jahre (CD-Rs)– 50 Jahre– 200 Jahre
• Drei Komponenten:– Physikalische Archivierung– Lesegeräte
• NASA
– Formate• PDF, .DOC
JHOVEJSTOR/Harvard Object Validation
EnvironmentKonformitätsvalidierung für:
– AIFF, AIFF-C
– ASCII
– GIF 87a, 89a
– HTML 3.2, 4.0, 4.01, XHTML 1.0, 1.1
– JPEG, JFIF, SPIFF, JTIP, JPEG-LS, Exif 2.0, 2.1, 2.2
– JPEG 2000 JP2, JPX
– PDF 1.0 – 1.6, PDF/X-1, -1a, -2, -3, PDF/A, Tagged PDF, Linearized
– TIFF 4.0 – 6.0, Class B, G, P, R, Y, F, RFC 1314, TIFF/EP, TIFF/IT (CT,
LW, HC, MP, BP, BL, FP, and P1, P2), GeoTIFF, TIFF-FX, Exif 2.0, 2.1,
2.2, DNG
– UTF-8
– WAVE, BWF
– XML
http://hul.harvard.edu/jhove/
Der Dornröschenschlaf der Bibliotheken
• Was haben wir in den letzten Jahren erfunden?– Retrodigitalisierung– Langzeitarchivierung
• Was hätten wir erfinden sollen?– eLearning– Google
• Google Maps– Del.icio.us– YouTube– Wikipedia– iPhone
Abwägung
• Nicht das „Grundhandwerk“ vergessen/verlernen
• Zweite Schritt vor dem Ersten Schritt Problematik
• Bibliotheken brauchen auch Erfinder, und eine Umgebung in der sie sich wohl fühlen!
Vielen Dank für Ihre Aufmerksamkeit!
Ralf Stockmann
Göttinger Digitalisierungszentrum
www.sub.uni-goettingen.de/GDZ