45
Fit für die digitale Bibliothek? Digitalisierungsprojekte zukunftssicher gestalten: Planung und Durchführung Dipl. Sozw. Ralf Stockmann Niedersächsische Staats- und Universitätsbibliothek Göttingen

Fit für die digitale Bibliothek? (2007)

Embed Size (px)

Citation preview

Page 1: Fit für die digitale Bibliothek? (2007)

Fit für die digitale Bibliothek?

Digitalisierungsprojekte zukunftssicher gestalten:Planung und Durchführung

Dipl. Sozw. Ralf StockmannNiedersächsische Staats- und Universitätsbibliothek Göttingen

Page 2: Fit für die digitale Bibliothek? (2007)

Fit – wofür?

• Für den (DFG) Projektantrag• Für die Direktion / die Politik• Für die Ewigkeit (LZA)• Für die Nutzer

Page 3: Fit für die digitale Bibliothek? (2007)

Das Göttinger Digitalisierungszentrum

• Abteilung der Staats- und Universitätsbibliothek Göttingen (SUB)

• seit 1997, zu Beginn 4 Jahre gefördert von der Deutschen Forschungsgemeinschaft (DFG)

• Nationales und Internationales Service- und Kompetenzzentrum

• Entwicklung eines Produktionsworkflows für große Mengen an Digitalisaten im Printbereich

• Standardisierungsaktivitäten• Mehr als 6 Millionen Seiten digitalisiert, über 5 Millionen

Seiten online bereitgestellt• Konzeption, Beratung und Durchführung von Projekten

(häufig kooperativ)• Zielsetzung: Masse UND Klasse

Page 4: Fit für die digitale Bibliothek? (2007)

Ablauf eines Digitalisierungsprojektes1. Zielsetzung

2. Auswahl des Materials

3. Benchmarking / Standards

4. Produktionsorganisation / Logistik

5. Arbeitsvorbereitungen (AV)

6. Digitalisierung

7. Qualitätskontrolle (QK)

8. Bildoptimierung / Verarbeitung

9. OCR / Volltextgenerierung

10. Metadatengenerierung

11. Präsentation / Verwertung

12. Zugang / Evaluation

13. (Langzeit) Archivierung

Page 5: Fit für die digitale Bibliothek? (2007)

Management Wheel

Page 6: Fit für die digitale Bibliothek? (2007)

Logistiksoftware

• Bildet Workflow ab• Organisationseinheit: physischer Band• Controlling• Personalmanagement• Auftragsmanagement• Qualitätskontrolle• Metadatenerfassung• Webbasiert• Beispiele: myBib, Goobi, ZENDpro, …

Page 7: Fit für die digitale Bibliothek? (2007)

Workflow Orchestrierung

Page 8: Fit für die digitale Bibliothek? (2007)

Bearbeitungsstand

Page 9: Fit für die digitale Bibliothek? (2007)

Controlling

Page 10: Fit für die digitale Bibliothek? (2007)

Laufzeiten

Page 11: Fit für die digitale Bibliothek? (2007)

Modulares Open Source Konzept

Page 12: Fit für die digitale Bibliothek? (2007)

5. Arbeitsvorbereitung

• Büchertransport• Laufzettel / Barcode• Aufnahme in Workflowverwaltung• Bibliographische Uraufnahme (OPAC)• Zuordnung Gerät / Scanner

Page 13: Fit für die digitale Bibliothek? (2007)

6. Digitalisierung

• Scanumfang– Von Buchdeckel zu Buchdeckel– Alle Seiten– Titel + Inhalt– Einzelne Kapitel / Artikel

• Ziel– Auf lokalen Scanrechner– Auf zentralen Scanserver

• On the fly• Nach Digitalisierung• Im Batchbetrieb (über Nacht)

Page 14: Fit für die digitale Bibliothek? (2007)

7. Qualitätskontrolle

• Fehlende Seiten

• Doppelte Seiten

• Seitenreihenfolge

• Qualität

• Schmutz

• Werkzeug: Bildviewer (etwa: ACDSee)

• Rückgabe an Scanner / Feedback / selbst korrigieren

Page 15: Fit für die digitale Bibliothek? (2007)

8. ImagenachbearbeitungBildnachbearbeitung mit „PixEdit“ im Batchmodus: Ausschneiden und Zentrieren, Reinigen, „de-speckle und speckle“

Original nach de-speckling nachspeckling

Page 16: Fit für die digitale Bibliothek? (2007)
Page 17: Fit für die digitale Bibliothek? (2007)

Volltexterfassung

• OCR – „schmutzig“ (unkorrigiert) • OCR – korrigiert (über 99,5%)• Manuell – einfach mit Korrekturlesen• Manuell – Doublekeying mit

automatischem Fehlerabgleich– Ca.: 1€ pro 1.000 Zeichen

• Problematisch: Fraktur, Handschriften, Inkunablen, …– Warten! Die OCR kann jederzeit nachgeholt

werden…

Page 18: Fit für die digitale Bibliothek? (2007)

Finereader Lizenzen

Page 19: Fit für die digitale Bibliothek? (2007)

Ausgabevariationen Volltext

• Versteckt: nur für Retrieval– Highlighting der Treffer im Image (Wortkoordinaten benötigt)

• Anzeige des Trefferkontext für Suchergebnis-Kontrolle (+/- 100 Zeichen)

• PDF:– Volltext hinter Image– Volltext vor Image (Auffüllung)

• Ausgabe Volltext– Ohne Formatierung– Mit Formatierung– Schmutzig / bereinigt– Zur Bewertung der Suchgenauigkeit– TEI Format: für Wissenschaftler direkt verwertbar

• Rechtliche Rahmenbedingungen (Subito-Urteil)

Page 20: Fit für die digitale Bibliothek? (2007)
Page 21: Fit für die digitale Bibliothek? (2007)
Page 22: Fit für die digitale Bibliothek? (2007)
Page 23: Fit für die digitale Bibliothek? (2007)

Das neue Nutzungsparadigma

Vergangenheit

Projektbezogene WebseitenInstitutionelle Repositorien

Gegenwart

PortaleVerteilte Suche

Page 24: Fit für die digitale Bibliothek? (2007)

Zukunft (sehr bald!)

• Dezentrale Web Services– Basierend auf

• Personalisierung• Soziale / Wissenschaftliche Communities• Semantische Netze • Grid Computing (Ende der Ressourcenknappheit)

– Bieten an:• Dynamische, personalisierte Dienste (privates Bücherregal, …)• Werkzeuge zur Analyse, Annotation, Vernetzung, Bewertung, von

Informationen• Collaborative Arbeitsumgebungen• Adressierung kleinster Informationseinheiten

• “Scientific Mashups”– Online / Offline wird verschwinden (ist!)– NASA Portal

Page 25: Fit für die digitale Bibliothek? (2007)

Konsequenzen

• Bedeutungswandel– Weniger:

• Eigner / Institution• Niederige Qualität• Abgeschottete “Black Box” Software mit “vanilla” features

– Mehr:• Metadaten• Volltext• Granularität• Hohe Auflösungen• Schnittstellen / Protokolle• Spezialisierte, gekapselte, kombinierbare Werkzeuge

• Beispiel: DFG-Viewer

Page 26: Fit für die digitale Bibliothek? (2007)

DFG Viewer (Alpha)

Page 27: Fit für die digitale Bibliothek? (2007)

Benötigte Schnittstellen

• OAI Harvesting

• Eines der definierten Metadaten-Profile– ZVDD– MuseumDAT– EAI

• Adressierbarkeit einzelner Images

• Sinnvoll aber freiwillig:– RSS-Feed (Neu hinzugekommene Werke, demnächst über

personalisierte Nutzersuchen)– Open URL– TEI

• Sehr klare Standardisierungstendenzen

Page 28: Fit für die digitale Bibliothek? (2007)

9. Metadaten

• Bibliographische Metadaten (Mindeststandard)– Verbindung mit dem Verbundkatalog (PICA/GBV)

und dem OPAC

• Technische Metadaten

• Datenbanken (z.B. Wörterbücher)

• Klassifizierungen (z.B. Dewey)

• Inhaltlich-strukturelle Metadaten (z.B. Inhaltsverzeichnisse, Wörterbuchpositionen, gattungsspezifisches Markup etc.)

Page 29: Fit für die digitale Bibliothek? (2007)

Warum Strukturdaten?

Elektronisches Inhaltsverzeichnis:Beispiel PDF, ebenso online

Page 30: Fit für die digitale Bibliothek? (2007)

Strukturdaten Pro / Contra

• Pro– Bessere Bedienung

• Navigation im PDF• Digitales Inhaltsverzeichnis auf Webseite

– Exaktere Suche• Kapitel/Aufsätze als Treffer bei Suche (gehen nicht im Volltext

unter)• Verlässlich

– Erweiterte Dienste• Download einzelner Kapitel als PDF• Zusammenbinden neuer „digitaler Bücher“ mit Print on

Demand

• Contra– Produktion zeitaufwändig (30-50 Minuten pro Band)– Teilweise subsumierbar durch OCR-Volltext

Page 31: Fit für die digitale Bibliothek? (2007)

Das METS Dokumentenmodell

• Logische Struktur– Monographie / Kapitel / Artikel etc.

• Physische Struktur– Seiten, Spalten

• Beschreibende Metadaten (Autor, Jahr etc.)• Technische Metadaten (Bildformat/Auflösung etc.)• Volltext (mit Wortkoordinaten)• Eingebettete Dateien (Images)

• Vorteile:– Alles in 1 Datei (XML)– Komplette Dokumentlogik ist „aus sich heraus“ verstehbar– Import/Export

• Nachteil: bisher aufwendige Implementierung

Page 32: Fit für die digitale Bibliothek? (2007)

Goobi METS Editor

Page 33: Fit für die digitale Bibliothek? (2007)

Integrierter Bildbetrachter

(AJAX)OCR integration

Page 34: Fit für die digitale Bibliothek? (2007)

10. Präsentation / Verwertung

• Online-Präsentation– Seitenweise in Browser– Nur als gebundene Datei (PDF, DEJAVU, Multi-TIFF)– Eigene Web-Applikation

• British Library• Open Content Aliance

• Offline Nutzung– Intranet (s.o.)– CD / DVD

• Images• Applikation

– FTP

Page 35: Fit für die digitale Bibliothek? (2007)
Page 36: Fit für die digitale Bibliothek? (2007)

Ausgabe im GDZ

• Rendering „on the fly“ – frei wählbarer Zoomfaktor

• Pre-Rendering der nächsten Seite• Im PDF (strukturiert) originalauflösende

TIFFs• Digitales Inhaltsverzeichnis

Page 37: Fit für die digitale Bibliothek? (2007)

11. Zugang / Evaluation

• Gemeinfreies Material– Urheberrecht: vor 1900– Weltweit freier Zugang (open access)

• Geschütztes Material– Beispiel Digizeitschriften:– Trilateraler Vertrag von Bibliotheken, Verlagen und Verwertungsgemeinschaft (VG

Wort)– Bibliotheken abbonieren Service und stellen ihren Nutzern kostenlos zur

Verfügung– Ausschüttung an Verlag und VG

• Technische Umsetzung– IP-Bereiche– Passwort / Nutzername– Konsortien– Backend-Verwaltung– Biling-Service

Page 38: Fit für die digitale Bibliothek? (2007)

Zugriffsstatistik

• Counter.org

• Unterteilung nach– Material– Nutzer

• Anonymisiert / personalisiert

• Auswertungsintervall

• Technische Umsetzung– Logfilenalyse (etwa: Apache Webserver)– Integriertes Nutzertracking (Session Cookies)

Page 39: Fit für die digitale Bibliothek? (2007)

Schnittstellen

• GDZ-Dokumentenserverserver (incl. OAI)

• OPAC der SUB Göttingen

• Flexible Präsentationssysteme (Virtuelle Fachbibliotheken etc.)

• Verbundkataloge

• Zentrales Verzeichnis Digitalisierter Drucke (ZVDD)

• EROMM (Digitale Master)

• Deutsche Digitale Bibliothek (DDB)

• European Digital Library (EDL)– November 2008!

Page 40: Fit für die digitale Bibliothek? (2007)

Schnittstellen zu Diensten

• Geo-Tagging

• Wikipedia

• Social Bookmarking

• Verwertungsdienste– Print on Demand– OCR Correction on Demand– Digitization on Demand

• Es wird immer einfacher!– API (Application Programming Interface)

• Zentrales Diensteverzeichnis für Digitale Bibliotheken

Page 41: Fit für die digitale Bibliothek? (2007)

12. Langzeitarchivierung

• Über welchen Zeitraum reden wir?– 10 Jahre (CD-Rs)– 50 Jahre– 200 Jahre

• Drei Komponenten:– Physikalische Archivierung– Lesegeräte

• NASA

– Formate• PDF, .DOC

Page 42: Fit für die digitale Bibliothek? (2007)

JHOVEJSTOR/Harvard Object Validation

EnvironmentKonformitätsvalidierung für:

– AIFF, AIFF-C

– ASCII

– GIF 87a, 89a

– HTML 3.2, 4.0, 4.01, XHTML 1.0, 1.1

– JPEG, JFIF, SPIFF, JTIP, JPEG-LS, Exif 2.0, 2.1, 2.2

– JPEG 2000 JP2, JPX

– PDF 1.0 – 1.6, PDF/X-1, -1a, -2, -3, PDF/A, Tagged PDF, Linearized

PDF

– TIFF 4.0 – 6.0, Class B, G, P, R, Y, F, RFC 1314, TIFF/EP, TIFF/IT (CT,

LW, HC, MP, BP, BL, FP, and P1, P2), GeoTIFF, TIFF-FX, Exif 2.0, 2.1,

2.2, DNG

– UTF-8

– WAVE, BWF

– XML

http://hul.harvard.edu/jhove/

Page 43: Fit für die digitale Bibliothek? (2007)

Der Dornröschenschlaf der Bibliotheken

• Was haben wir in den letzten Jahren erfunden?– Retrodigitalisierung– Langzeitarchivierung

• Was hätten wir erfinden sollen?– eLearning– Google

• Google Maps– Del.icio.us– YouTube– Wikipedia– iPhone

Page 44: Fit für die digitale Bibliothek? (2007)

Abwägung

• Nicht das „Grundhandwerk“ vergessen/verlernen

• Zweite Schritt vor dem Ersten Schritt Problematik

• Bibliotheken brauchen auch Erfinder, und eine Umgebung in der sie sich wohl fühlen!

Page 45: Fit für die digitale Bibliothek? (2007)

Vielen Dank für Ihre Aufmerksamkeit!

Ralf Stockmann

[email protected]

Göttinger Digitalisierungszentrum

www.sub.uni-goettingen.de/GDZ