Rosetta -Stein der Weisen oder pragmatischer digitaler ......2010/09/24  · Rosetta -Stein der...

Preview:

Citation preview

Rosetta - Stein der Weisen oder pragmatischer digitaler LangzeitarchivierungsansatzLangzeitarchivierungsansatz

Die Erfahrungen der BSB

hä~ìë=hÉãéÑ==· _~óÉêáëÅÜÉ=pí~~íëÄáÄäáçíÜÉâ _çòÉåI=OQK=pÉéíÉãÄÉê=OMNM

Agenda

1. Einführung

2. Langzeitarchivierung: Herausforderungen

O

2. Langzeitarchivierung: Herausforderungen

3. Langzeitarchivierung an der BSB

4. Rosetta als neues Langzeitarchivierungssystem

Die Bayerische Staatsbibliothek in Zahlen

� 680 Angestellte

� ~ 10 Mio. B®nde

� 89.000 Handschriften (Nr. 4 weltweit)� 20.000 Inkunabeln (Nr. 1 weltweit)� 130.000 Drucke (gr∏≈te Sammlung in D)

� ~ 140.000 Neuzug®nge p. a.

P

� ~ 140.000 Neuzug®nge p. a.

� Mehr als 40.000 Periodika

� 12.000 E-Journals (lizenziert), 600 Datenbanken

� ~500.000 E-Books und Retrodigitalisate

Die Bayerische Staatsbibliothek – Ihre wichtigsten Funktionen

� Forschungsbibliothek von internationalem Rang

� Zentrale Landes- und Archivbibliothek des Freistaates Bayern (u.a. Pflichtexemplargesetz seit 1663)1663)

� Integraler Teil der sog. Virtuellen Deutschen Nationalbibliothek zusammen mit der DNB in Frankfurt bzw. Leipzig und der SBB in Berlin

� Wahrnehmung nationaler Aufgaben u.a. im Rahmen des sog. DFG-SSG-Plans

BSB als Konsortialführer und Geschäftsstelle des Bayern-Konsortiums

� Eines der großen deutschen Regionalkonsortien für alle im Moment am Markt angebotenen e-Medien (e-Journals, Datenbanken, e-book etc.)

Umsatzvolumen derzeit ca. 12 Millionen Euro� Umsatzvolumen derzeit ca. 12 Millionen Euro

� Mitglied der GASCO (stellvertr. Vorsitz)

� Engagiert auf nationaler (Nationallizenzen) und internationaler Ebene („Knowledge exchange“)

Die BSB als Verbundzentrale des Bibliotheksverbundes Bayern (BVB)

� Regionales IT-Kompetenzzentrum für alle BVB-Verbundbibliotheken

� Betrieb des VerbundkatalogesBetrieb des Verbundkataloges

� Betreuung und Hosting von Lokalsystemen

� Angebot wichtiger regionaler und überregionaler Dienste, wie z.B. Online-Fernleihe

� Forschung und Entwicklung im Bereich des Bibliothekswesens

T

Inhaltliche Komponenten der „digitalen Bibliothek“

� Retrodigitalisate (aus eigener oder fremder Produktion)

� Genuin digitale Dokumente als Parallelveröffentlichungen oder singuläre DokumenteParallelveröffentlichungen oder singuläre Dokumente

- kommerzieller Herkunft (Lizenz oder Kauf)

- „Pflichtablieferung“

- open access (= im Internet frei verfügbare/zugängliche Ressourcen)

� 1997 Gründung

� 2003 Referat Digitale Bibliothek

� 2004/2005 Reorganisation Fotostelle, Ausbau Technik, Aufbau LZA-Infrastruktur

2007 Vielfältige neue Projekte und Aufgaben

Aufbau der „digitalen Bibliothek“ an der BSB – Das Münchener Digitalisierungszentrum - MDZ

V

� 2007 Vielfältige neue Projekte und Aufgaben

� Aufgaben

� Digitalisierung

� Infrastruktur für Fachportale /E-Publikation

� Langzeitarchivierung

Digitalisierung an der BSB: Vier Säulen

� (Drittmittel)Projekte

� Konservatorische Gründe

� „Digitisation On Demand“� „Digitisation On Demand“

� Forschung und Lehre

� kommerzielle Nutzung, z. B. Reprint, Faksimile

� Google-Kooperation

Technische Ausstattung des MDZ

3 Scan-Robots (A2, 300ppi) 2 Grazer Kameratische (A2, 600ppi)

4 Tischscanner (A2, 600ppi)

1 Kartenscanner (A0, 400ppi)

4 Buchscanner (A1, 600ppi)

1 Thermographie-Scanner (Wasserzeichen-Projekt)

1 Digitalkamera mit Stativ

Digitalisierung

~ NVMM

urheberrechtsfreier Bestand

mìÄäáÅJmêáî~íÉJ m~êíåÉêëÜáé

Urheberrechtsschutz

aáÖáí~äáëáÉêìåÖ

neuere Bestände

Handschriften,

Inkunabeln,

Alte Drucke,

Rara

Die Google-Kooperation

Google Digital Copy Library Digital Copyh~í~äçÖÉáåíê~Ö

cêÉáÉê=wìÖ~åÖ

Volltext Bilder

+

Rara

Ein- und dasselbe Buch bei Google Books …

… und auf den Internetseiten der BSB

Workflow Digitalisierung am MDZ

^ìÑÑíê~

Ö

Langzeitarchivierung

NU

Langzeitarchivierung: Allgemeine Probleme

� Begrenzte Haltbarkeit der Datenträger (Bänder, CDs, DVDs, Platten…)

� technologischer Wandel

� kurzlebige Produktions-, Verwaltungs-und Abspielumgebungen

NV

und Abspielumgebungen

� veraltende Dateiformate

� rasant wachsende Datenmengen

� steigende Komplexität der Daten und deren Vernetzung

� fehlendes Problembewusstsein

Langzeitarchivierung: Herausforderungen

Erhalt der Daten (“Bitstream Preservation”)

� mehrere Kopien / Redundanz

� Regelmäßiges Umkopieren auf gleichartige Datenträger (Refreshing)

� Kopieren auf neuere Datenträger (Medienmigration)

OM

(Medienmigration)

Erhalt der Interpretierbarkeit der Daten (“Content Preservation”)

� Migration

� Emulation

� zusätzliche beschreibende Daten (Metadaten)

Langzeitarchivierung: Maßnahmen

� Migration

� Daten aus veralteten in neue Dateiformate transformieren

� Emulation

� Nachbildung einer alten

ON

� Nachbildung einer alten Anwendungsumgebung in einem modernen System

� Museumsansatz (nicht auf Dauer)

� Erhalt alter Hard- und Software (lauffähig!)

Langzeitarchivierung: Das OAIS-Referenzmodell

OO

Lebenszyklus der Daten im digitalen Langzeitarchiv

� Informationspakete

� Übergabepaket: SIP

� Archivpaket: AIP

� Nutzungspaket: DIP

� Zum AIP gehören

OP

� Zum AIP gehören

� Der eigentliche Inhalt

� LZA-relevante Informationen (Metadaten)� Persistente Identifikatoren

� Technische Informationen

� Struktur

� Herkunft

� Dokumentation aller Veränderungen

� Rechte

Langzeitarchivierung

Der Ansatz der BSB

OQ

Der Ansatz der BSB

Langzeitarchivierung an der BSB: Drei Aufgabengebiete

Laufender Betrieb

� Bibliothekarisches Archivierungs- und Bereitstellungssystem BABS

Optimierung und Konsolidierung der vorhandenen Infrastruktur

OR

� Workflows

� Organisation

� Technologie (inklusive Rosetta)

Forschung und Entwicklung

� Konzeption und Evaluation neuer Methoden und Technologien in innovativen Projekten

� Standardisierung

Langzeitarchivierung an der BSB: Meilensteine

� 1999: Erstes LZA-Projekt mit der Universität der Bundeswehr (Schwerpunkt Datenträger)

� Seit 2003: Initiierung von und Mitarbeit in nestor

� 2004: Beginn der Kooperation mit dem LRZ. Voraussetzung für weitere innovative Projekte.

� 2004: Migration des CD-ROM-Bestandes des MDZ ins Archivsystem des LRZ

OS

� 2005/07: Aufbau des Bibliothekarischen Archivierungs- und Bereitstellungssystem (BABS)

- Konnektivität zum Archivsystem des LRZ - Täglicher Datentransfer- Verteilte, redundante Datenspeicherung

� 2006: Erste vollständige Hardware-Migration des Langzeitarchivs

� 2007: Google-Kooperation � neue quantitative Dimensionen in der dLZA

Das Leibniz-Rechenzentrum als wichtigster strategischer Partner

� Höchstleistungs-Rechenzentrum der Bayerischen Akademie der Wissenschaften

� Archiv- und Backupsystem TSM mit Band-Bibliotheken

OT

mit Band-Bibliotheken

� Ausbau der Kooperation, weitere Aufgaben

� Hosting Hard- und Software

� Massendigitalisierungsprojekte: VD16 digital, PPP mit Google

� LZA: Rosetta

Vielfältige Projekte und Kooperationen

BABS I : Aufbau des Bibliothekarischen Archivierungs-und Bereitstellungssystems (BABS/Pilot) (2005-2007)

BABS II: Evaluation und Optimierung von BABS in puncto Vertrauenswürdigkeit und Skalierbarkeit (2009-2010)

Nestor: Kompetenznetzwerk zur digitalen

OU

Nestor: Kompetenznetzwerk zur digitalen Langzeitarchivierung in Deutschland, seit 2003

Studien und Expertisen: Organisations- und Geschäftsmodelle für die digitale Langzeitarchivierung u. a.

LOCKSS: Kooperationsprojekt mit der Library of Congress

Bewusstsein schaffen

Veröffentlichungen

Community-Bildung

Veranstaltungen

Vernetzung WerWoWas –

Arbeitsgruppen

Information

Ratgeber

Expertisen

News, Kalender, Newsletter

Info-Datenbank

Aus- und Weiterbildung

Handbuch

Schools

OV

internationale Kooperation

Alliance for Permanent Access

EU-Projekte

Standardisierung

DIN – Normen

WerWoWas –Datenbank

Workshops

Projekte

PADI

Lehr- und Lernmodule

LOCKSS an der BSB

� Kooperation mit der LOC

� Sammlung und Austausch von amtlichen Veröffentlichungen (e-Zeitschriften) zwischen Deutschland und USA

� Weitere Partner: DNB, StaBiBerlin, UBRegensburg� Weitere Partner: DNB, StaBiBerlin, UBRegensburg

� LUKII: Aufbau eines deutschen LOCKSS-Netzwerks, Interoperation mit anderen LZA-Systemen

PM

Praxis der Langzeitarchivierung an der BSB: Grundphilosophie

� Klar definierte Methoden und Prozesse

� Archivierung nur mit eindeutiger Rechtsgrundlage

� Standards und Normen werden eingehalten

� Offene, weit verbreitete und gut dokumentierte Formate für

PN

� Offene, weit verbreitete und gut dokumentierte Formate für alle Objekte und Metadaten (keine „Datenfriedhöfe“)

� Ständige Verfügbarkeit für den Endnutzer (kein „Dark Archive“)

� Kooperative Lösungen bündeln Kompetenzen

� Strategischer Partner: Leibniz-Rechenzentrum

Qualitätsfaktoren

� Auswahlentscheidung

“Was soll überhaupt archiviert werden?”

� Strukturelle Entscheidungen

� Dateiformate

� Metadaten

� Qualitätskriterien

PO

� Qualitätskriterien

� Klärung der Rechtefragen

� gesetzliche Grundlage

� Übernahmevereinbarungen

� Vertrauenswürdige und skalierbare technische Infrastruktur: BABS

Fokus

� lokale/ regionale/ nationale Verantwortung

� Materialfokus: breites Spektrum

� Eigene Produktion: Digitalisate, ZEP

� Kooperationsprojekte

� Amtliche Veröffentlichungen Bayerns und des Bundes (Erlass zur Abgabe amtlicher

PP

Bundes (Erlass zur Abgabe amtlicher Veröffentlichungen an Bibliotheken)

� Bayerische „Pflicht“ (Gesetz in Novellierung)

� Lizenzierte Materialien (lokal, regional, national)

� SSG: Wissenschaftlich relevante open access Publikationen und Websites

Was wird archiviert?Erstens: Erwerbung und Pflichtablieferung

eBooks Biographische Datenbanken Online

Dissertationen Tonträger

Wissenschaftliche Datenbanken Fachportale Amtsblätter Elektronische

ZeitungenWissenschaftliche

PQ

ZeitungenWissenschaftliche Zeitschriften Digitalisierte

Fotosammlungen Internet-Quellen NachlässeDigitalisierte

Bücher

Was wird archiviert?Zweitens: Digitalisierungprojekte

LandkartenDeutsche Drucke des 16. Jahrhunderts (VD16) Libretti Zeitungen 100(0)

Schlüsseldokumente zur sowjetischen Geschichte Literarische

Nachlässe Lateinische HandschriftenDigi20Deutsche Handschriften Ausstellungskataloge Monumenta

Germaniae Historica Reichstagsprotokolle

PR

Germaniae Historica Reichstagsprotokolle100(0) Schlüsseldokumente zur deutschen Geschichte

Biographien Bavarica Enzyklopädien

Google MusikdruckeDigitisation

on Demand Blockbücher Inkunabeln Historische

Zeitschriften

BABS: Aktuelle Systemarchitektur

Katalog

MD

URN

Ablieferung / Akquisition

URN

Fachportale

PS

DigiToolZEND

TSM

Archivsystem

Digitalisierung

Middleware

Eigene Produktion(z. B. ZEP)

Nutzer

Status Quo im August 2010

Digitalisierung und Sammelaktivitäten

�Steigende Mengen im Archiv

PT

Archiv

� 476 Mio. Dateien� 241 TB � + 5-10 TB/Monat

PU

Langzeitarchivierung mit

PV

Ein neues Langzeitarchivierungssystem für die BSB

� 2009 Entscheidung pro Rosetta

� 2009-10 Aufbau des Systems

QM

� 2009-10 Aufbau des Systems

� Herbst 2010 Start Probebetrieb

� Frühjahr 2011 Beginn des Produktivbetriebs geplant

Rosetta an der BSB: Partner

� Digitale Bibliothek der BSB (Münchener Digitalisierungszentrum)

� Bibliotheksverbund Bayern (BVB)

� Leibniz-Rechenzentrum (LRZ)

QN

� Partnerbibliotheken aus dem BVB

� UBs Augsburg, Regensburg und Würzburg

� Ex Libris

Historie von Rosetta

Kooperativer Aufbau durch die Nationalbibliothek Neuseeland und Ex Libris

2004 National Digital Heritage Archive Program in Neuseeland gegründet

� 2005/2006 Bestandsaufnahme → Definition der Anforderungen an ein dLZA

QO

� Juli 2007 Entscheidung für eine kommerzielle Lösung zusammen mit ExLibris (2007-2010)

� Nov. 2008 DPS Version 1.0 im Produktivbetrieb

� Jan. 2009 Veröffentlichung von DPS 1.0 als Rosetta und Start des Charter Group Programs

Rosetta an der BSB: Pilotphase

� Installation des Systems

� Integration in die existierende Infrastruktur (Schnittstellen zu Digitalisierungsstraße/ZEND, Webarchivierung, Katalog, Speichersystem)

� Schulung der Mitarbeiter

� Implementation von drei zentralen LZA-Workflows

� Digitalisate

QP

� Digitalisate� Born-Digitals aus Pflichtablieferung und Sammlung� Web-Archive aus Sondersammelgebieten der BSB

� Probebetrieb

� Konnektivität, Datenverarbeitung� Skalierungs- und Lasttests

� Beteiligung an der Rosetta Charter Group

Rosetta an der BSB: Produktive Phase

� Beginn des Routinebetriebs 2011

� Regulärer Ingest von Daten

� Aufbau von Diensten für die drei bayerischen Partnerbibliotheken UBs Augsburg, Regensburg und Würzburg

� Migration vorhandener Daten nach Rosetta

QQ

� Aufbau von weiteren Standard-Workflows

� SSG- und Spezialsammlungen (z. B. Bildarchiv)

� Öffnung des Systems für andere Bibliotheken des BVB

Rosetta an der BSB: Systemarchitektur

`çåíÉåí=^ÖÖêÉÖ~íçê

tÉÄÜ~êîÉëíEtÉÄ=`ìê~íçê=qççäF

hçåîÉêëáçåEwbkaF

aáÖáí~äáëáÉêìåÖEjawF mêÉëÉêî~íáçå

^Çãáåáëíê~íáçå

sÉê~êÄÉáíìåÖEfåÖÉëíF

^ìëäáÉÑÉêìåÖ

mìÄäáâ~íáçå

SIP

DIP

h~í~äçÖ

a~íÉåîÉêï~äíìåÖEa~í~=j~å~ÖÉãÉåíF

^fm

SIP

SIP

QR

qpjE^êÅÜáî~ä=píçê~ÖÉF

i~åÖòÉáíëéÉáÅÜÉêE^êÅÜáî~ä=píçê~ÖÉF

aÉéçëáí

c~ÅÜéçêí~äÉ

_p_JsáÉïÉê

^ãíäáÅÜÉ=sÉê∏ÑÑÉåíäáÅÜìåÖÉå

oçëÉíí~=sáÉïÉê

Warum Rosetta?

Umfassende Funktionalitäten für alle Schlüsselbereiche der Langzeitarchiverung

� Flexible Konfiguration

� Bedarfsgerecht zugeschnittene Workflows � Rechte-Management für interne und externe Anwender

QS

Anwender

� Professionelle Datenverwaltung in einem Digital Asset Management System

� Integritäts- und Authentizitätsprüfungen� Formatkonversionen� Metadaten-Erzeugung� Skalierbarkeit

Warum Rosetta?

� Preservation planning & action ist möglich

� Risikoanalysen & Risikomanagement� Planung und Durchführung von Maßnahmen zum Langzeiterhalt

� Gängige Schnittstellen und Standards werden unterstützt

� OAIS, OAI-PMH, …

� Dublin Core, PREMIS, METS, …

QT

� Dublin Core, PREMIS, METS, …

� Open-Platform-Prinzip erlaubt das Andocken eigener Anwendungen (ZEND, Katalog, externe Viewer, …)

� Programmierschnittstellen

� Entwicklertools

� Austausch/Export von Archivpaketen (AIP) mit anderen Repositories ist möglich

Preservation Planning in Rosetta

QU

Ausblick

Vielen Dank für Ihre Aufmerksamkeit!

klaus.kempf@bsb-muenchen.de

QV

Recommended