View
6
Download
0
Category
Preview:
Citation preview
Rosetta - Stein der Weisen oder pragmatischer digitaler LangzeitarchivierungsansatzLangzeitarchivierungsansatz
Die Erfahrungen der BSB
hä~ìë=hÉãéÑ==· _~óÉêáëÅÜÉ=pí~~íëÄáÄäáçíÜÉâ _çòÉåI=OQK=pÉéíÉãÄÉê=OMNM
Agenda
1. Einführung
2. Langzeitarchivierung: Herausforderungen
O
2. Langzeitarchivierung: Herausforderungen
3. Langzeitarchivierung an der BSB
4. Rosetta als neues Langzeitarchivierungssystem
Die Bayerische Staatsbibliothek in Zahlen
� 680 Angestellte
� ~ 10 Mio. B®nde
� 89.000 Handschriften (Nr. 4 weltweit)� 20.000 Inkunabeln (Nr. 1 weltweit)� 130.000 Drucke (gr∏≈te Sammlung in D)
� ~ 140.000 Neuzug®nge p. a.
P
� ~ 140.000 Neuzug®nge p. a.
� Mehr als 40.000 Periodika
� 12.000 E-Journals (lizenziert), 600 Datenbanken
� ~500.000 E-Books und Retrodigitalisate
Die Bayerische Staatsbibliothek – Ihre wichtigsten Funktionen
� Forschungsbibliothek von internationalem Rang
� Zentrale Landes- und Archivbibliothek des Freistaates Bayern (u.a. Pflichtexemplargesetz seit 1663)1663)
� Integraler Teil der sog. Virtuellen Deutschen Nationalbibliothek zusammen mit der DNB in Frankfurt bzw. Leipzig und der SBB in Berlin
� Wahrnehmung nationaler Aufgaben u.a. im Rahmen des sog. DFG-SSG-Plans
BSB als Konsortialführer und Geschäftsstelle des Bayern-Konsortiums
� Eines der großen deutschen Regionalkonsortien für alle im Moment am Markt angebotenen e-Medien (e-Journals, Datenbanken, e-book etc.)
Umsatzvolumen derzeit ca. 12 Millionen Euro� Umsatzvolumen derzeit ca. 12 Millionen Euro
� Mitglied der GASCO (stellvertr. Vorsitz)
� Engagiert auf nationaler (Nationallizenzen) und internationaler Ebene („Knowledge exchange“)
Die BSB als Verbundzentrale des Bibliotheksverbundes Bayern (BVB)
� Regionales IT-Kompetenzzentrum für alle BVB-Verbundbibliotheken
� Betrieb des VerbundkatalogesBetrieb des Verbundkataloges
� Betreuung und Hosting von Lokalsystemen
� Angebot wichtiger regionaler und überregionaler Dienste, wie z.B. Online-Fernleihe
� Forschung und Entwicklung im Bereich des Bibliothekswesens
T
Inhaltliche Komponenten der „digitalen Bibliothek“
� Retrodigitalisate (aus eigener oder fremder Produktion)
� Genuin digitale Dokumente als Parallelveröffentlichungen oder singuläre DokumenteParallelveröffentlichungen oder singuläre Dokumente
- kommerzieller Herkunft (Lizenz oder Kauf)
- „Pflichtablieferung“
- open access (= im Internet frei verfügbare/zugängliche Ressourcen)
� 1997 Gründung
� 2003 Referat Digitale Bibliothek
� 2004/2005 Reorganisation Fotostelle, Ausbau Technik, Aufbau LZA-Infrastruktur
2007 Vielfältige neue Projekte und Aufgaben
Aufbau der „digitalen Bibliothek“ an der BSB – Das Münchener Digitalisierungszentrum - MDZ
V
� 2007 Vielfältige neue Projekte und Aufgaben
� Aufgaben
� Digitalisierung
� Infrastruktur für Fachportale /E-Publikation
� Langzeitarchivierung
Digitalisierung an der BSB: Vier Säulen
� (Drittmittel)Projekte
� Konservatorische Gründe
� „Digitisation On Demand“� „Digitisation On Demand“
� Forschung und Lehre
� kommerzielle Nutzung, z. B. Reprint, Faksimile
� Google-Kooperation
Technische Ausstattung des MDZ
3 Scan-Robots (A2, 300ppi) 2 Grazer Kameratische (A2, 600ppi)
4 Tischscanner (A2, 600ppi)
1 Kartenscanner (A0, 400ppi)
4 Buchscanner (A1, 600ppi)
1 Thermographie-Scanner (Wasserzeichen-Projekt)
1 Digitalkamera mit Stativ
Digitalisierung
~ NVMM
urheberrechtsfreier Bestand
mìÄäáÅJmêáî~íÉJ m~êíåÉêëÜáé
Urheberrechtsschutz
aáÖáí~äáëáÉêìåÖ
neuere Bestände
Handschriften,
Inkunabeln,
Alte Drucke,
Rara
Die Google-Kooperation
Google Digital Copy Library Digital Copyh~í~äçÖÉáåíê~Ö
cêÉáÉê=wìÖ~åÖ
Volltext Bilder
+
Rara
Ein- und dasselbe Buch bei Google Books …
… und auf den Internetseiten der BSB
Workflow Digitalisierung am MDZ
^ìÑÑíê~
Ö
Langzeitarchivierung
NU
Langzeitarchivierung: Allgemeine Probleme
� Begrenzte Haltbarkeit der Datenträger (Bänder, CDs, DVDs, Platten…)
� technologischer Wandel
� kurzlebige Produktions-, Verwaltungs-und Abspielumgebungen
NV
und Abspielumgebungen
� veraltende Dateiformate
� rasant wachsende Datenmengen
� steigende Komplexität der Daten und deren Vernetzung
� fehlendes Problembewusstsein
Langzeitarchivierung: Herausforderungen
Erhalt der Daten (“Bitstream Preservation”)
� mehrere Kopien / Redundanz
� Regelmäßiges Umkopieren auf gleichartige Datenträger (Refreshing)
� Kopieren auf neuere Datenträger (Medienmigration)
OM
(Medienmigration)
Erhalt der Interpretierbarkeit der Daten (“Content Preservation”)
� Migration
� Emulation
� zusätzliche beschreibende Daten (Metadaten)
Langzeitarchivierung: Maßnahmen
� Migration
� Daten aus veralteten in neue Dateiformate transformieren
� Emulation
� Nachbildung einer alten
ON
� Nachbildung einer alten Anwendungsumgebung in einem modernen System
� Museumsansatz (nicht auf Dauer)
� Erhalt alter Hard- und Software (lauffähig!)
Langzeitarchivierung: Das OAIS-Referenzmodell
OO
Lebenszyklus der Daten im digitalen Langzeitarchiv
� Informationspakete
� Übergabepaket: SIP
� Archivpaket: AIP
� Nutzungspaket: DIP
� Zum AIP gehören
OP
� Zum AIP gehören
� Der eigentliche Inhalt
� LZA-relevante Informationen (Metadaten)� Persistente Identifikatoren
� Technische Informationen
� Struktur
� Herkunft
� Dokumentation aller Veränderungen
� Rechte
Langzeitarchivierung
Der Ansatz der BSB
OQ
Der Ansatz der BSB
Langzeitarchivierung an der BSB: Drei Aufgabengebiete
Laufender Betrieb
� Bibliothekarisches Archivierungs- und Bereitstellungssystem BABS
Optimierung und Konsolidierung der vorhandenen Infrastruktur
OR
� Workflows
� Organisation
� Technologie (inklusive Rosetta)
Forschung und Entwicklung
� Konzeption und Evaluation neuer Methoden und Technologien in innovativen Projekten
� Standardisierung
Langzeitarchivierung an der BSB: Meilensteine
� 1999: Erstes LZA-Projekt mit der Universität der Bundeswehr (Schwerpunkt Datenträger)
� Seit 2003: Initiierung von und Mitarbeit in nestor
� 2004: Beginn der Kooperation mit dem LRZ. Voraussetzung für weitere innovative Projekte.
� 2004: Migration des CD-ROM-Bestandes des MDZ ins Archivsystem des LRZ
OS
� 2005/07: Aufbau des Bibliothekarischen Archivierungs- und Bereitstellungssystem (BABS)
- Konnektivität zum Archivsystem des LRZ - Täglicher Datentransfer- Verteilte, redundante Datenspeicherung
� 2006: Erste vollständige Hardware-Migration des Langzeitarchivs
� 2007: Google-Kooperation � neue quantitative Dimensionen in der dLZA
Das Leibniz-Rechenzentrum als wichtigster strategischer Partner
� Höchstleistungs-Rechenzentrum der Bayerischen Akademie der Wissenschaften
� Archiv- und Backupsystem TSM mit Band-Bibliotheken
OT
mit Band-Bibliotheken
� Ausbau der Kooperation, weitere Aufgaben
� Hosting Hard- und Software
� Massendigitalisierungsprojekte: VD16 digital, PPP mit Google
� LZA: Rosetta
Vielfältige Projekte und Kooperationen
BABS I : Aufbau des Bibliothekarischen Archivierungs-und Bereitstellungssystems (BABS/Pilot) (2005-2007)
BABS II: Evaluation und Optimierung von BABS in puncto Vertrauenswürdigkeit und Skalierbarkeit (2009-2010)
Nestor: Kompetenznetzwerk zur digitalen
OU
Nestor: Kompetenznetzwerk zur digitalen Langzeitarchivierung in Deutschland, seit 2003
Studien und Expertisen: Organisations- und Geschäftsmodelle für die digitale Langzeitarchivierung u. a.
LOCKSS: Kooperationsprojekt mit der Library of Congress
Bewusstsein schaffen
Veröffentlichungen
Community-Bildung
Veranstaltungen
Vernetzung WerWoWas –
Arbeitsgruppen
Information
Ratgeber
Expertisen
News, Kalender, Newsletter
Info-Datenbank
Aus- und Weiterbildung
Handbuch
Schools
OV
internationale Kooperation
Alliance for Permanent Access
EU-Projekte
Standardisierung
DIN – Normen
WerWoWas –Datenbank
Workshops
Projekte
PADI
Lehr- und Lernmodule
LOCKSS an der BSB
� Kooperation mit der LOC
� Sammlung und Austausch von amtlichen Veröffentlichungen (e-Zeitschriften) zwischen Deutschland und USA
� Weitere Partner: DNB, StaBiBerlin, UBRegensburg� Weitere Partner: DNB, StaBiBerlin, UBRegensburg
� LUKII: Aufbau eines deutschen LOCKSS-Netzwerks, Interoperation mit anderen LZA-Systemen
PM
Praxis der Langzeitarchivierung an der BSB: Grundphilosophie
� Klar definierte Methoden und Prozesse
� Archivierung nur mit eindeutiger Rechtsgrundlage
� Standards und Normen werden eingehalten
� Offene, weit verbreitete und gut dokumentierte Formate für
PN
� Offene, weit verbreitete und gut dokumentierte Formate für alle Objekte und Metadaten (keine „Datenfriedhöfe“)
� Ständige Verfügbarkeit für den Endnutzer (kein „Dark Archive“)
� Kooperative Lösungen bündeln Kompetenzen
� Strategischer Partner: Leibniz-Rechenzentrum
Qualitätsfaktoren
� Auswahlentscheidung
“Was soll überhaupt archiviert werden?”
� Strukturelle Entscheidungen
� Dateiformate
� Metadaten
� Qualitätskriterien
PO
� Qualitätskriterien
� Klärung der Rechtefragen
� gesetzliche Grundlage
� Übernahmevereinbarungen
� Vertrauenswürdige und skalierbare technische Infrastruktur: BABS
Fokus
� lokale/ regionale/ nationale Verantwortung
� Materialfokus: breites Spektrum
� Eigene Produktion: Digitalisate, ZEP
� Kooperationsprojekte
� Amtliche Veröffentlichungen Bayerns und des Bundes (Erlass zur Abgabe amtlicher
PP
Bundes (Erlass zur Abgabe amtlicher Veröffentlichungen an Bibliotheken)
� Bayerische „Pflicht“ (Gesetz in Novellierung)
� Lizenzierte Materialien (lokal, regional, national)
� SSG: Wissenschaftlich relevante open access Publikationen und Websites
Was wird archiviert?Erstens: Erwerbung und Pflichtablieferung
eBooks Biographische Datenbanken Online
Dissertationen Tonträger
Wissenschaftliche Datenbanken Fachportale Amtsblätter Elektronische
ZeitungenWissenschaftliche
PQ
ZeitungenWissenschaftliche Zeitschriften Digitalisierte
Fotosammlungen Internet-Quellen NachlässeDigitalisierte
Bücher
Was wird archiviert?Zweitens: Digitalisierungprojekte
LandkartenDeutsche Drucke des 16. Jahrhunderts (VD16) Libretti Zeitungen 100(0)
Schlüsseldokumente zur sowjetischen Geschichte Literarische
Nachlässe Lateinische HandschriftenDigi20Deutsche Handschriften Ausstellungskataloge Monumenta
Germaniae Historica Reichstagsprotokolle
PR
Germaniae Historica Reichstagsprotokolle100(0) Schlüsseldokumente zur deutschen Geschichte
Biographien Bavarica Enzyklopädien
Google MusikdruckeDigitisation
on Demand Blockbücher Inkunabeln Historische
Zeitschriften
BABS: Aktuelle Systemarchitektur
Katalog
MD
URN
Ablieferung / Akquisition
URN
Fachportale
PS
DigiToolZEND
TSM
Archivsystem
Digitalisierung
Middleware
Eigene Produktion(z. B. ZEP)
Nutzer
Status Quo im August 2010
Digitalisierung und Sammelaktivitäten
�Steigende Mengen im Archiv
PT
Archiv
� 476 Mio. Dateien� 241 TB � + 5-10 TB/Monat
PU
Langzeitarchivierung mit
PV
Ein neues Langzeitarchivierungssystem für die BSB
� 2009 Entscheidung pro Rosetta
� 2009-10 Aufbau des Systems
QM
� 2009-10 Aufbau des Systems
� Herbst 2010 Start Probebetrieb
� Frühjahr 2011 Beginn des Produktivbetriebs geplant
Rosetta an der BSB: Partner
� Digitale Bibliothek der BSB (Münchener Digitalisierungszentrum)
� Bibliotheksverbund Bayern (BVB)
� Leibniz-Rechenzentrum (LRZ)
QN
� Partnerbibliotheken aus dem BVB
� UBs Augsburg, Regensburg und Würzburg
� Ex Libris
Historie von Rosetta
Kooperativer Aufbau durch die Nationalbibliothek Neuseeland und Ex Libris
2004 National Digital Heritage Archive Program in Neuseeland gegründet
� 2005/2006 Bestandsaufnahme → Definition der Anforderungen an ein dLZA
QO
� Juli 2007 Entscheidung für eine kommerzielle Lösung zusammen mit ExLibris (2007-2010)
� Nov. 2008 DPS Version 1.0 im Produktivbetrieb
� Jan. 2009 Veröffentlichung von DPS 1.0 als Rosetta und Start des Charter Group Programs
Rosetta an der BSB: Pilotphase
� Installation des Systems
� Integration in die existierende Infrastruktur (Schnittstellen zu Digitalisierungsstraße/ZEND, Webarchivierung, Katalog, Speichersystem)
� Schulung der Mitarbeiter
� Implementation von drei zentralen LZA-Workflows
� Digitalisate
QP
� Digitalisate� Born-Digitals aus Pflichtablieferung und Sammlung� Web-Archive aus Sondersammelgebieten der BSB
� Probebetrieb
� Konnektivität, Datenverarbeitung� Skalierungs- und Lasttests
� Beteiligung an der Rosetta Charter Group
Rosetta an der BSB: Produktive Phase
� Beginn des Routinebetriebs 2011
� Regulärer Ingest von Daten
� Aufbau von Diensten für die drei bayerischen Partnerbibliotheken UBs Augsburg, Regensburg und Würzburg
� Migration vorhandener Daten nach Rosetta
� Aufbau von weiteren Standard-Workflows
� SSG- und Spezialsammlungen (z. B. Bildarchiv)
� Öffnung des Systems für andere Bibliotheken des BVB
Rosetta an der BSB: Systemarchitektur
`çåíÉåí=^ÖÖêÉÖ~íçê
tÉÄÜ~êîÉëíEtÉÄ=`ìê~íçê=qççäF
hçåîÉêëáçåEwbkaF
aáÖáí~äáëáÉêìåÖEjawF mêÉëÉêî~íáçå
^Çãáåáëíê~íáçå
sÉê~êÄÉáíìåÖEfåÖÉëíF
^ìëäáÉÑÉêìåÖ
mìÄäáâ~íáçå
SIP
DIP
h~í~äçÖ
a~íÉåîÉêï~äíìåÖEa~í~=j~å~ÖÉãÉåíF
^fm
SIP
SIP
QR
qpjE^êÅÜáî~ä=píçê~ÖÉF
i~åÖòÉáíëéÉáÅÜÉêE^êÅÜáî~ä=píçê~ÖÉF
aÉéçëáí
c~ÅÜéçêí~äÉ
_p_JsáÉïÉê
^ãíäáÅÜÉ=sÉê∏ÑÑÉåíäáÅÜìåÖÉå
oçëÉíí~=sáÉïÉê
Warum Rosetta?
Umfassende Funktionalitäten für alle Schlüsselbereiche der Langzeitarchiverung
� Flexible Konfiguration
� Bedarfsgerecht zugeschnittene Workflows � Rechte-Management für interne und externe Anwender
QS
Anwender
� Professionelle Datenverwaltung in einem Digital Asset Management System
� Integritäts- und Authentizitätsprüfungen� Formatkonversionen� Metadaten-Erzeugung� Skalierbarkeit
Warum Rosetta?
� Preservation planning & action ist möglich
� Risikoanalysen & Risikomanagement� Planung und Durchführung von Maßnahmen zum Langzeiterhalt
� Gängige Schnittstellen und Standards werden unterstützt
� OAIS, OAI-PMH, …
� Dublin Core, PREMIS, METS, …
QT
� Dublin Core, PREMIS, METS, …
� Open-Platform-Prinzip erlaubt das Andocken eigener Anwendungen (ZEND, Katalog, externe Viewer, …)
� Programmierschnittstellen
� Entwicklertools
� Austausch/Export von Archivpaketen (AIP) mit anderen Repositories ist möglich
Preservation Planning in Rosetta
QU
Ausblick
Vielen Dank für Ihre Aufmerksamkeit!
klaus.kempf@bsb-muenchen.de
QV
Recommended