Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
1
VdW-Arbeitskreis “Elektronische Archivierung” Stand: Dezember 2010
Reference Model for an Open Archival Information System (OAIS)
Inhalt
1. Zu dieser Handreichung
2. Konzepte und Themenbereiche des OAIS
3. Das Datenmodell des OAIS
4. Das Funktionsmodell des OAIS
4.1. Übernahme, Aufbereitung und Erschließung
4.2. Elektronisches Magazin
4.3. Datenbank- und Retrievalsystem
4.4. Bestandserhaltung
4.5. Zentrale Ablaufsteuerung
4.6. Externe Nutzung
An der Projektarbeit wirkten mit:
Dr. Martin Burkhardt, Dr. Jeannette Godau, Dr. Ulrike Gutzmann, Bettina
Hasselbring, Romy Meyer, Sabine Rittner, Nicole Sachmann
2
1. Zu dieser Handreichung
Das 2003 als ISO 14721 verabschiedete OAIS-Referenzmodell zur Organisation und
Abwicklung der Archivierung digitaler Unterlagen wurde 2002 von der Data Archiving
and Ingest Working Group des Consultative Committee for Space Data Systems
(CCSDS) unter Federführung der NASA veröffentlicht.1 Es hat sich weltweit als
Referenzmodell für die digitale Archivierung durchgesetzt.
Das Open Archival Information System (OAIS) beschreibt ein Digitales Archiv als
eine Organisation, in der Menschen und Systeme mit dem Ziel zusammenwirken,
digital gespeicherte Informationen dauerhaft zu erhalten und einer bestimmten
Zielgruppe verfügbar zu machen. Dieses Archiv steht zwischen den beiden
funktionalen Einheiten „Produzent“ (Producer) und „Benutzer“ (Consumer), die
jedoch nicht Bestandteil des Archivs sind. Das OAIS ist dabei bewusst als
generisches und gänzlich funktionales Modell ausgelegt. Es enthält keine Vorgaben
für die Realisierung seiner Ziele und Funktionen und verzichtet auf eine
Beschränkung auf bestimmte Datentypen, Datenformate oder Systemarchitekturen.
Diese Eigenschaft ist eine grundsätzliche Stärke des Modells, wirft aber zugleich die
Frage auf, wie die abstrakten Funktionsvorgaben umgesetzt und sowohl der
archivfachlichen wie technologischen Komplexität gerecht werden können. Die
Handreichung soll bei der Beantwortung dieser Fragen helfen, indem sie die beiden
Kernkomponenten des OAIS, das Datenmodell und das Funktionsmodell, näher
erläutert und zentrale Begrifflichkeiten erklärt. Nach der Lektüre sollen die
Leser/innen wissen, wie die von einem Produzenten hergestellten elektronischen
Informationen in ein Archivsystem gelangen, welche Bearbeitungsschritte für deren
langfristige Archivierung vorgenommen werden müssen, wie auf die im Archiv
gespeicherten Informationen zugegriffen werden kann und wen man außerhalb des
Archivs beteiligen muss, um ein Digitales Archiv aufzubauen und zu führen. Das
vorliegende Papier richtet sich an Archivarinnen und Archivare, die in ihrem
beruflichen Alltag nur wenig Gelegenheit haben, sich ausführlich mit dem OAIS-
Modell auseinander zu setzen und es in seiner englischen Originalfassung zu lesen.
1 Grundlage für diese Handreichung ist das so genannte „Blue Book“. CCSDS 650.0-B-1: Reference Model for an Open Archival Information System (OAIS). Blue Book. Issue 1. January 2002. http://public.ccsds.org/publications/archive/650x0b1.pdf. Eine Reihe von Klarstellungen und Textverbesserungen wurden 2008 im so genannten „Pink Book“ zusammengefasst, das seit August 2009 der Öffentlichkeit zur Einsicht zur Verfügung steht. CCSDS 650.0-P-1.1: Reference Model for an Open Archival Information System (OAIS). Pink Book. August 2009. http://public.ccsds.org/sites/cwe/rids/Lists/CCSDS%206500P11/Attachments/650x0p11.pdf. Bis zum November 2009 bestand die Möglichkeit zur abschließenden Kommentierung. Das Ergebnis ist der ISO zugeleitet worden, damit ist die Revision des ISO 14721 offiziell angestoßen.
3
Zugleich bietet es einen Einstieg zur anschließenden vollständigen Lektüre des
OAIS.
2. Konzepte und Themenbereiche des OAIS
Das OAIS-Referenzmodell versteht sich als offenes Modell und möchte damit ganz
gezielt auch denjenigen Einrichtungen Hilfestellung bei der Archivierung digitaler
Informationen bieten, die bisher kaum oder gar nicht mit Archivierungsfragen
konfrontiert waren. Es verweist auf viele Themenbereiche, die bereits im analogen
Betrieb von Archiven zum Alltag gehören.
Das Referenzmodell besteht im Kern aus einem Datenmodell und einem
Funktionsmodell. Das Datenmodell formuliert Anforderungen an die Form und die
Beschreibung der digitalen Archivalien, die im OAIS verwaltet werden. Das
Funktionsmodell definiert Prozesse und Arbeitsabläufe innerhalb des Digitalen
Archivs, die notwendig sind, um digitale Archivalien zu übernehmen, zu erhalten und
zugänglich zu machen. Diese Prozesse sind in Form von Modulen dargestellt. Die
Module können unabhängig voneinander konzipiert und entwickelt werden.
Digitale Archivierung ist jedoch nicht an Maschinen delegierbar. Das OAIS versteht
die am Prozess beteiligten Personen – Produzent/innen, Archivar/innen und
Nutzer/innen – als Hauptkomponenten des Digitalen Archivs. Der Mensch hat die
Verantwortung für die Sicherung von digitalen Archivalien und deren Bereitstellung
für eine bestimmte Zielgruppe (Designated Community). Die Unterscheidung
verschiedener Zielgruppen ist eine Besonderheit des OAIS. Die Offenheit besteht
nämlich nicht nur auf technischer und in funktioneller Ebene, sondern ergibt sich
auch aus der Tatsache, dass verschiedene Zielgruppen unterschiedliche
Anforderungen an Digitale Archive in der Gegenwart stellen und in der Zukunft
stellen werden: Anforderungen, die heutige Entwicklergenerationen technischer
Lösungen überhaupt nicht voraussehen können und bei denen das, was
Archivierung eigentlich ausmacht, auch im digitalen Umfeld gewährleistet ist. Die
Offenheit des OAIS ist also auf Zukunftsfähigkeit und auf Nachhaltigkeit ausgerichtet.
Die heute im Rahmen des OAIS realisierten Lösungen sollen auch in der Zukunft
verwendbar und in neue technische Realisierungen übertragbar sein. Das OAIS
bleibt damit offen für neue Anforderungen an die Nutzung.2
2 Brübach, Nils: Das Referenzmodell OAIS, in: nestor - Handbuch, Eine kleine Enzyklopädie der digitalen Langzeitarchivierung, Version 2.3 - 2010, S. 4:3-4:14. http://nestor.sub.uni-goettingen.de/handbuch/artikel/nestor_handbuch_artikel_438.pdf
4
3. Das Datenmodell des OAIS
Das OAIS-Referenzmodell definiert digitale Archivalien als Informationspakete.
Ein Informationspaket ist ein logischer Container, der immer aus Primärdaten
(Content Information) und Archivierungs-Metadaten (PDI=Preservation Description
Information) besteht. Beide sind durch die Paketinformation miteinander verbunden
und identifizierbar. Die Paketbeschreibung ist ein Satz von Metadaten zu einem
Informationspaket, der in Findmitteln (zum Beispiel einer Archivdatenbank)
vorgehalten wird und mit dessen Hilfe ein Informationspaket wiederaufgefunden
werden kann.
Abbildung 1: Einfache Ansicht eines Informationspakets
Die Übergabe von Daten an das Digitale Archiv erfolgt in Form eines Übernahme-
pakets (SIP=Submission Information Package). Art und Umfang dieses Pakets wird
zwischen Produzent/innen und Digitalem Archiv ausgehandelt. Zur Aufbewahrung
von Daten im Elektronischen Magazin wird daraus ein Archivpaket (AIP=Archival
Information Package) erstellt. Dessen Konzeption bestimmt das Digitale Archiv unter
Berücksichtigung der Anforderungen seiner Zielgruppe(n). Zur Bereitstellung digitaler
Daten für die Benutzer/innen wird ein Nutzungspaket (DIP=Dissemination
Information Package) erzeugt. Ein SIP kann zu einem AIP, einem Teil eines AIPs
5
oder auch zu mehreren AIPs führen.3 Ebenso kann ein DIP aus einem AIP, einem
Teil eines AIPs oder aus mehreren AIPs gebildet werden.4
Abbildung 2: Detaillierte Ansicht eines Archivpakets (AIP)
Primärdaten
Die Primärdaten sind das eigentliche Ziel der Erhaltung. Sie setzen sich aus dem
Datenobjekt und der zugehörigen Repräsentationsinformation zusammen.
Datenobjekt
Bei dem Datenobjekt handelt es sich entweder um ein Reales Objekt (Physical
Object) oder ein Digitales Objekt (Digital Object).
Digitales Objekt
Ein Digitales Objekt setzt sich aus einer Reihe von Bitsequenzen zusammen.
3 Mehrere E-Mails (=SIPs) können zu einem AIP werden (n:1); eine E-Mail (=SIP) kann zu einem AIP führen (1:1); eine DVD (=SIP) kann zehntausend Bilder (= AIPs) enthalten (1:n). 4 Das Landesarchiv Baden-Württemberg hat zum Beispiel die Volkszählungen 1961, 1970 und 1987 übernommen. Denkbare DIPs wären in diesem Fall die Daten von Heilbronn von 1970, die Heilbronner Daten von 1970 und 1987, alle Daten von 1961, 1970 und 1987 oder alle Daten von 1987.
6
Repräsentationsinformation(en)
Die Repräsentationsinformationen sorgen dafür, dass Digitale Objekte in
aussagekräftigere Begriffssysteme übertragen, d.h. für Menschen lesbar werden. Sie
teilen sich in Strukturinformationen und Semantische Informationen. Ohne die
Repräsentationsinformationen wäre ein Digitales Objekt nahezu wertlos, daher sind
sie ein existenzieller Bestandteil der Primärdaten.
Strukturinformation(en)
Die Strukturinformation bestimmt, wie die Bitfolgen der Digitalen Objekte in geläufige
Zeichen wie Buchstaben, Zahlen oder Pixel bzw. in Gruppen von Buchstaben,
Zahlen oder Pixel übersetzt werden (z. B. ASCII).
Semantische Information(en)
Die Semantische Information dient als Interpretationshilfe für den/die Benutzer/in. Sie
gibt zum Beispiel an, in welcher Sprache ein Text geschrieben ist und bietet
möglicherweise sogar eine Grammatik und ein Wörterbuch. Art und Umfang der
Semantischen Information richten sich nach den (Vor-)Kenntnissen der
Zielgruppe(n). Die Betreiber eines Digitalen Archivs müssen diese (Vor-)Kenntnisse
ständig beobachten und die Semantische Information gegebenenfalls anpassen.
Archivierungs-Metadaten
Die Archivierungs-Metadaten erklären, wo die Primärdaten entstanden sind und wie
sie im Sinne ihrer dauerhaften Aufbewahrung verändert wurden (Provenienz-
information) und welche Technik und Verfahren benötigt werden, um die Primärdaten
vor unautorisierten Änderungen zu schützen (Sicherungsinformationen), sie
eindeutig zu identifizieren (Referenzinformation) und sie in ihren Kontext einzuordnen
(Kontextinformation).5
Provenienzinformation(en)
Die Provenienzinformation benennt den Produzenten der Primärdaten und
beschreibt ihre weitere Entwicklung, ihre „Verarbeitungshistorie“.
5 Das OAIS-Referenzmodell selbst liefert kein Vokabular für die Archivierungs-Metadaten. Dafür wurde zwischen 2003 und 2005 das Rahmenwerk PREMIS (PREservation Metadata: Implementation Strategies) entwickelt.
7
Kontextinformation(en)
Die Kontextinformation beschreibt die Beziehungen der Primärdaten zu ihrer
Umgebung. Dazu gehört etwa, warum sie entstanden sind und in welcher Beziehung
sie zu anderen Primärdaten stehen.
Referenzinformation(en)
Die Referenzinformation liefert eindeutige Schlüssel (identifier) zur Identifizierung der
Primärdaten und der zugehörigen Archivierungs-Metadaten.
Sicherungsinformation(en)
Die Sicherungsinformation soll verhindern, dass Primärdaten undokumentiert
verändert werden (z. B. durch Hashwerte).
Paketinformation
Die Paketinformation verknüpft und identifiziert Primärdaten und die zugehörigen
Archivierungs-Metadaten. Sie enthält Signaturen/Lokaturen der einzelnen
Komponenten eines Informationspakets.
Paketbeschreibung
Die Paketbeschreibung ist ein strukturierter Satz von Metadaten zu einem
Archivpaket, der in Findmitteln vorgehalten wird (z. B. ein Datensatz in einer
Datenbank). Er enthält zusätzlich zu den für die Langzeitarchivierung benötigten
formalen und technischen Metadaten auch inhaltliche Metadaten.
Erschließungsinformation(en)
Die Erschließungsinformationen bestehen vor allem aus Paketbeschreibungen. Sie
werden in Findmitteln (z. B. Datenbanken) vorgehalten.
4. Das Funktionsmodell des OAIS
Der modulare Aufbau eines Digitalen Archivs im OAIS-Referenzmodell erlaubt eine
Anpassung an unterschiedliche Umgebungen. Der Datenaustausch wird über
Schnittstellen geregelt. Das OAIS umfasst folgende Module:
1. Technische Voraussetzungen (Common Services)
2. Übernahme, Aufbereitung und Erschließung (Ingest)
8
3. Elektronisches Magazin (Archival Storage)
4. Datenbank- und Retrievalsystem (Data Management)
5. Zentrale Ablaufsteuerung (Administration)
6. Bestandserhaltung (Preservation Planning)
7. Externe Nutzung (Access)
Die technischen Voraussetzungen (Punkt 1) beziehen sich auf die Anforderungen vor
der Übernahme von Archivalien in das Digitale Archiv. Gemeint sind Programme und
Prozesse, die beim Betreiben von IT-Anwendungen benötigt werden. Dazu gehören
ausführende Systeme, Netzwerke und Datensicherheit. In dem folgenden
Funktionsmodell werden diese Voraussetzungen nicht gesondert aufgeführt.
Abbildung 3: Das Funktionsmodell des OAIS
Das Funktionsmodell regelt im Wesentlichen, wie ein von einem Produzenten
hergestelltes SIP in das Digitale Archiv integriert wird (Übernahme, Aufbereitung und
Erschließung). Es wird in ein oder mehrere AIPs umgewandelt und im Elektronischen
Magazin abgelegt. Die Verwaltung der Archivpakete erfolgt im Datenbank- und
Retrievalsystem. Via Nutzungs-Modul kann aus einem oder mehreren AIPs unter
Einhaltung sämtlicher rechtlicher Einschränkungen ein DIP generiert und an die
9
Benutzer/innen ausgeliefert werden. Die möglicherweise für die Langzeitarchivierung
notwendigen Migrationen der AIPs werden in der Bestandserhaltung geplant.6 Die
Verwaltung des gesamten Digitalen Archivs erfolgt in der Zentralen Ablaufsteuerung.
Im Folgenden werden die einzelnen Module genauer betrachtet und ihre Aufgaben
innerhalb des OAIS benannt. Sie werden in der Reihenfolge aufgeführt, in der sie in
einem Digitalen Archiv idealtypisch erledigt werden. Diese idealtypische
Tätigkeitsfolge ist aber nicht streng chronologisch zu verstehen. Es handelt sich
vielmehr um einen Kreislauf, in dem jedes Modul auf den Input anderer Module
angewiesen ist, um seine Funktionen ausführen zu können.
4.1. Übernahme, Aufbereitung und Erschließung
In diesem Modul werden SIPs von Produzenten angenommen und zur Speicherung
und Verwaltung innerhalb des Digitalen Archivs vorbereitet.
Abbildung 4: Aufgaben der Übernahme, Aufbereitung und Erschließung
Die Übernahme ist erst abgeschlossen, wenn ein vollständiges Archivpaket gebildet
wurde. Das Modul umfasst folgende Funktionen:
6 Laut OAIS kann auch die Emulation oder eine andere Erhaltungsstrategie angewandt werden.
10
a) Annahme der SIPs von Produzenten (über diverse Schnittstellen) und deren
Überprüfung auf Viren, Vollständigkeit etc.
b) Erzeugung von AIPs: Datenkonversion in archivwürdige Formate entsprechend
den von der Zentralen Ablaufsteuerung vorgegebenen Richtlinien und Standards.
c) Erschließung der digitalen Objekte: Automatische Übernahme (über diverse
Schnittstellen) und ggf. manuelle Ergänzung eines Minimal-Metadatensatzes.
d) Eine definierte Teilmenge dieser Minimal-Metadaten wird pro AIP in einem
XML-Dokument nach einem festen Schema abgelegt.7 Aus den konvertierten
Daten (b) und diesem XML-Dokument wird ein AIP gebildet.
e) Transfer der Minimal-Metadaten in das Datenbank- und Retrievalsystem.
f) Transfer der AIPs in das Elektronische Magazin.
4. 2. Elektronisches Magazin
Das Elektronische Magazin umfasst den digitalen Speicher sowie seine Organisation.
Abbildung 5: Aufgaben des Elektronischen Magazins
7 Das OAIS selbst legt sich nicht auf ein bestimmtes Format fest, XML hat sich aber in der europäischen Archivlandschaft als Format zur Speicherung von Metadaten durchgesetzt.
11
Das Elektronische Magazin stellt Dienstleistungen und Funktionen bereit für:
a) die Speicherung von AIPs.
b) das Wiederauffinden und die Bereitstellung von AIPs für die Nutzung.
c) das Wiederherstellen von Daten nach Ausfällen.
d) die Fehleranalyse und -korrektur.
Es muss Anforderungen für verschiedene Sicherheitsebenen berücksichtigen
(Benutzerrechteverwaltung) und Daten für Speicher- und Nutzungsstatistiken liefern.
4.3. Datenbank- und Retrievalsystem
Das Datenbank- und Retrievalsystem umfasst die klassischen archivischen
Kernaufgaben: inhaltliche Erschließung, Recherche und Wiederauffinden von
Archivalien.
Abbildung 6: Aufgaben des Datenbank- und Retrievalsystems
Im Datenbank- und Retrievalsystem werden die im Elektronischen Magazin
vorhandenen Archivpakete in den Paketbeschreibungen zusätzlich inhaltlich
erschlossen (z. B. Index, Thesaurus) und ggf. aktualisiert.
12
4.4. Zentrale Ablaufsteuerung
Die Zentrale Ablaufsteuerung kontrolliert kontinuierlich die Funktionalität des
gesamten Archivsystems und steuert die Abläufe und Informationsflüsse zwischen
den einzelnen Modulen. So werden zum Beispiel Beobachtungen aus der Bestands-
erhaltung hier in Standards und Richtlinien umgesetzt, die dann wiederum an die
Übernahme und Erschließung weitergegeben werden. Außerdem ist im Modul
Zentrale Ablaufsteuerung der Kontakt des Digitalen Archivs etwa mit den Daten
produzierenden Stellen integriert. Die Funktionseinheit „Verhandlungen mit
Produzenten“ beinhaltet wichtige Aufgaben aus dem vorarchivischen Bereich
(Dokumentenmanagement / Records Management). Hier verhandelt das Archiv mit
den abgebenden Stellen über Art und Umfang der zu übernehmenden Primärdaten
und Metadaten und überprüft, ob die Eingänge auch den getroffenen
Vereinbarungen entsprechen.8
Abbildung 7: Aufgaben der Zentralen Ablaufsteuerung
8 Das OAIS beschreibt vor allem die Aufgaben in einem sogenannten „Endarchiv“, weniger die Prozesse des vorarchivischen Bereichs, wie etwa Regeln zum Dokumenten- oder Records Management. Hierzu müssten die ISO Norm 15489 Records Management/Schriftgutverwaltung, das DOMEA-Konzept bzw. die Handlungsempfehlungen MoReq2 herangezogen werden.
13
4.5. Bestandserhaltung
Die Bestandserhaltung sorgt durch vorausschauende Planung und die Wahl und
Anwendung geeigneter Maßnahmen für die langfristige Verfügbarkeit digitaler
Informationen unter Wahrung ihrer Integrität und Authentizität.
Abbildung 8: Aufgaben der Bestandserhaltung
Es müssen Strategien entwickelt werden für:
a) den Umgang mit Informationspaketen (Vorlagen für AIPs, SIPs, DIPs).
b) die Bestandserhaltung selbst (Migration/Emulation/Erhaltung der Originaltechnik).
c) die Notfallplanung.
Dazu müssen das technische Umfeld und die Zielgruppen des Digitalen Archivs
ständig beobachtet werden. Aus diesen Beobachtungen leiten sich die künftigen
Anforderungen ab.
14
4.6. Externe Nutzung
Das Nutzungsmodul ermöglicht es externen Benutzer/innen im Digitalen Archiv zu
recherchieren. Die Recherche erfolgt entweder durch die externen Benutzer/innen
selbst über Online-Applikationen oder durch die Betreiber/innen des Digitalen
Archivs.
Abbildung 9: Aufgaben der Externen Nutzung
Das Nutzungsmodul koordiniert die Bereitstellung von Informationspaketen. Es kann
Suchanfragen und Bestellungen entgegennehmen und sie an das Datenbank- und
Retrievalsystem weiterleiten. Sobald von dort die Suchergebnisse eintreffen, erstellt
das Nutzungsmodul DIPs, die dann an die Benutzer/innen ausgeliefert werden.
15
5. Fazit
Das OAIS fordert ein komplexes Zusammenspiel verschiedener Module. Zwar gibt es
für einzelne Module kommerzielle Lösungen am Markt, etwa für die Erschließung
oder zur Datenspeicherung,9 jedoch ist bislang kein OAIS-konformes Archivsystem
im deutschsprachigen Raum zu erwerben, das eine Gesamtlösung bietet. Dieses
Paket ist auch in absehbarer Zeit, so scheint es, nicht zu erwarten. Archive müssen
darum, ausgehend von ihren individuellen Voraussetzungen, eine jeweils passende
Lösung selbst finden. Dabei bewegen sie sich in einem Rahmen, der von
technischen und organisatorischen Vorgaben, aber auch hinsichtlich der finanziellen
Ressourcen bestimmt wird. So wird es zwar oftmals nicht möglich sein, die perfekte
Komplettlösung umzusetzen, es bleibt aber möglich, innerhalb des Rahmens eine
optimale Lösung zu finden. Das Ziel muss sein, das Archiv zukunftsfähig aufzustellen
und die Überlieferung der analogen wie der digitalen Dokumente zu sichern.
9 Den am Arbeitskreis beteiligten Archiven sind für die einzelnen Module unterschiedliche Software-Lösungen bekannt. Übernahme, Aufbereitung und Erschließung: IngestList, scopeIngest, SIARD; Datenbank- und Retrievalsystem: Acta Pro, Augias, CMI Star, Faust, Saperion, scopeArchiv; Elektronisches Magazin: Dimag, Fedora, IBM Dias; Externe Nutzung: OLF 21, scopeQuery (s. Abb. 3).