12
Michael Lautenschlager (DKRZ) WissGrid AP3 Review, Potsdam 28.01.10 1

Michael Lautenschlager (DKRZ) WissGrid AP3 Review, Potsdam 28.01.10 1

Embed Size (px)

Citation preview

Page 1: Michael Lautenschlager (DKRZ) WissGrid AP3 Review, Potsdam 28.01.10 1

Michael Lautenschlager (DKRZ)

WissGrid AP3 Review, Potsdam 28.01.10

1

Page 2: Michael Lautenschlager (DKRZ) WissGrid AP3 Review, Potsdam 28.01.10 1

2

Inhalt:

• Hintergrund und Motivation

• Aktuelle Umsetzung

• Beispiel: Formatdienste in Klima-Community

Page 3: Michael Lautenschlager (DKRZ) WissGrid AP3 Review, Potsdam 28.01.10 1

3

Langzeitarchivierung (LZA): Sicherung der Nachnutzbarkeit

• Bitstream Preservation: Datenentitäten bleiben erhalten

• Content Preservation: Datenentitäten bleiben lesbar

• Data Curation: Datenentitäten bleiben interpretierbar

Datenentitäten: Digitale Medien und wissenschaftliche Primärdaten

WissG

rid LZA Dienste

Page 4: Michael Lautenschlager (DKRZ) WissGrid AP3 Review, Potsdam 28.01.10 1

4

LZA-Dienste, LZA-Ebenen und Akteure

WissGrid Dienste-Fokus: Content Preservation

Page 5: Michael Lautenschlager (DKRZ) WissGrid AP3 Review, Potsdam 28.01.10 1

5

Zentraler Aspekt in Content Preservation: Anpassung vorhandener Datenformate an sich verändernde SW-Werkzeuge

Strategie:A)Veraltete Speicherformate in aktuelle Formate konvertieren (z.B. digitale Medien)B)SW-Werkzeuge zum Lesen der Speicherformate auf aktuelle Rechnerarchitekturen migrieren (z.B. hoch volumige Daten aus (Klima-)Modellierung und Erdbeobachtung)

WissGrid Fokus für LZA-Dienste auf A):Transformation definierter Formate kann am ehesten automatisiert und als Grid-Dienst implementiert werden.

Page 6: Michael Lautenschlager (DKRZ) WissGrid AP3 Review, Potsdam 28.01.10 1

6

LZA-Dienste, die sich aus WissGrid Architektur ergeben:

• Repository: SW-System, das Daten mit Metadaten im Grid verwaltet

• Formatkonvertierung: Konvertierung in neue technische Form für dasselbe intellektuelle Objekt• Formatcharakterisierung: Auslesen technischer Metadaten aus Dateien• Formatvalidierung: Prüft Übereinstimmung von Objekten mit Definition bzw. Charakterisierung

• Provenienz-Service: Informationen um Entstehung und Modifikation von Daten sollen in LZA-Repositorien integriert werden, um Nachnutzung sicherzustellen• WissGrid Dienste Framework (WDF): Stellt LZA-Dienste im Grid zur Verfügung

Page 7: Michael Lautenschlager (DKRZ) WissGrid AP3 Review, Potsdam 28.01.10 1

7

LZA-Dienste im OAIS-Ingest als Interface zum Forschungsdatenarchiv (LZA)

Formatvalidierung: Prüfung auf Formatfehler beim Einfüllen in Forschungsdatenarchiv (OAIS „quality assurance“)Formatcharakterisierung: bietet Provenienzinformation. Übergang zu Data Curation und inhaltlichen Metadaten fließend (OAIS „general descriptve information“)Formatkonvertierung: unterschieden nach „migration on ingest“, migration on access“ und „migration on obsolence“ (verschiedene OAIS Referenzen, hier „generate AIP“)Provenienz-Service: Speicherung der Prozeßinformation, enthalten in OAIS Informationspaketen.

Page 8: Michael Lautenschlager (DKRZ) WissGrid AP3 Review, Potsdam 28.01.10 1

8

Formatcharakterisierung und –validierung

• Funktionaler Ablauf:• Identifikation des Datenformats• Identifikation des richtigen Formatmoduls• Formatmodul parst Daten• Anwendung der Validierungskriterien• Serialisierung der gewonnenen Metadaten in Zielformat

• Technische Umsetzung: JHOVE2 wurde entwickelt für Standard-Medienformate, Erweiterung auf NetCDF in Klima-Community im Rahmen von C3-Grid (Details AWI, Bremerhaven)

Umsetzung

Page 9: Michael Lautenschlager (DKRZ) WissGrid AP3 Review, Potsdam 28.01.10 1

9

Formatkonvertierung

• Funktionaler Ablauf: •Identifikation des Datenformats (z.B. JHOVE)• Evaluation der Abhängigkeiten und Entscheidung zur Aggregation in LZA• Identifikation des richtigen Konvertermoduls• Ausführung des Konvertermoduls und Validierung des Zielformats• Generierung von Provenienzmetadaten

• Technische Umsetzung:• CriB und kopal Migration Manager sind Frameworks zur Formatkonvertierung (Prototypen), eigentliche Konvertierung durch externe Dienste• Klima-Community:

• Aggregation von Einzelfiles in Container-Format (tar)• CMOR-2: Konvertierung von Modelloutput in NetCDF4• CDOs (Climate Data Operators): Konvertierung in NetCDF, GRIB, ASCII• WDCC des DKRZ: Konvertierung NetCDF oder GRIB in ASCII

Page 10: Michael Lautenschlager (DKRZ) WissGrid AP3 Review, Potsdam 28.01.10 1

10

Provenienzdienst

• Funktionaler Ablauf: Metadaten aus Formatcharakterisierung und –validierung werden in XML-Contianer (z.B.OGF-Usage-Record) gespeichert und mit XSLT-Mapping auf Metadaten in LZA Repositorien der Forschungsdatenarchive abgebildet (z.B. PREMIS-Standard für preservation metadata, CERA-2 im WDCC/DKRZ, ISO19115 im C3-Grid)).

• Technische Umsetzung:(Graphik aus AeroGrid)

C3-Grid: Metadaten werden in den einzelnen Datenbearbeitungsschritten der Workflows angepasst

Page 11: Michael Lautenschlager (DKRZ) WissGrid AP3 Review, Potsdam 28.01.10 1

11

WissGrid Dienst Framework (WDF)

• Ablauf einer LZA Aufgabe:1. Submit: Annahme der LZA-

Aufgabe(z.B. Konvertiere TIFF Daten, die älter als zwei Jahre sind, in JPEG 2000)

2. Extract: Filterung der gefragten Daten aus Repository

3. Identify: Auswahl einer verfügbaren CE (computing element), auf der der gefragte Dienst installiert ist

4. Stage-In: Transfer der Daten auf das CE

5. Stage-Out: Annahme der konvertierten Daten, nach Ablauf des Jobs

6. Re-Ingest: Rückführung der Daten in das Repository und Aktualisierung der Metadaten

Page 12: Michael Lautenschlager (DKRZ) WissGrid AP3 Review, Potsdam 28.01.10 1

12

Formatdienste in Klima-Community

Klimadaten: Hoch volumige, homogene Datensätze von numerischen Modellen und Satelliten, aber auch heterogene Daten aus Instrumentenbeobachtungen

Eintrag in Forschungsdatenarchive (LZA): Charakterisierung/Dokumentation (Metadaten) und Konvertierung in LZA-konformes Standardformat

Selbstbeschreibendes Standardformat: NetCDF/CF enthält Metadaten zur Formatcharakterisierung und in Ansätzen zur Dateninterpretation

Dienste in C3-Grid: Entwicklung von Werkzeugen zur automatischen Metadatenerzeugung aus NetCDF (JHOVE-2), CDO zur Formatvalidierung und –Konvertierung, DB des WDCC/DKRZ zur Formatkonvertierung beim Datenzugriff

Dienste IPCC AR5: CMOR-2 (C-Programm) als LZA Schnittstelle zur Formatvalidierung, Charakterisierung und Konvertierung (Modelldatenformat in NetCDF4) und zur Extraktion von Metadaten für den Provenienz-Service