Synergiepotentiale zwischen GRID- und eScience-Technologien für die Langzeitarchivierung -Entwurf-...

Preview:

Citation preview

“Synergiepotentiale zwischen GRID- und eScience-Technologien für die

Langzeitarchivierung”

-Entwurf-

Prof. Dr. W. SchiffmannFernUniversität Hagen

Frankfurt, 26.10.2007

Aufgabenstellung (Auszüge)... Ansatzpunkte für die Nutzung von Synergien zwischen bereits

existierenden F&E-Aktivitäten im Bereich e-Science .... und innerhalb der Förderaktivität „e-Science und vernetztes Wissenmangement“ identifiziert, in eine Menge von potentiellen technischen Integrationsmodellen überführt und abschließend hinsichtich möglicher Kooperationsinfrastruktrukturen aufbereitet.

... funktionale Ansatzpunkte für die Integration von LZA-Funktionen in bereits existierende technische Infrastrukturen ... und einer sinnvoll fokusierten Auswahl der o.g. e-Science-Plattformen identifizieren und auf Synergiepotentiale hin untersuchen.

... denkbare Varianten von lose und eng gekoppelten technischen Integrationsmodellen für eine zukünftige Integration von LZA-Funktionen in grid-basierte e-Science-Infrastrukturen...

... Nutzung von grid-basierten Ergebnissen und Komponenten für die Entwicklung und Bereitstellung von LZA-Funktionen in bereits existierende LZA-Infrastrukturen ...

Aufbau der Expertise

1. Motivation und Ziele

Langzeitarchivierung (LZA) bedeutet: Digitale Information (Daten, Texte,

Multimedia, Software) langfristig speichern, wiederfinden und für die menschlichen Sinne

zugänglich machen.

Gemäß Aufgabenstellung benötigte LZA-Funktionen

1. Verteilte Speicherung großer Datenmengen2. Flexibles Rechtemanagement3. Integration vorhandener Repositorien4. Persistente Speicherung von Daten, Dokumenten

und Software5. Migration von Dokumentenformaten6. Unterstützung von e-Science und vernetztem

Wissensmanagement

Schichtenmodell

Analyse existierender F&E-Projekte

• Prioritäten– National (22)– Europa (46)– Weltweit (4)

• Kategorien– Grid– LZA– eScience– Grid & eScience

e-ScienceGrid

LZA

Synergiepotentiale

Nationale ProjekteProjektname URL

D-Grid www.d-grid.de

DGI dgi.d-grid.de

AstroGrid-D www.gac-grid.de

C3-Grid www.c3grid.de

HEP Community Grid www.d-grid.de/index.php?id=44

InGrid www.ingrid-info.de

MediGRID www.medigrid.de

TextGrid www.d-grid.de/index.php?id=167

Kompetenznetzwerk LZA langzeitarchivierung.de

BABS www.babs-muenchen.de

Kopal kopal.langzeitarchivierung.de

MyCoRe http://www.mycore.de

eSciDoc www.escidoc-project.de

FRESCO http://www.ipsi.fraunhofer.de/i-info/de/content/view/97/0/

STEMNET http://www.dl-forum.de/deutsch/projekte/projekte_2681_DEU_HTML.htm

SYNERGIE http://www.dl-forum.de/deutsch/projekte/projekte_2683_DEU_HTML.htm

HyperImage http://www.dl-forum.de/deutsch/projekte/projekte_2688_DEU_HTML.htm

Im Wissnsnetz http://www.dl-forum.de/deutsch/projekte/projekte_2538_DEU_HTML.htm

WIKINGER http://www.imk.fraunhofer.de/de/wikinger

WISENT http://www.dl-forum.de/deutsch/projekte/projekte_2370_DEU_HTML.htm

Ontoverse http://www.dl-forum.de/deutsch/projekte/projekte_2381_DEU_HTML.htm

links4science http://www.dl-forum.de/deutsch/projekte/projekte_2764_DEU_HTML.htm

2. Stand der Technik

• Auswahl relevanter Datengrid-Technologien

• GsiFTP (GridFTP)• OGSA-DAI• LOCKSS• WebDAV• dCache• SRB• Nirvana• iRODS

2. Stand der Technik (cont.)

• Auswahl relevanter e-Science-Technologien

• eSciDoc• Forschungsplattform• Zugriff auf Forschungsergebnisse und –

materialien für MPG-Wissenschaftler

• ONTOVERSE• Web-gestützte Anwendung• Kooperative und interdisziplinäre Erstellung

von Ontologien

2. Stand der Technik (cont.)

• WIKINGER• Plattform für Wissenschaftler• Wiki als Benutzeroberfläche – daraus erfolgt

dann die semi-automatische Erstellung semantischer Netze

• Beispiel „zeitgeschichtlicher Katolizismus“

• Im Wissensnetz• Interdisziplinäre

Wissensschöpfungsprozesse • Techniken des betrieblichen

Wissensmanagements

3. Szenarien

1. Datensharing Wissenschaftler– Registrierung eines logischen Verzeichnisses– Freigabe lesender Zugriff für Kollegen– Registry vermittelt Zugriffskanal über Middleware– Mounten des logischen Verzeichnisse in Dateisystem

2. LZA mit QoS– Projektdaten und Dokumentation für einen Zeitraum von 5 Jahren archivieren– Mounten eines logischen Verzeichnisses einer Gedächtnisorganisation– Diese betreibt physische Speicherressourcen (inkl. Archivierung/Repliken)– Lokale Repliken sorgen als Caches für hohe Verfügbarkeit

3. Szenarien (cont.)

3. Wissensmanagement– frei zugängliche aktuelle Publikationen suchen– Metadaten unterstützen Suchprozess – Rohdaten und Auswerteprogramme sind zugänglich– Annotations- und Kollaborationswerkzeuge

4. Verteilte Labore– Messwerte eines Sensornetzes zusammenführen– Server mounten das gleiche logische Verzeichnis– dito. Forscher mit lesendem Zugriff– Daten sind unverzüglich über lokales Dateisystem zugreifbar– Optional LZA über Gedächtnisorganisation

4. Integrative LZA-Infrastruktur

• Disziplinübergreifend, flexibel, benutzerfreundlich• Integration verteilter Repositorien• Dynamisch veränderliche Daten

• Lösung: Föderiertes Datengrid• Data Grid Registry• Abstraktion von physischem Speicherort• Logische Benutzernamen

• Provider oder User• Übertragung von Benutzerrechten

Gemeinsamer Zugriff auf

Daten 1. Webschnittstelle der Registry– Integration von Wissensmanagement-

Werkzeugen – Hohe Benutzerfreundlichkeit

2. Anbindung an Dateisysteme über Middleware– Verteilte Speicherressourcen integrieren– Keine zentrale Instanz notwendig– Transparente Nutzung aus Programmen– Einfache Anbindung an Rechnergrids

Persistente Speicherung

• Realisierbar durch Kopien in Repositorien mit LZA-Funktionalität (Gedächtnisorganisationen)

• unterschiedliche Erhaltungszeiträume• Repliken an unterschiedlichen Orten

• Verfügbarkeit beim Benutzer erhöhen• Spiegelung auf lokalem Dateisystem• Zeitstempel und Prüfinformationen

Rechnergrids realisieren wichtige LZA-Funktionen

• Rechnergrids können genutzt werden, um die verteilt gespeicherten Daten zu verschlagworten und Relationen zwischen den Repositories herzustellen

• Die Dokumentformate werden in regelmäßigen Abständen geprüft und gegebenfalls automatisch durch Rechnergrids in neue Formate konvertiert (Migration)

• Software kann mit Hilfe virtueller Maschinen erhalten werden. Rechnergrids stellen die benötigte Rechenleistung zur Verfügung

Handlungsempfehlungen

1. Aufbau eines Deutschen Daten Grids2. eScience/Wissensschicht-Webplattformen3. Virtuelle Digitale Bibliotheken, Archive und

Leseräume

1.D-Datengrid (DDG)

• CG-übergreifendes Datengrid-Projekt• Speicherressourcen nahtlos integrieren• Einfache Integration von bestehenden Repositories• Datengrid-Registries

• Analog DNS-Server: Link zwischen Repository und physischer Speicherressource

• Shibboleth Authentifizierung• Autorisierung durch die Eigner • Vermittlung von Datenverbindungen zu

bekannten Dateisystemen • Middleware für gängige Rechnerplattformen

2. eScience/Wissensschicht- Webplattformen

• Effiziente Suche über benutzerfreundliche Webschnittstelle

• Personalisierte Zugänge mit Awareness-Funktion• Annotation

• Metadaten des Benutzers• Automatische Verschlagwortung

• Kollaboration• Dokumente• Daten• Auswertesoftware bereitstellen (vgl. nächste

Folie)

3. Virtuelle Digitale Bibliotheken, Archive und

Leseräume• Migration bedeutet hohen Rechenaufwand zur

Transformation großer Datenbestände. • Alternativ zur Migration kann auch die

Rechnerplattform (inkl. Software) zur Bearbeitung der Orginaldaten migriert werden. • Reservierungssystem zum exklusiven Zugriff

auf die virtuellen Maschinen• Transparente Kopplung mit Remote Desktop

Protokoll• Erhaltung von Dokumenten (Authentizität) und

Software (z.B. Auswerteprogramme, die bei Publikationen genutzt wurden).

Vielen Dank für Ihre Aufmerksamkeit!

Vielen Dank für Ihre Aufmerksamkeit.

Univ.-Prof. Dr.-Ing. Wolfram Schiffmann

Fernuniversität HagenFakultät für Mathematik und InformatikLehrgebiet RechnerarchitekturUniversitätsstrasse 1D-58087 Hagen

email: Wolfram.Schiffmann@FernUni-Hagen.deTelefon: +49-2231-987-325Telefax: +49-2331-987-332

Recommended