View
104
Download
0
Category
Preview:
Citation preview
Langzeitarchivierung von Klimamodelldaten am Beispiel
WDC Climate und DKRZ
Michael Lautenschlager (WDCC / MPI-M, Hamburg)Wolfgang Stahl (DKRZ, Hamburg)
Workshop: Speicherkonzepte digitaler Langzeitarchivierung27. - 29. November 2006
Niedersächsische Staats- und Universitätsbibliothek, Göttingen
Inhalt
Einführung Klimamodellierung
Datenzuwachs und Probleme
Lösungen: Datenmanagement
Lösungen: Technische Umsetzung
Zusammenfassung
Schematische Darstellung Klimasystem
Einführung
Schematische Darstellungdes Hamburger IPCC-Klimamodells ECHAM5/MPI-OM
Einführung
Schematische DarstellungsignifikanterProzesse im Atmosphären-modell
Einführung
Antrieb Klimaprojektionen IPCC AR4
Einführung
Vergleich der heutigenMeereisbedeckung im März und September(oben) mit den Projektionen für das Szenario A1B (unten) im Jahr 2100.Ebenfalls dargestellt ist die Schneebedeckungüber Land.
Einführung
Räumliche Auflösung des Nordatlantischen Sektors
Datenzuwachs und Probleme
Datenzuwachs und Probleme
Datenvolumina in Klimaprognosen:
IPCC AR4: ECHAM5[T63L19]/MPI-OM produziert 23 TB/Jahr Klimaprognose 240 Jahre (1860-2100): 5,5 TB und ca.
2 Mon. Maschinenzeit
Ausblick: ECHAM5[T106L31] produziert 44 GB/Jahr Klimaprognose 240 Jahre (1860-2100): 106 TB, d.h.
Aufwand ist ca. 20 * T63
Datenzuwachs und Probleme
0
500
1000
1500
2000
2500
3000
3500
4000
4500
5000
[TB]
Mrz.
02
Mai
. 02
Jul. 0
2
Sep. 0
2
Nov. 0
2
Jan.
03
Mrz.
03
Mai
. 03
Jul. 0
3
Sep. 0
3
Nov. 0
3
Jan.
04
Mrz.
04
Mai
. 04
Jul. 0
4
Sep. 0
4
Nov. 0
4
Jan.
05
Mrz.
05
Mai
. 05
Jul. 0
5
Sep. 0
5
Nov. 0
5
Jan.
06
Mrz.
06
May
06
Jul. 0
6
Sep. 0
6
Nov. 0
6
data per tape type
T1A
9840 C
9940 B
9940 A
9840 A/B
SD3
Aktueller Bestand:5 Billiarden ByteAuf 30000 Bändern
Medienverteilung: Kapazität
03.02 11.06
Datenzuwachs und Probleme
x 32
LAN
x 16 x 35
UCFM Cache
17 TB
9840C x 79940B x 18T10000 x 8LTO2 x 2
x 16
GFS Disk
70 TB
x 32
x 48
DBMS Disk
30 TB
x 20
x 112
x 36
x 24x 12
SX-6SX-6 SX-6SX-6 SX-6SX-6 SX-6SX-6 SX-6SX-6 SX-6SX-6
SX-6SX-6 SX-6SX-6 SX-6SX-6 SX-6SX-6 SX-6SX-6 SX-6SX-6 SX-6SX-6 SX-6SX-6
IXS 24 nodes
x 2
DXUL-DB
Oracle9i
6 * 4/86 * 4/8
3 * 16/32-483 * 16/32-48
x 12
x 6
GFS/UVDM
UDSN
UCFM
3 * 4/83 * 4/8
SUN
ApplSrv
x 6
x 8
x 6
DS test8/168/16
UDSN
2 * 16/322 * 16/32UCFM
GFS/UVDM
HSM DBMS
8/168/16
AzAz
archivebackup
X compileuser appl
x 2x 12
2 * 8/162 * 8/16
GFS
GFS
x 4
x 12
System, Detailansicht
Datenzuwachs und Probleme
Datenzuwachs und Probleme
0
5000
10000
15000
20000
25000
30000
35000
TB
1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010
proj. Datenbestand
HLRE2HLREC90
MPP
Datenbestand: zukünftige Datenmenge
Datenzuwachs und Probleme
9940A9940B
T1AT1B
€/TByte
T€/Jahr0
200
400
600
800
1000
1200
1400
1600
1800
2000
Medienkosten
€/TByte T€/Jahr
Medien-Kostenexplosion trotz sinkender Bandpreise
20022003
2008/92006/7
Datenzuwachs und Probleme
Anforderungen an Daten-Service: Sicherstellung der Langzeitarchivierung Kostenverschiebung in Richtung Daten-Service
stoppen bzw. umkehren zu Gunsten Compute-Service
Es ist nicht mehr finanzierbar, alle Daten dauerhaft zu archivieren.
Welche Daten werden ausgewählt? ( Datenmanagement)
Wie erfolgt die Datensicherung? ( Technische Umsetzung)
Lösungen: Datenmanagement
Bisher: Alle Daten werden dauerhaft archiviert.
Zukünftig: Nur ausgewählte Daten mit Dokumentation werden
dauerhaft archiviert, Alle anderen besitzen nur begrenzten Lebensdauer
(Zeitfenster bestimmt durch Projektlaufzeit)
Umsetzung: Projektorientiertes Datenmanagement am DKRZ mit
wissenschaftlicher Entscheidung für Langzeitarchivierung
Lösungen: Datenmanagement
Grundlage des neuen Konzeptes bildet die Umstellung der bisher nutzerbezogenen Datenhaltung auf eine projektbezogene Datenhaltung in einer mehrstufigen Speicherhierarchie: docu arch work temp
Diese neue Hierarchie spiegelt die Qualität und die erwartete Lebensdauer der Daten wieder. Langzeitarchivierung in dieser Hierarchie setzt eine
bewußte und sorgfältige Entscheidung des projekt- / datenverantwortlichen Wissenschaftlers voraus und erfordert die vollständige Dokumentation der Daten.
Lösungen: Datenmanagement
Datenverteilung: Archivklassen
Archivklassen in TByte
603,9
2868
446,8153,1
docu arch work others
Lösungen: Datenmanagement
Hierarchieebene "docu" (Magnetband) Daten werden mit einer vereinheitlichten XML-
Dokumentation (CERA Metadaten) versehen und im Rahmen des WDC Climate (WDCC) mit Zweitkopie gespeichert. Sie sind nicht mehr änderbar und stehen für Referenzuntersuchungen zur allgemeinen Verfügung.
Daten von allgemeinem Interesse können im Rahmen des Primärdatenpublikationskonzeptes des WDCC als eigenständige Datenentitäten veröffentlicht werden. Diese Daten durchlaufen im Rahmen der Publikation einen Review- und Qualitätssicherungsprozess. Publizierte Daten sind derzeit über den Katalog der Technischen Informationsbibliothek in Hannover allgemein such- und zugreifbar
Lebensdauer: Entsprechend dokumentierte und nicht mehr veränderbare
Daten können im Sinne der Unterstützung der Benutzer bis 10 Jahre nach Projektende gespeichert bleiben, publizierte Daten im Rahmen der Bibliotheksrichtlinien auch länger.
Lösungen: Datenmanagement
Hierachieebene "arch" (Magnetband):Dies ist der Archivbereich für Referenzdaten eines
Projektes, für die zwar nicht die doppelte Sicherung erforderlich ist, die aber für die gesamte Projektlaufzeit aufbewahrt werden sollen und für die der zur Verfügung stehende Plattenplatz nicht reicht. Diese Daten werden in einfacher Kopie auf Bändern gehalten.
LebensdauerDie normale Lebensdauer dieser Daten ist die
Projektlaufzeit plus 1 Jahr. Nach Erreichen dieser Zeitmarke werden die Daten nach rechtzeitiger Ankündigung automatisch gelöscht.
Lösungen: Datenmanagement
Hierarchieebene "work" (in Zukunft Platte):Hier sollen Daten gehalten werden, auf die während
der Projektzeit häufig zugegriffen werden muss. Angestrebt ist ein plattenresidenter Bereich, in dem der überwiegende Teil der Interimsprojektdaten bearbeitet werden kann, ohne auf Bänder zugreifen zu müssen.
LebensdauerJedem Projekt steht hier ein festes selbst zu
verwaltendes Kontingent zu. Die hier abgelegten Daten werden bei Projektende gelöscht.
Hierarchieebene "temp" (Platte):Diese Daten sind rein plattenresident und haben nur
eine kurze Lebensdauer. Die Daten liegen auf schnellen, maschinennahen Plattenbereichen.
Lösungen: Technologische Umsetzung
Datensicherung Vermeidung von Medienfehlern
Zweitkopien auf unabhängigen Bändern in der Ebene "doku„
Zweitkopien auf Technologie eines anderen Herstellers
Zweitkopien an getrenntem StandortUmkopieren auf neue Bändern nach max. Anzahl von
Bandaufrufen Gewährleistung der Zugriffssicherheit
Wechsel zu neuer Technologie muss abwärts kompatibel sein
Transfer der Datenleseprogramme auf neue Plattform
Zusammenfassung
Datensicherheit durch Doppelte Kopien auf unabhängigen Medien +
Technologien Medienverwaltung Abwärts kompatiblen Technologiewechsel Begrenzung des Datenwachstums Langzeitarchiv
Begrenzung des Datenwachstums im Langzeitarchiv Langzeitarchivierung als wissenschaftliche
Entscheidung Daten werden a priori nur noch zeitlich befristet
gespeichert Auf Antrag und mit Dokumentation ist ein
Langzeitarchivierung im Rahmen des WDCC möglich
Recommended