32
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data Center for Climate Max-Planck-Institut für Meteorologie / Modelle und Daten, Hamburg Jena, 24.01.05

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

Embed Size (px)

Citation preview

Page 1: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1

Wissenschaftliches Datenmanagement

Probleme in PByte-Klimadatenarchiven

Michael Lautenschlager

World Data Center for Climate

Max-Planck-Institut für Meteorologie / Modelle und Daten, Hamburg

Jena, 24.01.05

Page 2: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 2

Inhalt:

• Klimasystem und Modellierung

• Architektur am DKRZ

• CERA Datenmodell

• IMDI und AFP Integrated Model and Data Infrastructure und Automatic Fill Process

Page 3: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 3

Data Group maintaining the WDCC

Michael Kurtz

Hans Luthardt

Michael Lautenschlager

Heinke Höck

Hannes Thiemann

Hermann Winter

Jörg Wegner

Frank Toussaint

Peter Lenzen

(Order: from left to right)

Page 4: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 4

Klimasystem

Page 5: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 5

Modellgleichungen

GrundprinzipErhaltung von Masse, Energie und Impuls

Beispiel: Gleichungen für Impuls, Temperatur und Feuchte im ECHAM-Modell

Page 6: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 6

Flussdiagramm

GlobalesAtmosphären-ModellECHAM

Page 7: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 7

Diskretisierung

Das Gitternetz im Atmosphärenmodell

Page 8: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 8

Nordeuropa im Klimamodell

T42 (300 km)

T106 (120 km)

Page 9: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 9

Datenmengen

Horizontalauflösung des KlimamodellsT42: 128 * 64 = 8192 Punkte pro Globalfeld T106: 160 * 320 = 51200 Punkte pro Globalfeld

Erforderliche Speichereinheiten (GRIB Format 1)

Horizontalfeld (Zugriffseinheit): 17.1 kB (T42) / 100.1 kB (T106)

Unix Filegröße für monatsweise akkumulierte Ergebnisse mit 12 Std. Speicherintervall (Physikalische Einheit): 120 MB (T42) / 750 MB (T106)

240 Jahre Modellintegration (Logische Einheit): 1/3 TB (T42) / 2 TB (T106)

1) machine independent, self-descriptive and compressive

Page 10: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 10

Oktober 1991

Anwendung der WDCC Daten

Page 11: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 11

29.10.91, 12:00

Druckdifferenz: 60 hPa

ECMWF-ERA40

Page 12: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 12

Page 13: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 13

Der HLRE Compute-Server besteht aus 24 NEC SX-6 Knoten. Die technischen Daten eines enzelnen Knotens sind in der folgenden Tabelle zusammengefasst.

CPUs 8

Taktfrequenz Speicher und CPU (MHz) 500

Vektor Pipelines pro CU 8

Funktionen der Vektoreinheit add/shift, multiply, divide, logical

Vektor-Register pro Pipeline 72

Länge der Vektor-Register (words) 256

GFLOP/s pro CPU 8

Hauptspeicher (GB) 64

Gesamte Bandbreite des Speichers (GB/s) 256

Speicherbandbreite pro CPU (GB/s) 32

DKRZ Compute-Server

Page 14: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 14

DKRZ Compute-Server

Die 24 Knoten unserer Installation sind über den IXS (Inter-node Crossbar Switch) verbunden. Der IXS schaltet zwischen beliebigen Knoten Verbindungen mit einer Bandbreite von jeweils 8 GB/s. Die Gleitkomma-Leistung des Gesamtsystems in GFLOP/s ist in der untenstehenden Tabelle dargestellt.

Peak (Rpeak) 1536

LINPACK Rmax 1484

Dauerhafte Leistung eines am DKRZ eingesetzten typischen Klimamodelles

ca. 500

Page 15: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 15

TOP500 HPC-List (June 2004)

DKRZ: Platz 148 mit 192 Proz. NEC-SX6

Earth Simulator, Japan: Platz 1 mit 5120 Proz. NEC-SX6

ES = 25 * DKRZ

DKRZ – Earth Simulator (Japan)

Page 16: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 16

Page 17: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 17

DKRZ Datenservice

Prozessoren Intel Itanium2Taktfrequenz 1 GHzCache 3 MB (on-chip L3)Max. Anzahl CPUs 32Max. Speicher 128 GBLINPACK Rmax (32 CPUs) 101.77 GFLOP/s

Einige Daten des gesamten Datenservers sind in der untenstehenden Tabelle zusammengefasst.

Kapazität des Bandarchivs (TB) >3500

Festplattenkapazität (TB) ca 70

Bandbreite zwischen Compute-Server und Data-Server (MB/s) 450

Page 18: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 18

DKRZ Bandarchiv

Page 19: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 19

2001 2002 2003 2004 2005 20060

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

11000

DKRZ Datenarchiv

UNIX-Files f^3/4

CERA-Files f^3/4

UNIX-Files f^1

CERA-Files f^1

Jahre

Da

ten

in T

Byt

e

HSM Archive Content:End of 2003: 1.3 PBEnd of 2004: 2.6 PB

Prognose 2001:

Page 20: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 20

CERA Konzept

DatenkatalogDie „Gelben Seiten“ des Massenspeicherarchivs

Metadaten in Tabellen des Datenmodells

Automatisierte KlimadatenspeicherungPrimärdaten-Processing synchron zum Modelllauf

Anwendungsorientierte Speicherung erlaubt schnellen Zugriff

Speicherung als BLOB-Tabelleneinträge

Rohdaten als Zeiger ins DatenarchivTransparenter RohdatenzugriffZeiger auf Unix-Files als B-File-Einträge in Tabelle

(Oracle)

Page 21: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 21

Metadata EntryThis is the central CERA Block,providing information on• the entry's title• type and relation to other entries• the project the data belong to• a summary of the entry• a list of general keywords related to data• creation and review dates of the metadata

Additionally: Modules and Local Extensions

Module DATA_ORGANIZATION (grid structure)Module DATA_ACCESS (physical storage)Local extension for specific information on (e.g.)• data usage• data access and data administration

CoverageInformation on the volume of space-time

covered by the dataReference

Any publication related to the data togehter with the publication form

StatusStatus information like data quality, processing steps, etc.

DistributionDistribution information including access restrictions, data format and fees if necessary

Contact

Data related to contact persons and institutes like distributor, investigator, and owner of copyright

ParameterBlock describes data topic,

variable and unit

Spatial Reference

Information on the coordinatesystem used

CERA-2 Data Model Blocks

Page 22: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 22

...

LOCAL_CONNECT

..._id

fees_id

format_descrformat_acronym

FORMAT

access_type_id

access_descr

ACCESS_TYPE

entry_idaccess_type_id

access_acronym

use_constraint_id

data_sizeformat_id

DISTRIBUTION

aggregation_id

aggregation_descr

AGGREGATION

spatial_data_org_idreference_method

format_id

access_constraint_id

unit_id

unit_acronymunit_descr

UNIT

topic_id

topic_acronymtopic_descrtopic_pointertopic_level

TOPIC

ver_coord_sys_idsys_descr

VER_COORD_SYS

sys_descrhor_coord_sys_id

HOR_COORD_SYS

FEES

SPATIAL_DATA_ORG

unit_name

presentation_idpresentation_descr

PRESENTATION

fees_acronym

topic_namecitation_type_descr

CITATION_TYPE

fees_descrinstitute_nameinstitute_acronymdepartment_namedepartment_acronymcountry

additional_infourl

citation_type

poboxstreet_postal_codestreetplacestate_or_province

fees_idINSTITUTE

faxemail

ACCESS_CONSTRAINT

first_namesecond_namelast_nametitleinstitute_id

url

constraint_descr

PERSON

access_constraint_id

CITATION

publication

citation_idtitleauthors

publishereditor

USE_CONSTRAINT

countrystateplaceeditionaccess_specadditional_info

citation_type_idpresentation_id

spatial_coverage_id

min_altitudemax_altitude

min_latmax_lat

constraint_descr

min_alt_unit_idmax_alt_unit_id

citation_type_id

SPATIAL_COVERAGE

11 RELATIONS

temporal_coverage_idstart_yearstart_monthstart_daystop_yearstop_monthstop_daycurrentness_ref_id

institute_id

TEMPORAL_COVERAGE

entry_idspatial_coverage_idtemporal_coverage_id

COVERAGE

entry_id

use_constraint_id

CONTACT_TYPE

pobox_postal_code

CURRENTNESS_REF

min_lon

LOCATION

location_idlocation_namelocation_pointerlocation_descr

location_identry_id

LOCATION_CONNECT

entry_idhor_coord_sys_idver_coord_sys_id

person_idgeneral_keygeneral_key_id

GENERAL_KEY

KEY_CONNECT

general_key_identry_id

project_idproject_nameproject_acronymproject_descr

PROJECT

CAMPAIGN

project_identry_id

summary_idsummary

telephone

SUMMARY

entry_id

entry_acronymentry_name

entry_type_idsummary_idquality_idprogress_idcreation_datereview_datefuture_review_date

publication_date

ENTRY

entry_type_identry_typeentry_type_descr

ENTRY_TYPE

ref_type_idref_type_descr

REF_TYPE

entry_idref_type_idcitation_id

REFERENCE

quality_idaccuracy_reportconsistency_reportcompleteness_reporthorizontal_acc_reportvertical_acc_report

QUALITY min_lon

progress_idprogress_descr

PROGRESS

connect_type_idconnect_typeconnect_type_descr

CONNECT_TYPE

spec_entry_idconnect_type_id

gen_entry_id

ENTRY_CONNECT

entry_idprocess_descrprocess_dateperson_id

PROCESS_STEP

max_lon

MODULE PROCESS_STEP

LANGUAGE

language_idlanguage_name*250

entry_idlanguage_id

LANGUAGES

contact_type_id

BLOCK LANGUAGES

currentness_ref_descr

ref_date

contact_typecontact_type_id

institute_id

CONTACT

person_id

location_level

max_lat

max_lon

min_lat

currentness_ref_id

SPATIAL_REFERENCE

MODULES AND LOCAL EXTENSIONS

BLOCK CAMPAIGN

BL. ENTRY CONNECT

BLOCK CONTACT BLOCK PARAMETERBLOCK REFERENCEBLOCK KEY_CONNECT BL. DISTRIBUTION

CERA SCHEME 2.5

BL. METADATA ENTRY

B.SPATIAL REFERENCE

BL. LOCATION CONNECT

BLOCK COVERAGE

23 ENTITIES: Pull Down Menu / List of values

8 ENTITIES: other

PARAMETER

PIK, DKRZ, AWI 1999-07MPI-Met, PIK 2001-03

entry_idtopic_idunit_idspatial_data_org_idaggregation_iddata_org_seq(data_org_id)(data_access_id)

Page 23: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 23

Produktion (4D) und Zugriff (2D)

Page 24: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 24

PrimäresDaten-Processing

Page 25: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 25

Level 1 - Interface:Metadata entries(XML, ASCII)+ Data Files

Level 2 – Interf.:Separate filescontaining BLOBtable data in application adapted structure(time series ofsingle variables)

Experiment Description

Unix-FilesTable / Pointer

Dataset 1Description

Dataset nDescription

BLOB DataTable

BLOB DataTable

CERA Data Structure

Page 26: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 26

Experiments: 400Datensets: 53367BLOBs: ca. 3.8 * 109

BLOB sizes GCM’s:10 – 100 kB

DB-Accounts: 500Data retrievals:1500 – 80000 / month Data volume:250 – 2200 GB / month

CERA DB:Backbone of WDCC

Web access to entireCERA DB content

Web-Based User Interface

Catalogue InspectionClimate Data Retrieval 

CERA Database:133 TB (01.2005)*Data Catalogue*Processed Climate Data*Pointer to Raw Data files

Mass Storage Archive2.6 PB (12.2004)

Inte

rne

t A

cc

ess

CERA Database System

DKRZ MassStorage Archive

 

Page 27: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 27

Modell-Computer-Matrix

Codeverwaltung

Userinterface:GUI + Scripting

Laufumgebung:Jobskripten & Dateihandling

Datenprocessing + Grafik

Datenimport:Assimilation und Antrieb

Randbedingungen

Nutzerinterface:Datensuche und Download

Processing und Grafik

DKRZ-Archiv

WDC Climate:CERA DB mit

KatalogDatenprocessing

Modellkomponenten

Kopplungsumgebung: Modellintegration

PRISM

Modellanwendungen

Archivföderation

BADC (UK)WDC-Netzwerk

Automatisiertes Füllen

DB-Füllen:API und Scripten

M&D

22

.04

.04

Integrated Model and Data Infrastructure

AFP

Page 28: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 28

Creation of application-orienteddata storage must beautomatic !!!

Automatic Fill Process (AFP)

Page 29: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 29

Archive Data Flow per month

ComputeServer

GlobalFile

System

MassStorageArchive

CERADB

System

60 TB/month

2004: 1 TB/day (peak)

Unix-Files

Application OrientedData Hierarchy

Application OrientedData Hierarchy

Unix-Files

MetadataInitialisation

Important:Automatic fill processhas to be performedbefore correspondingfiles migrate to massstorage archive.

Page 30: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 30

Automatic Fill ProcessSteps and Relations

DB-Server:

1. Initialisation of CERA DBMetadata and BLOB data tables are created

Compute Server:

1. Climate model calculation starts with 1. month

2. Next model month starts and primary data processing of previous monthBLOB table input is produced and stored in the dynamic DB fill cache

3. Step 2 repeated until end of model experiment

DB Server:

2. BLOB data table input accessed from DB fill cache

3. BLOB table injection and update of metadata

4. Step 2 repeated until table partition is filled (BLOB table fill cache)

5. Close partition, write corresponding DB files to HSM archive, open new partition and continue with 2)

6. Close entire table and update metadata after end of model experiment

Page 31: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 31

WDCC User Access Pattern

Page 32: M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in PByte-Klimadatenarchiven Michael Lautenschlager World Data

M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 32

Bewertung nach Vortrag:Allgemeinen Teil kürzer und Schwerpunkt auf CERA

Architektur:a) CERA-2 Datenmodell (Constraints + Trigger) und

XML Interfaceb) BLOB Tabellen und HSM Anschlußc) Indexverwaltung BLOB Tabellen und

Speicherbedarfd) B-Files als Pointer auf UNIX-Files (soweit

realisiert)

Sehr interessierte Zuhörer, Zeitbedarf war 70 min, also 2,2 min/Folie