28
STEINBUCH CENTRE FOR COMPUTING - SCC www.kit.edu KIT Die Forschungsuniversität in der Helmholtz-Gemeinschaft Forschungsdatenmanagement am KIT und in der Helmholtz-Gemeinschaft ZKI-Arbeitskreis Supercomputing 9. und 10. Oktober 2017 Olaf Schneider

Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

Embed Size (px)

Citation preview

Page 1: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

STEINBUCH CENTRE FOR COMPUTING - SCC

www.kit.eduKIT – Die Forschungsuniversität in der Helmholtz-Gemeinschaft

Forschungsdatenmanagement am KIT und in der Helmholtz-Gemeinschaft

ZKI-Arbeitskreis Supercomputing

9. und 10. Oktober 2017 Olaf Schneider

Page 2: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

Steinbuch Centre for Computing

Agenda

Forschungsdatenmanagement am KIT

Speicherung und Verarbeitung von Forschungsdaten am SCC

Forschungsdatenmanagement in der HGF

09.10.2017 ZKI-AK Supercomputing2

Page 3: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

Steinbuch Centre for Computing

Karlsruher Institut für Technologie (KIT)

Mission: Die Forschungsuniversität

in der Helmholtz-Gemeinschaft

Zahlen und Fakten

> 850 M €

> 25.000 Studenten

> 150 Institute

> 9.000 Angestellte

(> 5.800 in Forschung und Lehre , > 350 Professoren)

Tradition and Vision

Carl Benz

The first E-Mail

received in GermanyOne of the largest energy

research centers in EuropeThe first Faculty of

Informatics in Germany

Heinrich Hertz

Ferdinand Braun

09.10.2017 ZKI-AK Supercomputing3

Page 4: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

Steinbuch Centre for Computing

Forschungsdatenmanagement am KIT

Leitlinien von Präsidium und

Senat beschlossen

5 Regeln zu Planung des

Forschungsdatenmanagement in

Forschungsvorhaben, zur

Verantwortung der

Forschenden, zu Beratung am

KIT, zur Bereitstellung von

Speicher-Infrastruktur am KIT

und zum möglichst freien

Zugang zu Forschungsdaten

Informationsportal

rdm.kit.edu

ZKI-AK Supercomputing09.10.20174

Page 5: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

Steinbuch Centre for Computing

Serviceteam

Gründer/Treiber:

KIT-Bibliothek

Steinbuch Centre for Computing (SCC)

Weitere Beteiligte:

KIT-Archiv

Dienstleistungseinheit Forschungsförderung (FOR)

Zentrum für Angewandte Kulturwissenschaften und Studium Generale (ZAK)

Institut für Prozessdatenverarbeitung und Elektronik (IPE)

Anschub-Finanzierung durch Landes-Projekt

ZKI-AK Supercomputing09.10.20175

(Data In Motion)

Page 6: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

Steinbuch Centre for Computing

Services für Forschungsdatenmanagement

ZKI-AK Supercomputing09.10.20176

Erstellung von Daten-

managementplänen

Persitente

Identifier,

z.B. DOI

Lizenzen für

Forschungs-

daten

Datenmanagementplan

Projektbeschreibung / Kontext

(Kooperationen,

Projektzugehörigkeit, Vorgaben

der Zuwendungsgeber)

Art der Daten (Formate, Tools,

Software, Umfang)

Dokumentation (Metadaten)

Zeitlinie (Zeitraum der

Datenspeicherung, Vorgaben

der Zuwendungsgeber)

Archivierung (physischer Ort, PI)

Lizenzen (Nachnutzung der

Daten)

Page 7: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

Steinbuch Centre for Computing

bwDataArchive

HPSS Backend (HDD-Cache,

Bandroboter, Tape-Library)

Zugang via bwIDM

Datentransfer via SFTP, GridFTP

HPC-Systeme angebunden

hohe DatenintegritätWer kann den Dienst nutzen?

KIT-Nutzer im Rahmen der IT-

Grundversorgung (500 GB pro

Mitarbeiter)

Hochschulen und Institutionen in

BaWü nach Vertragsabschluss

Accounts für Endnutzer und

Dienste bzw. Projekte

ZKI-AK Supercomputing09.10.20177

Page 8: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

Steinbuch Centre for Computing

Daten-Intensives Rechnen am SCC

Betrieb von Datenzentren

GridKa – deutsches Tier1-Zentrum für LHC (Teilchenphysik)

20 PB Onlinespeicher, 30 PB auf Bandspeicher, 16k CPU-Kerne

Multi-disciplinary Large-Scale Data Facility

>6 PB Onlinespeicher für Klima, Energie, Systembiologie, …

Betrieb von HPC-Systemen

ForHLR mit direktem Anschluss an LSDF

> 35 k CPU-Kerne, 1.4 PetaFlop/s Peak,

Energie-effiziente Warmwasser-Kühlung

Gemeinsame Forschung mit Anwendern

Data Life Cycle Labs (DLCLs) und SimLabs

Tools und Methoden für Datenmanagement und -analyse

Performance Engineering für hoch-parallele Simulationen

Innovations-Treiber für KMUs and Industrie

09.10.2017 ZKI-AK Supercomputing8

Page 9: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

Steinbuch Centre for Computing

Large Scale Data Facility

Aktuell Umstellung von LSDF1 auf LSDF2

LSDF1

5,5 PB Online-Speicher (HDDs), >500 Million Files

6,0 PB Offline-Speicher (Tape)

Nutzer-Communities: Klimaforschung, Hydrodynamik, Energieforschung,

Strukturbiologie, Photon Science, ... (insgesamt mehr als 60 Gruppen)

Anbindung an HPC-Systeme über spezielle Data-Mover-Knoten

LSDF2

8 PB Online-Speicher (installiert)

Software-Defined-Storage-Lösung

(IBM Spectrum Scale)

Datenmigration zu 80% abgeschl.

engere Anbindung an HPC-Systeme

am SCC geplant (GPFS-Mounts)

ZKI-AK Supercomputing09.10.20179

Page 10: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

Steinbuch Centre for Computing

Helmholtz-Gemeinschaft

Strategische Forschung für die “großen Herausforderungen” in

sechs Forschungsbereichen: Energie, Erde & Umwelt, Gesundheit,

Luftfahrt & Raumfahrt & Verkehr, Materie, Schlüsseltechnologien

Entwicklung und Betrieb komplexer und großer

Forschungsinfrastrukturen für nationale und internationale

Wissenschafts-Communities.(actual costs 2012)

09.10.2017 ZKI-AK Supercomputing10

Page 11: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

Steinbuch Centre for Computing

Helmholtz Data Federation

Helmholtz entwickelt eine föderierte Forschungsdateninfrastruktur

in Deutschland, offen für das gesamte deutsche Wissenschaftssystem.

Langzeit-Speicherung, “Curation” und Verfügbarkeit von Forschungsdaten

Berücksichtigung community-spezifischer Anforderungen

Sichere Föderation bestehender Datenzentren, internationale Anbindung

Multi-disziplinäres Arbeiten mit Daten

Datenhoheit der Community bleibt erhalten

Nationaler Baustein der European Open Science Cloud

Drei Elemente:

Innovative Software und Services für Datenmanagement

Exzellente Benutzerunterstützung und gemeinsame F&E

Neue und innovative Speicher und Analyse-Hardware

Koordiniert durch KIT

09.10.2017 ZKI-AK Supercomputing11

Page 12: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

Steinbuch Centre for Computing

Helmholtz Data Federation (HDF)

Start mit 6 Helmholtz-Zentren in 2017

Gutachter-Aussagen:

“Sharing of infrastructure, services and

datasets opens the way for improved

cross-disciplinary working and re-use

of data.”

“… very strong potential to facilitate

cutting-edge research.”

“… great potential to contribute to

solving major challenges facing

society (including pure attainment

of new insights).”

“…will be a first example of a

national shared research data

infrastructure in Europe.”

09.10.2017 ZKI-AK Supercomputing12

Page 13: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

Steinbuch Centre for Computing

Helmholtz Analytics Framework (HAF)

Pilotprojekt

Förderung aus Impuls- und Vernetzungsfonds

2017-2020

Ziele

Förderung der daten-intensiven Forschung

Nutzung und Weiterentwicklung der

Helmholtz Data Federation (HDF)

Aufgaben

Systematische Schaffung von

Datenanalysetechniken

Spezifisch für eine Anwendungs-Domäne,

aber standardisiert und verallgemeinerbar

Auf konkreten Anwendungsfall bezogenes

Co-Design zwischen Domain-Wissenschaftlern,

Daten-Experten und Infrastruktur-Profis

ZKI-AK Supercomputing09.10.201713

Page 14: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

Steinbuch Centre for ComputingZKI-AK Supercomputing09.10.2017

Helmholtz Analytics Framework (HAF)

14

H

A

F

Helmholtz Data FederationKIT, FZJ, AWI, DESY, DKFZ, GSI

Data Management Technologies

User SupportStorage and Analysis

Capacities

Helmholtz

research

infrastructure

Use

Cases

(WP1)

Terrestrial Monitoring / Forecasting

Cloud & Solar Power PredictionStratospheric Impact on Surf.

Climate

FZJ, KIT

Hybrid Data Analysis Integration

for Structural Biology

HMGU, KIT, FZJ

High-Throughput Image-Based

Cohort Phenotyping

FZJ, DKFZ

Multi-Scale Multi-Area Interaction in Cortical Networks

FZJ

Virtual Aircraft

DLR

Automated Volumetric

Interpretation

DESY

Generic

Methods

(WP2)

Common Components for Data AnalyticsFZJ, KIT, DESY, DLR

SimLabs + Data Life Cycle LabsTerrestrial Systems

Climate ScienceFZJ, KIT

HYIGMultiscale

Biomolecular Simulation, KIT

SimLabNeuroscience

FZJ

Data Life Cycle LabNeuroscience

FZJ

Support in

programme

SBD

Page 15: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

STEINBUCH CENTRE FOR COMPUTING - SCC

www.kit.eduKIT – Die Forschungsuniversität in der Helmholtz-Gemeinschaft

Danke

Page 16: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

Steinbuch Centre for Computing

Forschungsdaten: Definition

DFG:

Unter Forschungsdaten sind […] digitale und

elektronisch speicherbare Daten zu verstehen, die

im Zuge eines wissenschaftlichen Vorhabens z.B.

durch Quellenforschungen, Experimente,

Messungen, Erhebungen oder Befragungen

entstehen.

EU (Report of the European Commission

Public Consultation on Open Research Data):

[...] defining research data as potentially all data,

and others limiting it to data that is the product of

research and/or data that is used for research.

Projekt re3data:

Unter Forschungsdaten werden digital vorliegende

Daten verstanden, die im Rahmen von

Forschungsprojekten (im weitesten Sinne)

erhoben oder erzeugt werden und die Grundlage

von Forschungsergebnissen, Publikationen etc.

bilden.

ZKI-AK Supercomputing16 09.10.2017

Page 17: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

Steinbuch Centre for Computing

Forschungsdaten: Metadaten und Lebenszyklus

09.10.2017 ZKI-AK Supercomputing17

Im Prozess von der Entstehung bis zur Veröffentlichung werden die

Forschungsdaten aggregiert, reduziert und konvertiert sowie schrittweise

mit Metadaten angereichert. Dieser Prozess muss drei grundlegenden

Anforderungen Rechnung tragen:

Authentizität (Sind die Daten das, was sie zu sein vorgeben?)

Integrität (Sind die Daten seit ihrer Entstehung inhaltlich unverändert?)

Verständlichkeit (Können auch außerhalb des Ursprungsprojekts die

Daten sicher gedeutet werden?)

Page 18: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

Steinbuch Centre for ComputingZKI-AK Supercomputing09.10.2017

Daten-Intensive Wissenschaft am SCC

18

VisualizationData

Analysis

Publications

Archive

Experiment

HPC systems

Large Scale Data Facility

Data analysis systems,

Visualization

Repository

Archive

Simulation

Data Creation

Page 19: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

Steinbuch Centre for Computing

core servers

standby production

ZKI-AK Supercomputing09.10.2017

bwDataArchive:

Technik & Hardware

OKD – IBM

TS1140 drives (4.5 TB/cartridge)RZ 441 – Oracle

10kD drives (8TB/cartridge)

2 x 200 TB disk cache

SAN

front-end nodes (sftp, gridftp)

hpss mover nodes

FUSE

mount

User-DBbwIDM/Shibboleth,

mySQL

19

Page 20: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

Steinbuch Centre for Computing

bwDataArchiv:

Registrierung und Authentifizierung

1. Registrierung (bwIDM)

2. Eintrag in Nutzer-DB („persistent“)

3. Periodische Überprüfung registrierter Benutzer

4. Registrierung externer Nutzer (i.e. HLRS) über

Einladungs-Mechanismus

5. Datenübertragung

Read-Only Zugriff für Nutzer nach Standortwechsel

ZKI-AK Supercomputing09.10.201720

Hochschule BW

Frontendregister

bwIDM

SCC / KIT

bwIDP

shibboleth

bwDA

account

allocation

IDM

@ Uni-BW

DataBase

Tape Disk

Archiv Storage

System

bwDA user

database

1

2

3

5

HLRS

Einladung

mail/URL

4

Page 21: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

Steinbuch Centre for Computing

Anbindung der HPC-Systeme an LSDF & Co.

Datentransfer über 10GE

(KIT-Backbone)

spezielle Data-Mover-Knoten in

jedem Cluster

Entlastung der Login-Knoten

rdata

(in-house entwickeltes Werkzeug)

asynchrone Ausführung

Lastverteilung

Durchsatz 350-400 MB/s

Anbindung an LSDF und

bwDataArchiv

Nachteil: Daten müssen durch

Nutzer kopiert werden

ZKI-AK Supercomputing09.10.201721

Page 22: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

STEINBUCH CENTRE FOR COMPUTING - SCC

www.kit.eduKIT – Die Forschungsuniversität in der Helmholtz-Gemeinschaft

Smart Data Innovation Lab (SDIL)

Smart Data Solution Center (SDSC-BW)

Page 23: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

Steinbuch Centre for ComputingSteinbuch Centre for Computing

official launch in January 2014, topic at the IT summit in October 2014

funded by BMBF 09/2015 – 08/2018

to strengthen the cooperation between industry and science

self organizing data innovation communities (Industry 4.0, Medicine, Smart

Infrastructure)

industry partner and research partner meet at community meetings and define projects

SDIL strategy board approves project proposals within two weeks

project members get access to the SDIL platform hosted by KIT:

Challenges:

handling sensitive data → security has top priority

operating more than 100 machines of different architectures and with various

operating systems

special software stacks like HANA, Watson and Terracotta

Smart Data Innovation Lab

Page 24: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

Steinbuch Centre for ComputingSteinbuch Centre for Computing

funded by the state of Baden-Württemberg 10/2014 – 09/2017

educating SME in regard to data analytics (~25 contacts to far)

free of charge

consulting for local SME in the field of data analytics

evaluating the potential of existing data

performing data analysis

recommending additional data collection

investigating further analysis steps

Smart Data Solution Center

• First contact

• Checking requirements

• Defining Objectives

• Legal Issues

• Data hand over

• Data analysis

• Evaluation

• Presenting results

• Recommendations

• Next steps

Preparation Realization Finalization

Page 25: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

Steinbuch Centre for ComputingSteinbuch Centre for Computing

#Cores RAM

[GB]

Disk Space

[TB]

Network Software

IBM Watson

Foundation

Power 8

7 x 20

= 140

4096 300 40Gbit/s

Ethernet

IBM Open Platform with

Hadoop/Spark

SPSS Modeler

SPSS Analytic Server

DB2 with BLU Acceleration

Huawei

FusionInsight

8x16

5x10

= 178

5120 362 10Gbit/s

Ethernet

FusionInsight

SAP HANA 4 x 80

= 320

4096 80 10Gbit/s

Ethernet

SAP HANA

Predictive Analysis Library

Business Function Library

Software AG

Terracotta

( * on request * ) BigMemory Max

HTCondor 32 x 4

= 128

1024 1Gbit/s

Ethernet

RapidMiner, Python, R, Matlab,

Virtualization 3 x 12

= 36

576 6 10Gbit/s

Ethernet

Red Hat Enterprise Virtualization

on GlusterFS

SDIL Platform Resources

Page 26: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

STEINBUCH CENTRE FOR COMPUTING - SCC

www.kit.eduKIT – Die Forschungsuniversität in der Helmholtz-Gemeinschaft

Backup

Page 27: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

Steinbuch Centre for Computing

Deutscher Rechenzentrumspreis

ZKI-AK Supercomputing09.10.2017

1. Preis: „Neu gebaute energie- und ressourceneffiziente Rechenzentren“

27

Page 28: Forschungsdatenmanagement am KIT und in der Helmholtz ... · front-end nodes (sftp, gridftp) hpss mover nodes FUSE mount User-DB bwIDM/Shibboleth, mySQL 19. Steinbuch Centre for Computing

Steinbuch Centre for ComputingZKI-AK Supercomputing09.10.2017

bwHPC – Föderierte Tier3-HPC-Ressourcen

bwUniClusterJan 2014 bwForCluster

JUSTUSDec 2014

bwForClusterMLS & WISO

Dec 2015

bwForClusterBinAC

Nov 2016

bwForClusterNEMO

Sep 2016

28