Upload
dangcong
View
216
Download
0
Embed Size (px)
Citation preview
STEINBUCH CENTRE FOR COMPUTING - SCC
www.kit.eduKIT – Die Forschungsuniversität in der Helmholtz-Gemeinschaft
Forschungsdatenmanagement am KIT und in der Helmholtz-Gemeinschaft
ZKI-Arbeitskreis Supercomputing
9. und 10. Oktober 2017 Olaf Schneider
Steinbuch Centre for Computing
Agenda
Forschungsdatenmanagement am KIT
Speicherung und Verarbeitung von Forschungsdaten am SCC
Forschungsdatenmanagement in der HGF
09.10.2017 ZKI-AK Supercomputing2
Steinbuch Centre for Computing
Karlsruher Institut für Technologie (KIT)
Mission: Die Forschungsuniversität
in der Helmholtz-Gemeinschaft
Zahlen und Fakten
> 850 M €
> 25.000 Studenten
> 150 Institute
> 9.000 Angestellte
(> 5.800 in Forschung und Lehre , > 350 Professoren)
Tradition and Vision
Carl Benz
The first E-Mail
received in GermanyOne of the largest energy
research centers in EuropeThe first Faculty of
Informatics in Germany
Heinrich Hertz
Ferdinand Braun
09.10.2017 ZKI-AK Supercomputing3
Steinbuch Centre for Computing
Forschungsdatenmanagement am KIT
Leitlinien von Präsidium und
Senat beschlossen
5 Regeln zu Planung des
Forschungsdatenmanagement in
Forschungsvorhaben, zur
Verantwortung der
Forschenden, zu Beratung am
KIT, zur Bereitstellung von
Speicher-Infrastruktur am KIT
und zum möglichst freien
Zugang zu Forschungsdaten
Informationsportal
rdm.kit.edu
ZKI-AK Supercomputing09.10.20174
Steinbuch Centre for Computing
Serviceteam
Gründer/Treiber:
KIT-Bibliothek
Steinbuch Centre for Computing (SCC)
Weitere Beteiligte:
KIT-Archiv
Dienstleistungseinheit Forschungsförderung (FOR)
Zentrum für Angewandte Kulturwissenschaften und Studium Generale (ZAK)
Institut für Prozessdatenverarbeitung und Elektronik (IPE)
Anschub-Finanzierung durch Landes-Projekt
ZKI-AK Supercomputing09.10.20175
(Data In Motion)
Steinbuch Centre for Computing
Services für Forschungsdatenmanagement
ZKI-AK Supercomputing09.10.20176
Erstellung von Daten-
managementplänen
Persitente
Identifier,
z.B. DOI
Lizenzen für
Forschungs-
daten
Datenmanagementplan
Projektbeschreibung / Kontext
(Kooperationen,
Projektzugehörigkeit, Vorgaben
der Zuwendungsgeber)
Art der Daten (Formate, Tools,
Software, Umfang)
Dokumentation (Metadaten)
Zeitlinie (Zeitraum der
Datenspeicherung, Vorgaben
der Zuwendungsgeber)
Archivierung (physischer Ort, PI)
Lizenzen (Nachnutzung der
Daten)
Steinbuch Centre for Computing
bwDataArchive
HPSS Backend (HDD-Cache,
Bandroboter, Tape-Library)
Zugang via bwIDM
Datentransfer via SFTP, GridFTP
HPC-Systeme angebunden
hohe DatenintegritätWer kann den Dienst nutzen?
KIT-Nutzer im Rahmen der IT-
Grundversorgung (500 GB pro
Mitarbeiter)
Hochschulen und Institutionen in
BaWü nach Vertragsabschluss
Accounts für Endnutzer und
Dienste bzw. Projekte
ZKI-AK Supercomputing09.10.20177
Steinbuch Centre for Computing
Daten-Intensives Rechnen am SCC
Betrieb von Datenzentren
GridKa – deutsches Tier1-Zentrum für LHC (Teilchenphysik)
20 PB Onlinespeicher, 30 PB auf Bandspeicher, 16k CPU-Kerne
Multi-disciplinary Large-Scale Data Facility
>6 PB Onlinespeicher für Klima, Energie, Systembiologie, …
Betrieb von HPC-Systemen
ForHLR mit direktem Anschluss an LSDF
> 35 k CPU-Kerne, 1.4 PetaFlop/s Peak,
Energie-effiziente Warmwasser-Kühlung
Gemeinsame Forschung mit Anwendern
Data Life Cycle Labs (DLCLs) und SimLabs
Tools und Methoden für Datenmanagement und -analyse
Performance Engineering für hoch-parallele Simulationen
Innovations-Treiber für KMUs and Industrie
09.10.2017 ZKI-AK Supercomputing8
Steinbuch Centre for Computing
Large Scale Data Facility
Aktuell Umstellung von LSDF1 auf LSDF2
LSDF1
5,5 PB Online-Speicher (HDDs), >500 Million Files
6,0 PB Offline-Speicher (Tape)
Nutzer-Communities: Klimaforschung, Hydrodynamik, Energieforschung,
Strukturbiologie, Photon Science, ... (insgesamt mehr als 60 Gruppen)
Anbindung an HPC-Systeme über spezielle Data-Mover-Knoten
LSDF2
8 PB Online-Speicher (installiert)
Software-Defined-Storage-Lösung
(IBM Spectrum Scale)
Datenmigration zu 80% abgeschl.
engere Anbindung an HPC-Systeme
am SCC geplant (GPFS-Mounts)
ZKI-AK Supercomputing09.10.20179
Steinbuch Centre for Computing
Helmholtz-Gemeinschaft
Strategische Forschung für die “großen Herausforderungen” in
sechs Forschungsbereichen: Energie, Erde & Umwelt, Gesundheit,
Luftfahrt & Raumfahrt & Verkehr, Materie, Schlüsseltechnologien
Entwicklung und Betrieb komplexer und großer
Forschungsinfrastrukturen für nationale und internationale
Wissenschafts-Communities.(actual costs 2012)
09.10.2017 ZKI-AK Supercomputing10
Steinbuch Centre for Computing
Helmholtz Data Federation
Helmholtz entwickelt eine föderierte Forschungsdateninfrastruktur
in Deutschland, offen für das gesamte deutsche Wissenschaftssystem.
Langzeit-Speicherung, “Curation” und Verfügbarkeit von Forschungsdaten
Berücksichtigung community-spezifischer Anforderungen
Sichere Föderation bestehender Datenzentren, internationale Anbindung
Multi-disziplinäres Arbeiten mit Daten
Datenhoheit der Community bleibt erhalten
Nationaler Baustein der European Open Science Cloud
Drei Elemente:
Innovative Software und Services für Datenmanagement
Exzellente Benutzerunterstützung und gemeinsame F&E
Neue und innovative Speicher und Analyse-Hardware
Koordiniert durch KIT
09.10.2017 ZKI-AK Supercomputing11
Steinbuch Centre for Computing
Helmholtz Data Federation (HDF)
Start mit 6 Helmholtz-Zentren in 2017
Gutachter-Aussagen:
“Sharing of infrastructure, services and
datasets opens the way for improved
cross-disciplinary working and re-use
of data.”
“… very strong potential to facilitate
cutting-edge research.”
“… great potential to contribute to
solving major challenges facing
society (including pure attainment
of new insights).”
“…will be a first example of a
national shared research data
infrastructure in Europe.”
09.10.2017 ZKI-AK Supercomputing12
Steinbuch Centre for Computing
Helmholtz Analytics Framework (HAF)
Pilotprojekt
Förderung aus Impuls- und Vernetzungsfonds
2017-2020
Ziele
Förderung der daten-intensiven Forschung
Nutzung und Weiterentwicklung der
Helmholtz Data Federation (HDF)
Aufgaben
Systematische Schaffung von
Datenanalysetechniken
Spezifisch für eine Anwendungs-Domäne,
aber standardisiert und verallgemeinerbar
Auf konkreten Anwendungsfall bezogenes
Co-Design zwischen Domain-Wissenschaftlern,
Daten-Experten und Infrastruktur-Profis
ZKI-AK Supercomputing09.10.201713
Steinbuch Centre for ComputingZKI-AK Supercomputing09.10.2017
Helmholtz Analytics Framework (HAF)
14
H
A
F
Helmholtz Data FederationKIT, FZJ, AWI, DESY, DKFZ, GSI
Data Management Technologies
User SupportStorage and Analysis
Capacities
Helmholtz
research
infrastructure
Use
Cases
(WP1)
Terrestrial Monitoring / Forecasting
Cloud & Solar Power PredictionStratospheric Impact on Surf.
Climate
FZJ, KIT
Hybrid Data Analysis Integration
for Structural Biology
HMGU, KIT, FZJ
High-Throughput Image-Based
Cohort Phenotyping
FZJ, DKFZ
Multi-Scale Multi-Area Interaction in Cortical Networks
FZJ
Virtual Aircraft
DLR
Automated Volumetric
Interpretation
DESY
Generic
Methods
(WP2)
Common Components for Data AnalyticsFZJ, KIT, DESY, DLR
SimLabs + Data Life Cycle LabsTerrestrial Systems
Climate ScienceFZJ, KIT
HYIGMultiscale
Biomolecular Simulation, KIT
SimLabNeuroscience
FZJ
Data Life Cycle LabNeuroscience
FZJ
Support in
programme
SBD
STEINBUCH CENTRE FOR COMPUTING - SCC
www.kit.eduKIT – Die Forschungsuniversität in der Helmholtz-Gemeinschaft
Danke
Steinbuch Centre for Computing
Forschungsdaten: Definition
DFG:
Unter Forschungsdaten sind […] digitale und
elektronisch speicherbare Daten zu verstehen, die
im Zuge eines wissenschaftlichen Vorhabens z.B.
durch Quellenforschungen, Experimente,
Messungen, Erhebungen oder Befragungen
entstehen.
EU (Report of the European Commission
Public Consultation on Open Research Data):
[...] defining research data as potentially all data,
and others limiting it to data that is the product of
research and/or data that is used for research.
Projekt re3data:
Unter Forschungsdaten werden digital vorliegende
Daten verstanden, die im Rahmen von
Forschungsprojekten (im weitesten Sinne)
erhoben oder erzeugt werden und die Grundlage
von Forschungsergebnissen, Publikationen etc.
bilden.
ZKI-AK Supercomputing16 09.10.2017
Steinbuch Centre for Computing
Forschungsdaten: Metadaten und Lebenszyklus
09.10.2017 ZKI-AK Supercomputing17
Im Prozess von der Entstehung bis zur Veröffentlichung werden die
Forschungsdaten aggregiert, reduziert und konvertiert sowie schrittweise
mit Metadaten angereichert. Dieser Prozess muss drei grundlegenden
Anforderungen Rechnung tragen:
Authentizität (Sind die Daten das, was sie zu sein vorgeben?)
Integrität (Sind die Daten seit ihrer Entstehung inhaltlich unverändert?)
Verständlichkeit (Können auch außerhalb des Ursprungsprojekts die
Daten sicher gedeutet werden?)
Steinbuch Centre for ComputingZKI-AK Supercomputing09.10.2017
Daten-Intensive Wissenschaft am SCC
18
VisualizationData
Analysis
Publications
Archive
Experiment
HPC systems
Large Scale Data Facility
Data analysis systems,
Visualization
Repository
Archive
Simulation
Data Creation
Steinbuch Centre for Computing
core servers
standby production
ZKI-AK Supercomputing09.10.2017
bwDataArchive:
Technik & Hardware
OKD – IBM
TS1140 drives (4.5 TB/cartridge)RZ 441 – Oracle
10kD drives (8TB/cartridge)
2 x 200 TB disk cache
SAN
front-end nodes (sftp, gridftp)
hpss mover nodes
FUSE
mount
User-DBbwIDM/Shibboleth,
mySQL
19
Steinbuch Centre for Computing
bwDataArchiv:
Registrierung und Authentifizierung
1. Registrierung (bwIDM)
2. Eintrag in Nutzer-DB („persistent“)
3. Periodische Überprüfung registrierter Benutzer
4. Registrierung externer Nutzer (i.e. HLRS) über
Einladungs-Mechanismus
5. Datenübertragung
Read-Only Zugriff für Nutzer nach Standortwechsel
ZKI-AK Supercomputing09.10.201720
Hochschule BW
Frontendregister
bwIDM
SCC / KIT
bwIDP
shibboleth
bwDA
account
allocation
IDM
@ Uni-BW
DataBase
Tape Disk
Archiv Storage
System
bwDA user
database
1
2
3
5
HLRS
Einladung
mail/URL
4
Steinbuch Centre for Computing
Anbindung der HPC-Systeme an LSDF & Co.
Datentransfer über 10GE
(KIT-Backbone)
spezielle Data-Mover-Knoten in
jedem Cluster
Entlastung der Login-Knoten
rdata
(in-house entwickeltes Werkzeug)
asynchrone Ausführung
Lastverteilung
Durchsatz 350-400 MB/s
Anbindung an LSDF und
bwDataArchiv
Nachteil: Daten müssen durch
Nutzer kopiert werden
ZKI-AK Supercomputing09.10.201721
STEINBUCH CENTRE FOR COMPUTING - SCC
www.kit.eduKIT – Die Forschungsuniversität in der Helmholtz-Gemeinschaft
Smart Data Innovation Lab (SDIL)
Smart Data Solution Center (SDSC-BW)
Steinbuch Centre for ComputingSteinbuch Centre for Computing
official launch in January 2014, topic at the IT summit in October 2014
funded by BMBF 09/2015 – 08/2018
to strengthen the cooperation between industry and science
self organizing data innovation communities (Industry 4.0, Medicine, Smart
Infrastructure)
industry partner and research partner meet at community meetings and define projects
SDIL strategy board approves project proposals within two weeks
project members get access to the SDIL platform hosted by KIT:
Challenges:
handling sensitive data → security has top priority
operating more than 100 machines of different architectures and with various
operating systems
special software stacks like HANA, Watson and Terracotta
Smart Data Innovation Lab
Steinbuch Centre for ComputingSteinbuch Centre for Computing
funded by the state of Baden-Württemberg 10/2014 – 09/2017
educating SME in regard to data analytics (~25 contacts to far)
free of charge
consulting for local SME in the field of data analytics
evaluating the potential of existing data
performing data analysis
recommending additional data collection
investigating further analysis steps
Smart Data Solution Center
• First contact
• Checking requirements
• Defining Objectives
• Legal Issues
• Data hand over
• Data analysis
• Evaluation
• Presenting results
• Recommendations
• Next steps
Preparation Realization Finalization
Steinbuch Centre for ComputingSteinbuch Centre for Computing
#Cores RAM
[GB]
Disk Space
[TB]
Network Software
IBM Watson
Foundation
Power 8
7 x 20
= 140
4096 300 40Gbit/s
Ethernet
IBM Open Platform with
Hadoop/Spark
SPSS Modeler
SPSS Analytic Server
DB2 with BLU Acceleration
Huawei
FusionInsight
8x16
5x10
= 178
5120 362 10Gbit/s
Ethernet
FusionInsight
SAP HANA 4 x 80
= 320
4096 80 10Gbit/s
Ethernet
SAP HANA
Predictive Analysis Library
Business Function Library
Software AG
Terracotta
( * on request * ) BigMemory Max
HTCondor 32 x 4
= 128
1024 1Gbit/s
Ethernet
RapidMiner, Python, R, Matlab,
Virtualization 3 x 12
= 36
576 6 10Gbit/s
Ethernet
Red Hat Enterprise Virtualization
on GlusterFS
SDIL Platform Resources
STEINBUCH CENTRE FOR COMPUTING - SCC
www.kit.eduKIT – Die Forschungsuniversität in der Helmholtz-Gemeinschaft
Backup
Steinbuch Centre for Computing
Deutscher Rechenzentrumspreis
ZKI-AK Supercomputing09.10.2017
1. Preis: „Neu gebaute energie- und ressourceneffiziente Rechenzentren“
27
Steinbuch Centre for ComputingZKI-AK Supercomputing09.10.2017
bwHPC – Föderierte Tier3-HPC-Ressourcen
bwUniClusterJan 2014 bwForCluster
JUSTUSDec 2014
bwForClusterMLS & WISO
Dec 2015
bwForClusterBinAC
Nov 2016
bwForClusterNEMO
Sep 2016
28