31
Einführungs-Workshop Februar 2013 Übersicht 27.02.2013

Einführungs-Workshop Februar 2013 - HHLR · Einführungs-Workshop Februar 2013 Kurs I: „Die ersten Schritte“ 27.02.2013 Hardware UCluster & ICluster Dr. Andreas Wolf

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Einführungs-Workshop Februar 2013

Übersicht

27.02.2013

Vormittag Workshop• 9:00 Christian Iwainsky – SC: „Best Practise Tuning“• 9:30 Dr.-Ing. Dörte C. Sternell – FNB: „FASTEST“• 10:00 Kurs I: „Die ersten Schritte“

- Hardware - Software

• 11:00 Pause• 11:15 Kurs II: „Rechnen im Batchsystem“

- Befehle des Batchsystems - Beispiel: Programm und Batchscript für MPI und OpenMP - „Was kann schiefgehen“ – Tricks für Performance

• 12:15 Gemeinsames Mittagessen „Pizzeria DaNino“ (Selbstzahlung)Nachmittag Praxisteil

• 14:00 „Fragen der Nutzer und Hilfestellung bei praktischer Anwendung“ - Beispielprogramme und eigene Programme - Kommerzielle Programme z.B. Comsol, Fastest, Ansys, Matlab

• 15:30 Pause• 15:45 Kurs III: „Crash-Kurs OpenMP“

ca. 17:15 Ende der Veranstaltung

Programm 27.2.2013

227.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf

Vormittag Workshop (Essenzielle HPC-Werkzeuge)• 9:00 Dr. Sergey Boldyrev – HRZ: „Totalview“ (englisch)

- Debugger - Programm-Fehlersuche

• 10:00 Christian Iwainsky – SC: „Vampir“ - MPI-Performance Analyse

• 11:00 Pause• 11:15 Michael Burger – SC: „Intel Cluster Studio“

- OpenMP- und Serielle-Performance Analyse• 12:15 Gemeinsames Mittagessen „Pizzeria DaNino“ (Selbstzahlung)

Nachmittag Praxisteil• 14:00 „Fragen der Nutzer und Hilfestellung bei praktischer Anwendung“

- Tuning und Analyse eigener Programme - Debugging Experience - Performace Optimierung im Batchbetrieb - Batchscipt-Optimierung kommerzieller Programme z.B. Matlab

ca 17:00 Ende der Veranstaltung

Programm 28.2.2013

327.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf

Einführungs-Workshop Februar 2013

Kurs I: „Die ersten Schritte“

27.02.2013

Hardware

UCluster & ICluster

Dr. Andreas Wolf

Was wir haben seit Anfang 2012 – ICluster

SMP…

Infiniband

Ethernet

HOME

32 SMP-Knoten● 4 Prozessoren , AMD Interlagos ● Je 12 „Kerne“ mit 2,6 GHz● 64 GByte bzw. 128 GByte

Platten● Nur Home: 750 MByte, 100 MB/s

Infiniband● QDR, 32 Gbit/s, ca. 1 µs Latenz

527.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf

• Zuschlag hat IBM bekommen, Ausschreibungssumme 13,5 Mio €• Lieferung von IBM in zwei Phasen I und II

– Phase I (2012): heterogenes System - verschiedene Sektionen

● Rund 800 Rechenknoten● Über 200 TFlops (peak) durch Prozessoren● Rund 128 TFlops (peak) durch Beschleunigerkarten (GPU, MIC)

• Unabhängig von Rechnerhardware – Wasserkühlung so ausgelegt, dass Abwärme für Gebäudeheizung nutzbar

• ABER: es gab Verzögerungen !

Ursprünglicher Plan neuer Hochleistungsrechner

627.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf

715.10.2012 HLR Infoveranstaltung | Christian Bischof/Andreas Wolf

• Ein Teilsystem der Phase I HW wurde im alten Serverraum der TU Darmstadt installiert

– Aufbau abgeschlossen– 5 Inseln mit je 32 Rechenknoten und Home-Filesystem

(NetApp)– Kosten-Minimierung– Risiko-Minimierung– Mehr Unabhängigkeit von weiteren Bau-Verzögerungen– Konsequenz: Abschaltung des alten auf Power 6 & 5

basierenden HHLR Anfang ist letztes Jahr erfolgt● Daten bleiben erhalten und sind derzeit weiter zugänglich

Schnelle und gute Übergangslösung

827.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf

Was wir haben jetzt – UCluster

MPI…

Infiniband

Ethernet

HOME

5x32 MPI● 2 Prozessoren , Intel Sandybridge ● Je 8 Kerne mit 2,6 GHz● 32 GByte

Platten● Home: 500 TByte, ca. 2 GB/s

Infiniband (Teilsystem - nur Insel-intern)● FDR-10, 54 Gbit/s, ca. 1 µs Latenz

927.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf

SMP…

Infiniband

Ethernet

Was wir bekommen 2013 – Phase I

SCRATCH

MEM

MPI…

ACC…

Infiniband

Ethernet

HOME

704 x MPI (inkl. 5x32 von Dez. 2012)● 2 Prozessoren , Intel Sandybridge ● Je 8 Kerne mit 2,6 GHz● 32 GByte (10% 64 GByte)

4 x MEM● 8 Prozessoren, je 8 Kerne● 1024 GByte

64 x ACC● 2 Prozessoren + 2 Acceleratoren

● Nvidia Kepler, Intel Xeon Phi (ehem. MIC)

● 32 GBytePlatten

● Scratch: 768 TByte, 20 GB/s● Home: 500 TByte, 5 GB/s

Infiniband● FDR-10, 54 Gbit/s, ca. 1 µs Latenz

1027.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf

Was wir bekommen Ende 2014 – Phase II

SCRATCH

MPI…

ACC…

Infiniband

Ethernet

HOME

Zusätzliche MPI● 2 Prozessoren

● Nachfolge Architektur

4 zusätzliche MEM● 4 Prozessoren

● Nachfolge Architektur● 1024 GByte

Zusätzliche ACC● 2 Prozessoren● 2 Acceleratoren

● Nachfolge Architektur

Platten● Scratch: +768 TByte

● Summe 1,5 PByteInfiniband

● FDR

MEM MEM

MPI…

ACC…

SCRATCH

1127.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf

Hardware Details

MPI…

● Details sind wichtig für effiziente Nutzung● Im Folgenden

● Was macht die Rechner schnell● Heute: Anzahl Rechenkerne statt Takt

● Was muss man unbedingt beachten● Als Anwender

● Welche Ressourcen fordere ich an● Als Programmierer

● Was muss ich bei der Programmierung beachten

1227.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf

SMP…

Vom einfachen Computer zum Hochleistungsrechner

1327.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf

FM

P

FM

P

Vom einfachen Computer zum Hochleistungsrechner

1427.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf

FM

P

FM

P

FM

P

FM

P

FM

P

···

Vom einfachen Computer zum Hochleistungsrechner

1527.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf

Statt vieler normaler PC's:

● Große Rechner mit mehren Prozessoren

● Viele besonders kleine Rechner

M

P

F

P P

P P P···

MP

FMP

MP

MP

MP

MP

MP···

FM

P

FM

P

FM

P

FM

P

···

Vom einfachen Computer zum Hochleistungsrechner

1627.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf

FM

P

FM

P

FM

P

FM

P

···

Mehrprozessor-System

MPI…

1727.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf

SMP…

M

P

F

P

P P

M

P

F

P

P P ···

FM

P P

FM

P P

FM

P P

FM

P P

···

Hardware Details

MPI…

1827.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf

SMP…

FM

P P

M

FM

P P

M F

M

P P

M

NUMA-Systeme

MPI…

1927.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf

SMP…

MM M M

Kern

Kern

Kern

Kern

Kern Kern

Kern

Kern

Kern

Kern

MM M M

Kern

Modul

Modul

Modul Kern

Modul

Modul

Modul

NUMA-Systeme

MPI…

2027.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf

SMP…

MM M M

Kern

Kern

Kern

Kern

Kern Kern

Kern

Kern

Kern

Kern

MM M M

Kern

Modul

Modul

Modul Kern

Modul

Modul

Modul

● Eine AVX Einheit pro Kern● Ein Kern = zwei Hyperthreads● Ein NUMA-Node pro

Prozessor

● Eine AVX Einheit pro Modul● Ein Modul = zwei Kerne● Zwei NUMA-Nodes pro

Prozessor

NUMA-Systeme

MPI…

2127.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf

SMP…

● 16 Kerne (AVX-Einheiten) pro Knoten● Zwei NUMA-Nodes pro Knoten

● 48 Module (AVX-Einheiten) pro Knoten

● Acht NUMA-Nodes pro Knoten

Einführungs-Workshop Februar 2013

Kurs I: „Die ersten Schritte“

27.02.2013

Software

UCluster & ICluster

Dr. Andreas Wolf

System-Werkzeuge• GCC: 4.4.6, 4.6.2 ,4.7.0 und 4.7.2• Intel: 12.1.0, 13.0.1 inkl. Analyser (morgen mehr)• ACML und Intel-MKL, SCALAPACK etc.• OpenMPI, IntelMPI, ...• Totalview (morgen mehr)• Vampir (morgen mehr)

Anwendungen• Ansys v140• Abaqus (verschiedene Versionen)• Matlab 2012a• COMSOL 4.3

Software auf dem Cluster

2327.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf

● ICluster

– E-Mail an [email protected]

● Name● TU-ID● Eigene E-Mail Adresse

– Man erhält E-Mail mit Instruktionen für das Setzen des Passworts

– Login-Knoten: icluster.hrz.tu-darmstadt.de

● per SSH

Zugriff auf den ICluster

2427.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf

● E-Mail an [email protected]

– Man erhält E-Mail mit neuer Nutzerordnung● Namen, TU-ID, E-Mail Adresse, Instituts-Zugehörigkeit,

Staatsangehörigkeit● Projekt-Thema

– Berichte● Keine pers. Daten● Nicht kommerziell● Daten-Lagerzeit● Unterschriften von Nutzer und Institutsleiter

– Grund: Größe des Systems Beachtung der Export-→Beschränkungen

● Login-Knoten: ucluster1.hrz.tu-darmstadt.deucluster2.hrz.tu-darmstadt.de

Zugriff auf den UCluster

2527.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf

● E-Mail an [email protected]

– Man erhält E-Mail mit neuer Nutzerordnung● Namen, TU-ID, E-Mail Adresse, Instituts-Zugehörigkeit,

Staatsangehörigkeit● Projekt-Thema

– Berichte● Keine pers. Daten● Nicht kommerziell● Daten-Lagerzeit● Unterschriften von Nutzer und Institutsleiter

– Grund: Größe des Systems Beachtung der Export-→Beschränkungen

● Login-Knoten: ucluster1.hrz.tu-darmstadt.deucluster2.hrz.tu-darmstadt.de

Zugriff auf den UCluster

2627.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf

● E-Mail an [email protected]

– Man erhält E-Mail mit neuer Nutzerordnung● Namen, TU-ID, E-Mail Adresse, Instituts-Zugehörigkeit,

Staatsangehörigkeit● Projekt-Thema

– Berichte● Keine pers. Daten● Nicht kommerziell● Daten-Lagerzeit● Unterschriften von Nutzer und Institutsleiter

– Grund: Größe des Systems Beachtung der Export-→Beschränkungen

● Login-Knoten: ucluster1.hrz.tu-darmstadt.deucluster2.hrz.tu-darmstadt.de

Zugriff auf den UCluster

2727.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf

Praktikum heute und morgen nurspezielle Workshop Nutzerordnung

> module avail

– Zeigt alle verfügbaren Software-Module an.

Modulares Laden & Entladen

2827.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf

> module list

– Zeigt die derzeit für den User geladenen Software-Module an.

> module load <Modul-Name>

– Lädt Software-Modul für das genannte Programmpaket

● Erst nach dem Laden des Moduls steht die Software zur Verfügung!

> module load <Modul-Name>

– Entlädt Software-Modul

Modulares Laden & Entladen

2927.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf

● Viele Nutzer wollen rechnen

– Allerdings nicht gleichzeitig auf dem selben Rechner

– Bei hunderten von Rechenknoten wäre die Suche nach einem freien Rechner mühselig

➔ Batchsystem

● Managed automatisch die freien Rechner (Ressourcen)– Unterschiedliche Prozessoren (Typ und Art)– Unterschiedlich viel freier Hauptspeicher– Unterschiedliche spezial Hardware (Akzeleratoren)

● ICluster: SLURM (Open Source)● UCluster (und zukünftige): LSF (IBM kommerziell)

Nutzung eines HPC-Systems

3027.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf

Weiter geht’s nach der Pause mit den Batchsystemen

Vielen Dank für Ihre Aufmerksamkeit

3127.02.2013 Einführungs-Workshop Februar 2013 | Dr. Andreas Wolf