Übung1 - · Parallele. Systeme Hardware-Architektur. Vektor-rechner. Rechen-felder. Synthese...

Übung 1.

Letzte Änderung: 29. Juni 2016

..ParalleleSysteme

. Hardware-Architektur

Vektor-rechner

Rechen-felder

Synthese

Op mierung

. System-on-Chip

Netzwerke

sta sch

dynamisch

mehrstufig

einstufig

.Theorie . .

Workload-balancing

Performanz-analyse

Speedup

Komplexität(PRAM)

Performanz-maße

Netzwerke

Topologien

Rou ng

.Modelle

FlynnsSchema

Mul -prozessor

Mul -computer

Compiler

Abhängig-keitsanalyse

Parallel-ismustest

Übung 1

Aufgabe 1: PerformanzmaßeWie kann man die Rechenleistung verschiedener Computer vergleichen?

Aufgabe 2: PRAM-ModellWie kann man parallele Algorithmen analysieren?

Aufgabe 3: Klassifika on von ParallelrechnernWelche Arten von Parallelrechnern gibt es und welche Gemeinsamkeiten besitzen sie?

Aufgabe 1 (Performanz)

Auf einem Prozessor mit einer Taktrate von 2,24 GHz werden 200000 Instruk onen einesProgramms ausgeführt. Das Programm enthält vier verschiedene Instruk onstypenunterschiedlicher Häufigkeit und durchschni licher Ausführungszeit (CPI = cycles perinstruc on), wie in nachfolgender Tabelle angegeben.

Instruk onstyp CPI Häufigkeit

arithme sch/logisch 1 60%Speicherzugriff (cache hit) 2 18%Verzweigung 4 12%Speicherzugriff (cache miss) 8 10%

a) Welche Ausführungszeit benö gt das oben beschriebene Programm?

b) Bes mmen Sie die MIPS-Rate des Prozessors.

Zuerst suchen, was gegeben ist…

b) Bes mmen Sie die MIPS-Rate des Prozessors.

…dann, was gesucht ist

b) Bes mmen Sie dieMIPS-Rate des Prozessors.

Tak requenz f ist Kehrwert von Taktperiode τ

.. t [s].

· · ·

f [Hz]

1 Takt

1 Sekunde

Programme: Von Befehlen und Takten

Ic = 9 [Befehle]

Befehlssatz: Nt = 4 [Typen]

Befehlstyp 1

CPI1 = 1

Befehlstyp 2

CPI2 = 2

Befehlstyp 3

CPI3 = 3

Befehlstyp 4

CPI4 = 2

H1 = 4

H2 = 3

H3 = 2

H4 = 0

h1 = 0.4

h2 = 0.3

h3 = 0.2

h4 = 0

Ic = 9 [Befehle]

Befehlstyp 1

CPI1 = 1

Befehlstyp 2

CPI2 = 2

Befehlstyp 3

CPI3 = 3

Befehlstyp 4

CPI4 = 2

H1 = 4

H2 = 3

H3 = 2

H4 = 0

h1 = 0.4

h2 = 0.3

h3 = 0.2

h4 = 0

Ic = 9 [Befehle]

C =∑Nt

i=1 Hi · CPIi = 16 [Takte]

Befehlstyp 1

CPI1 = 1

Befehlstyp 2

CPI2 = 2

Befehlstyp 3

CPI3 = 3

Befehlstyp 4

CPI4 = 2

H1 = 4

H2 = 3

H3 = 2

H4 = 0

h1 = 0.4

h2 = 0.3

h3 = 0.2

h4 = 0

Ic = 9 [Befehle]

C =∑Nt

i=1 Hi · CPIi = 16 [Takte]

Befehlstyp 1

CPI1 = 1

Befehlstyp 2

CPI2 = 2

Befehlstyp 3

CPI3 = 3

Befehlstyp 4

CPI4 = 2

H1 = 4

H2 = 3

H3 = 2

H4 = 0

h1 = 0.4

h2 = 0.3

h3 = 0.2

h4 = 0

CPI (eines Prozessors für ein Programm)

CPI =CIc=

∑Nti=1 CPIi · Hi

Nt∑i=1

CPIi · hi

Ausführungszeit (eines Programms)

T = C · τ [s]

MIPS-Rate (eines Prozessors)

MIPS-Rate =Ic

106 · T[MIPS]

Übersicht Maße und Eigenscha en

T = C · τ, MIPS-Rate =Ic

T · 106, f =

CPI =CIC

∑Nti=1 CPIi · Hi

Nt∑i=1

CPIi · hi

T Ausführungszeit in SekundenC Ausführungszeit in TaktenIC Anzahl Befehle eines ausgeführten ProgrammsHi, hi absolute/rela ve Häufigkeit von Befehlstyp i

CPI durchschni lich benö gte Takte pro BefehlCPIi durchschni lich benö gte Takte für Befehlstyp if, τ Taktrate, Taktperiode

MIPS: „Misleading Indicator of Processor Speed“?

Messwert Computer A Computer B

IC 10 Mrd. 8 Mrd.f 4GHz 4GHzCPI 1.0 1.1

MIPS-Rate 4000 3636T 2500 s 2200 s

Beispiel: ARM mehr Befehle als x86 für selbes Programm

for (i = 0; i < 10; ++i) sum *= i;

.L3:movl -4(%rbp), %eaximull -8(%rbp), %eaxmovl %eax, -4(%rbp)addl $1, -8(%rbp)

.L2:cmpl $9, -8(%rbp)jbe .L3

.L3:ldr r3, [fp, #-8]ldr r2, [fp, #-12]mul r3, r2, r3str r3, [fp, #-8]ldr r3, [fp, #-12]add r3, r3, #1str r3, [fp, #-12]

.L2:ldr r3, [fp, #-12]cmp r3, #9bls .L3

Referenzen und Weiterführendes

Vorlesung: Teil 1.1, Folien 3–4

Literatur▶ Advanced Computer Architecture: Parallelism, Scalability, Programmability, Kapitel

1.1.4▶ Parallel Programming for Mul core and Cluster Systems, Kapitel 4.1▶ Computer Organiza on and Design: The Hardware/So ware Interface, Kapitel 1.6

Aufgabe 2 (PRAM-Modell)

Entwerfen Sie einen Algorithmus, um das Maximum von n ganzzahligen Werten inO(log n) Zeitschri en für ein EREW-PRAM-Modell zu bes mmen. Nehmen Sie an, dasszur Ini alisierung jeder zur Verfügung stehende Prozessor bereits einen Eingabewertgeladen hat.

z.B. max(3, 13, 21, 1, 5, 1, 8, 2) = 21

Wiederholung: Was bedeutet f ∈ O(g)?

log2 n

2 log2 n1

log2 n1

PRAMs sind synchron

..P1. P2. P3. Pn. · · ·.

Programm

Gemeinsamer Speicher

synchron

PRAMs laufen stets zyklisch ab

..Lesen.

Rechnen

Schreiben

PRAMs bieten mehrere Abstufungen der Konfliktbehandlung

EREW (exclusive read, exclusive write): jede Speicherzelle kann zu jedem Zeitpunkt nurvon einem Prozessor gelesen oder beschrieben werden

Beispiel: Maximumfindung mit einer PRAM (ohne Speicher)

.. 3.. 13.. 21.. 1

.. 3,5.. 13,1.. 21,8.. 1,2.. 5.. 13.. 21.. 2.. 21.. 2.. 5.. 13.. 5,21.. 13,2.. 21.. 13.. 13.. 21.. 21,13.

Ausgangszustand

Ergebnis in P[0]

Rechnen

Schreiben

.. 3.. 13.. 21.. 1

.. 3,5.. 13,1.. 21,8.. 1,2.. 5.. 13.. 21.. 2.. 21.. 2.. 5.. 13.. 5,21.. 13,2.. 21.. 13.. 13.. 21.. 21,13.

Ausgangszustand

Ergebnis in P[0]

Rechnen

Schreiben

.. 3.. 13.. 21.. 1

.. 3,5.. 13,1.. 21,8.. 1,2.. 5.. 13.. 21.. 2.. 21.. 2.. 5.. 13.. 5,21.. 13,2.. 21.. 13.. 13.. 21.. 21,13.

Ausgangszustand

Ergebnis in P[0]

Rechnen

Schreiben

.. 3.. 13.. 21.. 1

.. 3,5.. 13,1.. 21,8.. 1,2

.. 5.. 13.. 21.. 2.. 21.. 2.. 5.. 13.. 5,21.. 13,2.. 21.. 13.. 13.. 21.. 21,13

Ausgangszustand

Ergebnis in P[0]

Rechnen

Schreiben

.. 3.. 13.. 21.. 1.. 3,5.. 13,1.. 21,8.. 1,2

.. 5.. 13.. 21.. 2

.. 21.. 2.. 5.. 13.. 5,21.. 13,2.. 21.. 13.. 13.. 21.. 21,13.

Ausgangszustand

Ergebnis in P[0]

Rechnen

Schreiben

.. 3.. 13.. 21.. 1.. 3,5.. 13,1.. 21,8.. 1,2.. 5.. 13.. 21.. 2

.. 21.. 2.. 5.. 13

.. 5,21.. 13,2.. 21.. 13.. 13.. 21.. 21,13.

Ausgangszustand

Ergebnis in P[0]

Rechnen

Schreiben

.. 3.. 13.. 21.. 1.. 3,5.. 13,1.. 21,8.. 1,2.. 5.. 13.. 21.. 2

.. 21.. 2.. 5.. 13

.. 5,21.. 13,2.. 21.. 13.. 13.. 21.. 21,13.

Ausgangszustand

Ergebnis in P[0]

Rechnen

Schreiben

.. 3.. 13.. 21.. 1.. 3,5.. 13,1.. 21,8.. 1,2.. 5.. 13.. 21.. 2

.. 21.. 2

.. 5.. 13

.. 5,21.. 13,2

.. 21.. 13.. 13.. 21.. 21,13

Ausgangszustand

Ergebnis in P[0]

Rechnen

Schreiben

.. 3.. 13.. 21.. 1.. 3,5.. 13,1.. 21,8.. 1,2.. 5.. 13.. 21.. 2

.. 21.. 2

.. 5.. 13.. 5,21.. 13,2

.. 21.. 13

.. 13.. 21.. 21,13.

Ausgangszustand

Ergebnis in P[0]

Rechnen

Schreiben

.. 3.. 13.. 21.. 1.. 3,5.. 13,1.. 21,8.. 1,2.. 5.. 13.. 21.. 2

.. 21.. 2

.. 5.. 13.. 5,21.. 13,2.. 21.. 13

.. 13.. 21

.. 21,13.

Ausgangszustand

Ergebnis in P[0]

Rechnen

Schreiben

.. 3.. 13.. 21.. 1.. 3,5.. 13,1.. 21,8.. 1,2.. 5.. 13.. 21.. 2

.. 21.. 2

.. 5.. 13.. 5,21.. 13,2.. 21.. 13

.. 13.. 21

.. 21,13.

Ausgangszustand

Ergebnis in P[0]

Rechnen

Schreiben

.. 3.. 13.. 21.. 1.. 3,5.. 13,1.. 21,8.. 1,2.. 5.. 13.. 21.. 2

.. 21.. 2

.. 5.. 13.. 5,21.. 13,2.. 21.. 13

.. 21,13.

Ausgangszustand

Ergebnis in P[0]

Rechnen

Schreiben

.. 3.. 13.. 21.. 1.. 3,5.. 13,1.. 21,8.. 1,2.. 5.. 13.. 21.. 2

.. 21.. 2

.. 5.. 13.. 5,21.. 13,2.. 21.. 13

.. 13.. 21

.. 21,13.

Ausgangszustand

Ergebnis in P[0]

Rechnen

Schreiben

.. 3.. 13.. 21.. 1.. 3,5.. 13,1.. 21,8.. 1,2.. 5.. 13.. 21.. 2

.. 21.. 2

.. 5.. 13.. 5,21.. 13,2.. 21.. 13

.. 13.. 21

.. 21,13.

Ausgangszustand

Ergebnis in P[0]

Rechnen

Schreiben

Vorlesung: Teil 1.1, Folien 28–34

1.4.1▶ Parallel Programming for Mul core and Cluster Systems, Kapitel 4.5.1▶ Prac cal PRAM Programming

Aufgabe 3 (Klassifika on von Parallelrechnern)

Unterscheiden Sie nachfolgende Architekturen gemäß der in der Vorlesung vorgestelltenKriterien und klassifizieren Sie die Architekturen nach Flynns Schema.

Flynns Schema klassifiziert nach Parallelismus

▶ Single Instruc on, Single Data (SISD)z.B. einzelne Ausführungseinheiten eines Intel i7

▶ Single Instruc on, Mul ple Data (SIMD)z.B. GPUs, AVX-Erweiterungen des x86-Befehlssatzes

▶ Mul ple Instruc on, Single Data (MISD)sehr unüblich; in fehlertoleranten Systemen möglich

▶ Mul ple Instruc on, Mul ple Data (MIMD)häufigste Form; heu ge Prozessoren, Supercomputer

Parallelrechner sind in zwei Klassen einteilbar

Mul prozessor ↔ Mul computerhomo-/heterogen Komponenten homo-/heterogen

(Prozessoren) (Knoten)

shared Speicher verteilt

UMA Zugriff NORMANUMACOMA

Speicher Kommunika on Nachrichten

Vorlesung: Teil 1.1, Folien 1–2, 6–13

1.2–1.3▶ Parallel Programming for Mul core and Cluster Systems, Kapitel 2.2–2.3

Übung1 - · Parallele. Systeme Hardware-Architektur. Vektor-rechner. Rechen-felder. Synthese...

Documents

Parallele und kombinatorische Methoden zur Synthese ...Parallele und kombinatorische Methoden zur Synthese cyclischer Urokinaserezeptorantagonisten an fester Phase und in Lösung Niko

14 Parallele Rechner 14.1 Parallele Rechner - Einführung 14.2 Leistung 14.3 Kommuniklationsarchitektur 14.4 Typen paralleler Architekturen

Eimer, Schaufel, Rechen und Gießkanne

Parallele Korpora - GitHub Pagesspartusch.github.io/legacy-website/papers/parallele_korpora.pdf · pus.html Wortalignierte Korpora. Parallele Korpora: Programme Manatee (Server) verarbeitet

Parallele und individuelle Evolution des Humanen …hss.ulb.uni-bonn.de/2009/1911/1911.pdf · 2009-11-25 · Parallele und individuelle Evolution des Humanen Immuno-defizienz Virus

Parallele Rechnerarchitektur II - Heidelberg University...Parallele Rechnerarchitektur II Stefan Lang Interdisziplinäres Zentrum für Wissenschaftliches Rechnen Universität Heidelberg

Proseminar: Parallele Algorithmenalgo2.iti.kit.edu/img/content/presentation.pdf · Proseminar: Parallele Algorithmen Von Theorie zu Praxis Peter Sanders, Jochen Speck, Daniel Funke

Standardsoftwarebasiertes Projektcontrolling für parallele

GPGPU Computing - Parallele Programmierung mit CUDA und … · Gienapp, Mario: GPGPU Computing - Parallele Programmierung mit CUDA und OpenCL, 85 Sei-ten, 12 Abbildungen, Hochschule

Parallele Programmiermodelle - Informatik · Parallele Programmiermodelle (Teil 1) K 3.1 – 3.5 - Tobias Kranz, Torsten Hain Institut für Informatik Einleitung - Kurzer Rückblick

Parallele Algorithmen bereits behandelt: paralleles Sortieren mit Ranksort parallele Matrixmultiplikation nach Gentleman numerisches Iterationsverfahren

Parallele Rechnerarchitektur II - conan.iwr.uni-heidelberg.de · Parallele Rechnerarchitektur II Stefan Lang Interdisziplinäres Zentrum für Wissenschaftliches Rechnen Universität

Parallele Multiprozessorsysteme Das Ende der Hardware ... · Parallele Multiprozessorsysteme Das Ende der Hardware Miniaturisierung? Ferhat Beyaz, betreut von Freddy Lopez Villafuerte

Russische Corpuslinguistik (parallele Textcorpora mit Russisch)

244 BOCHUM-RECHEN Zusammenkünfte: 1. …arthene.de/anschreiben1.pdf · 244 BOCHUM-RECHEN Zusammenkünfte: 1. bis 4. Donnerstag 13 Uhr, 5. Donnerstag 19.30 Uhr, Haus Harmonie, Gudrunstr

Algorithm Engineering „Parallele Algorithmen“

Algorithm Engineering Parallele Algorithmen Stefan Edelkamp

Zander 2013 Tauchgangsberechnung Tauchgangberechnung Gasaustausch / Diffusion Löslichkeit von Gasen Mikroblasen Tabelle / Computer Rechen-Modelle Deep

Parallele Datenverarbeitung Pig, Hive & SystemT/JAQL

Parallele Programmierung - Basispr ufung - Seite 2 …lec.inf.ethz.ch/DA/2018/downloads/exams/bp_2015_w/bp...Parallele Programmierung - Basispr ufung - Seite 2 von 21 Montag, 1.2.2016