34
Deskriptive Statistik

5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Deskriptive Statistik

Page 2: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Deskriptive Statistik: Ziele

Daten zusammenfassen durch numerische Kennzahlen.

Grafische Darstellung der Daten.

1

Quelle: Ursus Wehrli, Kunst aufräumen

Page 3: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Modell vs. Daten

2

Bis jetzt haben wir nur Modelle (Verteilungen) angeschaut.

Jetzt betrachten wir (erstmals) reale Daten.

Vorerst treffen wir aber keine Annahmen, dass diese von einer bestimmtenVerteilung kommen! D.h. wir legen uns nicht auf ein Modell fest.

Basierend auf den Daten können wir diverse Kennzahlen berechnen bzw. dieDaten grafisch darstellen.

Page 4: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Kennzahlen: Überblick

Wir haben beobachtete Datenpunkte 1, 2, … , (z.B. das Verkehrsaufkommenan verschiedenen Tagen oder Orten).

Wir unterscheiden zwischen

Lageparameter («Wo liegen die Beobachtungen auf der Mess-Skala?»)

arithmetisches Mittel («Durchschnitt») empirischer Median empirische Quantile

Streuungsparameter («Wie streuen die Daten um ihre mittlere Lage?»)

empirische Varianz empirische Standardabweichung empirische Quartilsdifferenz

3

Page 5: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Arithmetisches Mittel und empirische Varianz

Arithmetisches Mittel(empir. Pendant des Erwartungswerts )

Empirische Varianz(empir. Pendant der Varianz )

Empirische Standardabweichung(empir. Pendant der Standardabweichung )

4

x =1

n

nXi=1

xi

s2 =1

n− 1nXi=1

(xi − x)2

s =√s2

Schwerpunkt der Daten

0 50 100 150

Page 6: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Geordnete Stichprobe

Wir ordnen unseren Datensatz in aufsteigender Reihenfolge und bezeichnendie geordneten Daten mit , d.h.

Die Position einer Beobachtung in der geordneten Stichprobe bezeichnet man als Rang (die kleinste Beobachtung hat also Rang 1, die grösste Beobachtung Rang ).

Sind Beobachtungen gleich gross, so teilt man ihnen in der Regel ihrendurchschnittlichen Rang zu.

5

Page 7: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Empirische Quantile

Das empirische 100 %-Quantil 0 1 ist ein Wert , so dass etwa100% der Datenpunkte kleiner sind als .

Genauer: Falls ∉ , dann: x , wobei die kleinste ganze Zahl grösser als ist Falls ∈ , dann:

Es gibt (viele) leicht andere Definitionen. Für grosse ist der Unterschied abervernachlässigbar.

6

Page 8: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Empirische Quantile: Beispiel

7

90%-Quantil:0.9 ∙ 12 10.8 90%-Quantil 80.45

25%-Quantil:0.25 ∙ 12 3 25%-Quantil 80.06

1 2 3 4 5 6 7 8 9 10 11 12

79.97 79.98 80.04 80.08 80.12 80.23 80.35 80.38 80.39 80.44 80.45 80.48

Datensatz ist schon geordnet

Page 9: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Ausgewählte Quantile

Median (Zentralwert): 50%-Quantil .

Unteres Quartil: 25%-Quantil .

Oberes Quartil: 75%-Quantil .

Die Differenz der Quartile . . bezeichnet man als Quartilsdifferenz,bzw. Interquartile Range (IQR). Diese ist ein Streuungsmass.

Bsp.

8

1 2 3 4 5 6 7 8 9 10 116.2 6.3 7.0 7.1 9.6 9.9 10.8 11.8 12.5 14.4 16.2

Median Oberes QuartilUnteres Quartil

IQR = 12.5-7.0 = 5.5

Page 10: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

0 20 40 60 80 100 120 140

Med

ian

Arithmetisches Mittel vs. Median: Einkommen [kCHF]7 Beobachtungen

9

Page 11: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

0 50 100 150

0 50 100 150 200 250 300 350 400

Med

ian

M

edia

n

10

Der Median und die Quartilsdifferenz sind robuste Kennzahlen für die Lage und die Streuung der Daten, d.h. sie werden nicht gross von Ausreissern beeinflusst. Der Mittelwert und die Standardabweichung sind nicht robust.

Page 12: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Arithmetisches Mittel vs. Median

11

Page 13: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Grafische Darstellungen: Überblick

Wir behandeln folgende Darstellungen: Histogramm Boxplot empirische kumulative Verteilungsfunktion

12

Page 14: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Histogramm

Aufteilung des Wertebereichs in Intervalle der Breite .

Zähle Anzahl Beobachtungen in jedem Intervall.

Graphische Darstellung mit Balken. Höhe der Balken in einem Intervall ist

#

Die Gesamtfläche unter dem Histogramm ist 1.Die Fläche über einem Intervall entspricht der relativen Häufigkeit (vgl. Dichte).

13

Page 15: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Old Faithful Geysir (Yellowstone): Daten

14

Zeitspanne [Min] zwischen Ausbrüchen Eruptionsdauer [Min]

Daten z.B. von hierhttp://stat.ethz.ch/Teaching/Datasets/geysir.dat

Page 16: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Histogramme der Zeitspanne

15

Relative Häufigkeit von Wartezeiten imIntervall [70,80] ist etwa0.02*(75-70) + 0.04*(80-75) = 30%

• Histogramm ergibt oft einen guten Überblick: Symmetrie, Anzahl der Gipfel, Lage, Streuung, …

• Je breiter die Klassen sind, desto mehr werden die Daten zusammengefasst (“Erosion”)

Page 17: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Boxplot: Schematischer Aufbau (von der Mitte nach aussen)

16

MedianUnteres Quartil

Oberes Quartil

Grösste «normale» Beobachtung

Kleinste «normale» Beobachtung

Ausreisser (falls vorhanden)

Ausreisser (falls vorhanden)

Qua

rtils

diffe

renz

(ent

hält

50%

der

Dat

en)

Page 18: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Boxplot: Schematischer Aufbau

Die grösste normale Beobachtung ist definiert als die grösste Beobachtung,die höchstens 1.5 ∙ vom oberen Quartil entfernt ist, wobei dieQuartilsdifferenz ist:Also grösster Datenwert mit . 1.5 ⋅

Die kleinste normale Beobachtung ist entsprechend analog definiert mit demunteren Quartil:Also kleinster Datenwert mit . 1.5 ⋅

Ausreisser sind Punkte, die ausserhalb dieser Bereiche liegen.

17

Page 19: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Boxplot und Histogramm der Wartezeiten zwischen Eruptionen

18

Wir sehen die verschiedenen

Peaks im Boxplot nicht!

Page 20: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Mehrere Boxplots

Mit mehreren Boxplots kann man einfach und schnell die Verteilung von verschiedenen Gruppen (Methoden, Produkte, …) vergleichen.

19

Page 21: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Schiefe

20

symmetrisch rechtsschief linksschief

Page 22: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Boxplot: Bemerkungen

Ein Boxplot ist eine gröbere Zusammenfassung als ein Histogramm. Er eignet sich gut, um mehrere Datensätze zu vergleichen.

Im Boxplot sind ersichtlich: Lage Streuung Schiefe

Man sieht aber z.B. nicht, ob eine Verteilung mehrere «Peaks» (Gipfel) hat.

21

Page 23: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Empirische kumulative Verteilungsfunktion

22

Die empirische kumulative Verteilungsfunktion ist definiert als der Anteil der Punkte, die kleiner als ein bestimmter Wert sind, d.h.

Bild

40 50 60 70 80 90 100

0.0

0.2

0.4

0.6

0.8

1.0

Zeitspanne

F nx

Sprunghöhe 1/ bei Beobachtungen (bzw. ein Vielfaches davon, wenn es mehrereBeobachtungen mit demgleichen Wert gibt).

Page 24: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Zuordnung1. A1 / B22. A2 / B13. Keine Ahnung

Zuordnung Histogramm / Verteilungsfunktion (Schnellquiz)

23

Freq

uenc

y

-3 -2 -1 0 1 2 3

010

2030

-3 -2 -1 0 1 2 3

0.0

0.4

0.8

Fn(x

)

Freq

uenc

y

-3 -2 -1 0 1 2 3

05

1015

-3 -2 -1 0 1 2 3

0.0

0.4

0.8

Fn(x

)

A

B

1

2

Page 25: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

24

Modell (“Theorie”) Daten (beobachtete Stichprobe)

Erwartungswert Arithm. Mittel

Varianz Empirische Varianz

Kumulative Verteilungsfunktion Empirische kumulative Verteilungsfunktion

Dichte Histogramm (normiert auf Fläche 1)

0.00.10.20.30.40.5

5 7 9 11 13

f(x)

x

0.00.20.40.60.81.0

5 7 9 11 13

P[X ≤ x]

x

x =1

n

nXi=1

xi

s2 =1

n− 1nXi=1

(xi − x)2

0.0

0.2

0.4

0.6

0.8

1.0

5 6 7 8 9 10 11 12 13x

0.00

0.10

0.20

0.30

5 6 7 8 9 10 11 12 13

→ ∞

Page 26: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Deskriptive Statistik: 2 Dimensionen

Wir haben nun paarweise beobachtete Daten

Zum Beispiel die Note der Basisprüfung ( ) und die Note der Zwischenprüfung ( ) von Studenten. Oder die Eruptionsdauer ( ) und die Zeitspanne ( ) zum vorangehenden Ausbruch des Old Faithful Geysir.

Neue Grafiken/Kennzahlen: zweidimensionales Streudiagramm empirische Kovarianz und Korrelation

25

, … ,

, … ,

Page 27: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

0 1 2 3 4 5 6 7

23

45

6

Zwischenprüfung

Basi

sprü

fung

Zweidimensionales Streudiagramm

Am Beispiel der Zwischen- und Basisprüfung aus einem Vorjahr

26

Page 28: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Zweidimensionales Streudiagramm

Am Beispiel Old Faithful

27

Page 29: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Zusammenhänge gibt es viele…

28Quelle: The New England Journal of Medicine

Page 30: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Empirische Kovarianz und Korrelation

Empirische Kovarianz

Empirische Korrelation

wobei , die empirischen Standardabweichungen sind.

Es gilt

29

sxy =1

n− 1nXi=1

(xi − x)(yi − y)

rxy =sxysxsy

∈ [−1, 1]

rxy = 1 ⇐⇒ yi = a+ bxi, b > 0

rxy = −1 ⇐⇒ yi = a+ bxi, b < 0

Page 31: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Empirische Kovarianz und Korrelation

30

Beitrag eines Datenpaares zur empirischen Kovarianz/Korrelation

0.86

Page 32: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Empirische Korrelation: Bemerkungen

Korrelation misst «nur» den linearen Zusammenhang.

Man sollte daher die Daten immer auch anschauen, statt sich «blind» aufKennzahlen zu verlassen.

31

Quelle: Wikipedia

Page 33: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Empirische Korrelation: Bemerkungen

32

5 10 15

46

810

12

x1

y1

Corr = 0.82

5 10 15

46

810

12

x2

y2

Corr = 0.82

5 10 15

46

810

12

x3

y3

Corr = 0.82

5 10 15

46

810

12

x4

y4

Corr = 0.82

Page 34: 5c Deskriptive Statistik - ETH ZBoxplot: SchematischerAufbau Die grösstenormale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5∙ + 3 4vom oberen Quartil

Gapminder

See https://www.gapminder.org/videos/200-years-that-changed-the-world-bbc/

33