Upload
truongkhanh
View
220
Download
0
Embed Size (px)
Citation preview
(basierend auf Slides von Lukas Meier)
Deskriptive Statistik
Deskriptive Statistik: Ziele
Daten zusammenfassen durch numerische Kennzahlen.
Grafische Darstellung der Daten.
1
Quelle: Ursus Wehrli, Kunst aufräumen
Modell vs. Daten
2
Bis jetzt haben wir nur Modelle (Verteilungen) angeschaut.
Jetzt betrachten wir (erstmals) reale Daten.
Vorerst treffen wir aber keine Annahmen, dass diese von einer bestimmtenVerteilung kommen! D.h. wir legen uns nicht auf ein Modell fest.
Basierend auf den Daten können wir diverse Kennzahlen berechnen bzw. die Daten grafisch darstellen.
Kennzahlen: Überblick
Wir haben 𝑛𝑛 beobachtete Datenpunkte 𝑥𝑥1, 𝑥𝑥2, … , 𝑥𝑥𝑛𝑛 (z.B. das Verkehrsaufkommenan 𝑛𝑛 verschiedenen Tagen oder Orten).
Wir unterscheiden zwischen
Lageparameter («Wo liegen die Beobachtungen auf der Mess-Skala?»)
arithmetisches Mittel («Durchschnitt») empirischer Median empirische Quantile
Streuungsparameter («Wie streuen die Daten um ihre mittlere Lage?»)
empirische Varianz empirische Standardabweichung empirische Quartilsdifferenz
3
Arithmetisches Mittel und empirische Varianz
Arithmetisches Mittel(emp. Pendant des Erwartungswerts 𝜇𝜇)
Empirische Varianz(emp. Pendant der Varianz 𝜎𝜎2)
Empirische Standardabweichung(emp. Pendant der Standardabweichung 𝜎𝜎)
Siehe Beispiel Wandtafel
4
x =1
n
nX
i=1
xi
s2 =1
n¡ 1
nX
i=1
(xi ¡ x)2
s =ps2
Schwerpunkt der Daten
0 50 100 150
Geordnete Stichprobe
Wir ordnen unseren Datensatz in aufsteigender Reihenfolge und bezeichnendie geordneten Daten mit 𝑥𝑥 𝑖𝑖 , d.h.
Die Position einer Beobachtung in der geordneten Stichprobe bezeichnet man als Rang (die kleinste Beobachtung hat also Rang 1, die grösste Beobachtung Rang 𝑛𝑛)
Sind Beobachtungen gleich gross, so teilt man ihnen in der Regel ihrendurchschnittlichen Rang zu
Siehe Beispiel Wandtafel
5
Empirische Quantile
Das empirische 𝛼𝛼 × 100 %-Quantil (0 < 𝛼𝛼 < 1) ist ein Wert 𝑞𝑞𝛼𝛼, so dass etwa𝛼𝛼 × 100% der Datenpunkte kleiner sind als 𝑞𝑞𝛼𝛼.
Genau: Falls 𝛼𝛼𝑛𝑛 ∉ ℕ, dann: 𝑞𝑞𝛼𝛼= x( 𝛼𝛼𝛼𝛼 ), wobei 𝛼𝛼𝑛𝑛 die kleinste ganze Zahl grösser als 𝛼𝛼𝑛𝑛 ist Falls 𝛼𝛼𝑛𝑛 ∈ ℕ, dann: 𝑞𝑞𝛼𝛼= 1
2(𝑥𝑥(𝛼𝛼𝛼𝛼) + 𝑥𝑥(𝛼𝛼𝛼𝛼+1))
Es gibt (viele) Variationen für die genaue Definition. Für grosse 𝑛𝑛 ist der Unterschied aber vernachlässigbar.
6
Empirische Quantile: Beispiel
7
90%-Quantil: 0.9 � 12 = 10.8 10.8 ∉ ℕ und 10.8 = 11 90%-Quantil = 𝑥𝑥 11 = 80.45
25%-Quantil:0.25 � 12 = 3 3 ∈ ℕ 25%-Quantil = 1
2(𝑥𝑥 3 + 𝑥𝑥 4 ) = 80.06
𝑖𝑖 1 2 3 4 5 6 7 8 9 10 11 12
𝑥𝑥 𝑖𝑖 79.97 79.98 80.04 80.08 80.12 80.23 80.35 80.38 80.39 80.44 80.45 80.48
Datensatz ist schon geordnet
Ausgewählte Quantile
Median (Zentralwert): 50%-Quantil 𝑞𝑞0.5
Unteres Quartil: 25%-Quantil 𝑞𝑞0.25
Oberes Quartil: 75%-Quantil 𝑞𝑞0.75
Die Differenz der Quartile 𝑞𝑞0.75 − 𝑞𝑞0.25 bezeichnet man als Quartilsdifferenz, bzw. Interquartile Range (IQR). Diese ist ein Streuungsmass.
Bsp.
8
𝑖𝑖 1 2 3 4 5 6 7 8 9 10 11𝑥𝑥(𝑖𝑖) 6.2 6.3 7.0 7.1 9.6 9.9 10.8 11.8 12.5 14.4 16.2
Median Oberes QuartilUnteres Quartil
IQR = 12.5-7.0 = 5.5
𝑛𝑛 = 11:
0.25 ⋅ 11 = 2.75 → 𝑞𝑞0.25 = 𝑥𝑥(3)
0.5 ⋅ 11 = 5.5 → 𝑞𝑞0.5 = 𝑥𝑥(6)
0.75 ⋅ 11 = 8.25 → 𝑞𝑞0.75 = 𝑥𝑥(9)
0 20 40 60 80 100 120 140
Med
ian
�̅�𝑥
Arithmetisches Mittel vs. Median: Einkommen [k CHF]7 Beobachtungen
9
0 50 100 150
0 50 100 150 200 250 300 350 400
�̅�𝑥
Med
ian
�̅�𝑥
Med
ian
10
Der Median und die Quartilsdifferenz sindrobuste Kennzahlenfür die Lage und die Streuung der Daten, d.h., sie werden nichtgross von Ausreissernbeeinflusst. Mittelwert und Standardabweichungsind nicht robust.
Arithmetisches Mittel vs. Median
11
Grafische Darstellungen: Überblick
Wir behandeln folgende Darstellungen: Histogramm Boxplot empirische kumulative Verteilungsfunktion
12
Histogramm
Aufteilung des Wertebereichs in Intervalle der Breite ℎ.
Zähle Anzahl Beobachtungen in jedem Intervall.
Graphische Darstellung mit Balken. Höhe der Balken ist
#(𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵ℎ𝐵𝐵𝐵𝐵𝑛𝑛𝐵𝐵𝐵𝐵𝑛𝑛 𝑖𝑖𝑖𝑖 𝐼𝐼𝑛𝑛𝐵𝐵𝐵𝐵𝐼𝐼𝐼𝐼𝐵𝐵𝐼𝐼𝐼𝐼)𝑛𝑛ℎ
Die Gesamtfläche unter dem Histogramm ist 1. Die Fläche über einem Intervall entspricht die relative Häufigkeit (vgl Dichte).
13
Old Faithful Geysir (Yellowstone): Daten
14
Zeitspanne [Min] zwischen Ausbrüchen Eruptionsdauer [Min]
Daten z.B. von hierhttp://stat.ethz.ch/Teaching/Datasets/geysir.dat
Histogramme der Zeitspanne
15
Relative Häufigkeit von Wartezeiten imIntervall [70,80] ist etwa0.02*(75-70) + 0.04*(80-75) = 30%
• Histogramm ergibt oft einen gutenÜberblick: Symmetrie, AnzahlGipfel, Lage, Streuung, …
• Je breiter die Klassen, je mehrwerden die Datenzusammengefasst (“Erosion”)
Boxplot: Schematischer Aufbau
16
MedianUnteres Quartil
Oberes Quartil
Grösste «normale» Beobachtung
Kleinste «normale» Beobachtung
Ausreisser (falls vorhanden)
Ausreisser (falls vorhanden)
Qua
rtils
diffe
renz
(ent
hält
50%
der
Dat
en)
Boxplot: Schematischer Aufbau
Die grösste normale Beobachtung ist definiert als die grösste Beobachtung, die höchstens 1.5 � 𝐼𝐼𝐼𝐼𝐼𝐼 vom oberen Quartil entfernt ist, wobei 𝐼𝐼𝐼𝐼𝐼𝐼 die Quartilsdifferenz ist:Also grösster Datenwert 𝑥𝑥𝑖𝑖 mit 𝑥𝑥𝑖𝑖 − 𝑞𝑞0.75 < 1.5 ⋅ 𝐼𝐼𝐼𝐼𝐼𝐼
Die kleinste normale Beobachtung ist entsprechend analog definiert mit dem unteren Quartil:Also kleinster Datenwert 𝑥𝑥𝑖𝑖 mit 𝑞𝑞0.25 − 𝑥𝑥𝑖𝑖 < 1.5 ⋅ 𝐼𝐼𝐼𝐼𝐼𝐼
Ausreisser sind Punkte, die ausserhalb dieser Bereiche liegen.
17
Boxplot und Histogramm der Wartezeiten zwischen Eruptionen
18
Wir sehen die verschiedenen
Peaks im Boxplot nicht!
Mehrere Boxplots
Mit mehreren Boxplots kann man einfach und schnell die Verteilung von verschiedenen Gruppen (Methoden, Produkte, …) vergleichen.
19
Schiefe
20
symmetrisch rechtsschief linksschief
Boxplot: Bemerkungen
Ein Boxplot ist eine grobere Zusammenfassung als ein Histogramm. Es eignet sich gut um mehrere Datensätze zu vergleichen.
Im Boxplot sind ersichtlich: Lage Streuung Schiefe
Man sieht aber z.B. nicht, ob eine Verteilung mehrere «Peaks» (Gipfel) hat.
21
Empirische kumulative Verteilungsfunktion
22
Empirische kumulative Verteilungsfunktion ist definiert als der Anteil der Punkte, die kleiner als ein bestimmter Wert 𝑥𝑥 sind, d.h.
Bild
40 50 60 70 80 90 100
0.0
0.2
0.4
0.6
0.8
1.0
Zeitspanne
F nx
Treppenfunktion:Sprunghöhe 1/𝑛𝑛 bei Beobachtungen 𝑥𝑥𝑖𝑖(bzw. ein Vielfaches davon, wenn es mehrereBeobachtungen mit demgleichen Wert 𝑥𝑥𝑖𝑖 gibt).
23
Modell (“Theorie”) Daten (beobachtete Stichprobe)
Erwartungswert Arithm. Mittel
Varianz Empirische Varianz
Kumulative Verteilungsfunktion Empirische kumulative Verteilungsfunktion
Dichte Histogramm (normiert auf Fläche 1)
0.00.10.20.30.40.5
5 7 9 11 13
f(x)
x
0.00.20.40.60.81.0
5 7 9 11 13
P[X
≤ x]
x
x =1
n
nX
i=1
xi
s2 =1
n¡ 1
nX
i=1
(xi ¡ x)2
0.0
0.2
0.4
0.6
0.8
1.0
5 6 7 8 9 10 11 12 13x
0.00
0.10
0.20
0.30
5 6 7 8 9 10 11 12 13
𝑛𝑛 → ∞
Deskriptive Statistik: 2 Dimensionen
Wir haben nun paarweise beobachtete Daten
Zum Beispiel die Note der Basisprüfung (𝑦𝑦𝑖𝑖) und die Note der Zwischenprüfung(𝑥𝑥𝑖𝑖) der Studenten. Oder die Eruptionsdauer (𝑦𝑦𝑖𝑖) und die Zeitspanne (𝑥𝑥𝑖𝑖) zumvorangehenden Ausbruch des Old Faithful Geysir.
Neue Grafiken/Kennzahlen: zweidimensionales Streudiagramm empirische Kovarianz und Korrelation
24
𝑥𝑥1, … , 𝑥𝑥𝛼𝛼
𝑦𝑦1, … ,𝑦𝑦𝛼𝛼
0 1 2 3 4 5 6 7
23
45
6
Zwischenpruefung
Basi
spru
efun
g
Zweidimensionales Streudiagramm
Beispiel der Zwischen- und Basisprüfung (mit «jittering»):
25
Zweidimensionales Streudiagramm
Beispiel Old Faithful:
26Time to next eruption
Zusammenhänge gibt es viele…
27Quelle: The New England Journal of Medicine
Empirische Kovarianz und Korrelation
Empirische Kovarianz
Empirische Korrelation
wobei 𝑠𝑠𝑥𝑥 , 𝑠𝑠𝑦𝑦 die empirischen Standardabweichungen sind.
28
sxy =1
n¡ 1
nX
i=1
(xi ¡ x)(yi ¡ y)
rxy =sxysxsy
2 [¡1; 1]
Empirische Kovarianz und Korrelation
29
Beitrag eines Datenpaares zur empirischen Kovarianz/Korrelation
�̅�𝑥
�𝑦𝑦
𝐼𝐼𝑥𝑥𝑦𝑦 = 0.86
Empirische Korrelation: Bemerkungen
Korrelation misst «nur» den linearen Zusammenhang. Das Zeichen von 𝐼𝐼𝑥𝑥𝑦𝑦 misst die «Richtung» der linearen Zusammenhang.
Der Betrag |𝐼𝐼𝑥𝑥𝑦𝑦| misst die «Stärke» der linearen Zusammenhang.
30
Quelle: Wikipedia
Pass auf:Hier gibt es einen nicht-linearen Zusammenhangzwischen X und Y, der nichtvon 𝐼𝐼𝑥𝑥𝑦𝑦 detektiert wird.
Empirische Korrelation: ein anderes klassisches Beispiel
Man sollte die Daten immer auch anschauen, statt sich «blind» auf Kennzahlen zu verlassen.
31
5 10 15
46
810
12
x1
y1
Corr = 0.82
5 10 15
46
810
12
x2
y2
Corr = 0.82
5 10 15
46
810
12
x3
y3
Corr = 0.82
5 10 15
46
810
12
x4y4
Corr = 0.82