Upload
others
View
4
Download
0
Embed Size (px)
Grundlagen Stochastik & Statistik
Stefan Heyder13. & 14. Februar 2020
TU Ilmenau
0
Warum Statistik?
Was ist Statistik?
Statistik ist die Lehre vom
• Erheben von,• Umgang mit und• Auswertung von
Daten.
1
Warum Statistik?
• Experimente / Studien sollen generalisieren und reproduzierbar sein• Statistik ist in allen Phasen einer Studie vorhanden, u.a. in
• Planung,• Design,• Durchführung,• Datenaufbearbeitung,• Datenanalyse,• Präsentation der Ergebnisse,• Interpretation und• Publikation.
2
Warum (mathematische) Statistik?
Daten sind mit Unsicherheit belastet:
• Stichprobe, keine Vollerhebung• Messungenaugikeiten• Modellierungsungenauigkeiten
⇝ Statistik bietet Werkzeuge um tatsächliche Effekte von zufälligenSchwankungen zu unterscheiden.
3
Warum (mathematische) Statistik?
Daten sind mit Unsicherheit belastet:
• Stichprobe, keine Vollerhebung• Messungenaugikeiten• Modellierungsungenauigkeiten
⇝ Statistik bietet Werkzeuge um tatsächliche Effekte von zufälligenSchwankungen zu unterscheiden.
3
Schätzen
DeutschlandTrend
Figure 1: Sonntagsfrage zur Bundestagswahl 06.02.2020,1
1tagesschau.de. DeutschlandTrend: Jeder Zweite findet Lebensmittel zu billig. de. URL:https://www.tagesschau.de/inland/deutschlandtrend-2085.html (visitedon 02/10/2020).
4
Modellierung
• Modellieren gesamte Bevölkerung, aus der wir zufällig N = 1003Personen ziehen
• Vereinfachung: Ziehen mit Zurücklegen; Zufallsstichprobe ausBevölkerung
• Anteil Wähler einer Partei sind dann Binomialverteilt mit ParameterN = 1003 und p = Anteil Wähler in Bevölkerung
5
Die Zufallsstichprobe
P(a < X < b)P(a < X < b)
6
Die Zufallsstichprobe
Population
Sample
6
Die Zufallsstichprobe
●●
●
●
●
●
●
●
●
●●
6
Die Zufallsstichprobe
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
6
Schätzer
• Interesse an Parameter p• Zufall: p nicht genau bestimmbar, nur Schätzerp̂ = Anteil Wähler in Stichprobe
• p̂ würde sich ändern, wenn man erneut Stichprobe zieht⇝ p̂ zufällig
7
Schätzer
• Fehlerarten: Deterministischer Fehler, Stochastischer Fehler• Deterministischer Fehler (Bias): z.B. durch Telefonumfragen• Stochastischer Fehler: Schwankungen bei Wiederholung derBefragung
8
Schätzer
• Unverzerrtheit Ep̂ = p; im Mittel liegt p̂ richtig• Geringe Streuung: Var(p̂) ist klein• Ist p̂ unverzerrt, so heißt
√Var (p̂) Standardfehler
9
Schätzer
• Beobachten X ∼ Binom (N,p) mit bekanntem N• Schätzer p̂ = X
N
• Unverzerrtheit: Ep̂ = E XN = 1NEX =
NpN = p
• Var (p̂) = Var( XN)= 1
N2 Var (X) =p(1−p)N ⇝ Standardfehler
√p(1−p)√N ≤ 1
2√N
10
Konfidenzintervalle
DeutschlandTrend
Figure 2: Fehlertoleranz der Sonntagsfrage2
2tagesschau.de, DeutschlandTrend.11
Bereichsschätzung
• Problem an Punktschätzung: Man tri t den wahren Parameter nicht!• mittlere Ungenauigkeit kann man über Standardfehler quantifizieren
• Gibt nur Aussagen über den erwarteten Abstand, keine Aussage bei nureiner Schätzung
• Muss eventuell auch geschätzt werden
• ⇝ Schätzen Bereich, der den wahren Parameter mit hoherWahrscheinlichkeit enthält
• Größe des Bereichs entspricht Unsicherheit in der Schätzung
12
Beispiel
• Umfrage, wahres p ist unbekannt● ●
●
●
●● ● ● ● ● ●
13
Beispiel
• Umfrage, wahres p ist unbekannt
●
●
●
●●
●
● ●
●
●
● ●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●●
●
●●
●
●
10
20
30
OJ VCsupp
len
• Schätzer p̂ tri t wahres p nicht
13
Beispiel
• Umfrage, wahres p ist unbekannt
●
●
●
●●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●●
●
●●
●
●
10
20
30
0.5 1 2dose
len
• Bereich um p̂, der mit hoher Wahrscheinlichkeit p enthält
13
Konfidenzbereiche
• Unbekannter Parameter p der Daten X1, . . . , Xn• Gesucht: Bereich K(X1, . . . , Xn) welcher p mit hoher Wahrscheinlichkeitenthält
• Fehlerwahrscheinlichkeit α (meistens 5%) vorgegeben
P (K (X1, . . . , Xn) ∋ p) ≥ 1− α
14
Konfidenzbereiche sind zufällig
• Wiederholte Messungen ergeben unterschiedliche Konfidenzbereiche,müssen tatsächlichen Parameter nicht enthalten!
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
15
Interpretation von Konfidenzbereichen
• Der echte Parameter p ist fest, der Konfidenzbereich K (X1, . . . , Xn) istzufällig
• Man wirft “mit der Dartscheibe nach dem Dart”• Würde man das Experiment wiederholen, dann enthält derKonfidenzbereich den Parameter in mindestens 1− α der Fälle
• Nach Beobachtung gilt entweder p ∈ K(X1, . . . , Xn) oder nicht• Alle Wahrscheinlichkeiten sind prospektiv zu lesen!
16
Statistische Denkweise
Was ist die Wahrscheinlichkeit dassunsere
Theorie / Hypothese wahr ist?
17
Was ist die Wahrscheinlichkeit dassunsere
Theorie / Hypothese wahr ist?
17
Bayesianische Sichtweise
Was ist die Wahrscheinlichkeit dass unsereTheorie / Hypothese wahr ist?
• Wahrscheinlichkeit als Maß für die Glaubwürdigkeit einer Aussage• Nach Beobachten von Daten verändert sich die Glaubwürdigkeit
18
Frequentistische Sichtweise
Was ist die Wahrscheinlichkeit dass unsereTheorie / Hypothese wahr ist?
• Wahrscheinlichkeit ist relative Häufigkeit mit der ein Ereignis eintritt
• Obige Fragestellung ist unsinnig: Theorie / Hypothese ist wahr oderfalsch
19
Frequentistische Sichtweise
Was ist die Wahrscheinlichkeit dass unsereTheorie / Hypothese wahr ist?
• Wahrscheinlichkeit ist relative Häufigkeit mit der ein Ereignis eintritt• Obige Fragestellung ist unsinnig: Theorie / Hypothese ist wahr oderfalsch
19
Frequentistische Sichtweise
Wenn Theorie / Hypothese wahr ist, was ist die Wahrscheinlichkeit Datenzu beobachten?
• Wahrscheinlichkeit ist relative Häufigkeit mit der ein Ereignis eintritt• Obige Fragestellung ist unsinnig: Theorie / Hypothese ist wahr oderfalsch
19
Tests
Überprüfen von Hypothesen
• Wisenschaftstheorie: Aufstellen und Überprüfen von falsifizierbarenHypothesen
• Hypothesen können nicht bestätigt werden, nur verworfen werden• Verworfen wird, falls es genügend Beweise gegen die Hypothese gibt• Beweise sind hier unter der Hypothese extreme (unwahrscheinliche)Werte
20
DeutschlandTrend
Figure 3: Sonntagsfrage zur Bundestagswahl 06.02.2020,3
3tagesschau.de, DeutschlandTrend.21
Hypothese
• Die Schwarz-Grüne Koalition ist regierungsfähig
22
Rechnen unter der Nullhypothese
Figure 4: Wahrscheinlichkeitsfunktion von Binom (n = 1008,p = 50%)
23
Rechnen unter der Nullhypothese
●
●
●●●
●●●
●●
●●●
●
●
●
●●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
● ●
●
●
●●
●
●
●●
●
●●
●
●
●
●
●
10
20
30
0.5 1.0 1.5 2.0dose
len
Figure 4: Wahrscheinlichkeitsfunktion von Binom (n = 1003,p = 50%), gestrichelt:Beobachtung Schwarz-Grün
23
Statistische Tests
• Ein statistischer Test ist eine Abbildung welche, gegeben Daten undeine Hypothese über einen Parameter dieser Daten, diese Hypotheseverwirft oder nicht verwirft.
• Gegeben• X1, . . . , Xn ∼ Pp• Nullhypothese über den Parameter p: p = p0• Alternativhypothese: p ̸= p0
• Dann ist ein statistischer Test ϕ eine Abbildung, welche denBeobachtungen X1, . . . , Xn “Ablehnen” oder “Nicht-Ablehnen” zuordnet
24
Fehler erster und zweiter Art
Figure 5:4
4Dochudson2 Says.I always get confused about Type I and II errors. Can you show me something to help me remember the difference?en. May 2010. URL: https://effectsizefaq.com/2010/05/31/i-always-get-confused-about-type-i-and-ii-errors-can-you-show-me-something-to-help-me-remember-the-difference/ (visited on 03/19/2019).
25
Fehler erster und zweiter Art
Nullhypothese tri t zu Alternative tri t zuTest verwirft nicht
richtige Entscheidung Fehler zweiter Art
Test verwirft
Fehler erster Art richtige Entscheidung
• ϕ heißt Test zum Signifikanzniveau α, falls der Fehler erster Art
PNullhypothese (“ϕ verwirft”) ,
also ein fehlerhaftes Verwerfen der Nullhypothese, kleiner als α ist.• Unter der Alternative p heißt
β (p) = PAlternativhypothese p (“ϕ verwirft nicht”)
die Güte des Tests (mit welcher Wahrscheinlichkeit weiße ich einenEffekt der Größe p nicht nach)
26
Fehler erster und zweiter Art
Nullhypothese tri t zu Alternative tri t zuTest verwirft nicht richtige Entscheidung
Fehler zweiter Art
Test verwirft Fehler erster Art
richtige Entscheidung
• ϕ heißt Test zum Signifikanzniveau α, falls der Fehler erster Art
PNullhypothese (“ϕ verwirft”) ,
also ein fehlerhaftes Verwerfen der Nullhypothese, kleiner als α ist.• Unter der Alternative p heißt
β (p) = PAlternativhypothese p (“ϕ verwirft nicht”)
die Güte des Tests (mit welcher Wahrscheinlichkeit weiße ich einenEffekt der Größe p nicht nach)
26
Fehler erster und zweiter Art
Nullhypothese tri t zu Alternative tri t zuTest verwirft nicht richtige Entscheidung Fehler zweiter ArtTest verwirft Fehler erster Art richtige Entscheidung
• ϕ heißt Test zum Signifikanzniveau α, falls der Fehler erster Art
PNullhypothese (“ϕ verwirft”) ,
also ein fehlerhaftes Verwerfen der Nullhypothese, kleiner als α ist.• Unter der Alternative p heißt
β (p) = PAlternativhypothese p (“ϕ verwirft nicht”)
die Güte des Tests (mit welcher Wahrscheinlichkeit weiße ich einenEffekt der Größe p nicht nach)
26
Fehler erster und zweiter Art
Nullhypothese tri t zu Alternative tri t zuTest verwirft nicht richtige Entscheidung Fehler zweiter ArtTest verwirft Fehler erster Art richtige Entscheidung
• ϕ heißt Test zum Signifikanzniveau α, falls der Fehler erster Art
PNullhypothese (“ϕ verwirft”) ,
also ein fehlerhaftes Verwerfen der Nullhypothese, kleiner als α ist.
• Unter der Alternative p heißt
β (p) = PAlternativhypothese p (“ϕ verwirft nicht”)
die Güte des Tests (mit welcher Wahrscheinlichkeit weiße ich einenEffekt der Größe p nicht nach)
26
Fehler erster und zweiter Art
Nullhypothese tri t zu Alternative tri t zuTest verwirft nicht richtige Entscheidung Fehler zweiter ArtTest verwirft Fehler erster Art richtige Entscheidung
• ϕ heißt Test zum Signifikanzniveau α, falls der Fehler erster Art
PNullhypothese (“ϕ verwirft”) ,
also ein fehlerhaftes Verwerfen der Nullhypothese, kleiner als α ist.• Unter der Alternative p heißt
β (p) = PAlternativhypothese p (“ϕ verwirft nicht”)
die Güte des Tests (mit welcher Wahrscheinlichkeit weiße ich einenEffekt der Größe p nicht nach)
26
Interpretation
• Test verwirft:• Nicht: die Hypothese ist mit Wahrscheinlichkeit 95% falsch• Hypothese wurde mit Irrtumswahrscheinlichkeit 95% verworfen, wobeidiese richtig zu interpretieren ist
• Problem: Welche der Annahmen der Hypothese ist verletzt?• Test verwirft nicht:
• Nicht: die Hypothese ist bestätigt• Abweichung nicht vorhanden oder nur klein? ⇝ Konfidenzintervallbetrachten
• Geringer Stichprobenumfang?
• Wie bei Konfidenzintervallen: Für α = 5% verwirft man in einem von20 Fällen fälschlicherweise
27
Gängige Tests
Parametrisch Nicht-parametrisch
t-Test Mann-Whitney-U / Wilcoxon Rangsum. Testgepaarter t-Test Wilcoxon Vorzeichen-Rang TestPearson Korrelation Spearman KorrelationANOVA, ein Faktor, (F-Test) Kruskal-Wallis TestANOVA, mehrere Faktoren, (F-Test) Friedman Test
Table 1: Parametrische & Nicht-parametrische Tests
• Parametrische Tests beruhen auf (parametrisierten) Verteilungen,oftmals Normalverteilung, welche oft (aber nicht immer!) durchzentralen Grenzwertsatz gewährleistet werden können
• Nichtparametrische Tests verwenden weniger Voraussetzugen, sindaber ineffizienter (benötigen mehr Daten) und oft schwieriger zuinterpretieren 28
Konfidenzbereiche und Tests
Dualität
• Gegeben einen Konfidenzbereich K(X1, . . . , Xn) für Parameter p zumNiveau 1− α erhält man sofort einen Test der Hypothese
“p = p0”zum Niveau α, indem man verwirft, wenn p0 ̸∈ K(X1, . . . , Xn)
10
20
30
0.5 1.0 1.5 2.0dose
len
29
Dualität
• Gegeben Tests ϕp0 zum Signifikanzniveau α der Hypothese“p = p0”
für alle möglichen p0, so erhält man einen Konfidenzbereich mittels
K(X1, . . . , Xn) = {p0 | ϕp0 verwirft nicht }
• Hier muss also unter allen Hypothesen p = p0 gerechnet werden⇝ schwieriger
30
Vor-/Nachteile von Konfidenzbereichen
• Konfidenzbereiche sind informativer
10
20
30
0.5 1.0 1.5 2.0dose
len
31
Vor-/Nachteile von Konfidenzbereichen
• Informativer• Unsicherheit wird mit berücksichtigt• Leichter zu interpretieren
dafür aber
• Man muss unter allen Alternativen p0 rechnen können• ⇝ Berechnung kann kompliziert sein
32
Vor-/Nachteile von Tests
• Man muss nur unter der Nullhypothese rechnen• Falls Konfidenzbereiche schwierig zu bestimmen sind, kann mantesten
aber
• 0/1 Aussage, Unsicherheit nicht mit quantifiziert• Interpretation schwierig, sowohl für Verwerfen als auch für nichtverwerfen
⇝ Konfidenzbereiche sind Tests vorzuziehen
33
References
Says, Dochudson2.I always get confused about Type I and II errors. Can you show me something to help me remember the difference?en. May 2010. URL:https://effectsizefaq.com/2010/05/31/i-always-get-confused-about-type-i-and-ii-errors-can-you-show-me-something-to-help-me-remember-the-difference/ (visited on03/19/2019).
tagesschau.de.DeutschlandTrend: Jeder Zweite findet Lebensmittel zu billig. de. URL:https://www.tagesschau.de/inland/deutschlandtrend-2085.html (visited on 02/10/2020).
34