Statistische Fehler vermeiden
Stefan Heyder13. & 14. Februar 2020
TU Ilmenau
0
p-Werte
p-Werte
P(a < X < b)P(a < X < b)
Figure 1: Wahrscheinlichkeitsfunktion von Binom (n = 100,p = 50%)
1
p-Werte
Population
Sample
Figure 1: Wahrscheinlichkeitsfunktion von Binom (n = 100,p = 50%)
1
p-Werte
●●
●
●
●
●
●
●
●
●●
Figure 1: Wahrscheinlichkeitsfunktion von Binom (n = 100,p = 50%)
1
p-Werte
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
Figure 1: Wahrscheinlichkeitsfunktion von Binom (n = 100,p = 50%)
1
p-Werte
• p-Wert ist die Wahrscheinlichkeit unter der Nullhypothese einenmindestens so “extremen” Wert wie die Beobachtung zu beobachten
• Hypothese wird genau dann zum Level α verworfen, wenn p-Wertkleiner als α ist
• Schwierig zu interpretieren, da α ja vor dem Testen festgelegt wurde• Unter der Nullhypothese ist der p-Wert auf [0, 1] gleicheverteilt
2
Fehlinterpretationen
p < 0.05, also besteht nur eine 5%ige Chance, dass meine Hypothesefalsch ist
Die Hypothese ist entweder wahr oder falsch; obige Aussage ist unsinnig
3
Fehlinterpretationen
p < 0.05, also besteht nur eine 5%ige Chance, dass meine Hypothesefalsch ist
Die Hypothese ist entweder wahr oder falsch; obige Aussage ist unsinnig
3
Fehlinterpretationen
p < 0.05, also liegt ein praktisch relevanter Effekt vor
Der p-Wert alleine liefert keine Aussage über die Effektgröße⇝Konfidenzintervalle
4
Fehlinterpretationen
p < 0.05, also liegt ein praktisch relevanter Effekt vor
Der p-Wert alleine liefert keine Aussage über die Effektgröße⇝Konfidenzintervalle
4
Fehlinterpretationen
p ≥ 0.05 also unterscheiden sich die beiden Behandlungen / Gruppennicht
Könnten auch Symptome einer kleinen Stichprobengröße / eines kleinesE ktes sein
5
Fehlinterpretationen
p ≥ 0.05 also unterscheiden sich die beiden Behandlungen / Gruppennicht
Könnten auch Symptome einer kleinen Stichprobengröße / eines kleinesE ktes sein
5
Fehlinterpretationen
p = 0.05 heißt, dass man Daten beobachtet hat, die unter derNullhypothese nur in 5% der Fälle auftritt
Die Wahrscheinlichkeit, solche oder extremere Daten unter derNullhypothese zu beobachten ist 5%
6
Fehlinterpretationen
p = 0.05 heißt, dass man Daten beobachtet hat, die unter derNullhypothese nur in 5% der Fälle auftritt
Die Wahrscheinlichkeit, solche oder extremere Daten unter derNullhypothese zu beobachten ist 5%
6
Fehlinterpretationen
Zu einem Datensatz gibt es nur einen p-Wert
Der p-Wert hängt von Wahrscheinlichkeitsverteilung der Nullhypothese ab!
7
Fehlinterpretationen
Zu einem Datensatz gibt es nur einen p-Wert
Der p-Wert hängt von Wahrscheinlichkeitsverteilung der Nullhypothese ab!
7
Multiples Testen
Multiples Testen
• Testen RRG und Schwarz-Grün gleichzeitig auf Regierungsfähigkeit• Problem: Pro Test nur α = 5% Fehlerwahrscheinlichkeit vorhanden!• P (Test RRG verwirft fälschlicherweise) +P (Test Schwarz-Grün verwirft fälschlicherweise) ≤ 10% > 5%
8
p-Hacking
Figure 2: XKCD1
1Randall Munroe. Significant. URL: https://xkcd.com/882/ (visited on 02/12/2020).
p-Hacking
Figure 2: XKCD1
1Munroe, Significant.
p-Hacking
Figure 2: XKCD1
1Munroe, Significant.
p-Hacking
Figure 2: XKCD1
1Munroe, Significant.
Multiples Testen: Das Problem
• Oft möchte man mehrere Hypothesen testen oderKonfidenzinvtervalle für mehrere Parameter (simultan) angeben
• Bei k Tests zum Niveau α stößt man (unter der Nullhypothese) auffolgendes Problem:
P (mindestens ein Test verwirft) ≤k∑i=1
P (Der i-te Test verwirft) ≤ k · α
• Durch multiple Tests verändert sich das Signifikanzniveau (analog fürKonfidenzbereiche)
•
10
Multiples Testen: Lösung
• Bonferroni Korrektur des Signifikanzniveaus. Bei k Tests müssen dieeinzelnen Tests zu α
k angesetzt werden• Von vorneherein festlegen, welche Hypothesen getestet werdensollen⇝ Studienprotokoll!
• Alternativ p-Wert für jeden Test mit k multiplizieren• Weniger Tests rechnen: Oft interessiert man sich für die Differenzenzwischen zwei Gruppen statt für die Lage der beiden Gruppen
11
Power
Was ist die Power einer Studie?
• Münzwurf mit einer (potentiell) unfairen Münze, P(“Kopf”) = p; wirbeobachten n = 100 Würfe und zählen das Vorkommen von “Kopf”
●
●
●
●●
●
● ●
●
●
● ●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●●
●
●●
●
●
10
20
30
OJ VCsupp
len
Figure 3: Dichte Binomialverteilung p = 0.5
12
Was ist die Power einer Studie?
• Münzwurf mit einer (potentiell) unfairen Münze, P(“Kopf”) = p; wirbeobachten n = 100 Würfe und zählen das Vorkommen von “Kopf”
●
●
●
●●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●●
●
●●
●
●
10
20
30
0.5 1 2dose
len
Figure 3: Dichte Binomialverteilung p = 0.5 (schwarz), p = 0.6 (rot)
12
Was ist die Power einer Studie?
• Münzwurf mit einer (potentiell) unfairen Münze, P(“Kopf”) = p; wirbeobachten n = 100 Würfe und zählen das Vorkommen von “Kopf”
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
Figure 3: Dichte Binomialverteilung p = 0.5 (schwarz), p = 0.7 (rot)
• je größer die Differenz, desto größer die Wahrscheinlichkeit dieunfaire Münze zu erkennen
12
Power
• Die Power eines Tests ist die Wahrscheinlichkeit einen vorgebenenEffekt tatsächlich zu finden
• Entspricht der Wahrscheinlichkeit, keinen Fehler zweiter Art zubegehen; hängt vom Signifikanzniveau α und der Effektgröße ab
13
Power
• Die Power eines Tests ist die Wahrscheinlichkeit einen vorgebenenEffekt tatsächlich zu finden
• Entspricht der Wahrscheinlichkeit, keinen Fehler zweiter Art zubegehen; hängt vom Signifikanzniveau α und der Effektgröße ab
●
●
●●●
●●●
●●
●●●
●
●
●
●●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
● ●
●
●
●●
●
●
●●
●
●●
●
●
●
●
●
10
20
30
0.5 1.0 1.5 2.0dose
len
13
Power
• Die Power eines Tests ist die Wahrscheinlichkeit einen vorgebenenEffekt tatsächlich zu finden
• Entspricht der Wahrscheinlichkeit, keinen Fehler zweiter Art zubegehen; hängt vom Signifikanzniveau α und der Effektgröße ab
10
20
30
0.5 1.0 1.5 2.0dose
len
13
Power
• Die Power eines Tests ist die Wahrscheinlichkeit einen vorgebenenEffekt tatsächlich zu finden
• Entspricht der Wahrscheinlichkeit, keinen Fehler zweiter Art zubegehen; hängt vom Signifikanzniveau α und der Effektgröße ab
10
20
30
0.5 1.0 1.5 2.0dose
len
13
Probleme mit zu geringer Power
• Zu geringe Power führt dazu, dass man nur sehr große Effektenachweisen kann
• Im schlimmsten Fall ist Studie nutzlos, um trotzdem signifikanteEffekte zu finden wird dann Data Dredging / p-Hacking verwendet
• Truth inflation: bei vielen Studien mit geringer Power werden nurdiejenigen mit besonders großen Effekten signifikant (und damitpublizierbar)⇝ Verzerrung des tatsächlichen Effekts nach oben
• Konfidenzintervalle angeben!
14
Power calculation
• Lösung: Vor der Datenerhebung die erforderliche Stichprobengrößebestimmen (engl. power analysis) und bereits vorher diedurchzuführenden Tests festlegenFür den Einstichproben t-Test kann man bei Kenntnis von 4 derfolgenden Parameter den fünften bestimmen:
• Stichprobengröße n• Signifikanzniveau α
• Power β• Streuung σ• Effektgröße µ
15
Assurance
• Stichprobengröße durch Kontrolle verschiedener Parameter der Längeder Konfidenzintervalle (engl. assurance)
• Zu Signifikanzniveau α und Länge L eines Konfidenzintervallsbestimme n so, dass
P(L ≤ ∆) ≤ β
oder
EL ≤ ∆.
• Bietet Möglichkeit direkt die Genauigkeit der Auswertung(=̂ Länge desKonfidenzintervalls) zu kontrollieren
16
Pseudo-Replikation
Das Problem
• Replikation (=̂ größere Stichprobe) führt zu besseren Schätzungen• Aber sind Daten auch unabhängig entstanden? Oder korrelieren sie?• Beispiel: Studie zu Blutdruckmedikament: 1000 Probanden mit jeeiner Messung vs. 10 Probanden mit je 100 Messungen. WelchesExperiment ist aussagekräftiger?
• Kann auch subtiler sein2:• Untersuchung inwiefern sich verschiedene Dialekte von Vogelgesängensich auf Vögel auswirkt
• Oft werden viele Vögel beobachtet⇝ anscheinend große Stichprobe
• Probleme treten auf, wenn aus jedem “Dialekt” nur eine Aufnahmeexistiert⇝ Studie kann nur Rückschlüsse über diese Aufnahme liefern
2Donald E. Kroodsma et al.Pseudoreplication in playback experiments, revisited a decade later. Academic Press,2001.
17
Das Problem
• Replikation (=̂ größere Stichprobe) führt zu besseren Schätzungen• Aber sind Daten auch unabhängig entstanden? Oder korrelieren sie?• Beispiel: Studie zu Blutdruckmedikament: 1000 Probanden mit jeeiner Messung vs. 10 Probanden mit je 100 Messungen. WelchesExperiment ist aussagekräftiger?
• Kann auch subtiler sein2:• Untersuchung inwiefern sich verschiedene Dialekte von Vogelgesängensich auf Vögel auswirkt
• Oft werden viele Vögel beobachtet⇝ anscheinend große Stichprobe• Probleme treten auf, wenn aus jedem “Dialekt” nur eine Aufnahmeexistiert⇝ Studie kann nur Rückschlüsse über diese Aufnahme liefern
2Kroodsma et al., Pseudoreplication in playback experiments, revisited a decade later.
17
Mögliche Lösungen
• Gutes Studiendesign kann Abhängigkeiten minimieren; z.B.gleichbleibende Rahmenbedingungen, Kalibrierungen etc.
• Die Abhängigkeiten direkt mit modellieren, z.B. Hierarchische Modelle,Messwiederholungsmodelle etc.
• Abhängige Datenpunkte zusammenfassen (z.B. mitteln), aberaufpassen, dass dort Unsicherheit mit berücksichtigt wird
• Datenpunkte einzeln analysieren; multiples Testen berücksichtigen
18
References
Kroodsma, Donald E. et al.Pseudoreplication in playback experiments, revisited a decade later.Academic Press, 2001.
Munroe, Randall. Significant. URL: https://xkcd.com/882/ (visited on02/12/2020).
19