Statistische Fehler vermeiden€¦ · p-Werte •...

Preview:

Citation preview

Statistische Fehler vermeiden

Stefan Heyder13. & 14. Februar 2020

TU Ilmenau

0

p-Werte

p-Werte

P(a < X < b)P(a < X < b)

Figure 1: Wahrscheinlichkeitsfunktion von Binom (n = 100,p = 50%)

1

p-Werte

Population

Sample

Figure 1: Wahrscheinlichkeitsfunktion von Binom (n = 100,p = 50%)

1

p-Werte

●●

●●

Figure 1: Wahrscheinlichkeitsfunktion von Binom (n = 100,p = 50%)

1

p-Werte

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●

●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

Figure 1: Wahrscheinlichkeitsfunktion von Binom (n = 100,p = 50%)

1

p-Werte

• p-Wert ist die Wahrscheinlichkeit unter der Nullhypothese einenmindestens so “extremen” Wert wie die Beobachtung zu beobachten

• Hypothese wird genau dann zum Level α verworfen, wenn p-Wertkleiner als α ist

• Schwierig zu interpretieren, da α ja vor dem Testen festgelegt wurde• Unter der Nullhypothese ist der p-Wert auf [0, 1] gleicheverteilt

2

Fehlinterpretationen

p < 0.05, also besteht nur eine 5%ige Chance, dass meine Hypothesefalsch ist

Die Hypothese ist entweder wahr oder falsch; obige Aussage ist unsinnig

3

Fehlinterpretationen

p < 0.05, also besteht nur eine 5%ige Chance, dass meine Hypothesefalsch ist

Die Hypothese ist entweder wahr oder falsch; obige Aussage ist unsinnig

3

Fehlinterpretationen

p < 0.05, also liegt ein praktisch relevanter Effekt vor

Der p-Wert alleine liefert keine Aussage über die Effektgröße⇝Konfidenzintervalle

4

Fehlinterpretationen

p < 0.05, also liegt ein praktisch relevanter Effekt vor

Der p-Wert alleine liefert keine Aussage über die Effektgröße⇝Konfidenzintervalle

4

Fehlinterpretationen

p ≥ 0.05 also unterscheiden sich die beiden Behandlungen / Gruppennicht

Könnten auch Symptome einer kleinen Stichprobengröße / eines kleinesE ktes sein

5

Fehlinterpretationen

p ≥ 0.05 also unterscheiden sich die beiden Behandlungen / Gruppennicht

Könnten auch Symptome einer kleinen Stichprobengröße / eines kleinesE ktes sein

5

Fehlinterpretationen

p = 0.05 heißt, dass man Daten beobachtet hat, die unter derNullhypothese nur in 5% der Fälle auftritt

Die Wahrscheinlichkeit, solche oder extremere Daten unter derNullhypothese zu beobachten ist 5%

6

Fehlinterpretationen

p = 0.05 heißt, dass man Daten beobachtet hat, die unter derNullhypothese nur in 5% der Fälle auftritt

Die Wahrscheinlichkeit, solche oder extremere Daten unter derNullhypothese zu beobachten ist 5%

6

Fehlinterpretationen

Zu einem Datensatz gibt es nur einen p-Wert

Der p-Wert hängt von Wahrscheinlichkeitsverteilung der Nullhypothese ab!

7

Fehlinterpretationen

Zu einem Datensatz gibt es nur einen p-Wert

Der p-Wert hängt von Wahrscheinlichkeitsverteilung der Nullhypothese ab!

7

Multiples Testen

Multiples Testen

• Testen RRG und Schwarz-Grün gleichzeitig auf Regierungsfähigkeit• Problem: Pro Test nur α = 5% Fehlerwahrscheinlichkeit vorhanden!• P (Test RRG verwirft fälschlicherweise) +P (Test Schwarz-Grün verwirft fälschlicherweise) ≤ 10% > 5%

8

p-Hacking

Figure 2: XKCD1

1Randall Munroe. Significant. URL: https://xkcd.com/882/ (visited on 02/12/2020).

p-Hacking

Figure 2: XKCD1

1Munroe, Significant.

p-Hacking

Figure 2: XKCD1

1Munroe, Significant.

p-Hacking

Figure 2: XKCD1

1Munroe, Significant.

Multiples Testen: Das Problem

• Oft möchte man mehrere Hypothesen testen oderKonfidenzinvtervalle für mehrere Parameter (simultan) angeben

• Bei k Tests zum Niveau α stößt man (unter der Nullhypothese) auffolgendes Problem:

P (mindestens ein Test verwirft) ≤k∑i=1

P (Der i-te Test verwirft) ≤ k · α

• Durch multiple Tests verändert sich das Signifikanzniveau (analog fürKonfidenzbereiche)

10

Multiples Testen: Lösung

• Bonferroni Korrektur des Signifikanzniveaus. Bei k Tests müssen dieeinzelnen Tests zu α

k angesetzt werden• Von vorneherein festlegen, welche Hypothesen getestet werdensollen⇝ Studienprotokoll!

• Alternativ p-Wert für jeden Test mit k multiplizieren• Weniger Tests rechnen: Oft interessiert man sich für die Differenzenzwischen zwei Gruppen statt für die Lage der beiden Gruppen

11

Power

Was ist die Power einer Studie?

• Münzwurf mit einer (potentiell) unfairen Münze, P(“Kopf”) = p; wirbeobachten n = 100 Würfe und zählen das Vorkommen von “Kopf”

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●

10

20

30

OJ VCsupp

len

Figure 3: Dichte Binomialverteilung p = 0.5

12

Was ist die Power einer Studie?

• Münzwurf mit einer (potentiell) unfairen Münze, P(“Kopf”) = p; wirbeobachten n = 100 Würfe und zählen das Vorkommen von “Kopf”

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

10

20

30

0.5 1 2dose

len

Figure 3: Dichte Binomialverteilung p = 0.5 (schwarz), p = 0.6 (rot)

12

Was ist die Power einer Studie?

• Münzwurf mit einer (potentiell) unfairen Münze, P(“Kopf”) = p; wirbeobachten n = 100 Würfe und zählen das Vorkommen von “Kopf”

●●

●●

Figure 3: Dichte Binomialverteilung p = 0.5 (schwarz), p = 0.7 (rot)

• je größer die Differenz, desto größer die Wahrscheinlichkeit dieunfaire Münze zu erkennen

12

Power

• Die Power eines Tests ist die Wahrscheinlichkeit einen vorgebenenEffekt tatsächlich zu finden

• Entspricht der Wahrscheinlichkeit, keinen Fehler zweiter Art zubegehen; hängt vom Signifikanzniveau α und der Effektgröße ab

13

Power

• Die Power eines Tests ist die Wahrscheinlichkeit einen vorgebenenEffekt tatsächlich zu finden

• Entspricht der Wahrscheinlichkeit, keinen Fehler zweiter Art zubegehen; hängt vom Signifikanzniveau α und der Effektgröße ab

●●●

●●●

●●

●●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

10

20

30

0.5 1.0 1.5 2.0dose

len

13

Power

• Die Power eines Tests ist die Wahrscheinlichkeit einen vorgebenenEffekt tatsächlich zu finden

• Entspricht der Wahrscheinlichkeit, keinen Fehler zweiter Art zubegehen; hängt vom Signifikanzniveau α und der Effektgröße ab

10

20

30

0.5 1.0 1.5 2.0dose

len

13

Power

• Die Power eines Tests ist die Wahrscheinlichkeit einen vorgebenenEffekt tatsächlich zu finden

• Entspricht der Wahrscheinlichkeit, keinen Fehler zweiter Art zubegehen; hängt vom Signifikanzniveau α und der Effektgröße ab

10

20

30

0.5 1.0 1.5 2.0dose

len

13

Probleme mit zu geringer Power

• Zu geringe Power führt dazu, dass man nur sehr große Effektenachweisen kann

• Im schlimmsten Fall ist Studie nutzlos, um trotzdem signifikanteEffekte zu finden wird dann Data Dredging / p-Hacking verwendet

• Truth inflation: bei vielen Studien mit geringer Power werden nurdiejenigen mit besonders großen Effekten signifikant (und damitpublizierbar)⇝ Verzerrung des tatsächlichen Effekts nach oben

• Konfidenzintervalle angeben!

14

Power calculation

• Lösung: Vor der Datenerhebung die erforderliche Stichprobengrößebestimmen (engl. power analysis) und bereits vorher diedurchzuführenden Tests festlegenFür den Einstichproben t-Test kann man bei Kenntnis von 4 derfolgenden Parameter den fünften bestimmen:

• Stichprobengröße n• Signifikanzniveau α

• Power β• Streuung σ• Effektgröße µ

15

Assurance

• Stichprobengröße durch Kontrolle verschiedener Parameter der Längeder Konfidenzintervalle (engl. assurance)

• Zu Signifikanzniveau α und Länge L eines Konfidenzintervallsbestimme n so, dass

P(L ≤ ∆) ≤ β

oder

EL ≤ ∆.

• Bietet Möglichkeit direkt die Genauigkeit der Auswertung(=̂ Länge desKonfidenzintervalls) zu kontrollieren

16

Pseudo-Replikation

Das Problem

• Replikation (=̂ größere Stichprobe) führt zu besseren Schätzungen• Aber sind Daten auch unabhängig entstanden? Oder korrelieren sie?• Beispiel: Studie zu Blutdruckmedikament: 1000 Probanden mit jeeiner Messung vs. 10 Probanden mit je 100 Messungen. WelchesExperiment ist aussagekräftiger?

• Kann auch subtiler sein2:• Untersuchung inwiefern sich verschiedene Dialekte von Vogelgesängensich auf Vögel auswirkt

• Oft werden viele Vögel beobachtet⇝ anscheinend große Stichprobe

• Probleme treten auf, wenn aus jedem “Dialekt” nur eine Aufnahmeexistiert⇝ Studie kann nur Rückschlüsse über diese Aufnahme liefern

2Donald E. Kroodsma et al.Pseudoreplication in playback experiments, revisited a decade later. Academic Press,2001.

17

Das Problem

• Replikation (=̂ größere Stichprobe) führt zu besseren Schätzungen• Aber sind Daten auch unabhängig entstanden? Oder korrelieren sie?• Beispiel: Studie zu Blutdruckmedikament: 1000 Probanden mit jeeiner Messung vs. 10 Probanden mit je 100 Messungen. WelchesExperiment ist aussagekräftiger?

• Kann auch subtiler sein2:• Untersuchung inwiefern sich verschiedene Dialekte von Vogelgesängensich auf Vögel auswirkt

• Oft werden viele Vögel beobachtet⇝ anscheinend große Stichprobe• Probleme treten auf, wenn aus jedem “Dialekt” nur eine Aufnahmeexistiert⇝ Studie kann nur Rückschlüsse über diese Aufnahme liefern

2Kroodsma et al., Pseudoreplication in playback experiments, revisited a decade later.

17

Mögliche Lösungen

• Gutes Studiendesign kann Abhängigkeiten minimieren; z.B.gleichbleibende Rahmenbedingungen, Kalibrierungen etc.

• Die Abhängigkeiten direkt mit modellieren, z.B. Hierarchische Modelle,Messwiederholungsmodelle etc.

• Abhängige Datenpunkte zusammenfassen (z.B. mitteln), aberaufpassen, dass dort Unsicherheit mit berücksichtigt wird

• Datenpunkte einzeln analysieren; multiples Testen berücksichtigen

18

References

Kroodsma, Donald E. et al.Pseudoreplication in playback experiments, revisited a decade later.Academic Press, 2001.

Munroe, Randall. Significant. URL: https://xkcd.com/882/ (visited on02/12/2020).

19

Recommended