76
Statistische Tests in Statistische Tests in (klinischen und epidemiologischen) (klinischen und epidemiologischen) Beobachtungsstudien Beobachtungsstudien Ergebnisunsicherheit und Ergebnisunsicherheit und Statistische Testverfahren Statistische Testverfahren Dr. Gerß (IMIB) [Prof. Hense (IES)]

Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Embed Size (px)

Citation preview

Page 1: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Statistische Tests in Statistische Tests in (klinischen und epidemiologischen)(klinischen und epidemiologischen)

Beobachtungsstudien Beobachtungsstudien

Ergebnisunsicherheit undErgebnisunsicherheit undStatistische TestverfahrenStatistische Testverfahren

Dr. Gerß (IMIB)

[Prof. Hense (IES)]

Page 2: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Kurze Wiederholung vom Freitag…

Page 3: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Eine klinische oder epidemiologische Studie wird (im Gegensatz zum häufig replizierbaren Experiment) nur einmal durchgeführt: das in dieser Studie ermittelte Effektmaß ist also nur eine einmalige Schätzung des wahren Wertes. 

Unsicherheit in Studien

Page 4: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Wahrscheinlichkeit und relative Häufigkeit

Theoretische Wahrscheinlichkeit = Relative Häufigkeit der Erkrankung in der Grundgesamtheit

Empirische InformationGewinnung einer repräsentativen Stichprobe-> Bestimmung der relativen Häufigkeit der Erkrankung in der Stichprobez.B. Untersuchung von n=100 Patienten Relative Häufigkeit der Erkrankung = 19%

Beispiel: Prävalenz einer Erkrankung

Page 5: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Wahrscheinlichkeit und relative Häufigkeit

Theoretische Wahrscheinlichkeit = Relative Häufigkeit der Erkrankung in der Grundgesamtheit

Wie viele Erkrankten würde ich finden, wenn ich nicht nur die n Patienten der Stichprobe untersuchen würde, sondern sämtliche Patienten der Grundgesamtheit?

Empirische InformationGewinnung einer repräsentativen Stichprobe-> Bestimmung der relativen Häufigkeit der Erkrankung in der Stichprobez.B. Untersuchung von n=100 Patienten Relative Häufigkeit der Erkrankung = 19%

Beispiel: Prävalenz einer Erkrankung

Nutzung der relativen Häufigkeit der Stichprobe zur Schätzung der entsprechenden Rate in der Grundgesamtheit

Page 6: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Wahrscheinlichkeit und relative Häufigkeit

Theoretische Wahrscheinlichkeit = Relative Häufigkeit der Erkrankung in der Grundgesamtheit

Wie viele Erkrankten würde ich finden, wenn ich nicht nur die n Patienten der Stichprobe untersuchen würde, sondern sämtliche Patienten der Grundgesamtheit?

Empirische InformationGewinnung einer repräsentativen Stichprobe-> Bestimmung der relativen Häufigkeit der Erkrankung in der Stichprobez.B. Untersuchung von n=100 Patienten Relative Häufigkeit der Erkrankung = 19%

Beispiel: Prävalenz einer Erkrankung

Nutzung der relativen Häufigkeit der Stichprobe zur Schätzung der entsprechenden Rate in der Grundgesamtheit

Deskriptive Statistik: Beschreibung des empirischen StichprobenergebnissesInduktive Statistik: Induktiver Schluss von der empirischen Information der Stichprobe auf die Grundgesamtheit.

Page 7: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Wahrscheinlichkeit und relative Häufigkeit

Theoretische Wahrscheinlichkeit = Relative Häufigkeit der Erkrankung in der Grundgesamtheit

Wie viele Erkrankten würde ich finden, wenn ich nicht nur die n Patienten der Stichprobe untersuchen würde, sondern sämtliche Patienten der Grundgesamtheit?

Empirische InformationGewinnung einer repräsentativen Stichprobe-> Bestimmung der relativen Häufigkeit der Erkrankung in der Stichprobez.B. Untersuchung von n=100 Patienten Relative Häufigkeit der Erkrankung = 19%

Beispiel: Prävalenz einer Erkrankung

Nutzung der relativen Häufigkeit der Stichprobe zur Schätzung der entsprechenden Rate in der Grundgesamtheit

Deskriptive Statistik: Relative Erkrankungsrate in der Stichprobe, z.B.=19%Induktive Statistik: Schätzung der unbekannten Rate in der GG, z.B. =19% mit Konfidenzintervall 11.8% – 28.1%

Page 8: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Eine Klinische oder epidemiologische Studie wird (im Gegensatz zum häufig replizierbaren Experiment) nur einmal durchgeführt: das in dieser Studie ermittelte Effektmaß ist also nur eine einmalige Schätzung des wahren Wertes. Das Konfidenzintervall ist ein statistisch bestimmtes Maß für die Präzision, mit der eine Studie z.B. Mittelwerte, Differenzenoder Prävalenzen, Inzidenzraten, Relative Risiken etc. geschätzt hat.

Unsicherheit in Studien

Page 9: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Konfidenzintervall

―h

― ―

0 1Rel. Häufigkeit in

der Stichprobe

? ? ? ?? ? ??? ? ?Wahrscheinlichkeit P=?

Page 10: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Konfidenzintervall

―h

― ―

0 1Rel. Häufigkeit in

der Stichprobe

Wahrscheinlichkeit P=?? ? ? ?? ? ??? ? ?

Das Konfidenzintervall enthält mit 95%iger Wahrscheinlichkeit den unbekannten Wert P

Page 11: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Testergebnis

Wirklichkeit(nach Goldstandard ermittelt)

GesamtW+:

(Mamma-Ca:Ja)W-:

(Mamma-Ca: nein)

T+:(Mamma-Ca: Ja) 12 97 109T-:(Mamma-Ca: nein) 2 889 891

Gesamt 14 986 1000

Eine zufällige Stichprobe

Page 12: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Testergebnis

Wirklichkeit(nach Goldstandard ermittelt)

GesamtW+:

(Mamma-Ca:Ja)W-:

(Mamma-Ca: nein)

T+:(Mamma-Ca: Ja) 12 97 109T-:(Mamma-Ca: nein) 2 889 891

Gesamt 14 986 1000

Eine zufällige Stichprobe

Schätzwerte:Prävalenz = 14/1000 = 0.014, Sensitivität = 12/14 = 0.86, Spezifität = 889/986 = 0.90, ppV = 12/109 = 0.11

Page 13: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Vertrauensgrenzen

Schätzwerte untere Grenze obere Grenze Prävalenz 14/1000 = 0.014 0.008 0.023 Sensitivität 12/14 = 0.86 0.57 0.98Spezifität 889/986 = 0.90 0.88 0.92ppV 12/109 = 0.11 0.06 0.18

Die angegebenen Grenzen sind so berechnet, dass sie mit

95%-Wahrscheinlichkeit den (unbekannten) wahren Wert umschließen.

Das so berechnete Intervall ist das 95%-Konfidenzintervall.

Page 14: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Es gibt Untersuchungen zur Wirkung eines neuen Asthmamittels A.

Sie vergleichen die Wirkung mit der aktuellen Standardtherapie B.

Endpunkt ist die Anfallsrate an Asthma.

Frage: Frage: Ist A wirksamer als B? Ist A wirksamer als B? Auf welcher wissenschaftlichen Basis (Evidenz)Auf welcher wissenschaftlichen Basis (Evidenz)

beruht diese Aussage? beruht diese Aussage?

Problemaufriss:Problemaufriss: Vergleich zweier Medikamente Vergleich zweier Medikamente

Page 15: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Prinzipien des Statistischen Testens

1. Einführung

• Tests zum Vergleich zweier Erfolgsraten

• Signifikanz und klinische Relevanz

2. Der p-Wert

3. Gütekriterien des Signifikanztests

4. Tests bei metrischen Zielgrößen

5. Spezielle Testprobleme

6. Das multiple Testproblem

7. Konfidenzintervalle

Page 16: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Erfolg Misserfolg Gesamt

Behandlung A40

( = 80%)10 50

Behandlung B35

( = 70%)15 50

Ist Behandlung A wirksamer als Behandlung B?

Ar̂

Br̂

Testproblem H0: rA=rB gegen H1: rA≠rB

„Die beobachteten Unterschiede zwischen den empirischen Erfolgsraten sind durch Zufall zu erklären.“

„Die Unterschiede zw. den emp. Raten sind überzufällig bzw. „signifikant“, d.h. auf systematische Unterschiede in der GG zurück zu führen.“

Empirische Erfolgsraten in der Stichprobe

Unbekannte Erfolgsraten in der Grundgesamtheit

Page 17: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

0% 20% 40% 60% 80% 100%

A

B

Erfolg Misserfolg Gesamt

Behandlung A40

( = 80%)10 50

Behandlung B35

( = 70%)15 50

Ist Behandlung A wirksamer als Behandlung B?

Testproblem H0: rA=rB gegen H1: rA≠rB

Mögliche Lösung des Testproblems?

Ar̂

Br̂

Konfidenz-intervalle zum Niveau 95%

Page 18: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Erfolg Misserfolg Gesamt

Behandlung A40

( = 80%)10 50

Behandlung B35

( = 70%)15 50

Ist Behandlung A wirksamer als Behandlung B?

Testproblem H0: rA=rB gegen H1: rA≠rB

Anwendung eines Signifikanztests => „p-Wert“

p<0.05 => Testentscheidung zugunsten H1

p≥0.05 => Testentscheidung zugunsten H0

Hier: p=0.3556, d.h. Entscheidung für H0 („nicht signifikant“)

Ar̂

Br̂

Page 19: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Erfolg Misserfolg Gesamt

Behandlung A45

( = 90%)5 50

Behandlung B35

( = 70%)15 50

Ist Behandlung A wirksamer als Behandlung B?

Testproblem H0: rA=rB gegen H1: rA≠rB

p=0.02445, d.h. Entscheidung für H1 („signifikant“)

Ar̂

Br̂

Page 20: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Erfolg Misserfolg Gesamt

Behandlung A160

( = 80%)40 200

Behandlung B140

( = 70%)60 200

Ist Behandlung A wirksamer als Behandlung B?

Testproblem H0: rA=rB gegen H1: rA≠rB

p=0.02824, d.h. Entscheidung für H1 („signifikant“)

Ar̂

Br̂

Der Test erkennt auf Signifikanz, wenn der Unterschied der verglichenen Erfolgsraten entweder groß ist oder durch eine große Fallzahl belegt, d.h. „stabil“ ist.

Page 21: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Signifikanz und klinische Relevanz

Der Test erkennt auf Signifikanz, wenn der Unterschied der verglichenen Erfolgsraten entweder groß ist oder durch eine große Fallzahl belegt, d.h. „stabil“ ist.

Beurteilung der klinischen Relevanz: Angabe eines Effektschätzers zusätzlich zum p-Wert, z.B. in Form der Differenz oder des Quotienten beider Erfolgsraten

Statistische Signifikanz: Gibt es (überzufällige) Unterschiede in den Erfolgsraten?Daraus folgt nicht notwendigerweise, dass die Unterschiede eine klinisch relevante Größe haben.

Der p-Wert sagt aus, ob es Unterschiede in den Erfolgsraten gibt, nicht wie groß diese Unterschiede sind!

Page 22: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Prinzipien des Statistischen Testens

1. Einführung

• Tests zum Vergleich zweier Erfolgsraten

• Signifikanz und klinische Relevanz

2. Der p-Wert

3. Gütekriterien des Signifikanztests

4. Tests bei metrischen Zielgrößen

5. Spezielle Testprobleme

6. Das multiple Testproblem

7. Konfidenzintervalle

Page 23: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Der p-Wert

In welchem Maß widersprechen die beobachteten Daten der Nullhypothese?

Definition:

Vorausgesetzt die Nullhypothese würde zutreffen, d.h. beide Erfolgsraten stimmen in der Grundgesamtheit überein:

Wie groß ist dann die Wahrscheinlichkeit, ein solches empirisches Ergebnis wie das tatsächlich beobachtete zu beobachten (oder eines, das der Nullhypothese noch mehr widerspricht)?

Der p-Wert gibt nicht an, mit welcher Wahrscheinlichkeit die Nullhypothese der Übereinstimmung beider Erfolgs-raten in der Grundgesamtheit zutrifft!

Page 24: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Der p-Wert

Beispiel: Gegeben sei eine Münze

H0: Die Münze ist fair, d.h. P(Kopf) = P(Zahl) = 50% H1: Die Münze ist unfair, d.h. P(Kopf) ≠ P(Zahl)

Zufallsexperiment: 20facher Münzwurf „Prüfgröße“ bzw. „Teststatistik“ T: Anzahl geworfener Köpfe

Gesucht: Wahrscheinlichkeitsverteilung der Teststatistik T unter H0

0 2 4 6 8 10 12 14 16 18 20

0.0

0.05

0.10

0.15

Bin(n=20,p=0.5)

Page 25: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Der p-Wert

Beispiel: Gegeben sei eine Münze

H0: Die Münze ist fair, d.h. P(Kopf) = P(Zahl) = 50% H1: Die Münze ist unfair, d.h. P(Kopf) ≠ P(Zahl)

Zufallsexperiment: 20facher Münzwurf „Prüfgröße“ bzw. „Teststatistik“ T: Anzahl geworfener Köpfe

Gesucht: Wahrscheinlichkeitsverteilung der Teststatistik T unter H0

Anschl.: Tatsächliche Durchführung des Experiments

0 2 4 6 8 10 12 14 16 18 20

0.0

0.05

0.10

0.15

Bin(n=20,p=0.5)

Page 26: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Der p-Wert

Beispiel: Gegeben sei eine Münze

H0: Die Münze ist fair, d.h. P(Kopf) = P(Zahl) = 50% H1: Die Münze ist unfair, d.h. P(Kopf) ≠ P(Zahl)

Zufallsexperiment: 20facher Münzwurf „Prüfgröße“ bzw. „Teststatistik“ T: Anzahl geworfener Köpfe

Gesucht: Wahrscheinlichkeitsverteilung der Teststatistik T unter H0

Anschl.: Tatsächliche Durchführung des Experiments, z.B. t=14

0 2 4 6 8 10 12 14 16 18 20

0.0

0.05

0.10

0.15

Bin(n=20,p=0.5)

Page 27: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Der p-Wert

Beispiel: Gegeben sei eine Münze

H0: Die Münze ist fair, d.h. P(Kopf) = P(Zahl) = 50% H1: Die Münze ist unfair, d.h. P(Kopf) ≠ P(Zahl)

Zufallsexperiment: 20facher Münzwurf „Prüfgröße“ bzw. „Teststatistik“ T: Anzahl geworfener Köpfe

Gesucht: Wahrscheinlichkeitsverteilung der Teststatistik T unter H0

Anschl.: Tatsächliche Durchführung des Experiments, z.B. t=14 => p=0.1153

0 2 4 6 8 10 12 14 16 18 20

0.0

0.05

0.10

0.15

Bin(n=20,p=0.5)

Page 28: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Der p-Wert

Beispiel: Gegeben sei eine Münze

H0: Die Münze ist fair, d.h. P(Kopf) = P(Zahl) = 50% H1: Die Münze ist unfair, d.h. P(Kopf) ≠ P(Zahl)

Zufallsexperiment: 20facher Münzwurf „Prüfgröße“ bzw. „Teststatistik“ T: Anzahl geworfener Köpfe

Gesucht: Wahrscheinlichkeitsverteilung der Teststatistik T unter H0

Anschl.: Tatsächliche Durchführung des Experiments, z.B. t=15 => p=0.0414

0 2 4 6 8 10 12 14 16 18 20

0.0

0.05

0.10

0.15

Bin(n=20,p=0.5)

Page 29: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Prinzipien des Statistischen Testens

1. Einführung

• Tests zum Vergleich zweier Erfolgsraten

• Signifikanz und klinische Relevanz

2. Der p-Wert

3. Gütekriterien des Signifikanztests

4. Tests bei metrischen Zielgrößen

5. Spezielle Testprobleme

6. Das multiple Testproblem7. Konfidenzintervalle

Page 30: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Gütekriterien des Signifikanztests

Testproblem H0: r1=r2 gegen H1: r1≠r2

Fehler 1. Art

Fehler 2. ArtP(Fehler 2. Art) ≈ 20% wird toleriert

P(Fehler 1. Art) ≤ α=5%

In Wirklichkeit ist

H0 richtig H1 richtig

Entscheidung für H0 richtig Fehler 2. Art

Entscheidung für H1 Fehler 1. Art richtig

H0: r1=r2 gegen H1: r1≠r2

Entscheidung zu unrecht für H1 (falsch positiv)Man behauptet zu unrecht, es gäbe einen Unterschied.

Entscheidung zu unrecht für H0 (falsch negativ)Man versäumt, einen bestehenden Unterschied zu erkennen.

H0: r1=r2 gegen H1: r1≠r2

kein „symmetrisches“ Verfahren im Sinne einer Entscheidung für die „wahrscheinlichere“ der beiden Hypothesenstattdessen konservativer Ansatz: „Im Zweifel für H0“

Page 31: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

kein „symmetrisches“ Verfahren im Sinne einer Entscheidung für die „wahrscheinlichere“ der beiden Hypothesenstattdessen konservativer Ansatz: „Im Zweifel für H0“

Gütekriterien des Signifikanztests

Testproblem H0: r1=r2 gegen H1: r1≠r2

Fehler 1. Art

Fehler 2. ArtP(Fehler 2. Art) ≈ 20% wird toleriert

P(Fehler 1. Art) ≤ α=5%

In Wirklichkeit ist

H0 richtig H1 richtig

Entscheidung für H0 richtig Fehler 2. Art

Entscheidung für H1 Fehler 1. Art richtig

H0: r1=r2 gegen H1: r1≠r2

Entscheidung zu unrecht für H1 (falsch positiv)Man behauptet zu unrecht, es gäbe einen Unterschied.

Entscheidung zu unrecht für H0 (falsch negativ)Man versäumt, einen bestehenden Unterschied zu erkennen.

H0: r1=r2 gegen H1: r1≠r2

Geringe Gefahr eines Fehlers 1. Art

=> Nachweis der Gültigkeit von H1 ist abgesichert

Größere Gefahr eines Fehlers 2. Art

=> Nachweis der Gültigkeit von H0 ist weniger gut abgesichert

Geeignete Aufstellung des Testproblems:

H0: Etabliertes Basiswissen („kein Effekt“)

H1: Innovative Erkenntnis

Der klassische Signifikanztest eignet sich zum Nachweis von

Unterschieden, nicht zum Beweis der Tatsache, dass es keine

Unterschiede gibt!

Page 32: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Fehlerwahrscheinlichkeiten im SignifikanztestBeispiel: r0: Erfolgswahrscheinlichkeit unter Plazebo

r1: Erfolgswahrscheinlichkeit unter aktiver Therapie H0: r1=r0 gegen H1: r1≠r0

P

ower

= W

kt e

ines

sig

nifik

ante

n Te

ster

gebn

isse

s

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

r0 =

r1 =

0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

„Powerfunktion“

Page 33: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

H1H0

Fehlerwahrscheinlichkeiten im SignifikanztestBeispiel: r0: Erfolgswahrscheinlichkeit unter Plazebo

r1: Erfolgswahrscheinlichkeit unter aktiver Therapie H0: r1=r0 gegen H1: r1≠r0

P

ower

= W

kt e

ines

sig

nifik

ante

n Te

ster

gebn

isse

s

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

r0 =

r1 =

0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

„Powerfunktion“

Page 34: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

H1H0

Fehlerwahrscheinlichkeiten im SignifikanztestBeispiel: r0: Erfolgswahrscheinlichkeit unter Plazebo

r1: Erfolgswahrscheinlichkeit unter aktiver Therapie H0: r1=r0 gegen H1: r1≠r0

P

ower

= W

kt e

ines

sig

nifik

ante

n Te

ster

gebn

isse

s

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Fehler 1.Art

Fehler 2.Art

r0 =

r1 =

0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Page 35: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

H1H0

Fehlerwahrscheinlichkeiten im SignifikanztestBeispiel: r0: Erfolgswahrscheinlichkeit unter Plazebo

r1: Erfolgswahrscheinlichkeit unter aktiver Therapie H0: r1=r0 gegen H1: r1≠r0

P

ower

= W

kt e

ines

sig

nifik

ante

n Te

ster

gebn

isse

s

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Fehler 1.Art

Fehler 2.Art

? ?

r0 =

r1 =

0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Page 36: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

H1H0

Fehlerwahrscheinlichkeiten im SignifikanztestBeispiel: r0: Erfolgswahrscheinlichkeit unter Plazebo

r1: Erfolgswahrscheinlichkeit unter aktiver Therapie H0: r1=r0 gegen H1: r1≠r0

P

ower

= W

kt e

ines

sig

nifik

ante

n Te

ster

gebn

isse

s

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Fehler 1.Art

Fehler 2.Art

n=100 n=50 pro Gruppe

r0 =

r1 =

0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

=> Fallzahlschätzung

einer geplanten

klinischen Studie

Page 37: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Prinzipien des Statistischen Testens

1. Einführung

• Tests zum Vergleich zweier Erfolgsraten

• Signifikanz und klinische Relevanz

2. Der p-Wert

3. Gütekriterien des Signifikanztests

4. Tests bei metrischen Zielgrößen

5. Spezielle Testprobleme

6. Das multiple Testproblem7. Konfidenzintervalle

Page 38: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Signifikanztests bei metrischen Zielgrößen

bisher: Vergleich zweier Erfolgsraten H0: r1=r2 gegen H1: r1≠r2

Bsp.: Metrische Zielgröße Blutdrucksenkung

µ1,µ2: „Erwartungswerte“

= (Unbeobachtbare) arithmetische Mittelwerte der Zielgröße in der Grundgesamtheit

µ1: Erwartete mittlere Blutdrucksenkung, falls sämtliche Patienten der Grundgesamtheit Therapie 1 bekommen hätten

µ2: Erwartete mittlere Blutdrucksenkung, falls sämtliche Patienten der Grundgesamtheit Therapie 2 bekommen hätten

Testproblem: H0: µ1=µ2 gegen H1: µ1≠µ2

Page 39: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

systolischer Blutdruck (mm Hg)80 100 120 140 160 180

systolischer Blutdruck (mm Hg)80 100 120 140 160 180

systolischer Blutdruck (mm Hg)80 100 120 140 160 180

Signifikanztests bei metrischen Zielgrößen

→ Sind die Daten normalverteilt?

... Was ist eine Wahrscheinlichkeitsverteilung?

21 x21f (x) e

2

Wahrscheinlichkeits-verteilungHistogramm

Gauss‘sche Normalverteilung

Page 40: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Prinzipien des Statistischen Testens

1. Einführung

• Tests zum Vergleich zweier Erfolgsraten

• Signifikanz und klinische Relevanz

2. Der p-Wert

3. Gütekriterien des Signifikanztests

4. Tests bei metrischen Zielgrößen

5. Spezielle Testprobleme

6. Das multiple Testproblem7. Konfidenzintervalle

Page 41: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Spezielle Testprobleme1. Lagetests bei normalverteilten Zielgrößen

Student‘s t-Test

zweiseitiger Test: H0: μ1=μ2 gegen H1: μ1≠μ2

einseitiger Test: H0: μ1≤μ2 gegen H1: μ1>μ2

H0: μ1≥μ2 gegen H1: μ1<μ2

verbundener und unverbundener Test

2. Lagetests bei nicht normalverteilten Zielgrößen („Nichtparametrische Verfahren“, insbes. bei kleiner Fallzahl)

verbundene Stichproben: Wilcoxon-Rangsummentest

unverbundene Stichproben: U-Test von Mann-Whitney

3. Test zum Vergleich zweier Erfolgsraten: 2-Test

Page 42: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Spezielle Testprobleme1. Lagetests bei normalverteilten Zielgrößen

Student‘s t-Test

zweiseitiger Test: H0: μ1=μ2 gegen H1: μ1≠μ2

einseitiger Test: H0: μ1≤μ2 gegen H1: μ1>μ2

H0: μ1≥μ2 gegen H1: μ1<μ2

verbundener und unverbundener Test

2. Lagetests bei nicht normalverteilten Zielgrößen („Nichtparametrische Verfahren“, insbes. bei kleiner Fallzahl)

verbundene Stichproben: Wilcoxon-Rangsummentest

unverbundene Stichproben: U-Test von Mann-Whitney

3. Test zum Vergleich zweier Erfolgsraten: 2-Test

Ein- und zweiseitige Testprobleme

In der Regel werden zweiseitige Tests durchgeführt.

Bsp: Vergleich einer aktiven Therapie A gegenüber Plazebo Einseitiger Test: H0: μA≤μPlazebo , d.h. A ist gleichwertig oder unterlegen

H1: μA>μPlazebo , d.h. A ist überlegen gegenüber Plazebo

=> Nachteil des einseitigen Tests:Im Fall eines nicht-signifikanten Ergebnisses kann nicht differenziert werden zwischen Gleichwertigkeit (=Wirkungslosigkeit) und Unterlegenheit gegenüber Plazebo (=Schädlichkeit!)

Page 43: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Spezielle Testprobleme1. Lagetests bei normalverteilten Zielgrößen

Student‘s t-Test

zweiseitiger Test: H0: μ1=μ2 gegen H1: μ1≠μ2

einseitiger Test: H0: μ1≤μ2 gegen H1: μ1>μ2

H0: μ1≥μ2 gegen H1: μ1<μ2

verbundener und unverbundener Test

2. Lagetests bei nicht normalverteilten Zielgrößen („Nichtparametrische Verfahren“, insbes. bei kleiner Fallzahl)

verbundene Stichproben: Wilcoxon-Rangsummentest

unverbundene Stichproben: U-Test von Mann-Whitney

3. Test zum Vergleich zweier Erfolgsraten: 2-Test

Page 44: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Beispiel: Klinische Studie zur Blutdrucksenkung

• Zwei alternative Therapieverfahren• Bei jedem Patienten wird der Blutdruck jeweils vor und

nach Anwendung der Therapie gemessen

Therapie Pat.-Nr.Blutdruck Erwartungswerte

PRE POST POST-PRE PRE POST Differenz

A

A1 140 120 -20

µA(pre) µA

(post) µA(post-pre)A2 130 130 0

A3 130 120 -10

… … … …

B

B1 135 130 -5

µB(pre) µB

(post) µB(post-pre)B2 140 145 +5

B3 130 130 0

… … … …

unverbundener Testverbundener Test

Page 45: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Spezielle Testprobleme1. Lagetests bei normalverteilten Zielgrößen

Student‘s t-Test

zweiseitiger Test: H0: μ1=μ2 gegen H1: μ1≠μ2

einseitiger Test: H0: μ1≤μ2 gegen H1: μ1>μ2

H0: μ1≥μ2 gegen H1: μ1<μ2

verbundener und unverbundener Test

2. Lagetests bei nicht normalverteilten Zielgrößen („Nichtparametrische Verfahren“, insbes. bei kleiner Fallzahl)

verbundene Stichproben: Wilcoxon-Rangsummentest

unverbundene Stichproben: U-Test von Mann-Whitney

3. Test zum Vergleich zweier Erfolgsraten: 2-Test

Page 46: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Spezielle Testprobleme1. Lagetests bei normalverteilten Zielgrößen

Student‘s t-Test

zweiseitiger Test: H0: μ1=μ2 gegen H1: μ1≠μ2

einseitiger Test: H0: μ1≤μ2 gegen H1: μ1>μ2

H0: μ1≥μ2 gegen H1: μ1<μ2

verbundener und unverbundener Test

2. Lagetests bei nicht normalverteilten Zielgrößen („Nichtparametrische Verfahren“, insbes. bei kleiner Fallzahl)

verbundene Stichproben: Wilcoxon-Rangsummentest

unverbundene Stichproben: U-Test von Mann-Whitney

3. Test zum Vergleich zweier Erfolgsraten: 2-Test

Page 47: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Prinzipien des Statistischen Testens

1. Einführung

• Tests zum Vergleich zweier Erfolgsraten

• Signifikanz und klinische Relevanz

2. Der p-Wert

3. Gütekriterien des Signifikanztests

4. Tests bei metrischen Zielgrößen

5. Spezielle Testprobleme

6. Das multiple Testproblem7. Konfidenzintervalle

Page 48: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Das multiple TestproblemEin (!) Signifikanztest ist ein leistungsfähiges Verfahren zur Lösung eines statistischen Testproblems.

Page 49: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Das multiple TestproblemEin (!) Signifikanztest ist ein leistungsfähiges Verfahren zur Lösung eines statistischen Testproblems.

Die mehrfache Anwendung eines Tests kann dazu führen, dass das Signifikanzniveau überschritten wird!

Beispiel:H0: Der Blutdrucksenker XY ist nicht wirksam gegen H1: ... wirksam

Zur Lösung des Testproblems werden mehrere Tests durchgeführt:(i) Senkung des systolischen Blutdrucks(ii) Senkung des diastolischen Blutdrucks(iii) Einstellung des Tag-Nacht-Rhythmus

Die ursprüngl. Nullhypothese wird abgelehnt (d.h. Wirksamkeit wird als erwiesen angesehen), falls einer der Tests (i)-(iii) signifikant ist.

Page 50: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Das multiple TestproblemEin (!) Signifikanztest ist ein leistungsfähiges Verfahren zur Lösung eines statistischen Testproblems.

Die mehrfache Anwendung eines Tests kann dazu führen, dass das Signifikanzniveau überschritten wird!

Beispiel:H0: Der Blutdrucksenker XY ist nicht wirksam gegen H1: ... wirksam

Zur Lösung des Testproblems werden mehrere Tests durchgeführt:(i) Senkung des systolischen Blutdrucks Fehler 1. Art = 5%(ii) Senkung des diastolischen Blutdrucks Fehler 1. Art = 5%(iii) Einstellung des Tag-Nacht-Rhythmus Fehler 1. Art = 5%

Die ursprüngl. Nullhypothese wird abgelehnt (d.h. Wirksamkeit wird als erwiesen angesehen), falls einer der Tests (i)-(iii) signifikant ist.

Das multiple TestproblemEin (!) Signifikanztest ist ein leistungsfähiges Verfahren zur Lösung eines statistischen Testproblems.

Die mehrfache Anwendung eines Tests kann dazu führen, dass das Signifikanzniveau überschritten wird!

Beispiel:H0: Der Blutdrucksenker XY ist nicht wirksam gegen H1: ... wirksam

Zur Lösung des Testproblems werden mehrere Tests durchgeführt:(i) Senkung des systolischen Blutdrucks(ii) Senkung des diastolischen Blutdrucks(iii) Einstellung des Tag-Nacht-Rhythmus

Die ursprüngl. Nullhypothese wird abgelehnt (d.h. Wirksamkeit wird als erwiesen angesehen), falls einer der Tests (i)-(iii) signifikant ist.

Die Gesamtentscheidung wird anhand einer „ODER“-Verknüpfung

der einzelnen Tests getroffen.

Sie ist damit falsch positiv, sobald in mindestens einem der

einzelnen Tests ein Fehler 1. Art begangen wird.

Die Wahrscheinlichkeit dafür beträgt 1-(1-0.05)3 = 14,3% > 5%!

Page 51: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Das multiple Testproblem

Page 52: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

• Keine eindeutige Wahl des primären Zielkriteriums einer Studie

• Zwischenauswertungen

• Keine eindeutige Festlegung des statistischen Auswertungsverfahrens

• Paarvergleiche z.B. mehrerer Behandlungen / Dosierungen

• Subgruppenanalyse

Durchführung mehrerer elementarer Signifikanztests, deren Ergebnisse zu einer Gesamtentscheidung kombiniert werden. Diese Gesamtentscheidung wird als positiv angesehen, falls mindestens einer der einzelnen Tests signifikant ist.

Wann kann ein multiples Testproblem entstehen?

Page 53: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Prinzipien des Statistischen Testens

1. Einführung

• Tests zum Vergleich zweier Erfolgsraten

• Signifikanz und klinische Relevanz

2. Der p-Wert

3. Gütekriterien des Signifikanztests

4. Tests bei metrischen Zielgrößen

5. Spezielle Testprobleme

6. Das multiple Testproblem7. Konfidenzintervalle

Page 54: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Konfidenzintervall

―h

― ―

0 1Rel. Häufigkeit in

der Stichprobe

Wahrscheinlichkeit P=?? ? ? ?? ? ??? ? ?

Das Konfidenzintervall enthält mit 95%iger Wahrscheinlichkeit den unbekannten Wert P

Page 55: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

KonfidenzintervalleBeispielµ: Erwartete Blutdrucksenkung unter Therapie XY

: Empirisches Stichprobenmittel

Gesucht ist ein Intervall zur Eingrenzung des unbekannten Parameters µ.Welche Werte kommen für den unbekannten Parameter µ in Frage?

ni

i 11x xn

("µ")ˆ

――

0empirisches

Stichprobenmittel

? ? ? ?? ? ??? ? ?Unbekannter Erwartungswert µ=?

µ xˆ ― ― ―

10 20 30 mmHg

Page 56: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

KonfidenzintervalleBeispielµ: Erwartete Blutdrucksenkung unter Therapie XY

: Empirisches Stichprobenmittel

Gesucht ist ein Intervall zur Eingrenzung des unbekannten Parameters µ.Welche Werte kommen für den unbekannten Parameter µ in Frage?

Das Konfidenz- oder Vertrauensintervall ist die Menge sämtlicher Werte, die im Rahmen eines Signifikanztests für den unbekannten Parameter µ nicht ausgeschlossen werden können.

ni

i 11x xn

("µ")ˆ

Page 57: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

KonfidenzintervalleBeispielµ: Erwartete Blutdrucksenkung unter Therapie XY

: Empirisches Stichprobenmittel

Gesucht ist ein Intervall zur Eingrenzung des unbekannten Parameters µ.Welche Werte kommen für den unbekannten Parameter µ in Frage?

Das Konfidenz- oder Vertrauensintervall ist die Menge sämtlicher Werte, die im Rahmen eines Signifikanztests für den unbekannten Parameter µ nicht ausgeschlossen werden können.

ni

i 11x xn

("µ")ˆ

0-10-20-30 10 20 30 mmHg

H 0: μ

=-25

H 0: μ

=-20

H 0: μ

=-30

H 0: μ

=-15

H 0: μ

=-10

H 0: μ

=-5

H 0: μ

=0

H 0: μ

=5

H 0: μ

=10

H 0: μ

=15

H 0: μ

=20

H 0: μ

=25

H 0: μ

=30 Menge aller

Tests mit nicht-signifikantem Ergebnis

Führt man sämtliche Tests zum Signifikanzniveau α=5% durch,

so ergibt sich, dass das Konfidenzintervall den unbekannten Parameter µ mit

1-α = 95%iger Wahrscheinlichkeit enthält.

Page 58: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Konfidenzintervalle und SignifikanztestsBeispielµA: Erwartete Blutdrucksenkung unter Therapie A

µB: Erwartete Blutdrucksenkung unter Therapie B

(i) Lösungsansatz im Rahmen eines Testproblems: H0: μA=μB gegen H1: μA≠μB

(ii) Alternativer Ansatz: Konfidenzintervall des Behandlungsunterschieds μA-μB

0-10-20-30 10 20 30 mmHg

Falls 0 KId.h. H0: μA-μB=0 kann nicht abgelehnt werden,

<=> H0: μA=μB kann nicht abgelehnt werden.

<=> kein signifikanter Unterschied zwischen beiden Therapien(Andererseits können Unterschiede bis zu 20 mmHg (!) ebenfalls nicht ausgeschlossen werden)

Page 59: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Konfidenzintervalle und SignifikanztestsAnderes BeispielµA: Erwartete Blutdrucksenkung unter Therapie A

µB: Erwartete Blutdrucksenkung unter Therapie B

(i) Lösungsansatz im Rahmen eines Testproblems: H0: μA=μB gegen H1: μA≠μB

(ii) Alternativer Ansatz: Konfidenzintervall des Behandlungsunterschieds μA-μB

0-10-20-30 10 20 30 mmHg

Falls 0 KId.h. H0: μA-μB=0 wird verworfen,

<=> H0: μA=μB wird verworfen.

<=> signifikanter Unterschied zwischen beiden Therapien(Trotzdem ist der Unterschied zwischen den Therapien hier möglicherweise kleiner (!) als im vorigen Beispiel.)

Page 60: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Konfidenzintervalle bei binären ZielgrößenBeispielr1: Lungenkrebsrate von Rauchern

r0: Lungenkrebsrate von Nichtrauchern

(i) Lösungsansatz im Rahmen eines Testproblems: H0: r1=r0 gegen H1: r1≠r0

(ii) Alternativer Ansatz: Konfidenzintervall des Relativen Risikos r1/r0

3210 4 5 6

Falls 1 KId.h. H0: r1/r0=1 wird verworfen,

<=> H0: r1=r0 wird verworfen.

<=> signifikanter Unterschied zwischen Rauchern und Nichtrauchern

Page 61: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Fallstricke Statistischer Signifikanztests

1. Einführung

• Tests zum Vergleich zweier Erfolgsraten

• Signifikanz und klinische Relevanz

2. Der p-Wert

3. Gütekriterien des Signifikanztests

4. Tests bei metrischen Zielgrößen

5. Spezielle Testprobleme

6. Das multiple Testproblem7. Konfidenzintervalle

p>0.05 => „Für H0“ „Nicht gegen H0“

Der klassische Signifikanztest eignet sich zum Nachweis

von Unterschieden, nicht zum Beweis der Tatsache, dass

es keine Unterschiede gibt!

Der p-Wert sagt aus, ob es Unterschiede in den

Erfolgsraten gibt, nicht wie groß diese Unterschiede sind!

Bei der Anwendung mehrerer Signifikanztests mit Kombi-

nation der Testergebnisse besteht eine erhöhte Gefahr

eines Fehlers 1. Art (falsch positive Entscheidung).

Page 62: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Literatur

Page 63: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Eine Reihe von Beispielen…Eine Reihe von Beispielen…

Page 64: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Beispiel 1:

Das Relative Risiko für Lungenkrebs bei Passivrauchern wurde in einer Studie geschätzt als:

RR = 1.35

Der p-Wert betrug p = 0,075.

Bei einer Irrtumswahrscheinlichkeit von = 0.05 (oder 5%) wird die Null-Hypothese (die besagt, dass keine Beziehung zwischen Passivrauchen und Lungenkrebs besteht) nicht verworfen, da p = 0.075 > 0.05 .

d.h.: auf dem 5%-Niveau statistisch nicht signifikant !

Page 65: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof
Page 66: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof
Page 67: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof
Page 68: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof
Page 69: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Linksventrikuläre Hypertrophie und Risiko *: Männer und Frauen, 45 bis 64 Jahre,

Männer Frauen

RR 95 %-KI RR

Tod 2.3 [1.5 ; 3.7] 1.5 [0.9 ; 2.6]

Tod durch HKK 3.2 [1.8 ; 5.7] 2.4 [1.1 ; 5.4]

AMI (F + NF) alle 1.7 [0.95;3.2] 3.2

[1.3 ; 7.7] inzidente 2.2 [1.2 ; 4.3] 2.9

[1.2 ; 7.4]* adjustiert für Alter, TC/HDL-Quotient, Rauchen, Alkohol, Infarktanamnese

95 %-KI

Hense et al., 1998

Page 70: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

LVH und Risiko *: Männer und Frauen, 45 bis 64 Jahre,

Männer Frauen

HRR 95 %-KI HRR

Tod 2.3 [1.5 ; 3.7] 1.5 [0.9 ; 2.6]

Tod durch HKK 3.2 [1.8 ; 5.7] 2.4 [1.1 ; 5.4]

AMI (F + NF) alle 1.7 [0.95;3.2] 3.2

[1.3 ; 7.7] inzidente 2.2 [1.2 ; 4.3] 2.9

[1.2 ; 7.4]

* adjustiert für Alter, TC/HDL-Quotient, Rauchen, Alkohol, Infarktanamnese

95 %-KI

Hense et al., 1998

Page 71: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Einige abschließende Beispiele

Epidemiologisches Maß Schätzwert 95%KI

Differenz von Mittelwerten: 5.5 mg/dl [0.2 – 9.8]

Differenz von Prävalenzen: 3% [-1% - 7%]

Differenz von Inzidenzraten: 0.002 [0.0016 - 0.0024]

Relatives Risiko: 2.45 [1.78 - 3.45]

Odds Ratio: 0.76 [0.43 - 1.12]

Signifikant?

Page 72: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Fragen und Antworten

50 insulinpflichtige Diabetiker wurden mit 50 Nicht-Diabetikernbezüglich des Auftretens von psychischen Störungen untersucht.Diese waren bei den Diabetikern signifikant häufiger. Welcher der folgenden Faktoren kommt als Erklärung für diese Unterschiede wahrscheinlich nicht in Frage:

- Alter, - Insulintherapie, - Zufall, - Diät, - Diabeteskomplikationen.

Zufall

Page 73: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Fragen und Antworten

Boston Lyle Hospital 1938 – 1952Inzidenz Retrolentaler Fibroplasie (RFL)

Frühgeborene RLFJungen 260 17.3%Mädchen 321 15.4%

Inzidenzdifferenz: 1.9%, 95%-KI [ -4.2 bis 8.0]; p = 0.62Inzidenzdifferenz: 1.9%, 95%-KI [ -4.2 bis 8.0]; p = 0.62Was besagt dieses Resultat?

- Die Inzidenz der RLF ist signifikant höher für Jungen.- Geschlecht und Inzidenz der RLF sind in dieser Studie nicht assoziiert.- Zufall kann die Inzidenzdifferenz allein nicht erklären.- Das relative Risiko einer RLF für J ist signifikant verschieden von 1.- Es besteht eine 62%ige Wahrscheinlichkeit, dass die Inzidenz für Jungen größer ist als 1.9%.

Page 74: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Fragen und Antworten

In einer klinischen Studie wird ein innovatives Mittel A zur Blutdruck-senkung mit der bisherigen Standardtherapie B verglichen. Das neue Medikament wird in zwei verschiedenen Patientengruppen jeweils in unterschiedlicher Dosis vergeben (A1 bzw. A2). Beim Vergleich der Therapien ergibt sich in einem zweiseitigen Signifikanztest der Gruppe A1 versus B ein p-Wert von p=0.001; für den Vergleich A2 versus B ergibt sich p=0.04. Welche Information kann aus den angegebenen p-Werten abgelesen werden?

- Therapie A1 ist erwiesenermaßen wirksamer als die Standardtherapie B.- Therapie A2 ist erwiesenermaßen wirksamer als die Standardtherapie B.- Die erwartete Blutdrucksenkung unter Ther. A1 ist größer als unter Ther. A2. - Die Wirksamkeit der Therapien A1 und A2 unterscheidet sich signifikant.- Keine der obigen Aussagen kann aus den p-Werten abgelesen werden.

Page 75: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Fragen und Antworten

Eine geplante klinische Studie soll möglichst zeit- und kostensparend durchgeführt werden. Um das zu erreichen, wird folgendes Vorgehen diskutiert. Zuerst werden 50 Patienten pro Therapiegruppe rekrutiert und anhand eines Signifikanztests zum Niveau α=5% geprüft, ob sich signifikante Therapieunterschiede nachweisen lassen. Gelingt das (noch) nicht, so werden anschließend weitere 2x25 Patienten rekrutiert und erneut getestet. Das Verfahren wird so lange fortgesetzt, bis der p-Wert des Tests auf Ungleichheit beider Therapien signifikant ist.Halten Sie ein solches Vorgehen für sinnvoll?

Nein, bei dem beschriebenen Vorgehen besteht ein multiples Testproblem! In jedem einzelnen Test besteht eine 5%ige Wkt. eines falsch positiven Ergebnisses. Das abschließende Urteil ist allerdings positiv, falls irgend-einer der einzelnen Test signifikant ist. Dadurch ist die Gefahr eines falsch positiven Ergebnisses im abschließenden Urteil deutlich größer als 5%!

Page 76: Statistische Tests in (klinischen und epidemiologischen) Beobachtungsstudien Ergebnisunsicherheit und Statistische Testverfahren Dr. Gerß (IMIB) [Prof

Fragen und Antworten

In einer klinischen Studie werden die Erfolgsraten r1 und r2 zweier

Therapien miteinander verglichen. Pro Therapiearm werden 10 Patien-ten rekrutiert und deren Daten ausgewertet. Dabei ergibt sich beim Test auf Ungleichheit der beiden Erfolgsraten ein nicht signifikanter p-Wert von p=0.08.Interpretieren Sie das Testergebnis! Was können Sie zur Power der Studie sagen? Was für ein Konfidenzintervall des Therapieeffekts (Quotient der

Erfolgsraten r1 und r2) erwarten Sie?

Die Nullhypothese H0:r1=r2 kann nicht abgelehnt werden.

Das heißt nicht, dass damit ihre Gültigkeit bewiesen ist!Aufgrund der kleinen Fallzahl hat die Studie erwartungsgemäß eine sehr niedrige Power, d.h. es besteht eine große Gefahr eines Fehlers 2. Art.Aus dem gleichen Grund wird das KI des Therapieeffekts erwartungsgemäß sehr groß sein, d.h. die Größe des Effekts lässt sich nur schlecht abschätzen.