48
Welche statistische Auswertung für welche Datenlage? Institut für Medizinische Biometrie http://www.uni-tuebingen.de/biometry/ Silcherstr. 5,72076 Tuebingen PD Dr. Hans-Peter Dürr http://homepages.uni-tuebingen.de/hp.duerr/ 07071 / 29 78259 2-stündiges Seminar im Rahmen des Promotionskollegs

Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Embed Size (px)

Citation preview

Page 1: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Welche statistische Auswertung für welche Datenlage?

Institut für Medizinische Biometrie http://www.uni-tuebingen.de/biometry/ Silcherstr. 5,72076 Tuebingen

PD Dr. Hans-Peter Dürr http://homepages.uni-tuebingen.de/hp.duerr/ 07071 / 29 78259

2-stündiges Seminar im Rahmen des Promotionskollegs

Page 2: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 2 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Datenlage

• qualitativ (nominal): Ausprägung hat keine zahlenmäßige Ordnung

• quantitativ: Ausprägung hat zahlenmäßige Ordnung

Augenfarbe

– ordinal: kann geordnet werden Befindlichkeitsskala

– diskret: natürliche Zahlen Anzahl Geschwister

– stetig: reelle Zahlen Strahlungsintensität

Page 3: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 3 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Korrelation / Regression Gruppenvergleiche: t-Test & Co

Logistische Überlebenszeit- Regression Analyse

χ2-Test & Fishers exakter Test

Auswertungen im Überblick

X: Ursache

Y: W

irkun

g

10 15 20 25

vor-her

nach-her

BM

I

Kon

zent

ratio

n Y

1.60

1.70

1.80

1.90 2.00

A 0 B AB Blutgruppe

Vorher/nachher-Ver-gleiche (ladder plot):

Diagramme und Auswertungen unter Kombination zweier Skalen:

Streudiagramm

Phä

noty

p

0.00 0.25

0.50

0.75 1.00

A1 A2 B C. Genotyp

y1

y2

y3 y4 y5 Mosaikplot

Boxplots

Y: S

tetig

Y:

Nom

inal

0.00 0.25 0.50 0.75 1.00

0 10 20 30 Monate W

'kei

t (Ü

berle

ben)

W'k

eit (

Kra

nk)

0 0.25 0.50 0.75

1

50 60 70 80 Konzentration

Ja

Nein

Kaplan-Meier-

Verfahren

X: Stetig X: Nominal

Page 4: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 4 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

A44%

038%

B12%

AB6%

Merkmalsskalen: Diagramme

Kuchendiagramm

oder

Bsp. Blutgruppe Bsp. Schulnoten

geordneter Mosaikplot (oder einfach Tabelle)

Mosaikplot

37% 18% 12%

3% 30%

1 2 3 4 5

44% 38% 12% 6%

A 0 B AB

Anteil Anzahl Einheit (Genauigkeit)

75% Rh+ von 99 Studenten (ein %punkt)

Bsp. Rhesusfaktor

Diskrete Daten

010203040506070

0 1 2 3 4 5 6 7 8

Anzahl Geschwister

Abso

lute

Häu

figke

it

00.10.20.30.40.5

Rel

ativ

e H

äufig

keit

Modalwert

Absolute H'keit Relative H'keit s. nachher

Ordinale Daten Dichotome Daten Nominale Daten

Page 5: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 5 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Korrelation / Regression Gruppenvergleiche: t-Test & Co

Logistische Überlebenszeit- Regression Analyse

χ2-Test & Fishers exakter Test

Auswertungen im Überblick

X: Ursache

Y: W

irkun

g

10 15 20 25

vor-her

nach-her

BM

I

Kon

zent

ratio

n Y

1.60

1.70

1.80

1.90 2.00

A 0 B AB Blutgruppe

Vorher/nachher-Ver-gleiche (ladder plot):

Diagramme und Auswertungen unter Kombination zweier Skalen:

Streudiagramm

Phä

noty

p

0.00 0.25

0.50

0.75 1.00

A1 A2 B C. Genotyp

y1

y2

y3 y4 y5 Mosaikplot

Boxplots

Y: S

tetig

Y:

Nom

inal

0.00 0.25 0.50 0.75 1.00

0 10 20 30 Monate W

'kei

t (Ü

berle

ben)

W'k

eit (

Kra

nk)

0 0.25 0.50 0.75

1

50 60 70 80 Konzentration

Ja

Nein

Kaplan-Meier-

Verfahren

X: Stetig X: Nominal

Page 6: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 6 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Lineare Regression: Beispiel Crawford MD, et al 1971: Changes in waterhard-ness and local death rates, Lancet , 2 , 327-329.

1000

1200

1400

1600

1800

2000

Mor

talit

y

0 25 50 75 100 125 150 Calcium

r= -0.66, r2= 0.43

-400 -200

0 200 400

Res

idua

l

0 25 50 75 100 125 150 Calcium

1

3

5 Count

-400 -200 0 100 200 300

Daten:

Regression:

Residuen:

Sind Residuen normalverteilt?

• kein Trend in den Residuen • Varianz der Residuen

ändert sich nicht merklich

• Der Normalverteilungsannahme wird nicht widersprochen (Shapiro-Wilk W Test)

• Nimmt die Mortalität mit zunehmendem Calcium-Gehalt des Wassers ab

• Korrelation mit r= -0.66 von mittlerer Staerke

• Die Regressionsgerade erklärt 43% der Varianz

? Anmerkung: diese Maße sind nett, aber wissenschaftlich oft nicht sehr nützlich. In den meisten Fällen interessiert die Frage: "Ist die Steigung der Regressiongeraden signifikant verschieden von null (und damit abhängig von 'X')?"; s. später: statistisches Testen.

Page 7: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 7 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Korrelation & Regression: Prüfungen

Scatterplotmatrix:

Regressionsgerade

r2

Schätzwerte (mit Standardfehler und

Signifikanz)

=p-Wert

Die abschließende Residuenanalyse muss zeigen:

• Residuen normalverteilt? • Kein Trend in den Residuen? • Kein Trend in Varianz?

Page 8: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 8 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Was tun, wenn ...

Nicht-lineares Modell zugrunde legen, oder Werte transformieren

Transformieren (oft hilft log), oder advanced: Varianz-modell spezifizieren

• ...ein Trend in den Residuen vorliegt? Häufiges Problem: Regression muss von 0/0 ausgehen.

Werte in Ränge umwandeln → Rangkorrelation (beachte jedoch: die Glei-chung der Regressionsgera-den ist nicht ohne weiteres mehr interpretierbar)

• ...ein Trend in der Varianz vorliegt? Häufiges Problem: große Werte streuen stärker.

• ...die Residuen nicht normalverteilt sind, und alles bisherige nicht hilft?

Page 9: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 9 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

3 Arten von Regression

"Y auf X" Annahmen: X ist bekannt und exakt Y muss den Fehler erklären

"X auf Y" Als Ergänzung zur Regression von Y auf X durchführen, wenn Fehlermodell fraglich ist → vergleiche Regressionen

"Orthogonal" Verwenden, wenn Fehlermodell unklar ist

Ist die "Übliche"

Page 10: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 10 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Korrelation / Regression Gruppenvergleiche: t-Test & Co

Logistische Überlebenszeit- Regression Analyse

χ2-Test & Fishers exakter Test

Auswertungen im Überblick

X: Ursache

Y: W

irkun

g

10 15 20 25

vor-her

nach-her

BM

I

Kon

zent

ratio

n Y

1.60

1.70

1.80

1.90 2.00

A 0 B AB Blutgruppe

Vorher/nachher-Ver-gleiche (ladder plot):

Diagramme und Auswertungen unter Kombination zweier Skalen:

Streudiagramm

Phä

noty

p

0.00 0.25

0.50

0.75 1.00

A1 A2 B C. Genotyp

y1

y2

y3 y4 y5 Mosaikplot

Boxplots

Y: S

tetig

Y:

Nom

inal

0.00 0.25 0.50 0.75 1.00

0 10 20 30 Monate W

'kei

t (Ü

berle

ben)

W'k

eit (

Kra

nk)

0 0.25 0.50 0.75

1

50 60 70 80 Konzentration

Ja

Nein

Kaplan-Meier-

Verfahren

X: Stetig X: Nominal

Page 11: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 11 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Standardfehler des Mittelwerts

Rice Virtual Lab in Statistics >Simulations/Demonstrations >Sampling Distribution Simulation >Begin

http

://on

lines

tatb

ook.

com

/rvls

.htm

l

σµ,

sx,

xσµ,

Mittelwerte aus verschiedenen Stichproben und ihre Verteilung

Page 12: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 12 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Der Standardfehler des Mittelwerts*

ist ein Maß für die Unsicherheit des Stichproben-Mittelwertes

Mit seiner Hilfe kann man den Vertrauensbereich (Konfidenzintervall) für einen Mittelwert abschätzen

nsSE =

* engl.: Standard Error of the Mean, SEM

Standardabweichung in der Stichprobe

Stichprobenumfang

Page 13: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 13 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Konfidenzintervalle

Konfidenzintervalle für µ :

74.1105.5

==SE

176 ±1.96*1.74

Jahrgang 1970 Jahrgang 2000

Der "wahre" Mittelwert liegt mit 95% Sicherheit im

Intervall [172.6 , 179.4 cm]

80.1107.5

==SE

177 ±1.96*1.80

Der "wahre" Mittelwert liegt mit 95% Sicherheit im

Intervall [173.5 , 180.5 cm]

Gro

esse

[cm

]

160 162

164 166 168

170 172 174

176 178 180

182 184 186

188 190

1970 2000 Jahrgang

cmx 176=cms 5.5=

cmx 177=cms 7.5=

Page 14: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 14 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Konfidenzintervall & Stichprobengröße G

roes

se[c

m]

160

162

164

166

168

170

172

174

176

178

180

182

184

186

188

190

1970 2000

Jahrgang

Gro

esse

[cm

]

160

162

164

166

168

170

172

174

176

178

180

182

184

186

188

190

1970 2000

Jahrgang

Kleine Stichprobe

Große Stichprobe

Das Konfidenzintervall hängt von der Größe der unter-suchten Stichprobe ab.

Bei kleinen Stichproben besteht zusätzliche Unsicherheit → verwende t-Verteilung

Page 15: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 15 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

So nicht!

" Das mittlere Einkommen beträgt 98856.7961 und liegt mit 95%iger Sicherheit im Bereich 88829 bis 108883 ".

• Erst prüfen, ob Daten normalverteilt sind (JMP: Shapiro-Wilk Test: p > 0.05)

• Wenn nein: Daten logarithmieren

• Wenn das nicht hilft: andere Transformationen verfügbar? (z. B. Anteile: logOdds, ArcSinWurzel)

• Wenn nein: Ränge bilden bzw. nicht-

parametrische Verfahren verwenden (s. später) Daten mit Quantilen beschreiben

(Box&Whiskers Plot) mit anderen Verteilungen als der

Normalverteilung arbeiten (Binomialverteilung, Poissonverteilung ... s. später)

Sondern so:

Page 16: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 16 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

1-Stichproben t-Test im Vorher-/Nachher-Vergleich

1) Differenzen „nachher“ - „vorher“

2) Mittelwert und SE der Differenzen

3) t-Test zur Nullhypothese „die mittlere Differenz ist Null“:

4) Prüfgröße

t = Mittelwertsdifferenz durch deren Standardfehler

DSEx 0t µ−

= 1.480.0

03.3=

−=10

15

20

25

vorher nachher

BMI

"Wie viele Standardfehler liegt

die 3.3 von der Nullhypothese weg?"

"Mit welcher W'keit tritt dies auf?"

H0: µ = µ0 = 0

80.03.3 == DSEx

Page 17: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 17 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

1.5

2.0

2.5

3.0 log(Triclyceride)

gesund erkrankt Gruppe

2-Stichproben t-Test: Auswertung Blutfettgehalt

log(Triclyceride)

Level Number Mean SEM gesund 51 2.10407 0.02915 erkrankt 320 2.19949 0.01164

Estimate SE

Lower 95% Upper 95%

-0.09542 0.03139 -0.15713 -0.03370

-3.040 369 0.0025 Difference t-Test DF Prob > |t|

Assuming equal variances

t-Test

Page 18: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 18 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

1) Mittlere Differenz

2) Standardabw. der Differenzen:

3) Standardfehler der Differenzen

4) t-Wert

5) p-Wert für DF=9

6) Entscheidung

1-Stichproben t-Test 2-Stichproben t-Test C

hole

ster

in

150

175

200

225

250

275

300

A vorherB nachher

Cho

lest

erin

150

175

200

225

250

275

300

A vorherB nachher

Es werden patienten-spezifische Differenzen gegen "0" verglichen. H0: "die mittlere Differenz ist gleich Null"

Es werden die Mittelwerte beider Kollektive verglichen. H0: "Mittelwert vorher ist gleich Mittelwert nachher"

1) Mittelwerte „vorher“, „nachher“

2) gepoolte Varianz ( ):

3) gepoolter Standardfehler

4) t-Wert

5) p-Wert für DF=18

6) Entscheidung

„Die beobachteten Mittelwerte unterscheiden sich nicht signifikant voneinander. Die Nullhypothese kann nicht abgelehnt werden“

237.6 ; 210.7

85.10202 =ABs3.14=ABSE

88.13.14

7.2106.237=

−=

−=

AB

AB

SEt µµ

p=0.076

p> 0.05=α

-26.9

p=0.047

p< 0.05=α

„Der beobachtete Unterschied von 26.93 unterscheidet sich signifikant von dem hypothetischen Wert 0. Die Nullhypothese wird abgelehnt“

302711

09260 ..

.SE

tD

D =−

=−

037.sD =711.SED =

s. nächste Folie

Page 19: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 19 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Häufig auftretende Komplikationen

• Daten der vereinigten Stichprobe sind nicht normalverteilt

• Daten pro Gruppe sind zwar normalverteilt und erlauben die Berechnung von Konfidenz-intervallen, diese erlauben aber keine eindeutige Beurteilung (z.B. wegen unbalanciertem Studiendesign. Häufiger Fall: viele Kontrollen verfügbar, aber nur wenig Patienten)

• Eine geeignete Transformation ist nicht auffindbar Häufiger Fall: log-Transformation ist problematisch wegen Null-Werten

Patienten & Kontrollen

Patienten

Kontrollen

Kontrollen Patienten

Kontrollen Patienten

Page 20: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 20 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

2) Rangbildung

0 1 2 3 4 5 6 7 8 9

10 11

Ran

g Y

9 8

5

3.5

2 1

10

7 6

3.5

Control Patient 45

50

55

60

65

Y

62 61

54

50 49

46

63

58 57

50

Control Patient

Meßwerte Rangwerte

1. Alles in einen Topf

2. Sortieren: Nummern

nach Größe ="Ränge"

3. Wieder trennen

und erneut auftragen

Ergebnis: Die Form der Verteilung der Werte ändert sich in der Regel nur geringfügig und

verfälscht die inhaltliche Aussage kaum.

Page 21: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 21 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Entscheidungsverlauf bei Komplikationen

Geeignete Transformation

auffindbar?

Nicht-parametrisches

Verfahren

2-Stichproben t-Test durchführen

auf transformier-ter Ebene weiter wie oben

Nicht-parametrischen Test verwenden

Ergebnisse zurücktrans-

formieren

ja

nein

nein

nein

ja

ja

?

? ?

x( )xLog

1,2,3,...

Daten der gemeinsamen Stichprobe

normalverteilt?

Daten pro Gruppe

normalverteilt?

Fragestellung ist mit Konfidenzintervallen

beantwortbar

Page 22: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 22 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Die Nicht-parametrischen Pendants von statistischen Tests

Parametrisch Nicht-parametrisch

t-Test für unabhängige Stichproben (2-Stichproben t-Test)

Rangtest nach Mann & Whitney

t-Test für abhängige Stichproben (z. B. vorher-nachher Vergleich)

Rangtest nach Wilcoxon

ANOVA Kruskal-Wallis Test

ANOVA mit Messwiedholung Friedmann-Test (hier keine Folien dazu – s. Literatur)

Page 23: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 23 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Korrelation / Regression Gruppenvergleiche: t-Test & Co

Logistische Überlebenszeit- Regression Analyse

χ2-Test & Fishers exakter Test

Auswertungen im Überblick

X: Ursache

Y: W

irkun

g

10 15 20 25

vor-her

nach-her

BM

I

Kon

zent

ratio

n Y

1.60

1.70

1.80

1.90 2.00

A 0 B AB Blutgruppe

Vorher/nachher-Ver-gleiche (ladder plot):

Diagramme und Auswertungen unter Kombination zweier Skalen:

Streudiagramm

Phä

noty

p

0.00 0.25

0.50

0.75 1.00

A1 A2 B C. Genotyp

y1

y2

y3 y4 y5 Mosaikplot

Boxplots

Y: S

tetig

Y:

Nom

inal

0.00 0.25 0.50 0.75 1.00

0 10 20 30 Monate W

'kei

t (Ü

berle

ben)

W'k

eit (

Kra

nk)

0 0.25 0.50 0.75

1

50 60 70 80 Konzentration

Ja

Nein

Kaplan-Meier-

Verfahren

X: Stetig X: Nominal

Page 24: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 24 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

4-Felder Tafel – H0 - Unabhängigkeit Bringt die Desinfektion was für's Überleben?

Übe

rlebe

n

0.00

0.25

0.50

0.75

1.00

mit ohne Desinfektion

ja

nein

Übe

rlebe

n

0.00

0.25

0.50

0.75

1.00

mit ohne Desinfektion

ja

nein

17

7

38

18

Ja, schon. - oder könnte der mittlere Anteil von "mit" auch im KI von "ohne" liegen?

Es war einmal vor über 200 Jahren:

Im 18. Jh. war Joseph Lister der erste, der seinen Operationsraum mit Karbolineum desinfizierte.

844.0738

38=

+=p

95% KI für "ohne": p=17/(17+18)=0.486

( )

( )

[ ]65.032.035

486.01486.096.1486.0

1025.095.0

bis

NppzpCI

=

−⋅±=

−⋅±=

Standardfehler des Mittelwerts p: SE(p)

z0.025=1.96 ist das 2.5% Quantil der StandardNV

Anteil Überlebender "mit" Desinfektion:

Ergebnis: p=84.4% liegt nicht im KI von "ohne": signifikant besser. Aber Problem: der Stichprobenumfang ist nicht groß, die NV-Approximation funktioniert hier nur, weil p=0.486 nahe 0.5 liegt -> NV approximiert symmetrische Binomialverteilung recht gut.

Page 25: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 25 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Approximatives Konfidenzintervall für Anteile

N: Stichprobenumfang k: absoluter Anteil p: Anteil N

kp =

95% Konfidenzintervall: (z0.025=1.96 ist das 2.5%_Quantil der Standardnormalverteilung)

( )N

ppzpCI −⋅±=

1025.095.0

N 10 100 1000k 5 50 500p 0.5 0.5 0.5z(0.025) 1.96 1.96 1.96SE(p) 0.1581 0.0500 0.0158lower CL 0.1901 0.4020 0.4690upper CL 0.8099 0.5980 0.5310

Beispiel

Beachte: diese Normalverteilungs-

approximation sollte nur verwen-det werden, wenn

k ≥ 50 und n-k ≥ 50.

Standardfehler des Mittelwerts p: SE(p)

Page 26: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 26 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Exakte 95% Konfidenzgrenzen für Anteile

geschätztes p

95%

Kon

fiden

zint

erva

ll fü

r ges

chät

ztes

p

N

N

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

2

3

4

5

6

7 8 9 10

12 14 16 18 20

30 40 50 100 200 500 1000

2

3

4

5

6

7 8 9

10

12 14 16 18 20

30 40 50

100 200 500

1000

1. lokalisiere geschätzten Anteil p auf der x-Achse (Bsp.: p=0.2)

2. Suche Kurven für den vorliegenden Stichprobenumfang (Bsp.: n=50)

3. Konfidenzintervalle auf der y-Achse ablesen (im Bsp.: untere Grenze = 0.10, obere Grenze = 0.34)

Benutzung des Nomogramms:

Page 27: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 27 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Unabhängige Ereignisse Abhängige Ereignisse

JA NEIN Appendizitis

JA

NE

IN

Losl

asss

chm

erz

( )45.0

45

=∩

=LAP

n

( ) 05.0,5 =∩= LAPn

( )35.0

35

=∩

=

LAPn

( ) 15.015=∩

=

LAPn

( ) 6.0=AP ( ) 4.0=AP

( ) 5.0=LP

( ) 5.0=LP

JA NEIN Appendizitis

JA

NE

IN

Bril

lent

räge

r

( )( ) ( )20.0

20

=⋅=

=

BPAP

BAP

n

( )( ) ( )30.0

30

=⋅=

=

BPAP

BAP

n

( ) 6.0=AP ( ) 4.0=AP

( ) 5.0=BP

( ) 5.0=BP

( )( ) ( )30.0

30

=⋅=

∩=

BPAPBAP

n( )

( ) ( )20.0

20

=⋅=

=

BPAP

BAPn

Die Häufigkeit des gemeinsamen Auftretens ergibt sich einfach durch Multiplikation der Randhäufigkeiten (Multiplikationssatz der W'keitsrechnung)

Die Häufigkeit des gemeinsamen Auftretens ergibt sich nicht mehr durch einfache Multiplikation: ob ein Loslassschmerz auftritt, hängt davon ab, ob eine Appendizitis vorliegt oder nicht.

Wenn wir testen wollen, ob eine beobachtete Abhängigkeit signifikant ist, erklären wir den unab-hängigen Fall als H0, und quantifzieren, wie sehr die beobachtete Abhängigkeit davon abweicht.

Page 28: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 28 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Tests auf Häufigkeitsunterschiede

Skalentyp

1 Gruppe Vgl. m. Standardwert

2-Gruppen-Vergleich

nominal χ2-Test χ2-Test

dichotom Binomial-Test (Vorzeichentest)

Fishers exakter Test, Odds-Ratio-Test

ordinal t-Test für Ränge U-Test

metrisch 1-Stichproben-t-Test 2-Stichproben-t-Test

Page 29: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 29 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Übe

rlebe

n

0.00

0.25

0.50

0.75

1.00

mit ohne Desinfektion

ja

nein

Übe

rlebe

n

0.00

0.25

0.50

0.75

1.00

mit ohne Desinfektion

ja

nein

17

7

38

18

4-Felder Tafel – H0 - Unabhängigkeit Bringt die Desinfektion was für's Überleben?

Für Nullhypothese: Wie würde die 4-Felder Tafel aussehen, wenn die Desinfektion keinen Effekt hätte?

oder so? So, oder so,

H0: Der Anteil der Überlebenden ist unabhängig von Desinfektion.

Für Test: Wie können wir die Abweichungen von dieser Unabhängigkeit testen?

Ja, schon. - Oder könnte das auch rein zufällig so auftreten?

Es war einmal vor über 200 Jahren:

Im 18. Jh. war Joseph Lister der erste, der seinen Operationsraum mit Karbolineum desinfizierte.

Page 30: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 30 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Ant. erwartet ohne mitüberlebt 0.30 0.39 0.69

tot 0.14 0.18 0.310.44 0.56 1

χ2-Test: OP-Desinfektion-Überleben beobachtet ohne mit

überlebt 17 38 55tot 18 7 25

35 45 80

Anteile ohne mitüberlebt 0.21 0.48 0.69

tot 0.23 0.09 0.310.44 0.56 1

Beim χ2-Test werden alle Abwei-chungen der beobachteten Anzahl (B) von den unter H0 erwarteten (E) summiert = Prüfgröße = χ2

∑−

=E

)EB( 22χ

Abs. erwartet ohne mitüberlebt 24.1 30.9

tot 10.9 14.180

Chi^2 ohne mitüberlebt 2.07 1.61

tot 4.56 3.5511.79

Übe

rlebe

n

0.00

0.25

0.50

0.75

1.00

mit ohne Desinfektion

ja

nein

Übe

rlebe

n

0.00

0.25

0.50

0.75

1.00

mit ohne Desinfektion

ja

nein

17

7

38

18

Übe

rlebe

n

0.00

0.25

0.50

0.75

1.00

mit ohne

ja

nein

Übe

rlebe

n

0.00

0.25

0.50

0.75

1.00

mit ohne

ja

nein H0 24

14

31

11

multiplizieren

B Beo

bach

tet

E Erw

arte

t

Page 31: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 31 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

χ2-Verteilung(en) & Freiheitsgrade

0

0.2

0.4

0.6

0.8

1

0 5 10 15 20 25Chi^2

P

1248

FGWelche χ2–Verteilung man nehmen muss, bestimmt

die Zahl der Freiheits-grade, die sich aus den Zeilen und Spalten der

Kontingenztabelle ergibt:

Der χ2–Wert von 11.79 entspricht bei 1 FG einem p-Wert nahe 0 (p=0.0006).

Daher wird die Nullhypothese (Merkmale sind unabhängig) verworfen.

Wir gehen davon aus, dass Listers Desinfektionseffekt nicht zufällig ist.

FG=(Zeilen-1)(Spalten-1)

= χ2

Chi^2 mit ohneüberlebt 2.07 1.61

tot 4.56 3.5511.79

Page 32: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 32 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Erweiterungen des Chi2-Tests 2χ

... können nicht für einseitige Fragestellungen verwendet werden

Anpassungstest: Liegt eine bestimmte theoretische Verteilung vor?

Homogenitätstest: Sind die beobachteten (empirischen) Verteilungen gleich?

Ist

Ist

=

Gruppe 1 Gruppe 2

=

Beobachtet Binomialverteilt

?

?

Page 33: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 33 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Statistische Tests

Skalentyp

1 Gruppe Vgl. m. Standardwert

2-Gruppen-Vergleich

nominal χ2-Test χ2-Test

dichotom Binomial-Test (Vorzeichentest)

Fishers exakter Test, Odds-Ratio-Test

ordinal t-Test für Ränge U-Test

metrisch 1-Stichproben-t-Test 2-Stichproben-t-Test

Page 34: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 34 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Exakter Test nach Fisher: Prinzip (1-seitiger Test)

Der Exakte Fisher-Test ist ein Test auf Unabhängigkeit in der Kontingenztafel, welcher –im Ggs. zum χ2-Quadrat-Test- auch mit wenig Beobachtungen funktioniert. Nullhypothese: Zeilen und Spalten sind unabhängig voneinander besetzt.

Testprinzip: unter allen Kontingenztafeln mit den gleichen Randsummen (wie den beobachteten) wird der Anteil (die W'keit) derjenigen Kontingenztafeln bestimmt, die eine noch extremere Ausprägung als die beobachtete haben.

Beispiel: seltene Erkrankung (j/n) und Raucherstatus (R/NR).

Frage: wie wahrscheinlich ist es, ein 4:1-Verhältnis bei Rauchern und ein 1:4-Verhältnis bei Nichtrauchern zu finden?

R / NR

krank j/n

4 1 5

1 4 5

5 5 10

R / NR

krank j/n

5 0 5

0 5 5

5 5 10

R / NR

krank j/n

4 1 5

1 4 5

5 5 10

R / NR

krank j/n

3 2 5

2 3 5

5 5 10

R / NR

krank j/n

2 3 5

3 2 5

5 5 10

R / NR

krank j/n

1 4 5

4 1 5

5 5 10

R / NR

krank j/n

0 5 5

5 0 5

5 5 10

(1890-1962)

Entscheidung: die Summe der Wahrscheinlichkeiten für das Auftreten dieser beobach-teten und der noch extremeren Ausprägungen der 4-Felder-Tafel ergibt den p-Wert.

Page 35: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 35 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Exakter Test nach Fisher: Berechnung (1-seitiger Test)

Die Wahrscheinlichkeit für eine spezielle Kombination in der Kontin-genztafel leitet sich aus der Hypergeometrischen Verteilung ab:

NR / R

krank j/n a b a+b

c d c+d

a+c b+d n

( ) ( ) ( ) ( )!!!!!

!!!!dcban

dbcadcbaP ++++=

Testprinzip: unter allen Kontingenztafeln mit den gleichen Randsummen (wie den beobachteten) wird der Anteil (die W'keit) derjenigen Kontingenztafeln bestimmt, die eine noch extremere Ausprägung als die beobachtete haben.

0.0040 0.0992 0.3968 0.3968 0.0992 0.0040P=

R / NR

krank j/n

5 0 5

0 5 5

5 5 10

R / NR

krank j/n

4 1 5

1 4 5

5 5 10

R / NR

krank j/n

3 2 5

2 3 5

5 5 10

R / NR

krank j/n

2 3 5

3 2 5

5 5 10

R / NR

krank j/n

1 4 5

4 1 5

5 5 10

R / NR

krank j/n

5 0 5

0 5 5

5 5 10

P=10.32%, dass 4:1:1:4 (oder eine noch extremere Konstellation) auftritt

Page 36: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 36 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Exakter Test nach Fisher: 1-seitig / 2-seitig Problem bisher: wir haben stillschweigend angenommen, dass Rauchen die Wahrscheinlichkeit der Erkrankung erhöht. Wenn wir aber kein Vorwissen hierzu haben, könnte es auch genau umgekehrt sein (Bsp.: Rauchen als Parkinson-Prophylaxe? Dann müssen wir auch die "rechts-seitigen" Extreme berücksichtigen.)

0.0040 0.0992 0.3968 0.3968 0.0992 0.0040P=

R / NR

krank j/n

5 0 5

0 5 5

5 5 10

R / NR

krank j/n

4 1 5

1 4 5

5 5 10

R / NR

krank j/n

3 2 5

2 3 5

5 5 10

R / NR

krank j/n

2 3 5

3 2 5

5 5 10

R / NR

krank j/n

1 4 5

4 1 5

5 5 10

R / NR

krank j/n

5 0 5

0 5 5

5 5 10

P=10.32%, dass 4:1:1:4 (oder eine einseitig noch extremere Konstellation) auftritt

2-seitiger Test:

P=20.64%, dass 4:1:1:4, oder eine zweiseitig noch extremere Konstellation) auftritt

Die 4-Felder-Tafel und zugehörige W'keiten müssen nicht symmetrisch

sein (wurde hier nur aus didaktischen Gründen gewählt)

Beachte: selbst in wissenschaftlichen Publikationen ist oft nicht ersichtlich, ob 1-

oder 2-seitig getestet wurde. Die Er-gebnisse sind dann nicht interpretierbar!

Page 37: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 37 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

zurück zum Beispiel OP-Desinfektion-Überleben

Bringt die Desinfektion was für's Überleben?

Für Nullhypothese: Wie groß ist die W'keit, dass diese oder eine noch extremere 4-Felder Tafel auftritt? (unter der Annahme, dass die Randhäufigkeiten gleich bleiben)

Übe

rlebe

n

0.00

0.25

0.50

0.75

1.00

mit ohne Desinfektion

ja

nein

Übe

rlebe

n

0.00

0.25

0.50

0.75

1.00

mit ohne Desinfektion

ja

nein

17

7

38

18

Ja, schon. - Oder könnte das auch rein zufällig so auftreten?

ohne/mit

überl./tot

17 38 55

18 7 25

35 45 80

ohne/mit

überl./tot

16 39 55

19 6 25

35 45 80

ohne/mit

überl./tot

15 40 55

20 5 25

35 45 80

ohne/mit

überl./tot

14 41 55

21 4 25

35 45 80

ohne/mit überl./tot

13 42 55

22 3 25

35 45 80

ohne/mit

überl./tot

12 43 55

23 2 25

35 45 80

ohne/mit

überl./tot

11 44 55

24 1 25

35 45 80

ohne/mit

überl./tot

10 45 55

25 0 25

35 45 80

Also 7 noch extremere. Wie wahrscheinlich treten die auf? ..... ( ) ( ) ( ) ( )

!!!!!!!!!

dcbandbcadcbap ++++

=

p 5.67E-04 9.10E-05 1.09E-05 9.51E-07 5.76E-08 2.27E-09 5.17E-11 5.05E-13

∑ == 0007.0p , dass diese oder eine noch extremere 4-Felder Tafel auftritt, d. h. wir verwerfen H0 und bezeichnen den Desinfektionseffekt als signifikant da p<α

Page 38: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 38 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Vergleich: besser χ2 oder Fisher?

χ2-Test Fisher's exakter Test

p-Wert (im Beispiel) 0.0006 0.0007 Präzision approximativ exakt Stichprobengröße nur anwendbar

wenn alle Erwartungswerte >5 sind

geht immer (kann bei großem N den PC aber ziemlich lange beschäftigen)

1-/2-seitig ist immer 2-seitig kann 1- oder 2-seitig interpretiert werden

Erweiterbar (m x n) Gesamt

+ +

+

+ + + + +

+ +

Page 39: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 39 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Korrelation / Regression Gruppenvergleiche: t-Test & Co

Logistische Überlebenszeit- Regression Analyse

χ2-Test & Fishers exakter Test

Auswertungen im Überblick

X: Ursache

Y: W

irkun

g

10 15 20 25

vor-her

nach-her

BM

I

Kon

zent

ratio

n Y

1.60

1.70

1.80

1.90 2.00

A 0 B AB Blutgruppe

Vorher/nachher-Ver-gleiche (ladder plot):

Diagramme und Auswertungen unter Kombination zweier Skalen:

Streudiagramm

Phä

noty

p

0.00 0.25

0.50

0.75 1.00

A1 A2 B C. Genotyp

y1

y2

y3 y4 y5 Mosaikplot

Boxplots

Y: S

tetig

Y:

Nom

inal

0.00 0.25 0.50 0.75 1.00

0 10 20 30 Monate W

'kei

t (Ü

berle

ben)

W'k

eit (

Kra

nk)

0 0.25 0.50 0.75

1

50 60 70 80 Konzentration

Ja

Nein

Kaplan-Meier-

Verfahren

X: Stetig X: Nominal

Page 40: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 40 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Logistische Regression: Challenger-Unglück 28. Jan. 1986

On January 28, 1986 the space shuttle Challenger had a catastrophic failure due to burnthrough of an O-ring seal at a joint in one of the solid-fuel rocket boosters. This was the 25th shuttle flight. Of the 24 previous shuttle flights, 7 had incidents of damage to joints, 16 had no incidents of damage, and 1 was unknown. (The data comes from recovered solid rocket boosters— the one that was unknown was not recovered.)

Tabelle: Shuttle Flüge vor 1986: Temperatur und Dichtungsschäden

Stehen Dichtungsschäden

und Außentemperatur in Zusammenhang?

Flight Temp (°F)

Joint damage

Y/N STS-1 66 NO STS-2 70 YES STS-3 69 NO STS-4 80 STS-5 68 NO STS-6 67 NO STS-7 72 NO STS-8 73 NO STS-9 70 NO STS 41-B 57 YES STS 41-C 63 YES STS 41-D 70 YES STS 41-G 78 NO STS 51-A 67 NO STS 51-C 53 YES STS 51-D 67 NO STS 51-B 75 NO STS 51-G 70 NO STS 51-F 81 NO STS 51-I 76 NO STS 51-J 79 NO STS 61-A 75 YES STS 61-B 76 NO STS 61-C 58 YES

Page 41: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 41 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Flight Temp (°F)

Joint damage

Y/N STS-1 66 NO STS-2 70 YES STS-3 69 NO STS-4 80 STS-5 68 NO STS-6 67 NO STS-7 72 NO STS-8 73 NO STS-9 70 NO STS 41-B 57 YES STS 41-C 63 YES STS 41-D 70 YES STS 41-G 78 NO STS 51-A 67 NO STS 51-C 53 YES STS 51-D 67 NO STS 51-B 75 NO STS 51-G 70 NO STS 51-F 81 NO STS 51-I 76 NO STS 51-J 79 NO STS 61-A 75 YES STS 61-B 76 NO STS 61-C 58 YES

Logistische Regression: Challenger-Unglück Hängt die W'keit eines Dichtungsschadens von der Temperatur ab?

-0.2

0

0.2

0.4

0.6

0.8

1

1.2

Join

t dam

age

1/0

45 50 55 60 65 70 75 80 85 Temp (°F)

Join

t dam

age

Y/N

0.00

0.25

0.50

0.75

1.00

50-65 65-70 70-75 75-80 80- Temp class

YES

NO

X: stetig, Y: stetig

-0.2

0

0.2

0.4

0.6

0.8

1

1.2

Join

t dam

age

1/0

50-65 65-70 70-75 75-80 80- Temp class

X: nominal, Y: stetig

X: nominal, Y: nominal

Join

t dam

age

Y/N

0.00

0.25

0.50

0.75

1.00

50 55 60 65 70 75 80 85

Temp (°F)

YES

NO

X: stetig, Y: W'keit

Wie bei einer linearen

Regression

soll die dicho-tome Variable

(Beschädigung Ja/Nein)

als W'keit (stetig)

und abhängig von der Tem-peratur

(stetig)

beschrieben werden

Page 42: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 42 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Logistische Regression: Logit-Transformation

Interval (51,55) (56,60) (61,65) (66,70) (71,75) (76,80) (81,85)Temp 53 58 63 68 73 78 83p 0.99 0.99 0.99 0.2 0.25 0.01 0.01Logit 4.595 4.595 4.595 -1.386 -1.099 -4.595 -4.595

Challenger-Daten gruppiert in Schritten von 5°F: Anteil Beschädigungen

=p

p1

ln

Tempp

p 37.04.251

ln −=

− Temp

Temp

eeP 37.04.25

37.04.25

1 −

+=

1) Wir können die Logit-transformierten Daten durch eine lineare Regression anpassen:

2) Durch Rücktransformation erhalten wir dann die logistische Kurve:

Page 43: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 43 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Logistische Regression: Beispiel JMP-output

Datenpunkte werden in Y-Richtung zufällig verzittert

(die X-Koordinate ist korrekt)

logistische Kurve: "W'keit, mit der eine Beschädigung bei dieser Temperatur zu erwarten ist"

Test auf Nullhypothese "W'keit einer Beschädigung hängt nicht von der

Temperatur ab"

* die "Estimates" weichen von der vorigen Folie ab, weil das Modell dort an die gruppierten Daten angepasst wurde

*

Tempp

p 232.004.151

ln −=

*

Achsenabschnitt signifikant Steigung signifikant

"Parameter Estimates" für

Page 44: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 44 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Korrelation / Regression Gruppenvergleiche: t-Test & Co

Logistische Überlebenszeit- Regression Analyse

χ2-Test & Fishers exakter Test

Auswertungen im Überblick

X: Ursache

Y: W

irkun

g

10 15 20 25

vor-her

nach-her

BM

I

Kon

zent

ratio

n Y

1.60

1.70

1.80

1.90 2.00

A 0 B AB Blutgruppe

Vorher/nachher-Ver-gleiche (ladder plot):

Diagramme und Auswertungen unter Kombination zweier Skalen:

Streudiagramm

Phä

noty

p

0.00 0.25

0.50

0.75 1.00

A1 A2 B C. Genotyp

y1

y2

y3 y4 y5 Mosaikplot

Boxplots

Y: S

tetig

Y:

Nom

inal

0.00 0.25 0.50 0.75 1.00

0 10 20 30 Monate W

'kei

t (Ü

berle

ben)

W'k

eit (

Kra

nk)

0 0.25 0.50 0.75

1

50 60 70 80 Konzentration

Ja

Nein

Kaplan-Meier-

Verfahren

X: Stetig X: Nominal

Page 45: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 45 http://homepages.uni-tuebingen.de/hp.duerr/ Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/

Überlebenszeit- oder Verweildaueranalyse

Monat 0 Monat 1 Monat 2

Studienbeginn

Rekrutierungsende

Studienende

Tier 5 4 3 2 1

Eintritt in die Studie

Zielereignis

0.0 0

0.2

0.4

0.6

0.8

1.0

P(S

urvi

ve)

10 20 30 40 50 Survival [Tage]

0 10 20 30 40 50

Tier 5 4 3 2 1

0 10 20 30 40 50 60

Beobachtungsdauer [Tage]

Kohortenstudie

Auswertung

Page 46: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 46 http://homepages.uni-tuebingen.de/hp.duerr/ Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/

Überlebenszeit- oder Verweildaueranalyse berücksichtigt auch "zensierte" Beobachtungen: - Patienten, die an anderen Ursachen versterben - Patienten, die nur eine Zeit lang beobachtet wurden und solche Patienten, die bis zum Beobachtungsende überleben.

(1) Nr. i

(2) Tage

ti

(3) unter Risiko

ni

(4) Ereignisse

di

(5) Anteil

Überlebender qi=(ni-di)/ni

(6) kumulative

Überlebens-rate

q1*q2*...*qi

0 0 5 5/5 =1 1 1 10 5 1 4/5 =0.8 0.8 2 20 4 1 3/4 =0.75 0.6 3 30+ 3 0 (zens.) 3/3 =1 0.6 4 40 2 1 1/2 =0.5 0.3 5 50+ 1 0 (zens.) 1/1 =1 0.3

Rechenschema exemplarisch:

An den mit (+) gekennzeichneten Zeitpunkten endet die Beobachtungszeit, ohne dass das betrachtete Ereignis (hier Tod) eingetreten ist. Solche am Stichtag der Auswertung noch anhaltenden Überlebenszeiten nennt man zensiert 0.0

0.2

0.4

0.6

0.8

1.0

P(S

urvi

ve)

0 10 20 30 40 50 Survival [Tage]

bedeutet: 0.8 ∙ 0.75 = 0.6

Page 47: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 47 http://homepages.uni-tuebingen.de/hp.duerr/ Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/

Kaplan-Meier: Rechenschema Beispiel (1) Nr. i

(2) Tage

ti

(3) unter Risiko

ni

(4) Ereignisse

di

(5) Anteil

Überlebender qi=(ni-di)/ni

(6) kumulative

Überlebens-rate

q1*q2*...*qi

0 0 20 0 20/20 =1 1.0000 1 30 20 1 19/20 =0.9500 0.9500 2 40 19 1 18/19 =0.9474 0.9000 3 43+ 18 0 18/18 =1 0.9000 4 50 17 1 16/17 =0.9412 0.8471 5 65+ 16 0 16/16 =1 0.8471 6 70 15 2 13/15 =0.8667 0.7341 7 85 13 1 12/13 =0.9231 0.6776 8 90 12 1 11/12 =0.9167 0.6212 9 120 11 1 10/11 =0.9091 0.5647

10 125+ 10 0 10/10 =1 0.5647 11 135+ 9 0 9/9 =1 0.5647 12 140+ 8 0 8/8 =1 0.5647 13 150 7 1 6/7 =0.8571 0.4840 14 160 6 1 5/6 =0.8333 0.4034 15 175+ 5 0 5/5 =1 0.4034 16 220+ 4 0 4/4 =1 0.4034 17 225+ 3 0 3/3 =1 0.4034 18 235+ 2 0 2/2 =1 0.4034 19 250+ 1 0 1/1 =1 0.4034

Tabelle Rechenschema zum Kaplan-Meier-Schätzer: 20 Überlebenszeiten aus einem Tierversuch in Tagen. Die Zeiten sind bereits aufsteigend sortiert..

Übe

rlebe

nsw

ahrs

chei

nlic

hkei

t

An den mit (+) gekennzeichneten Zeitpunkten endet die Beobachtungszeit, ohne dass das betrachtete Ereignis (hier Tod des Versuchstiers) eingetreten ist. Solche am Stichtag der Auswertung noch anhaltenden Überlebenszeiten nennt man zensiert

Die Kaplan-Meier-Kurve geht nicht in die Null, wenn es nach dem letzten Ereignis noch Zensierungen gibt.

Überlebenszeiten in Tagen

Anders gesagt: Eine Kaplan-Meier-Kurve geht nur dann in die Null, wenn die letzte Beobachtung unzensiert ist.

Page 48: Welche statistische Auswertung - homepages.uni … · Kaplan-Meier- Verfahren . X: ... -400 -200 . 0 . 100 . 200 300 . Daten: Regression: Residuen: Sind Residuen normalverteilt? •

Folie 48 Institut für Medizinische Biometrie, www.uni-tuebingen.de/biometry/ http://homepages.uni-tuebingen.de/hp.duerr/

Statistische Beratung?

Institut für Medizinische Biometrie

Silcherstr. 5, 72076 Tuebingen

http://www.uni-tuebingen.de/biometry/

Sekretariat: 07071 / 29-78253