23
Einführung in die Statistik zur Tier- versuchsplanung und -auswertung Prof. Peter Pilz Fachbereich Biologie So viele Tiere wie nötig, so wenig Tiere wie möglich

Einführung in die Statistik zur Tier- versuchsplanung und ... · Einführung in die Statistik zur Tier-versuchsplanung und -auswertung Prof. Peter Pilz Fachbereich Biologie. So viele

Embed Size (px)

Citation preview

Page 1: Einführung in die Statistik zur Tier- versuchsplanung und ... · Einführung in die Statistik zur Tier-versuchsplanung und -auswertung Prof. Peter Pilz Fachbereich Biologie. So viele

Einführung in die Statistik zur Tier-versuchsplanung und -auswertung

Prof. Peter PilzFachbereich Biologie

So viele Tiere wie nötig,so wenig Tiere wie möglich

Vorführender
Präsentationsnotizen
Wissenschaften vermessen die Welt viele Daten. Statistik = Kunst, aus vielen Daten belastbare Aussagen herauszubekommen. Wichtiges Werkzeug der Wissenschaft. So viele Tiere…
Page 2: Einführung in die Statistik zur Tier- versuchsplanung und ... · Einführung in die Statistik zur Tier-versuchsplanung und -auswertung Prof. Peter Pilz Fachbereich Biologie. So viele

Statistik• Schließende Statistik Statistische Tests: H0 H1

• Z.B.: „wirkt mein Medikament“?

• Poweranalyse Effektstärke Fallzahlen Biometrisches Gutachten

Page 3: Einführung in die Statistik zur Tier- versuchsplanung und ... · Einführung in die Statistik zur Tier-versuchsplanung und -auswertung Prof. Peter Pilz Fachbereich Biologie. So viele

Statistischer Test: Hypothesen

• Bsp.: 2 Gruppen, Kontrolle & Behandlung• Frage: Behandlung Unterschied?• Hypothesen

Null-Hypothese H0: kein Unterschied Alternativ-Hypothese H1: Unterschied

• H0 annehmen, wenn Irrtumswahrscheinlichkeit für H1>0.05H1 annehmen, wenn Irrtumswahrscheinlichkeit p≤0.05

100

115

130

145

160

Blut

druc

k (m

m H

g)

Vorführender
Präsentationsnotizen
Es gibt immer MW-Unterschied Es gibt immer Schwankungen der Daten
Page 4: Einführung in die Statistik zur Tier- versuchsplanung und ... · Einführung in die Statistik zur Tier-versuchsplanung und -auswertung Prof. Peter Pilz Fachbereich Biologie. So viele

t = �𝑎𝑎 −�𝑏𝑏𝑆𝑆𝑆𝑆𝑎𝑎𝑏𝑏𝑆𝑆𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝

× 𝑁𝑁

Statistischer Test: Prinzip

H1/ Effekt wenn:+ Effekt hoch- Variation niedrig+ Stichprobe hoch Testprinzip: je höher

t (F, r, Chi², U…), desto kleiner p

Bsp. (t*(10)=2.2): t(10) = 2.3 p< 0.05 H1t(10) = 1.9 p> 0.05 H0

Vorführender
Präsentationsnotizen
N = (na * nb) / (na + nb) Bei 10 Freiheitsgraden (na=6, nb=6) wie im Beispiel t(10), ist das kritische t*(10)=2.2; also sind t-Werte über 2.2 signifikant, t-Werte darunter nicht signifikant.
Page 5: Einführung in die Statistik zur Tier- versuchsplanung und ... · Einführung in die Statistik zur Tier-versuchsplanung und -auswertung Prof. Peter Pilz Fachbereich Biologie. So viele

Fehler 1. Art oder alpha-Fehler

• p = α-Fehler = Irrtumswahrscheinlichkeit in 5% der signifikanten Funde irre ich mich!

• p klein, üblich ist 5% „möglichst keine falsche Behauptung“

Page 6: Einführung in die Statistik zur Tier- versuchsplanung und ... · Einführung in die Statistik zur Tier-versuchsplanung und -auswertung Prof. Peter Pilz Fachbereich Biologie. So viele

Fehler 1. Art oder alpha-Fehler

• p = α-Fehler = Irrtumswahrscheinlichkeit in 5% der signifikanten Funde irre ich mich!

• Viele Tests: alpha-Fehler addieren sich z.B. 7 Gruppen, 21 statistische Vergleiche 1 signifikantes Ergebnis erwartetbei 5% Irrtumswahrscheinlichkeit

• damit alpha gesamt <5% Bonferroni-Korrektur α‘ = α/21 im Bsp. α‘= 0.05 /21= 0.0024

nur wenn p<0.0024 signifikant

a

b

c

de

f

g

p=0.012

Vorführender
Präsentationsnotizen
Bonferroni-Korrektur: Grundgedanke: p wird mit Anzahl der Vergleiche bzw. statistischer Tests multipliziert. Wenn p‘ dadurch >0.05, geht man von nicht-Signifikanz aus. Mathematisch ist exakter, statt p zu multiplizieren, den alpha-Grenzwert zu dividieren.
Page 7: Einführung in die Statistik zur Tier- versuchsplanung und ... · Einführung in die Statistik zur Tier-versuchsplanung und -auswertung Prof. Peter Pilz Fachbereich Biologie. So viele

• Schließende Statistik Statistische Testgröße (Beispiel t) steigt mit:

• Mittelwerts-Unterschied• 1/Variation• Stichprobenumfang

(Richtiger Test mehr Power) Ggf.: Bonferroni-Korrektur p*=5% Irrtum in 5% der Fälle = alpha-Fehler

Statistik

Page 8: Einführung in die Statistik zur Tier- versuchsplanung und ... · Einführung in die Statistik zur Tier-versuchsplanung und -auswertung Prof. Peter Pilz Fachbereich Biologie. So viele

alpha & beta-Fehler

• Alpha-Fehler (α=p): 5% Irrtumswahrscheinlichkeit = 5% Wahrscheinlichkeit dass man sich irrt (Zufall)

• β-Fehler: Wahrscheinlichkeit, Effekt nicht zu finden

H1 = Alternativhypothese: es gibt Effekt bzw. MW sind verschieden

v?

Alpha: Gesellschaft trägt Risiko. Wirkungslos = gefährlich alpha klein wählen

Beta: Versuchsträger Risiko. (Tabletten)wirkung nicht entdeckt

= schade, Einkommensverlust beta kann etwas größer sein

Pharmakonwirkt wirkt nicht Statistischer

Test(H1 stimmt) (H1 falsch)

o.k. Typ 1 Fehler H1 akzeptiertα (p) (wirkt)

Typ 2 Fehler o.k. H0 akzeptiertβ (wirkt nicht)

Page 9: Einführung in die Statistik zur Tier- versuchsplanung und ... · Einführung in die Statistik zur Tier-versuchsplanung und -auswertung Prof. Peter Pilz Fachbereich Biologie. So viele

Power

Statistische Power = Wahrscheinlichkeit (vorhandenen) Effekt zu finden= Wahrscheinlichkeit, falsche H0 zurückzuweisen

= 1 - βBeispiel: Blutdrucksenker wirkt (vgl. zu Placebo)z.B.: β = 0.2 Power = 1- β = 0.8=> In 80% der Fälle statistische Signifikanz=> In ß=20% keine Signifikanz (trotz Wirksamkeit)

Vorführender
Präsentationsnotizen
Definition von Power: Power is the probability of detecting an effect, given that the effect is really there.  In other words, it is the probability of rejecting the null hypothesis when it is in fact false.  For example, let's say that we have a simple study with drug A and a placebo group, and that the drug truly is effective; the power is the probability of finding a difference between the two groups.  So, imagine that we had a power of .8 and that this simple study was conducted many times.  Having power of .8 means that 80% of the time, we would get a statistically significant difference between the drug A and placebo groups.  This also means that 20% of the times that we run this experiment, we will not obtain a statistically significant effect between the two groups, even though there really is an effect in reality.
Page 10: Einführung in die Statistik zur Tier- versuchsplanung und ... · Einführung in die Statistik zur Tier-versuchsplanung und -auswertung Prof. Peter Pilz Fachbereich Biologie. So viele

Vier statistische Größen

• Wenn 3 Größen bekannt, 4. berechenbar: α (i.A. p=0.05) N (z.B. N=10+10=20) β-Fehler bzw. Power = 1-ß Effektstärke (z.B. „d“) d = �𝑎𝑎 −�𝑏𝑏

𝑆𝑆𝑆𝑆𝑎𝑎𝑏𝑏𝑆𝑆𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝

Effektstärke

Beispiel BlutdruckPlacebo = 150 mmHgMedikament = 135 mmHgSD = 30 mmHg

Effektstärke (SD)= 150 −13530

= 0.5

Vorführender
Präsentationsnotizen
Mit Gpower berechnete Power für dieses Beispiel: 1 – ß = 0.185 s.a. Folie unten
Page 11: Einführung in die Statistik zur Tier- versuchsplanung und ... · Einführung in die Statistik zur Tier-versuchsplanung und -auswertung Prof. Peter Pilz Fachbereich Biologie. So viele

β und Power

ß = H1 nicht gefunden. d=0.5 (r=0.24), α=0.05

105

120

135

150

165

180

Placebo Medikament

Blut

druc

k (m

m H

g)

Fehler: Stabw.

d=0.5

d=0.5 (r=0.24), ß=0.2

*** ** * ns

Häuf

igke

it

Signifikanz

20%

50%

20%

10%5% 1%

0%

10%

20%

30%

40%

50%

60%

0 100 200 300

ß -F

ehle

r

Stichprobenumfang n

Vorführender
Präsentationsnotizen
Die Kosten, um die Power zu erhöhen, werden „oben“ immer höher, d.h. die Kurve wird flacher, wenig Powererhöhung benötigt immer mehr n-Erhöhung
Page 12: Einführung in die Statistik zur Tier- versuchsplanung und ... · Einführung in die Statistik zur Tier-versuchsplanung und -auswertung Prof. Peter Pilz Fachbereich Biologie. So viele

Underpowered

• Neurobiologie: durchschnittliche Power war1

0.21 = viel zu niedrig nur in 21% finde ich den Effekt,

in 79% finde ich den Effekt nicht!• Grund: i.A. Tierzahl zu niedrig• Beispiel: Geschlecht im Watermaze d=0.49 Notwendige Tiere bei Power von 0.8: 134 Im Mittel eingesetzte Tiere: 22

1: Butten et al. 2013, Nat Neurosc Rev.

flickr.com

Vorführender
Präsentationsnotizen
Power 0.95: 220
Page 13: Einführung in die Statistik zur Tier- versuchsplanung und ... · Einführung in die Statistik zur Tier-versuchsplanung und -auswertung Prof. Peter Pilz Fachbereich Biologie. So viele

β-Fehler

Post-hoc, also nach dem Experiment:Gegeben: d und n sowie alphaBerechenbar: Power = 0.19 (ß=0.81)

Post hoc: Compute achieved power – given α, sample size and effect size

Effect size d 0.5α err prob 0.05Sample size group 1 10Sample size group 2 10

Power (1-ß err prob) 0.1851

t-tests Means: Difference between two independent means

Page 14: Einführung in die Statistik zur Tier- versuchsplanung und ... · Einführung in die Statistik zur Tier-versuchsplanung und -auswertung Prof. Peter Pilz Fachbereich Biologie. So viele

• 2 Fehlermöglichkeiten, α + β• Effektgröße: bei ttest

d= ΔMittelwerte / Standardabweichung• 4 Werte α, β, d und n: Wenn drei davon bekannt, ist der vierte berechenbar α (bzw. p) i.A. auf 0.05 festsetzen Nach Experiment ist Effektgröße d bekannt Nach Experiment ist n bekannt

• Power = 1- β: Wahrscheinlichkeit, Effekt zu finden

Zwischenstand Poweranalyse

Page 15: Einführung in die Statistik zur Tier- versuchsplanung und ... · Einführung in die Statistik zur Tier-versuchsplanung und -auswertung Prof. Peter Pilz Fachbereich Biologie. So viele

Vier Rechengrößen

• Wenn drei davon gegeben α = 0.05 ß = 0.2 d z.B. aus Vorversuchen

• dann ist N bestimmbar Biometrisches Gutachten: α, ß, d N

!??

Page 16: Einführung in die Statistik zur Tier- versuchsplanung und ... · Einführung in die Statistik zur Tier-versuchsplanung und -auswertung Prof. Peter Pilz Fachbereich Biologie. So viele

Beispiel

Effektgröße N gesamtEffekt d 1-ß=0.80 1-ß=0.90 1-ß=0.95klein 0.2 779 1054 1289mittel 0.5 131 172 215groß 0.8 52 68 84Tierversuch 1.0 34 46 54

Keine kleinen Effekte in einzelnen Tierversuchen suchen„Standard“ mittlere Effekte ist i.A. immer noch zu geringGrößere Effekte als d=1.0 sind erlaubt und erwünscht1-ß = 0.95 ist i.A. zu hoch

Vorführender
Präsentationsnotizen
Cohen und v.a. Field empfehlen auch r zur Bestimmung der Effektgröße Dann ändern sich die Größeneinschätzungen, da etwas anders berechnet: Kleiner Effekt: r = 0.1, d=0.2 bleibt gleich. Mittlerer Effekt ändert sich: d=0.5 entspricht r=0.24, an anderer Stelle empfiehlt Cohen aber r=0.3 zu setzen für mittleren Effekt, also eine höhere Effektstärke. Dies würde ich für Tierversuche adaptieren, es entspricht einem d=0.63 Ähnlich großer Effekt: d von 0.8 entspricht einem r von 0.37, Cohen empfiehlt aber an anderer Stelle ein r von 0.5 für große Effekte, entspricht d=1.15. Man kann also für Tierversuche Effektgrößen von mindestens 1.0 fordern, (oder auch 1.15), wenn sonst keine Erfahrungen aus z.B. Vorversuchen vorliegen. r=d / wurzel[d²+(n1+n2)²/(n1*n2)] Für n1=n2: r=d / wurzel(d²+4) d=2r / wurzel(1-r²) Einseitiger Test für d=1, Power=0.8: N=28 (statt 34 bei zweiseitig)
Page 17: Einführung in die Statistik zur Tier- versuchsplanung und ... · Einführung in die Statistik zur Tier-versuchsplanung und -auswertung Prof. Peter Pilz Fachbereich Biologie. So viele

Power = 0.8?

Wahl Power ist arbiträr, zwischen 80 und 95%80% Power heißt1. Wahrscheinlichkeit für "signifikantes Ergebnis" 80%2. 20% KEIN "signifikantes Ergebnis". Risiko-Kosten-Abwägung: • was kostet Experiment (Zeit, Geld und Leid der Tiere)? • wie wichtig ist es, Effekt zu finden? • Was passiert, wenn Effekt mit Risiko =20% verpasstBeispiel:• Power = 0.8 n = 28• Power = 0.9 n = 36, also 30% mehr Tiere• Risiko halbiert, Signifikanz zu verpassen, also -50%

Power = 0.8, nur begründet ev. 0.9

Vorführender
Präsentationsnotizen
Choice of a power level is … arbitrary and … ranges from 80 to 95%. Guidelines for the Design and Statistical Analysis of Experiments Using Laboratory Animals (2002) Michael F. W. Festing and Douglas G. Altman ILAR Journal (Institute for Laboratory Animal Research) Und weitere dutzende Publikationen Die Argumentation, Power auf 0.9 zu erhöhen, stammt von Prof. Martin Eichner (2014) Das Beispiel dazu wurde gerechnet mit d=1.0, 2 Gruppen, einseitiger Test
Page 18: Einführung in die Statistik zur Tier- versuchsplanung und ... · Einführung in die Statistik zur Tier-versuchsplanung und -auswertung Prof. Peter Pilz Fachbereich Biologie. So viele

Beispiel Biometrische Planung

• ttest: N=34, U-Test: N=36

A priori: Compute required sample size – given α, power and effect size

Effect size d 1α err prob 0.05Power (1-ß err prob) 0.80

Total sample size 34

t-tests Means: Difference between two independent means

Page 19: Einführung in die Statistik zur Tier- versuchsplanung und ... · Einführung in die Statistik zur Tier-versuchsplanung und -auswertung Prof. Peter Pilz Fachbereich Biologie. So viele

Biometrische Planung

• Statistische Hypothesen H0 und H1• Welcher Test? (vor Experiment) ein- oder zweiseitig? parametrisch (MW) oder nicht-parametrisch (Median) wie viele Gruppen (Dosierungen)

• Versuchsdesign wichtige Neben-Variablen, Messwiederholungen Blockdesign, Abfolge, Randomisieren, …

• N-Zahl (Poweranalyse) Avisierte Effektstärke

• d≥1 bei Tierversuchen, höher = besser 1-ß=0.8 bei Tierversuchen Standard.

Vorführender
Präsentationsnotizen
Ein Vorteil der geforderten Poweranalyse ist, dass man jetzt schon vor dem Versuch sich mit der statistischen Analyse auseinandersetzen muss. Das war schon immer ein gutes Konzept. Diese Kenntnis (ev. unterstützt durch ein Gespräch mit einem Statistiker) verbessert womöglich die Versuchsplanung, auf jeden Fall die statistische Planung. Versuchsplanung = Früher: Was messe ich, welche Kontrolle, … Jetzt: dito plus n, statistischer Test, erwartetes Ergebnis in konkreten Zahlen
Page 20: Einführung in die Statistik zur Tier- versuchsplanung und ... · Einführung in die Statistik zur Tier-versuchsplanung und -auswertung Prof. Peter Pilz Fachbereich Biologie. So viele

Ich brauche wenig Tiere, wenn

• großer Unterschied zwischen Mittelwerten• Streuung der Daten klein• Signifikanzniveau α hoch (5% statt 1%)• Power nicht so hoch (80% statt 95%)• einseitiger Test (~20% weniger Tiere)• Parametrische Tests ~1 Tier/Gruppe weniger• Gutes Versuchsdesign (z.B. Messwiederholung)• wenig Gruppen

Vorführender
Präsentationsnotizen
Parametrische Tests: mehr Power als nichtparametrische, z.B. t-Test versus Wilcoxon/Man-Whitney-U-Test Dafür ist i.A. gutes Datenhandling gefragt, z.B. logarithmieren bei rechtsschiefen Daten Gutes Versuchsdesign: Nebenvariablen durch AnCova wegrechnen, individuelle Einflüsse durch Messwiederholung
Page 21: Einführung in die Statistik zur Tier- versuchsplanung und ... · Einführung in die Statistik zur Tier-versuchsplanung und -auswertung Prof. Peter Pilz Fachbereich Biologie. So viele

Formblatt Biometrische Planung1. Primäre Zielgröße 2. Verteilungsform der

Zielgröße3. Planungsgrößen4. Statistisches Test-Verfahren5. Annahmen zum Fehler 1. Art

(alpha) und 2. Art (beta) 6. Falls verwendet: Bei der

Berechnung durchgeführte Korrekturen

7. Richtung von Hypothese und Test

1. (zu untersuchendes Haupt-Zielmerkmal des Versuches, anhand dessen die Stichprobe berechnet wurde; ggf. inkl. der Transformation dieser Zielgröße).

2. (soweit anhand der Vordatendichte Angabe möglich; in diesem Fall inkl. des Testverfahrens mit dem die Verteilungsform bestimmt wurde)

3. (erwarteter Unterschied (z.B. erwartete relevante Mittelwertsdifferenz und Standardabweichung oder zu detektierende Veränderung der Ereignisrate, i.A. mit Begründung für diese Erwartung anhand von Vordaten) & verwendete Effektgröße mit Angabe ihrer Berechnung)

4. mit welchem die Tierzahlplanung durchgeführt wird (z.B. t-Test, Anova, Wilcoxon-Test).

5. (falls alpha ungleich 0,05 und beta ungleich 0,2 bitte begründen)

6. (z.B. Bonferroni-Korrektur --> in diesem Fall inkl. Angabe, welche Gruppen jeweils gegeneinander getestet werden und Angabe des geänderten alpha-Werts).

7. (ein- oder zweiseitig? --> 2-seitiges Testen bitte begründen).

Page 22: Einführung in die Statistik zur Tier- versuchsplanung und ... · Einführung in die Statistik zur Tier-versuchsplanung und -auswertung Prof. Peter Pilz Fachbereich Biologie. So viele

Schließende Statistik: Prüfgröße (t) Effektumfang, 1/Varianz , N

PoweranalyseStatistische Effektstärke

Blutdrucksenkung geteilt durch SD, d=0.5 Effekt = ½ SD

Power = 1-ß = 0.8 (Power soll hoch sein)Biometrisches Gutachten α =0.05, ß=0.2, d aus Vorversuchen möglichst ≥ 1.0

damit kann man N schätzen

Zusammenfassung

Page 23: Einführung in die Statistik zur Tier- versuchsplanung und ... · Einführung in die Statistik zur Tier-versuchsplanung und -auswertung Prof. Peter Pilz Fachbereich Biologie. So viele

Anhang• Poweranalyse: GPower = Opensource-Programm

http://www.gpower.hhu.de/• A. Field: Discovering statistics using SPSS. Meistverkauftes Statistikbuch,

nette Beispiele, manchmal „Geschwafel“. • v. Zupthen et al. Versuchstierkunde, Kapitel 12 „Planung von

Tierversuchen“. (Planung Stichprobenumfang = veraltet. Bei mir eine um veraltete Inhalte gekürzte Version erhältlich [email protected])

• www.ats.ucla.edu/stat/seminars/Intro_power/default.htmerläutert Power, viele Tipps, Power von Experimenten zu erhöhen.

• Glaser, W. Varianzanalyse. UTB. Erläutert, warum man ab n=10 fast immer die Normalverteilung annehmen darf.

• Tabachnik, BG, Fidell LS. Using Multivariate Statistics. Pearson. Erläutert, warum man ab 7 Stufen bei ordinalen Daten kontinuierliche Datenform annehmen darf. Schlägt vor, dass diskrete und stetige Daten nicht unbedingt unterschieden werden müssen.