Upload
golda
View
49
Download
0
Embed Size (px)
DESCRIPTION
‘Omics’ - Analysis of high dimensional Data. Achim Tresch Computational Biology. G R U N D G E S A M T H E I T. Stichprobe. Beurteilende Statistik. - PowerPoint PPT Presentation
Citation preview
Achim TreschComputational Biology
‘Omics’
- Analysis of high
dimensional Data
Deskriptive (beschreibende) Statistik:Übersichtliche Aufbereitung der Daten eines vorliegenden Kollektivs (Stichprobe) mittels Graphiken und Tabellen
Beurteilende (schließende, Inferenz-) Statistik:Induktiver Schluss von der Stichprobe auf die Grundgesamtheit; Gewinnung allgemeiner Erkenntnisse
Stichprobe
G R U N D G E S A M T H E I T
Beurteilende Statistik
Unsicherheitsbehaftete Entscheidungen
Andrey KolmogoroffSchamane
Unsicherheitsbehaftete Entscheidungen
Unterschied in der Stichprobe
Unterschied in der Grund-gesamtheit?
Schluss von der Stichprobe auf die Grundgesamtheit
Da anhand einer Stichprobe nur unvollständige Information vorliegt, sind ungenaue Schlüsse und Fehlschlüsse möglich.
Wichtige Aufgabe der statistischen Methodik:Trotzdem möglichst genaue und fehlerfreie Schlüsse bzw. Quantifizierung der Unsicherheit bei diesen Schlüssen• Statistischer Test (Signifikanztest):
Beurteilende Statistik
Ermittelte Maßzahl in der Stichprobe
Maßzahl in der Grund-gesamtheit?Toleranzen (Konfidenz-bereich)?
Schluss von der Stichprobe auf die Grundgesamtheit• Schätzung:
Beurteilende Statistik
Wann ist der Schluss von der Stichprobe auf die Grundgesamtheit möglich? Wichtig: Stichprobe muss „repräsentativ“ sein!(Stichprobe enthält nur Bodenproben aus Köln -> Keine Aussagen über Boden in Argentinien möglich)
Repräsentativität kann erzielt werden durch zufällige Ziehung aus der Grundgesamtheit (in der Praxis selten möglich). Genau überlegen, „wie weit“ man schließen kann!
Beispiel: Therapie bei Kindern mit Leukämie in Mainz→ Kinder in anderen Unikliniken in Deutschland?→ Alle Leukämiekinder auf der Welt??
Beurteilende Statistik
Lernphase: Vermesse alle Schafe, die dir begegnen.
Eine Methode zur Erkennung von (nicht-)Schafen
Lernphase: Vermesse alle Schafe, die dir begegnen. Beschreibe die Größe der Schafe, z.B. durch einen Dichteplot.
70 80 90 100 110 120 130 140
Groesse [cm]
Eine Methode zur Erkennung von (nicht-)Schafen
Testphase: Begegnet dir ein neues Tier, so vermesse es. Liegt die Größe des Tieres außerhalb des Größenbereichs der Schafe, so nenne das Tier „zu groß/zu klein für ein Schaf“. Ansonsten gehe davon aus, dass es ein Schaf ist
70 80 90 100 110 120 130 140
Groesse [cm]
Kein Schaf
Eine Methode zur Erkennung von (nicht-)Schafen
70 80 90 100 110 120 130 140
Groesse [cm]
Vorteil der Methode: Man muss nichts über Schafe wissen außer ihrer Größenverteilung.
Nachteil der Methode: Sie ist fehlerbehaftet
Echt Negative
Negative (keine Auffälligkeiten)Positive (Auffälligkeiten)
Schwellwert
Echt PositiveFalsch
PositiveFalschNegative
Eine Methode zur Erkennung von (nicht-)Schafen
= Eine Methode zum Erkennen von nicht-Placebos
-10 -5 0 5 10 15
Blutdrucksenkung [mmHg]
Testphase: Quantifiziere die Wirkung eines Medikaments. Nenne es wirksam, wenn die Wirkung jenseits der Schwelle liegt
Lernphase: Quantifiziere die Wirkung eines Placebos (z.B. Blutdrucksenkung in mmHg).Lege eine Entscheidungsschwelle fest
Eine Methode zum Nachweis von Medikamentenwirksamkeit
Formuliere eine Nullhypothese H0 („es passiert nichts“)Wähle eine Teststatistik (Prüfgröße, die gemessene Größe zur Entscheidungsfindung). Lege damit implizit die Nullverteilung (die Verteilung der Teststatistik, falls die Nullhypothese gilt) fest.
-10 -5 0 5 10 15
Blutdrucksenkung [mmHg]
Statistisches Testen von Hypothesen
Formuliere eine Alternativhypothese (z.B. „die Werte sind größer als unter der Nullhypothese erwartet“)Lege eine Entscheidungsschwelle d fest. Dies ist äquivalent zur Festlegung des Signifikanzniveaus α, d.h. dem Anteil der falsch Positiven unter den Negativen.
-10 -5 0 5 10 15
Blutdrucksenkung [mmHg]
α
d
Statistisches Testen von Hypothesen
-10 -5 0 5 10 15
Blutdrucksenkung [mmHg]
α
d
Bestimme den Wert der Teststatistik (z.B. mittels einer Studie), und fälle durch Vergleich von Teststatistik und Entscheidungschwelle eine Entscheidung.
Behalte H0 bei (lehne jedoch die Alternativ-hypothese nicht ab).
Lehne die Nullhypo-these ab, nimm die Alternativhypothese an.
Statistisches Testen von Hypothesen
0
d Gute Statistik
Nullhypothese akzeptiert
Nullhypothese abgelehnt
Nullhypothese wahr
Richtige Entsch.Typ I Fehler
(Falsch Positive)
Alternativhypo- these wahr
Typ II Fehler(Falsch
Negative)Richtige Entsch.
Verteilung der Teststatistik bei Gültigkeit der Nullhypothese
Verteilung der Teststatistik bei Gültigkeit der Alternativhypo-these
Kriterien für die Güte einer Teststatistik
0
d Schlechte Statistik
Nullhypothese akzeptiert
Nullhypothese abgelehnt
Nullhypothese wahr
Richtige Entsch.Typ I Fehler
(Falsch Positive)
Alternativhypo- these wahr
Typ II Fehler(Falsch
Negative)Richtige Entsch.
Verteilung der Teststatistik bei Gültigkeit der Nullhypothese
Verteilung der Teststatistik bei Gültigkeit der Alternativhypo-these
Kriterien für die Güte einer Teststatistik
Würfele mit dem 20-seitigen Würfel.
Augenzahl = 20: lehne die Nullhypothese abAugenzahl ≠ 20: lehne die Nullhypothese nicht abDies (unabhängig von der Nullhypothese)ein valider Test auf 5%-Signifikanzniveau!
Bsp: Das Offenbacher Orakel
Aber:
5 10 15 20
0.0
00
.05
0.1
00
.15
0.2
00
.25
0.3
0
Index
c(0
, 0)
5 10 15 20
0.0
00
.05
0.1
00
.15
0.2
00
.25
0.3
0
Index
c(0
, 0)
Die Verteilung der Teststatistik unter der Null- und der Alternativhypothese ist gleich! Dieser Test kann nicht zwischen den Gruppen diskriminieren!
Verteilung unter
H0
Verteilung unter
H1
95% der Positiven werden nicht erkannt
Bsp: Das Offenbacher Orakel
-10 -5 0 5 10 15
Blutdrucksenkung [mmHg]
p = 0.08
Hat man eine Teststatistik festgelegt und einen Wert für sie aus den Messdaten ermittelt, so kann dieser in einen p-Wert umgerechnet werden:
Wahrscheinlichkeit, bei Gültigkeit der Nullhypothese einen Wert zu beobachten, welcher mindestens so extrem ist wie der beobachtete Wert
Der p-Wert
Der einem Wert t der Teststatistik zugeordnete p-Wert ist die Wahrscheinlichkeit, bei Gültigkeit der Nullhypothese einen Wert zu beobachten, welcher mindestens so extrem ist wie der beobachtete Wert t.
-10 -5 0 5 10 15
Blutdrucksenkung [mmHg]
p = 0.42
Hat man eine Teststatistik festgelegt und einen Wert für sie aus den Messdaten ermittelt, so kann dieser in einen p-Wert umgerechnet werden:
t
Der p-Wert
Entscheidungsschwelle d Signifikanzniveau α Beobachtete Teststatistik t p-Wert
-10 -5 0 5 10 15
Blutdrucksenkung [mmHg]
α = 0.05
p ≥ α
Behalte H0 bei (lehne jedoch die Alternativ-hypothese nicht ab).
p < α
Lehne die Nullhypo-these ab, nimm die Alternativhypothese an.
t
p = 0.02
dt
p = 0.83
t ist extremer als d p ist kleiner als α
Der p-Wert
23
-10 -5 0 5 10 15
Blutdrucksenkung [mmHg]
][
Annahmebereich
Ablehungsbereich
Einseitige Fragestellung
H0: Der Wert der Prüfgröße ist in Gruppe I nicht höher als in Gruppe II
H1: Der Wert der Prüfgröße ist in Gruppe I höher als in Gruppe II
Ein- und zweiseitige Fragestellungen
24
-10 -5 0 5 10 15
Blutdrucksenkung [mmHg]
][
Annahmebereich
Ablehungsbereich
Zweiseitige Fragestellung
H0: Die Prüfgröße ist in Gruppe I und Gruppe II gleichH1: Die Prüfgröße ist in Gruppe I und in Gruppe II
verschieden
][
Ablehungsbereich
Zweiseitige Fragestellung im Allgemeinen angemessen:Effekte in beide Richtungen werden detektiert.Bei Zulassungsstudien wird zweiseitige Auswertung gefordert!
Ein- und zweiseitige Fragestellungen
Was muss bei einer Sachaussage im Anschluss an einen statistischen Test beachtet werden?1. Testentscheidung: „signifikant“ bzw. „nicht
signifikant“ mit Signifikanzniveau
2. Was wird verglichen? (Gruppeneinteilung)
3. Was ist die Grundgesamtheit?
4. Was ist die Zielgröße?(ggf. genauere Information, z.B. Zeitangabe)
5. Falls ein signifikanter Unterschied besteht:Interpretation! (Welche Richtung?)
Interpretation eines Testergebnisses
26
…Gen A
Gen B
Genexpressions-messungen
Welches Gen ist „weniger stark“
exprimiert?
Gruppe 1Gruppe 2
Vergleich der Mittelwerte zweier Gruppen
Spezielle statistische Tests
27
Gruppe 1Gruppe 2
Punkte) (mean
Fragestellung / Hypothese
Ist die Expression von Gen g in Gruppe 1 niedriger als
die in Gruppe 2?
Daten: Expression von Gen g in verschiedenen Proben (Absolutskala)
Punkte) ( mean
2
1Entscheidung
für “niedriger exprimiert“ wenn
0dd
d
Teststatistik, z.B.Differenz der Gruppenmittel
21 d
Zwei-Gruppen Lagevergleich
28
Schlechte Idee: Subtrahiere die Gruppenmittelwerte 21 d
2
1
d
2
d
Problem: d ist nicht skaleninvariant
1
)( ds
dt
Lösung:Teile d durch seine
Standardabw.
Daraus entsteht die t-Statistik bzw. der t-Test (für unverbundene Stichproben)
Gruppe 1Gruppe 2
Zwei-Gruppen Lagevergleich
3823N =
Mütter mit DiabetesGesunde Mütter
Pla
cent
agew
icht
[g]
1400
1200
1000
800
600
400
200
Gruppe 1: n = 23 gesundeMütter
Gruppe 2: n= 38 Mütter mit manifestem Diabetes
Beispiel: t-Test für den Vergleich der Plazentagewichte bei gesunden und diabetischen Müttern
Zielgröße: Plazentagewicht [g]
Zwei-Gruppen Lagevergleich
Maßzahlen zum Vergleich der beiden Gruppen (Messwerte in Gramm)
Gruppe 1 Gruppe 2
Minimum 375 425
1. Quartil 500 600
Median 600 710
3. Quartil 650 825
Maximum 825 1290
Arithm. Mittelwert 601.7 728.5
Standardabweichung
125.4 183.1
Schiefe g 0.25 0.85
Für beide Gruppen: - 1 < g < +1, also Mittelwerte (noch) sinnvoll
Zwei-Gruppen t-Test
Hypothesen:
H0: Es gibt keinen (Mittelwerts-) Unterschied in den Plazentagewichten zwischen gesunden und diabetischen Müttern
H1: Es gibt einen (MW-) Unterschied in den Plazentagewichten zwischen gesunden und diabetischen Müttern
Gewähltes Signifikanzniveau: α = 5%
Zweiseitiger Test
Zwei-Gruppen t-Test
32
Voraussetzung: Gaußverteilung in beiden Gruppen
Zeile „Varianzen gleich“: Auch noch gleiche Varianzen (bzw. Standardabweichungen) in beiden Gruppen nötig.Zeile „Varianzen ungleich“ bedeutet nur: Gleiche Varianzen sind nicht erforderlich.Pragmatisch: Immer 2. Zeile verwenden! p = 0.002
Zwei-Gruppen t-Test
Ergebnis: Mittelwertsdifferenz = (–) 126.7p-Wert = 0.002p = 0.002 = 0.2% < 5% = 0.05 = α
Also signifikanter Unterschied zum Niveau 5%!
Sachaussage: Zum Signifikanzniveau α = 5% besteht ein signifikanter Mittelwerts-Unterschied in den Plazentagewichten zwischen gesunden und diabetischen Müttern. Konkret haben diabetische Mütter höhere Plazentagewichte.Interpretation des p-Werts: Falls zwischen den (mittleren) Plazentagewichten zwischen gesunden und diabetischen Müttern kein Unterschied besteht (also H0 gilt), beträgt die Wahrscheinlichkeit, dennoch einen Mittelwertsunterschied von mindestens 126.7 g zu beobachten, unter den gegebenen Umständen 0.2%.
Zwei-Gruppen t-Test
Untersuche für unverbundene Stichproben: Sind die Werte in Gruppe 1 kleiner als in Gruppe 2 ?
Messgröße
Gruppe 1 18 3 6 9 5
Gruppe 2 15 10 8 7 12
1 2 3 4 5 6 7 8 9 10
3 5 6 7 8 9 10 12 15 18 Originalskal
aRangskala
Rangsumme Gruppe 1: 1+2+3+6+10 = 22
Rangsumme Gruppe 2:4+5+7+8+9 = 33
Wilcoxon (Rangsummen) Test (Mann-Whitney-Test)
Wähle die Rangsumme von Gruppe 1 als Teststatistik
Rangsummenverteilung für Gruppe 1,
|Gruppe 1| = 5, |Gruppe 2| = 5
Der zur Rangsumme gehörige p-Wert kann per Computer für kleine Gruppenzahlen exakt oder für große Gruppenzahlen näherungsweise berechnet werden:
22
P(W≤22, falls die Gruppen- zugehörigkeiten zufällig sind)
Wilcoxon W
15 20 25 30 35 40= 0.15
Wilcoxon (Rangsummen) Test (Mann-Whitney-Test)
Beispiel Plazentagewichte
•Der Wilcoxon Test kann einseitig oder zweiseitig durchgeführt werden
•Für größere Fallzahlen (N>20) wird eine Näherung berechnet
Wilcoxon (Rangsummen) Test (Mann-Whitney-Test)
37
Sind die Daten normalverteilt?
Verbundene Stichproben?
Verbundene Stichproben?
t-Test für verbundene Stichproben
ja nein
t-Test für unverb. Stichproben
Wilcoxon Vorzeichen-test
Wilcoxon Rangsummen-test
ja janein
nein
Zu klärende Frage: Existiert ein Lageunterschied der Merkmalsausprägungen zwischen Gruppe 1 und Gruppe 2?
Testübersicht: Gruppenvergleich eines stetigen Merkmals
Wahl der Teststatistik: „Exakter Fisher-Test“
Sir Ronald Aylmer Fisher, 1890-1962 Theoretischer Biologe,
Evolutionstheoretiker und Statistiker
Vergleich zweier binärer Merkmale
Wirkung
WirktWirkt nicht
Medika- menten-
gabe
Verum 65 7
Placebo 44 13
Der exakte Fisher Test soll die Frage beantworten:
Gibt es Unterschiede in der Verteilung █ und █ ?
Unverbundene Stichproben: Exakter Fisher Test
Bsp.: Wirksamkeitsstudie mit unverbundenen Stichproben (jeder Probend erhält nur einen Präparat)
Vergleich zweier binärer Merkmale
Kopf Zahl
Faire Münze 54 46
Gebogene Münze 82 18
Odds (= Chance): Häufigkeitsverhältnis in einer Gruppe,
Quote einer fairen Wette
Odds (faire Münze) = 54 : 46 = 1.17
Odds (gebogene M.) = 82 : 18 = 4.56
Odds Ratio (Chancenverhältnis)26.0
4.56
1.17
18 / 82
46 / 54 OR
Odds und Odds Ratio
Bsp: Dickdarmkarzinom
Interessierende Fragen:
Hat die Impfung einen Einfluss auf das Überleben?
Ist der Einfluss „signifikant“?
4-Jahres-Überleben
Ja Nein
Impfung
Ja (n=32) 30 (94%) 2 (6%)
Nein (n=30) 23 (77%) 7 (23%)
Bsp: Dickdarmkarzinom
Grundgesamtheit: Alle jetzigen und künftigen Patienten mit Dickdarm-Ca und Metastasen.
Nullhypothese H0: Die Impfung hat keinerlei Effekt auf den Zustand der Patienten. Die Überlebensraten bei der Grundgesamtheit sind mit und ohne Impfung gleich.
Gegenhypothese (Alternativhypothese) H1: Die Überlebensraten bei der Grundgesamtheit sind mit Impfung und ohne Impfung unterschiedlich. (zweiseitige Fragestellung)
Wähle das Signifikanzniveau α (oft gewählt: α = 1%; 0.1%; 5%; 10%)
Genaue Interpretation des Signifikanzniveaus α :Wenn in Wirklichkeit kein Unterschied besteht (also H0 gilt), erhält man mit Wahrscheinlichkeit α eine Signifikanz (=falsch positive Aussage).
Bsp: Dickdarmkarzinom
Testergebnis nach Durchführung des exakten Fisher-Tests:
p = 0.0766 7.7%
Hat man α = 5% gewählt, so gilt:
Da p > α, wird die Nullhypothese beibehalten.
Sachaussage: Es besteht zum Niveau α = 5% kein signifikanter Effekt der Impfung auf die Überlebensrate nach 4 Jahren.
Folgerung: Wir sind (noch) nicht (hinreichend) davon überzeugt, dass ein Unterschied in den Überlebensraten besteht!
Bsp: Dickdarmkarzinom
Interpretation des Ergebnisses(Dickdarmkarzinome mit und ohne Impfung)Überlebensrate nach 4 Jahren mit Impfung: 94% (n = 32)Überlebensrate nach 4 Jahren ohne Impfung: 77% (n = 30)
Beobachteter Unterschied in der 4-Jahres-Überlebensrate: 17%exakter Fisher-Test: p = 0.077Falls die Impfung keinerlei Effekt hat (also H0 gilt), beträgt die Wahrscheinlichkeit, dennoch einen Unterschied von mindestens 17% zwischen beiden Gruppen zu erhalten, unter den gegebenen Umständen 7.7%.
Bsp: Dickdarmkarzinom
H0: Es besteht kein Zusammenhang zwischen Tumorgröße und dem Auftreten von LGE (oder: die Tumorgröße hat keinen Einfluss auf das Auftreten von LGE)
H1: Es besteht ein Zusammenhang zwischen Tumorgröße und dem Auftreten von LGE (oder: die Tumorgröße hat einen Einfluss auf das Auftreten von LGE)
Unverb. Stichproben: Chiquadrat-Test (χ2-Test)
Auftreten von LGE
Ja Nein
Tumor-größe
1 10 8
2 20 23
3 19 10
4 32 18
Vergleich zweier kategorialer Merkmale
Im gegebenen Beispiel erhält man mit SPSS „p = 0.000“
(also: p < 0.001).
Wurde als Signifikanzniveau α = 5% gewählt, so ergibt sich als
Sachaussage: Bei Patienten mit Magenkarzinomen besteht ein zum 5%-Niveau signifikanter Zusammenhang zwischen Tumorgröße und dem Auftreten von LGE (oder: „..... Einfluss der Tumorgröße auf das Auftreten von LGE“). Konkret: je größer der Tumor, desto häufiger treten LGE auf.
Unverb. Stichproben: Chiquadrat-Test (χ2-Test)
Vergleich zweier kategorialer Merkmale
Voraussetzungen des Chiquadrat-Tests
Gesamt-Fallzahl nicht zu klein (etwa n ≥ 60)
Erwartungswerte (erwartete Häufigkeiten) nicht zu klein (alle ≥ 5)
Beachte: Bei zwei binären Merkmalen verwende eine Vierfeldertafel und den exakten Fisher-Test!
Unverb. Stichproben: Chiquadrat-Test (χ2-Test)
Vergleich zweier kategorialer Merkmale
49
Sind die Daten binär?
Verbundene Stichproben?
Verbundene Stichproben?
McNemar Test(Messen die
beiden Variablen das
Gleiche?)
ja nein
Exakter Fisher Test
(Besteht eine Abhängigkeit?)
(Bowker Symmetrie-
test)
Chiquadrat (χ2) -Test
ja janein
nein
Zu klärende Frage: Gibt es Unterschiede in den Häufigkeitsverteilungen der verschiedenen Gruppen?
Testübersicht: Vergleich zweier kategorialer Variablen
50
Merkmal Design Deskription numerisch
Deskription graphisch
Test
stetigunverbunde
nMediane, Quartile
2 Boxplots
Wilcoxon-Rangsumm
en-t-Test*
stetig verbundenMedian,
Quartile der Differenz
Differenzen-Boxplot
Wilcoxon-Vorzeichen-,
t-Test*
binärunverbunde
n
Kreuztabelle,Zeilen%, RR, RD, OR
Balken-diagramm
Exakter Fisher-Test
binär verbunden
Kreuztabelle (“Mc-Nemar-Tafel“)
Balken-diagramm
McNemar-Test
kategorial
unverbunden
Kreuztabelle,Zeilen%
(3D Balken-diagramm)
χ2-Test* Bei Normalverteilung
Übersicht: Deskription und statistische Tests (2 Merkmale)
Die Angabe eines Testergebnisses ohne eine sinnvolle Deskription ist uninformativ.
Oft: Angabe von Konfidenzbereichen wünschenswert.
Als Testergebnis sollte nicht nur „Zum Niveau α signifikant/nicht signifikant“ angegeben werden, sondern der p-Wert (geeignet gerundet), zumindest wenn er kleiner als (etwa) 0.1 ist.
Niemals „p=0“ oder gar „p<0.000“ als Testergebnis angeben!
Beachte
52
Sehr viele Fälle: Auch kleine Unterschiede werden signifikant
Wenige Fälle: Ein beobachteter Unterschied kann relevant, aber nicht statistisch signifikant sein.
Statistische Signifikanz ≠ Relevanz
53
Beispiele:
Untersuchung mehrerer Endpunkte (systolischer, diastolischer Blutdruck, Pulsfrequenz)
Vergleich mehrerer Gruppen (z.B. bei 4 Gruppen: 6 Paarvergleiche)
Bei jedem Test tritt eine falsche Signifikanz (= falsch Positives) mit 5% Wahrscheinlichkeit auf (falls α = 5%)
→ Bei 6 Tests steigt die Wahrscheinlichkeit des Auftretens einer falschen Signifikanz bis zu 30%!
Problematik des Multiples Testens
Lösungsmöglichkeit: Korrektur nach BonferroniFühre jeden der einzelnen Tests zum Niveau α/m („lokales Signifikanzniveau α/m “) durch (m = Anzahl der Tests)Die Wahrscheinlichkeit eines Auftretens einer falschen Signifikanz bei Durchführung aller m Tests beträgt dann höchstens α („multiples/globales Niveau α“) z. B. m = 6
Gewünschtes multiples Niveau: α = 5%
→ lokales Signifikanzniveau: α/m = 5%/6 = 0.83%
Problematik des Multiples Testens