37
Vorlesung: 18.11.2003 ANOVA II

Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

Embed Size (px)

Citation preview

Page 1: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

Vorlesung: 18.11.2003

ANOVA II

Page 2: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

• Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test

- Beispiel 1: Zwei Gruppen Vergleich- Beispiel 2: >2 Gruppen Vergleich

• Überblick: Anwendung der ANOVA bei Microarray-Datenauswertungen:

1. Beispiel: Kandidatengene

2. Beispiel: Normalisierung von Microarray Daten

Übersicht

Page 3: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

• Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test

- Beispiel 1: Zwei Gruppen Vergleich- Beispiel 2: >2 Gruppen Vergleich

• Überblick: Anwendung der ANOVA bei Microarray-Datenauswertungen:

1. Beispiel: Kandidatengene

2. Beispiel: Normalisierung von Microarray Daten

Übersicht

Page 4: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

Angenommen, wir wollen untersuchen, ob

A man bei Rauchern tendenziell ein anderes Level von Protein x mißt als bei NichtrauchernB Raucher ein signifikant höheres Level von Protein x haben als Nichtraucher

Messungen 1 79,98 80,022 80,04 79,943 80,02 79,984 80,04 79,975 80,03 79,976 80,03 80,037 80,04 79,958 79,97 79,979 80,05

10 80,0311 80,0212 80,0013 80,02

M ean 80,02 79,98S T D 0,0240 0,0314

Gedankenexperiment 1: Raucher und Nichtraucher

Page 5: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

Angenommen, wir wollen untersuchen, ob

4 verschiedene Laboratorien bei der Messung des Cholesterinspiegels von Patienten dieselben Ergebnisse liefern

1 2 3 4

Messungen4,13 3,86 4,00 3,884,07 3,85 4,02 3,884,04 4,08 4,01 3,914,07 4,11 4,01 3,954,07 4,08 4,04 3,924,05 4,01 3,99 3,974,04 4,02 4,03 3,924,02 4,11 3,97 3,904,06 3,97 3,98 3,904,10 3,95 3,984,044,08

4,06 4,00 4,00 3,910,0300 0,0959 0,0231 0,0300

MittelwertSTD

Gedankenexperiment 2: 4 Laboratorien

Page 6: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

12

34

Gibt es einen Unterschied?zwischen

Rauchern/Nichtrauchern 4 Laboratorien

Fragestellung

Page 7: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

Raucher und Nichtraucher: Zusammenfassung der Daten

Median: 80.03 versus 79.97

25/75% Quantil

Min/ Max

Page 8: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

Was sehen wir?

• Tendenziell höhere Wert bei Rauchern

• hohe Varianz

• Es gibt durchaus Nichtraucher, die einen höheren Wert haben als einige Raucher

Sind die Unterschiede signifikant?

Raucher und Nichtraucher: Zusammenfassung der Daten

Page 9: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

1 2 3 4

Was sehen wir?

• Tendenziell unterschiedliche Resultate

• hohe Varianz

• Labor 2, 3: fast gleiches Mittel, unterschiedliche Varianz

Sind die Unterschiede signifikant?

4 Laboratorien: Zusammenfassung der Daten

x

Page 10: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

T-Test oder ANOVA?

T-test:Angenommen, wir haben zwei Proben.Die erste Probe X1, ..., Xn umfaßt n Stichproben, die aus einer Normalverteilung mit Erwartungswert X und Varianz 2 gezogen wurden; die zweite Probe Y1, ..., Ym umfaßt m Stichproben, die aus einer Normalverteilung mit Erwartungswert Y und Varianz 2 gezogen wurden.

Wenn man nun Differenzen zwischen den beiden Gruppen betrachten möchte ist das intuitive Maß die Differenz der Mittelwerte:

X - Y

Tatsächlich ist die Differenz normalverteilter Zufallsvariablen wieder normalverteilt, d.h. in diesem Fall mit Erwartungswert X - Y und Varianz 2 (1/n+1/m).

Page 11: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

Definition: „pooled sample variance“

Satz:Angenommen, X1, ..., Xn sind n unabhängig normalverteilte Zufallsvariablen mit Erwartungswert X und Varianz 2 . Ebenso seien Y1, ..., Ym m unabhängige normalverteilte Zufallsvariablen mit Erwartungswert Y und Varianz 2 . Außerdem sind die Xi unabhängig von den Yj für alle i,j. Dann folgt die Statistik:

einer t-Verteilung mit m+n-2 Freiheitsgraden.

T-Test oder ANOVA?

2 22 ( 1) ( 1)

2X Y

p

n S m Ss

m n

( ( ) ( )) ( )

1/ 1/X Y

p

Mean X Mean Yt

s n m

Page 12: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

Dichte einer t-Verteilung: t-Verteilung:

r=Freiheitsgrade

fr(t)= Fr(t)=

Was ist eine t-Verteilung?

Page 13: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

Raucher und Nichtraucher: t-Test

Messungen ( ) 80.02

( ) 79.98

( ) 0.024

( ) 0.031

0.027

1/13 1/ 8 0.012

Raucher

Nichtraucher

R

NR

p

p

Mean X

Mean X

STD X

STD X

s

s

x

Page 14: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

0 :

1:

2 :

3 :

R NR

R NR

R NR

R NR

H

H

H

H

Zweiseitiger Test

Einseitige Tests

( ( ) ( )) 80.02 79.983.3333

0.0121/ 1/R NR

p

Mean X Mean Xt

s n m

Raucher und Nichtraucher: t-Test

Page 15: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

0 :

1:

2 :

3 :

R NR

R NR

R NR

R NR

H

H

H

H

t = 3.3333; Signifikanzlevel=0.05

2

2

2

1: ( / 2)

2 : ( )

3 : ( )

n m

n m

n m

H t t

H t t

H t t

P(H1) = 0.0033

P(H2) = 0.001656512

P(H3) = 0.9983435

Raucher und Nichtraucher: t-Test

x

Page 16: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

Raucher und Nichtraucher: ANOVA

Page 17: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

12

34

Nun haben wir aber mehr als zwei Probenreihen...

1

2

3

4

6 t- Tests

2 13 34 65 106 157 218 289 36

10 4511 5512 6613 7814 9115 10516 12017 13618 15319 17120 190

2

n n

4 Laboratorien: ein neues Problem

Page 18: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

1 2 3 4

30,3066 194,3379 376,9584

0,4592 36,7911

272,3098

1

23

4

t

4 Laboratorien: t-Test

1 2 3 4

Laboratorien

0,0523 3,7153e-5 6,9624e-10

0,9748 0,0159

1,3707e-6

1

23

2 3 4

P-Wert

Page 19: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

4 Laboratorien: ANOVA

Page 20: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

• Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test

- Beispiel 1: Zwei Gruppen Vergleich- Beispiel 2: >2 Gruppen Vergleich

• Überblick: Anwendung der ANOVA bei Microarray-Datenauswertungen:

1. Beispiel: Kandidatengene

2. Beispiel: Normalisierung von Microarray Daten

Übersicht

Page 21: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

… …

Drei Behandlungen:

Für welche Gene gibt es Unterschiede in den beiden Behandlungsmethoden?

Anwendung der ANOVA bei Microarray-Datenauswertungen

1. Beispiel: Kandidatengene

Page 22: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

B e h a n d lu n g 1 B e h a n d lu n g 2 B e h a n d lu n g 3

S ta m m 1

S ta m m 2

Anwendung der ANOVA bei Microarray-Datenauswertungen

1. Beispiel: Kandidatengene

Page 23: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

B eh an d lu n g 1 B eh an d lu n g 2 B eh an d lu n g 3

S tam m 1 50 ,51 ,50 40 ,41 ,45 48 ,48 ,47 46 ,6

S tam m 2 50 ,52 ,53 41 ,42 ,41 49 ,48 ,50 47 ,3

51 ,0 41 ,6 48 ,3

Anwendung der ANOVA bei Microarray-Datenauswertungen

1. Beispiel: Kandidatengene

Wir schauen uns erstmal nur ein Gen an

x

Page 24: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

• Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test

- Beispiel 1: Zwei Gruppen Vergleich- Beispiel 2: >2 Gruppen Vergleich

• Überblick: Anwendung der ANOVA bei Microarray-Datenauswertungen:

1. Beispiel: Kandidatengene

2. Beispiel: Normalisierung von Microarray Daten

Page 25: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

Patient: GrünKontrolle: Rot

Patient: RotKontrolle: Grün

Array 1 Array 2

Anwendung der ANOVA bei Microarray-Datenauswertungen

2. Beispiel: Normalisierung von Microarray Daten

Page 26: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

Anwendung der ANOVA bei Microarray-Datenauswertungen

2. Beispiel: Normalisierung von Microarray Daten

ARRAY 1 oder 2 ?Variety: Patient oder Kontrolle ?

Farbstoff: Grün oder Rot ? Welches Gen ?

Intensität:14527

Page 27: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

Farbstoff: Grün Farbstoff: Rot

Array 1

Array 2

Patient

Patient

Kontrolle

Kontrolle

Anwendung der ANOVA bei Microarray-Datenauswertungen

2. Beispiel: Normalisierung von Microarray Daten

- Dye Swap Setting- Latin Square Setting

Page 28: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

Anwendung der ANOVA bei Microarray-Datenauswertungen

2. Beispiel: Normalisierung von Microarray Daten

Array

Variety

Dye=Farbstoff

Gen

2-Interaktionseffekte

3-Interaktionseffekte

ijkl

i j k l

ij ik il jk kl

ikj kjl ijl ikl

jl

Int

a v d g

av ad ag vd dg

adv dvg avg ad

v

g

g

+ ijkg

Page 29: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

Anwendung der ANOVA bei Microarray-Datenauswertungen

2. Beispiel: Normalisierung von Microarray Daten

GesamtmittelADVG

AGDGVG

~~~~~~~~

ADVDVAVADADVGDVGAVGADG

Page 30: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

Anwendung der ANOVA bei Microarray-Datenauswertungen

2. Beispiel: Normalisierung von Microarray Daten

Modell von G.Churchill/K.Kerr

Jede Messung in einem Micoarrayexperiment wird mit einer ganz speziellen Kombination der Parameter „Array“, „Dye (Farbstoff)“, „Variety(Probentyp)“, und „Gen“ assoziiert.

Angenommen,

y ijkg

Bezeichnet die Intensitätsmessung des g-ten Gens auf dem i-ten Array mit dem j-ten Farbstoff im k-ten Probentyp.

Page 31: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

Anwendung der ANOVA bei Microarray-Datenauswertungen

2. Beispiel: Normalisierung von Microarray Daten

Modell von G.Churchill/K.Kerr

Dann kann man das folgende Modell einführen:

log(y ijkg) = + Ai + Dj + Vk + Gg + (AG)ig + (VG)kg + ijkg

Dabei ist der Gesamtmittelwert;

Ai bezeichnet den Arrayeffekt des i-ten Arrays;

Dj bezeichnet den Farbstoffeffekt des j-ten Farbstoffs;

Vk bezeichnet den k-ten Probentypeffekt;

Gg bezeichnet den Geneffekt des g-ten Gens;

(AG)ig bezeichnet den Interaktioneffekt von Array i und Gen g

und (VG)kg bezeichnet den Interaktionseffekt des k-ten Probentyps und des g-ten Gens.

ijkg ist ein N(0,) Fehlerterm.

Page 32: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

Anwendung der ANOVA bei Microarray-Datenauswertungen

2. Beispiel: Normalisierung von Microarray Daten

Modell von G.Churchill/K.Kerr

Farbstoff: Grün Farbstoff: Rot

Array 1

Array 2

Leber

Leber

Muskel

Muskel

Welche Gene sind in Leber und Muskel unterschiedlich exprimiert?

Page 33: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

Anwendung der ANOVA bei Microarray-Datenauswertungen

2. Beispiel: Normalisierung von Microarray Daten

Modell von G.Churchill/K.Kerr

Farbstoff: Grün Farbstoff: Rot

Array 1

Array 2

Leber

Leber

Muskel

Muskel

Array i=1,2

Dye j=1,2

Gewebe k=1,2

Gene g=1,...,n

Index Set: (i,j,k) { (1,1,1) , (1,2,2) , (2,1,2) , (2,2,1) }

d.h. jeder Clone Index (Gen) g=1,...,n erscheint genau einmal mit jeder Kombination (i,j,k)

Page 34: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

log(y ijkg) = + Ai + Dj + Vk + Gg + (AG)ig + (VG)kg + ijkg

Anwendung der ANOVA bei Microarray-Datenauswertungen

2. Beispiel: Normalisierung von Microarray Daten

Modell von G.Churchill/K.Kerr

Quadrat der Summe der Residuen:

RSQ = ijkl (log(y ijkg) – ( + Ai + Dj + Vk + Gg + (AG)ig + (VG)kg + ijkg))2

Berechne die Parameter so, daß die Residuen möglichst klein sind.Dazu berechne die partiellen Ableitungen und setze diese gleich Null.

RSQ / (VG)kg =0

Page 35: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

Anwendung der ANOVA bei Microarray-Datenauswertungen

2. Beispiel: Normalisierung von Microarray Daten

Farbstoff: Grün Farbstoff: Rot

Array 1

Array 2

Leber

Leber

Muskel

Muskel

Leber

Muskel

(VG)k=1g‘ - (VG)k=2g‘ = 0.5 log( ) – 1/2n log( g )Y111g‘ y221g‘

Y122g‘ y212g‘

y111g y221g

y122g y212g

Konstant: ZentrierungLog-ratio des geometrischen Mittels der Beobachtungen für das Gen g‘ in den beiden Gruppen

Page 36: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

Anwendung der ANOVA bei Microarray-Datenauswertungen

2. Beispiel: Normalisierung von Microarray Daten

(VG)k=1g‘ - (VG)k=2g‘

Die exponierten Differenzen

exp((VG)k=1g‘ - (VG)k=2g‘ )

können als Schätzer für „fold changes“ zwischen den beiden betrachteten Gruppen angesehen werden.

Page 37: Vorlesung: 18.11.2003 ANOVA II. Warum sollte man eine ANOVA überhaupt durchführen? Ein Vergleich mit dem t-Test - Beispiel 1: Zwei Gruppen Vergleich -

Anwendung der ANOVA bei Microarray-Datenauswertungen

2. Beispiel: Normalisierung von Microarray Daten

Mittel der Log-Produktintensität (Leber,Muskel)

(VG

) k=L

eber

g -

(V

G) k=

Mus

k el g