34
Vorlesung: ANOVA I 11.11.2003

Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

Embed Size (px)

Citation preview

Page 1: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

Vorlesung: ANOVA I

11.11.2003

Page 2: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

• ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen bzgl. einer abhängigen Variablen aufzudecken

ANOVA

= Analysis of Variances

• Haupteffekt: Messvariable• Interaktionseffekt: gemeinsame Effekte von 2 oder mehr Variablen auf eine abhängige Variable (die Messvariable)

• Messung: Cholesterin• bekannt: Rauchen (Ja,Nein); Gewicht/Größe (dick,dünn); Alter (alt,jung)• Fragen: Welche der bekannten Variablen haben einen Einfluß ?• Ist der Einfluß signifikant ?• Ist ev. die Interaktion von zwei Variablen signifikant ?

Page 3: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

Patient: GrünKontrolle: Rot

Patient: RotKontrolle: Grün

Array 1 Array 2

Intensität:14527

ARRAY 1 oder 2 ?

Variety: Patient oder Kontrolle ?

Farbstoff: Grün oder Rot ?

Welches Gen ?

Page 4: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

Array

Variety

Dye=Farbstoff

Gen

Array-Dye

Array-Gen

Variety-Dye

Variety-Gen

Dye-Gen

Array-Variety

ijkl i j k l ij ik il jk kjl lInt a v d g av ad ag vd v dgg

Page 5: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

Varianten der ANOVA

(1) ANCOVA (Analysis of Covariances)

Kontinuierliche Variablen statt diskrete; diese werden “Covariates” genannt.

(2) MANOVA (Multiple Analysis of Variances)

Mehrere abhängige Variablen: zB: Auswirkung der Benutzung verschiedener Lehrbücher auf die Klausurergebnisse in

Mathematik UND Physik

(3) MANCOVA (Multiple Analysis of Covariances)

Mehrere abhängige Variablen, aber die Covarianten sind kontinuierlich

Page 6: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

ANOVA Statistik

F Test für Differenzen der Gruppen Mittelwerte.Test, ob der Mittelwert der Gruppen, die durch die Werte der unabhängigen Variablen oder deren Kombinationen unterschiedlich genug sind, um nicht durch Zufall aufgetreten zu sein.

Der ANOVA F Test ist eine Funktion der Varianz einer Gruppe von Mittelwerten, Gesamtmittelwert aller Beobachtungen und der Varianzen der Beobachtungen in jeder Gruppe gewichtet bzgl. einer Gruppenmengengröße.

Falls der Gruppenmittelwert sich nicht signifikant unterscheidet, dann heißt dies, daß die unabhängige Variable(n) keine Effekt auf die abhängige hat/haben.

Wenn der F Test eine Abhängigkeit mit der abhängigen Variablen anzeigt, dann wird ein multipler Vergleichstest auf Signifikanz angewendet, um zu sehen, welche Gruppen den größten Einfluß auf die Beziehung haben.

Page 7: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

Was hat das Testen auf Mittelwertdifferenzen mit Varianzen zu tun ?

Im Mittelpunkt der ANOVA steht die Tatsache, daß man Varianzen partitionieren kann.

2

1

1( )

1

n

ii

X Xn

Die Varianz ist die Summe der quadrierten Abweichungen vom Mittelwert dividiert durch die Anzahl der Proben minus 1.

Damit ist die Varianz eine Funktion der Summe der quadrierten Standardabweichungen (SQ).

Wie werden nun die Varianzen zerlegt ?

Page 8: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

Beispiel:

Angenommen, wir haben folgenden Datensatz Gruppe1 Gruppe2

Beob.1 2 6

Beob.2 3 7

Beob.3 1 5

Mittelwert 2 6

SQ 4 4

Gesamtmittel 4

GesamtSQ 28

Beobachtungen:

• Die Mittelwerte der beiden Gruppen sind sehr unterschiedlich

• Die Summe der Quadrate ist in beiden Gruppen = 4

• Insgesamt ist die Summe der Quadrate (unter Vernachlässigung der Gruppenzugehörigkeiten) = 28

• Die Varianzen innerhalb der Gruppen ist wesentlich kleiner als die Gesamtvariabilität.

• Der Grund hierfür liegt darin, daß die Mittelwerte sehr unterschiedlich sind.

Page 9: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

Gruppe1 Gruppe2

Beob.1 2 6

Beob.2 3 7

Beob.3 1 5

Mittelwert 2 6

SQ 4 4

Gesamtmittel 4

GesamtSQ 28

Gesamtvariabilität - Gruppenvariabilität

= 28 - (4+4)= 20 SQ Effekt

Unter der Nullhypothese sollte die Varianz innerhalbder Gruppen ungefähr so groß sein wie die zwischen den Gruppen.

Wir können diese Schätzer der Varianz mittels F Test vergleichen.Dieser Test überprüft, ob der Quotient der beiden Varianz Schätzer signifikant größer als 1 ist.

Hier F=20 => signifikant, p<0.05 (Ausgabe in R: p=0.04761905)

dh. wir können schließen, dass die zwei Gruppen signifikant unterschiedlich sind.

Wie kommen wir nun zu dieser Statistik ?

Page 10: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

F Statistik

Definitionen und Grundbegriffe:

• Gamma Funktion

•Verteilungsfunktion, Dichte

• Erwartungswert, Standardabweichung und Varianz

• stochastische Unabhängigkeit

• F Verteilung

•p Wert

Page 11: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

Gamma Funktion

Definition

Zunächst gilt:(n)=(n-1)! Dies gilt aber nur für natürliche Zahlen.

1

0

( )

(0, )

x tx t e dt

x

Insbesondere gilt

( 1) ( )

( 1) !,

x x x

und

n n n

Gaußsche Definition

!( ) lim ,

( 1)...( )

x

x

n nx x

x x x n

-Z

Page 12: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

Verteilungsfunktion, Dichte

Diskrete Zufallsvariable

Bei diskreten Zufallsvariablen läßt sich jedem möglichen Ereignis genau eine bestimmte Eintrittswahrscheinlichkeit zuordnen.

Beispiel:Eine Münze wird dreimal geworfen. Wie groß ist die Wahrscheinlichkeit dafür, daß xi-mal das Wappen oben liegt?

2.Wurf

3.Wurf

1.WurfJa Nein

3xJa0.53

=

0.125

3xNein0.53

=

0.125

2xJa,1xNein3*0.53

=

0.375

2xNein,1xJa3*0.53

=

0.375

Summe: P(x1)+P(x2)+P(x3)+P(x4)= 0.125+0.375+0.375+0.125= 1

Die Zuordnung der Wahrscheinlichkeiten P(xi) zu den

möglichen Ereignissen xi erfolgt über die sogenannte

Wahrscheinlichkeitsfunktion fX.

P(xi)= fX(xi)

Es gilt:

0 fX(xi) 1 und fX(xi) =1

Page 13: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

Stetige Zufallsvariable

Eine stetige Zufallsvariable weißt ein völlig anderes Verhalten auf. Da es unendlich viele mögliche Ausprägungen gibt, ist die Wahrscheinlichkeit dafür, daß genau ein bestimmtes Ereignis eintritt, gleich Null. Dies bedeutet aber nicht, daß dieses Ereignis unmöglich wäre. Anstelle von Wahrscheinlichkeiten werden bei stetigen Zufallsvariablen Dichten angegeben und zwar in Form der sogenannten Dichtefunktion fX.

• Die Dichte kann nicht negativ werden; kann aber Werte >1 annehmen.

• Das bestimmte Integral von – bis + beträgt Eins.

Verteilungsfunktion, Dichte

fX(x) dx = 1

fX(x) >= 0

+

Page 14: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

Verteilungsfunktion, Dichte

Für viele Fragestellungen ist es von Relevanz, wie groß die Wahrscheinlichkeit dafür ist, daß eine Zufallsvariable X einen bestimmten Wert x nicht überschreitet. Gesucht ist also:

P(X x) bzw P(– <X x)

Eine Funktion, die diese Wahrscheinlichkeit für jeden Wert x in R angibt, wird Verteilungsfunktion genannt und mit FX(x) bezeichnet.

Diskreter Fall Stetiger Fall

FX(x) = xi x fX(xi)

• FX ist monoton steigend

• lim x-> – FX (x) = 0

• lim x-> + FX (x) = 1

Funktion, die von – kommend bei 0 beginnt und treppenförmig bis 1 ansteigt und dort bis + bleibt

FX(x) = –x fX(t)dt

• FX ist monoton steigend

• FX ist stetig

• lim x-> – FX (x) = 0

• lim x-> + FX (x) = 1

Es gilt: P(a<x<b)= ab fX(x)dx = FX(b)- FX(a)

Page 15: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

Erwartungswert, Standardabweichung und Varianz

Der Erwartungswert einer Wahrscheinlichkeitsverteilung entspricht dem arithmetischen Mittel in der

deskriptiven Statistik.

Diskreter Fall:

E(X) = i xi fX(xi)

Stetiger Fall:

E(X) =

Die Varianz bzw. die Standardabweichung ist folgendermaßen definiert:

Diskreter Fall:

Varianz(X) = Var(X) = 2 = i (xi-E(X))2 fX(xi) = i (xi2 fX(xi) ) – (E(X))2

Stetiger Fall:

Varianz(X) = Var(X) = 2 =

Sowohl für den diskreten wie stetigen Fall gilt: Die Standardabweichung ist definiert durch:

X = +Var(X)

xfX(x) dx –

+

(x-E(X))2 fX(x) dx = –

+ x2 fX(x) dx –(E(X))2

+

Page 16: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

Stochastische Unabhängigkeit

Bedingte Wahrscheinlichkeit für zwei Ereignisse A und B

Multiplikationssatz

Stochastische UnabhängigkeitZwei Ereignisse A, B mit der Eigenschaft

heißen stochastisch unabhängig.

PB(A) := P(A|B):= P(A B) /P(B)

P(A B) = P(A|B)P(B) = P(B|A)P(A)

P(A B) = P(A)P(B)

Wie groß ist die Wahrscheinlichkeit, daß A eintreten wird, vorausgesetzt, daß B bereits eingetreten ist?

Page 17: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

F-Verteilung

(1) Ist X eine standard-normalverteilte Variable (N(0,1)), so wird die Verteilung der Variable X2 ChiQuadrat

Verteilung mit einem Freiheitsgrad genannt.

(2) Sind X1, ... ,Xn unabhängige ChiQuadrat verteilte Variablen mit 1 Freiheitsgrad, so wird die Verteilung

von

Y = i Xi 2 Verteilung mit n Freiheitsgraden genannt: 2 n

Die Dichte ist gegeben durch:

f(y) = 1/ [2n/2 (n/2)] * y n/2-1 exp(-y/2) y>=0

E(Y) = n

Var(Y) = 2n

Page 18: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

(3) Sind X, Y zwei unabhängige ChiQuadrat verteilte Variablen mit m und n Freiheitsgraden, so wird die

Verteilung von

Z = X/m / Y/n F Verteilung mit m,n Freiheitsgraden genannt: F m,n

Die Dichte ist gegeben durch:

f(z) = [(m+n)/2 ]/ [(m/2) (n/2)] * m/n m/2 z m/2-1 (1+m/n z) -(m+n)/2 z>=0

E(Z) = n/(n-2) n>=2

Var(Z) = 2n2(m+n-2)/[m(n-2)2(m-4)] n>=5

SATZ: Sind X,Y zwei unabhängige normalverteilte Variablen, so ist Var(X)/Var(Y) F-verteilt.

F-Verteilung

Page 19: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

P-Wert

Die Wahrscheinlichkeitswert (probability value, p-value) eines statistischen Hypothesentests gibt die Wahrscheinlichkeit an, aus der Teststatistik zufällig einen Wert zu erhalten, der mindestens so extrem ist wie der beobachtete unter der Voraussetzung, daß die Nullhypothese H0 wahr ist.

Er gibt die Wahrscheinlichkeit an, fälschlicherweise die Nullhypothese abzulehnen, obwohl sie eigentlich richtig ist.

Der p-Wert wird mit dem Signifikanzlevel verglichen (meist 0.05). Ist er kleiner, erhalten wir ein signifikantes Ergebnis. Das heißt, falls die Nullhypothese mit einem Signifikanzlevel von 5% abgelehnt wird, so gilt: p<0,05.

Page 20: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

Beispiel: ANOVA

Experiment:Wir messen die Konzentration eines Proteins nach Behandlung von Zellen mit vier verschiedenen Lösungen

Messung

12 3 4 5 6 7 8

Behandlung A 62 60 63 59 nd nd nd nd

B 63 67 71 64 65 66 nd nd

C 68 66 71 67 68 68 nd nd

D 56 62 60 61 63 64 63 59

Page 21: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

A B C D

Min: 59.0000 63.0000 66.0000 56.0000

1st Qu.: 59.7500 64.2500 67.2500 59.7500

Mean: 61.0000 66.0000 68.0000 61.0000

Median: 61.0000 65.5000 68.0000 61.5000

3rd Qu.: 62.2500 66.7500 68.0000 63.0000

Max: 63.0000 71.0000 71.0000 64.0000

Total N: 8.0000 8.0000 8.0000 8.0000

NA's : 4.0000 2.0000 2.0000 0.0000

Variance: 3.3333 8.0000 2.8000 6.8571

Std Dev.: 1.8257 2.8284 1.6733 2.6186

Sum: 244.0000 396.0000 408.0000 488.0000

Beispiel: ANOVA

Sind die Differenzen in den Mittelwerten/Medianen der Meßwerte der unterschiedlichen Behandlungsmethoden signifikant oder sind sie zufällig?

Page 22: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

Beispiel: ANOVA

62 60 63 59

63 67 71 64 65 66

68 66 71 67 68 68

56 62 60 61 63 64 63 59

V =

Summe/Anzahl

64+

-2 -4 -1 -5

-1 3 7 0 1 2

4 2 7 3 4 4

-8 -2 -4 -3 -1 0 -1 -5

Können wir dies in eine Behandlungsspezifischen und Residuen-Effekt zerlegen?

Page 23: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

Beispiel: ANOVA

V = Gesamtmittelwert + [ Behandlungsmittelwert-Gesamtmittelwert ] + [ Datenpunkt-Behandlungsmittelwert ]

+ yi – y + yij – yi

64 61666861

Page 24: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

Beispiel: ANOVA

-3 -3 -3 -3

2 2 2 2 2 2

4 4 4 4 4 4

-3 -3 -3 -3 -3 -3 -3 -3

V = 64 + +

1 -1 2 -2

-3 1 5 -2 -1 0

0 -2 3 -1 0 0

-5 1 -1 0 2 3 2 -2

Page 25: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

ANOVA

Zunächst soll die Varianzanalyse und der F-Test im Falle von:

I Proben je der Länge J

dargestellt werden, d.h. ein Experiment mit I Behandlungen, jede J mal gemessen. Den Fall, den wir eben betrachtet haben, bei dem unterschiedlich häufig gemessen wurde, betrachten wir danach.

Messung 1 2 3 ... J Behandlung 1

2 3 ...

I

Page 26: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

ANOVA

Das zugrundeliegende Modell ist das folgende:

Yij = j-te Beobachtung in der i-ten Behandlung

Jede einzelne Beobachtung wird gestört durch einen möglichen zufälligen Fehler. Außerdem nimmt man an, daß der Fehler der einen Beobachtung unabhängig von demjenigen einer anderen Beobachtung.

Yij = + i + ij

Gesamtmittelwert„differentieller Effekt“ in der i-ten Behandlung

Zufälliger Fehler in der j-ten Beobachtung und i-ten Behandlung

Die Fehler werden als unabhängig angenommen und sind normalverteilt mit Erwartungswert 0 und Varianz 2

Außerdem sind die i normalisiert, d.h.:

i i = 0

Der Erwartungswert der i-ten Behandlung und j-ten Messung beträgt: E(Y ij) = + i

Page 27: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

ANOVA

Die Varianzanalyse basiert auf der folgenden Identität:

i j (Yij – Y..)2 = i j (Yij – Yi.)2 + J i (Yi – Y..)2

wobei

Yi. = 1/J j Yij

das Mittel der Beobachtungen in der i-ten Behandlung beschreibt und

Y.. = 1/IJ i,j Yij

das Gesamtmittel.

Summe der QuadrateSQgesamt

SQinnerhalb SQzwischen

Page 28: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

ANOVA

Lemma:

Seien X1,...,Xn unabhängige Zufallsvariablen mit Erwartungswerten E(X i) = i und Varianz Var(Xi) = 2. Dann gilt:

E(Xi – X)2 = (i –1/n i i )2 + (n-1)/n 2

Mittels dieses Lemmas läßt sich folgender Satz zeigen:

Satz1:

E(SQinnerhalb) = i j E(Yij – Yi.)2 = i j J-1/J 2 = I(J-1) 2

E(SQzwischen) = J j E(Yi. – Y..)2 = J j [i

2 + (I-1)/IJ 2 ]= J j [i

2 + (I-1) 2 ]

Ein Schätzer für die Varianz ist gegeben durch:SQinnerhalb/I(J-1)

Page 29: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

ANOVA

Satz2:Wenn alle Fehler unabhängig normalverteilt sind mit Erwartungswert 0 und Varianz 2, dann gilt: SQinnerhalb/2 folgt einer 2 Verteilung mit I/(J-1) Freiheitsgraden.Sind außerdem alle i Null, dann folgt auch SQzwischen/2 einer 2 Verteilung mit (I-1) Freiheitsgraden und ist unabhängig von SQinnerhalb.

Die Statistik

F = SQzwischen/(I-1) / SQinnerhalb/[I(J-1)]

wird benutzt, um die Nullhypothese:

H0: 1 = 2 = 3 =... = i =0 zu testen.

Wenn die Nullhypothese richtig ist, so sollte die F-Statistik nahe bei 1 liegen. Ist sie hingegen falsch, sollte die Statistik zu Werten größer 1 tendieren, da die Erwartung des Zählers anwächst.

Page 30: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

ANOVA

Nun zu dem Problem, daß nicht jede Meßreihe gleich lang sein muß, d.h. es könnte sein – wie in unserem Eingangsbeispiel – daß für jede Behandlung unterschiedlich viele Messungen durchgeführt wurden.

Das bedeutet: J hängt von der i-ten Behandlung ab: J i

Dann gilt:

i j(i) (Yij – Y..)2 = i j(i) (Yij – Yi.)2 + J(i) i (Yi – Y..)2

E(SQinnerhalb) = 2 j J(i)-1

E(SQzwischen) = (I-1) 2 + j J(i) i2

Die Freiheitsgrade für die Quadratsummen betragen:

i J(i)-I und I-1

E(SQinnerhalb) = I(J-1) 2

E(SQzwischen) = J j [i2 + (I-1) 2 ]

Page 31: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

Zurück zu unserem Beispiel:

Messung

12 3 4 5 6 7 8

Behandlung A 62 60 63 59 nd nd nd nd

B 63 67 71 64 65 66 nd nd

C 68 66 71 67 68 68 nd nd

D 56 62 60 61 63 64 63 59

Page 32: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

Zurück zu unserem Beispiel:

i j(i) (Yij – Y..)2 = i j(i) (Yij – Yi.)2 + i J(i) (Yi – Y..)2

Summe der QuadrateSQgesamt

SQinnerhalb

SQzwischen

F = SQzwischen/(I-1) / SQinnerhalb/ i J(i)-I

Page 33: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

Variationsquelle SQ Freiheitsgrade F

Zwischen 228 3

Behandlung 76/56=13.6

innerhalb 112 20

SQ Total

340

n-1

23

Mittel=64

J(i)=[4 6 6 8]

Yi. =[61 66 68 61]

SQinnerhalb=112

SQzwischen=228

Freiheitsgrade: 3; 20

Zurück zu unserem Beispiel:

Page 34: Vorlesung: ANOVA I 11.11.2003. ANOVA ist eine statistische Analysemethode, um Haupteffekte und Interaktionseffekte zwischen kategorisch unabhängigen Variablen

Falls H0 (alle Mittel in allen Behandlungen sind gleich) richtig sein sollte, müßte F einer F 3;20 Verteilung folgen.Andernfalls, müßte F größer sein, also lehnen wir H0 bei hinreichend großem F ab.

Zurück zu unserem Beispiel:

Also müssen wir testen:

P(F 3;20 > F beobachtet) = P(F 3;20 > 13.6)

In R:

> pf(13.6,3,20,lower.tail=F)

[1] 4.654599e-5