131
DIPLOMARBEIT

Diplomarbeit varianzanalyse mit sas

Embed Size (px)

DESCRIPTION

Die Aufgabenstellung der Varianzanalyse ist, mit statistischen Mitteln festzustellen, ob eine Abhängigkeit zwischen zwei Gegebenheiten vorliegt oder nicht.

Citation preview

Page 1: Diplomarbeit varianzanalyse mit sas

DIPLOMARBEIT

Page 2: Diplomarbeit varianzanalyse mit sas

- 2 -

FERNUNIVERSIT�TGESAMTHOCHSCHULE

IN HAGEN

FACHBEREICH WIRTSCHAFTSWISSENSCHAFT

Diplomarbeit

im wirtschaftswissenschaftlichen Diplomstudiengang

Bearbeitungszeit 12 Wochen als Vollzeitstudierender

im Fach : Statistik

�ber das Thema : �berblick �ber Verfahren der Varianzanalyse

und deren Durchf�hrung mit Hilfe von SAS

Eingereicht bei : PD Dr. H.-J. Mittag

von : Daniel K�pper

Matrikel-Nr. : 3931218

Anschrift : Wirtzfeld 103

B-4760 B�llingen

Telefon : 0032(0)80647623

Abgabedatum : 01.10.1998

Page 3: Diplomarbeit varianzanalyse mit sas

- 3 -

GLIEDERUNG Seite

Einleitung.....................................................................................................1

1 Varianzanalyse ............................................................................................3

1.1 Einfaktorielle Varianzanalyse ...................................................................3

1.1.1 Einfaktorielle Varianzanalyse mit festen Effekten ...................................3

1.1.1.1 Modell..........................................................................................................3

1.1.1.2 Globaler Fisher-Test ...................................................................................6

1.1.1.3 Multiple Mittelwertsvergleiche................................................................10

1.1.1.4 Durchf�hrung mit SAS.............................................................................12

1.1.2 Einfaktorielle Varianzanalyse mit zuf�lligen Effekten...........................18

1.1.2.1 Modell........................................................................................................18

1.1.2.2. Globaler Fisher-Test .................................................................................19

1.1.2.3 Durchf�hrung mit SAS.............................................................................20

1.2. Zweifaktorielle Varianzanalyse ...............................................................22

1.2.1 Zweifaktorielle Varianzanalyse mit festen Effekten...............................22

1.2.1.1 Modell........................................................................................................22

1.2.1.2 Globaler Fisher-Test .................................................................................25

1.2.1.3 Multiple Mittelwertsvergleiche................................................................27

1.2.1.4 Durchf�hrung mit SAS.............................................................................28

1.2.2 Zweifaktorielle Varianzanalyse mit zuf�lligen Effekten........................32

1.2.2.1 Modell........................................................................................................32

1.2.2.2 Globaler Fisher-Test .................................................................................33

1.2.2.3 Durchf�hrung mit SAS.............................................................................35

1.2.3 Zweifaktorielle Varianzanalyse mit gemischten Effekten .....................35

1.2.3.1 Modell........................................................................................................35

Page 4: Diplomarbeit varianzanalyse mit sas

- 4 -

1.2.3.2 Globaler Fisher-Test .................................................................................36

1.2.3.3 Durchf�hrung mit SAS.............................................................................38

1.2.4 Zweifaktorielle Varianzanalyse mit festen Effekten

und einer Beobachtung pro Zelle .............................................................38

1.2.4.1 Modell........................................................................................................38

1.2.4.2 Globaler Fisher-Test .................................................................................40

1.2.4.3 Durchf�hrung mit SAS.............................................................................41

1.2.5 Zweifaktorielle hierarchische Varianzanalyse ........................................45

1.2.5.1 Modell.............................................................................................................45

1.2.5.2 Globaler Fisher-Test ................................................................................46

1.2.5.3 Durchf�hrung mit SAS .................................................................................48

1.2.6 Randomisierte vollst�ndige Blockanlage......................................................48

1.2.6.1 Modell ............................................................................................................48

1.2.6.2 Globaler Fisher-Test ...................................................................................50

1.2.6.3 Durchf�hrung mit SAS ..........................................................................52

1.2.7 Zweifaktorielle Varianzanalyse, unbalanciert ..............................................52

1.2.7.1 Modell .........................................................................................................52

1.2.7.2 Globaler Fisher-Test ...............................................................................55

1.2.7.3 Multiple Mittelwertsvergleiche ...............................................................58

1.2.7.4 Durchf�hrung mit SAS.............................................................................59

2 Statistische Grundlagen ............................................................................64

2.1 Grundgesamtheit und Stichprobe..................................................................64

2.2 Statistische Masszahlen .................................................................................64

2.3 Zufallsvariable................................................................................................65

2.4 Spezielle Verteilungen...................................................................................66

Page 5: Diplomarbeit varianzanalyse mit sas

- 5 -

2.4.1 Normalverteilung ...........................................................................................66

2.4.2 Chi-Quadrat-Verteilung.................................................................................68

2.4.3 Student-Verteilung.........................................................................................68

2.4.4 Fisher-Verteilung ...........................................................................................68

2.5 Parametertest .............................................................................................69

2.6 Test der Normalverteilungsannahme.......................................................71

2.6.1 Residualvariable........................................................................................71

2.6.2 Durchf�hrung mit SAS.............................................................................72

3 Das SAS-System.......................................................................................73

3.1 Einf�hrung.................................................................................................73

3.2 Die drei Fenster .........................................................................................73

3.3 Die SAS-Sprache ......................................................................................74

3.4 Das SAS-Programm..................................................................................74

3.4.1 Der DATA-Step .............................................................................................74

3.4.2 Der PROC-Step.........................................................................................75

4 Schlussfolgerung.......................................................................................77

5 Literaturverzeichnis ..................................................................................79

Anhang

Page 6: Diplomarbeit varianzanalyse mit sas

- 6 -

EINLEITUNG

Der Begriff der Varianzanalyse geht auf R. A. Fisher (1890-1962) zur�ck, der ihn erstmals 1918

erw�hnte. Im deutschsprachigen Raum wurde die Varianzanalyse erst nach 1945 bekannt. Sie ist

ein statistisches Verfahren zur Analyse von Messdaten, die von einem oder mehreren zwei- oder

mehrfach abgestuften Faktoren abh�ngen. Dabei wird bestimmt, inwieweit die Faktoren

(unabh�ngige Variablen) die Beobachtungsvariable (abh�ngige Variable) beeinflussen. In dieser

Arbeit werden nur Varianzanalysen mit einer abh�ngigen Variablen behandelt. Diese werden

auch univariate Varianzanalysen genannt. Varianzanalysen mit mehreren abh�ngigen Variablen

nennt man multivariate Varianzanalysen. Die Varianzanalyse l�sst sich auch als

Regressionsanalyse interpretieren, in der die Regressoren nach entsprechender Kodierung nur die

Werte 0 und 1 annehmen k�nnen.

Die Arbeit ist in drei Kapitel eingeteilt. Im 1. Kapitel werden in 7 Unterkapiteln verschiedene

F�lle von Varianzanalysen mit quantitativer Beobachtungsvariablen behandelt: ein- und

zweifaktoriell, mit festen, zuf�lligen und gemischten Effekten, balanciert und unbalanciert,

hierarchisch und randomisierte Blockanlage. Leere Zellen mit nij = 0 werden nicht behandelt. Die

meisten der Unterkapitel bestehen aus den drei Abschnitten: Modell, Globaler Fisher-Test und

Durchf�hrung mit SAS. Im 2. Kapitel werden kurz einige statistische Grundlagen, die im 1.

Kapitel gebraucht werden, erl�utert. Das 3. Kapitel enth�lt Erkl�rungen zu den SAS-

Anwendungen, mit denen die vier Beispielsdateien berechnet wurden. Diese Berechnungen sind

im Anhang zu finden und werden im 1. Kapitel in den Abschnitten ‘Durchf�hrung mit SAS’

interpretiert.

Es wurden Dateien f�r die vier F�lle der Varianzanalysen mit festen Effekten mit der SAS-

Version 6.12 auf einem Pentium-PC mit Windows 95 berechnet. Dabei wurde besonderen Wert

auf die �berpr�fung der Voraussetzung der Normalverteilung der Fehlervariablen mit dem

Shapiro-Wilk-Test in SAS gelegt. Mit dem Statistik Softwarepaket SAS lassen sich

umfangreiche, statistische Datenanalysen innerhalb k�rzester Zeit auf dem PC durchf�hren. Die

vier berechneten Dateien sind die Niere-, die Wald-, die Umwelt- und die Geburt-Datei. Sie

wurden in der Literatur, aus der sie entnommen sind, nicht zur Berechnung von univariaten

Varianzanalysen verwendet, sondern zu anderen Zwecken. Eine Ausnahme bildet die Wald-

Datei, deren Zellen aus den 9 ersten der 16 Beobachtungen der Zellen einer balancierten Datei

Page 7: Diplomarbeit varianzanalyse mit sas

- 7 -

bestehen, mit der eine zweifaktorielle Varianzanalyse in der Originalliteratur mit anderen

Ergebnissen berechnet wurde.

Arithmetische Mittel werden zwar �blich mit Querstrich als Kennung versehen. In der Literatur

gibt es aber auch Ausnahmen, wie z.Bsp. in Ahrens, H./ L�uter, J. (1974) und in Toutenburg, H.

(1994). Ich habe mich aus computertechnischen Gr�nden diesen Beispielen angeschlossen und

die arithmetischen Mittel ohne Querstrich aber mit einem Punkt im Index geschrieben, was zur

Kennung ausreichen d�rfte. Es wird �ber den Index gemittelt, der durch einen Punkt ersetzt

wurde. Da mit SAS keine rechts-b�ndige Druckausgabe m�glich ist, wurden die Seiten des

Anhangs links eingebunden, damit alles sichtbar bleibt.

Page 8: Diplomarbeit varianzanalyse mit sas

- 8 -

1 VARIANZANALYSE

1.1 Einfaktorielle Varianzanalyse

1.1.1 Einfaktorielle Varianzanalyse mit festen Effekten

1.1.1.1 Modell

Zur Einf�hrung des Modells gehen wir von folgendem Beispiel der Niere-Datei (Untersuchung

an der Universit�tskinderklinik Heidelberg, entnommen Graf, A. (1993), S. 219-220) aus:

Zur Untersuchung der Leistungsf�higkeit von weiblichen Kindern und Jugendlichen mit

chronischer Niereninsuffizienz wurden diese einem Leistungstest mit einem Ergometer

unterzogen. Dann wurde ihre Herzfrequenz gemessen. Die Patientinnen wurden in drei

Untersuchungsgruppen ugr=1,2,3 eingeteilt, je nach Krankheitsstadium und es wurde eine

Kontrollgruppe ugr=0 mit gesunden M�dchen angef�gt. In jeder Gruppe befinden sich

unterschiedlich viele Personen.

Allgemein formuliert wird in einer einfaktoriellen Varianzanalyse getestet, ob eine Einflussgr�sse

(Faktor) eingeteilt in unterschiedliche Stufen einen Einfluss auf eine Beobachtungsvariable yij hat

(Dufner, J. (1992), S. 192; Falk, M. (1995), S. 171; Schach, S. (1978), S. 170). Die N

Testeinheiten sind in k Gruppen eingeteilt zu je ni Einheiten (i=1,...,k). Die Einheiten in der i-ten

Gruppe tragen den Index j=1,...,ni. Es gilt:

N nii

i k

1

In unserem Beispiel sind die Kinder die Einheiten und das Krankheitsstadium ist der Faktor A,

der in k=4 Stufen von gesund bis schwerkrank eingeteilt ist. Die Herzfrequenz ist die

Beobachtungsvariable yij In der einfaktoriellen Varianzanalyse geh�rt zu jeder Stufe eine

Untersuchungsgruppe, daher auch der Name Einfachklassifikation.

Wenn man nun die arithmetischen Mittelwerte der Herzfrequenzen in jeder Gruppe berechnet,

k�nnen diese unterschiedlich hoch ausfallen. Die Frage ist, ob es eine Abh�ngigkeit zwischen

Herzfrequenz und Krankheitsstadium gibt. Zur Beantwortung dieser Frage wird getestet, ob die

Page 9: Diplomarbeit varianzanalyse mit sas

- 9 -

Abh�ngigkeit der Beobachtungsvariablen (Herzfrequenz) vom Einflussfaktor

(Krankheitsstadium) zuf�llig ist oder nicht. Zuf�llig bedeutet, dass die Schwankungen der

Beobachtungsvariablen durch den Versuchsfehler entstehen und keine reale Abh�ngigkeit der

Beobachtungsvariablen vom Einflussfaktor darstellen. Die Varianzanalyse wird bei solchen

Versuchen angewandt, wo man den Versuchsfehler nicht vernachl�ssigen kann und sie gibt

M�glichkeiten an die Hand zwischen zuf�lliger und realer Abh�ngigkeit zu unterscheiden.

Man kann sich nun folgende zwei Fragen stellen:

1. �ndern sich die durchschnittlichen Herzfrequenzwerte von einer

Untersuchungsgruppe zur andern?

2. wenn ja, f�r welche Gruppen genau tritt eine �nderung auf, d.h. bei welchen Gruppen

sind die durchschnittlichen Herzfrequenzwerte verschieden?

Im ersten Fall werden die paarweisen Vergleiche zwischen den Mittelwerten zugleich (simultan)

in einem einzigen (globalen ) statistischen Test getestet. Die Nullhypothese postuliert, dass alle

Durchschnitte der Faktorstufen gleich sind. Sobald in einem Vergleich die Mittelwerte signifikant

verschieden sind, wird die Nullhypothese abgelehnt. Man weiss dann zwar, dass zwei oder

mehrere Mittelwerte sich signifikant unterscheiden, man weiss aber nicht welche. Dies kann man

zweitens in einzelnen paarweisen Vergleichen in allen Kombinationsm�glichkeiten testen.

Sind die Stichprobenumf�nge der k Gruppen, auch Zellen genannt, alle gleich n1=...=nk=n liegen

balancierte Daten vor; sind sie ungleich spricht man von unbalancierten Daten (Falk, M. (1995),

S. 178; Searle, S. R. (1992), S. 4). Bei balancierten Daten ist die Varianzanalyse robuster gegen

Verletzungen der Voraussetzungen Normalverteilung und Homoskedastie der Fehlervariablen.

Man kann folgendes lineares Modell formulieren um die Abh�ngigkeit der

Beobachtungsvariablen von den Stufendurchschnitten der Einflussfaktorvariablen zu beschreiben

(Falk, M. (1995), S. 173; Schach, S. (1978), S. 172; Searle, S. R. (1992), S. 44):

Yij i ij i ij

(i=1,...,k; j=1,...,ni) mit den Voraussetzungen:

Yij = unabh�ngig normalverteilte Zufallsvariable mit Erwartungswert i und unbekannter Varianz

Page 10: Diplomarbeit varianzanalyse mit sas

- 10 -

2. Die Realisierung yij ist die j-te Beobachtung in der Zelle i gebildet von Stufe i des Faktors.

ij = unabh�ngig normalverteilte Zufallsvariable mit Erwartungswert 0 und gleicher unbekannter

Varianz ij2 = 2 (Homoskedastie).

ij ist der Versuchsfehler, der von anderen zuf�lligen, bekannten oder unbekannten Einfl�ssen

auf die Beobachtungsvariable herr�hrt, die kleiner sind als der Einfluss des Faktors A. Wenn

einer der bekannten Einfl�sse zu gross wird muss man ihn als zweiten Faktor B in das Modell

einbeziehen und kommt so zur zweifaktoriellen Varianzanalyse. Wenn man einen Versuch

mehrmals wiederholt, erh�lt man auch unter gleichbleibenden, kontrollierten

Versuchsbedingungen immer verschiedene Werte f�r die Beobachtungsvariable. Dies bedingt

Unsicherheit, die mit statistischen Methoden analysiert werden muss. Die Unterschiede zwischen

diesen Werten werden in einer Zelle immer vom Versuchsfehler erfasst.

= reelles Allgemeinmittel

i = fester, reeller Effekt des Faktors A auf Stufe i.

Es kann sein, dass eine andere lineare oder eine nichtlineare Modellgleichung die Wirklichkeit

besser beschreibt. Die Theorie ist dann jedoch mit einem h�heren mathematischen Aufwand

verbunden.

Wir definieren:

11k i

i

i k

i = i -

daraus folgt die Parameterrestriktion:

ii

i k

1

0

Die Sch�tzung der Modellparameter ergibt (Falk, M. (1995), S. 174; Schach, S. (1978), S. 180):

y..

Page 11: Diplomarbeit varianzanalyse mit sas

- 11 -

.i iy

. .. i iy y

.ij ij iy y

mit dem arithmetischen Mittel von Zelle i:

yn

yii

ijj

j ni

.

11

und dem arithmetischen Gesamtmittel:

yN

yN

n yijj

j n

i

i k

ii

i k

i

i

.. .

1 111 1

Regel: Wenn ein Index durch einen Punkt ersetzt ist, wurde �ber diesen Index gemittelt.

1.1.1.2 Globaler Fisher-Test

Als erstes soll nun gepr�ft werden, ob die Erwartungswerte i = + i sich global unterscheiden.

Man vergleicht also k normalverteilte Grundgesamtheiten bez�glich ihrer Mittelwerte.

Ein geeigneter statistischer Test pr�ft die Hypothese:

H0: 1=...=k=0

gegen die Alternativhypothese:

HA: r t

(f�r ein Wertepaar r t) zu einem vorgegebenen Niveau . Daf�r kann ein F-Test verwendet

werden.

Wenn i = 0 f�r alle i ist, gilt im Modell:

Yij = + ij

Page 12: Diplomarbeit varianzanalyse mit sas

- 12 -

d.h. yij schwankt in der Gr�sse des Versuchsfehlers um den festen Wert des Allgemeinmittels .

Es besteht keine nicht-zuf�llige, nicht-konstante Abh�ngigkeit vom Einflussfaktor A.

Um die unter der Nullhypothese H0 zentral F-verteilte Teststatistik F aufzustellen, zerlegen wir

die aus der Totalvarianz herr�hrende Totalquadratsumme SS_CTotal in die Quadratsummen

SS_Model und SS_Error (Dufner, J. (1992), S. 193. Toutenburg, H. (1994), S. 13):

SS CTotal y yijj

j n

i

i k i

_ ( )..

11

2

(( ) ( )). . ..y y y yijj

j n

i

i k

i i

i

11

2

( ) ( ). . ..y y y yijj

j n

i

i k

i ij

j n

i

i ki i

11

2

11

2

211( )( ). . ..y y y yij

j

j n

i

i k

i i

i

n y y y yii

i k

i ijj

j n

i

i k

i

i

1

2

11

2( ) ( ). .. .

= SS_Model + SS_Error

(die Summe in der vierten Zeile ist identisch gleich 0) mit:

SS Model n y yii

i k

i_ ( ). ..

1

2

und

SS Error y yijj

j n

i

i k

i

i

_ ( ).

11

2

SS_Model steht f�r die Variabilit�t, die sich aus der Abweichung der Gruppenmittel vom

Gesamtmittel ergibt, w�hrend SS_Error f�r die Abweichung der Werte vom jeweiligen

Gruppenmittel steht.

Page 13: Diplomarbeit varianzanalyse mit sas

- 13 -

Die Freiheitsgrade DF von SS_CTotal, SS_Model und SS_Error sind N-1, k-1 und N-k. Man

setzt f�r die Mittelquadratsummen MS = SS/DF also

MS_Model = SS_Model/(k-1)

MS_Error = SS_Error/(N-k)

Man berechnet den Erwartungswert E(MS) von MS wie folgt: die Realisationen yij, yi. und y.

werden ersetzt durch ihre Zufallsvariablen Yij, Yi. und Y.. ; dann ist MS eine Zufallsvariable,

deren Erwartungswert E(MS) man unter Ber�cksichtigung von den aus der Modellgleichung

berechneten folgenden Ausdr�cken:

E(Yij) = i

E(Yi.) = i

E YN

nii

i k

i( )..

11

berechnet. Der Erwartungswert von MS_Model ist:

E MS Modelk

nii

i k

i( _ )( )

2

1

211

und von MS_Error ist:

E MS Error( _ ) 2

Man sch�tzt 2 mit SS_Error/(N-k) erwartungstreu.

Es l�sst sich zeigen, dass SS_Model/2 und SS_Error/2 bei Zutreffen der Nullhypothese H0

stochastisch unabh�ngig und zentral 2-verteilt sind mit Freiheitsgrad k-1 bzw. N-k. Also ist nach

Definition der Fisher-Verteilung die Teststatistik (Z�fel, P. (1992), S. 14):

FSS Model kSS Error N k

MS ModelMS Error

_ / ( )_ / ( )

__

1

unter H0 zentral F-verteilt mit Freiheitsgraden k-1 und N-k. Es soll nun gezeigt werden, wie diese

Form der Teststatistik mit den Erwartungswerten E(MS) vermutet werden konnte. Es gilt

Page 14: Diplomarbeit varianzanalyse mit sas

- 14 -

approximativ unter G�ltigkeit der Nullhypoyhese H0:

E MS ModelE MS Error

EMS ModelMS Error

( _ )( _ )

(__

)

Wir ersetzen die E(MS) durch ihre Ausdr�cke und erhalten:

E MS ModelE MS Error k

n EMS ModelMS Error

E Fii

i k

i( _ )( _ ) ( )

(__

) ( )

111 2

1

2

Die linke Seite dieser N�herungsgleichung ist dann und nur dann gleich 1, wenn die

Nullhypothese H0 gilt, wenn also 1=...=k=0 ist (eine Quadratsumme mit positiven Koeffizienten

ist bekanntlich dann und nur dann gleich 0, wenn alle Quadrate gleich 0 sind). Daraus folgt: dann

und nur dann wenn die Alternativhypothese HA gilt, ist der Quotient gr�sser als 1. Unter

G�ltigkeit der Nullhypothese gilt f�r den Erwartungswert E(F) der Teststatistik nach 2.4.4:

E FN kN k

( )

21

E(F) ist ann�hernd gleich 1 f�r grosse N und kleine k. Damit ist die Vermutung best�tigt.

Die Nullhypothese H0: 1=...=k=0 ist zum Niveau abgelehnt, wenn die Ungleichung (Dufner,

J. (1992), S. 195):

F > F1-,k-1,N-k

gilt. Im Beispiel der Niere-Datei ist E(F) = 30/28 = 1,07; wegen N = 34 und k = 4. Bei = 0,05

gilt F1-,k-1,N-k = F0,95;3;30 = 3,71. Wenn F also soweit von 1,07 abweicht, dass F > 3,71 ist, dann ist

die Nullhypothese widerlegt und es gibt einen realen Einfluss des Krankheitsstadiums auf die

Herzfrequenz der Patientinnen. In der Varianzanalyse der Niere-Datei entnehmen wir dem SAS-

Output im Anhang S. 2: F = 4,35 was f�r eine reale Abh�ngigkeit zum Signifikanzniveau =

0,05 spricht.

1.1.1.3 Multiple Mittelwertsvergleiche

Will man zweitens wissen, welche Stufen wirkungsvoller sind als andere, wenn der globale F-

Page 15: Diplomarbeit varianzanalyse mit sas

- 15 -

Test der einfaktoriellen Varianzanalyse signifikant war, dann kann man statistische Verfahren

zum Vergleich der Mittelwerte anwenden (Dufner, J. (1992), S. 209). Diese Verfahren k�nnen

folgende unterschiedlichen Ziele haben:

- man vergleicht alle m�glichen Paare von Mittelwerten; bei k Stufen von Faktor A sind

es m = k(k-1)/2 Paare,

- man vergleicht k-1 Mittelwerte mit einer Kontrollgruppe, das sind m = k-1 Paare.

W�rde man f�r alle m (>1) Vergleiche jeweils einen t-Test zum selben Niveau * durchf�hren,

dann w�re das multiple Niveau gr�sser als *. Das multiple Niveau ist die

Wahrscheinlichkeit, mit der mindestens eine der Hypothesen der m Vergleiche irrt�mlich

abgelehnt wird, dies ist dann auch genau das Niveau des globalen Tests. Das Niveau * der

multiplen Tests muss also kleiner sein als das Niveau des globalen Tests. Es ist folgende

Absch�tzung von gegeben:

* ( *) 1 1 m

Beim PLSD-Test von Fisher (PLSD ist die Abk�rzung f�r „protected least significant

difference“; Toutenburg, H. (1994), S. 103) wird die Nullhypothese H0rt: r=t=0 (oder r=t)

zum Niveau abgelehnt, wenn gilt:

y y t sn nr t N kr t

. . / , 1 21 1

s2 ist gleich der erwartungstreuen Sch�tzung MS_Error von 2.

Der Scheff�-Test beruht auf der Teststatistik (Dufner, J. (1992), S. 213-214):

F y y sn n

kScheff� r tr t

( ) / ( )( ). .2 2 1 1

1

die ein Spezialfall f�r zwei Mittelwerte der Teststatistik F des globalen F-Tests ist und deshalb

gilt * = . Es ist Fscheff� unter der Nullhypothese H0rt: r=t=0 mit den Freiheitsgraden k-1 und N-

k F-verteilt. Die Nullhypothese wird zum Niveau abgelehnt, wenn gilt:

Page 16: Diplomarbeit varianzanalyse mit sas

- 16 -

y y s k F n nr t k N kr t

. . , ,( ) ( ) 11 1

1 1

Auch hier ist s2 gleich der erwartungstreuen Sch�tzung MS_Error.

In beiden Tests werden bei signifikantem Faktor mit mehr als zwei Stufen die einzelnen Stufen

paarweise auf signifikante Unterschiede �berpr�ft. Sollen allgemein einzelne Zellen auf

signifikante Unterschiede �berpr�ft werden, verwenden wir den Duncan-Test (Z�fel, P. (1992),

S. 38). Dieser ist erst bei mehrfaktoriellen Varianzanalysen sinnvoll beim Vergleich von Zellen

verschiedener Faktoren. Wenn die Zellenmittelwerte yr. und yt. gepr�ft werden sollen, z�hlt man

wieviel Zellenmittelwerte der Gr�sse nach zwischen yr. und yt. liegen. Mit dieser Anzahl m

berechnet man:

cMS Error

n nr t

_( )

21 1

und:

d = c q(m+2,N-k)

q(m+2,N-k) ist die zu den Werten , m+2 und N-k geh�rige studentisierte Variationsbreite. Die

beiden Zellenmittelwerte unterscheiden sich signifikant zum Niveau , wenn gilt:

y y dr t. .

1.1.1.4 Durchf�hrung mit SAS

Zur Durchf�hrung mit dem SAS-System wurde ein Programm f�r die Niere-Datei als Beispiel

geschrieben und zur Ausf�hrung gebracht. Das berechnete Ergebnis, der Output, wurde

ausgedruckt und ist im Anhang von S. 1 bis S. 6 zu finden.

Wir wollen aber vorher demonstrieren, wie die Rohdaten des Beispiels als SAS-Systemdatei

gespeichert werden (Gogolok, J. (1992), S. 113). Das Programm dazu lautet:

LIBNAME neu ‘d:\daniel’;

Page 17: Diplomarbeit varianzanalyse mit sas

- 17 -

DATA XY1;

INPUT ugr hfs @@;

CARDS;

..............................

;

RUN;

DATA neu.niere;

SET XY1;

RUN;

Im ersten DATA-Step (das ist der Programmteil von DATA bis RUN) wird eine tempor�re Datei

mit dem Namen ‘XY1’ durch Einlesen der Daten (anstelle der Punkte) mit der Tastatur �ber

CARDS eingegeben. In der INPUT-Anweisung werden die Variablen ugr und hfs definiert. Im

zweiten DATA-Step wird die Datei ‘XY1’ in die permanente Datei ‘niere’ �bertragen, die

dauerhaft in der SAS-Bibliothek mit Namen ‘neu’ abgespeichert ist. Durch die Anweisung

LIBNAME befindet sich der Ordner mit dem SAS-Namen ‘neu’ und dem DOS-Namen ‘daniel’

auf der Festplatte am Speicherplatz ‘d:\daniel’ Wenn wir nun die Datei ‘niere’ ben�tigen,

brauchen wir nur mit der Anweisung SET neu.niere auf die SAS-Bibliothek ‘neu’ zuzugreifen.

So weit diese Vorbereitung zur �bertragung der Rohdaten in eine permanente SAS-Datei. Wir

nehmen im Folgenden an, dass diese Vorbereitungen f�r die anderen Dateien schon gemacht sind

und gehen nicht nochmal darauf ein.

Das Programm f�r die einfaktorielle Varianzanalyse mit festem Effekt der Niere-Datei ist in 5

Teilen eingeteilt worden, die wir jetzt zusammen mit dem dazugeh�rigen Output nacheinander

behandeln werden.

Der 1. Teil des Programms lautet:

LIBNAME neu ‘d:\daniel’;

DATA dk1;

SET neu.niere;

Hier wird die permanente SAS-Datei neu.niere aus der SAS-Bibliothek neu im Ordner daniel auf

der Festplatte in eine tempor�re Datei dk1 �bertragen. Sie existiert nur f�r die Dauer der Sitzung

Page 18: Diplomarbeit varianzanalyse mit sas

- 18 -

und ist danach verloren. Einen Output haben wir f�r diesen Programmteil noch nicht.

Der 2. Teil des Programms lautet (Dufner, J. (1992), S. 199-201):

PROC GLM DATA = dk1;

CLASS ugr;

MODEL hfs = ugr;

Die Prozedur GLM wird mit der Datei dk1 ausgef�hrt. In der CLASS-Anweisung muss die

Faktorvariable ugr angegeben werden. In der MODEL-Anweisung wird zwingend die

Modellgleichung als Beobachtungsvariable hfs getrennt durch das Gleichheitszeichen von der

Faktorvariablen ugr angegeben (Schuemer, R. (1990), S. 11-13). Dadurch wird die einfaktorielle

Varianzanalyse der Niere-Datei berechnet mit dem Output im Anhang S. 1-2.

Auf S. 1 erh�lt man nur die Information �ber die Faktorvariable ugr mit der Anzahl und den

Auspr�gungen der Stufen (Klassen, levels) und der Anzahl der Beobachtungen (Observationen)

der Datei.

Auf S. 2 erh�lt man in Tabellenform (auch Anova-Tabelle genannt, Anova ist die Abk�rzung f�r

analysis of variance) die Werte der Quadratsummen SS (sum of square) mit den Freiheitsgraden

DF und den Mittelquadratsummen MS = SS/DF. Den Wert der Teststatistik F des globalen

Fisher-Tests (Abschnitt 1.1.1.2) finden wir unter (F value) = 4,35. Die

�berschreitungswahrscheinlichkeit P(X > F) wird (wobei X eine F-verteilte Zufallsvariable mit

Freiheitsgraden k-1=3 und N-k=30 ist) durch (Pr>F)=0,0117 gegeben. Diesen Wert kann man

sofort mit dem Signifikanzniveau vergleichen, um �ber die Ablehnung der Nullhypothese zu

entscheiden. Die Nullhypothese wird abgelehnt, wenn gr�sser als (Pr>F) ist. Hier ist (Pr>F) =

0,0117, dann wird die Nullhypothese bei > 0,02 abgelehnt. Die Sch�tzung der Modellvarianz 2

ist MS_Error = 419,0449. Die folgenden Gr�ssen auf S.2 bedeuten:

R-Square = SS_Model/SS_CTotal = Bestimmtheitsmass = 0,303209

C.V. = 100 Root MSE/HFS Mean = Variationskoeffizient = 12,358 %

Root MSE = (MS_Error)1/2 = 20,471

HFS Mean = y. = Gesamtmittel von HFS = 165,65

Page 19: Diplomarbeit varianzanalyse mit sas

- 19 -

Das Bestimmtheitsmass gibt mit einem Wert nahe bei 1 an, ob das lineare Modell gut an das

Problem angepasst ist. Hier haben wir mit 0,3 einen sehr schlechten Wert. Das Problem wird

durch das lineare Modell nicht gut beschrieben, ein nicht-lineares Modell o.�. w�re vielleicht

besser geeignet.

Der Rest auf S. 2 ist nur eine zweimalige Wiederholung der Model-Zeile der Anova-Tabelle und

ist nur bei mehrfaktoriellen Varianzanalysen brauchbar.

Der 3. Teil des Programms lautet:

OUTPUT OUT = res_r RESIDUAL = r;

MEANS ugr / SCHEFFE CLDIFF alpha = 0.05;

MEANS ugr / DUNCAN alpha = 0.05;

TITLE ‘Einfaktorielle Varianzanalyse der Niere-Datei’;

Mit der Option RESIDUAL wird mit der Prozedur GLM das Residuum r (Abschnitt 2.6.1)

berechnet und mit OUTPUT OUT in der tempor�ren Datei res_r eingegeben (Dufner, J. (1992),

S. 203; Schuemer, R. (1990), S. 23). Die Datei res_r hat denselben Inhalt wie die Niere-Datei

zuz�glich den Residuen, siehe Ausdruck Anhang S. 5.

In den beiden folgenden MEANS-Anweisungen werden multiple Mittelwertsvergleiche der

Stufenmittelwerte mit dem Scheff�- und dem Duncan-Test zum Signifikanzniveau alpha = 0,05

durchgef�hrt (Dufner, J. (1992), S. 216-218; Schuemer, R. (1990), S. 21-22). In der MEANS-

Anweisung m�ssen die Klassifizierungsvariable ugr und die Optionen SCHEFFE, DUNCAN und

alpha = wert stehen. In MEANS ist f�r alpha der Wert 0,05 voreingestellt, d.h. er br�uchte

eigentlich nicht angegeben zu werden. In DUNCAN sind nur die Werte 0,1; 0,05 und 0,01

verf�gbar. Die CLDIFF-Option im Scheff�-Test bewirkt, dass die Konfidenzgrenzen zu den

Mittelwertsdifferenzen ausgegeben werden. Die signifikanten F�lle sind durch 3 Sternchen

gekennzeichnet; es sind die F�lle wo die Null nicht zum Konfidenzintervall geh�rt. Bei der

LINES-Option, wie beim Duncan-Test in S. 4 des Anhangs, sind die Mittelwerte in absteigender

Reihenfolge ausgedruckt, wobei Gruppen von untereinander nicht signifikant verschiedenen

Mittelwerten durch Linien (senkrechte Buchstabenkolonnen) gekennzeichnet sind. LINES

entspricht der Voreinstellung bei DUNCAN und ist deshalb nicht im Programm angegeben

worden.

Page 20: Diplomarbeit varianzanalyse mit sas

- 20 -

Beim Scheff�-Test sehen wir im Ausdruck Anhang S. 3, dass nur der Vergleich zwischen dem 1.

und 2. Stufenmittelwert vom Faktor Untersuchungsgruppe beim Niveau 0,05 signifikant ist. Beim

Duncan-Test sehen wir im Ausdruck Anhang S. 4, dass die 1. und 2. bzw. 1. und 4.

Stufenmittelwerte signifikant verschieden sind.

Mit der TITLE-Anweisung wird der Ausdruck mit einem Titel versehen.

Der Programmteil 4 lautet:

LABEL ugr = ‘Untersuchungsgruppe’

hfs = ‘Herzfrequenz’

r = ‘Residuum’;

PROC PRINT DATA = res_r LABEL;

TITLE ‘Die Niere-Datei mit Residuen’;

Mit der Prozedur PRINT wird hier die Datei res_r ausgedruckt. Vorher werden die

Variablennamen ugr, hfs und r mit der LABEL-Anweisung im Ausdruck durch ihre

ausgeschriebenen Bezeichnungen ersetzt (Gogolok, J. (1992), S. 373). Am Ende wird ein Titel

mit der TITLE-Anweisung hinzugef�gt. Auf S. 5 im Anhang ist der Ausdruck der Datei res_r zu

finden.

Der 5. und letzte Teil des Programms lautet:

PROC UNIVARIATE DATA = res_r NORMAL;

VAR r;

TITLE1 ‘Test der Normalverteilungsannahme’;

TITLE2 ‘der Niere-Datei’;

RUN;

Hier wird die Prozedur UNIVARIATE an der Datei res_r mit der Option NORMAL ausgef�hrt.

Mit dieser Option werden die Variablen der Datei daraufhin getestet, ob sie normalverteilt sind.

Mit der VAR-Anweisung wird nur die Variable r ber�cksichtigt. Der Output der Prozedur

UNIVARIATE befindet sich auf S. 6 des Anhangs und ist in Moments, Quantiles und Extremes

eingeteilt.

Unter Moments sind folgende Begriffe zu erkl�ren:

Page 21: Diplomarbeit varianzanalyse mit sas

- 21 -

Die Anzahl N der Beobachtungen ist N = 34. Die Summe (sum) und der Mittelwert (mean) sind

nach der Definition der Residuen gleich 0. Die Standardabweichung (Std Dev) ist 19,51794 und

deren Quadrat, die Varianz (Variance) ist 380,9499. Die Werte der Schiefe (skewness = -

0,10955) und W�lbung (kurtosis = -0,04996) von nahe 0 zeigen Normalverteilung an. Der

Variationskoeffizient CV kann nicht berechnet werden, weil Mean im Nenner 0 ist. Es wird ein t-

Test ausgef�hrt zur Nullhypothese Mean = 0, dessen Teststatistik T gleich 0 und dessen

�berschreitungswahrscheinlichkeit (Pr>T) gleich 1 ist. Das Signifikanzniveau kann 1 aber

nicht �berschreiten, es ist also unm�glich die Nullhypothese zu wiederlegen. Der Ausdruck

Num^=0 gibt die Anzahl der Beobachtungen an, die ungleich 0 sind, es sind alle 34. Num>0 gibt

die Anzahl der positiven Beobachtungen an, es sind 19. W:Normal ist die Teststatistik W des

Normalverteilungstests (Shapiro-Wilk-Test), sie hat den Wert W = 0,981576. F�r Werte von W

nahe bei 1 gilt die Normalverteilungsannahme. Die Wahrscheinlichkeit (Pr<W) der

Unterschreitung von W ist 0,8612. Wenn das Signifikanzniveau kleiner als (Pr<W) ist, dann ist

die Normalverteilungsannahme gerechtfertigt. Dies ist hier f�r Signifikanzniveaus bis zu 0,8 der

Fall, gew�hnlich gibt man den Wert 0,1 vor.

Die weniger wichtigen statistischen Masse von Moments wollen wir nur einmal an dieser Stelle

erl�utern und sp�ter nicht mehr darauf eingehen. Es gilt immer Sum Wgts = N, wenn man wie

wir keinen Gebrauch von der WEIGHT-Anweisung gemacht hat. USS ist die Quadratsumme der

Variablen r. Es gilt CSS = Variance*(N-1) und Std Mean = Std Dev/N1/2. Es ist M(Sign) die

zentrierte Signum-Statistik zur Pr�fung der Hypothese: Median = 0 mit der

�berschreitungswahrscheinlichkeit Pr>=M und Sgn Rank ist der Signed Rank S-Wert f�r die

Hypothese: Mean = 0 mit der �berschreitungswahrscheinlichkeit Pr>=S.

Unter Quantiles sind die wichtigsten -Quantile, mit Wahrscheinlichkeit in %, angegeben. Bei

= 50 % hat man den Median, bei = 25 % bzw. = 75 % hat man das erste bzw. dritte Quartil.

Darunter folgt die Spannweite (range = 86) das ist die Differenz zwischen Maximal- und

Minimalwert. Der Quartilsabstand (Interquartil Range = 28) ist die Differenz zwischen dem

dritten und ersten Quartil = Q3-Q1. Als letztes folgt der Modalwert (Mode = -5,92308.

Unter Extremes sind die 5 niedrigsten und die 5 h�chsten Werte von r angegeben mit ihren

Beobachtungsnummern.

Zum Abschluss des Programms sind mit den Anweisungen TITLE1 und TITLE2 zwei Titelzeilen

Page 22: Diplomarbeit varianzanalyse mit sas

- 22 -

eingegeben (Gogolok, J. (1992), S. 384-386). Auf die reine Wiederholung der Erkl�rung der

TITLE-Anweisung wollen wir in Zukunft verzichten. Mit RUN wird das gesamte Programm

abgeschlossen und kann dann mit dem Befehl SUBMIT zur Ausf�hrung gebracht werden.

Page 23: Diplomarbeit varianzanalyse mit sas

- 23 -

1.1.2 Einfaktorielle Varianzanalyse mit zuf�lligen Effekten

1.1.2.1 Modell

Manchmal sind bei einem einfaktoriellen Versuch die Stufen des Einflussfaktors A nicht bewusst

und systematisch vorgegeben, sondern zuf�llig ausgew�hlt. Sie sind als Zufallsstichprobe aus

einer gedachten unendlichen Grundgesamtheit anzusehen. Dann m�ssen in dem einfaktoriellen

Varianzanalysemodell die festen Effekte i durch Zufallsvariable Ti ersetzt werden (Dufner, J.

(1992), S. 232-234; Searle, S. R. (1992), S. 7). Es gilt das lineare Modell:

Yij = + Ti + ij

(i=1,...,k; j=1,...,ni)

Yij = unabh�ngig normalverteilte Zufallsvariable mit Erwartungswert und unbekannter Varianz

total2.

ij = unabh�ngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz ij2 = 2

(Homoskedastie).

Ti = unabh�ngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz t2.

Ti und ij sind stochastisch unabh�ngig voneinander. Das reelle, feste, unbekannte

Allgemeinmittel spielt hier keine wichtige Rolle. Es gilt:

Var Y Var T Varij total i ij t( ) ( ) ( ) 2 2 2

cov(Yij,Yrt) = 0 f�r i r

cov(Yij,Yrt) = t2 f�r i = r und j t

Es ist nicht immer einfach zu entscheiden, ob in einem Problem die Effekte fest oder zuf�llig sein

sollen. In Varianzanalysen aus der Tierzucht treten meistens zuf�llige Effekte auf. Wenn z.B. aus

einer H�hnerzuchtpopulation k Hennen zuf�llig ausgew�hlt werden und von jeder Henne als

Zielvariable die Gewichte von n Eiern (balancierte Daten) bestimmt werden, dann setzt sich die

totale Varianz total2 der Eigewichte zusammen aus der genetischen Varianz t2 zwischen den

Hennen und der Varianz 2 der zuf�lligen Schwankungen der Eigewichte.

Page 24: Diplomarbeit varianzanalyse mit sas

- 24 -

1.1.2.2 Globaler Fisher-Test

Wenn die Genetik zwischen den Hennen keinen Einfluss auf die Eigewichte hat, gilt die

Nullhypothese:

H0: t2 = 0

im anderen Falle gilt die Alternativhypothese:

HA: t2 > 0

Die Zerlegung der Quadratsumme SS_CTotal im Fall fester Effekte gilt auch hier und derselbe

globale F-Test kann verwendet werden. F�r die Erwartungswerte E(MS) der MS gilt abweichend:

E MS Model n t( _ ) 20

2

mit

nk

NN

nii

i k

02

1

11

1

( )

hier gilt f�r balancierte Daten: ni = n = n0,

E MS Error( _ ) 2

MS_Error also ist eine erwartungstreue Sch�tzung f�r die Varianz 2. Ferner gilt f�r die

Sch�tzung von t2:

_ _

tMS Model MS Error

n2

0

Aus den Erwartungswerten E(MS) l�sst sich die Teststatistik:

FMS ModelMS Error

__

vermuten. Die Quadratsummen SS_Model und SS_Error sind dieselben wie im Fall der

einfaktoriellen Varianzanalyse mit festen Effekten und haben auch die gleichen Eigenschaften.

Page 25: Diplomarbeit varianzanalyse mit sas

- 25 -

Man kann beweisen, dass F unter der Nullhypothese F-verteilt ist mit den Freiheitsgraden k-1 und

N-k.

Die Nullhypothese H0 wird verworfen, wenn:

F > F1-,k-1,N-k

gilt, bei gegebenem Niveau .

1.1.2.3 Durchf�hrung mit SAS

Wir geben hier nur ohne Berechnung eines Beispiels und ohne Ausdruck im Anhang an, was sich

im SAS-Programm gegen�ber Abschnitt 1.1.1.4 ge�ndert hat. Die Prozedur GLM wird durch die

Anweisung RANDOM mit der Option TEST erweitert. Der ge�nderte Programmabschnitt lautet:

PROC GLM DATA = ...;

CLASS a;

MODEL y = a;

RANDOM a / TEST;

RUN;

Die einzige Faktorvariable a muss unter RANDOM angegeben werden, weil der Effekt der

Einflussvariablen A zuf�llig ist (Schuemer, R. (1990), S. 23). Im Output werden u.a. die

erwarteten Mittelquadrate und der globale F-Test ausgegeben.

Page 26: Diplomarbeit varianzanalyse mit sas

- 26 -

1.2 Zweifaktorielle Varianzanalyse

1.2.1 Zweifaktorielle Varianzanalyse mit festen Effekten

1.2.1.1 Modell

Es kann auch eine Abh�ngigkeit einer quantitativen Gr�sse von mehr als einem Einflussfaktor

bestehen (Schach, S. (1978), S. 190; Z�fel, P. (1992), S. 1-4). Im Beispiel der Wald-Datei h�nge

der pH-Wert im Boden von einem Waldst�ck von den Faktoren Beregnung und Kalkung ab

(entnommen aus Falk, M. (1995), S. 41). Der Faktor Beregnung komme in drei Stufen (keine

zus�tzliche, zus�tzliche saure und zus�tzliche normale) vor und der Faktor Kalkung in zwei

Stufen (ohne und mit Kalkung). Das Waldst�ck wird in sechs Parzellen eingeteilt entsprechend

den sechs Kombinationsm�glichkeiten der Stufen der beiden Faktoren. Auf Parzelle ij wird die i-

te Stufe von Faktor A (Beregnung) und die j-te Stufe von Faktor B (Kalkung) ausgef�hrt. Dies

wird f�r jede Parzelle neunmal wiederholt. Es handelt sich also um balancierte Daten, weil die

Anzahl der Versuche auf jeder Parzelle gleich ist. Es gilt i=1,...,a=3; j=1,...,b=2; k=1,...,n=9.

Wenn zwei Faktoren A und B einen Einfluss auf eine quantitative Beobachtungsvariable y haben,

und diese Faktoren in a bzw. b > 1 Stufen auftreten, dann m�chte man wissen, ob die Stufen jeder

dieser Faktoren f�r sich global denselben Einfluss auf die Beobachtungsvariable haben und wenn

nicht, welche Stufen genau unterschiedlichen Einfluss haben im (paarweisen) Vergleich zu

anderen.

Von weiterem Interesse in der zweifaktoriellen Varianzanalyse ist die Wechselwirkung (Z�fel, P.

(1992), S. 18) zwischen den zwei Faktoren (oder gegebenenfalls mehreren Faktoren in der

mehrfaktoriellen Varianzanalyse). Eine signifikante Wechselwirkung AB zwischen den Faktoren

A und B w�rde bedeuten, dass die Unterschiede zwischen den verschiedenen Stufen des Faktors

A vom Faktor B abh�ngen oder die Unterschiede zwischen den verschiedenen Stufen des Faktors

B vom Faktor A abh�ngen; oder k�rzer gesagt, dass die Unterschiede zwischen den Stufen des

einen Faktors je nach der Stufe des anderen Faktors verschieden gross sind.

Man kann folgendes lineares Modell aufstellen (Dufner, J. (1992), S. 236-238; Falk, M. (1995),

S. 188):

Page 27: Diplomarbeit varianzanalyse mit sas

- 27 -

Yijk = ij + ijk = + i + j + ij + ijk

(i=1,...,a; j=1,...,b; k=1,...,n) mit:

Yijk = unabh�ngig normalverteilte Zufallsvariable mit Erwartungswert ij und unbekannter

Varianz 2. Die Realisierung yijk ist die k-te Beobachtung in der Zelle ij gebildet von Stufe i des

Faktors A und Stufe j des Faktors B.

ijk = unabh�ngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz ijk2 = 2

(Homoskedastie).

= reelles Allgemeinmittel,

i = fester, reeller Effekt von Faktor A auf Stufe i,

j = fester, reeller Effekt von Faktor B auf Stufe j,

ij = feste, reelle Wechselwirkung zwischen der i-ten Stufe von Faktor A und der j-ten Stufe von

Faktor B.

Wir definieren (Ahrens, H. (1974), S. 161):

111ab ij

j

j b

i

i a

i ijj

j b

b

11

j iji

i a

a

11

ij = ij - i - j -

Es gelten die Parameterrestriktionen:

ii

i a

jj

j b

1 1

0

und

Page 28: Diplomarbeit varianzanalyse mit sas

- 28 -

iji

i a

ijj

j b

1 1

0

Die Sch�tzung der Modellparameter ergibt (Falk, M. (1995), S.189; Schach, S. (1978), S. 196):

... y

.ij ijy

.. ...i iy y

. . ... j jy y

. .. . . ... ij ij i jy y y y

.ijk ijk ijy y

Dabei gilt f�r das arithmetische Mittel der i-ten Stufe von Faktor A:

ybn

yi ijkk

k n

j

j b

..

111

und f�r das arithmetische Mittel der j-ten Stufe von Faktor B gilt:

yan

yj ijkk

k n

i

i a

. .

111

sowie f�r das arithmetische Mittel der Zelle ij gilt:

yn

yij ijkk

k n

.

11

F�r das arithmetische Mittel aller Beobachtungen gilt:

y N yijkk

k n

j

j b

i

i a

...

1111

Page 29: Diplomarbeit varianzanalyse mit sas

- 29 -

1.2.1.2 Globaler Fisher-Test

Es soll nun wie bei der einfaktoriellen Varianzanalyse global entschieden werden, ob es feste

Effekte gibt, die signifikant von 0 verschieden sind, oder ob alle nicht signifikant sind. Dazu

werden die drei Nullhypothesen:

H0A: 1=...=a=0

H0B: 1=...=b=0

H0AB: ij=0 f�r alle i,j

gegen die alternativen Hypothesen zu einem vorgegebenen Niveau getestet. Wieder wird die

bekannte Quadratsumme SS_CTotal in Teilquadratsummen zerlegt, mit deren Hilfe

Teststatistiken, die einer F-Verteilung folgen, aufgestellt werden k�nnen. Damit kann man dann

die drei Nullhypothesen �berpr�fen. F�r die Totalquadratsumme:

SS CTotal y yijkk

k n

j

j b

i

i a

_ ( )...

111

2

mit dem Freiheitsgrad DF = abn-1 gilt die Zerlegung (Dufner, J. (1992), S. 238-240):

SS_CTotal = SS_A + SS_B + SS_AB + SS_Error

Ohne Berechnung geben wir die folgenden Ergebnisse an (Falk, M. (1995), S. 192; Schach, S.

(1978), S. 201):

SS A bn y yii

i a

_ ( ).. ...

1

2

mit Freiheitsgrad DF = a-1 und Mittelquadratsumme MS_A = SS_A/DF und Erwartungswert

E(MS_A):

E MS Abna i

i

i a

( _ )

2 2

11

es gilt:

Page 30: Diplomarbeit varianzanalyse mit sas

- 30 -

SS B an y yjj

j b

_ ( ). . ...

1

2

mit DF = b-1 und MS_B = SS_B/DF sowie:

E MS Banb j

j

j b

( _ )

2 2

11

ebenso gilt:

SS AB n y y y yijj

j b

i

i a

i j_ ( ). .. . . ...

11

2

mit DF = (a-1)(b-1) und MS_AB = SS_AB/DF sowie:

E MS ABn

a b ijj

j b

i

i a

( _ )( )( )

2 2

111 1

schliesslich gilt:

SS Error y yijkk

k n

j

j b

i

i a

ij_ ( ).

111

2

mit DF = ab(n-1) und MS_Error = SS_Error/DF sowie:

E MS Error( _ ) 2

MS_Error ist wieder ein erwartungstreuer Sch�tzer f�r die Varianz 2 des Versuchsfehlers ijk.

Bei G�ltigkeit der drei Nullhypothesen sind die Quadratsummen SS/2 mit SS_A, SS_B, SS_AB

und SS_Error als SS wieder stochastisch unabh�ngig und Chi-Quadrat-verteilt mit den

entsprechenden Freiheitsgraden a-1, b-1, (a-1)(b-1) und ab(n-1). Wenn man die Erwartungswerte

E(MS) und die Nullhypothesen betrachtet, kann man leicht folgende Teststatistiken F1, F2 und F3

vermuten (Dufner, J. (1992), S. 240; Falk, M. (1995), S. 193):

FMS A

MS Error1 _

_

Page 31: Diplomarbeit varianzanalyse mit sas

- 31 -

FMS B

MS Error2 _

_

FMS ABMS Error3

__

Diese sind nach der Definition der F-Verteilung unter den Nullhypothesen F-verteilt. Diese aus

einer Vermutung aufgestellte Behauptung kann bewiesen werden.

Die Bedingungen zum Verwerfen der Nullhypothesen sind:

H F FA a ab n0 1 1 1 1 , , ( )

H F FB b ab n0 2 1 1 1 , , ( )

H F FAB a b ab n0 3 1 1 1 1 ,( )( ), ( )

f�r vorgegebenes Niveau .

Wenn die Wechselwirkungen ij signifikant von 0 verschieden sind, heisst das Modell saturiertes

Modell; ohne Wechselwirkung heisst es Unabh�ngigkeitsmodell. Wenn allein die Effekte eines

Faktors signifikant sind, kann man den anderen Faktor, dessen Effekte nicht signifikant sind,

herausnehmen und das Modell wird besser in einer einfaktoriellen Varianzanalyse berechnet.

1.2.1.3 Multiple Mittelwertsvergleiche

Wenn der globale F-Test eines Faktors signifikant war, findet man mit den multiplen

Mittelwertsvergleichen heraus, welche Stufenmittelwerte zu einem vorgegebenen

Signifikanzniveau signifikant verschieden sind. Ein Vergleich von zwei Stufenmittelwerten yr..

und yt.. des Faktors A wird mit der Nullhypothese:

H rtr t0 0:

durchgef�hrt. Die Testgr�sse des jeweiligen Tests ist:

Page 32: Diplomarbeit varianzanalyse mit sas

- 32 -

Ky ys

r t.. ..

wobei s die Sch�tzung (MS_Error)1/2 der Standardabweichung ist. Die Nullhypothese wird

abgelehnt, wenn:

K > KT

ist, mit:

K tbnT ab n 1 2 1

2 / , ( )

f�r den PLSD-Test (mit der Student-Verteilung) und mit:

K FabnT a ab n

1 1 1

2 1 , , ( )

( )

f�r den Scheff�-Test (mit der F-Verteilung) und mit:

K q m ab nnT ( , ( ))2 1

1

f�r den Duncan-Test. Der Fall des multiplen Vergleichs der Stufenmittelwerte des Faktors B

verl�uft analog.

1.2.1.4 Durchf�hrung mit SAS

F�r die balancierte, zweifaktorielle Varianzanalyse mit festen Effekten wurde die Wald-Datei

durchgerechnet (Anhang S. 13). Das Programm wurde in 5 Teile eingeteilt. Der 1. Teil lautet:

LIBNAME neu ‘d:\daniel’;

DATA dk2;

SET neu.wald;

Die permanente Datei neu.wald aus der SAS-Bibliothek neu wird in die tempor�re Datei dk2

�berf�hrt. Einen Output haben wir hier noch nicht.

Page 33: Diplomarbeit varianzanalyse mit sas

- 33 -

Der 2. Teil lautet:

PROC GLM DATA = dk2;

CLASS kalk bereg;

MODEL ph = kalk bereg kalk*bereg;

Die Prozedur GLM berechnet die zweifaktorielle Varianzanalyse der Datei dk2. In der CLASS-

Anweisung m�ssen die beiden Faktorvariablen kalk f�r Kalkung und bereg f�r Beregnung

angegeben werden. Die Modellgleichung unter MODEL enth�lt auch den Wechselwirkungsterm

kalk*bereg, mit dem der feste Effekt in die Berechnungen einbezogen wird (Schuemer, R.

(1990), S. 11-13).

Den Output findet man im Anhang S. 7-8. Auf S. 7 erh�lt man die Informationen �ber die Anzahl

und Auspr�gungen der Stufen (levels) der beiden Faktorvariablen kalk und bereg und �ber die

Anzahl Beobachtungen in der Wald-Datei.

Auf S. 8 erh�lt man zuerst die Anova-Tabelle der Zerlegung von SS_CTotal in SS_Model und

SS_Error wie bei der einfaktoriellen Varianzanalyse und danach wird in einer zweiten Anova-

Tabelle die Zerlegung der Quadratsumme SS_Model in SS_A, SS_B und SS_AB ausgegeben

(Dufner, J. (1992), S. 243). Als N�chstes wird diese Tabelle in dem Ausdruck nochmals als Type

III wiederholt, nur im Fall unbalancierter Daten steht hier eine gesonderte Berechnung. In allen

Anova-Tabellen sind die Freiheitsgrade DF, die Quadratsummen SS, die Mittelquadratsummen

MS, die F-Statistiken (F value) und die �berschreitungswahrscheinlichkeiten (Pr>F) f�r jeden

Effekt angegeben. F�r =0,05 sind alle (Pr>F) kleiner als , sodass alle drei Effekte signifikant

von 0 verschieden sind. Die Nullhypothesen werden abgelehnt. Alle zwei Faktoren haben einen

nicht-zuf�lligen Einfluss auf den pH-Wert. Ebenso gibt es eine nicht-zuf�llige Wechselwirkung

zwischen den beiden Faktoren. Bei =0,02 ist die Wechselwirkung zu vernachl�ssigen und bei

=0,01 ist nur kalk signifikant, d.h. in dem Fall hat nur die Kalkung eine deutliche Wirkung auf

den pH-Wert im Wald.

Die Sch�tzung der Modellvarianz 2 ist MS_Error = 0,09934. F�r das Bestimmtheitsmass R-

Square = 0,960669 wurde ein Wert nahe bei 1 berechnet. Dies zeigt eine gute Anpassung des

linearen Modells an das Problem an. Der Variationskoeffizient ist CV = 5,570712 %. Es gilt f�r

die Sch�tzung der Standardabweichung : Root MSE = 0,3152. Das gesamte arithmetische Mittel

der pH-Werte ist ph Mean = 5,6578. Aus der Chemie wissen wir, dass dies einen sauren Boden

Page 34: Diplomarbeit varianzanalyse mit sas

- 34 -

anzeigt. Der Neutralwert ist bekanntlich pH = 7.

Der 3. Teil des Programms lautet (Schuemer, R. (1990), S. 21-23):

OUTPUT OUT = res_s RESIDUAL = s;

MEANS kalk bereg / SCHEFFE CLDIFF alpha = 0.05;

MEANS kalk bereg / DUNCAN alpha = 0.05;

TITLE ‘Zweifaktorielle Varianzanalyse der Wald-Datei’;

Mit der Option RESIDUAL wird in der Prozedur GLM das Residuum s berechnet und mit

OUTPUT OUT an die Wald-Datei angef�gt. Die Ausgabedatei ist tempor�r und hat den Namen

res_s und wird sp�ter als Output des 4. Programmteils ausgedruckt werden.

Die beiden folgenden MEANS-Anweisungen dienen der Ausf�hrung von multiplen Vergleichen

der Mittelwerte der Stufen der beiden Einflussfaktoren, deren Variablen kalk und bereg

angegeben werden m�ssen. Mit der Option SCHEFFE CLDIFF alpha = 0,05 wird ein Scheff�-

Test zum Signifikanzniveau = 0,05 ausgef�hrt, bei dem mit CLDIFF die Konfidenzgrenzen zu

den Mittelwertsdifferenzen ausgegeben werden. Drei Sternchen im Output Anhang S. 9-10

zeigen Signifikanz an. Demzufolge sind die beiden Stufenmittelwerte von Faktor Kalkung

signifikant verschieden, sowie auch die Mittelwerte der Stufen 1 und 3 des Faktors Beregnung.

Mit der Option DUNCAN alpha = 0,05 wird ein Duncan-Test zum Niveau = 0,05 ausgef�hrt.

Im Ausdruck Anhang S. 11-12 sind die Mittelwerte mit gleichen Buchstabenlinien nicht

signifikant verschieden. Diese Option LINES ist bei DUNCAN in SAS voreingestellt und braucht

nicht angegeben zu werden. Wir sehen, dass sich die Resultate beider Tests entsprechen.

Der 4. Programmteil lautet:

LABEL kalk = ‘Kalkung’

bereg = ‘Beregnung’

ph = ‘pH’

s = ‘Residuum’;

PROC PRINT DATA = res_s LABEL;

TITLE ‘Die Wald-Datei mit Residuen’;

Mit der LABEL-Anweisung erhalten die Variablen der tempor�ren Datei res_s ausgeschriebene

Bezeichnungen, diese werden mit der Prozedur PRINT ausgedruckt (Anhang S. 13).

Page 35: Diplomarbeit varianzanalyse mit sas

- 35 -

Der 5. und letzte Teil des Programms lautet:

PROC UNIVARIATE DATA = res_s NORMAL;

VAR s;

TITLE1 ‘Test der Normalverteilungsannahme’;

TITLE2 ‘der Wald-Datei’;

RUN;

Durch die Prozedur UNIVARIATE (Graf, A. (1993), S. 215-217) mit der Option NORMAL und

der VAR-Anweisung wird die Variable s der Datei res_s auf Normalverteilung �berpr�ft. Der

Ausdruck in Anhang S. 14 ist in Moments, Quantiles und Extremes eingeteilt. Aus Moments

ersehen wir, dass die Anzahl der Residuen N = 54 ist, davon sind alle ungleich 0 und 26 sind

positiv. Mittelwert und Summe der Residuen sind 0, Standardabweichung und Varianz gleich 0,3

bzw. 0,09. Die Werte der Schiefe (skewness = -0,70199) und besonders der W�lbung (kurtosis =

1,500363) verschieden von 0 zeigen eine andere Verteilung als die Normalverteilung an. Die

Teststatistik des t-Tests mit der Nullhypothese ‘Mittelwert = 0’ ist identisch 0. Diese

Nullhypothese ist bei jedem Signifikanzniveau unwiderlegbar, weil die

�berschreitungswahrscheinlichkeit (Pr>T) = 1 immer gr�sser als jedes Signifikanzniveau ist.

Die Teststatistik W des Normalverteilungstests von Shapiro-Wilk ist gleich 0,9651. Die

Unterschreitungswahrscheinlichkeit (Pr<W) ist gleich 0,2231. Bei einem Signifikanzniveau von

0,2 ist die Normalverteilungsannahme nicht widerlegt, weil (Pr<W) > 0,2 ist.

Unter Quantiles und Extremes gilt das in Abschnitt 1.1.1.4 gesagte auch hier, mit: Median = -

0,00833; 1. Quartil = -0,125; 3. Quartil = 0,1911; Spannweite = 1,566; Quartilsabstand = 0,316;

Modalwert = 0,087.

Page 36: Diplomarbeit varianzanalyse mit sas

- 36 -

1.2.2 Zweifaktorielle Varianzanalyse mit zuf�lligen Effekten

1.2.2.1 Modell

Auch bei der zweifaktoriellen Varianzanalyse k�nnen die Stufen der beiden Einflussfaktoren A

und B nicht bewusst und systematisch, sondern zuf�llig ausgew�hlt sein (Dufner, J. (1992), S.

244-246; Searle, S. R. (1992), S. 15). Dann m�ssen in dem zweifaktoriellen

Varianzanalysemodell die festen Effekte i, j und ij durch Zufallsvariable Ai, Bj und Cij ersetzt

werden. Es gilt das lineare Modell:

Yijk = + Ai + Bj + Cij + ijk

(i=1,...,a; j=1,...,b; k=1,...,n) mit:

Yijk = unabh�ngig normalverteilte Zufallsvariable mit Erwartungswert und unbekannter

Varianz total2. Die Realisierung yijk ist die k-te Beobachtung in der Zelle ij gebildet von Stufe i

von Faktor A und Stufe j von Faktor B.

ijk = unabh�ngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz ijk2 = 2

(Homoskedastie).

Ai = unabh�ngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz a2.

Bj = unabh�ngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz b2.

Cij = unabh�ngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz c2.

Alle im Modell auftretenden Zufallsvariablen ohne Yijk sind untereinander stochastisch

unabh�ngig.

F�r die Totalvarianz Var(Yijk) gilt (Toutenburg, H. (1994), S. 196):

Var(Yijk) = total2 = a2 + b

2 + c2 + 2

Die Sch�tzung der Varianzen ergibt:

( _ _ )a nb MS A MS AB2 1

Page 37: Diplomarbeit varianzanalyse mit sas

- 37 -

( _ _ )b na MS B MS AB2 1

( _ _ )c nMS AB MS Error2 1

_ 2 MS Error

Beispiel: aus einer grossen Anzahl von Weizensorten und Feldern werden zuf�llig a Sorten

Weizen und b Felder ausgew�hlt und jede Sorte auf jedem Feld n-mal angebaut mit dem

Ernteertrag als quantitative Beobachtungsvariable. Die Weizensorte ist der Einflussfaktor A und

der Anbauort ist der Einflussfaktor B. Eine Wechselwirkung besteht zum Beispiel, wenn der

Ernteertragsunterschied beim Anbau verschiedener Weizensorten auch vom Anbauort abh�ngt.

An die Stelle der festen Effekte treten die Realisierungen der Zufallsvariablen Ai, Bj und Cij.

1.2.2.2 Globaler Fisher-Test

Die zuf�lligen Effekte haben einen signifikanten Einfluss auf die Beobachtungsvariable yijk, wenn

die Nullhypothesen:

H0a: a2 = 0

H0b: b2 = 0

H0c: c2 = 0

abgelehnt werden (Dufner, J. (1992), S. 246). Die Zerlegung der Totalquadratsumme SS_CTotal

in der zweifaktoriellen Varianzanalyse mit festen Effekten gilt auch hier mit denselben

Ausdr�cken f�r die Teilquadratsummen.

F�r die Erwartungswerte E(MS) der MS gilt f�r balancierte Daten (Toutenburg, H. (1994), S.

197):

E MS A n nbc a( _ ) 2 2 2

E MS B n nac b( _ ) 2 2 2

Page 38: Diplomarbeit varianzanalyse mit sas

- 38 -

E MS AB n c( _ ) 2 2

E MS Error( _ ) 2

Man kann aus den Erwartungswerten E(MS) folgende Teststatistiken vermuten:

FMS AMS AB1

__

FMS BMS AB2

__

FMS ABMS Error3

__

Die Teststatistiken sind F-verteilt mit den entsprechenden Freiheitsgraden der Chi-Quadrat-

Verteilungen: a-1 f�r SS_A, b-1 f�r SS_B, (a-1)(b-1) f�r SS_AB und ab(n-1) f�r SS_Error.

Die Bedingungen zum Verwerfen der Nullhypothesen sind:

H F Fa a a b0 1 1 1 1 1 , ,( )( )

H F Fb b a b0 2 1 1 1 1 , ,( )( )

H F Fc a b ab n0 3 1 1 1 1 ,( )( ), ( )

bei gegebenem Niveau .

1.2.2.3 Durchf�hrung mit SAS

Gegen�ber dem SAS-Programm von Abschnitt 1.2.1.4 hat sich folgendes ge�ndert: die Prozedur

GLM wird durch die Anweisung RANDOM mit der Option TEST erg�nzt mit der Angabe der

Faktorvariablen, deren Effekte zuf�llig sind und der Angabe des Wechselwirkungsterms. Der

ge�nderte Programmteil lautet:

PROC GLM DATA = ...;

CLASS a b;

Page 39: Diplomarbeit varianzanalyse mit sas

- 39 -

MODEL y = a b a*b;

RANDOM a b a*b / TEST;

RUN;

Alle Effekte sind zuf�llig, deshalb m�ssen die Variablen a und b und die Wechselwirkung a*b

unter RANDOM angegeben werden (Dufner, J. (1992), S. 246-248; Schuemer, R. (1990), S. 23).

Im Output werden u.a. die erwarteten Mittelquadrate E(MS) und der globale F-Test ausgegeben.

Page 40: Diplomarbeit varianzanalyse mit sas

- 40 -

1.2.3 Zweifaktorielle Varianzanalyse mit gemischten Effekten

1.2.3.1 Modell

Es k�nnen nun bei der zweifaktoriellen Varianzanalyse die a Stufen des Einflussfaktors A

bewusst ausgew�hlt worden sein und die b Stufen des Einflussfaktors B zuf�llig. Die Effekte von

A sind fest, die von B zuf�llig. Dies ist dann eine gemischte zweifaktorielle Varianzanalyse

(Dufner, J. (1992), S. 248-249; Searle, S. R. (1992), S. 122). Man nennt A Hauptfaktor.

Mit balancierten Daten gilt das lineare Modell:

Yijk = + i + Bj + Cij + ijk

(i=1,...,a; j=1,...,b; k=1,...,n) mit:

Yijk = unabh�ngig normalverteilte Zufallsvariable mit Erwartungswert und unbekannter

Varianz total2.

ijk = unabh�ngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz ijk2 = 2

(Homoskedastie),

= reelles Allgemeinmittel,

i = reeller, fester Effekt des Hauptfaktors A auf Stufe i,

Bj = unabh�ngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz b2,

Cij = unabh�ngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz c2.

Alle Zufallsvariablen ohne Yijk sind stochastisch unabh�ngig voneinander.

An die festen Effekte i stellen wir die Restriktion:

ii

i a

01

Page 41: Diplomarbeit varianzanalyse mit sas

- 41 -

1.2.3.2 Globaler Fisher-Test

Die festen Effekte i sind signifikant von 0 verschieden, wenn die Nullhypothese:

H0A: 1=...=a=0

abgelehnt wird. Die zuf�lligen Effekte Bj und Cij haben einen signifikanten Einfluss auf die

Beobachtungsvariable yijk, wenn die Nullhypothesen:

H0b: b2 = 0

und

H0c: c2 = 0

abgelehnt werden.

Wenn Restriktionen an die Zufallsvariablen Cij gestellt werden, sind die Cij zwischen zwei

verschiedenen Stufen i1 und i2 des Faktors A korreliert (Toutenburg, H. (1994), S. 200-203). Wir

verwenden hier das Modell ohne Restriktionen an Cij mit unabh�ngigen

Wechselwirkungseffekten Cij

Die Quadratsummenzerlegung von SS_CTotal der zweifaktoriellen Varianzanalyse mit zuf�lligen

Effekten gilt auch hier mit denselben Teilquadratsummen SS_A, SS_B, SS_AB und SS_Error

und denselben Ausdr�cken f�r die Teststatistiken F1, F2 und F3. Die erwarteten mittleren

Quadratsummen sind (Toutenburg, H. (1994), S. 203):

E MS A nnbac i

i

i a

( _ )

2 2 2

11

E MS B n nac b( _ ) 2 2 2

E MS AB n c( _ ) 2 2

E MS Error( _ ) 2

MS_Error ist wieder erwartungstreuer Sch�tzer f�r die Varianz 2. Die Sch�tzung f�r die anderen

Varianzen ergibt:

Page 42: Diplomarbeit varianzanalyse mit sas

- 42 -

( _ _ )b na MS B MS AB2 1

( _ _ )c nMS AB MS Error2 1

1.2.3.3 Durchf�hrung mit SAS

Zu der Prozedur GLM wird die Anweisung RANDOM mit der Option TEST hinzugef�gt mit der

Angabe der Faktorvariablen, deren Effekte zuf�llig sind (Dufner, J. (1992), S. 250). Der

ge�nderte Programmteil lautet:

PROC GLM DATA = ...;

CLASS a b;

MODEL y = a b a*b;

RANDOM b a*b / TEST;

RUN;

In diesem Fall der gemischten, zweifaktoriellen Varianzanalyse mit Wechselwirkung sind die

Effekte des ersten Faktors fest, die des zweiten zuf�llig. Die erste Variable a darf nicht unter

RANDOM angegeben werden. Das ist der einzige Unterschied zum SAS-Programm von

Abschnitt 1.2.2.3. Im Output erscheinen u.a. die erwarteten Mittelquadrate und der globale F-

Test.

Page 43: Diplomarbeit varianzanalyse mit sas

- 43 -

1.2.4 Zweifaktorielle Varianzanalyse mit festen Effekten

und einer Beobachtung pro Zelle

1.2.4.1 Modell

Wir betrachten nun das balancierte, zweifaktorielle Modell f�r n = 1, also mit genau einer

Beobachtung auf jeder Faktorstufenkombination, sprich Zelle (Dufner, J. (1992), S. 251; Falk, M.

(1995), S.198; Schach, S. (1978), S.202). Wir k�nnen auch formal in allen Gleichungen von

Abschnitt 1.2.1 den Parameter n gleich 1 setzen. Wenn wir das tun, erhalten wir als Resultat, u.a.:

SS_Error = 0

Das bedeutet, dass wir die Varianz 2 nicht mehr mit der Mittelquadratsumme MS_Error

erwartungstreu sch�tzen k�nnen. Wie man in Abschnitt 1.2.1.2 in der Formel f�r den

Erwartungswert von MS_AB sieht, bekommt man erst wieder eine erwartungstreue Sch�tzung

f�r die Varianz 2, wenn man die festen Effekte ij der Wechselwirkung annulliert.

Mit ij = 0 haben wir dann f�r die Erwartungswerte der Mittelquadratsummen:

E MS Aba i

i

i a

( _ )

2 2

11

E MS Bab j

j

j b

( _ )

2 2

11

E MS AB( _ ) 2

Als Beispiel nehmen wir die Umwelt-Datei (siehe Ausdruck Anhang S. 33). An 23 Messstationen

in Bayern wurden f�r die beiden Monate Juli 1993 und April 1994 die durchschnittlichen Werte

an Schwebstaub in g pro m3 Luft gemessen (entnommen aus Falk, M. (1995), S. 102). Der

Einflussfaktor A ist der Messzeitpunkt (Datum) mit 2 Stufen und der Einflussfaktor B ist der

Messort mit 23 Stufen. Es ist zu pr�fen, ob diese Faktoren einen nicht-zuf�lligen Einfluss auf die

Beobachtungsvariable Schwebstaubkonzentration in der Atmossph�re haben. Pro Zelle liegt nur

ein Wert vor.

Das lineare Modell lautet (Ahrens, H. (1974), S. 156):

Page 44: Diplomarbeit varianzanalyse mit sas

- 44 -

Yij = ij + ij = + i + j + ij

Yij = unabh�ngig normalverteilte Zufallsvariable mit Erwartungswert ij und unbekannter

Varianz 2. Die Realisierung yij ist die einzige Beobachtung in der Zelle ij gebildet von Stufe i

von Faktor A und Stufe j von Faktor B.

ij = unabh�ngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz ij2 = 2

(Homoskedastie),

= reelles Allgemeinmittel,

i = fester, reeller Effekt von Faktor A auf Stufe i,

j = fester, reeller Effekt von Faktor B auf Stufe j,

ij wurde vernachl�ssigt f�r alle i=1,...,a und j=1,...,b.

1.2.4.2 Globaler Fisher-Test

Die festen Effekte i und j sind signifikant von 0 verschieden, wenn die Nullhypothesen:

H0A: 1=...=a=0

und

H0B: 1=...=b=0

abgelehnt werden (Falk, M. (1995), S. 200).

Wenn man in der Quadratsummenzerlegung von Abschnitt 1.2.1.2 den Stichprobenumfang n

gleich 1 setzt, erh�lt man die Zerlegung:

SS_CTotal = SS_A + SS_B + SS_AB

weil SS_Error = 0 ist, mit:

SS CTotal y yijj

j b

i

i a

_ ( )..

11

2

SS A b y yii

i a

_ ( ). ..

1

2

Page 45: Diplomarbeit varianzanalyse mit sas

- 45 -

SS B a y yjj

j b

_ ( ). ..

1

2

SS AB y y y yijj

j b

i

i a

i j_ ( ). . ..

11

2

mit dem arithmetischen Mittel der i-ten Stufe von Faktor A:

yb

yi ijj

j b

.

11

dem arithmetischen Mittel der j-ten Stufe von Faktor B:

ya

yj iji

i a

.

11

und dem arithmetischen Mittel aller Beobachtungen:

yab

yijj

j b

i

i a

..

111

Die Erwartungswerte E(MS) der Mittelquadratsummen MS erh�lt man, wenn man n = 1 und ij =

0 in den E(MS) von Abschnitt 1.2.1.2 setzt.

Die Freiheitsgrade DF von SS_CTotal, SS_A, SS_B und SS_AB sind: ab-1, a-1, b-1 und (a-

1)(b-1). Man kann aus den Erwartungswerten E(MS) folgende Teststatistiken f�r den globalen F-

Test vermuten und beweisen (Dufner, J. (1992), S. 253):

FMS AMS AB1

__

FMS BMS AB2

__

Statt SS_AB und MS_AB sagt man besser SS_Error und MS_Error weil die

Wechselwirkungseffekte ij ja verschwunden sind. Es hat SS_AB die Rolle von SS_Error

�bernommen. Im SAS-Output erscheinen SS_AB und MS_AB unter SS_Error und MS_Error

(siehe folgenden Abschnitt).

Page 46: Diplomarbeit varianzanalyse mit sas

- 46 -

Die Bedingungen zum Ablehnen der Nullhypothesen sind:

H F FA a a b0 1 1 1 1 1 , ,( )( )

H F FB b a b0 2 1 1 1 1 , ,( )( )

zum vorgegebenen Niveau .

1.2.4.3 Durchf�hrung mit SAS

Das SAS-Programm f�r die zweifaktorielle Varianzanalyse mit einer Beobachtung pro Zelle

wurde wieder in 5 Teile gegliedert. Der 1. Teil lautet:

LIBNAME neu ‘d:\daniel’;

DATA dk3;

SET neu.umwelt;

Die permanente Datei neu.umwelt erzeugt die tempor�re Datei dk3 ohne Output.

Der 2. Programmteil lautet (Dufner, J. (1992), S. 254; Schuemer, R. (1990), S. 11-13):

PROC GLM DATA = dk3;

CLASS name datum;

MODEL staub = name datum;

Die Prozedur GLM berechnet die zweifaktorielle Varianzanalyse der Datei dk3 ohne

Wechselwirkung. In die CLASS-Anweisung sind die Variablennamen name und datum der

beiden Einflussfaktoren anzugeben. Die Modellgleichung unter MODEL enth�lt den

Wechselwirkungsterm name*datum nicht, weil der feste Effekt bei dieser Varianzanalyse mit

einer Beobachtung pro Zelle vernachl�ssigt wird.

Den entsprechenden Output findet man im Anhang S. 15-16. Auf S. 15 erh�lt man die Anzahl

und die Auspr�gungen der Stufen der beiden Faktoren Messort und Datum. Der Faktor Messort

hat 23 Stufen und der Faktor Datum hat 2 Stufen. Die Anzahl aller Beobachtungen ist das

Produkt dieser beiden Zahlen, also 46.

Auf S. 16 erhalten wir die Anova-Tabellen der Zerlegung von der Totalquadratsumme SS_CTotal

in SS_Model und SS_Error und der Zerlegung von SS_Model in SS_A und SS_B. Darin sind die

Page 47: Diplomarbeit varianzanalyse mit sas

- 47 -

Freiheitsgrade DF, die Quadratsummen SS, die Mittelquadratsummen MS, die F-Statistiken (F

value) und die �berschreitungswahrscheinlichkeiten (Pr<F) f�r jeden Effekt angegeben. Bei =

0,01 sind alle (Pr>F) kleiner als . Alle Nullhypothesen werden abgelehnt. Beide

Einflussfaktoren haben einen nicht-zuf�lligen Einfluss auf die Beobachtungsvariable

Staubkonzentration. Sie h�ngt signifikant von Ort und Datum (sicherlich auch jahreszeitlich

bedingt) ab.

Die Sch�tzung der Modellvarianz 2 ist MS_Error = 21,2945. Das Bestimmtheitsmass R-Square

= 0,880989 liegt nahe bei 1. Das Modell ist ziemlich gut an das Problem angepasst. Der

Variationskoeffizient CV ist gleich 12,03352 %. Die Standardabweichung wird auf Root MSE

= 4,6146 gesch�tzt. Das arithmetische Gesamtmittel der Staubkonzentration ist 38,348.

Der 3. Teil des Programms lautet (Schuemer, R. (1990), S. 21-23):

OUTPUT OUT = res_t RESIDUAL = t;

MEANS name datum / SCHEFFE CLDIFF alpha = 0.05;

MEANS name datum / DUNCAN alpha = 0.05;

TITLE1 ‘Zweifaktorielle Varianzanalyse mit einer Beobachtung’;

TITLE2 ‘pro Zelle der Umwelt-Datei’;

Mit der Option RESIDUAL wird in der Prozedur GLM das Residuum t berechnet und mit

OUTPUT OUT an die Umwelt-Datei angef�gt. Die tempor�re Ausgabedatei hat den Namen

‘res_t’ und kann sp�ter ausgedruckt werden. In den beiden folgenden MEANS-Anweisungen

werden multiple Mittelwertsvergleiche ausgef�hrt. Dazu m�ssen die Variablen name und datum

angegeben werden.

Mit der Option SCHEFFE CLDIFF alpha = 0,05 wird zum Signifikanzniveau = 0,05 der

Scheff�-Test ausgef�hrt, dabei werden durch CLDIFF die Konfidenzgrenzen zu den

Mittelwertsdifferenzen ausgegeben. Im Output in Anhang S. 17-29 wird Signifikanz durch drei

Sternchen angezeigt. Die einzigen zwei Stufenmittelwerte des Faktors Datum sind bei = 0,05

signifikant verschieden. Beim Faktor Messort ist es wegen der grossen Anzahl der Stufen

komplizierter auszumachen, welche Mittelwerte signifikant verschieden sind. Mit der Option

DUNCAN alpha = 0,05 wird ein Duncan-Test zum Niveau = 0,05 ausgef�hrt. Die Mittelwerte

mit gleichen Buchstabenlinien im Ausdruck Anhang S. 30-32 sind nicht signifikant verschieden.

Im �brigen gilt dasselbe wie beim Scheff�-Test.

Page 48: Diplomarbeit varianzanalyse mit sas

- 48 -

Der 4. Teil des Programms ist (Gogolok, J. (1992), S. 420-432):

LABEL staub = ‘Staubkonzentration’

name = ‘Messort’

datum = ‘Datum’

t = ‘Residuum’;

PROC PRINT DATA = res_t LABEL;

TITLE ‘Die Umwelt-Datei mit Residuen’;

Die Datei res_t wird mit ausgeschriebenen Bezeichnungen ausgedruckt (Anhang S. 33).

Der 5. und letzte Programmteil lautet (Gogolok, J. (1992), S. 525-526):

PROC UNIVARIATE DATA = res_t NORMAL;

VAR t;

TITLE1 ‘Test der Normalverteilungsannahme’;

TITLE2 ‘der Umwelt-Datei’;

RUN;

Die Variable t wird mit der Option NORMAL in der Prozedur UNIVARIATE auf

Normalverteilung �berpr�ft (Falk, M. (1995), S. 23-24). Im Anhang S. 34 ersehen wir aus

Moments, dass die Anzahl der Beobachtungen N = 46 ist, davon sind 46 ungleich 0 und 23 sind

positiv. Mittelwert und Summe der Residuen sind 0. Die Standardabweichung ist 3,22655 und die

Varianz ist 10,41063. Die Werte der Schiefe (skewness = 0) und weniger der W�lbung (kurtosis

= 0,662237) von nahe 0 zeigen Normalverteilung der Residuen an. F�r den t-Test mit der

Nullhypothese ‘Mittelwert = 0’ gilt das in den Abschnitten 1.1.1.4 und 1.2.1.4 gesagte. F�r die

Teststatistik W und die Unterschreitungswahrscheinlichkeit (Pr<W) des in SAS implementierten

Shapiro-Wilk-Tests gilt: W = 0,9818 und (Pr<W) = 0,8105. Es ist g�nstig, dass W nahe bei 1

liegt. Bei einem Signifikanzniveau von 0,8 wird die Normalverteilungshypothese nicht widerlegt,

weil (Pr<W) > 0,8 ist. F�r das Signifikanzniveau wird gew�hnlich ein Wert von 0,1 vorgegeben

(Dufner, J. (1992), S. 154). F�r Quantiles und Extremes entnimmt man die Werte dem Output

(Anhang S. 34). Es gilt das in Abschnitt 1.1.1.4 gesagte.

Page 49: Diplomarbeit varianzanalyse mit sas

- 49 -

1.2.5 Zweifaktorielle hierarchische Varianzanalyse

1.2.5.1 Modell

Bei den zweifaktoriellen Varianzanalysen, die bisher behandelt wurden, waren alle Stufen der

zwei Faktoren A und B miteinander kombiniert worden. Aus a Stufen von A und b Stufen von B

entstanden a*b Kombinationsm�glichkeiten. Es gibt aber auch zweifaktorielle Modelle, in denen

nicht alle Stufen der Faktoren miteinander kombiniert werden k�nnen (Dufner, J. (1992), S. 257).

Beispielsweise k�nnten bei a = 4 Stufen des Faktors A jede dieser Stufen jeweils nur mit 3

Stufen des zweiten Faktors B (von insgesamt 12 Stufen) kombiniert werden. Es gibt dann nur 12

Faktorkombinationen von 48 m�glichen. Die Stufen des Faktors B werden mit zwei Indizes

gez�hlt; der erste ist i=1,...,a, der Index der a Stufen von Faktor A; der zweite ist j=1,...,bi, der

Index derjenigen bi Stufen von Faktor B, die mit Stufe i von Faktor A kombiniert sind. Die

Gesamtstufenanzahl S von Faktor B ist dann:

S bii

i a

1

Die Varianzanalyse dieses Modells nennt man hierarchische Varianzanalyse (Pokropp, F. (1994),

S. 179). Sie kann feste, zuf�llige oder gemischte Faktoren haben. Man nennt A Oberfaktor und B

Unterfaktor und schreibt B(A) f�r B, weil B hierarchisch auf A folgt. Wir gehen davon aus, dass

bi = b f�r alle i ist, d.h. dass jede Stufe von A mit gleichvielen Stufen von B kombiniert ist; es gilt

also S = ab. Das Modell mit zuf�lligen Effekten ist in Dufner, J. (1992), S. 257-264 behandelt.

Wir behandeln hier das Modell mit festen Effekten:

Yijk = ij + ijk = + i + ij + ijk

(i=1,...,a; j=1,...,b; k=1,...,n) mit:

Yijk = unabh�ngig normalverteilte Zufallsvariable mit Erwartungswert ij und unbekannter

Varianz 2. Die Realisierung yijk ist die k-te Beobachtung in der Stufe i des Faktors A und in der

Stufe ij von Faktor B.

ijk = unabh�ngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz ijk2 = 2

(Homoskedastie).

Page 50: Diplomarbeit varianzanalyse mit sas

- 50 -

= reelles Allgemeinmittel,

i = fester, reeller Effekt von Faktor A auf Stufe i,

ij = fester, reeller Effekt von Faktor B auf Stufe ij.

Das Modell �hnelt einem zweifaktoriellen Modell ohne Wechselwirkungen. Wechselwirkungen

k�nnen in einer hierarchischen Varianzanalyse nicht sinnvoll definiert werden.

1.2.5.2 Globaler Fisher-Test

Es wird wie bei der zweifaktoriellen Varianzanalyse global getestet, ob es feste Effekte gibt, die

signifikant von 0 verschieden sind oder ob alle nicht signifikant sind. Dazu werden die zwei

Nullhypothesen:

H0A: 1=...=a=0

H0B(A): ij=0 f�r alle i,j

gegen die alternativen Hypothesen zu einem vorgegebenen Signifikanzniveau getestet. Die

Quadratsumme SS_CTotal:

SS CTotal y yijkk

k n

j

j b

i

i a

_ ( )...

111

2

mit dem Freiheitsgrad DF = abn-1 wird in Teilquadratsummen zerlegt, mit denen Teststatistiken

gebildet werden k�nnen um die Nullhypothesen zu testen.

Die Zerlegung von SS_CTotal lautet:

SS_CTotal = SS_A + SS_B(A) + SS_Error

Wir geben ohne Beweis folgende Resultate an:

SS A bn y yii

i a

_ ( ).. ...

1

2

mit Freiheitsgrad DF = a-1 und Erwartungswert E(MS_A):

Page 51: Diplomarbeit varianzanalyse mit sas

- 51 -

E MS Abna i

i

i a

( _ )

2 2

11

sodann gilt:

SS B A n y yijj

j b

i

i a

i_ ( ) ( ). ..

11

2

mit DF = a(b-1) sowie:

E MS B An

a b ijj

j b

i

i a

( _ ( ))( )

2 2

111

schliesslich gilt:

SS Error y yijkk

k n

j

j b

i

i a

ij_ ( ).

111

2

mit DF = ab(n-1) und:

E MS Error( _ ) 2

MS_Error ist ein erwartungstreuer Sch�tzer f�r die unbekannte Varianz 2.

Wenn man die Erwartungswerte E(MS) betrachtet, kann man leicht folgende Teststatistiken F1

und F2 vermuten:

FMS A

MS Error1 _

_

FMS B AMS Error2

_ ( )_

Unter G�ltigkeit der Nullhypothesen H0A und H0B(A) sind F1 und F2 F-verteilt mit den

Freiheitsgraden a-1 und ab(n-1) bzw. a(b-1) und ab(n-1). Die Nullhypothesen werden verworfen,

wenn die Bedingungen:

H F FA a ab n0 1 1 1 1 , , ( )

Page 52: Diplomarbeit varianzanalyse mit sas

- 52 -

H F FB A a b ab n0 2 1 1 1( ) , ( ), ( )

erf�llt sind f�r ein vorgegebenes Signifikanzniveau .

1.2.5.3 Durchf�hrung mit SAS

Gegen�ber dem SAS-Programm von Abschnitt 1.2.1.4 hat sich nur der 2. Teil ge�ndert in:

PROC GLM DATA = ...;

CLASS a b;

MODEL y = a b(a);

RUN;

y ist die Beobachtungsvariable, a ist die Variable des Oberfaktors A und b ist die Variable des

Unterfaktors B (Schuemer, R. (1990), S. 14-15). Der Output entspricht demjenigen von Abschnitt

1.2.1.4.

Page 53: Diplomarbeit varianzanalyse mit sas

- 53 -

1.2.6 Randomisierte vollst�ndige Blockanlage

1.2.6.1 Modell

Einer Varianzanalyse liegt immer ein Versuch zugrunde, mit dem man die Abh�ngigkeit einer

Zielvariablen von einer oder mehreren Einflussvariablen beobachtet. Um diesen Versuch

auszuf�hren, braucht man N Versuchseinheiten, die in den meisten F�llen zuf�llig auf die Zellen,

die von den Kombinationen der Stufen der Einflussfaktoren gebildet werden, aufgeteilt werden.

Diesen Vorgang der zuf�lligen Aufteilung nennt man Randomisation. Man kann jedoch h�ufig

die N Versuchseinheiten in sogenannte Bl�cke zerlegen. Es empfiehlt sich dann, die

Versuchseinheiten getrennt f�r jeden Block zuf�llig zu verteilen. Man spricht dar�berhinaus von

einer randomisierten, vollst�ndigen Blockanlage (Randomized Complete Block Design, RCBD),

wenn die Anzahl der Versuchseinheiten pro Block gleich ist der Anzahl

Kombinationsm�glichkeiten der Stufen der Faktoren (Dufner, J. (1992), S. 265-267; Toutenburg,

H. (1994), S. 151-159). Die Bl�cke bilden einen Einflussfaktor, den sogenannten Blockfaktor.

Wir behandeln hier den Fall mit einem Faktor A mit festen Effekten und dem Blockfaktor BL.

Der Faktor A mit zuf�lligen Effekten ist auch m�glich.

Das Versuchsmaterial kann auf nat�rliche Weise in Bl�cke zerlegt sein:

- Personen verschiedener Alters- oder Einkommensklassen,

- die vier R�der eines Autos (beim Vergleich von Reifenarten),

- verschiedene W�rfe von Tieren.

In unserem Beispiel soll ausfindig gemacht werden, welches von drei Futtermitteln am besten

zum M�sten von Kaninchen geeignet ist. Dazu werden in einem Versuch die drei Futtermittel an

Kaninchen verf�ttert und die Gewichtszunahme der Kaninchen als quantitative

Beobachtungsvariable gemessen. Das Kaninchenfutter ist Faktor A mit drei Stufen. Die Menge

der Versuchskaninchen bestehe aus vier W�rfen mit jeweils drei Kaninchen (N = 12). Ein Block

ist ein Wurf mit drei Tieren. Die Randomisation besteht darin, dass die drei verschiedenen

Futtermittel aus den drei Stufen des Faktors A zuf�llig auf die drei Tiere des jeweiligen Blockes

verteilt werden. Dar�berhinaus handelt es sich um eine randomisierte, vollst�ndige Blockanlage,

weil die Anzahl der Tiere in einem Block mit der Anzahl Stufen des Faktors Futter

Page 54: Diplomarbeit varianzanalyse mit sas

- 54 -

�bereinstimmt.

Die Varianzanalyse kann man interpretieren als zweifaktoriell mit einer Beobachtung pro Zelle,

wenn man den Blockfaktor als gleichberechtigt mit Faktor A ansieht; oder als einfaktoriell mit n

= b Beobachtungen pro Zelle, wenn man die Blockunterschiede als nebens�chlich ansieht, so dass

man geradesogut alle Bl�cke zusammenfassen kann. Dies ist besonders dann der Fall, wenn die

Blockdurchschnitte sich beim globalen F-Test nicht signifikant unterscheiden. Der Sinn der

Bildung von Bl�cken ist eine erhoffte Senkung der Modellvarianz 2.

Es gilt folgendes Modell mit festen Effekten (Dufner, J. (1992), S. 268):

Yij = ij + ij = + i + j + ij

(i=1,...,a; j=1,...,b) mit:

Yij = unabh�ngig normalverteilte Zufallsvariable mit Erwartungswert ij und unbekannter

Varianz 2. Die Realisierung yij ist die Beobachtung in der Zelle der i-ten Stufe von Faktor A und

Block j,

ij = unabh�ngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz ij2 = 2

(Homoskedastie),

= reelles Allgemeinmittel,

i = fester, reeller Effekt von Faktor A auf Stufe i,

j = fester, reeller Effekt von Blockfaktor BL auf Block j.

Es gelten die Parameterrestriktionen:

ii

i a

1

0

jj

j b

1

0

Das Modell ist analog dem zweifaktoriellen Modell mit festen Effekten und einer Beobachtung

pro Zelle von Abschnitt 1.2.4. aufgebaut. Nur, dass Unterschiede der Stufen des Blockfaktors

nicht so sehr im Vordergrund stehen; der Faktor A ist wichtiger, so dass das Modell, wie bereits

Page 55: Diplomarbeit varianzanalyse mit sas

- 55 -

ausgef�hrt, diesselben Zielsetzungen hat, wie ein einfaktorielles Modell mit festen Effekten und n

= b Beobachtungen pro Zelle (Abschnitt 1.1.1.).

1.2.6.2. Globaler Fisher-Test

Es wird vorrangig global getestet, ob die festen Effekte von Faktor A signifikant von 0

verschieden sind oder nicht. Die festen Effekte des Blockfaktors werden erst in zweiter Linie

global getestet. Wir testen die Nullhypothesen:

H0A: 1=...=a=0

H0BL: 1=...=b=0

gegen die entsprechenden Alternativhypothesen zu einem vorgegebenen Niveau .

Man erh�lt die Teilquadratsummen SS, mit denen die Teststatistiken der F-Tests gebildet werden

k�nnen, durch die Zerlegung der Totalquadratsumme SS_CTotal wie folgt:

SS_CTotal = SS_A + SS_B + SS_Error

Wir geben die Resultate f�r SS und E(MS) ohne Beweis an. Es gilt:

SS A b y yii

i a

_ ( ). ..

1

2

mit Freiheitsgrad DF = a-1 und dem Erwartungswert der Mittelquadratsumme:

E MS Aba i

i

i a

( _ )

2 2

11

weiter gilt:

SS B a y yjj

j b

_ ( ). ..

1

2

mit DF = b-1 und dem Erwartungswert der Mittelquadratsumme:

Page 56: Diplomarbeit varianzanalyse mit sas

- 56 -

E MS Bab j

j

j b

( _ )

2 2

11

schliesslich gilt:

SS Error y y y yijj

j b

i

i a

i j_ ( ). . ..

11

2

mit DF = (a-1)(b-1) und dem Erwartungswert:

E MS Error( _ ) 2

Man kann mit den Erwartungswerten E(MS) der Mittelquadratsummen MS = SS/DF die

folgenden F-verteilten Teststatistiken F1 und F2 vermuten bzw. beweisen:

FMS A

MS Error1 _

_

FMS B

MS Error2 _

_

Die Bedingungen zum Ablehnen der Nullhypothesen im globalen F-Test sind dann also:

H F FA a a b0 1 1 1 1 1 , ,( )( )

H F FB b a b0 2 1 1 1 1 , ,( )( )

zu einem vorgegebenen Signifikanzniveau .

1.2.6.3. Durchf�hrung mit SAS

Die Durchf�hrung mit SAS entspricht dem Vorgehen in Abschnitt 1.2.4.3.

Page 57: Diplomarbeit varianzanalyse mit sas

- 57 -

1.2.7.Zweifaktorielle Varianzanalyse, unbalanciert

1.2.7.1 Modell

Wir behandeln nun die unbalancierte, zweifaktorielle Varianzanalyse mit festen Effekten ohne

Wechselwirkung (Dufner, J (1992), S. 288). Wie bei der balancierten, zweifaktoriellen

Varianzanalyse mit festen Effekten haben wieder zwei Faktoren A und B, die in a bzw. b > 1

Stufen auftreten, einen Einfluss auf eine quantitative Beobachtungsvariable y. Es wird danach

gefragt, ob die Stufen dieser Faktoren global denselben Einfluss auf die Beobachtungsvariable

haben (globaler Fisher-Test) und wenn nicht, welche Stufen genau unterschiedlichen Einfluss

haben im paarweisen Vergleich zu anderen (multipler Mittelwertsvergleich).

In der unbalancierten Varianzanalyse ist die Anzahl nij der Beobachtungen in den Zellen ij

unterschiedlich gross. Die Formeln zur Berechnung der Varianzanalyse werden dadurch viel

komplizierter (Pokropp, F. (1994), S. 169). Wir stellen nur ein lineares Modell ohne

Wechselwirkungen vor, weil die Formeln dann noch nicht so kompliziert sind.

Als Beispiel (entnommen aus Ahrens, H. (1974), S. 89) nehmen wir die Messwerte von 31

Fr�hgeborenen in der Geburt-Datei (siehe Ausdruck Anhang S. 38) aus einer Untersuchung in

der Universit�tskinderklinik der Charit� zu Ostberlin. F�r den Faktor A sind die Daten in zwei

Klassen (Stufen) eingeteilt: Erkrankung der Kinder an Gelbsucht j = ja oder n = nein. Es wurde

f�r den Faktor B f�r jedes Kind die Schwangerschaftsdauer SD in Tagen bestimmt und folgende

Klasseneinteilung in die Stufen 1, 2 und 3 vorgenommen:

Stufe 1: SD < 250

Stufe 2: 250 SD < 171

Stufe 3: 171 SD

Die Beobachtungsgr�sse yijk ist das Gewicht in Gramm der Kinder bei der Geburt. Es gibt 6

Zellen ij mit i=1,2; j=1,2,3; k=1,...,nij und n11 = 6; n12 = 4; n13 = 1; n21 = 3; n22 = 6; n23 = 11.

Wir werden dieses Beispiel in Abschnitt 1.2.7.4 mit SAS berechnen und dabei die

Wechselwirkung mit einbeziehen und sehen, dass sie einen so geringen Einfluss hat, dass man sie

vernachl�ssigen sollte und besser ein Modell ohne Wechselwirkungen modelliert.

Page 58: Diplomarbeit varianzanalyse mit sas

- 58 -

Wir stellen folgendes, lineares Modell mit festen Effekten ohne Wechselwirkungen auf:

Yijk = ij + ijk = + i + j + ijk

(i=1,...,a; j=1,...,b; k=1,...,nij) mit:

Yijk = unabh�ngig normalverteilte Zufallsvariable mit Erwartungswert ij und unbekannter

Varianz 2. Die Realisierung yijk ist die k-te Beobachtung in der Zelle ij gebildet von Stufe i des

Faktors A und Stufe j des Faktors B,

ijk = unabh�ngig normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz ijk2 = 2

(Homoskedastie),

= reelles Allgemeinmittel,

i = fester, reeller Effekt von Faktor A auf Stufe i,

j = fester, reeller Effekt von Faktor B auf Stufe j.

Wir definieren:

111ab ij

j

j b

i

i a

i ijj

j b

b

11

j iji

i a

a

11

Es gelten die Parameterrestriktionen:

ii

i a

jj

j b

1 1

0

Die Wechselwirkung wird vernachl�ssigt. Die Sch�tzung der Modellparameter ergibt:

... y

Page 59: Diplomarbeit varianzanalyse mit sas

- 59 -

.ij ijy

.. ...i iy y

. . ... j jy y

.ijk ijk ijy y

Dabei gilt f�r das arithmetische Mittel der i-ten Stufe von Faktor A:

yn

yii

ijkk

k n

j

j b ij

...

111

und f�r das arithmetische Mittel der j-ten Stufe von Faktor B:

yn

yjj

ijkk

k n

i

i a ij

. ..

111

sowie f�r das arithmetische Mittel der Zelle ij:

yn

yijij

ijkk

k nij

.

11

f�r das arithmetische Mittel aller Beobachtungen gilt:

yN

yijkk

k n

j

j b

i

i a ij

...

1111

mit (ausnahmsweise entgegen der Regel von Seite 6):

n ni ijj

j b

.

1

n nj iji

i a

.

1

N n nijj

j b

i

i a

..11

Page 60: Diplomarbeit varianzanalyse mit sas

- 60 -

1.2.7.2 Globaler Fisher-Test

Es soll nun entschieden werden, ob es feste Effekte gibt, die signifikant von 0 verschieden sind,

oder ob alle nicht-signifikant sind. Dazu werden die zwei Nullhypothesen:

H0A: 1=...=a=0

H0B: 1=...=b=0

gegen die alternativen Hypothesen zu einem vorgegebenen Signifikanzniveau getestet. Die

bekannte Totalquadratsumme:

SS CTotal y yijkk

k n

j

j b

i

i a ij

_ ( )...

111

2

wird in Teilquadratsummen zerlegt. Im unbalancierten Fall der zweifaktoriellen Varianzanalyse

gibt es nach Henderson drei verschiedene Typen von Quadratsummenzerlegungen. Wir wollen

uns nur auf Typ III beschr�nken, weil man nur mit diesem Typ die obigen Nullhypothesen in

dieser einfachen Form testen kann (Searle, S. R. (1992), S. 202). Es gibt in Typ III f�r jede

Nullhypothese eine Quadratsummenzerlegung. F�r die Nullhypothese H0A ist es die

Quadratsummenzerlegung (Searle, S. R. (1992), S. 210):

SS CTotal R R SS Error_ ( ) ( , ) _

und f�r die Nullhypothese H0B die Quadratsummenzerlegung (Searle, S. R. (1992), S. 209):

SS CTotal R R SS Error_ ( ) ( , ) _

Daf�r gilt die sogenannte R-Notation (Dufner, J. (1992), S. 293; Searle, S. R. (1992), S. 169-

170):

R R R( ) ( , ) ( )

R R R( ) ( , ) ( )

Page 61: Diplomarbeit varianzanalyse mit sas

- 61 -

R R R( , ) ( , , ) ( , )

R R R( , ) ( , , ) ( , )

und

SS Error y yijkk

k n

j

j b

i

i a

ij

ij

_ ( ).

111

2

mit:

R Ny( ) ... 2

R n yii

i a

i( , ) . ..

1

2

R n yjj

j b

j( , ) . . .

1

2

R r C r n yTi

i

i a

i( , , ) . ..

1

1

2

dabei ist T das Transponierungszeichen und rT=(r1,...,rb-1) ist ein Vektor mit der Dimension b-1

und den reellen Komponenten rj:

r n y n yj j j iji

i a

i

. . . ..1

(j=1,...,b-1) und C ist eine symmetrische Matrix mit der Ordnung b-1 und den reellen Elementen

cjj’:

c nnnjj jij

ii

i a

..

2

1

(das sind die Elemente der Matrixdiagonalen j = j’)

cn nnjjij ij

ii

i a

''

.

1

Page 62: Diplomarbeit varianzanalyse mit sas

- 62 -

(das sind die �brigen Elemente der Matrix C mit j j’; j,j’=1,...,b-1).

R(,) hat den Freiheitsgrad DF = a-1 und R(,) den Freiheitsgrad DF = b-1. Die

Fehlerquadratsumme SS_Error hat den Freiheitsgrad DF = N-ab und ist von R(,) und

R(,) stochastisch unabh�ngig. Es gilt die Sch�tzung:

MS ErrorSS ErrorN ab

__

f�r die Modellvarianz 2. Unter G�ltigkeit der jeweiligen Nullhypothese ist die Teststatistik:

FR aMS Error1

1

( , ) / ( )_

zentral F-verteilt mit den Freiheitsgraden a-1 und N-ab und die Teststatistik:

FR bMS Error2

1

( , ) / ( )_

ist zentral F-verteilt mit den Freiheitsgraden b-1 und N-ab. Die Bedingungen zum Verwerfen der

Nullhypothesen sind:

H F FA a N ab0 1 1 1 , ,

H F FB b N ab0 2 1 1 , ,

f�r vorgegebenes Niveau .

1.2.7.3 Multiple Mittelwertsvergleiche

Wenn der globale F-Test eines Faktors signifikant war, findet man mit den multiplen

Mittelwertsvergleichen heraus, welche festen Effekte genau signifikant verschieden sind. Die

Hypothesen H0A und H0B von vorigem Abschnitt k�nnen wie folgt geschrieben werden:

H0A: 1.=...=a.

H0B: 1.=...=b.

Page 63: Diplomarbeit varianzanalyse mit sas

- 63 -

mit den sogenannten adjustierten Mittelwerten:

i ijj

j b

ib.

11

. j iji

i a

ja

11

(die rechten Seiten der Gleichungen sind die Definitionsgleichungen von i und j aus Abschnitt

1.2.7.1). Diese werden mit:

. ..i iy

. . . j jy

gesch�tzt. Ein Vergleich von zwei festen Effekten r und t des Faktors A wird mit der

Nullhypothese:

H rtr t0 0: . .

durchgef�hrt. Die Teststatistik des Scheff�-Tests ist:

Ky ys

r t

rt

.. ..

dabei ist srt die Standardabweichung der Zufallsvariablen Yr..-Yt.., ein im Fall der unbalancierten

Varianzanalyse ohne Wechselwirkungen sehr komplizierter Ausdruck.

Die Nullhypothese wird abgelehnt, wenn:

K a F a N ab ( ) , ,1 1 1

zu einem vorgegebenen Niveau gilt.

Analog lassen sich paarweise Vergleiche von festen Effekten r und t von Faktor B mit der

Nullhypothese:

H rtr t0 0: . .

Page 64: Diplomarbeit varianzanalyse mit sas

- 64 -

mit dem Scheff�-Test durchf�hren. Mit SAS wird im folgenden Abschnitt ein t-Test

durchgef�hrt.

1.2.7.4 Durchf�hrung mit SAS

F�r die unbalancierte, zweifaktorielle Varianzanalyse mit festen Effekten mit Wechselwirkung

wurde die Geburt-Datei als Beispiel durchgerechnet (siehe Anhang S. 38). Der 1. Teil des

f�nfteiligen Programms lautet:

LIBNAME neu ‘d:\daniel’;

DATA dk4;

SET neu.geburt;

Ohne Output wird die tempor�re Datei dk4 durch die permanente Datei neu.geburt aus der SAS-

Bibliothek neu im Ordner daniel generiert.

Der 2. Programmteil lautet:

PROC GLM DATA = dk4;

CLASS krank klasse;

MODEL gewicht = krank klasse krank*klasse / SS3;

In der Prozedur GLM berechnen wir die unbalancierte, zweifaktorielle Varianzanalyse der Datei

dk4 mit den Faktorvariablen krank und klasse, die in der CLASS-Anweisung stehen m�ssen. In

der MODEL-Anweisung ist die Modellgleichung mit Wechselwirkung krank*klasse angegeben.

Die Option SS3 bewirkt, dass Quadratsummen vom Typ III nach Henderson ausgedruckt werden

(Dufner, J. (1992), S. 299; Schuemer, R. (1990), S. 12).

Den Output finden wir auf S. 35-36 des Anhangs. Auf S. 35 erhalten wir die �blichen

Informationen �ber die Stufen der Faktoren Gelbsucht und Klasse und die Beobachtungsvariable

Geburtsgewicht. Auf S. 36 erhalten wir zuerst die Anova-Tabelle der Zerlegung von SS_CTotal

in SS_Model und SS_Error, wie bei den balancierten Varianzanalysen. In einer zweiten Anova-

Tabelle erhalten wir Zerlegungen von SS_Model, die eine etwas andere Gestalt haben, als die in

der Theorie in Abschnitt 1.2.7.2 beschriebenen. Das liegt daran, dass wir hier die

Wechselwirkungen hinzugenommen haben. Es sind die Freiheitsgrade DF, die Quadratsummen

Page 65: Diplomarbeit varianzanalyse mit sas

- 65 -

SS, die mittleren Quadratsummen MS, die F-Statistiken (F value) und die

�berschreitungswahrscheinlichkeiten (Pr>F) spaltenweise f�r jeden Effekt angegeben. F�r =

0,05 sind alle Werte von (Pr>F) gr�sser als , sodass alle 3 Effekte nicht signifikant von 0

verschieden sind. Die Nullhypothesen werden nicht abgelehnt. Die Einflussfaktoren Gelbsucht

und Schwangerschaftsdauer haben nur einen zuf�lligen Einfluss auf die Beobachtungsvariable

Geburtsgewicht. Bei = 0,15 ist der Effekt des Faktors Schwangerschaftsdauer signifikant von

0 verschieden, denn (Pr>F) ist gleich 0,1311. Nur dieser Faktor hat dann eine reale Wirkung auf

das Geburtsgewicht. Die Wechselwirkung ist jedoch sehr gering und braucht keinesfalls

ber�cksichtigt zu werden.

Die Sch�tzung der Modellvarianz 2 ergibt MS_Error = 58472,55. F�r das Bestimmtheitsmass R-

Square = 0,187377 haben wir einen sehr schlechten Wert, der weit von 1 entfernt ist. Ein lineares

Modell beschreibt das Problem nicht gut, man m�sste ein anderes Modell verwenden. Der

Variationskoeffizient ist 11,102 %. Die Sch�tzung der Standardabweichung des Modells (Root

MSE) ist 241,81 g. Das gesamte arithmetische Mittel des Geburtsgewichts ist 2178,1 g.

Der 3. Teil des Programms lautet:

OUTPUT OUT = res_u RESIDUAL = u;

LSMEANS krank klasse / STDERR PDIFF;

TITLE ‘Zweifaktorielle Varianzanalyse der Geburt-Datei’;

In der Prozedur GLM wird mit der Option RESIDUAL das Residuum u berechnet und mit

OUTPUT OUT an die Geburt-Datei angef�gt. Die Ausgabedatei ist die tempor�re Datei res_u,

die sp�ter als Output des 4. Programmteils ausgedruckt werden wird. Die LSMEANS-Anweisung

dient der Ausf�hrung von multiplen Mittelwertsvergleichen der adjustierten Mittelwerte der

Einflussfaktorstufen. Die folgenden Erl�uterungen beziehen sich auf jedem der beiden getrennten

Outputs der Variablen krank und klasse im Anhang S. 37. In der 1. Spalte des Outputs S. 37

stehen die Stufen des Faktors der jeweiligen Variablen. Durch LSMEANS werden die

adjustierten Mittelwerte ausgerechnet und in der 2. Spalte ausgedruckt (Dufner, J. (1992), S. 303-

307; Schuemer, R. (1990), S. 19). Die Option STDERR berechnet in der 3. Spalte die

Standardabweichungen der adjustierten Mittelwerte. In Spalte 4 sind die

�berschreitungswahrscheinlichkeiten des t-Tests der Nullhypothese H0:LSMEAN=0 angegeben.

Alle Nullhypothesen werden f�r > 0,0001 abgelehnt. Durch die Option PDIFF sind in Spalte 5

Page 66: Diplomarbeit varianzanalyse mit sas

- 66 -

die �berschreitungswahrscheinlichkeiten des t-Tests der Nullhypothese

H0:LSMEAN(i)=LSMEAN(j) angegeben. F�r die Variable klasse ist daf�r eine symmetrische

Matrix erforderlich. Bei = 0,05 ist kein Fall von Gleichheit der adjustierten Mittelwerte

signifikant. Keine Nullhypothese wird abgelehnt. Alle �berschreitungswahrscheinlichkeiten sind

gr�sser als = 0,05. Erst bei = 0,1 ist u1 signifikant von u2 verschieden.

Der 4. Teil des Programms lautet (Graf, A. (1993), S. 200-202):

LABEL krank = ‘Gelbsucht’

klasse = ‘Klasse’

tage = ‘Schwangerschaftsdauer’

gewicht = ‘Geburtsgewicht’

u = ‘Residuum’;

PROC PRINT DATA = res_u LABEL;

TITLE ‘Die Geburt-Datei mit Residuen’;

In diesem Teil wird die Geburt-Datei mit Residuen ausgedruckt (siehe Anhang S. 38).

Der 5. und letzte Programmteil lautet (Graf, A. (1993), S. 215-217):

PROC UNIVARIATE DATA = res_u NORMAL;

VAR u;

TITLE1 ‘Test der Normalverteilungsannahme’;

TITLE2 ‘der Geburt-Datei’;

RUN;

Durch die Option NORMAL und die VAR-Anweisung wird in der Prozedur UNIVARIATE die

Variable u der Datei res_u mit dem Shapiro-Wilk-Test auf Normalverteilung �berpr�ft.

Im Ausdruck Anhang S. 39 ersehen wir aus Moments die Anzahl der Residuen N = 31, wovon 30

ungleich 0 und 15 positiv sind. Der Mittelwert und die Summe der Residuen ist 0, die

Standardabweichung und die Varianz sind gleich 220,7422 bzw. gleich 48727,12. Die Werte der

Schiefe (skewness = 0,092713) und weniger der W�lbung (kurtosis = 0,357334) von nahe 0

zeigen Normalverteilung an. F�r den t-Test gilt dasselbe wie in Abschnitt 1.2.1.4 gesagte. Die

Teststatistik W des Shapiro-Wilk-Tests liegt mit 0,99134 sehr nahe bei 1. Dies bedeutet, dass die

Normalverteilungsannahme gerechtfertigt ist. Mit einer Unterschreitungswahrscheinlichkeit von

Page 67: Diplomarbeit varianzanalyse mit sas

- 67 -

0,995 ist auch bei dem sehr hohen Signifikanzniveau von 0,99 die Normalverteilungsannahme

nicht widerlegt. F�r Quantiles und Extremes gilt das in Abschnitt 1.2.1.4 gesagte.

Page 68: Diplomarbeit varianzanalyse mit sas

- 68 -

2 STATISTISCHE GRUNDLAGEN

2.1 Grundgesamtheit und Stichprobe

Eine Grundgesamtheit ist die Menge �ber deren Einheiten man Informationen erhalten will.

Wenn die Grundgesamtheit zu gross ist, um alle Einheiten zu untersuchen, behandelt man nur

eine Teilmenge von n Elementen, die man zuf�llig ausw�hlt, d.h. man zieht eine Stichprobe.

Dann versucht man von der Stichprobe auf die Grundgesamtheit zu schliessen.

Page 69: Diplomarbeit varianzanalyse mit sas

- 69 -

2.2.Statistische Masszahlen

Sei xi (i=1,...,n) eine Folge von n reellen Zahlen, etwa die Stichprobe eines stetigen Merkmals.

Der arithmetische Mittelwert ist definiert durch:

xn

xii

i n

11

Der Median ist der mittlere Wert der xi, wenn diese der Gr�sse nach geordnet sind. Wenn n eine

gerade Zahl ist, wird der Mittelwert der beiden mittleren Werten genommen.

Der Modalwert ist der am h�ufigsten in der Stichprobe vorkommende Wert.

Ein Streuungsmass ist die (empirische) Varianz:

sn

x xii

i n2

1

211

( )

Daraus abgeleitet wird der (dimensionslose) Variationskoeffizient CV:

CVsx

100

Ein weiteres Streuungsmass ist die Spannweite, die Differenz zwischen dem gr�ssten und

kleinsten Wert der Stichprobe.

Page 70: Diplomarbeit varianzanalyse mit sas

- 70 -

2.3 Zufallsvariable

Eine Zufallsvariable X ist eine Variable, die einen von einem zuf�lligen Ereignis abh�ngigen

reellen Wert x annimmt. Man nennt x die Realisierung der Zufallsvariablen X. Eine

Zufallsvariable kann diskret oder stetig sein.

Die sogenannte Verteilungsfunktion F(x) von diskreter wie stetiger Zufallsvariablen X ist

definiert wie folgt:

F x P X x( ) ( )

P ist die Wahrscheinlichkeit, dass die Realisierungen von X kleiner oder gleich x sind. Es gilt f�r

stetige Zufallsvariable X:

dF xdx

f x( )

( )

f(x) heisst Dichtefunktion. Wenn wir diese Gleichung nach den Rechenregeln der Differential-

und Integralrechnung nach F(x) aufl�sen, erhalten wir die Verteilungsfunktion:

F x f t dtx

( ) ( )

F�r diskrete Zufallsvariable ist die Verteilungsfunktion gegeben durch:

F x f xix xi

( ) ( )

Hier ist:

f(xi) = P(X=xi)

die Wahrscheinlichkeit daf�r, dass die diskrete Zufallsvariable X den Wert xi annimmt.

Es folgt, dass im Falle diskreter wie stetiger Zufallsvariablen gilt:

P a X b F b F a( ) ( ) ( )

Das -Quantil x der Verteilung einer Zufallsvariablen X ist definiert durch:

Page 71: Diplomarbeit varianzanalyse mit sas

- 71 -

= P(X x)

ist die Wahrscheinlichkeit P, dass die Realisierung x von X kleiner oder gleich der reellen Zahl

x ist.

Wir definieren ferner:

Erwartungswert einer diskreten Zufallsvariablen X:

E X x f xii

i n

i( ) ( )

1

Erwartungswert einer stetigen Zufallsvariablen X:

E X xf x dx( ) ( )

Varianz einer diskreten Zufallsvariablen X:

VAR X f x x E Xii

i n

i( ) ( )( ( ))

1

2

Varianz einer stetigen Zufallsvariablen X:

VAR X f x x E X dx( ) ( )( ( ))

2

Page 72: Diplomarbeit varianzanalyse mit sas

- 72 -

2.4 Spezielle Verteilungen

2.4.1 Normalverteilung

Eine stetige Zufallsvariable X heisst normalverteilt mit Erwartungswert und Varianz 2, wenn

sie die Dichtefunktion:

f x x( ) exp( ( ) / ( )) 1

22

22 2

besitzt (Falk, M. (1995), S. 49-51; Z�fel, P. (1992), S. 25-26). Wenn = 0 und = 1 ist, heisst

die Verteilung Standardnormalverteilung. Die Verteilungsfunktion der Standardnormalverteilung

lautet:

( ) exp( / )x t dtx

12

22

Es gilt:

( ) ( ) x x1

Daher braucht man die Verteilungsfunktion der Standardnormalverteilung nur f�r positive x zu

tabellieren.

Das Quantil der Standardnormalverteilung wird mit z bezeichnet und ist definiert mit:

P X z( )

und es gilt:

z = -z1-

Wenn die Zufallsvariable X normalverteilt ist mit Erwartungswert und Varianz 2, dann ist die

Zufallsvariable aX+b normalverteilt mit Erwartungswert a+b und Varianz (a)2. Also folgt,

dass:

ZX

Page 73: Diplomarbeit varianzanalyse mit sas

- 73 -

standardnormalverteilt ist. Die Wahrscheinlichkeit, dass die Realisierung x der normalverteilten

Zufallsvariablen X zwischen zwei reellen Gr�ssen c und d liegt, ist:

P c x d Pc x d

( ) ( )

Pc

zd d c

( ) ( ) ( )

Die Standardnormalverteilungsfunktion reicht also zur Berechnung aller Probleme, in denen

Normalverteilungen vorkommen, aus.

Page 74: Diplomarbeit varianzanalyse mit sas

- 74 -

2.4.2 Chi-Quadrat-Verteilung

Sind X1,...,Xn stochastisch unabh�ngige, standardnormalverteilte Zufallsvariablen, dann heisst die

Verteilung der Zufallsvariablen:

U X X Xn n 12

22 2...

(zentrale) Chi-Quadrat-Verteilung mit n Freiheitsgraden (Dufner, J. (1992), S. 121; Falk, M.

(1995), S. 52). Sie besitzt die Dichtefunktion:

f xn

xx

n

n

( )( / )

exp( )/1

2 2 2212

f�r x > 0. Die Quantile werden mit ,n bezeichnet. Der Erwartungswert von Un ist n und die

Varianz ist 2n.

Page 75: Diplomarbeit varianzanalyse mit sas

- 75 -

2.4.3 Student-Verteilung

Sind X und Un stochastisch unabh�ngig und standardnormalverteilt, bzw. Chi-Quadrat-verteilt

mit n Freiheitsgraden, dann heisst die Verteilung der Zufallsvariablen:

TXU nnn

Studentverteilung oder t-Verteilung mit n Freiheitsgraden (Dufner, J. (1992), S. 122; Falk, M.

(1995), S. 55). Die Dichtefunktion der Verteilung lautet:

f xn

xn

n

n

n

( )( )

( )( )

12

2

2

11

2

f�r reelles x. Die Quantile werden mit t,n bezeichnet. Der Erwartungswert ist 0 f�r n > 1 und die

Varianz ist n/(n-2) f�r n > 2.

Page 76: Diplomarbeit varianzanalyse mit sas

- 76 -

2.4.4 Fisher-Verteilung

Es seien Um und Un stochastisch unabh�ngige, stetige Zufallsvariablen und Chi-Quadrat-verteilt

mit Freiheitsgrad m bzw. n. Dann heisst die Verteilung der Zufallsvariablen:

WU mU nm nm

n,

(zentrale) F-Verteilung mit Freiheitsgraden m und n (Dufner, J. (1992), S. 123; Falk, M. (1995),

S. 54). Die Dichtefunktion von Wm,n lautet:

f x m nx

n mx

m n

m n

m n

m

m n( )( )

( ) ( ) ( )

2

2 2

12 2

2

2

Die -Quantile werden mit F,m,n bezeichnet. Der Erwartungswert ist n/(n-2) f�r n > 2 und die

Varianz ist:

VAR Wn m n

m n nm n( )( )

( ) ( ),

2 2

2 4

2

2

f�r n > 4. Es gilt schliesslich die Formel:

F,m,n = 1/F1-,n,m

Page 77: Diplomarbeit varianzanalyse mit sas

- 77 -

2.5 Parametertest

Es wird von einer Stichprobe x1,...,xn ausgegangen, wobei die xi Realisierungen von

normalverteilten Zufallsvariablen X1,...,Xn sind mit gleichem Erwartungswert und gleicher

Varianz 2.

Wir behaupten nun dass:

0

ist, d.h. wir stellen die Nullhypothese:

H0 0:

auf, mit 0 als feste reelle Zahl (Z�fel, P. (1992), S. 29-32). Die Alternativhypothese ist dann die

Verneinung:

HA : 0

Es sei t0 die Realisierung einer Stichprobenfunktion T = T(X1,...,Xn) (die eine Zufallsvariable ist)

f�r X1=x1,...,Xn=xn mit E(T) = . Es ist t0 eine erwartungstreue Sch�tzung f�r . Unter G�ltigkeit

der Nullhypothese ( = 0) habe T eine Verteilungsfunktion F(x1,...,xn). Ferner sei T1- ein

Quantil der Verteilung von T mit vorgegebener fester Wahrscheinlichkeit :

P t T( )1

Mit t T1- wird der Annahmebereich ]-,T1-] der Nullhypothese H0 definiert, mit t > T1- der

Ablehnbereich ]T1-,+[. Aus der Stichprobe wird also t = t0 berechnet und mit T1- vergleichen.

Gilt t0 > T1- wird H0: 0 abgelehnt, anderenfalls nicht.

Liegt t0 nahe an T1- aber noch im Annahmebereich geht man davon aus, dass die Nullhypothese

richtig ist und die Abweichung nach oben von t0 nur zufallsbedingt ist und etwa vom

Versuchsfehler herr�hrt. Liegt t0 dagegen im Ablehnbereich, nimmt man an, dass so eine grosse

Abweichung vom Erwartungswert nicht zufallsbedingt ist, sondern dass „irgendwas

dahintersteckt“, irgend eine Ursache. Die Nullhypothese wird abgelehnt und man sagt: ist

signifikant gr�sser als 0 Es werden Fehlentscheidungen getroffen, wenn die Nullhypothese

abgelehnt wird, obwohl sie richtig ist oder wenn sie angenommen wird, obwohl sie falsch ist.

Page 78: Diplomarbeit varianzanalyse mit sas

- 78 -

Beide Fehler sind in der Praxis nicht gleichgewichtig. Da man in der Testtheorie gew�hnlich nur

eine der beiden Fehlerwahrscheinlichkeiten kontrollieren kann, wird diejenige Aussage als

Nullhypothese genommen, deren irrt�mliches Ablehnen die gr�sseren Konsequenzen h�tte (Falk,

M. (1995), S. 60). Dieser sogenannte Fehler der 1. Art wird kontrolliert. Das Annehmen der

Nullhypothese, obwohl sie falsch ist, nennt man Fehler 2. Art. Entsprechend heissen die

zugeh�rigen Wahrscheinlichkeiten des Begehens dieser Fehler Fehlerwahrscheinlichkeiten 1. und

2. Art bzw. und .

Man nennt t0 Pr�fgr�sse oder Pr�fstatistik. Anstatt die Grenze des Annahmebereichs mit dem

Quantil T1- anzugeben und mit der Pr�fstatistik t0 zu vergleichen, kann man auch die

Wahrscheinlichkeit:

’ = P(t > t0)

berechnen und mit vergleichen. Es ist ’ < �quivalent zu t0 > T1-. Im Output der SAS-

Prozedur GLM wird die zweite Methode f�r den globalen F-Test verwandt, und die erste

Methode wird f�r die paarweisen Mittelwertsvergleiche im Scheff�- und Duncan-Test verwandt.

Page 79: Diplomarbeit varianzanalyse mit sas

- 79 -

2.6 Test der Normalverteilungsannahme

2.6.1 Residualvariable

In allen Varianzanalysen wurde die Fehlerzufallsvariable ij bzw. ijk als unabh�ngig

normalverteilt mit Erwartungswert 0 und Varianz ij2 bzw. ijk2 angenommen.

Weitere Modellannahmen waren neben der Normalverteilung der Fehler, die stochastische

Unabh�ngigkeit zwischen allen Fehlern und die Homoskedastie, die definiert ist als die

Gleichheit aller Fehlervarianzen an 2. Die Realisationen der Zufallsvariablen ij beispielsweise,

der Fehler des Modells der einfaktoriellen Varianzanalyse, sind nicht beobachtbar (Dufner, J.

(1992), S. 203). Man verwendet statt dessen die Residuen:

eij = yij - yi.

die die Realisationen der entsprechenden Zufallsvariablen, die sogenannten Residualvariablen:

Eij = Yij - Yi.

sind. Es gilt f�r ihre Varianzen und Kovarianzen:

VAR Enniji

i( )

1 2

(i=1,...,k; j=1,...,ni)

COV E Eij sl( , ) 0

(i s; j,l beliebig)

COV E Enij sli

( , ) 2

(i = s; j l).

Die Homoskedastie und die stochastische Unabh�ngigkeit der Residualvariablen steigen mit den

Zellenumf�ngen ni und der Balance der Daten.

Page 80: Diplomarbeit varianzanalyse mit sas

- 80 -

Im Falle der zweifaktoriellen Varianzanalyse verwendet man entsprechend die Residualvariable:

Eijk = Yijk - Yij.

F�r ihre Varianzen und Kovarianzen gilt analoges wie im einfaktoriellen Fall. Wir verwenden die

Residualvariablen dazu, bei allen Dateien die Annahme der Normalverteilung des

Versuchsfehlers zu testen.

Page 81: Diplomarbeit varianzanalyse mit sas

- 81 -

2.6.2 Durchf�hrung mit SAS

Wir wollen pr�fen, ob die Variable x die zu einer Datei abc geh�rt, normalverteilt ist. Dazu ist in

SAS der Shapiro-Wilk-Test implementiert. Der relevante Programmteil lautet:

PROC UNIVARIATE DATA = abc NORMAL;

VAR x;

RUN;

In der Prozedur UNIVARIATE (Gogolok, J. (1992), S. 525-527; Graf, A. (1993), S. 215-217)

wird mit der Option NORMAL die durch die VAR-Anweisung aus der Datei abc ausgew�hlte

Variable x auf Normalverteilung �berpr�ft. F�r N 2000 ist der Shapiro-Wilk-Test

implementiert. Er z�hlt zu den sogenannten Regressionstests (Dufner, J. (1992), S. 155-158). Der

PROC-Step wird mit RUN abgeschlossen. Der Output hat den Umfang einer Seite mit u.a. dem

Ergebnis der Teststatistik W:Normal und der Unterschreitungswahrscheinlichkeit Pr<W. Es gilt

immer 0 < W < 1. Damit die Normalverteilungsannahme gerechtfertigt ist, muss W nahe bei 1

liegen. Das Signifikanzniveau betr�gt �blicherweise 0,1.

Page 82: Diplomarbeit varianzanalyse mit sas

- 82 -

3 DAS SAS-SYSTEM

3.1 Einf�hrung

SAS ist die Abk�rzung von „Statistical Analysis System“ und ist ein Softwaresystem zur

statistischen Analyse von Daten mit einem sich vergr�ssernden Anwendungsspektrum, auch

ausserhalb der Statistik, so dass man fast von einer Universalsoftware sprechen kann (Graf, A.

(1993), S. 14).

Page 83: Diplomarbeit varianzanalyse mit sas

- 83 -

3.2 Die drei Fenster

Nach Aufruf von SAS auf dem PC unter dem Betriebssystem MS Windows erscheinen drei

Fenster auf dem Bildschirm: das Editor-Fenster, das Log-Fenster und das Output-Fenster (Falk,

M. (1995), S. 341; Gogolok, J. (1992), S. 24-28; Graf, A. (1993), S. 46). Durch Mausklick kann

man von einem Fenster zum anderen wechseln.

Im Editor-Fenster gibt man mit der Hilfe einiger wichtiger Funktionen, �hnlich den Funktionen

eines Textprogramms, mit der Tastatur das Programm ein. Dies kann formatfrei in Gross- oder

Kleinschreibung geschehen.

Das Log-Fenster enth�lt Informationen zu den ausgef�hrten Anweisungen, dem Speicher- und

Zeitbedarf, Fehlermeldungen und Angaben �ber die Anzahl der Variablen und die Anzahl der

Beobachtungen der Dateien. Im Log-Fenster kontrolliert man das eingegebene Programm und im

Editor-Fenster verbessert man es, bis es einwandfrei ist.

Im Output-Fenster erscheinen die Ergebnisse, nachdem man mit dem Befehl SUBMIT das

syntaktisch einwandfreie Programm zum Laufen gebracht hat.

Die Inhalte der drei Fenster kann man nach Belieben einzeln ausdrucken oder speichern.

Page 84: Diplomarbeit varianzanalyse mit sas

- 84 -

3.3 Die SAS-Sprache

Die SAS-Programmiersprache hat ihre eigene Syntax, wie jede h�here Programmiersprache

(Pascal, Basic, Cobol,...) auch mit �hnlichen Sprachkonstrukten. Die Wirkungsweise ist jedoch

oft eine andere und es fehlt eine logische Abgeschlossenheit. Dass die Syntax nicht immer

einheitlich und konsistent ist, liegt in der grossen Komplexit�t begr�ndet (Graf, A. (1993), S. 24).

Dies macht es dem Anf�nger schwer.

Die SAS-Sprache besteht aus:

- Anweisungen: sie werden immer durch ein Semikolon abgeschlossen und sind in der Regel eine

Folge von SAS-Schl�sselw�rtern, Sonderzeichen oder Operatoren (Gogolok, J. (1992), S. 335-

363).

- SAS-Ausdr�cke bestehen aus Operatoren und Operanden von arithmetischem und logischem

Typ und Zeichenketten (Graf, A. (1993), S. 27-31). Ein Operand kann ein Variablenname, eine

Konstante oder eine SAS-Funktion sein.

- SAS-Funktionen: wie in der Mathematik wird einem oder mehrerer Argumente ein

Funktionswert zugewiesen (Gogolok, J. (1992), S. 307-334).

Page 85: Diplomarbeit varianzanalyse mit sas

- 85 -

3.4 Das SAS-Programm

3.4.1 Der DATA-Step

Die Programme der SAS-Programmiersprache bestehen aus Kommandos, die der Reihe nach

abgearbeitet werden. Die SAS-Programme, wie man sie im Editor-Fenster eingibt, bestehen aus

einem oder mehreren DATA- und PROC-Steps.

Im DATA-Step wird immer eine Datei erstellt (Graf, A. (1993), S. 36). Zum Einlesen der Daten

muss in der INPUT-Anweisung angegeben werden, welche Variablen definiert sind. Auf die

INPUT-Anweisung folgt die CARDS-Anweisung, in der die Daten mit der Tastatur eingelesen

werden. Wenn zwischen den Variablennamen im INPUT bzw. den Variablenwerten in CARDS

ein Lehrzeichen steht, werden die Eingaben in CARDS der Eingabe der Variablennamen in

INPUT der Reihe nach zugewiesen. Die Eingabe von „Zeilenhalter“ @@ am Ende von INPUT

bewirkt, dass die Datens�tze in CARDS auch nebeneinander in einer Zeile geschrieben werden

k�nnen und nicht in einer Datenmatrix zwingend untereinander. In dieser Datenmatrix sind die

Zeilen die Observationen und die Spalten die Variablen.

Die Datei kann dann als permanente Datei unter:

DATA libref.name;

dauerhaft abgespeichert werden. Daf�r muss im Programm der Ausdruck:

LIBNAME libref ‘DOS-Pfad’;

eingegeben werden (Gogolok, J. (1992), S. 101-104). Damit wird ein Ordner, die SAS-Bibliothek

‘libref’, angelegt, in dem alle permanenten Dateien abgelegt werden k�nnen. Im Gegensatz dazu

werden die tempor�ren Dateien nach der Sitzung automatisch gel�scht.

Page 86: Diplomarbeit varianzanalyse mit sas

- 86 -

3.4.2 Der PROC-Step

Eine Prozedur ist ein fertiges von SAS zur Verf�gung gestelltes Programm, dass als PROC-Step

mit:

PROC Prozedurname DATA = Dateiname;

eingegeben wird (Graf, A. (1993), S. 39). Dem folgen Anweisungen wie jene, die in dieser Arbeit

mit der Prozedur GLM verwendet werden und im folgenden erkl�rt werden.

- In der VAR-Anweisung werden die auszuwertenden Variablen festgelegt; ohne VAR-

Anweisung werden alle Variablen der Datei ausgewertet.

- In der CLASS-Anweisung kann man eine getrennte Auswertung f�r verschiedenen

Auspr�gungen von Variablen erhalten.

- In der MODEL-Anweisung wird in den Prozeduren REG, GLM und ANOVA eine

Modellgleichung aus der Regressions- oder Varianzanalyse angegeben.

Um das Programm abzuschliessen, muss am Ende RUN; eingegeben werden. Die mit den

Prozeduren nach SUBMIT erzeugten Ergebnisse werden im Output-Fenster ausgegeben und

k�nnen ausgedruckt oder gespeichert werden.

Varianzanalysen k�nnen in SAS mit den Prozeduren ANOVA und GLM berechnet werden

(Z�fel, P. (1992), S. 44-50). GLM ist die Abk�rzung von „General Linear Model“. ANOVA kann

nur bei balancierten Daten angewandt werden; GLM auch bei unbalancierten und multivariaten

Varianzanalysen.

Page 87: Diplomarbeit varianzanalyse mit sas

- 87 -

4 SCHLUSSFOLGERUNG

Es wurden in dieser Arbeit die Varianzanalysen von vier Dateien mit SAS auf dem PC berechnet:

- mit der Niere-Datei eine unbalancierte, einfaktorielle Varianzanalyse mit festen Effekten,

- mit der Wald-Datei eine balancierte, zweifaktorielle Varianzanalyse mit festen Effekten und mit

Wechselwirkung,

- mit der Umwelt-Datei eine zweifaktorielle Varianzanalyse mit festen Effekten und einer

Beobachtung in jeder Zelle,

- mit der Geburt-Datei eine unbalancierte, zweifaktorielle Varianzanalyse mit festen Effekten und

mit Wechselwirkung.

Die Ergebnisse sind im Anhang S. 1-39 ausgedruckt und wurden im 1. Kapitel erkl�rt. Darunter

sind auch die Werte des Bestimmtheitsmasses R-Square und die Werte der Statistik W und der

Unterschreitungswahrscheinlichkeit (Pr<W) des Shapiro-Wilk-Tests zu finden. Diese Werte der

vier Dateien sind in der folgenden Tabelle noch einmal zusammengefasst:

Datei R2 W Pr < WNiere 0,303209 0,981576 0,8612Wald 0,960669 0,965194 0,2231Umwelt 0,880989 0,981814 0,8105Geburt 0,187377 0,99134 0,9950

Es gilt 0 R2 1 und 0 < W < 1. Einen Wert des Bestimmungsmasses R2 in der N�he von 1 zeigt

eine gute Anpassung des linearen Modells an das untersuchte Problem an. Werte der Statistik W

des in SAS implementierten Shapiro-Wilk-Tests in der N�he von 1 und der

Unterschreitungswahrscheinlichkeit (Pr<W) von gr�sser als 0,1 zeigen an, dass die Annahme der

Normalverteilung des Versuchsfehlers gerechtfertigt ist.

Der Tabelle ist zu entnehmen, dass W bei allen vier Dateien sehr nahe bei 1 liegt und die

Page 88: Diplomarbeit varianzanalyse mit sas

- 88 -

Unterschreitungswahrscheinlichkeit (Pr<W) liegt in allen F�llen �ber dem �blichen

Signifikanzniveau 0,1. Die Normalverteilungsvoraussetzung ist somit �berall erf�llt. Das

Bestimmtheitsmass ist nur bei den balancierten, chemisch-physikalischen Dateien Wald und

Umwelt nahe bei 1. Bei den unbalancierten, medizinischen Dateien Niere und Geburt ist das

lineare Modell zur Problembeschreibung schlecht geeignet, denn das Bestimmtheitsmass ist hier

kleiner als 0,5. Ein Grund daf�r k�nnte sein, dass biologische Probleme komplizierter sind als

chemisch-physikalische und dass man kompliziertere Modelle als das einfache lineare Modell

aufstellen muss, um Probleme, in denen lebende Organismen im Spiel sind, gut zu beschreiben.

Page 89: Diplomarbeit varianzanalyse mit sas

- 89 -

5 LITERATURVERZEICHNIS

Ahrens, H./L�uter, J. (1974), Mehrdimensionale Varianzanalyse, Berlin.

Dufner, J./Jensen, U./Schuhmacher, E. (1992), Statistik mit SAS, Stuttgart.

Falk, M./Becker, R./Marohn, F. (1995), Angewandte Statistik mit SAS, Berlin.

Gogolok, J./Schuemer, R./Str�hlein, G. (1992), Datenverarbeitung und statistische Auswertung

mit SAS, Band I, Stuttgart.

Graf, A./Bundschuh, W./Kruse, H.-G. (1993), Effektives Arbeiten mit SAS, Mannheim.

Prokopp, F. (1994), Lineare Regression und Varianzanalyse, M�nchen.

Schach, S./Sch�fer, T. (1978), Regressions- und Varianzanalyse, Berlin.

Schuemer, R./Str�hlein, G./Gogolok, J. (1990), Datenverarbeitung und statistische Auswertung

mit SAS, Band II, Stuttgart.

Searle, S. R./Casella, G./McCulloch, C. E. (1992), Variance Components, New York.

Toutenburg, H. (1994), Versuchsplanung und Modellwahl, Heidelberg.

Z�fel, P. (1992), Univariate Varianzanalysen, Stuttgart.

Page 90: Diplomarbeit varianzanalyse mit sas

- 90 -

A N H A N G

Page 91: Diplomarbeit varianzanalyse mit sas

- 91 -

Einfaktorielle Varianzanalyse der Niere-Datei 1

General Linear Models ProcedureClass Level Information

Class Levels Values

UGR 4 0 1 2 3

Number of observations in data set = 34

Page 92: Diplomarbeit varianzanalyse mit sas

- 92 -

Einfaktorielle Varianzanalyse der Niere-Datei 2

General Linear Models Procedure

Dependent Variable: HFS HerzfequenzSum of Mean

Source DF Squares Square F Value Pr > F

Model 3 5470.4190 1823.4730 4.35 0.0117

Error 30 12571.3457 419.0449

Corrected Total 33 18041.7647

R-Square C.V. Root MSE HFS Mean

0.303209 12.35795 20.471 165.65

Source DF Type I SS Mean Square F Value Pr > F

UGR 3 5470.4190 1823.4730 4.35 0.0117

Source DF Type III SS Mean Square F Value Pr > F

UGR 3 5470.4190 1823.4730 4.35 0.0117

Page 93: Diplomarbeit varianzanalyse mit sas

- 93 -

Einfaktorielle Varianzanalyse der Niere-Datei 3

General Linear Models Procedure

Scheffe's test for variable: HFS

NOTE: This test controls the type I experimentwise error rate butgenerally has a higher type II error rate than Tukey's forall pairwise comparisons.

Alpha= 0.05 Confidence= 0.95 df= 30 MSE= 419.0449Critical Value of F= 2.92228

Comparisons significant at the 0.05 level are indicated by '***'.

Simultaneous SimultaneousLower Difference Upper

UGR Confidence Between ConfidenceComparison Limit Means Limit

0 - 2 -8.063 20.352 48.7670 - 3 -4.688 22.548 49.7840 - 1 2.842 32.756 62.671 ***

2 - 0 -48.767 -20.352 8.0632 - 3 -29.173 2.196 33.5662 - 1 -21.316 12.405 46.126

3 - 0 -49.784 -22.548 4.6883 - 2 -33.566 -2.196 29.1733 - 1 -22.525 10.208 42.942

1 - 0 -62.671 -32.756 -2.842 ***1 - 2 -46.126 -12.405 21.3161 - 3 -42.942 -10.208 22.525

Page 94: Diplomarbeit varianzanalyse mit sas

- 94 -

Einfaktorielle Varianzanalyse der Niere-Datei 4

General Linear Models Procedure

Duncan's Multiple Range Test for variable: HFS

NOTE: This test controls the type I comparisonwise error rate, notthe experimentwise error rate

Alpha= 0.05 df= 30 MSE= 419.0449WARNING: Cell sizes are not equal.

Harmonic Mean of cell sizes= 7.820949

Number of Means 2 3 4Critical Range 21.14 22.22 22.91

Means with the same letter are not significantly different.

Duncan Grouping Mean N UGR

A 180.92 13 0A

B A 160.57 7 2BB 158.38 8 3BB 148.17 6 1

Page 95: Diplomarbeit varianzanalyse mit sas

- 95 -

Die Niere-Datei mit Residuum 5

OBS Untersuchungsgruppe Herzfequenz Residuum

1 0 175 -5.92312 0 170 -10.92313 0 177 -3.92314 0 182 1.07695 0 191 10.07696 0 158 -22.92317 0 185 4.07698 0 175 -5.92319 0 181 0.076910 0 196 15.076911 0 200 19.076912 0 197 16.076913 0 165 -15.923114 1 157 8.833315 1 108 -40.166716 1 170 21.833317 1 138 -10.166718 1 180 31.833319 1 136 -12.166720 2 167 6.428621 2 172 11.428622 2 143 -17.571423 2 134 -26.571424 2 182 21.428625 2 206 45.428626 2 120 -40.571427 3 165 6.625028 3 173 14.625029 3 172 13.625030 3 145 -13.375031 3 134 -24.375032 3 174 15.625033 3 140 -18.375034 3 164 5.6250

Page 96: Diplomarbeit varianzanalyse mit sas

- 96 -

Test der Normalverteilungsannahme 6der Niere-Datei

Univariate Procedure

Variable=R Residuum

Moments

N 34 Sum Wgts 34Mean 0 Sum 0Std Dev 19.51794 Variance 380.9499Skewness -0.10955 Kurtosis -0.04996USS 12571.35 CSS 12571.35CV . Std Mean 3.347299T:Mean=0 0 Pr>|T| 1.0000Num ^= 0 34 Num > 0 19M(Sign) 2 Pr>=|M| 0.6076Sgn Rank 5.5 Pr>=|S| 0.9267W:Normal 0.981576 Pr<W 0.8612

Quantiles(Def=5)

100% Max 45.42857 99% 45.4285775% Q3 14.625 95% 31.8333350% Med 2.576923 90% 21.4285725% Q1 -13.375 10% -24.3750% Min -40.5714 5% -40.1667

1% -40.5714Range 86Q3-Q1 28Mode -5.92308

Extremes

Lowest Obs Highest Obs-40.5714( 26) 19.07692( 11)-40.1667( 15) 21.42857( 24)-26.5714( 23) 21.83333( 16)-24.375( 31) 31.83333( 18)-22.9231( 6) 45.42857( 25)

Page 97: Diplomarbeit varianzanalyse mit sas

- 97 -

Zweifaktorielle Varianzanalyse der Wald-Datei 7

General Linear Models ProcedureClass Level Information

Class Levels Values

KALK 2 M O

BEREG 3 A B C

Number of observations in data set = 54

Page 98: Diplomarbeit varianzanalyse mit sas

- 98 -

Zweifaktorielle Varianzanalyse der Wald-Datei 8

General Linear Models Procedure

Dependent Variable: PH pHSum of Mean

Source DF Squares Square F Value Pr > F

Model 5 116.46393 23.29279 234.48 0.0001

Error 48 4.76820 0.09934

Corrected Total 53 121.23213

R-Square C.V. Root MSE PH Mean

0.960669 5.570712 0.3152 5.6578

Source DF Type I SS Mean Square F Value Pr > F

KALK 1 114.81459 114.81459 1155.80 0.0001BEREG 2 0.86583 0.43292 4.36 0.0182KALK*BEREG 2 0.78351 0.39176 3.94 0.0260

Source DF Type III SS Mean Square F Value Pr > F

KALK 1 114.81459 114.81459 1155.80 0.0001BEREG 2 0.86583 0.43292 4.36 0.0182KALK*BEREG 2 0.78351 0.39176 3.94 0.0260

Page 99: Diplomarbeit varianzanalyse mit sas

- 99 -

Zweifaktorielle Varianzanalyse der Wald-Datei 9

General Linear Models Procedure

Scheffe's test for variable: PH

NOTE: This test controls the type I experimentwise error rate butgenerally has a higher type II error rate than Tukey's forall pairwise comparisons.

Alpha= 0.05 Confidence= 0.95 df= 48 MSE= 0.099337Critical Value of F= 4.04265

Minimum Significant Difference= 0.1725

Comparisons significant at the 0.05 level are indicated by '***'.

Simultaneous SimultaneousLower Difference Upper

KALK Confidence Between ConfidenceComparison Limit Means Limit

M - O 2.74382 2.91630 3.08877 ***

O - M -3.08877 -2.91630 -2.74382 ***

Page 100: Diplomarbeit varianzanalyse mit sas

- 100 -

Zweifaktorielle Varianzanalyse der Wald-Datei 10

General Linear Models Procedure

Scheffe's test for variable: PH

NOTE: This test controls the type I experimentwise error rate butgenerally has a higher type II error rate than Tukey's forall pairwise comparisons.

Alpha= 0.05 Confidence= 0.95 df= 48 MSE= 0.099337Critical Value of F= 3.19073

Minimum Significant Difference= 0.2654

Comparisons significant at the 0.05 level are indicated by '***'.

Simultaneous SimultaneousLower Difference Upper

BEREG Confidence Between ConfidenceComparison Limit Means Limit

C - B -0.0821 0.1833 0.4487C - A 0.0429 0.3083 0.5737 ***

B - C -0.4487 -0.1833 0.0821B - A -0.1404 0.1250 0.3904

A - C -0.5737 -0.3083 -0.0429 ***A - B -0.3904 -0.1250 0.1404

Page 101: Diplomarbeit varianzanalyse mit sas

- 101 -

Zweifaktorielle Varianzanalyse der Wald-Datei 11

General Linear Models Procedure

Duncan's Multiple Range Test for variable: PH

NOTE: This test controls the type I comparisonwise error rate, notthe experimentwise error rate

Alpha= 0.05 df= 48 MSE= 0.099337

Number of Means 2Critical Range .1725

Means with the same letter are not significantly different.

Duncan Grouping Mean N KALK

A 7.11593 27 M

B 4.19963 27 O

Page 102: Diplomarbeit varianzanalyse mit sas

- 102 -

Zweifaktorielle Varianzanalyse der Wald-Datei 12

General Linear Models Procedure

Duncan's Multiple Range Test for variable: PH

NOTE: This test controls the type I comparisonwise error rate, notthe experimentwise error rate

Alpha= 0.05 df= 48 MSE= 0.099337

Number of Means 2 3Critical Range .2112 .2222

Means with the same letter are not significantly different.

Duncan Grouping Mean N BEREG

A 5.8217 18 CA

B A 5.6383 18 BBB 5.5133 18 A

Page 103: Diplomarbeit varianzanalyse mit sas

- 103 -

Die Wald-Datei mit Residuen 13

OBS Kalkung Beregnung pH Residuum

1 M A 7.17 0.367782 M A 7.17 0.367783 M A 6.89 0.087784 M A 6.49 -0.312225 M A 6.89 0.087786 M A 7.05 0.247787 M A 7.32 0.517788 M A 5.84 -0.962229 M A 6.40 -0.4022210 O A 4.31 0.0855611 O A 4.59 0.3655612 O A 4.13 -0.0944413 O A 4.25 0.0255614 O A 4.15 -0.0744415 O A 4.28 0.0555616 O A 4.20 -0.0244417 O A 4.66 0.4355618 O A 3.45 -0.7744419 M B 7.16 -0.0377820 M B 7.19 -0.0077821 M B 7.45 0.2522222 M B 7.49 0.2922223 M B 7.39 0.1922224 M B 6.93 -0.2677825 M B 7.08 -0.1177826 M B 6.96 -0.2377827 M B 7.13 -0.0677828 O B 3.80 -0.2788929 O B 4.27 0.1911130 O B 4.19 0.1111131 O B 4.31 0.2311132 O B 3.95 -0.1288933 O B 4.24 0.1611134 O B 3.82 -0.2588935 O B 4.07 -0.0088936 O B 4.06 -0.0188937 M C 7.84 0.4922238 M C 7.25 -0.0977839 M C 7.18 -0.1677840 M C 7.31 -0.0377841 M C 7.65 0.3022242 M C 7.46 0.1122243 M C 7.43 0.0822244 M C 6.96 -0.3877845 M C 7.05 -0.2977846 O C 4.42 0.1244447 O C 4.25 -0.0455648 O C 4.32 0.0244449 O C 4.19 -0.1055650 O C 4.17 -0.1255651 O C 4.46 0.1644452 O C 4.22 -0.0755653 O C 4.90 0.6044454 O C 3.73 -0.56556

Page 104: Diplomarbeit varianzanalyse mit sas

- 104 -

Test der Normalverteilungsannahme 14der Wald-Datei

Univariate Procedure

Variable=S Residuum

Moments

N 54 Sum Wgts 54Mean 0 Sum 0Std Dev 0.299943 Variance 0.089966Skewness -0.70199 Kurtosis 1.500363USS 4.7682 CSS 4.7682CV . Std Mean 0.040817T:Mean=0 0 Pr>|T| 1.0000Num ^= 0 54 Num > 0 26M(Sign) -1 Pr>=|M| 0.8919Sgn Rank 34.5 Pr>=|S| 0.7695W:Normal 0.965194 Pr<W 0.2231

Quantiles(Def=5)

100% Max 0.604444 99% 0.60444475% Q3 0.191111 95% 0.49222250% Med -0.00833 90% 0.36777825% Q1 -0.12556 10% -0.312220% Min -0.96222 5% -0.56556

1% -0.96222Range 1.566667Q3-Q1 0.316667Mode 0.087778

Extremes

Lowest Obs Highest Obs-0.96222( 8) 0.367778( 2)-0.77444( 18) 0.435556( 17)-0.56556( 54) 0.492222( 37)-0.40222( 9) 0.517778( 7)-0.38778( 44) 0.604444( 53)

Page 105: Diplomarbeit varianzanalyse mit sas

- 105 -

Zweifaktorielle Varianzanalyse mit einer Beobachtung 15pro Zelle der Umwelt-Datei

General Linear Models ProcedureClass Level Information

Class Levels Values

DATUM 2 APR94 JUL93

NAME 23 ANSBACH ASCHAFFENBURG AUGSBURG BAYREUTH BURGHAUSENERLANGEN FUERTH HOF INGOLSTADT KELHEIM KEMPTENKULMBACH LANDSHUT MUENCHEN NEU-ULM NUERNBERGOBERAUDORF PASSAU REGENSBURG SCHWEINFURT TROSTBERGWEIDEN WUERZBURG

Number of observations in data set = 46

Page 106: Diplomarbeit varianzanalyse mit sas

- 106 -

Zweifaktorielle Varianzanalyse mit einer Beobachtung 16pro Zelle der Umwelt-Datei

General Linear Models Procedure

Dependent Variable: STAUB StaubkonzentrationSum of Mean

Source DF Squares Square F Value Pr > F

Model 23 3467.9565 150.7807 7.08 0.0001

Error 22 468.4783 21.2945

Corrected Total 45 3936.4348

R-Square C.V. Root MSE STAUB Mean

0.880989 12.03352 4.6146 38.348

Source DF Type I SS Mean Square F Value Pr > F

DATUM 1 292.5217 292.5217 13.74 0.0012NAME 22 3175.4348 144.3379 6.78 0.0001

Source DF Type III SS Mean Square F Value Pr > F

DATUM 1 292.5217 292.5217 13.74 0.0012NAME 22 3175.4348 144.3379 6.78 0.0001

Page 107: Diplomarbeit varianzanalyse mit sas

- 107 -

Zweifaktorielle Varianzanalyse mit einer Beobachtung 17pro Zelle der Umwelt-Datei

General Linear Models Procedure

Scheffe's test for variable: STAUB

NOTE: This test controls the type I experimentwise error rate butgenerally has a higher type II error rate than Tukey's forall pairwise comparisons.

Alpha= 0.05 Confidence= 0.95 df= 22 MSE= 21.29447Critical Value of F= 4.30095

Minimum Significant Difference= 2.8221

Comparisons significant at the 0.05 level are indicated by '***'.

Simultaneous SimultaneousLower Difference Upper

DATUM Confidence Between ConfidenceComparison Limit Means Limit

APR94 - JUL93 2.221 5.043 7.866 ***

JUL93 - APR94 -7.866 -5.043 -2.221 ***

Page 108: Diplomarbeit varianzanalyse mit sas

- 108 -

Zweifaktorielle Varianzanalyse mit einer Beobachtung 18pro Zelle der Umwelt-Datei

General Linear Models Procedure

Scheffe's test for variable: STAUB

NOTE: This test controls the type I experimentwise error rate butgenerally has a higher type II error rate than Tukey's forall pairwise comparisons.

Alpha= 0.05 Confidence= 0.95 df= 22 MSE= 21.29447Critical Value of F= 2.04777

Minimum Significant Difference= 30.973

Comparisons significant at the 0.05 level are indicated by '***'.

Simultaneous SimultaneousLower Difference Upper

NAME Confidence Between ConfidenceComparison Limit Means Limit

AUGSBURG - PASSAU -16.973 14.000 44.973AUGSBURG - REGENSBURG -13.973 17.000 47.973AUGSBURG - WEIDEN -10.473 20.500 51.473AUGSBURG - LANDSHUT -7.973 23.000 53.973AUGSBURG - BAYREUTH -7.973 23.000 53.973AUGSBURG - SCHWEINFURT -7.473 23.500 54.473AUGSBURG - HOF -6.473 24.500 55.473AUGSBURG - WUERZBURG -5.473 25.500 56.473AUGSBURG - MUENCHEN -5.473 25.500 56.473AUGSBURG - NEU-ULM -4.973 26.000 56.973AUGSBURG - FUERTH -4.973 26.000 56.973AUGSBURG - NUERNBERG -3.973 27.000 57.973AUGSBURG - KELHEIM -3.473 27.500 58.473AUGSBURG - INGOLSTADT -2.973 28.000 58.973AUGSBURG - KULMBACH -1.973 29.000 59.973AUGSBURG - ANSBACH -0.973 30.000 60.973AUGSBURG - ASCHAFFENBURG 0.027 31.000 61.973 ***AUGSBURG - BURGHAUSEN 0.527 31.500 62.473 ***AUGSBURG - ERLANGEN 2.027 33.000 63.973 ***AUGSBURG - KEMPTEN 6.027 37.000 67.973 ***AUGSBURG - OBERAUDORF 6.527 37.500 68.473 ***AUGSBURG - TROSTBERG 10.527 41.500 72.473 ***

PASSAU - AUGSBURG -44.973 -14.000 16.973PASSAU - REGENSBURG -27.973 3.000 33.973PASSAU - WEIDEN -24.473 6.500 37.473PASSAU - LANDSHUT -21.973 9.000 39.973PASSAU - BAYREUTH -21.973 9.000 39.973PASSAU - SCHWEINFURT -21.473 9.500 40.473PASSAU - HOF -20.473 10.500 41.473PASSAU - WUERZBURG -19.473 11.500 42.473PASSAU - MUENCHEN -19.473 11.500 42.473PASSAU - NEU-ULM -18.973 12.000 42.973PASSAU - FUERTH -18.973 12.000 42.973PASSAU - NUERNBERG -17.973 13.000 43.973

Page 109: Diplomarbeit varianzanalyse mit sas

- 109 -

Zweifaktorielle Varianzanalyse mit einer Beobachtung 19pro Zelle der Umwelt-Datei

General Linear Models Procedure

Simultaneous SimultaneousLower Difference Upper

NAME Confidence Between ConfidenceComparison Limit Means Limit

PASSAU - KELHEIM -17.473 13.500 44.473PASSAU - INGOLSTADT -16.973 14.000 44.973PASSAU - KULMBACH -15.973 15.000 45.973PASSAU - ANSBACH -14.973 16.000 46.973PASSAU - ASCHAFFENBURG -13.973 17.000 47.973PASSAU - BURGHAUSEN -13.473 17.500 48.473PASSAU - ERLANGEN -11.973 19.000 49.973PASSAU - KEMPTEN -7.973 23.000 53.973PASSAU - OBERAUDORF -7.473 23.500 54.473PASSAU - TROSTBERG -3.473 27.500 58.473

REGENSBURG - AUGSBURG -47.973 -17.000 13.973REGENSBURG - PASSAU -33.973 -3.000 27.973REGENSBURG - WEIDEN -27.473 3.500 34.473REGENSBURG - LANDSHUT -24.973 6.000 36.973REGENSBURG - BAYREUTH -24.973 6.000 36.973REGENSBURG - SCHWEINFURT -24.473 6.500 37.473REGENSBURG - HOF -23.473 7.500 38.473REGENSBURG - WUERZBURG -22.473 8.500 39.473REGENSBURG - MUENCHEN -22.473 8.500 39.473REGENSBURG - NEU-ULM -21.973 9.000 39.973REGENSBURG - FUERTH -21.973 9.000 39.973REGENSBURG - NUERNBERG -20.973 10.000 40.973REGENSBURG - KELHEIM -20.473 10.500 41.473REGENSBURG - INGOLSTADT -19.973 11.000 41.973REGENSBURG - KULMBACH -18.973 12.000 42.973REGENSBURG - ANSBACH -17.973 13.000 43.973REGENSBURG - ASCHAFFENBURG -16.973 14.000 44.973REGENSBURG - BURGHAUSEN -16.473 14.500 45.473REGENSBURG - ERLANGEN -14.973 16.000 46.973REGENSBURG - KEMPTEN -10.973 20.000 50.973REGENSBURG - OBERAUDORF -10.473 20.500 51.473REGENSBURG - TROSTBERG -6.473 24.500 55.473

WEIDEN - AUGSBURG -51.473 -20.500 10.473WEIDEN - PASSAU -37.473 -6.500 24.473WEIDEN - REGENSBURG -34.473 -3.500 27.473WEIDEN - LANDSHUT -28.473 2.500 33.473WEIDEN - BAYREUTH -28.473 2.500 33.473WEIDEN - SCHWEINFURT -27.973 3.000 33.973WEIDEN - HOF -26.973 4.000 34.973WEIDEN - WUERZBURG -25.973 5.000 35.973WEIDEN - MUENCHEN -25.973 5.000 35.973WEIDEN - NEU-ULM -25.473 5.500 36.473WEIDEN - FUERTH -25.473 5.500 36.473WEIDEN - NUERNBERG -24.473 6.500 37.473WEIDEN - KELHEIM -23.973 7.000 37.973

Page 110: Diplomarbeit varianzanalyse mit sas

- 110 -

Zweifaktorielle Varianzanalyse mit einer Beobachtung 20pro Zelle der Umwelt-Datei

General Linear Models Procedure

Simultaneous SimultaneousLower Difference Upper

NAME Confidence Between ConfidenceComparison Limit Means Limit

WEIDEN - INGOLSTADT -23.473 7.500 38.473WEIDEN - KULMBACH -22.473 8.500 39.473WEIDEN - ANSBACH -21.473 9.500 40.473WEIDEN - ASCHAFFENBURG -20.473 10.500 41.473WEIDEN - BURGHAUSEN -19.973 11.000 41.973WEIDEN - ERLANGEN -18.473 12.500 43.473WEIDEN - KEMPTEN -14.473 16.500 47.473WEIDEN - OBERAUDORF -13.973 17.000 47.973WEIDEN - TROSTBERG -9.973 21.000 51.973

LANDSHUT - AUGSBURG -53.973 -23.000 7.973LANDSHUT - PASSAU -39.973 -9.000 21.973LANDSHUT - REGENSBURG -36.973 -6.000 24.973LANDSHUT - WEIDEN -33.473 -2.500 28.473LANDSHUT - BAYREUTH -30.973 0.000 30.973LANDSHUT - SCHWEINFURT -30.473 0.500 31.473LANDSHUT - HOF -29.473 1.500 32.473LANDSHUT - WUERZBURG -28.473 2.500 33.473LANDSHUT - MUENCHEN -28.473 2.500 33.473LANDSHUT - NEU-ULM -27.973 3.000 33.973LANDSHUT - FUERTH -27.973 3.000 33.973LANDSHUT - NUERNBERG -26.973 4.000 34.973LANDSHUT - KELHEIM -26.473 4.500 35.473LANDSHUT - INGOLSTADT -25.973 5.000 35.973LANDSHUT - KULMBACH -24.973 6.000 36.973LANDSHUT - ANSBACH -23.973 7.000 37.973LANDSHUT - ASCHAFFENBURG -22.973 8.000 38.973LANDSHUT - BURGHAUSEN -22.473 8.500 39.473LANDSHUT - ERLANGEN -20.973 10.000 40.973LANDSHUT - KEMPTEN -16.973 14.000 44.973LANDSHUT - OBERAUDORF -16.473 14.500 45.473LANDSHUT - TROSTBERG -12.473 18.500 49.473

BAYREUTH - AUGSBURG -53.973 -23.000 7.973BAYREUTH - PASSAU -39.973 -9.000 21.973BAYREUTH - REGENSBURG -36.973 -6.000 24.973BAYREUTH - WEIDEN -33.473 -2.500 28.473BAYREUTH - LANDSHUT -30.973 0.000 30.973BAYREUTH - SCHWEINFURT -30.473 0.500 31.473BAYREUTH - HOF -29.473 1.500 32.473BAYREUTH - WUERZBURG -28.473 2.500 33.473BAYREUTH - MUENCHEN -28.473 2.500 33.473BAYREUTH - NEU-ULM -27.973 3.000 33.973BAYREUTH - FUERTH -27.973 3.000 33.973BAYREUTH - NUERNBERG -26.973 4.000 34.973BAYREUTH - KELHEIM -26.473 4.500 35.473BAYREUTH - INGOLSTADT -25.973 5.000 35.973

Page 111: Diplomarbeit varianzanalyse mit sas

- 111 -

Zweifaktorielle Varianzanalyse mit einer Beobachtung 21pro Zelle der Umwelt-Datei

General Linear Models Procedure

Simultaneous SimultaneousLower Difference Upper

NAME Confidence Between ConfidenceComparison Limit Means Limit

BAYREUTH - KULMBACH -24.973 6.000 36.973BAYREUTH - ANSBACH -23.973 7.000 37.973BAYREUTH - ASCHAFFENBURG -22.973 8.000 38.973BAYREUTH - BURGHAUSEN -22.473 8.500 39.473BAYREUTH - ERLANGEN -20.973 10.000 40.973BAYREUTH - KEMPTEN -16.973 14.000 44.973BAYREUTH - OBERAUDORF -16.473 14.500 45.473BAYREUTH - TROSTBERG -12.473 18.500 49.473

SCHWEINFURT - AUGSBURG -54.473 -23.500 7.473SCHWEINFURT - PASSAU -40.473 -9.500 21.473SCHWEINFURT - REGENSBURG -37.473 -6.500 24.473SCHWEINFURT - WEIDEN -33.973 -3.000 27.973SCHWEINFURT - LANDSHUT -31.473 -0.500 30.473SCHWEINFURT - BAYREUTH -31.473 -0.500 30.473SCHWEINFURT - HOF -29.973 1.000 31.973SCHWEINFURT - WUERZBURG -28.973 2.000 32.973SCHWEINFURT - MUENCHEN -28.973 2.000 32.973SCHWEINFURT - NEU-ULM -28.473 2.500 33.473SCHWEINFURT - FUERTH -28.473 2.500 33.473SCHWEINFURT - NUERNBERG -27.473 3.500 34.473SCHWEINFURT - KELHEIM -26.973 4.000 34.973SCHWEINFURT - INGOLSTADT -26.473 4.500 35.473SCHWEINFURT - KULMBACH -25.473 5.500 36.473SCHWEINFURT - ANSBACH -24.473 6.500 37.473SCHWEINFURT - ASCHAFFENBURG -23.473 7.500 38.473SCHWEINFURT - BURGHAUSEN -22.973 8.000 38.973SCHWEINFURT - ERLANGEN -21.473 9.500 40.473SCHWEINFURT - KEMPTEN -17.473 13.500 44.473SCHWEINFURT - OBERAUDORF -16.973 14.000 44.973SCHWEINFURT - TROSTBERG -12.973 18.000 48.973

HOF - AUGSBURG -55.473 -24.500 6.473HOF - PASSAU -41.473 -10.500 20.473HOF - REGENSBURG -38.473 -7.500 23.473HOF - WEIDEN -34.973 -4.000 26.973HOF - LANDSHUT -32.473 -1.500 29.473HOF - BAYREUTH -32.473 -1.500 29.473HOF - SCHWEINFURT -31.973 -1.000 29.973HOF - WUERZBURG -29.973 1.000 31.973HOF - MUENCHEN -29.973 1.000 31.973HOF - NEU-ULM -29.473 1.500 32.473HOF - FUERTH -29.473 1.500 32.473HOF - NUERNBERG -28.473 2.500 33.473HOF - KELHEIM -27.973 3.000 33.973HOF - INGOLSTADT -27.473 3.500 34.473HOF - KULMBACH -26.473 4.500 35.473

Page 112: Diplomarbeit varianzanalyse mit sas

- 112 -

Zweifaktorielle Varianzanalyse mit einer Beobachtung 22pro Zelle der Umwelt-Datei

General Linear Models Procedure

Simultaneous SimultaneousLower Difference Upper

NAME Confidence Between ConfidenceComparison Limit Means Limit

HOF - ANSBACH -25.473 5.500 36.473HOF - ASCHAFFENBURG -24.473 6.500 37.473HOF - BURGHAUSEN -23.973 7.000 37.973HOF - ERLANGEN -22.473 8.500 39.473HOF - KEMPTEN -18.473 12.500 43.473HOF - OBERAUDORF -17.973 13.000 43.973HOF - TROSTBERG -13.973 17.000 47.973

WUERZBURG - AUGSBURG -56.473 -25.500 5.473WUERZBURG - PASSAU -42.473 -11.500 19.473WUERZBURG - REGENSBURG -39.473 -8.500 22.473WUERZBURG - WEIDEN -35.973 -5.000 25.973WUERZBURG - LANDSHUT -33.473 -2.500 28.473WUERZBURG - BAYREUTH -33.473 -2.500 28.473WUERZBURG - SCHWEINFURT -32.973 -2.000 28.973WUERZBURG - HOF -31.973 -1.000 29.973WUERZBURG - MUENCHEN -30.973 0.000 30.973WUERZBURG - NEU-ULM -30.473 0.500 31.473WUERZBURG - FUERTH -30.473 0.500 31.473WUERZBURG - NUERNBERG -29.473 1.500 32.473WUERZBURG - KELHEIM -28.973 2.000 32.973WUERZBURG - INGOLSTADT -28.473 2.500 33.473WUERZBURG - KULMBACH -27.473 3.500 34.473WUERZBURG - ANSBACH -26.473 4.500 35.473WUERZBURG - ASCHAFFENBURG -25.473 5.500 36.473WUERZBURG - BURGHAUSEN -24.973 6.000 36.973WUERZBURG - ERLANGEN -23.473 7.500 38.473WUERZBURG - KEMPTEN -19.473 11.500 42.473WUERZBURG - OBERAUDORF -18.973 12.000 42.973WUERZBURG - TROSTBERG -14.973 16.000 46.973

MUENCHEN - AUGSBURG -56.473 -25.500 5.473MUENCHEN - PASSAU -42.473 -11.500 19.473MUENCHEN - REGENSBURG -39.473 -8.500 22.473MUENCHEN - WEIDEN -35.973 -5.000 25.973MUENCHEN - LANDSHUT -33.473 -2.500 28.473MUENCHEN - BAYREUTH -33.473 -2.500 28.473MUENCHEN - SCHWEINFURT -32.973 -2.000 28.973MUENCHEN - HOF -31.973 -1.000 29.973MUENCHEN - WUERZBURG -30.973 0.000 30.973MUENCHEN - NEU-ULM -30.473 0.500 31.473MUENCHEN - FUERTH -30.473 0.500 31.473MUENCHEN - NUERNBERG -29.473 1.500 32.473MUENCHEN - KELHEIM -28.973 2.000 32.973MUENCHEN - INGOLSTADT -28.473 2.500 33.473MUENCHEN - KULMBACH -27.473 3.500 34.473MUENCHEN - ANSBACH -26.473 4.500 35.473

Page 113: Diplomarbeit varianzanalyse mit sas

- 113 -

Zweifaktorielle Varianzanalyse mit einer Beobachtung 23pro Zelle der Umwelt-Datei

General Linear Models Procedure

Simultaneous SimultaneousLower Difference Upper

NAME Confidence Between ConfidenceComparison Limit Means Limit

MUENCHEN - ASCHAFFENBURG -25.473 5.500 36.473MUENCHEN - BURGHAUSEN -24.973 6.000 36.973MUENCHEN - ERLANGEN -23.473 7.500 38.473MUENCHEN - KEMPTEN -19.473 11.500 42.473MUENCHEN - OBERAUDORF -18.973 12.000 42.973MUENCHEN - TROSTBERG -14.973 16.000 46.973

NEU-ULM - AUGSBURG -56.973 -26.000 4.973NEU-ULM - PASSAU -42.973 -12.000 18.973NEU-ULM - REGENSBURG -39.973 -9.000 21.973NEU-ULM - WEIDEN -36.473 -5.500 25.473NEU-ULM - LANDSHUT -33.973 -3.000 27.973NEU-ULM - BAYREUTH -33.973 -3.000 27.973NEU-ULM - SCHWEINFURT -33.473 -2.500 28.473NEU-ULM - HOF -32.473 -1.500 29.473NEU-ULM - WUERZBURG -31.473 -0.500 30.473NEU-ULM - MUENCHEN -31.473 -0.500 30.473NEU-ULM - FUERTH -30.973 0.000 30.973NEU-ULM - NUERNBERG -29.973 1.000 31.973NEU-ULM - KELHEIM -29.473 1.500 32.473NEU-ULM - INGOLSTADT -28.973 2.000 32.973NEU-ULM - KULMBACH -27.973 3.000 33.973NEU-ULM - ANSBACH -26.973 4.000 34.973NEU-ULM - ASCHAFFENBURG -25.973 5.000 35.973NEU-ULM - BURGHAUSEN -25.473 5.500 36.473NEU-ULM - ERLANGEN -23.973 7.000 37.973NEU-ULM - KEMPTEN -19.973 11.000 41.973NEU-ULM - OBERAUDORF -19.473 11.500 42.473NEU-ULM - TROSTBERG -15.473 15.500 46.473

FUERTH - AUGSBURG -56.973 -26.000 4.973FUERTH - PASSAU -42.973 -12.000 18.973FUERTH - REGENSBURG -39.973 -9.000 21.973FUERTH - WEIDEN -36.473 -5.500 25.473FUERTH - LANDSHUT -33.973 -3.000 27.973FUERTH - BAYREUTH -33.973 -3.000 27.973FUERTH - SCHWEINFURT -33.473 -2.500 28.473FUERTH - HOF -32.473 -1.500 29.473FUERTH - WUERZBURG -31.473 -0.500 30.473FUERTH - MUENCHEN -31.473 -0.500 30.473FUERTH - NEU-ULM -30.973 0.000 30.973FUERTH - NUERNBERG -29.973 1.000 31.973FUERTH - KELHEIM -29.473 1.500 32.473FUERTH - INGOLSTADT -28.973 2.000 32.973FUERTH - KULMBACH -27.973 3.000 33.973FUERTH - ANSBACH -26.973 4.000 34.973FUERTH - ASCHAFFENBURG -25.973 5.000 35.973

Page 114: Diplomarbeit varianzanalyse mit sas

- 114 -

Zweifaktorielle Varianzanalyse mit einer Beobachtung 24pro Zelle der Umwelt-Datei

General Linear Models Procedure

Simultaneous SimultaneousLower Difference Upper

NAME Confidence Between ConfidenceComparison Limit Means Limit

FUERTH - BURGHAUSEN -25.473 5.500 36.473FUERTH - ERLANGEN -23.973 7.000 37.973FUERTH - KEMPTEN -19.973 11.000 41.973FUERTH - OBERAUDORF -19.473 11.500 42.473FUERTH - TROSTBERG -15.473 15.500 46.473

NUERNBERG - AUGSBURG -57.973 -27.000 3.973NUERNBERG - PASSAU -43.973 -13.000 17.973NUERNBERG - REGENSBURG -40.973 -10.000 20.973NUERNBERG - WEIDEN -37.473 -6.500 24.473NUERNBERG - LANDSHUT -34.973 -4.000 26.973NUERNBERG - BAYREUTH -34.973 -4.000 26.973NUERNBERG - SCHWEINFURT -34.473 -3.500 27.473NUERNBERG - HOF -33.473 -2.500 28.473NUERNBERG - WUERZBURG -32.473 -1.500 29.473NUERNBERG - MUENCHEN -32.473 -1.500 29.473NUERNBERG - NEU-ULM -31.973 -1.000 29.973NUERNBERG - FUERTH -31.973 -1.000 29.973NUERNBERG - KELHEIM -30.473 0.500 31.473NUERNBERG - INGOLSTADT -29.973 1.000 31.973NUERNBERG - KULMBACH -28.973 2.000 32.973NUERNBERG - ANSBACH -27.973 3.000 33.973NUERNBERG - ASCHAFFENBURG -26.973 4.000 34.973NUERNBERG - BURGHAUSEN -26.473 4.500 35.473NUERNBERG - ERLANGEN -24.973 6.000 36.973NUERNBERG - KEMPTEN -20.973 10.000 40.973NUERNBERG - OBERAUDORF -20.473 10.500 41.473NUERNBERG - TROSTBERG -16.473 14.500 45.473

KELHEIM - AUGSBURG -58.473 -27.500 3.473KELHEIM - PASSAU -44.473 -13.500 17.473KELHEIM - REGENSBURG -41.473 -10.500 20.473KELHEIM - WEIDEN -37.973 -7.000 23.973KELHEIM - LANDSHUT -35.473 -4.500 26.473KELHEIM - BAYREUTH -35.473 -4.500 26.473KELHEIM - SCHWEINFURT -34.973 -4.000 26.973KELHEIM - HOF -33.973 -3.000 27.973KELHEIM - WUERZBURG -32.973 -2.000 28.973KELHEIM - MUENCHEN -32.973 -2.000 28.973KELHEIM - NEU-ULM -32.473 -1.500 29.473KELHEIM - FUERTH -32.473 -1.500 29.473KELHEIM - NUERNBERG -31.473 -0.500 30.473KELHEIM - INGOLSTADT -30.473 0.500 31.473KELHEIM - KULMBACH -29.473 1.500 32.473KELHEIM - ANSBACH -28.473 2.500 33.473KELHEIM - ASCHAFFENBURG -27.473 3.500 34.473KELHEIM - BURGHAUSEN -26.973 4.000 34.973

Page 115: Diplomarbeit varianzanalyse mit sas

- 115 -

Page 116: Diplomarbeit varianzanalyse mit sas

- 116 -

Zweifaktorielle Varianzanalyse mit einer Beobachtung 25pro Zelle der Umwelt-Datei

General Linear Models Procedure

Simultaneous SimultaneousLower Difference Upper

NAME Confidence Between ConfidenceComparison Limit Means Limit

KELHEIM - ERLANGEN -25.473 5.500 36.473KELHEIM - KEMPTEN -21.473 9.500 40.473KELHEIM - OBERAUDORF -20.973 10.000 40.973KELHEIM - TROSTBERG -16.973 14.000 44.973

INGOLSTADT - AUGSBURG -58.973 -28.000 2.973INGOLSTADT - PASSAU -44.973 -14.000 16.973INGOLSTADT - REGENSBURG -41.973 -11.000 19.973INGOLSTADT - WEIDEN -38.473 -7.500 23.473INGOLSTADT - LANDSHUT -35.973 -5.000 25.973INGOLSTADT - BAYREUTH -35.973 -5.000 25.973INGOLSTADT - SCHWEINFURT -35.473 -4.500 26.473INGOLSTADT - HOF -34.473 -3.500 27.473INGOLSTADT - WUERZBURG -33.473 -2.500 28.473INGOLSTADT - MUENCHEN -33.473 -2.500 28.473INGOLSTADT - NEU-ULM -32.973 -2.000 28.973INGOLSTADT - FUERTH -32.973 -2.000 28.973INGOLSTADT - NUERNBERG -31.973 -1.000 29.973INGOLSTADT - KELHEIM -31.473 -0.500 30.473INGOLSTADT - KULMBACH -29.973 1.000 31.973INGOLSTADT - ANSBACH -28.973 2.000 32.973INGOLSTADT - ASCHAFFENBURG -27.973 3.000 33.973INGOLSTADT - BURGHAUSEN -27.473 3.500 34.473INGOLSTADT - ERLANGEN -25.973 5.000 35.973INGOLSTADT - KEMPTEN -21.973 9.000 39.973INGOLSTADT - OBERAUDORF -21.473 9.500 40.473INGOLSTADT - TROSTBERG -17.473 13.500 44.473

KULMBACH - AUGSBURG -59.973 -29.000 1.973KULMBACH - PASSAU -45.973 -15.000 15.973KULMBACH - REGENSBURG -42.973 -12.000 18.973KULMBACH - WEIDEN -39.473 -8.500 22.473KULMBACH - LANDSHUT -36.973 -6.000 24.973KULMBACH - BAYREUTH -36.973 -6.000 24.973KULMBACH - SCHWEINFURT -36.473 -5.500 25.473KULMBACH - HOF -35.473 -4.500 26.473KULMBACH - WUERZBURG -34.473 -3.500 27.473KULMBACH - MUENCHEN -34.473 -3.500 27.473KULMBACH - NEU-ULM -33.973 -3.000 27.973KULMBACH - FUERTH -33.973 -3.000 27.973KULMBACH - NUERNBERG -32.973 -2.000 28.973KULMBACH - KELHEIM -32.473 -1.500 29.473KULMBACH - INGOLSTADT -31.973 -1.000 29.973KULMBACH - ANSBACH -29.973 1.000 31.973KULMBACH - ASCHAFFENBURG -28.973 2.000 32.973KULMBACH - BURGHAUSEN -28.473 2.500 33.473KULMBACH - ERLANGEN -26.973 4.000 34.973

Page 117: Diplomarbeit varianzanalyse mit sas

- 117 -

Zweifaktorielle Varianzanalyse mit einer Beobachtung 26pro Zelle der Umwelt-Datei

General Linear Models Procedure

Simultaneous SimultaneousLower Difference Upper

NAME Confidence Between ConfidenceComparison Limit Means Limit

KULMBACH - KEMPTEN -22.973 8.000 38.973KULMBACH - OBERAUDORF -22.473 8.500 39.473KULMBACH - TROSTBERG -18.473 12.500 43.473

ANSBACH - AUGSBURG -60.973 -30.000 0.973ANSBACH - PASSAU -46.973 -16.000 14.973ANSBACH - REGENSBURG -43.973 -13.000 17.973ANSBACH - WEIDEN -40.473 -9.500 21.473ANSBACH - LANDSHUT -37.973 -7.000 23.973ANSBACH - BAYREUTH -37.973 -7.000 23.973ANSBACH - SCHWEINFURT -37.473 -6.500 24.473ANSBACH - HOF -36.473 -5.500 25.473ANSBACH - WUERZBURG -35.473 -4.500 26.473ANSBACH - MUENCHEN -35.473 -4.500 26.473ANSBACH - NEU-ULM -34.973 -4.000 26.973ANSBACH - FUERTH -34.973 -4.000 26.973ANSBACH - NUERNBERG -33.973 -3.000 27.973ANSBACH - KELHEIM -33.473 -2.500 28.473ANSBACH - INGOLSTADT -32.973 -2.000 28.973ANSBACH - KULMBACH -31.973 -1.000 29.973ANSBACH - ASCHAFFENBURG -29.973 1.000 31.973ANSBACH - BURGHAUSEN -29.473 1.500 32.473ANSBACH - ERLANGEN -27.973 3.000 33.973ANSBACH - KEMPTEN -23.973 7.000 37.973ANSBACH - OBERAUDORF -23.473 7.500 38.473ANSBACH - TROSTBERG -19.473 11.500 42.473

ASCHAFFENBURG - AUGSBURG -61.973 -31.000 -0.027 ***ASCHAFFENBURG - PASSAU -47.973 -17.000 13.973ASCHAFFENBURG - REGENSBURG -44.973 -14.000 16.973ASCHAFFENBURG - WEIDEN -41.473 -10.500 20.473ASCHAFFENBURG - LANDSHUT -38.973 -8.000 22.973ASCHAFFENBURG - BAYREUTH -38.973 -8.000 22.973ASCHAFFENBURG - SCHWEINFURT -38.473 -7.500 23.473ASCHAFFENBURG - HOF -37.473 -6.500 24.473ASCHAFFENBURG - WUERZBURG -36.473 -5.500 25.473ASCHAFFENBURG - MUENCHEN -36.473 -5.500 25.473ASCHAFFENBURG - NEU-ULM -35.973 -5.000 25.973ASCHAFFENBURG - FUERTH -35.973 -5.000 25.973ASCHAFFENBURG - NUERNBERG -34.973 -4.000 26.973ASCHAFFENBURG - KELHEIM -34.473 -3.500 27.473ASCHAFFENBURG - INGOLSTADT -33.973 -3.000 27.973ASCHAFFENBURG - KULMBACH -32.973 -2.000 28.973ASCHAFFENBURG - ANSBACH -31.973 -1.000 29.973ASCHAFFENBURG - BURGHAUSEN -30.473 0.500 31.473ASCHAFFENBURG - ERLANGEN -28.973 2.000 32.973ASCHAFFENBURG - KEMPTEN -24.973 6.000 36.973

Page 118: Diplomarbeit varianzanalyse mit sas

- 118 -

Zweifaktorielle Varianzanalyse mit einer Beobachtung 27pro Zelle der Umwelt-Datei

General Linear Models Procedure

Simultaneous SimultaneousLower Difference Upper

NAME Confidence Between ConfidenceComparison Limit Means Limit

ASCHAFFENBURG - OBERAUDORF -24.473 6.500 37.473ASCHAFFENBURG - TROSTBERG -20.473 10.500 41.473

BURGHAUSEN - AUGSBURG -62.473 -31.500 -0.527 ***BURGHAUSEN - PASSAU -48.473 -17.500 13.473BURGHAUSEN - REGENSBURG -45.473 -14.500 16.473BURGHAUSEN - WEIDEN -41.973 -11.000 19.973BURGHAUSEN - LANDSHUT -39.473 -8.500 22.473BURGHAUSEN - BAYREUTH -39.473 -8.500 22.473BURGHAUSEN - SCHWEINFURT -38.973 -8.000 22.973BURGHAUSEN - HOF -37.973 -7.000 23.973BURGHAUSEN - WUERZBURG -36.973 -6.000 24.973BURGHAUSEN - MUENCHEN -36.973 -6.000 24.973BURGHAUSEN - NEU-ULM -36.473 -5.500 25.473BURGHAUSEN - FUERTH -36.473 -5.500 25.473BURGHAUSEN - NUERNBERG -35.473 -4.500 26.473BURGHAUSEN - KELHEIM -34.973 -4.000 26.973BURGHAUSEN - INGOLSTADT -34.473 -3.500 27.473BURGHAUSEN - KULMBACH -33.473 -2.500 28.473BURGHAUSEN - ANSBACH -32.473 -1.500 29.473BURGHAUSEN - ASCHAFFENBURG -31.473 -0.500 30.473BURGHAUSEN - ERLANGEN -29.473 1.500 32.473BURGHAUSEN - KEMPTEN -25.473 5.500 36.473BURGHAUSEN - OBERAUDORF -24.973 6.000 36.973BURGHAUSEN - TROSTBERG -20.973 10.000 40.973

ERLANGEN - AUGSBURG -63.973 -33.000 -2.027 ***ERLANGEN - PASSAU -49.973 -19.000 11.973ERLANGEN - REGENSBURG -46.973 -16.000 14.973ERLANGEN - WEIDEN -43.473 -12.500 18.473ERLANGEN - LANDSHUT -40.973 -10.000 20.973ERLANGEN - BAYREUTH -40.973 -10.000 20.973ERLANGEN - SCHWEINFURT -40.473 -9.500 21.473ERLANGEN - HOF -39.473 -8.500 22.473ERLANGEN - WUERZBURG -38.473 -7.500 23.473ERLANGEN - MUENCHEN -38.473 -7.500 23.473ERLANGEN - NEU-ULM -37.973 -7.000 23.973ERLANGEN - FUERTH -37.973 -7.000 23.973ERLANGEN - NUERNBERG -36.973 -6.000 24.973ERLANGEN - KELHEIM -36.473 -5.500 25.473ERLANGEN - INGOLSTADT -35.973 -5.000 25.973ERLANGEN - KULMBACH -34.973 -4.000 26.973ERLANGEN - ANSBACH -33.973 -3.000 27.973ERLANGEN - ASCHAFFENBURG -32.973 -2.000 28.973ERLANGEN - BURGHAUSEN -32.473 -1.500 29.473ERLANGEN - KEMPTEN -26.973 4.000 34.973ERLANGEN - OBERAUDORF -26.473 4.500 35.473

Page 119: Diplomarbeit varianzanalyse mit sas

- 119 -

Zweifaktorielle Varianzanalyse mit einer Beobachtung 28pro Zelle der Umwelt-Datei

General Linear Models Procedure

Simultaneous SimultaneousLower Difference Upper

NAME Confidence Between ConfidenceComparison Limit Means Limit

ERLANGEN - TROSTBERG -22.473 8.500 39.473

KEMPTEN - AUGSBURG -67.973 -37.000 -6.027 ***KEMPTEN - PASSAU -53.973 -23.000 7.973KEMPTEN - REGENSBURG -50.973 -20.000 10.973KEMPTEN - WEIDEN -47.473 -16.500 14.473KEMPTEN - LANDSHUT -44.973 -14.000 16.973KEMPTEN - BAYREUTH -44.973 -14.000 16.973KEMPTEN - SCHWEINFURT -44.473 -13.500 17.473KEMPTEN - HOF -43.473 -12.500 18.473KEMPTEN - WUERZBURG -42.473 -11.500 19.473KEMPTEN - MUENCHEN -42.473 -11.500 19.473KEMPTEN - NEU-ULM -41.973 -11.000 19.973KEMPTEN - FUERTH -41.973 -11.000 19.973KEMPTEN - NUERNBERG -40.973 -10.000 20.973KEMPTEN - KELHEIM -40.473 -9.500 21.473KEMPTEN - INGOLSTADT -39.973 -9.000 21.973KEMPTEN - KULMBACH -38.973 -8.000 22.973KEMPTEN - ANSBACH -37.973 -7.000 23.973KEMPTEN - ASCHAFFENBURG -36.973 -6.000 24.973KEMPTEN - BURGHAUSEN -36.473 -5.500 25.473KEMPTEN - ERLANGEN -34.973 -4.000 26.973KEMPTEN - OBERAUDORF -30.473 0.500 31.473KEMPTEN - TROSTBERG -26.473 4.500 35.473

OBERAUDORF - AUGSBURG -68.473 -37.500 -6.527 ***OBERAUDORF - PASSAU -54.473 -23.500 7.473OBERAUDORF - REGENSBURG -51.473 -20.500 10.473OBERAUDORF - WEIDEN -47.973 -17.000 13.973OBERAUDORF - LANDSHUT -45.473 -14.500 16.473OBERAUDORF - BAYREUTH -45.473 -14.500 16.473OBERAUDORF - SCHWEINFURT -44.973 -14.000 16.973OBERAUDORF - HOF -43.973 -13.000 17.973OBERAUDORF - WUERZBURG -42.973 -12.000 18.973OBERAUDORF - MUENCHEN -42.973 -12.000 18.973OBERAUDORF - NEU-ULM -42.473 -11.500 19.473OBERAUDORF - FUERTH -42.473 -11.500 19.473OBERAUDORF - NUERNBERG -41.473 -10.500 20.473OBERAUDORF - KELHEIM -40.973 -10.000 20.973OBERAUDORF - INGOLSTADT -40.473 -9.500 21.473OBERAUDORF - KULMBACH -39.473 -8.500 22.473OBERAUDORF - ANSBACH -38.473 -7.500 23.473OBERAUDORF - ASCHAFFENBURG -37.473 -6.500 24.473OBERAUDORF - BURGHAUSEN -36.973 -6.000 24.973OBERAUDORF - ERLANGEN -35.473 -4.500 26.473OBERAUDORF - KEMPTEN -31.473 -0.500 30.473OBERAUDORF - TROSTBERG -26.973 4.000 34.973

Page 120: Diplomarbeit varianzanalyse mit sas

- 120 -

Zweifaktorielle Varianzanalyse mit einer Beobachtung 29pro Zelle der Umwelt-Datei

General Linear Models Procedure

Simultaneous SimultaneousLower Difference Upper

NAME Confidence Between ConfidenceComparison Limit Means Limit

TROSTBERG - AUGSBURG -72.473 -41.500 -10.527 ***TROSTBERG - PASSAU -58.473 -27.500 3.473TROSTBERG - REGENSBURG -55.473 -24.500 6.473TROSTBERG - WEIDEN -51.973 -21.000 9.973TROSTBERG - LANDSHUT -49.473 -18.500 12.473TROSTBERG - BAYREUTH -49.473 -18.500 12.473TROSTBERG - SCHWEINFURT -48.973 -18.000 12.973TROSTBERG - HOF -47.973 -17.000 13.973TROSTBERG - WUERZBURG -46.973 -16.000 14.973TROSTBERG - MUENCHEN -46.973 -16.000 14.973TROSTBERG - NEU-ULM -46.473 -15.500 15.473TROSTBERG - FUERTH -46.473 -15.500 15.473TROSTBERG - NUERNBERG -45.473 -14.500 16.473TROSTBERG - KELHEIM -44.973 -14.000 16.973TROSTBERG - INGOLSTADT -44.473 -13.500 17.473TROSTBERG - KULMBACH -43.473 -12.500 18.473TROSTBERG - ANSBACH -42.473 -11.500 19.473TROSTBERG - ASCHAFFENBURG -41.473 -10.500 20.473TROSTBERG - BURGHAUSEN -40.973 -10.000 20.973TROSTBERG - ERLANGEN -39.473 -8.500 22.473TROSTBERG - KEMPTEN -35.473 -4.500 26.473TROSTBERG - OBERAUDORF -34.973 -4.000 26.973

Page 121: Diplomarbeit varianzanalyse mit sas

- 121 -

Zweifaktorielle Varianzanalyse mit einer Beobachtung 30pro Zelle der Umwelt-Datei

General Linear Models Procedure

Duncan's Multiple Range Test for variable: STAUB

NOTE: This test controls the type I comparisonwise error rate, notthe experimentwise error rate

Alpha= 0.05 df= 22 MSE= 21.29447

Number of Means 2Critical Range 2.822

Means with the same letter are not significantly different.

Duncan Grouping Mean N DATUM

A 40.870 23 APR94

B 35.826 23 JUL93

Page 122: Diplomarbeit varianzanalyse mit sas

- 122 -

Zweifaktorielle Varianzanalyse mit einer Beobachtung 31pro Zelle der Umwelt-Datei

General Linear Models Procedure

Duncan's Multiple Range Test for variable: STAUB

NOTE: This test controls the type I comparisonwise error rate, notthe experimentwise error rate

Alpha= 0.05 df= 22 MSE= 21.29447

Number of Means 2 3 4 5 6 7 8 9Critical Range 9.57 10.05 10.35 10.57 10.73 10.85 10.95 11.03

Number of Means 10 11 12 13 14 15 16 17Critical Range 11.09 11.14 11.18 11.22 11.24 11.27 11.29 11.30

Number of Means 18 19 20 21 22 23Critical Range 11.31 11.32 11.35 11.33 11.34 11.34

Means with the same letter are not significantly different.

Duncan Grouping Mean N NAME

A 64.500 2 AUGSBURG

B 50.500 2 PASSAUB

C B 47.500 2 REGENSBURGC BC B D 44.000 2 WEIDENC B DC E B D 41.500 2 LANDSHUTC E B DC E B D 41.500 2 BAYREUTHC E B DC E B D 41.000 2 SCHWEINFURTC E B DC E B D 40.000 2 HOFC E DC E D 39.000 2 WUERZBURGC E DC E D 39.000 2 MUENCHENC E DC E F D 38.500 2 NEU-ULMC E F DC E F D 38.500 2 FUERTHC E F D

G C E F D 37.500 2 NUERNBERGG C E F DG C E F D 37.000 2 KELHEIMG C E F DG C E F D 36.500 2 INGOLSTADTG E F DG E F D 35.500 2 KULMBACHG E F DG E F D 34.500 2 ANSBACH

Page 123: Diplomarbeit varianzanalyse mit sas

- 123 -

Zweifaktorielle Varianzanalyse mit einer Beobachtung 32pro Zelle der Umwelt-Datei

General Linear Models Procedure

Duncan Grouping Mean N NAME

G E F DG H E F D 33.500 2 ASCHAFFENBURGG H E F DG H E F D 33.000 2 BURGHAUSENG H E FG H E F 31.500 2 ERLANGENG H FG H F 27.500 2 KEMPTENG HG H 27.000 2 OBERAUDORF

HH 23.000 2 TROSTBERG

Page 124: Diplomarbeit varianzanalyse mit sas

- 124 -

Die Umwelt-Datei mit Residuen 33

OBS Messort Staubkonzentration Datum Residuum

1 ANSBACH 26 JUL93 -5.978262 ASCHAFFENBURG 35 JUL93 4.021743 AUGSBURG 70 JUL93 8.021744 BAYREUTH 38 JUL93 -0.978265 BURGHAUSEN 31 JUL93 0.521746 ERLANGEN 29 JUL93 0.021747 FUERTH 34 JUL93 -1.978268 HOF 33 JUL93 -4.478269 INGOLSTADT 35 JUL93 1.0217410 KELHEIM 36 JUL93 1.5217411 KEMPTEN 25 JUL93 0.0217412 KULMBACH 31 JUL93 -1.9782613 LANDSHUT 40 JUL93 1.0217414 MUENCHEN 39 JUL93 2.5217415 NEU-ULM 37 JUL93 1.0217416 NUERNBERG 37 JUL93 2.0217417 OBERAUDORF 26 JUL93 1.5217418 PASSAU 52 JUL93 4.0217419 REGENSBURG 43 JUL93 -1.9782620 SCHWEINFURT 32 JUL93 -6.4782621 TROSTBERG 21 JUL93 0.5217422 WEIDEN 39 JUL93 -2.4782623 WUERZBURG 35 JUL93 -1.4782624 ANSBACH 43 APR94 5.9782625 ASCHAFFENBURG 32 APR94 -4.0217426 AUGSBURG 59 APR94 -8.0217427 BAYREUTH 45 APR94 0.9782628 BURGHAUSEN 35 APR94 -0.5217429 ERLANGEN 34 APR94 -0.0217430 FUERTH 43 APR94 1.9782631 HOF 47 APR94 4.4782632 INGOLSTADT 38 APR94 -1.0217433 KELHEIM 38 APR94 -1.5217434 KEMPTEN 30 APR94 -0.0217435 KULMBACH 40 APR94 1.9782636 LANDSHUT 43 APR94 -1.0217437 MUENCHEN 39 APR94 -2.5217438 NEU-ULM 40 APR94 -1.0217439 NUERNBERG 38 APR94 -2.0217440 OBERAUDORF 28 APR94 -1.5217441 PASSAU 49 APR94 -4.0217442 REGENSBURG 52 APR94 1.9782643 SCHWEINFURT 50 APR94 6.4782644 TROSTBERG 25 APR94 -0.5217445 WEIDEN 49 APR94 2.4782646 WUERZBURG 43 APR94 1.47826

Page 125: Diplomarbeit varianzanalyse mit sas

- 125 -

Test der Normalverteilungsannahme 34der Umwelt-Datei

Univariate Procedure

Variable=T Residuum

Moments

N 46 Sum Wgts 46Mean 0 Sum 0Std Dev 3.22655 Variance 10.41063Skewness 0 Kurtosis 0.662237USS 468.4783 CSS 468.4783CV . Std Mean 0.475729T:Mean=0 0 Pr>|T| 1.0000Num ^= 0 46 Num > 0 23M(Sign) 0 Pr>=|M| 1.0000Sgn Rank 2.5 Pr>=|S| 0.9786W:Normal 0.981814 Pr<W 0.8105

Quantiles(Def=5)

100% Max 8.021739 99% 8.02173975% Q3 1.978261 95% 5.97826150% Med 1.07E-14 90% 4.02173925% Q1 -1.97826 10% -4.021740% Min -8.02174 5% -5.97826

1% -8.02174Range 16.04348Q3-Q1 3.956522Mode -1.97826

Extremes

Lowest Obs Highest Obs-8.02174( 26) 4.021739( 18)-6.47826( 20) 4.478261( 31)-5.97826( 1) 5.978261( 24)-4.47826( 8) 6.478261( 43)-4.02174( 41) 8.021739( 3)

Page 126: Diplomarbeit varianzanalyse mit sas

- 126 -

Zweifaktorielle Varianzanalyse der Geburt-Datei 35

General Linear Models ProcedureClass Level Information

Class Levels Values

KRANK 2 j n

KLASSE 3 1 2 3

Number of observations in data set = 31

Page 127: Diplomarbeit varianzanalyse mit sas

- 127 -

Zweifaktorielle Varianzanalyse der Geburt-Datei 36

General Linear Models Procedure

Dependent Variable: GEWICHT GeburtsgewichtSum of Mean

Source DF Squares Square F Value Pr > F

Model 5 337070.23 67414.05 1.15 0.3595

Error 25 1461813.64 58472.55

Corrected Total 30 1798883.87

R-Square C.V. Root MSE GEWICHT Mean

0.187377 11.10210 241.81 2178.1

Source DF Type III SS Mean Square F Value Pr > F

KRANK 1 29054.73 29054.73 0.50 0.4874KLASSE 2 258040.82 129020.41 2.21 0.1311KRANK*KLASSE 2 19650.44 9825.22 0.17 0.8463

Page 128: Diplomarbeit varianzanalyse mit sas

- 128 -

Zweifaktorielle Varianzanalyse der Geburt-Datei 37

General Linear Models ProcedureLeast Squares Means

KRANK GEWICHT Std Err Pr > |T| Pr > |T| H0:LSMEAN LSMEAN H0:LSMEAN=0 LSMEAN1=LSMEAN2

j 2201.66667 95.93754 0.0001 0.4874n 2121.16162 61.96052 0.0001

KLASSE GEWICHT Std Err Pr > |T| LSMEANLSMEAN LSMEAN H0:LSMEAN=0 Number

1 2006.66667 85.49309 0.0001 12 2226.66667 78.04416 0.0001 23 2250.90909 126.28166 0.0001 3

Pr > |T| H0: LSMEAN(i)=LSMEAN(j)

i/j 1 2 31 . 0.0690 0.12182 0.0690 . 0.87163 0.1218 0.8716 .

NOTE: To ensure overall protection level, only probabilities associatedwith pre-planned comparisons should be used.

Page 129: Diplomarbeit varianzanalyse mit sas

- 129 -

Die Geburt-Datei mit Residuen 38

OBS Gelbsucht Klasse Schwangerschaftsdauer Geburtsgewicht Residuum

1 n 1 206 1440 -483.3332 n 1 246 1850 -73.3333 n 1 246 2480 556.6674 n 2 260 2100 -88.3335 n 2 261 2150 -38.3336 n 2 262 1800 -388.3337 n 2 263 2400 211.6678 n 2 266 2450 261.6679 n 2 270 2230 41.66710 n 3 272 2000 -251.81811 n 3 272 2300 48.18212 n 3 273 2230 -21.81813 n 3 273 2300 48.18214 n 3 273 2400 148.18215 n 3 273 2500 248.18216 n 3 274 2300 48.18217 n 3 275 2100 -151.81818 n 3 277 2450 198.18219 n 3 278 2100 -151.81820 n 3 291 2090 -161.81821 j 1 210 1800 -290.00022 j 1 224 1950 -140.00023 j 1 228 1900 -190.00024 j 1 235 2190 100.00025 j 1 242 2300 210.00026 j 1 242 2400 310.00027 j 2 253 2050 -215.00028 j 2 254 2430 165.00029 j 2 255 2230 -35.00030 j 2 263 2350 85.00031 j 3 271 2250 0.000

Page 130: Diplomarbeit varianzanalyse mit sas

- 130 -

Test der Normalverteilungsannahme 39der Geburt-Datei

Univariate Procedure

Variable=U Residuum

Moments

N 31 Sum Wgts 31Mean 0 Sum 0Std Dev 220.7422 Variance 48727.12Skewness 0.092713 Kurtosis 0.357334USS 1461814 CSS 1461814CV . Std Mean 39.64647T:Mean=0 0 Pr>|T| 1.0000Num ^= 0 30 Num > 0 15M(Sign) 0 Pr>=|M| 1.0000Sgn Rank 4.5 Pr>=|S| 0.9281W:Normal 0.99134 Pr<W 0.9950

Quantiles(Def=5)

100% Max 556.6667 99% 556.666775% Q3 165 95% 31050% Med 0 90% 248.181825% Q1 -151.818 10% -251.8180% Min -483.333 5% -388.333

1% -483.333Range 1040Q3-Q1 316.8182Mode 48.18182

Extremes

Lowest Obs Highest Obs-483.333( 1) 211.6667( 7)-388.333( 6) 248.1818( 15)

-290( 21) 261.6667( 8)-251.818( 10) 310( 26)

-215( 27) 556.6667( 3)

Page 131: Diplomarbeit varianzanalyse mit sas