A priori Tests (Kontraste) Nicht-parametrischer Vergleich ... · IOW-Statistikseminar: 4. Veranstaltung Carola Wagner & Anja Eggert Statistische Methoden in den Umweltwissenschaften

IOW-Statistikseminar: 4. Veranstaltung Carola Wagner & Anja Eggert

Statistische Methoden in den Umweltwissenschaften

Post Hoc Tests

A priori Tests (Kontraste)

Nicht-parametrischer Vergleich von Mittelwerten


Ergebnis der ANOVA

Die manipulierte Seeigeldichte hat einen signifikanten Effekt auf die Sprossdichte der Seegräser (p < 0,05).

Manipulierte Seeigeldichte

keine mittel hoch

Spro

ssdi

chte

der

See

gräs

er

0

10

20

30

40

50

ABER: Welche Gruppe unterscheidet sich von welcher Gruppe ?

Multiple Vergleiche von Mittelwerten



• Datensatz mit 3 Gruppen

• ANOVA: signifikantes Ergebnis

Gruppe n Werte MW STABW

keine 5 15 ; 17 ; 18 ; 20 ; 21 18,2 2,4

mittel 5 13 ; 20 ; 22 ; 25 ; 28 21,6 5,7

hoch 5 31 ; 37 ; 38 ; 40 ; 45 38,2 5,1


keine mittel hoch

Spro

ssdi

chte

der

See

gräs

er

0

10

20

30

40

50


• Datensatz mit 3 Gruppen

• ANOVA: signifikantes Ergebnis

• Paarweise t-Tests ?

– bei 3 Gruppen ergeben sich 3 Vergleiche

– bei 5 Gruppen ergeben sich bereits 10 Vergleiche


102

1)(552

1)(GG(z)Vergleiche =

−⋅=

−⋅=

Gruppe Vergleich

1 G1-G2

2 G1-G3

3 G2-G3


keine mittel hoch

Spro

ssdi

chte

der

See

gräs

er

0

10

20

30

40

50



• Wenn H0: µ1 = µ2 = µ3 gilt,

dann gelten auch alle auf die paarweisen Vergleiche bezogenen Nullhypothesen

Vergleich Differenz der

Mittelwerte

H0k H1

k

G1-G2 18,2-21,6 = 3,4 µ1 = µ2 µ1 ≠ µ2

G1-G3 18,2-38,2 = 20,0 µ1 = µ3 µ1 ≠ µ3

G2-G3 21,6-38,2 = 16,6 µ2 = µ3 µ2 ≠ µ3

• Alle paarweise Mittelwertvergleiche mit der entsprechenden Nullhypothese


Unabhängige und abhängige Vergleiche

• Alle Vergleiche des Beispiels sind abhängige Vergleiche, d.h. mit überlappenden Informationen

– G1-G2, G1-G3

– G1-G2, G2-G3

– G1-G3, G2-G3

Vergleich Differenz der

Mittelwerte

H0k H1

k

G1-G2 18,2-21,6 = 3,4 µ1 = µ2 µ1 ≠ µ2

G1-G3 18,2-38,2 = 20,0 µ1 = µ3 µ1 ≠ µ3

G2-G3 21,6-38,2 = 16,6 µ2 = µ3 µ2 ≠ µ3


Unabhängige und abhängige Vergleiche

• 5 Gruppen, d.h. 10 abhängige und unabhängige Vergleiche

• Unabhängige Vergleiche

– z.B. G1-G2 und G3-G4

• Abhängige Vergleiche

– mit überlappenden Informationen

– z.B. G1-G3, G1-G4 und G1-G5

Vergleich Differenz der Mittelwerte

H0k H1

k

G1-G2 75-59 =16 µ1=µ2 µ1≠µ2

G1-G3 75-58 =17 µ1=µ3 µ1≠µ3

G1-G4 75-58 =17 µ1=µ4 µ1≠µ4

G1-G5 75-64 =11 µ1=µ5 µ1≠µ5

G2-G3 59-58 =1 µ2=µ3 µ2≠µ3

G2-G4 59-58 =1 µ2=µ4 µ2≠µ4

G2-G5 59-64 =6 µ2=µ5 µ2≠µ5

G3-G4 58-58 =0 µ3=µ4 µ3≠µ4

G3-G5 58-64 =6 µ3=µ5 µ3≠µ5

G4-G5 58-64 =6 µ4=µ5 µ4≠µ5


Inflation der Wahrscheinlichkeit des alpha-Fehlers

• Die Wahrscheinlichkeit der Gesamtheit von 2 unabhängigen Vergleichen einen alpha-Fehler zu begehen, erhöht sich!

wobei z die Anzahl der Vergleiche ist

0,4010,05)(11

0,0980,05)(11)α(1110

2zeinzel

=−−=

=−−=−−=gesamtα

Bei 2 unabhängigen Vergleichen verdoppelt sich bereits der alpha-Fehler !!!

0,10,052αzα einzelgesamt =⋅=⋅≈

• Approximation:


0,0250,05)(11)α(11α 1/21/zgesamteinzel =−−=−−=

• Auf welchem Niveau sind die Einzelvergleiche zu prüfen, damit die Wahrscheinlichkeit der Gesamtheit von 2 unabhängigen Vergleichen einen alpha-Fehler zu begehen, 0,05 nicht überschreitet?


0,0252

0,05z

αα gesamt

einzel ==≈

• Approximation:



• Sind nicht alle Vergleiche unabhängig, sind nur die Grenzen bekannt, zwischen denen die tatsächliche Wahrscheinlichkeit liegt, einen alpha-Fehler zu machen.

• Sie liegt zwischen αeinzel und αgesamt .

gesamthtatsächliceinzel ααα <<

0,025 < ???? < 0,050

bei 2 Vergleichen:

0,005 < ???? < 0,050

bei 10 Vergleichen:


0,0170,05)(11)α(11α 1/31/3gesamteinzel =−−=−−=


• Nach Anpassung des alpha-Fehlers liegt die Wahrscheinlichkeit der Gesamtheit von 3 unabhängigen und abhängigen Vergleichen einen alpha-Fehler zu begehen, zwischen 0,017 und 0,050 !

Gruppe Vergleich

1 G1-G2

2 G1-G3

3 G2-G3


Post hoc Tests

• Ziel:

alpha-Fehler für die Gesamtheit der Vergleiche beschränken, meist auf p = 0,05

• Methode: Absenkung des alpha-Fehlers pro Einzelvergleich

• Viele Verfahren, auch in SPSS

– Gleiche oder ungleiche Stichprobenumfänge?

– Homogene Varianzen?

gesamthtatsächliceinzel ααα <<


Bonferroni-Verfahren

zα

αneu =

• Neue kritische Irrtumswahrscheinlichkeit alpha wird durch Division der konventionellen alpha durch die Zahl der angestellten Vergleiche berechnet

• Testvorschrift: Ablehnen von H0(z), falls pz ≤ α / z

• Vorteil: einfaches Verfahren, alle Nullhypothesen werden mit gleicher Wahrscheinlichkeit abgelehnt

• Nachteil: sehr konservativ



0,0173

0,05αneu ==

• Beispiel: für drei geplante Vergleiche gilt:

Gruppe Vergleich p-Werte H0 ablehnen ?

1 G1-G2 0,798 nein

2 G1-G3 <0,001 ja

3 G2-G3 <0,001 ja




keine mittel hoch

Spro

ssdi

chte

der

See

gräs

er

0

10

20

30

40

50

a a

b ANOVA: p<0,001 Die manipulierte Seeigeldichte hat einen signifikanten Effekt auf die Sprossdichte der Seegräser (p < 0,001). Keine Seeigel und eine mittlere Seeigeldichte unterscheiden sich nicht signifikant voneinander. Hohe Seeigeldichten bewirken die signifikant höchste Sprossdichte.



• Geplante Vergleiche

• „Kontraste“ in SPSS

• Fragestellungen, die von besonderem Interesse sind

A priori Vergleiche Post hoc Vergleiche

• Ungeplante Vergleiche

• Jede Gruppe wird mit jeder verglichen

Vorzug der wenigen geplanten Vergleiche gegenüber allen möglichen ungeplanten Vergleichen, da „keine unnötige Verschwendung“ des alpha-Fehlers.


Geplante Mittelwertsvergleiche (Kontraste)

• Testen einer Teilmenge von Vergleichen

• Bestehen vor der Datenerhebung Hypothesen, welche Gruppenmittelwerte sich unterscheiden, sollten Kontraste formuliert werden

• Im Gegensatz zu post hoc-Tests, prüfen Kontraste nur die a priori vermuteten Mittelwertdifferenzen auf Signifikanz

• Kontraste können im Gegensatz zu post hoc-Tests auch gerichtet sein!


Kontrastberechnung

• Kontrastgewichte formulieren

1. Wiesen ohne Seeigel haben eine geringere Sprossdichte als Wiesen mit Seeigel (unabhängig von der Seeigeldichte).

2. Seegrasdichte in Wiesen mit mittlerer Seeigeldichte ist geringer als die in Wiesen mit hoher Seeigeldichte.

• Voraussetzungen prüfen

– Ist die Summe aller Gewichte = 0 ?

– Sind die Kontraste statistisch unabhängig (orthogonal) ?

Kontrast A B C

1 A – B,C -1 0.5 0.5

2 B – C 0 -1 1


keine mittel hoch

Spro

ssdi

chte

der

See

gräs

er

0

10

20

30

40

50


Geplante Vergleiche (Kontraste)

• Es kann sinnvoll sein, nach einer signifikanten ANOVA nur wenige ausgewählte Gruppen miteinander zu vergleichen

• Vorteil: Teststärke dieser Paarungen wird nicht durch uninteressante Vergleiche gesenkt

• Achtung! Auch diese Vergleiche gegen Inflation von Fehlern 1. Ordnung schützen

• Dunnett-Test (auch in SPSS)


Was sind nicht-parametrische Tests?

• Setzen keine bestimmte Verteilung der Daten voraus, sind „Verteilungsfreie Tests“

• Anwendung, wenn Daten nicht normalverteilt sind, können aber auch auf normalverteilte Daten angewand werden

• Unempfindlich gegen Ausreißer

• Auch für ordinalskalierte Daten

Messwerte Rangplätze


Zwei unabhängige Stichproben: Mann-Whitney U-Test

• Prüfung, ob sich mittlere Ränge von zwei unabhängigen Stichproben signifikant unterscheiden

• Nullhypothese H0: die mittleren Ränge sind unter beiden Bedingungen gleich



Gemeinsame Rangreihe der Werte beider Stichproben

Kontrollgruppe Experimentalgruppe

Messwert Rang Messwert Rang

16 1 19 3

17 2 28 6

20 4 34 7

22 5 35 8

41 9

44 10

• Nullhypothese H0: die mittleren Ränge sind unter beiden Bedingungen gleich


Sta tistik für Testb

2,00012,000-2,132

,033

,038a

Mann-Whitney-UWilcoxon-WZAsymptotischeSignifikanz (2-seitig)Exakte Signifikanz[2*(1-seit ig Sig.)]

Variable

Nicht für Bindungen korrigiert.a.

Gruppenvariable: Gruppeb.


Testgröße U: Wie häufig stehen Werte der Kontrollgruppe vor Werten der Experimentalgruppe ? U gibt an, wie häufig Werte an „falscher“ Stelle in der Rangfolge stehen.

Kontrollgruppe 16 17 20 22

Experimentalgruppe 19 28 34 35 41 44

„19“ steht als einziger Wert der Experimentalgruppe vor „20“ und „22“ der Kontrollgruppe


Fishers Randomisationstest

• Auf wieviel verschiedene Arten können 10 Beobachtungen auf zwei Gruppen der Größe n1=4 und n2=6 aufgeteilt werden?


Messwert Messwert

16 19

17 28

20 34

22 35

41

44

210!n!n)!n(n

K21

21 =⋅+

=

• Wenn H0 zutrifft, kann jede dieser 210 Aufteilungen mit gleicher Wahrscheinlichkeit auftreten

• Für alle möglichen Aufteilungen werden die zugehörigen U-Werte bestimmt

• Vollständige Stichprobenverteilung von U


Überprüfung der Nullhypothese: Fishers Randomisationstest

• Bereich der Verwerfung von H0:

die 5% kleinsten Werte von U

(d.h. einseitiger Test mit Irrtumswahrscheinlichkeit = 5%)

• Die kleinsten 5% der 210 möglichen U-Werte:

210 ∙ 0,05 = 10,5 , d.h. die 10 kleinsten Werte


Messwert Messwert

16 19

17 28

20 34

22 35

41

44


Sta tistik für Testb

2,00012,000-2,132

,033

,038a

Mann-Whitney-UWilcoxon-WZAsymptotischeSignifikanz (2-seitig)Exakte Signifikanz[2*(1-seit ig Sig.)]

Variable

Nicht für Bindungen korrigiert.a.

Gruppenvariable: Gruppeb.


Prüfgröße

2-seitige Irrtumswahrscheinlichkeit 1-seitige Irrtumswahrscheinlichkeit: 0,038 : 2 = 0,019

• p = 0,038 ; d.h. p < 0,05 und H0 wird abgelehnt

• Es besteht ein signifikanter Unterschied zwischen den beiden Gruppen.



• Prüfung von H0 bis n=50 über exakte Stichprobenverteilung, ab dann approximativ

• Mit Zusatzmodul „Exakte Tests“ lassen sich auch im Fall von größeren Stichproben exakte p-Werte bestimmen, dann auch Berücksichtigung von Rangbindungen

• Rangbindungen „ties“, d.h. Werte liegen mehrfach vor, dann Korrektur


Nicht-parametrische „ANOVA“: Kruskal-Wallis H-Test

keine mittel hoch

Messwert Rang Messwert Rang Messwert Rang

15 2 13 1 31 11

17 3 20 5,5 37 12

18 4 22 8 38 13

20 5,5 25 9 40 14

21 7 28 10 45 15

R1 21,5 R2 33,5 R3 65

n1 5 n2 5 n3 5

MR1 4,3 MR2 6,7 MR3 13,0

• Testen von mittleren Rängen (MR):


Kruskal-Wallis H-Test

• Nullhypothese H0: MR1 = MR2 = MR3 = MR

• Testgröße H:

keine mittel hoch

R1 21,5 R2 33,5 R3 65

n1 5 n2 5 n3 6

MR1 4,3 MR2 6,7 MR3 13,0

MR (21,5+33,5+65)/(5+5+5) = 8,0

∑=

−⋅+

=3

1j

2jj MR)(MRn

1)N(N12

H

• H ist annähernd χ2-Verteilt mit df=k-1 Freiheitsgraden


Kruskal-Wallis H-Test

Hkritisch = 5,992

• H ist annähernd χ2-verteilt

• Was ist das kritische H ??

• H= 10,095 > 5,992

Die manipulierte Seeigeldichte hat einen signifikanten Effekt auf die Sprossdichte der Seegräser (p = 0,006).

df = 2 (3-1 Gruppen)


Nicht-parametrischer post hoc Test

• Mann-Whitney-U Test: mit Bonferroni-Anpassung des alpha-Fehlers

(Test wird in SPSS angeboten, aber Bonferroni-Anpassung muss manuell durchgeführt werden)

Documents

A priori Tests (Kontraste) Nicht-parametrischer Vergleich ... · IOW-Statistikseminar: 4. Veranstaltung Carola Wagner & Anja Eggert Statistische Methoden in den Umweltwissenschaften