Permutationstests I. · Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 1 Permutationstests I. 1. Einleitendes Beispiel 2. Zwei-Stichprobentest

Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 1

Permutationstests I. 1. Einleitendes Beispiel

2. Zwei-Stichprobentest

3. Der klassische Mann-Whitney U-Test

4. Der exakte Test von Fisher

5. Nicht immer nur Permutation!

6. Unabhängigkeitstest

7. Theorie


1. Einleitendes Beispiel

Beim Sportarzt einer Sportschule:

- Diese Heilkrautsalbe ist wunderbar! Ich habe 6 Jungen mit ähnlich schweren Muskelverletzungen ausgewählt, 3 davon mit der Salbe behandelt, und alle 3 sind schneller geheilt worden, als die anderen 3.

- Klingt gut… aber man wird fragen: ist es auch statistisch signifikant?

- Warte mal! Wenn die Salbe gar nichts machte, dann wären alle 6! = 720 mögliche Anordnungen gleichwahrscheinlich. Da davon es nur 3!⋅3!=36 gibt, bei denen alle Behandelten schneller gesund werden, ist die Signifikanz p = 3!⋅3! / 6! = 0.05.


2. Zwei -Stichprobentest Behandlung gegen Blutarmut

Meßwert: Hämoglobin (g/dl) bei mäßig anämischen randomisierten Patienten nach der Behandlung

Daten: Gruppe B (behandelte): 9.1, 10.3, 11.0, 11.5, 11.9 Gruppe K (kontrolle): 8.1, 8.4, 9.2, 9.4

8 10 12

Beh. Kontr.


Nullhypothese: die Verteilungen in B und K sind identisch (die Behandlung hat keine Wirkung).

Gegenhypothese: Meßwerte in B sind „größer“ als in K (viele Varianten: verschoben, stochastisch größer, größerer Mittelwert, usw.)

Prüfgröße: Differenz zwischen den Mittelwerten.

Wert 9.1 10.3 11.0 11.5 11.9 8.1 8.4 9.2 9.4

Gruppe B B B B B K K K K

Prüfgröße: 10.76 – 8.78 = 1.98

Prüfverteilung: bestimmt unter der Annahme, daß alle Permutationen der Daten gleichwahrscheinlich sind.


• Die Annahme gilt u.a. wenn die Verteilungen in den 2 Gruppen dieselbe und Daten i.i.d. sind.

• Die Prüfverteilung kann man direkt durch Permutieren der Daten erstellen.

• Permutation der Werte oder Permutation der Gruppen-angehörigkeiten ist äquivalent.

Eine Permutation (Gruppenvariable permutiert):

Wert 9.1 10.3 11.0 11.5 11.9 8.1 8.4 9.2 9.4

Gruppe K K B B B K B K B

Differenz zwischen den Mittelwerten:

10.44 – 9.18 = 1.26 < 1.98


Die Anzahl aller Permutationen ist

• 9! = 362880, wenn man die Werte permutiert (Permutation ohne Wiederholung)

• =

=

5

9

4

9 126, wenn man die Gruppenvariable (die

Buchstaben B und K) permutiert (Permutation mit Wiederholung)


Eine andere Permutation:

Wert 9.1 10.3 11.0 11.5 11.9 8.1 8.4 9.2 9.4

Gruppe B K B B K B K K B

Differenz zwischen den Mittelwerten:

9.82 – 9.95 = –0.13 < 1.98

usw.

(mit allen 126 Permutationen...)


Von den 126 Permutationen gibt es nur 3 mit Werten größer oder gleich 1.98.

0

5

10

15

-2.5 -1.5 -0.5 0.5 1.5 2.5

1.98

Der Unterschied ist signifikant: p = 3/126 = 0.0238.


2. Der klassische Mann -Whitney U-Test ...ist auch ein Permutationstest.

Dasselbe Beispiel: Behandlung gegen Blutarmut

Rangzahlen statt Meßwerte (Transformation!)

Wert 9.1 10.3 11.0 11.5 11.9 8.1 8.4 9.2 9.4

Rang 3 6 7 8 9 1 2 4 5

Gruppe B B B B B K K K K

Nullhypothese: (dieselbe wie oben) die Verteilungen in B und K sind identisch (die Behandlung hat keine Wirkung).


Gegenhypothese: (unterschiedlich) Meßwerte in B sind „größer“ als in K (viele Varianten: verschoben, stochastisch größer, usw.)

Prüfgröße: Rangsumme in Gruppe B.

(Es gibt mehrere äquivalente Prüfgrößen.)

Prüfverteilung: bestimmt unter der Annahme, daß alle Permutationen der Rangzahlen gleichwahrscheinlich sind.

Prüfgröße = 3 + 6 + 7 + 8 + 9 = 33.

Von den 126 Permutationen gibt es 4 mit Werten größer oder gleich 33 ⇒ p = 4/126 = 0.0317.

Das Permutations-Verfahren geht auch bei Rangbindungen!


3. Fisher’s exakt Test ... ist auch ein Permutationstest.

Fisher’s Beispiel („tea-drinking -lady“)

Eine Frau behauptet, erkennen zu können, ob zuerst die Milch oder der Tee in die Tasse gefüllt wurde. In einem Versuch werden 8 Tassen vorgesetzt, 4 davon „Milch dann Tee“ und 4 „Tee dann Milch“. Die Frau muß die Tassen nach der „Behandlung“ in zwei Gruppen einteilen.

Wichtig! Die Frau weiß, daß jede Gruppe 4 Tassen enthält ⇒⇒⇒⇒ Sie bildet 2 vier-elementige Gruppen!


H0: die Frau erkennt nichts, die Einteilung ist zufällig

H1: sie erkennt die „Behandlungen“

Ein mögliches Ergebnis (jede Tasse richtig erkannt):

Die Wahrscheinlichkeit, daß man

unter H0 dieses Ergebnis bekommt: 1/70 = 0.0143. (Es gibt =

4

8

70 mögliche Einteilungen in 2 vierelementige Gruppen.)

Wahrheit Tipp

M/T T/M

M/T 4 0

T/M 0 4


Kontingenztafel und Datenmatrix:

X Y 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2

Y X

1 2

1 4 0 2 0 4

Y X

1 2

1 3 1 2 1 3

X Y 1 1 1 2 1 1 1 1 2 2 2 2 2 2 2 1

Variable Y permutiert!

(1,1,1,1,2,2,2,2 hat 70 Permutationen)


4. Nicht immer nur Permutationen! Der Wilcoxon-Test

Beispiel: Klausur-Ergebnisse (n=6 Studenten)

1. Klausur 30 36 42 55 70 63

2. Klausur 42 47 41 53 77 68

Differenz 12 11 -1 -2 7 5

Rangzahlen* 6 5 -1 -2 4 3

*Differenzen nach Betrag geordnet; bei Rangbindungen (ties) der durchschnittliche Rang gegeben


Hypothesen:

H0: Verteilung der Differenz ist symmetrisch (!!!) mit Mittelwert = Median = 0.

H1: nicht H0 (d.h. nicht symmetrisch oder MW≠0).

Prüfgröße: Summe der Rangzahlen

6 + 5 – 1 – 2 + 4 + 3 = 15

Prüfverteilung: bestimmt unter der Annahme, daß jede Rangzahl mit 50-50% Wahrscheinlichkeit positiv oder negativ sein kann.

Hier geht es um keine Permutation, oder?! (Später kommen wir noch hierher zurück.)


Es sind nicht die beobachteten 2 minus und 4 plus Vorzeichen, die permutiert werden. Die Annahme besteht darin, daß unter H0 alle mögliche Erscheinungen der 6 Vorzeichen (insgesamt 26 = 64) gleichwahrscheinlich sind.

Die Anzahl der plus und minus Vorzeichen ist nicht vorherbestimmt!

Die exakte Prüfverteilung kann direkt oder mit Rekursion bestimmt werden (nur ohne Rangbindungen!).

Direkte Bestimmung des p-Wertes durch Auswertung aller Möglichkeiten geht auch bei Rangbindungen!

Für n ≥ 10 ist eine Annäherung mit der Normalverteilung auch möglich.


1 2 3 4 5 6 Summe Wkeit

– – – – – – –21 1/64

+ – – – – – –19 1/64

– + – – – – –17 1/64

+ + – – – – –15 1/64

– – + – – – –15 1/64 . . .

+ – + + + + 17 1/64

– + + + + + 19 1/64

+ + + + + + 21 1/64


p-Wert (zweiseitig): die Wahrscheinlichkeiten summiert für die Fälle mit einer Rangsumme ≥ 15.

p = 10/64 = 0.156

Idee: man könnte das auch direkt mit den beobachteten Werten ausführen.

⇓⇓⇓⇓ Ein-Stichproben Randomisierungstest!

Prüfgröße: Summe der beobachteten Werte

12 + 11 – 1 – 2 + 7 + 5 = 32

Prüfverteilung: bestimmt unter derselben Annahme (jede Differenz kann mit 50-50% Wahrscheinlichkeit positiv oder negativ sein).


1 2 5 7 11 12 Summe Wkeit

– – – – – – –38 1/64

+ – – – – – –36 1/64

– + – – – – –34 1/64

+ + – – – – –32 1/64

– – + – – – –28 1/64

. . .

+ – + + + + 34 1/64

– + + + + + 36 1/64

+ + + + + + 38 1/64


p-Wert (zweiseitig): die Wahrscheinlichkeit summiert für die Fälle mit einer Summe ≥ 32.

p = 8/64 = 0.125


Ähnliche Überlegung wie beim Wilcoxon-Test kann man auch beim „tea-drinking-lady“ Beispiel benutzen, wenn die Anzahl der Behandlungen nicht vorausgesetzt ist (wenn die Gruppen nicht unbedingt 4-4 Tassen enthalten).

Oft wird diese Methode statt Permutation Randomisation genannt (ein allgemeinerer Begriff).


5. Unabhängigkeitstest ...geht ganz natürlich mit Permutationtest.

(z.B. Fisher-Exakter-Test, und auch 2-Stichpr.-Test!)

H0: Unabhängigkeit von X und Y

H1: viele Möglichkeiten (entweder spezifisch, wie z.B. die Korrelation, oder egal welche)

Unter H0 wird die gemeinsame Verteilung von X und Y von Permutationen nicht beeinflußt.

Prüfgröße: der Gegenhypothese entsprechend (Korrelationskoeffizient, Chi-Quadrat-Statistik, usw.)


6. Theorie Austauschbarkeit (Exchangeability)

Seien X1, X2, ... , Xn Zufallsvariablen mit der gemeinsamen Verteilungsfunktion F(x1, x2, ... , xn). Sie werden austauschbar (exchangeable) genannt, falls

F(xi1, xi2, ... xin) = F(x1, x2, ... , xn)

für alle Werte x1, x2, ... xn und alle Permutationen xi1, xi2, ... , xin der Werte x1, x2, ... xn .

Bei Austauschbarkeit unter H0 ist der Permutationstest exakt und unverzerrt (unbiased).

Lehmann (1986) p. 231.


• Eine hinreichende Bedingung zur Austauschbarkeit: X1, X2, ... , Xn sind i.i.d. (unabhängig und identisch verteilt).

• Beobachtungen beim Stichprobenziehen ohne Zurücklegen sind auch austauschbar (obwohl abhängig!).

• Normalverteilte Variablen mit derselben Varianz und mit derselben Kovarianz für jedes Paar sind auch austauschbar, (obwohl abhängig!).

Aus Austauschbarkeit folgt, daß unter der Bedingung, daß man die Werte x1, x2, ... xn beobachtet, jede Permutation die gleiche

Wahrscheinlichkeit 1/n! besitzt. Unter dieser Bedingung kann man

also den (bedingten!) p-Wert einfach bestimmen.


Ein allgemeines Problem mit dem Permutationstest (und auch mit den verwandten Methoden)

Der Permutationstest ist ein bedingter Test gegeben die beobachteten Werte der Stichprobe („conditional on the sample“).

Kritik: Wie kann man das Ergebnis für die Population verallgemeinern, wenn es ausschließlich auf den aktuellen Beobachtungswerten basiert?

Gegenkritik: Wie darf man den Schluss auf eine riesige Menge solcher Ergebnisse basieren, die man nie beobachtet hat und vielleicht auch in der Zukunft nie beobachten wird? Es ist besser nur auf die Fakten zu basieren.

Das ist der grundsätzliche Unterschied zwischen „Sampling Prinzip“ und „Permutations-“ oder „Randomisationsprinzip“.


Oft ist es unmöglich mit reellen Stichproben zu arbeiten (in Archäologie, Paleontologie, usw.). Dann ist die Anwendung des „Sampling Prinzip“ unrealistisch.

Randomisierungsprinzip ist auch in klinischen Studien gewöhnlich. Patienten formen keine zufällige Stichprobe aus der Population, aber die Behandlungen kann man randomisiert zuordnen.

Nach Ludbrook and Dudley (Am. Stat., 52, 127-132) wird in 96% von klinischen Studien Randomisation benutzt (n = 252), aber in 84% die randomisierten Studien werden die Daten mit t- und F-Tests analysiert (mit Tests, die zu zufälligen Stichproben geeignet sind).


Ein Vorteil der Permutationsmethode ...ist die freie (optimale) Auswahl der Prüfgröße.

Man darf nicht glauben, daß alle möglichen Prüfgrößen gleich gut (=effizient) sind!

Welche Prüfgröße die beste ist, hängt immer von der Gegenhypothese ab: die Prüfgröße muß zwischen H0 und H1 gut separieren (trennscharf sein?).

Beim Zwei-stichprobentest ist H0 die Identität der 2 Verteilungen. Für welche H1 passen die folgenden Prüfgrößen?

• Differenz zwischen den Mittelwerten, • Differenz zwischen den Mittelwerten der Log-transformierten

Werten, • Differenz zwischen den Mittelwerten der Rangzahlen.


Unterschiedliche Prüfgrößen können auch äquivalent sein: z.B. für den Zwei-stichprobentest sind die folgenden Prüfgrößen äquivalent:

• Differenz zwischen den Mittelwerten,

• Differenz zwischen den Summen der 2 Stichproben,

• Mittelwert der ersten Stichprobe,

usw.


Grenzen des Permutationstests

Es gibt bekannte Probleme, in denen Austauschbarkeit leider nicht vorliegt.

Beispiel: Behrens-Fisher Problem Zwei Mittelwerte sind zu vergleichen unter Ungleichheit der Varianzen.

Aus der Ungleichheit der Varianzen folgt, daß die Verteilungen auch unter H0 unterschiedlich sind.

⇓⇓⇓⇓ Kein gültiger Permutationstest existiert.

Documents

Permutationstests I. · Resampling Methoden – Dortmund, 2005 (Jenő Reiczigel) 1 Permutationstests I. 1. Einleitendes Beispiel 2. Zwei-Stichprobentest