Sei X ;X ein Merkmalspaar und - uni-wuerzburg.de · ne der Nullhypothese plausibel oder unplausibel ist StatBio 292. Zun achst: In Kap. 10 wurde gesagt, dass H 0 zu verwerfen ist,

11 Tests zur Uberprufung von Mittelwerts-unterschieden

11.1 Der z–Test (t–Test) fur verbundene Stichproben

11.2 Der z–Test (t–Test) fur unabhangige Stichproben

11.3 Fehler 1. Art und 2. Art

11.4 Typische Fehler im Umgang mit statistischen Tests

Appendix A: Uberprufung der Annahmen beim t–Test

Appendix B: t–Test mit SPSS

11.1 Der z–Test (t–Test) fur verbundeneStichproben

Sei (X1, X2) ein Merkmalspaar und

(x11, x21), . . . , (x1n, x2n)

eine verbundene (gepaarte) Stichprobe vom

Umfang n.

StatBio 288

Bezeichnen wieder

di = x1i − x2i, i = 1, . . . , n

die Paardifferenzen. Es wird angenommen, dass

d1, . . . , dn als einfache Stichprobe angesehen

werden kann.

Uberpruft wird die Nullhypothese

H0 : µ1 = µ2

(kein Mittelwertsunterschied), also

H0 : µd = 0

mit µd = µ1 − µ2 (Populationsmittelwert der

Paardifferenzen ist Null).

StatBio 289

Die Alternative ist

H1 : µ1 6= µ2

anders geschrieben

H1 : µd 6= 0

Eine naheliegende Prufgroße ware die Differenz

d− µd =1

n

n∑i=1

di − µd

Um die Bedeutsamkeit dieser Differenz beur-

teilen zu konnen, wird sie in Relation zur

(geschatzten) Streuung von d um µd gesetzt.

Als Prufgroße wahlt man somit

d− µdsd/√n

(11.1)

StatBio 290

Im Nenner steht der geschatzte Standardfehler

von d (ESEM), wobei

sd =

√√√√ 1

n− 1

n∑i=1

(di − d)2

wieder die Standardabweichung der Paardifferen-

zen d1, . . . , dn bezeichnet.

Unter (der Gultigkeitsannahme von) H0 : µd =

0 reduziert sich die Prufgroße (11.1) zu

d

sd/√n

(11.2)

Plausibel: Unter H0 wird ein Prufgroßenwert

,,in der Nahe” von Null erwartet. Ist daher die

Abweichung des Prufgroßenwertes von der Null

,,zu groß”, so wird die Gultigkeit der Nullhypo-

these in Zweifel gezogen.

StatBio 291

Was heißt ,,in der Nahe” von Null? Oder anders

gefragt: Ab wann gilt eine Abweichung als ,,zu

groß”?

Diese Fragen werden im Rahmen zweier zum

gleichen Ziel fuhrender Verfahren beantwortet:

(1) Klassisches Testverfahren

(2) p–Wert–Methode

Beide Verfahren beurteilen mittels Wahrschein-

lichkeiten, ob der Prufgroßenwert (11.2) im Sin-

ne der Nullhypothese plausibel oder unplausibel

ist

StatBio 292

Zunachst: In Kap. 10 wurde gesagt, dass H0

zu verwerfen ist, falls etwas beobachtet wurde,

also ein Ereignis eingetreten ist, das unter H0

nur mit einer kleinen Wahrscheinlichkeit hatte

eintreten durfen. Um Wahrscheinlichkeiten zu

bestimmen, muss man die Stichprobenverteilung

der Prufgroßed

sd/√n

unter H0 kennen.

StatBio 293

(A) Fur hinreichend große Stichprobenumfange

(n ≥ 30) ist die Prufgroße

z =d

sd/√n

nach dem zentralen Grenzwertsatz annahernd

N(0, 1)–verteilt (z–Test fur gepaarte Stich-proben).

(B) Unter der Normalverteilungsannahme ist die

Prufgroße

t =d

sd/√n

t–verteilt mit n−1 Freiheitsgraden (t–Test furgepaarte Stichproben) .

StatBio 294

(1) Das klassische Testverfahren

Anmerkung: Die folgenden Ausfuhrungen beziehen sich

(zunachst) auf den z–Test. Sie gelten vollig analog fur den

t–Test.

Das klassische Testverfahren gibt einen kriti-schen Wert zkrit > 0 an, so dass ,,in der Nahe”

von Null einen Prufgroßenwert z meint, der im

Intervall

(−zkrit, zkrit)liegt, fur den also

−zkrit < z < zkrit

gilt. Ein Prufgroßenwert z außerhalb dieses Be-

reiches, fur den also

z ≤ −zkrit oder zkrit ≤ z

gilt, wird unter H0 als unplausibel angesehen.

StatBio 295

Veranschaulichung auf dem Zahlenstrahl:

z–Wert z–Wert

zu klein zu groß] | [

−zkrit 0 zkrit

Testentscheidung: Ablehnung von H0, falls z

im Ablehnungsbereich (Verwerfungsbereich),

bestehend aus den beiden Intervallen

(−∞,−zkrit] und [zkrit,∞)

liegt (man spricht auch vom kritischen Be-reich). Keine Ablehnung von H0, falls z im

Nichtablehnungsbereich

(−zkrit, zkrit)

liegt.

Frage: Wie ist der kritische Wert zkrit festzule-

gen?

StatBio 296

Dieser ist durch die Vorgabe einer kleinen Wahr-

scheinlichkeit α festgelegt, etwa α = 0.05 (α

heißt Testniveau, Signifikanzniveau oder Irr-tumswahrscheinlichkeit).

Man wird zkrit so festlegen, dass Folgendes gilt:

Der erwartete Anteil von Prufgroßenwerten z,

die im Ablehnungsbereich liegen, also die Wahr-

scheinlichkeit, einen Prufgroßenwert z mit

z ≤ −zkrit oder zkrit ≤ z

zu beobachten, soll unter der Gultigkeitsan-nahme von H0 (hochstens) mit Wahrschein-

lichkeit 0.05 auftreten.

z ≤ −zkrit −zkrit < z < zkrit zkrit ≤ zmit W. 0.025 mit W. 0.95 mit W. 0.025

] | [

−zkrit 0 zkrit

StatBio 297

Die Wahrscheinlichkeit, unter H0 einen

Prufgroßenwert z im Nichtablehnungsbereich

(−zkrit, zkrit)

zu beobachten, ist

Φ(zkrit)− Φ(−zkrit) = 2 · Φ(zkrit)− 1

Denn: Unter H0 ist die Stichprobenverteilung

von z annahernd eine N(0, 1)–Verteilung (falls

n ≥ 30).

Somit bestimmt sich zkrit aus der Gleichung

2 · Φ(zkrit)− 1 = 0.95

D. h.

Φ(zkrit) =1.95

2= 0.975

Damit ist zkrit das 0.975–Quantil der Standard-

normalverteilung, also z0.975 = 1.96.

StatBio 298

Fazit: Unter H0 fuhren nur 5% aller Stichproben

(gleichen Umfangs) zu einem Prufgroßenwert z

mit z ≤ −1.96 oder z ≥ 1.96.

Ist das Ereignis

z ≤ −1.96 oder z ≥ 1.96

eingetreten, so bedeutet dies, dass

– entweder ein seltener z–Wert beobachtet

wurde (mit einer Wahrscheinlichkeit von

hochstens 0.05) oder

– dass die Nullhypothese H0 inkorrekt ist.

Plausibler ist die Entscheidung, dass H0 falsch

ist. Damit lautet die Testentscheidung:

StatBio 299

• Ist z ≤ −1.96 oder z ≥ 1.96, so wird H0 zum

Signifikanzniveau 5% abgelehnt. Man spricht

von einem signifikanten Testresultat.

• Ist −1.96 < z < 1.96, so wird H0 zum Signi-

fikanzniveau 5% nicht abgelehnt. Man spricht

von einem nichtsignifikanten Testresultat.

Anteil: 0.05/2 keine Anteil: 0.05/2

Ablehnung Ablehnung Ablehnung] | [

−1.96 0 1.96

Abbildung 11–1 Verwerfungsbereich (z–Test) zum

Testniveau 0.05 zur Alternative µd 6= 0

StatBio 300

Nur in 5% aller Falle kommt es unter der Gultig-

keitsannahme von H0 zu einer Fehlentscheidung

(Entscheidung fur H1). Die Wahrscheinlichkeit

eines Fehlers 1. Art (Entscheidung fur H1 ob-

wohl H0 richtig ist) betragt hochstens 5%. Mehr

zum Fehler 1. Art in Abschnitt 11.3.

t–Test

Der t–Test unterstellt die Normalverteilung der

Paardifferenzen. In diesem Fall ist die Prufgroße

t =d

sd/√n

unter H0 t–verteilt mit n − 1 Freiheitsgra-

den (Abschnitt 8.3). Der kritische Wert zum

5%–Testniveau ist das 0.975–Quantil der t–

Verteilung mit n− 1 Freiheitsgraden.

Bezeichnungsweise: tn−1;0.975

StatBio 301

Der Verwerfungsbereich zum 5%–Testniveau be-

steht aus den beiden Intervallen

(−∞,−tn−1;0.975] und [tn−1;0.975,∞)

Anteil: 0.025 keine Anteil: 0.025

Ablehnung Ablehnung Ablehnung] | [

−tn−1;0.975 0 tn−1;0.975

Abbildung 11–2 Verwerfungsbereich (t–Test) zum

5%–Niveau zur Alternative µd 6= 0

Testentscheidung: Ablehnung von H0, falls

t ≤ −tn−1;0.975 oder tn−1;0.975 ≤ t

StatBio 302

Allgemein: Testet man zum Niveau α, so ist

der kritische Wert das

(1− α/2)–Quantil

Beim z–Test ist es das (1 − α/2)–Quantil der

Standard–Normalverteilung. Bezeichnungsweise:

z1−α/2.

Beim t–Test ist es das (1 − α/2)–Quantil der

t–Verteilung mit n− 1 Freiheitsgraden. Bezeich-

nungsweise: tn−1;1−α/2.

Ausgewahlte (1 − α)–Quantile der N(0, 1)–

Verteilung und der t–Verteilung finden sich in

Tab. 11–1.

In der Praxis sind die Werte α = 0.01, α = 0.05

und α = 0.1 gebrauchlich.

StatBio 303

11.1 Beispiel: Man mochte feststellen, ob einespezielle Diat zu einer Gewichtsabnahme fuhrt.Bei 10 Personen wurde das Gewicht (in kg) vorder Diat (x1i) und nach der Diat (x2i) gemessen.Sei di = x1i − x2i, i = 1, . . . , 10.

Person xi1 x2i di1 85 78 72 78 75 33 92 90 24 103 93 105 94 93 16 89 83 67 84 85 −18 82 79 39 109 98 1110 102 96 6

Kann H0 : µ1 = µ2 zum Signifikanzniveau α =

0.05 abgelehnt werden?

Der kritische Wert ist das (1−α/2)–Quantil der

t–Verteilung mit n − 1 Freiheitsgraden. Hier ist

StatBio 304

n = 10, α = 0.05 und man erhalt

tkrit = tn−1;1−α/2 = t9;0.975 = 2.262

siehe Tab. 11–1. Damit lautet der Annahmebe-

reich

(−2.262, 2.262)

Wegen

d = 4.8, sd = 3.882

ergibt sich ein Prufgroßenwert von

t =4.8

3.882/√

10= 3.91

Da t = 3.91 > 2.262 kann H0 zum Signifikanz-

niveau α = 0.05 abgelehnt werden.

StatBio 305

Abbildung 11–3 t–Verteilung mit df = 9; Flache unter-

halb von −2.262 und oberhalb von 2.262 ist 0.05 (graue

Flache)

StatBio 306

Tabelle 11–1 (1 − α)–Quantile der t–Verteilung tdf ;1−αfur df = 1, . . . , 30 und α = 0.1, 0.05, 0.025, 0.01, 0.005(in der letzten Zeile sind die entsprechenden Quantile z1−αder Standard–Normalverteilung)

1− αdf 0.90 0.95 0.975 0.99 0.9951 3.078 6.314 12.706 31.821 63.6572 1.886 2.920 4.303 6.965 9.9253 1.638 2.353 3.182 4.541 5.8414 1.533 2.132 2.776 3.747 4.6045 1.476 2.015 2.571 3.365 4.032

6 1.440 1.943 2.447 3.143 3.7077 1.415 1.895 2.365 2.998 3.4998 1.397 1.860 2.306 2.896 3.3559 1.383 1.833 2.262 2.812 3.250

10 1.372 1.812 2.228 2.764 3.169

11 1.363 1.796 2.201 2.718 3.10612 1.356 1.782 2.179 2.681 3.05513 1.350 1.771 2.160 2.650 3.01214 1.345 1.761 2.145 2.624 2.97715 1.341 1.753 2.131 2.602 2.947

Fortsetzung nachste Seite!

StatBio 307

1− αdf 0.90 0.95 0.975 0.99 0.99516 1.337 1.746 2.120 2.583 2.92117 1.333 1.740 2.110 2.567 2.89818 1.330 1.734 2.101 2.552 2.87819 1.328 1.729 2.093 2.539 2.86120 1.325 1.725 2.086 2.528 2.845

21 1.323 1.721 2.080 2.518 2.83122 1.321 1.717 2.074 2.508 2.81923 1.319 1.714 2.069 2.500 2.80724 1.318 1.711 2.064 2.492 2.79725 1.316 1.708 2.060 2.485 2.787

26 1.315 1.706 2.056 2.479 2.77927 1.314 1.703 2.052 2.473 2.77128 1.313 1.701 2.048 2.467 2.76329 1.311 1.699 2.045 2.462 2.75630 1.310 1.697 2.042 2.457 2.750

∞ 1.282 1.645 1.960 2.326 2.576

StatBio 308

(2) Die p–Wert–Methode

Die Frage, ob die Daten mit der Nullhypothese

vertraglich sind, wird mit der klassischen Testme-

thode grob mit ,,ja” oder ,,nein” beantwortet.

,,Grob” deswegen, weil, wie Bsp. 11.1 zeigt,

auch ein kleinerer Wert als t = 3.91, etwa 2.34,

zu einer Ablehnung von H0 gefuhrt hatte (zum

Signifikanzniveau α = 0.05). Zur Erinnerung:

Das Signifikanzniveau α = 0.05 fuhrt zum An-

nahmebereich

(−2.262, 2.262)

Selbst wenn die Stichprobe zu einem Prufgroßen-

wert von t = 2.262 gefuhrt hatte, ware H0 (ge-

rade noch) zum 5%–Niveau abgelehnt worden.

Intuitiv hat man aber bei einem Wert von 3.91

ein großeres Vertrauen in die Testentscheidung

H0 abzulehnen. Es ware also informativer, ein

StatBio 309

feineres Maß fur die Vertraglichkeit von Daten

und Nullhypothese anzugeben.

Statt von einem festen Signifikanzniveau aus-

zugehen, z. B. α = 0.05 oder α = 0.01,

und daraufhin einen kritischen Wert fur die

Prufgroße zu bestimmen, geht die p–Wert–Methode vom konkret beobachteten Wert ei-

ner Prufgroße aus, in Bsp. 11.1 t = 3.91. Die

wahrscheinlichkeitstheoretische Beurteilung, ob

der Prufgroßenwert 3.91 im Sinne der Nullhypo-

these extrem oder selten ist, erfolgt nicht uber

den Umweg kritischer Werte sondern direkt. Die

p–Wert–Methode fragt nach der Wahrscheinlich-

keit, einen Prufgroßenwert t zu beobachten, der

im Sinne der Nullhypothese noch extremer, noch

seltener als 3.91 ist.

Diese Wahrscheinlichkeit, unter H0 einen Pruf-

großenwert t mit

t ≤ −3.91 oder 3.91 ≤ t

StatBio 310

zu beobachten ist der p–Wert. Dieser wird

in Abhangigkeit vom konkreten Prufgroßenwert

3.91 mit p(3.91) bezeichnet. Der p–Wert be-

tragt1

p(3.91) = 0.001

Abbildung 11–4 t–Verteilung mit df = 9 und

p–Wert ≈ 0.001 (graue Flache) zu Bsp. 11.1

Hatte man bei der klassischen Testmethode ein

Signifikanzniveau von 0.1% vorgegeben, dann1Der p–Wert wird mittels statistischer Software, also mittels Com-

puter, berechnet.

StatBio 311

ware der kritische Wert

tkrit = t9;1−0.001/2 = t9;0.9995 = 3.91

und der Ablehnungsbereich

(−∞,−3.91] und [3.91,∞)

Mit anderen Worten: Der p–Wert 0.001 ist das

kleinste Signifikanzniveau, welches bei einem

Prufgroßenwert von t = 3.91 noch zu einer Ab-

lehnung von H0 fuhrt. (Die Wahl eines kleine-

ren Signifikanzniveaus als 0.001 fuhrt zu einem

Ablehnungsbereich, der den Prufgroßenwert von

3.91 nicht mehr enthalt).

Tatsachlich ware man also bereit gewesen, zu ei-

nem kleineren Signifikanzniveau als 5%, namlich

zum 0.1%–Niveau, H0 abzulehnen. Man hat also

ein großeres Vertrauen in die Entscheidung, H0

abzulehnen.

StatBio 312

Testentscheidung aufgrund des p–Wertes

Ein kleiner Wert p(t) bedeutet entweder, dass die

Nullhypothese richtig ist und ein seltener t–Wert

beobachtet wurde oder dass die Nullhypothese

falsch ist. Deshalb sprechen kleine p–Wertegegen die Nullhypothese. Wie klein muss aber

der p–Wert sein, damit genugend Evidenz gegen

H0 vorliegt?

• Seit etwa 75 Jahren wird nach R. A. Fisher

(1890–1962) ublicherweise eine Nullhypothese

als unannehmbar betrachtet, falls fur den p–

Wert eines statistischen Tests gilt

p–Wert ≤ c mit 0.01 ≤ c ≤ 0.05

Man spricht von einem signifikanten Testre-

sultat.

StatBio 313

• Andererseits herrscht im Allgemeinen Uber-

einstimmung daruber, dass zum Beispiel ein

p–Wert von 0.35 kaum ein Indiz gegen die

Nullhypothese sein kann. Man spricht von ei-

nem nichtsignifikanten Testresultat.

Wird H0 zu einem p–Wert abgelehnt, so bedeu-

tet dies, dass man eine Fehlerwahrscheinlichkeit

1. Art in Hohe des p–Wertes akzeptiert. Der

p–Wert wird auch exaktes oder tatsachlichesSignifikanzniveau genannt.

Hinweis: Die p–Wert–Methode beinhaltet das

klassische Testen. Lautet (vor Durchfuhrung des

Tests!) die Entscheidungsvorschrift, die Nullhy-

pothese ist abzulehnen, falls

p –Wert ≤ 0.05

so ist dies gleichbedeutend mit einem klassischen

Testverfahren zu (vorgegebenem) Signifikanzni-

StatBio 314

veau α = 0.05. In beiden Fallen gelangt man zur

gleichen Testentscheidung!

Zusammenfassend lasst sich feststellen:

Der p–Wert ist ein Maß fur dieGlaubwurdigkeit einer Nullhypothese.

Besser:

Der p–Wert ist ein Maß fur die Ver-traglichkeit von Daten und Nullhypo-these.

Beim z–Test lasst sich der p–Wert aus Tabellen

ablesen. Bei einem Prufgroßenwert z ist der p–

Wert

p(z) =

{2 · (1− Φ(z)), z ≥ 0

2 · Φ(z) = 2 · (1− Φ(−z)), z < 0

StatBio 315

Statistische Signifikanz und praktische Re-levanz

In Bsp. 11.1 konnte die Nullhypothese zum

5% Niveau verworfen werden. Man entscheidet

sich fur die Alternative, dass die zwei Popula-

tionen statistisch signifikante, unterschiedliche

Mittelwerte haben. Es stellt sich die Frage, ob

dieser Unterschied auch von praktischer Bedeu-

tung ist. Zur Beantwortung dieser Frage sind

Konfidenzintervalle hilfreich. Die Differenz der

Stichprobenmittel ist

x1 − x2 = d = 4.8

und die Grenzen eines 95%–Konfidenzintervalls

fur µd sind gegeben durch

d± t9;0.975 ·sd√n

= 4.8± 2.262 · 3.882√10

= 4.8± 2.78

StatBio 316

Inwieweit die Unterschiedswerte im Konfidenzin-

tervall

(2.02, 7.58)

als wesentlich beurteilt werden, hangt ausschließ-

lich von sachlogischen Argumenten ab. Ware

beispielsweise ein Unterschied erst ab 8 kg in-

teressant, so ist das Resultat signifikant, aber

nicht relevant. Zwischen (praktischer) Relevanzund (statistischer) Signifikanz ist daher genau

zu unterscheiden.

Zusammenhang zwischen Test und Konfi-denzintervall

Ferner fallt auf, dass die 0 nicht im Konfidenz-

intervall liegt. In der Tat gilt: Die Nullhypothese

H0 : µd = 0 wird genau dann zum Signifikanz-

niveau 5% verworfen, wenn die 0 nicht im 95%

Konfidenzintervall fur µd liegt.

Generell lasst sich Folgendes sagen: Wenn

StatBio 317

man einen beliebigen Wert aus dem 0.95–

Konfidenzintervall (2.02, 7.58) nimmt, dieser sei

mit δ bezeichnet, dann wurde der t–Test die

Nullhypothese

H0 : µd = δ

zum Signifikanzniveau 0.05 nicht ablehnen. Die

Prufgroße lautet in diesem Fall

t =d− δsd/√n

StatBio 318

Achtung! Annahmebereich und Konfidenzinter-

vall nicht verwechseln:

• Annahmebereich: festes, kein zufalliges In-

tervall, abhangig vom Testniveau α. Der An-

nahmebereich enthalt den Wert einer Teststa-

tistik mit Wahrscheinlichkeit 1 − α, falls die

Nullhypothese richtig ist.

• Konfidenzintervall: zufalliges, d.h. von den

Daten abhangiges Intervall. Es enthalt den

wahren (aber unbekannten) Parameterwert

mit einer vorgegebenen Vertrauenswahr-

scheinlichkeit 1− α.

StatBio 319

Einseitige und zweiseitige Alternativen

Grundsatzlich unterscheidet man einseitige und

zweiseitige Testprobleme. In der Praxis werden

die folgenden Testprobleme betrachtet:

(A) H0 : µ1 = µ2, H1 : µ1 6= µ2 (µd 6= 0)

(B) H0 : µ1 = µ2, H1 : µ1 > µ2 (µd > 0)

(C) H0 : µ1 = µ2, H1 : µ1 < µ2 (µd < 0)

Das Testproblem (A) nennt man zweiseitig(two–sided) oder ungerichtet (nondirectional),

da die Alternative nicht spezifiziert, ob µ1

großer als µ2 oder µ1 kleiner als µ2 ist, oder

anders formuliert, in welche Richtung

µd = µ1 − µ2

von Null abweichen soll (großer oder kleiner).

StatBio 320

Die Testprobleme (B) und (C) nennt man ein-seitig oder gerichtet, da die Alternative jetzt

spezifiziert, in welche Richtung µ1 von µ2 abwei-

chen soll (nur großer wie in (B) bzw. nur kleiner

wie in (C)). Welches Testproblem zu wahlen ist,

hangt von der konkreten Fragestellung ab. Man

wird immer einseitig testen, wenn man sicher

ist, dass µd nur in eine Richtung von der Null

abweichen kann (nur großer bzw. nur kleiner).

Einseitige Testpobleme verwenden wie im zwei-

seitigen Fall die Prufgroße (11.2):

d

sd/√n

Fur den einseitigen z–Test zum Niveau α gilt

folgendes:

StatBio 321

Alternative H1 : µd > 0

Der kritische Wert ist das (1 − α)–Quantil der

Standard–Normalverteilung

zkrit = z1−α

Der einseitige Verwerfungsbereich ist das Inter-

vall [z1−α,∞)

Anteil: α

keine Ablehnung Ablehnung| [0 z1−α

Abbildung 11–5 Verwerfungsbereich (z–Test) bei

einseitiger Alternative µd > 0.


z ≥ z1−α

p–Wert (einseitig): p(z) = 1− Φ(z).

StatBio 322

Alternative H1 : µd < 0

Der kritische Wert ist

zkrit = −z1−α

Der einseitige Verwerfungsbereich ist das Inter-

vall (−∞,−z1−α]

Anteil: α

Ablehnung keine Ablehnung] |

−z1−α 0

Abbildung 11–6 Verwerfungsbereich (z–Test) bei

einseitiger Alternative µd < 0


z ≤ −z1−α

p–Wert (einseitig): p(z) = Φ(z) = 1− Φ(−z).

StatBio 323

Beim t–Test sind tn−1;1−α und −tn−1;1−α die

kritischen Werte zu den einseitigen Alternativen

H1 : µd > 0 bzw. H1 : µd < 0.

Bemerkung: Bei symmetrischen Verteilungen

(z. B. Normalverteilung, t–Verteilung) gilt allge-

mein:

p–Wert (zweiseitig) = 2 · p–Wert (einseitig)

Achtung! Ein einseitiger Test wird die Rich-

tigkeit einer Alternative eher entdecken als ein

zweiseitiger Test. Eine objektive Testentschei-

dung ist daher nur dann gewahrleistet, wenn

vorab festgelegt wird, ob einseitig oder zweisei-

tig getestet werden soll!

StatBio 324

Hinweis: Bei den einseitigen Testproblemen (B)

und (C) uberpruft man automatisch die Nullhy-

pothesen

H0 : µd ≤ 0

bzw.

H0 : µd ≥ 0

Fortsetzung von Bsp. 11.1: Es wird von vorn-

herein (also vor Stichprobenerhebung) vermutet,

dass sich die Diat positiv ausgewirkt hat. Daher

soll das einseitige Testproblem

H0 : µ1 = µ2, H1 : µ1 > µ2

betrachtet werden. Das Signifikanzniveau sei

α = 0.05.

StatBio 325

Die Prufgroße hat den konkreten Wert

t =4.8

3.882/√

10= 3.91

Wegen t9;0.950 = 1.833 und t = 3.91 > 1.833

kann H0 zum Niveau 0.05 abgelehnt werden.

Der p–Wert (einseitig) ist praktisch Null:

p(3.91) = 0

StatBio 326

Abbildung 11–7 Unter H0 (Mittelwertsdifferenz=0): t–

Verteilung mit df = 9, tkrit = t9;0.95 = 1.833; Fehler-

wahrscheinlichkeit 1. Art = 0.05 = graue Flache = Flache

oberhalb von 1.833

StatBio 327

11.2 Bemerkung: Es lassen sich auch Nullhy-

pothesen der Form

H0 : µ = µ0

uberprufen. Dabei ist µ0 ein hypothetischer

Populations–Mittelwert (vgl. Ubungsblatt 9). Ist

x1, . . . , xn

eine Stichprobe, so ist das studentisierte Stich-

probenmittelx− µ0

s/√n

(11.3)

eine geeignete Prufgroße. Dabei bezeichnet wie-

der x das Stichprobenmittel und s die Stichpro-

benstandardabweichung.

StatBio 328

Unter H0 ist die Prufgroße (11.3) annahernd

standardnormalverteilt, falls n ≥ 30 (Ein–Stichproben–z–Test).

Unter der Normalverteilungsannahme ist die

Prufgroße (11.3) t–verteilt mit n − 1 Freiheits-

graden (Ein–Stichproben–t–Test).

Die Ablehnungsbereiche sind die gleichen wie im

Fall einer gepaarten Stichprobe.

StatBio 329

11.2 Der z–Test (t–Test) fur unabhangigeStichproben

Gepruft (widerlegt) werden soll die Nullhypothe-

se: Gleichheit zweier Populationsmittelwerteµ1 und µ2. Das (zweiseitige) Testproblem lautet

H0 : µ1 = µ2 , H1 : µ1 6= µ2

Gegeben: Zwei unverbundene (ungepaarte)

Stichproben

Stichprobe von Stichprobe von

Grundgesamtheit 1 Grundgesamtheit 2

x11 x21x12 x22x13 x23

...

x1n1...

x2n2

StatBio 330

Im Fall der Varianzhomogenitat lautet die

Prufgroße

x1 − x2Standardfehler von x1 − x2

=x1 − x2

sgepoolt ·√n1+n2n1·n2

(11.4)

Dabei bezeichnet wieder

s2gepoolt =(n1 − 1) · s21 + (n2 − 1) · s22

n1 + n2 − 2

die gepoolte Varianz (vgl. Abschnitt 9.3) als

Schatzung fur σ2.

StatBio 331

(A) Fur hinreichend große Stichprobenumfange

(n1 ≥ 30, n2 ≥ 30) ist die Prufgroße

z =x1 − x2


nach dem zentralen Grenzwertsatz annahernd

N(0, 1)–verteilt (Zwei–Stichproben–z–Test).

(B) Unter der Normalverteilungsannahme ist die

Prufgroße

t =x1 − x2


t–verteilt mit n1+n2−2 Freiheitsgraden (Zwei–Stichproben–t–Test).

StatBio 332

Zu einem vorgegebenen Testniveau α wird die

Nullhypothese H0 = µ1 − µ2 = 0 bei zweiseiti-ger Alternative H1 : µ1 6= µ2 abgelehnt, falls

z ≤ −z1−α/2 oder z1−α/2 ≤ z

(z–Test) bzw. falls

t ≤ −tn1+n2−2;1−α/2

oder

tn1+n2−2;1−α/2 ≤ t(t–Test).

Bei der einseitigen Alternative H1 : µ1 > µ2

wird H0 abgelehnt, falls

z ≥ z1−α

(z–Test) bzw.

t ≥ tn1+n2−2;1−α

StatBio 333

(t–Test). Entsprechend wird bei der einseitigenAlternative H1 : µ1 < µ2 die Nullhypothese

abgelehnt, falls

z ≤ −z1−α

(z–Test) bzw.

t ≤ −tn1+n2−2;1−α

(t–Test).

Fortsetzung von Bsp. 9.3: Unterscheidet

sich die durchschnittliche Korpergroße mannli-

cher Studenten (µ1) von der durchschnittlichen

Korpergroße weiblicher Studenten (µ2) ? Gepruft

werden soll die Nullhypothese

H0 : µ1 = µ2

StatBio 334

gegen die zweiseitige Alternative

µ1 6= µ2

zum Testniveau α = 0.05. Die Korpergroßen

seien normalverteilt mit identischen Varianzen.

Es wurden die Korpergroßen von 39 mannlichen

und von 30 weiblichen Studenten gemessen. Es

ergaben sich die folgenden Werte (Stichprobe 1

= mannlich, Stichprobe 2 = weiblich):

x1 = 182.5, s1 = 6.7

x2 = 168.3, s2 = 5.2

sgepoolt =

√38 · 6.72 + 29 · 5.22

39 + 30− 2= 6.096

Die obigen Werte ergeben einen Prufgroßenwert

von

t =182.5− 168.3

6.096 ·√

39+3039·30

= 9.59

StatBio 335

Wegen t67;0.975 ≈ z0.975 = 1.960 und

t = 9.59 > 1.960

kann H0 abgelehnt werden.

Der p–Wert ist praktisch Null:

p(9.59) ≈ 0

Ungleiche Populations–Varianzen

Sind die Varianzen σ21 und σ2

2 der beiden (nor-

malverteilten) Grundgesamtheiten verschieden,

so muss die Prufgroße (11.4) etwas modifiziert

werden, da die gepoolte (Stichproben–)Varianz

als ein Schatzwert fur zwei ungleiche Varian-

zen keinen Sinn mehr macht und daher nicht

verwendet werden kann. Der geschatzte Stan-

StatBio 336

dardfehler von x1 − x2 ist√s21n1

+s22n2

(vgl. die Ausfuhrungen in Abschnitt 9.3) und die

(modifizierte) Prufgroße ist die studentisierte

Mittelwertdifferenz

x1 − x2√s21n1

+s22n2

(11.5)

Fur Stichprobenumfange n1 ≥ 30, n2 ≥ 30 ist

diese Prufgroße annahernd standardnormalver-

teilt.

Unter der Normalverteilungsannahme ist die

Prufgroße (11.5) naherungsweise t–verteilt, wo-

bei die Anzahl der Freiheitsgrade aus den Da-

ten heraus geschatzt werden muss (die genaue

StatBio 337

Verteilung ist unbekannt (Behrens–Fisher–Problem), vgl. Abschnitt 9.3). Dies ist dann

der sogenannte Welch–Test.

Statistische Softwarepakete berechnen den p–

Wert.

11.3 Fehler 1. Art und Fehler 2. Art

Bei einem Test sind zwei Arten von Fehlentschei-

dungen moglich:

Fehler 1. Art: Die Nullhypothese H0 wird ab-

gelehnt, obwohl sie richtig ist. Die Wahrschein-

lichkeit einen Fehler 1. Art zu begehen wird mit

α (alpha) bezeichnet.

Fehler 2. Art: Die Nullhypothese H0 wird nicht

abgelehnt, obwohl sie falsch ist. Die Wahrschein-

lichkeit einen Fehler 2. Art zu begehen wird mit

β (beta) bezeichnet.

StatBio 338

Wir

klic

hke

it

Tes

ten

tsch

eid

un

g

H0

ist

wah

rH

1is

tw

ahr

kein

eA

ble

hn

un

gri

chti

ge

En

t-fa

lsch

eE

nt-

vonH

0sc

hei

du

ng

mit

sch

eid

un

gm

itW

ahrs

.1−α

Wah

rs.β

Ab

leh

nu

ng

fals

che

En

t-ri

chti

ge

En

t-vo

nH

0sc

hei

du

ng

mit

sch

eid

un

gm

itm

itW

ahrs

.α

Wah

rs.

1−β

StatBio 339

Das Risiko einer Fehlentscheidung lasst sich

nicht ausschließen, aber in einem ganz bestimm-

ten Sinne begrenzen.

Es ist nun so, dass man die Fehler 1. Art und

2. Art nicht gleichzeitig kontrollieren kann. Die

Fehlerwahrscheinlichkeiten α und β lassen sich

nicht gleichzeitig minimieren. Eine Verkleine-

rung von α bedeutet eine Vergroßerung von β

(α ↓ β ↑) und umgekehrt (α ↑ β ↓).

Die Vorgehensweise ist nun die, dass man den

Fehler 1. Art (Entscheidung fur H1, obwohl H0

richtig ist) kontrolliert. Dies wird dadurch er-

reicht, indem man α klein wahlt, ublicherweise

fordert man α = 0.05 oder α = 0.01. Fur den p–

Wert bedeutet dies p ≤ 0.05 oder p ≤ 0.01. Die

Zahl α heißt Irrtumswahrscheinlichkeit oder

Signifikanzniveau.

StatBio 340

Interpretation (fur α = 0.05):

Berechnet man aus allen Stichproben (gleichen

Umfangs) die Prufgroßenwerte, so wird sich un-

ter der Annahme der Gultigkeit von H0

– in 5% aller Falle ein Widerspruch zu H0 ein-

stellen,

– in 95% der Falle nicht.

Die Forderung, den Fehler 1. Art zu kontrollieren,

hat eine wichtige Konsequenz hinsichtlich der

Hypothesen H0 und H1:

Durch die Wahl einer kleinen Zahl α wird eine

richtige Nullhypothese H0 nur mit einer geringen

Fehlerwahrscheinlichkeit abgelehnt. Mat hat also

ein gewisses Vertrauen in diese Entscheidung.

StatBio 341

Dagegen kann man kein Vertrauen haben in

die Entscheidung H0 zu akzeptieren, wenn die

Fehlerwahrscheinlichkeit β nicht kontrollierbar

ist.

Die Ablehnung der Nullhypothese ist dieeinzige Entscheidung, die mit einer gerin-gen Fehlerwahrscheinlichkeit getroffen wer-den kann. (Deshalb wird man immer das in die

Nullhypothese stecken, was man widerlegt haben

mochte!)

StatBio 342

Zusammenfassung:

Fehler 1. Art (Type I error), α–Fehler

• Die Nullhypothese wird falschlicherweise ab-

gelehnt.

• Die Wahrscheinlichkeit fur einen Fehler 1. Art

wird im Voraus (d. h. vor Testdurchfuhrung)

durch eine kleine Zahl α (alpha) festgelegt.

• α wird nicht durch den Stichprobenumfang

beeinflusst.

StatBio 343

Fehler 2. Art (Type II error), β–Fehler

• Die Nullhypothese wird falschlicherweise nicht

abgelehnt.

• Die Wahrscheinlichkeit fur einen Fehler 2. Art

wird mit β (beta) bezeichnet.

• β hangt vom Stichprobenumfang und α ab.

Mit großerem Stichprobenumfang wird β klei-

ner (n ↑ β ↓, in diesem Sinne lasst sich β

kontrollieren).

• β ist fur einseitige und zweiseitige Alternati-

ven verschieden.

• β kann nur dann bestimmt werden, wenn die

wahre Alternative, also der wahre Effekt bzw.

Unterschied, bekannt ist oder hypothetisch

festgelegt wird.

StatBio 344

Fortsetzung von Bsp. 11.1:

Frage: Wie groß ist β, falls tatsachlich

µ1 − µ2 = 2

ist? Also: Wie groß ist die Wahrscheinlichkeit,

unter der Gultigkeit der Alternative µ1−µ2 =

2 einen t–Wert zu beobachten, der kleiner als

1.833 ist?

Antwort: β = 0.42...

StatBio 345

Abbildung 11–8 Bild oben: Unter H0 (Mittelwertdiffe-

renz=0): t–Verteilung mit df = 9, tkrit = t9;0.95 = 1.833;

Fehlerwahrscheinlichkeit 1. Art = 0.05 = graue Flache

= Flache oberhalb von 1.833; Bild unten: Alternative:

t–Verteilung mit df = 9 um 2 nach rechts verschoben

(Mittelwertdifferenz=2), Fehlerwahrscheinlichkeit 2. Art

β = graue Flache = Flache unterhalb von 1.833 ≈ 0.42.

StatBio 346

Die Zahl

1− Fehlerwahrscheinlichkeit 2. Art = 1−β

heißt Power, man sagt auch

Macht, Gute, Trennscharfe

des Tests.

Dies ist die Wahrscheinlichkeit der Ablehnung

von H0, wenn H1 richtig ist. Diese sollte

naturlich moglichst groß sein, da die Entdeckung

einer richtigen Alternative der eigentliche Zweck

des Hypothesentestens ist. In den meisten prak-

tischen Fragestellungen bleibt der Fehler 2. Art

jedoch unberucksichtigt (man spricht dann von

Signifikanztests).

StatBio 347

11.4 Typische Fehler im Umgang mit stati-stischen Tests

1. Eine Hypothese kann aufgrund eines sta-

tistischen Tests weder (logisch) ,,widerlegt”

noch ,,bewiesen” werden. Zufallsbehaftete Da-

ten konnen mit verschiedenen parametrischen

Modellen ,,in Einklang stehen”! Liegt der beob-

achtete Prufgroßenwert nicht im kritischen Be-

reich, so sagt man dazu, dass die Daten (Beob-

achtungen) nicht im Widerspruch zu H0 stehen.

Man spricht immer nur vom Ablehnen, Ver-

werfen oder Nichtablehnen, Nichtverwerfen der

Nullhypothese. Ein Nichtverwerfen der Null-hypothese bedeutet nicht unbedingt, dasssie zutrifft, sondern nur, dass sie nichtgenugend unplausibel ist, um verworfen zuwerden!

StatBio 348

2. Es ist ferner vom Grundprinzip statistischer

Tests her unzulassig, eine Hypothese, die durch

,,Sichtung” der Daten gewonnen wurde, an-

hand derselben Daten zu testen. Dem Test

bleibt nichts anderes ubrig, als dem Wunsch

des ,,Hypothesen–Formulierers” entsprechend zu

antworten. Es ist vollig legitim, aufgrund von Da-

ten Hypothesen zu formulieren, zu generieren.

Nur: Wer erst aufgrund eines Datensatzeszu einer Hypothese kommt, braucht neueDaten, um diese Hypothese zu bestatigen!

3. Ergibt ein Test zur Irrtumswahrscheinlichkeit

α die Ablehnung von H0, so ist eine Formulie-

rung wie ,,Die Wahrscheinlichkeit ist hochstens

α, dass aufgrund des Testergebnisses die Hy-

pothese H0 zutrifft” sinnlos. Denn die Zahl α

gibt nicht an, mit welcher Wahrscheinlichkeit ei-

ne aufgrund von Daten getroffene Entscheidung

falsch ist. Die Wahrscheinlichkeit α charakteri-

StatBio 349

siert nur in dem Sinne das Testverfahren, dass

bei Unterstellung der Gultigkeit von H0 die

Wahrscheinlichkeit fur eine Ablehnung von H0

hochstens α ist, d. h. in vielen Testdurchfuhrun-

gen wird es (unter der Gultigkeit von H0) in

etwa α · 100% der Falle zu einer Ablehnung von

H0 kommen. In jedem dieser Falle wurde mit

Sicherheit eine falsche Entscheidung getroffen.

Aber: Diese ,,Sicherheit” war nur vorhanden,

weil a priori die Gultigkeit von H0 in al-len Testdurchfuhrungen unterstellt wurde!!!In gleicher Weise wird sich bei Unterstellung

der Gultigkeit der Alternative H1 ein gewisser

Prozentsatz von signifikanten Ergebnissen, also

Ablehnungen von H0, einstellen. Hier hat man

in jedem dieser Falle eine richtige Entscheidung

getroffen, weil die Gultigkeit von H1 a priori

unterstellt wurde. Im Allgemeinen besitzt man

jedoch keinerlei Information daruber, ob bei der

Testdurchfuhrung H0 oder H1 zutrifft (sonst

StatBio 350

konnte man sich das Testen ersparen)!

Entsprechendes gilt fur den p–Wert. Zur Erin-

nerung: Der p–Wert hangt vom Prufgroßenwert

und damit von den Daten ab. Ist wie in Bsp.11.1 p(3.91) = 0.001, so sind Aussagen der

Form ,,die Nullhypothese hat die Wahrschein-

lichkeit 0.035” bzw. ,,die Nullhypothese ist mit

Wahrscheinlichkeit 0.001 richtig” falsch. Model-

le haben selbst keine Wahrscheinlichkeiten, sie

legen Wahrscheinlichkeiten fur Beobachtungen

und Teststatistiken fest!

StatBio 351

Appendix A: Uberprufung der Annahmen

Fur große Stichprobenumfange ist der t–

Test robust (unempfindlich) gegenuber Abwei-

chungen der Normalverteilung: Dies bedeutet:

Die Fehlerwahrscheinlichkeiten α und β blei-

ben nahezu unverandert. Fur kleine Stichpro-

benumfange muss im Allgemeinen die Normal-

verteilungsannahme gepruft werden. Histogram-

me geben einen ersten Hinweis, sind aber zur

Prufung nicht geeignet.

Ein geeigneteres Instrument der graphischen

Uberprufung auf Normalverteilung ist der sogen-

ante Quantil–Quantil–Plot, kurz QQ–Plot. Er

vergleicht die Quantile der empirischen Vertei-

lung mit den entsprechenden Quantilen der Nor-

malverteilung. Zeigt dieser einen linearen Verlauf

(Gerade), so deutet dies auf normalverteilte Da-

ten hin.

StatBio 352

Die Interpretation von QQ–Plots erfordert je-

doch einige Erfahrungen.

Auf Normalitat kann auch (statistisch) getestet

werden. Geeignete Tests sind z. B. der

• Shapiro–Wilk–Test und der

• Kolmogorov–Smirnov–Test, korrigiert nach

Lilliefors.

Achtung! Klassische Tests wie der Chi–

Quadrat–Anpassungstest und der (nicht–

korrigierte) Kolmogorov–Smirnov–Test sind un-

geeignet!!!

StatBio 353

Prufung der Varianzhomogenitat bei un-

abhangigen Stichproben:

• Levene–Test (p–Wert groß, etwa p > 0.05,

Daten sprechen nicht gegen die Varianzhomo-

genitat).

Achtung! Der sogenannte F–Test zur Uber-

prufung der Varianzhomogenitat sollte nicht ver-

wendet werden.

Appendix B: t–Test mit SPSS

Fortsetzung von Aufgabe 4, Blatt 7

Dateneingabe: Sie erfolgt im Daten–Editor–

Fenster nach folgendem Muster:

StatBio 354

Befehle: Folgende Befehle sind aus der Menulei-

ste auszuwahlen:

Analysieren

Mittelwerte vergleichen

T–Test fur unabhangige Stichproben

StatBio 355

Programm–Output:

0.95–Konfidenzintervalle werden automatisch

mitgeliefert. Da der Levene–Test den p–Wert

0.911 liefert, sprechen die Daten nicht gegen die

Annahme der Varianzhomogenitat.

StatBio 356

Documents

Sei X ;X ein Merkmalspaar und - uni-wuerzburg.de · ne der Nullhypothese plausibel oder unplausibel ist StatBio 292. Zun achst: In Kap. 10 wurde gesagt, dass H 0 zu verwerfen ist,