Sei X ;X ein Merkmalspaar und - uni-wuerzburg.de · 11 Tests zur Uberpr ufung von Mittelwerts-unterschieden 11.1 Der z{Test (t{Test) f ur verbundene Stichproben 11.2 Der z{Test (t{Test)

11 Tests zur Uberprufung von Mittelwerts-unterschieden

11.1 Der z–Test (t–Test) fur verbundene Stichproben

11.2 Der z–Test (t–Test) fur unabhangige Stichproben

11.3 Fehler 1. Art und 2. Art

11.4 Typische Fehler im Umgang mit statistischen Tests

Appendix A: Uberprufung der Annahmen beim t–Test

Appendix B: t–Test mit SPSS

11.1 Der z–Test (t–Test) fur verbundeneStichproben

Sei (X1, X2) ein Merkmalspaar und

(x11, x21), . . . , (x1n, x2n)

eine verbundene (gepaarte) Stichprobe vom

Umfang n.

StatSoz 290

Bezeichnen wieder

di = x1i − x2i, i = 1, . . . , n

die Paardifferenzen. Es wird angenommen, dass

d1, . . . , dn als einfache Stichprobe angesehen

werden kann.

Uberpruft wird die Nullhypothese

H0 : µ1 = µ2

(kein Mittelwertsunterschied), also

H0 : µd = 0

mit µd = µ1 − µ2 (Populationsmittelwert der

Paardifferenzen ist Null).

StatSoz 291

Die Alternative ist

H1 : µ1 6= µ2

anders geschrieben

H1 : µd 6= 0

Eine naheliegende Prufgroße ware die Differenz

d− µd =1

n

n∑i=1

di − µd

Um die Bedeutsamkeit dieser Differenz beur-

teilen zu konnen, wird sie in Relation zur

(geschatzten) Streuung von d um µd gesetzt.

Als Prufgroße wahlt man somit

d− µdsd/√n

(11.1)

StatSoz 292

Im Nenner steht der geschatzte Standardfehler

von d (ESEM), wobei

sd =

√√√√ 1

n− 1

n∑i=1

(di − d)2

wieder die Standardabweichung der Paardifferen-

zen d1, . . . , dn bezeichnet.

Unter (der Gultigkeitsannahme von) H0 : µd =

0 reduziert sich die Prufgroße (11.1) zu

d

sd/√n

(11.2)

Plausibel: Unter H0 wird ein Prufgroßenwert

,,in der Nahe” von Null erwartet. Ist daher die

Abweichung des Prufgroßenwertes von der Null

,,zu groß”, so wird die Gultigkeit der Nullhypo-

these in Zweifel gezogen.

StatSoz 293

Was heißt ,,in der Nahe” von Null? Oder anders

gefragt: Ab wann gilt eine Abweichung als ,,zu

groß”?

Diese Fragen werden im Rahmen zweier zum

gleichen Ziel fuhrender Verfahren beantwortet:

(1) Klassisches Testverfahren

(2) p–Wert–Methode

Beide Verfahren beurteilen mittels Wahrschein-

lichkeiten, ob der Prufgroßenwert (11.2) im Sin-

ne der Nullhypothese plausibel oder unplausibel

ist

StatSoz 294

Zunachst: In Kap. 10 wurde gesagt, dass H0

zu verwerfen ist, falls etwas beobachtet wurde,

also ein Ereignis eingetreten ist, das unter H0

nur mit einer kleinen Wahrscheinlichkeit hatte

eintreten durfen. Um Wahrscheinlichkeiten zu

bestimmen, muss man die Stichprobenverteilung

der Prufgroßed

sd/√n

unter H0 kennen.

StatSoz 295

(A) Fur hinreichend große Stichprobenumfange

(n ≥ 30) ist die Prufgroße

z =d

sd/√n

nach dem zentralen Grenzwertsatz annahernd

N(0, 1)–verteilt (z–Test fur gepaarte Stich-proben).

(B) Unter der Normalverteilungsannahme ist die

Prufgroße

t =d

sd/√n

t–verteilt mit n−1 Freiheitsgraden (t–Test furgepaarte Stichproben).

StatSoz 296

(1) Das klassische Testverfahren

Anmerkung: Die folgenden Ausfuhrungen beziehen sich

(zunachst) auf den z–Test. Sie gelten vollig analog fur den

t–Test.

Das klassische Testverfahren gibt einen kriti-schen Wert zkrit > 0 an, so dass ,,in der Nahe”

von Null einen Prufgroßenwert z meint, der im

Intervall

(−zkrit, zkrit)liegt, fur den also

−zkrit < z < zkrit

gilt. Ein Prufgroßenwert z außerhalb dieses Be-

reiches, fur den also

z ≤ −zkrit oder zkrit ≤ z

gilt, wird unter H0 als unplausibel angesehen.

StatSoz 297

Veranschaulichung auf dem Zahlenstrahl:

z–Wert z–Wert

zu klein zu groß] | [

−zkrit 0 zkrit

Testentscheidung: Ablehnung von H0, falls z

im Ablehnungsbereich (Verwerfungsbereich),

bestehend aus den beiden Intervallen

(−∞,−zkrit] und [zkrit,∞)

liegt (man spricht auch vom kritischen Be-reich). Keine Ablehnung von H0, falls z im

Nichtablehnungsbereich

(−zkrit, zkrit)

liegt.

Frage: Wie ist der kritische Wert zkrit festzule-

gen?

StatSoz 298

Dieser ist durch die Vorgabe einer kleinen Wahr-

scheinlichkeit α festgelegt, etwa α = 0.05 (α

heißt Testniveau, Signifikanzniveau oder Irr-tumswahrscheinlichkeit).

Man wird zkrit so festlegen, dass Folgendes gilt:

Der erwartete Anteil von Prufgroßenwerten z,

die im Ablehnungsbereich liegen, also die Wahr-

scheinlichkeit, einen Prufgroßenwert z mit

z ≤ −zkrit oder zkrit ≤ z

zu beobachten, soll unter der Gultigkeitsan-nahme von H0 (hochstens) mit Wahrschein-

lichkeit 0.05 auftreten.

z ≤ −zkrit −zkrit < z < zkrit zkrit ≤ zmit W. 0.025 mit W. 0.95 mit W. 0.025

] | [

−zkrit 0 zkrit

StatSoz 299

Die Wahrscheinlichkeit, unter H0 einen

Prufgroßenwert z im Nichtablehnungsbereich

(−zkrit, zkrit)

zu beobachten, ist

Φ(zkrit)− Φ(−zkrit) = 2 · Φ(zkrit)− 1

Denn: Unter H0 ist die Stichprobenverteilung

von z annahernd eine N(0, 1)–Verteilung (falls

n ≥ 30).

Somit bestimmt sich zkrit aus der Gleichung

2 · Φ(zkrit)− 1 = 0.95

D. h.

Φ(zkrit) =1.95

2= 0.975

Damit ist zkrit das 0.975–Quantil der Standard-

normalverteilung, also z0.975 = 1.96.

StatSoz 300

Fazit: Unter H0 fuhren nur 5% aller Stichproben

(gleichen Umfangs) zu einem Prufgroßenwert z

mit z ≤ −1.96 oder z ≥ 1.96.

Ist das Ereignis

z ≤ −1.96 oder z ≥ 1.96

eingetreten, so bedeutet dies, dass

– entweder ein seltener z–Wert beobachtet

wurde (mit einer Wahrscheinlichkeit von

hochstens 0.05) oder

– dass die Nullhypothese H0 inkorrekt ist.

Plausibler ist die Entscheidung, dass H0 falsch

ist. Damit lautet die Testentscheidung:

StatSoz 301

• Ist z ≤ −1.96 oder z ≥ 1.96, so wird H0 zum

Signifikanzniveau 5% abgelehnt. Man spricht

von einem signifikanten Testresultat.

• Ist −1.96 < z < 1.96, so wird H0 zum Signi-

fikanzniveau 5% nicht abgelehnt. Man spricht

von einem nichtsignifikanten Testresultat.

Anteil: 0.05/2 keine Anteil: 0.05/2

Ablehnung Ablehnung Ablehnung] | [

−1.96 0 1.96

Abbildung 11–1 Verwerfungsbereich (z–Test) zum

Testniveau 0.05 zur Alternative µd 6= 0

StatSoz 302

Nur in 5% aller Falle kommt es unter der Gultig-

keitsannahme von H0 zu einer Fehlentscheidung

(Entscheidung fur H1). Die Wahrscheinlichkeit

eines Fehlers 1. Art (Entscheidung fur H1 ob-

wohl H0 richtig ist) betragt hochstens 5%. Mehr

zum Fehler 1. Art in Abschnitt 11.3.

t–Test

Der t–Test unterstellt die Normalverteilung der

Paardifferenzen. In diesem Fall ist die Prufgroße

t =d

sd/√n

unter H0 t–verteilt mit n − 1 Freiheitsgra-

den (Abschnitt 8.3). Der kritische Wert zum

5%–Testniveau ist das 0.975–Quantil der t–

Verteilung mit n− 1 Freiheitsgraden.

Bezeichnungsweise: tn−1;0.975

StatSoz 303

Der Verwerfungsbereich zum 5%–Testniveau be-

steht aus den beiden Intervallen

(−∞,−tn−1;0.975] und [tn−1;0.975,∞)

Anteil: 0.025 keine Anteil: 0.025

Ablehnung Ablehnung Ablehnung] | [

−tn−1;0.975 0 tn−1;0.975

Abbildung 11–2 Verwerfungsbereich (t–Test) zum

5%–Niveau zur Alternative µd 6= 0

Testentscheidung: Ablehnung von H0, falls

t ≤ −tn−1;0.975 oder tn−1;0.975 ≤ t

StatSoz 304

Allgemein: Testet man zum Niveau α, so ist

der kritische Wert das

(1− α/2)–Quantil

Beim z–Test ist es das (1 − α/2)–Quantil der

Standard–Normalverteilung. Bezeichnungsweise:

z1−α/2.

Beim t–Test ist es das (1 − α/2)–Quantil der

t–Verteilung mit n− 1 Freiheitsgraden. Bezeich-

nungsweise: tn−1;1−α/2.

Ausgewahlte (1 − α)–Quantile der N(0, 1)–

Verteilung und der t–Verteilung finden sich in

Tab. 11–1.

In der Praxis sind die Werte α = 0.01, α = 0.05

und α = 0.1 gebrauchlich.

StatSoz 305

11.1 Beispiel: Man mochte wissen, wie sich

ein neu eingefuhrter Kurs auf das Leistungs-

vermogen von Hauptschuler mit Migrationshin-

tergrund auswirkt. Dazu wurde die Zeit uber-

pruft, die 10 Hauptschulern mit Migrationshin-

tergrund benotigen, um eine bestimmte Anzahl

von Aufgaben zu losen. Am Ende des Kurses

wurden diese 10 Schuler einem ahnlichen Test

unterzogen und die Zeiten notiert. Hat sich die

durchschnittliche Bearbeitungszeit (bezogen auf

die Grundgesamtheit aller Hauptschuler mit Mi-

grationshintergrund) geandert?

Nullhypothese: Die durchschnittliche Bearbei-

tungszeit vorher (µ1) ist gleich der durchschnitt-

lichen Bearbeitungszeit nachher (µ2); H0 : µd =

0.

Alternative H1: Die durchschnittlichen Bearbei-

tungszeiten unterscheiden sich H1 : µd 6= 0.

StatSoz 306

Kann H0 zum Signifikanzniveau α = 0.05 abge-

lehnt werden? Unterstellt wird, dass die Annah-

me normalverteilter Paardifferenzen gerechtfer-

tigt ist.

Der kritische Wert ist das (1−α/2)–Quantil der

t–Verteilung mit n − 1 Freiheitsgraden. Hier ist

n = 10, α = 0.05 und man erhalt

tkrit = tn−1;1−α/2 = t9;0.975 = 2.262

siehe Tab. 11–1. Damit lautet der Annahmebe-

reich

(−2.262, 2.262)

StatSoz 307

Abbildung 11–3 t–Verteilung mit df = 9; Flache

unterhalb von −2.262 und oberhalb von 2.262 ist 0.05

(graue Flache)

Bei der Erhebung ergaben sich die folgenden

Daten:

StatSoz 308

Schuler Zeit Zeit DifferenzNr. vorher nachher vorher - nachher1 11 9 22 23 21 23 17 13 44 14 16 –25 16 13 36 21 17 47 9 10 –18 18 15 39 26 21 5

10 19 20 –1Stichproben–

mittel 17.40 (x1) 15.50 (x2) 1.90 (d)Standard–

abweichung 5.23 (s1) 4.37 (s2) 2.42 (sd)

Die Prufgroße t hat den konkreten Wert

t =1.9

2.42/√

10= 2.48

Wegen t = 2.48 > 2.262 kann H0 zum Signifi-

kanzniveau α = 0.05 abgelehnt werden.

StatSoz 309

Ware ein Signifikanzniveau von α = 0.01 vor-

gegeben worden, so lautet nach Tab. 11–1 der

kritische Wert

tkrit = tn−1;1−α/2 = t9;0.995 = 3.250

(1− α/2 = 1− 0.01/2 = 0.995).

Der Annahmebereich ist somit

(−3.250, 3.250)

Der beobachtete Prufgroßenwert t = 2.48 liegt

im Annahmebereich, d. h. H0 kann zum Signi-

fikanzniveau α = 0.01 nicht abgelehnt werden.

Dieses Beispiel macht folgendes deutlich: DasSignifikanzniveau ist vor Durchfuhrung desTests festzulegen!!!

StatSoz 310

Tabelle 11–1 (1 − α)–Quantile der t–Verteilung tdf ;1−αfur df = 1, . . . , 30 und α = 0.1, 0.05, 0.025, 0.01, 0.005(in der letzten Zeile sind die entsprechenden Quantile z1−αder Standard–Normalverteilung)

1− αdf 0.90 0.95 0.975 0.99 0.9951 3.078 6.314 12.706 31.821 63.6572 1.886 2.920 4.303 6.965 9.9253 1.638 2.353 3.182 4.541 5.8414 1.533 2.132 2.776 3.747 4.6045 1.476 2.015 2.571 3.365 4.032

6 1.440 1.943 2.447 3.143 3.7077 1.415 1.895 2.365 2.998 3.4998 1.397 1.860 2.306 2.896 3.3559 1.383 1.833 2.262 2.812 3.250

10 1.372 1.812 2.228 2.764 3.169

11 1.363 1.796 2.201 2.718 3.10612 1.356 1.782 2.179 2.681 3.05513 1.350 1.771 2.160 2.650 3.01214 1.345 1.761 2.145 2.624 2.97715 1.341 1.753 2.131 2.602 2.947

Fortsetzung nachste Seite!

StatSoz 311

1− αdf 0.90 0.95 0.975 0.99 0.99516 1.337 1.746 2.120 2.583 2.92117 1.333 1.740 2.110 2.567 2.89818 1.330 1.734 2.101 2.552 2.87819 1.328 1.729 2.093 2.539 2.86120 1.325 1.725 2.086 2.528 2.845

21 1.323 1.721 2.080 2.518 2.83122 1.321 1.717 2.074 2.508 2.81923 1.319 1.714 2.069 2.500 2.80724 1.318 1.711 2.064 2.492 2.79725 1.316 1.708 2.060 2.485 2.787

26 1.315 1.706 2.056 2.479 2.77927 1.314 1.703 2.052 2.473 2.77128 1.313 1.701 2.048 2.467 2.76329 1.311 1.699 2.045 2.462 2.75630 1.310 1.697 2.042 2.457 2.750

∞ 1.282 1.645 1.960 2.326 2.576

StatSoz 312

(2) Die p–Wert–Methode

Die Frage, ob die Daten mit der Nullhypothese

vertraglich sind, wird mit der klassischen Testme-

thode grob mit ,,ja” oder ,,nein” beantwortet.

,,Grob” deswegen, weil, wie Bsp. 11.1 zeigt,

auch ein kleinerer Wert als t = 2.48, etwa 2.34,

zu einer Ablehnung von H0 gefuhrt hatte (zum

Signifikanzniveau α = 0.05). Zur Erinnerung:

Das Signifikanzniveau α = 0.05 fuhrt zum Nicht-

ablehnungsbereich

(−2.262, 2.262)

Selbst wenn die Stichprobe zu einem Prufgroßen-

wert von t = 2.262 gefuhrt hatte, ware H0 (ge-

rade noch) zum 5%–Niveau abgelehnt worden.

Intuitiv hat man aber bei einem Wert von 2.48

ein großeres Vertrauen in die Testentscheidung

H0 abzulehnen. Es ware also informativer, ein

StatSoz 313

feineres Maß fur die Vertraglichkeit von Daten

und Nullhypothese anzugeben.

Statt von einem festen Signifikanzniveau aus-

zugehen, z. B. α = 0.05 oder α = 0.01,

und daraufhin einen kritischen Wert fur die

Prufgroße zu bestimmen, geht die p–Wert–Methode vom konkret beobachteten Wert ei-

ner Prufgroße aus, in Bsp. 11.1 t = 2.48. Die

wahrscheinlichkeitstheoretische Beurteilung, ob

der Prufgroßenwert 2.48 im Sinne der Nullhypo-

these extrem oder selten ist, erfolgt nicht uber

den Umweg kritischer Werte sondern direkt. Die

p–Wert–Methode fragt nach der Wahrscheinlich-

keit, einen Prufgroßenwert t zu beobachten, der

im Sinne der Nullhypothese noch extremer, noch

seltener als 2.48 ist.

Diese Wahrscheinlichkeit, unter H0 einen Pruf-

großenwert t mit

t ≤ −2.48 oder 2.48 ≤ t

StatSoz 314

zu beobachten ist der p–Wert. Dieser wird

in Abhangigkeit vom konkreten Prufgroßenwert

2.48 mit p(2.48) bezeichnet. Der p–Wert be-

tragt1

p(2.48) = 0.035

Abbildung 11–4 t–Verteilung mit df = 9 und

p–Wert = 0.035 (graue Flache) zu Bsp. 11.1

1Der p–Wert wird mittels statistischer Software, also mittels Com-

puter, berechnet.

StatSoz 315

Hatte man bei der klassischen Testmethode ein

Signifikanzniveau von 3.5% vorgegeben, dann

ware der kritische Wert

tkrit = t9;1−0.035/2 = t9;0.9825 = 2.48

und der Ablehnungsbereich

(−∞,−2.48] und [2.48,∞)

Mit anderen Worten: Der p–Wert 0.035 ist das

kleinste Signifikanzniveau, welches bei einem

Prufgroßenwert von t = 2.48 noch zu einer Ab-

lehnung von H0 fuhrt. (Die Wahl eines kleine-

ren Signifikanzniveaus als 0.035 fuhrt zu einem

Ablehnungsbereich, der den Prufgroßenwert von

2.48 nicht mehr enthalt).

Tatsachlich ware man also bereit gewesen, zu ei-

nem kleineren Signifikanzniveau als 5%, namlich

zum 3.5%–Niveau, H0 abzulehnen. Man hat also

StatSoz 316

ein großeres Vertrauen in die Entscheidung, H0

abzulehnen.

Testentscheidung aufgrund des p–Wertes

Ein kleiner Wert p(t) bedeutet entweder, dass die

Nullhypothese richtig ist und ein seltener t–Wert

beobachtet wurde oder dass die Nullhypothese

falsch ist. Deshalb sprechen kleine p–Wertegegen die Nullhypothese. Wie klein muss aber

der p–Wert sein, damit genugend Evidenz gegen

H0 vorliegt?

• Seit etwa 75 Jahren wird nach R. A. Fisher

(1890–1962) ublicherweise eine Nullhypothese

als unannehmbar betrachtet, falls fur den p–

Wert eines statistischen Tests gilt

p–Wert ≤ c mit 0.01 ≤ c ≤ 0.05

Man spricht von einem signifikanten Testre-

sultat.

StatSoz 317

• Andererseits herrscht im Allgemeinen Uber-

einstimmung daruber, dass zum Beispiel ein

p–Wert von 0.35 kaum ein Indiz gegen die

Nullhypothese sein kann. Man spricht von ei-

nem nichtsignifikanten Testresultat.

Wird H0 zu einem p–Wert abgelehnt, so bedeu-

tet dies, dass man eine Fehlerwahrscheinlichkeit

1. Art in Hohe des p–Wertes akzeptiert. Der

p–Wert wird auch exaktes oder tatsachlichesSignifikanzniveau genannt.

Hinweis: Die p–Wert–Methode beinhaltet das

klassische Testen. Lautet (vor Durchfuhrung des

Tests!) die Entscheidungsvorschrift, die Nullhy-

pothese ist abzulehnen, falls

p –Wert ≤ 0.05

so ist dies gleichbedeutend mit einem klassischen

Testverfahren zu (vorgegebenem) Signifikanzni-

StatSoz 318

veau α = 0.05. In beiden Fallen gelangt man zur

gleichen Testentscheidung!

Zusammenfassend lasst sich feststellen:

Der p–Wert ist ein Maß fur dieGlaubwurdigkeit einer Nullhypothese.

Besser:

Der p–Wert ist ein Maß fur die Ver-traglichkeit von Daten und Nullhypo-these.

Beim z–Test lasst sich der p–Wert aus Tabellen

ablesen. Bei einem Prufgroßenwert z ist der p–

Wert

p(z) =

{2 · (1− Φ(z)), z ≥ 0

2 · Φ(z) = 2 · (1− Φ(−z)), z < 0

StatSoz 319

Statistische Signifikanz und praktische Re-levanz

In Bsp. 11.1 konnte die Nullhypothese zum 5%

Niveau verworfen werden. Man entscheidet sich

fur die Alternative, dass die zwei Populationen

statistisch signifikante, unterschiedliche Mittel-

werte haben. Es stellt sich die Frage, ob dieser

Unterschied auch von praktischer Bedeutung ist.

Zur Beantwortung dieser Frage sind Konfidenz-intervalle hilfreich. Die Differenz der Stichpro-

benmittel ist

x1 − x2 = 17.40− 15.50 = 1.90

und die Grenzen eines 95%–Konfidenzintervalls

fur µd = µ1 − µ2 sind gegeben durch

StatSoz 320

x1 − x2 ± t9;0.975 ·sd√n

= 1.90± 2.262 · 2.42√10

= 1.90± 1.73

Inwieweit die Unterschiedswerte im Konfidenzin-

tervall

(0.17, 3.63)

als wesentlich beurteilt werden, hangt ausschließ-

lich von sachlogischen Argumenten ab. Ware

beispielsweise ein Unterschied erst ab 5 Minuten

Bearbeitungszeit interessant, so ist das Resul-

tat signifikant, aber nicht relevant. Zwischen

(praktischer) Relevanz und (statistischer) Sig-nifikanz ist daher genau zu unterscheiden.

StatSoz 321

Zusammenhang zwischen Test und Konfi-denzintervall

Ferner fallt auf, dass die 0 nicht im Konfidenz-

intervall liegt. In der Tat gilt: Die Nullhypothese

H0 : µd = 0 wird genau dann zum Signifikanz-

niveau 5% verworfen, wenn die 0 nicht im 95%

Konfidenzintervall fur µd liegt.

Generell lasst sich Folgendes sagen: Wenn

man einen beliebigen Wert aus dem 0.95–

Konfidenzintervall (0.17, 3.63) nimmt, dieser sei

mit δ bezeichnet, dann wurde der t–Test die

Nullhypothese

H0 : µd = δ

zum Signifikanzniveau 0.05 nicht ablehnen. Die

Prufgroße lautet in diesem Fall

t =d− δsd/√n

StatSoz 322

Achtung! Annahmebereich und Konfidenzinter-

vall nicht verwechseln:

• Annahmebereich: festes, kein zufalliges In-

tervall, abhangig vom Testniveau α. Der An-

nahmebereich enthalt den Wert einer Teststa-

tistik mit Wahrscheinlichkeit 1 − α, falls die

Nullhypothese richtig ist.

• Konfidenzintervall: zufalliges, d.h. von den

Daten abhangiges Intervall. Es enthalt den

wahren (aber unbekannten) Parameterwert

mit einer vorgegebenen Vertrauenswahr-

scheinlichkeit 1− α.

StatSoz 323

Einseitige und zweiseitige Alternativen

Grundsatzlich unterscheidet man einseitige und

zweiseitige Testprobleme. In der Praxis werden

die folgenden Testprobleme betrachtet:

(A) H0 : µ1 = µ2, H1 : µ1 6= µ2 (µd 6= 0)

(B) H0 : µ1 = µ2, H1 : µ1 > µ2 (µd > 0)

(C) H0 : µ1 = µ2, H1 : µ1 < µ2 (µd < 0)

Das Testproblem (A) nennt man zweiseitig(two–sided) oder ungerichtet (nondirectional),

da die Alternative nicht spezifiziert, ob µ1

großer als µ2 oder µ1 kleiner als µ2 ist, oder

anders formuliert, in welche Richtung

µd = µ1 − µ2

von Null abweichen soll (großer oder kleiner).

StatSoz 324

Die Testprobleme (B) und (C) nennt man ein-seitig oder gerichtet, da die Alternative jetzt

spezifiziert, in welche Richtung µ1 von µ2 abwei-

chen soll (nur großer wie in (B) bzw. nur kleiner

wie in (C)). Welches Testproblem zu wahlen ist,

hangt von der konkreten Fragestellung ab. Man

wird immer einseitig testen, wenn man sicher

ist, dass µd nur in eine Richtung von der Null

abweichen kann (nur großer oder nur kleiner).

Einseitige Testpobleme verwenden wie im zwei-

seitigen Fall die Prufgroße (11.2):

d

sd/√n

Fur den einseitigen z–Test zum Niveau α gilt

Folgendes:

StatSoz 325

Alternative H1 : µd > 0

Der kritische Wert ist das (1 − α)–Quantil der

Standard–Normalverteilung

zkrit = z1−α

Der einseitige Verwerfungsbereich ist das Inter-

vall [z1−α,∞)

Anteil: α

keine Ablehnung Ablehnung| [0 z1−α

Abbildung 11–5 Verwerfungsbereich (z–Test) bei

einseitiger Alternative µd > 0.


z ≥ z1−α

p–Wert (einseitig): p(z) = 1− Φ(z).

StatSoz 326

Alternative H1 : µd < 0

Der kritische Wert ist

zkrit = −z1−α

Der einseitige Verwerfungsbereich ist das Inter-

vall (−∞,−z1−α]

Anteil: α

Ablehnung keine Ablehnung] |

−z1−α 0

Abbildung 11–6 Verwerfungsbereich (z–Test) bei

einseitiger Alternative µd < 0


z ≤ −z1−α

p–Wert (einseitig): p(z) = Φ(z) = 1− Φ(−z).

StatSoz 327

Beim t–Test sind tn−1;1−α und −tn−1;1−α die

kritischen Werte zu den einseitigen Alternativen

H1 : µd > 0 bzw. H1 : µd < 0.

Bemerkung: Bei symmetrischen Verteilungen

(z. B. Normalverteilung, t–Verteilung) gilt allge-

mein:

p–Wert (zweiseitig) = 2 · p–Wert (einseitig)

Achtung! Ein einseitiger Test wird die Rich-

tigkeit einer Alternative eher entdecken als ein

zweiseitiger Test. Eine objektive Testentschei-

dung ist daher nur dann gewahrleistet, wenn

vorab festgelegt wird, ob einseitig oder zweisei-

tig getestet werden soll!

StatSoz 328

Hinweis: Bei den einseitigen Testproblemen (B)

und (C) uberpruft man automatisch die Nullhy-

pothesen

H0 : µd ≤ 0

bzw.

H0 : µd ≥ 0

Fortsetzung von Bsp. 11.1: Es wird von vorn-

herein (also vor Stichprobenerhebung) vermutet,

dass sich der Kurs positiv ausgewirkt hat. Daher

soll das einseitige Testproblem

H0 : µ1 = µ2, H1 : µ1 > µ2

betrachtet werden. Das Signifikanzniveau sei

α = 0.05.

StatSoz 329

Die Prufgroße hat den konkreten Wert

t =1.9

2.42/√

10= 2.48

Wegen t9;0.950 = 1.833 und t = 2.48 > 1.833

kann H0 zum Niveau 0.05 abgelehnt werden.

Fur den p–Wert (einseitig) erhalt man

p(2.48) = 0.0175

StatSoz 330

Abbildung 11–7 Bild oben: Unter H0 (Mittelwertsdiffe-

renz=0): t–Verteilung mit df = 9, tkrit = t9;0.95 = 1.833;

Fehlerwahrscheinlichkeit 1. Art = 0.05 = graue Flache =

Flache oberhalb von 1.833; Bild unten: p–Wert (einseitig):

p(2.48) = 0.0175 = graue Flache oberhalb von 2.48.

StatSoz 331

11.2 Bemerkung: Es lassen sich auch Nullhy-

pothesen der Form

H0 : µ = µ0

uberprufen. Dabei ist µ0 ein hypothetischer

Populations–Mittelwert (vgl. Aufgabe 5, Blatt

9). Ist

x1, . . . , xn

eine Stichprobe, so ist das studentisierte Stich-

probenmittelx− µ0

s/√n

(11.3)

eine geeignete Prufgroße. Dabei bezeichnet wie-

der x das Stichprobenmittel und s die Stichpro-

benstandardabweichung.

StatSoz 332

Unter H0 ist die Prufgroße (11.3) annahernd

standardnormalverteilt, falls n ≥ 30 (Ein–Stichproben–z–Test).

Unter der Normalverteilungsannahme ist die

Prufgroße (11.3) t–verteilt mit n − 1 Freiheits-

graden (Ein–Stichproben–t–Test).

Die Ablehnungsbereiche sind die gleichen wie im

Fall einer gepaarten Stichprobe.

StatSoz 333

11.2 Der z–Test (t–Test) fur unabhangigeStichproben

Gepruft (widerlegt) werden soll die Nullhypothe-

se: Gleichheit zweier Populationsmittelwerteµ1 und µ2. Das (zweiseitige) Testproblem lautet

H0 : µ1 = µ2 , H1 : µ1 6= µ2

Gegeben: Zwei unverbundene (ungepaarte)

Stichproben

Stichprobe von Stichprobe von

Grundgesamtheit 1 Grundgesamtheit 2

x11 x21x12 x22x13 x23

...

x1n1...

x2n2

StatSoz 334

Im Fall der Varianzhomogenitat lautet die

Prufgroße

x1 − x2Standardfehler von x1 − x2

=x1 − x2

sgepoolt ·√n1+n2n1·n2

(11.4)

Dabei bezeichnet wieder

s2gepoolt =(n1 − 1) · s21 + (n2 − 1) · s22

n1 + n2 − 2

die gepoolte Varianz (vgl. Abschnitt 9.3) als

Schatzung fur σ2.

StatSoz 335

(A) Fur hinreichend große Stichprobenumfange

(n1 ≥ 30, n2 ≥ 30) ist die Prufgroße

z =x1 − x2


nach dem zentralen Grenzwertsatz annahernd

N(0, 1)–verteilt (Zwei–Stichproben–z–Test).

(B) Unter der Normalverteilungsannahme ist die

Prufgroße

t =x1 − x2


t–verteilt mit n1+n2−2 Freiheitsgraden (Zwei–Stichproben–t–Test).

StatSoz 336

Zu einem vorgegebenen Testniveau α wird die

Nullhypothese H0 = µ1 − µ2 = 0 bei zweiseiti-ger Alternative H1 : µ1 6= µ2 abgelehnt, falls

z ≤ −z1−α/2 oder z1−α/2 ≤ z

(z–Test) bzw. falls

t ≤ −tn1+n2−2;1−α/2

oder

tn1+n2−2;1−α/2 ≤ t(t–Test).

Bei der einseitigen Alternative H1 : µ1 > µ2

wird H0 abgelehnt, falls

z ≥ z1−α

(z–Test) bzw.

t ≥ tn1+n2−2;1−α

StatSoz 337

(t–Test). Entsprechend wird bei der einseitigenAlternative H1 : µ1 < µ2 die Nullhypothese

abgelehnt, falls

z ≤ −z1−α

(z–Test) bzw.

t ≤ −tn1+n2−2;1−α

(t–Test).

Fortsetzung von Bsp. 9.3: Unterscheidet sich

der durchschnittliche Schatzwert armer Kinder

von dem durchschnittlichen Schatzwert reicher

Kinder? Gepruft werden soll die Nullhypothese

H0 : µreich (µ1) = µarm (µ2)

gegen die zweiseitige Alternative

µreich 6= µarm

StatSoz 338

zum Testniveau α = 0.05. Die Normalvertei-

lungsannahme und die Annahme der Varianzho-

mogenitat seien gerechtfertigt.

Die Stichprobenumfange sind n1 = 12 und n2 =

12. Der kritische Wert ist

tkrit = t22;0.975 = 2.074

Damit lautet der Annahmebereich

(−2.074, 2.074)

Fur die Prufgroße erhalt man den Wert

t =x1 − x2


=22.67− 24.92

2.71 ·√

12+1212·12

= −2.03

StatSoz 339

Da

−2.074 < −2.03 < 2.074

kann H0 zum Testniveau α = 0.05 nicht abge-

lehnt werden.

Der p–Wert betragt

p(−2.03) = 0.054

Ungleiche Populations–Varianzen

Sind die Varianzen σ21 und σ2

2 der beiden (nor-

malverteilten) Grundgesamtheiten verschieden,

so muss die Prufgroße (11.4) etwas modifiziert

werden, da die gepoolte (Stichproben–)Varianz

als ein Schatzwert fur zwei ungleiche Varian-

zen keinen Sinn mehr macht und daher nicht

verwendet werden kann. Der geschatzte Stan-

StatSoz 340

dardfehler von x1 − x2 ist√s21n1

+s22n2

(vgl. die Ausfuhrungen in Abschnitt 9.3) und die

(modifizierte) Prufgroße ist die studentisierte

Mittelwertdifferenz

x1 − x2√s21n1

+s22n2

(11.5)

Fur Stichprobenumfange n1 ≥ 30, n2 ≥ 30 ist

diese Prufgroße annahernd standardnormalver-

teilt.

Unter der Normalverteilungsannahme ist die

Prufgroße (11.5) naherungsweise t–verteilt, wo-

bei die Anzahl der Freiheitsgrade aus den Da-

ten heraus geschatzt werden muss (die genaue

StatSoz 341

Verteilung ist unbekannt (Behrens–Fisher–Problem), vgl. Abschnitt 9.3). Dies ist dann

der sogenannte Welch–Test.

Statistische Softwarepakete berechnen den p–

Wert.

11.3 Fehler 1. Art und Fehler 2. Art

Bei einem Test sind zwei Arten von Fehlentschei-

dungen moglich:

Fehler 1. Art: Die Nullhypothese H0 wird ab-

gelehnt, obwohl sie richtig ist. Die Wahrschein-

lichkeit einen Fehler 1. Art zu begehen wird mit

α (alpha) bezeichnet.

Fehler 2. Art: Die Nullhypothese H0 wird nicht

abgelehnt, obwohl sie falsch ist. Die Wahrschein-

lichkeit einen Fehler 2. Art zu begehen wird mit

β (beta) bezeichnet.

StatSoz 342

Wir

klic

hke

it

Tes

ten

tsch

eid

un

g

H0

ist

wah

rH

1is

tw

ahr

kein

eA

ble

hn

un

gri

chti

ge

En

t-fa

lsch

eE

nt-

vonH

0sc

hei

du

ng

mit

sch

eid

un

gm

itW

ahrs

.1−α

Wah

rs.β

Ab

leh

nu

ng

fals

che

En

t-ri

chti

ge

En

t-vo

nH

0sc

hei

du

ng

mit

sch

eid

un

gm

itm

itW

ahrs

.α

Wah

rs.

1−β

StatSoz 343

Das Risiko einer Fehlentscheidung lasst sich

nicht ausschließen, aber in einem ganz bestimm-

ten Sinne begrenzen.

Es ist nun so, dass man die Fehler 1. Art und

2. Art nicht gleichzeitig kontrollieren kann. Die

Fehlerwahrscheinlichkeiten α und β lassen sich

nicht gleichzeitig minimieren. Eine Verkleine-

rung von α bedeutet eine Vergroßerung von β

(α ↓ β ↑) und umgekehrt (α ↑ β ↓).

Die Vorgehensweise ist nun die, dass man den

Fehler 1. Art (Entscheidung fur H1, obwohl H0

richtig ist) kontrolliert. Dies wird dadurch er-

reicht, indem man α klein wahlt, ublicherweise

fordert man α = 0.05 oder α = 0.01. Fur den p–

Wert bedeutet dies p ≤ 0.05 oder p ≤ 0.01. Die

Zahl α heißt Irrtumswahrscheinlichkeit oder

Signifikanzniveau.

StatSoz 344

Interpretation (fur α = 0.05):

Berechnet man aus allen Stichproben (gleichen

Umfangs) die Prufgroßenwerte, so wird sich un-

ter der Annahme der Gultigkeit von H0

– in 5% aller Falle ein Widerspruch zu H0 ein-

stellen,

– in 95% der Falle nicht.

Die Forderung, den Fehler 1. Art zu kontrollieren,

hat eine wichtige Konsequenz hinsichtlich der

Hypothesen H0 und H1:

Durch die Wahl einer kleinen Zahl α wird eine

richtige Nullhypothese H0 nur mit einer geringen

Fehlerwahrscheinlichkeit abgelehnt. Mat hat also

ein gewisses Vertrauen in diese Entscheidung.

StatSoz 345

Dagegen kann man kein Vertrauen haben in

die Entscheidung H0 zu akzeptieren, wenn die

Fehlerwahrscheinlichkeit β nicht kontrollierbar

ist.

Die Ablehnung der Nullhypothese ist dieeinzige Entscheidung, die mit einer gerin-gen Fehlerwahrscheinlichkeit getroffen wer-den kann. (Deshalb wird man immer das in die

Nullhypothese stecken, was man widerlegt haben

mochte!)

StatSoz 346

Zusammenfassung:

Fehler 1. Art (Type I error), α–Fehler

• Die Nullhypothese wird falschlicherweise ab-

gelehnt.

• Die Wahrscheinlichkeit fur einen Fehler 1. Art

wird im Voraus (d. h. vor Testdurchfuhrung)

durch eine kleine Zahl α (alpha) festgelegt.

• α wird nicht durch den Stichprobenumfang

beeinflusst.

StatSoz 347

Fehler 2. Art (Type II error), β–Fehler

• Die Nullhypothese wird falschlicherweise nicht

abgelehnt.

• Die Wahrscheinlichkeit fur einen Fehler 2. Art

wird mit β (beta) bezeichnet.

• β hangt vom Stichprobenumfang und α ab.

Mit großerem Stichprobenumfang wird β klei-

ner (n ↑ β ↓, in diesem Sinne lasst sich β

kontrollieren).

• β ist fur einseitige und zweiseitige Alternati-

ven verschieden.

• β kann nur dann bestimmt werden, wenn die

wahre Alternative, also der wahre Effekt bzw.

Unterschied, bekannt ist oder hypothetisch

festgelegt wird.

StatSoz 348

Fortsetzung von Bsp. 11.1: Frage: Wie groß

ist β, falls tatsachlich

µ1 − µ2 = 2

ist? Also: Wie groß ist die Wahrscheinlichkeit,

unter der Gultigkeit der Alternative µ1−µ2 =

2 einen t–Wert zu beobachten, der kleiner als

1.833 ist?

Antwort: β = 0.42...

StatSoz 349

Abbildung 11–8 Bild oben: Unter H0 (Mittelwertdiffe-

renz=0): t–Verteilung mit df = 9, tkrit = t9;0.95 = 1.833;

Fehlerwahrscheinlichkeit 1. Art = 0.05 = graue Flache

= Flache oberhalb von 1.833; Bild unten: Alternative:

t–Verteilung mit df = 9 um 2 nach rechts verschoben

(Mittelwertdifferenz=2), Fehlerwahrscheinlichkeit 2. Art

β = graue Flache = Flache unterhalb von 1.833 ≈ 0.42.

StatSoz 350

Die Zahl

1− Fehlerwahrscheinlichkeit 2. Art = 1−β

heißt Power, man sagt auch

Macht, Gute, Trennscharfe

des Tests.

Dies ist die Wahrscheinlichkeit der Ablehnung

von H0, wenn H1 richtig ist. Diese sollte

naturlich moglichst groß sein, da die Entdeckung

einer richtigen Alternative der eigentliche Zweck

des Hypothesentestens ist. In den meisten prak-

tischen Fragestellungen bleibt der Fehler 2. Art

jedoch unberucksichtigt (man spricht dann von

Signifikanztests).

StatSoz 351

11.4 Typische Fehler im Umgang mit stati-stischen Tests

1. Eine Hypothese kann aufgrund eines sta-

tistischen Tests weder (logisch) ,,widerlegt”

noch ,,bewiesen” werden. Zufallsbehaftete Da-

ten konnen mit verschiedenen parametrischen

Modellen ,,in Einklang stehen”! Liegt der beob-

achtete Prufgroßenwert nicht im kritischen Be-

reich, so sagt man dazu, dass die Daten (Beob-

achtungen) nicht im Widerspruch zu H0 stehen.

Man spricht immer nur vom Ablehnen, Ver-

werfen oder Nichtablehnen, Nichtverwerfen der

Nullhypothese. Ein Nichtverwerfen der Null-hypothese bedeutet nicht unbedingt, dasssie zutrifft, sondern nur, dass sie nichtgenugend unplausibel ist, um verworfen zuwerden!

StatSoz 352

2. Es ist ferner vom Grundprinzip statistischer

Tests her unzulassig, eine Hypothese, die durch

,,Sichtung” der Daten gewonnen wurde, an-

hand derselben Daten zu testen. Dem Test

bleibt nichts anderes ubrig, als dem Wunsch

des ,,Hypothesen–Formulierers” entsprechend zu

antworten. Es ist vollig legitim, aufgrund von Da-

ten Hypothesen zu formulieren, zu generieren.

Nur: Wer erst aufgrund eines Datensatzeszu einer Hypothese kommt, braucht neueDaten, um diese Hypothese zu bestatigen!

3. Ergibt ein Test zur Irrtumswahrscheinlichkeit

α die Ablehnung von H0, so ist eine Formulie-

rung wie ,,Die Wahrscheinlichkeit ist hochstens

α, dass aufgrund des Testergebnisses die Hy-

pothese H0 zutrifft” sinnlos. Denn die Zahl α

gibt nicht an, mit welcher Wahrscheinlichkeit ei-

ne aufgrund von Daten getroffene Entscheidung

falsch ist. Die Wahrscheinlichkeit α charakteri-

StatSoz 353

siert nur in dem Sinne das Testverfahren, dass

bei Unterstellung der Gultigkeit von H0 die

Wahrscheinlichkeit fur eine Ablehnung von H0

hochstens α ist, d. h. in vielen Testdurchfuhrun-

gen wird es (unter der Gultigkeit von H0) in

etwa α · 100% der Falle zu einer Ablehnung von

H0 kommen. In jedem dieser Falle wurde mit

Sicherheit eine falsche Entscheidung getroffen.

Aber: Diese ,,Sicherheit” war nur vorhanden,

weil a priori die Gultigkeit von H0 in al-len Testdurchfuhrungen unterstellt wurde!!!In gleicher Weise wird sich bei Unterstellung

der Gultigkeit der Alternative H1 ein gewisser

Prozentsatz von signifikanten Ergebnissen, also

Ablehnungen von H0, einstellen. Hier hat man

in jedem dieser Falle eine richtige Entscheidung

getroffen, weil die Gultigkeit von H1 a priori

unterstellt wurde. Im Allgemeinen besitzt man

jedoch keinerlei Information daruber, ob bei der

Testdurchfuhrung H0 oder H1 zutrifft (sonst

StatSoz 354

konnte man sich das Testen ersparen)!

Entsprechendes gilt fur den p–Wert. Zur Erin-

nerung: Der p–Wert hangt vom Prufgroßenwert

und damit von den Daten ab. Ist wie in Bsp.11.1 p(2.48) = 0.035, so sind Aussagen der

Form ,,die Nullhypothese hat die Wahrschein-

lichkeit 0.035” bzw. ,,die Nullhypothese ist mit

Wahrscheinlichkeit 0.035 richtig” falsch. Model-

le haben selbst keine Wahrscheinlichkeiten, sie

legen Wahrscheinlichkeiten fur Beobachtungen

und Teststatistiken fest!

StatSoz 355

Appendix A: Uberprufung der Annahmenbeim t–Test

Fur große Stichprobenumfange ist der t–

Test robust (unempfindlich) gegenuber Abwei-

chungen der Normalverteilung: Dies bedeutet:

Die Fehlerwahrscheinlichkeiten α und β blei-

ben nahezu unverandert. Fur kleine Stichpro-

benumfange muss im Allgemeinen die Normal-

verteilungsannahme gepruft werden. Histogram-

me geben einen ersten Hinweis, sind aber zur

Prufung nicht geeignet.

Ein geeigneteres Instrument der graphischen

Uberprufung auf Normalverteilung ist der sogen-

ante Quantil–Quantil–Plot, kurz QQ–Plot. Er

vergleicht die Quantile der empirischen Vertei-

lung mit den entsprechenden Quantilen der Nor-

malverteilung. Zeigt dieser einen linearen Ver-

lauf (Gerade), so deutet dies auf normalverteilte

StatSoz 356

Daten hin. Die Interpretation von QQ–Plots er-

fordert jedoch einige Erfahrungen.

Auf Normalitat kann auch (statistisch) getestet

werden. Geeignete Tests sind z. B. der

• Shapiro–Wilk–Test und der

• Kolmogorov–Smirnov–Test, korrigiert nach

Lilliefors.

Achtung! Klassische Tests wie der Chi–

Quadrat–Anpassungstest und der (nicht–

korrigierte) Kolmogorov–Smirnov–Test sind un-

geeignet!!!

Prufung der Varianzhomogenitat bei un-

abhangigen Stichproben:

• Levene–Test (p–Wert groß, etwa p > 0.05,

StatSoz 357

Daten sprechen nicht gegen die Varianzhomo-

genitat).

Achtung! Der sogenannte F–Test zur Uber-

prufung der Varianzhomogenitat sollte nicht ver-

wendet werden.

Appendix B: t–Test mit SPSS

Fortsetzung von Bsp. 9.3:

Dateneingabe: Sie erfolgt im Daten–Editor–

Fenster nach folgendem Muster:

StatSoz 358

Befehle: Folgende Befehle sind aus der Menulei-

StatSoz 359

ste auszuwahlen:

Analysieren

Mittelwerte vergleichen

T–Test fur unabhangige Stichproben

Programm–Output:

0.95–Konfidenzintervalle werden automatisch

mitgeliefert. Da der Levene–Test den p–Wert

0.558 liefert, sprechen die Daten nicht gegen die

Annahme der Varianzhomogenitat.

StatSoz 360

Documents

Sei X ;X ein Merkmalspaar und - uni-wuerzburg.de · 11 Tests zur Uberpr ufung von Mittelwerts-unterschieden 11.1 Der z{Test (t{Test) f ur verbundene Stichproben 11.2 Der z{Test (t{Test)