Upload
hahuong
View
214
Download
0
Embed Size (px)
Citation preview
11 Tests zur Uberprufung von Mittelwerts-unterschieden
11.1 Der z–Test (t–Test) fur verbundene Stichproben
11.2 Der z–Test (t–Test) fur unabhangige Stichproben
11.3 Fehler 1. Art und 2. Art
11.4 Typische Fehler im Umgang mit statistischen Tests
Appendix A: Uberprufung der Annahmen beim t–Test
Appendix B: t–Test mit SPSS
11.1 Der z–Test (t–Test) fur verbundeneStichproben
Sei (X1, X2) ein Merkmalspaar und
(x11, x21), . . . , (x1n, x2n)
eine verbundene (gepaarte) Stichprobe vom
Umfang n.
StatSoz 290
Bezeichnen wieder
di = x1i − x2i, i = 1, . . . , n
die Paardifferenzen. Es wird angenommen, dass
d1, . . . , dn als einfache Stichprobe angesehen
werden kann.
Uberpruft wird die Nullhypothese
H0 : µ1 = µ2
(kein Mittelwertsunterschied), also
H0 : µd = 0
mit µd = µ1 − µ2 (Populationsmittelwert der
Paardifferenzen ist Null).
StatSoz 291
Die Alternative ist
H1 : µ1 6= µ2
anders geschrieben
H1 : µd 6= 0
Eine naheliegende Prufgroße ware die Differenz
d− µd =1
n
n∑i=1
di − µd
Um die Bedeutsamkeit dieser Differenz beur-
teilen zu konnen, wird sie in Relation zur
(geschatzten) Streuung von d um µd gesetzt.
Als Prufgroße wahlt man somit
d− µdsd/√n
(11.1)
StatSoz 292
Im Nenner steht der geschatzte Standardfehler
von d (ESEM), wobei
sd =
√√√√ 1
n− 1
n∑i=1
(di − d)2
wieder die Standardabweichung der Paardifferen-
zen d1, . . . , dn bezeichnet.
Unter (der Gultigkeitsannahme von) H0 : µd =
0 reduziert sich die Prufgroße (11.1) zu
d
sd/√n
(11.2)
Plausibel: Unter H0 wird ein Prufgroßenwert
,,in der Nahe” von Null erwartet. Ist daher die
Abweichung des Prufgroßenwertes von der Null
,,zu groß”, so wird die Gultigkeit der Nullhypo-
these in Zweifel gezogen.
StatSoz 293
Was heißt ,,in der Nahe” von Null? Oder anders
gefragt: Ab wann gilt eine Abweichung als ,,zu
groß”?
Diese Fragen werden im Rahmen zweier zum
gleichen Ziel fuhrender Verfahren beantwortet:
(1) Klassisches Testverfahren
(2) p–Wert–Methode
Beide Verfahren beurteilen mittels Wahrschein-
lichkeiten, ob der Prufgroßenwert (11.2) im Sin-
ne der Nullhypothese plausibel oder unplausibel
ist
StatSoz 294
Zunachst: In Kap. 10 wurde gesagt, dass H0
zu verwerfen ist, falls etwas beobachtet wurde,
also ein Ereignis eingetreten ist, das unter H0
nur mit einer kleinen Wahrscheinlichkeit hatte
eintreten durfen. Um Wahrscheinlichkeiten zu
bestimmen, muss man die Stichprobenverteilung
der Prufgroßed
sd/√n
unter H0 kennen.
StatSoz 295
(A) Fur hinreichend große Stichprobenumfange
(n ≥ 30) ist die Prufgroße
z =d
sd/√n
nach dem zentralen Grenzwertsatz annahernd
N(0, 1)–verteilt (z–Test fur gepaarte Stich-proben).
(B) Unter der Normalverteilungsannahme ist die
Prufgroße
t =d
sd/√n
t–verteilt mit n−1 Freiheitsgraden (t–Test furgepaarte Stichproben).
StatSoz 296
(1) Das klassische Testverfahren
Anmerkung: Die folgenden Ausfuhrungen beziehen sich
(zunachst) auf den z–Test. Sie gelten vollig analog fur den
t–Test.
Das klassische Testverfahren gibt einen kriti-schen Wert zkrit > 0 an, so dass ,,in der Nahe”
von Null einen Prufgroßenwert z meint, der im
Intervall
(−zkrit, zkrit)liegt, fur den also
−zkrit < z < zkrit
gilt. Ein Prufgroßenwert z außerhalb dieses Be-
reiches, fur den also
z ≤ −zkrit oder zkrit ≤ z
gilt, wird unter H0 als unplausibel angesehen.
StatSoz 297
Veranschaulichung auf dem Zahlenstrahl:
z–Wert z–Wert
zu klein zu groß] | [
−zkrit 0 zkrit
Testentscheidung: Ablehnung von H0, falls z
im Ablehnungsbereich (Verwerfungsbereich),
bestehend aus den beiden Intervallen
(−∞,−zkrit] und [zkrit,∞)
liegt (man spricht auch vom kritischen Be-reich). Keine Ablehnung von H0, falls z im
Nichtablehnungsbereich
(−zkrit, zkrit)
liegt.
Frage: Wie ist der kritische Wert zkrit festzule-
gen?
StatSoz 298
Dieser ist durch die Vorgabe einer kleinen Wahr-
scheinlichkeit α festgelegt, etwa α = 0.05 (α
heißt Testniveau, Signifikanzniveau oder Irr-tumswahrscheinlichkeit).
Man wird zkrit so festlegen, dass Folgendes gilt:
Der erwartete Anteil von Prufgroßenwerten z,
die im Ablehnungsbereich liegen, also die Wahr-
scheinlichkeit, einen Prufgroßenwert z mit
z ≤ −zkrit oder zkrit ≤ z
zu beobachten, soll unter der Gultigkeitsan-nahme von H0 (hochstens) mit Wahrschein-
lichkeit 0.05 auftreten.
z ≤ −zkrit −zkrit < z < zkrit zkrit ≤ zmit W. 0.025 mit W. 0.95 mit W. 0.025
] | [
−zkrit 0 zkrit
StatSoz 299
Die Wahrscheinlichkeit, unter H0 einen
Prufgroßenwert z im Nichtablehnungsbereich
(−zkrit, zkrit)
zu beobachten, ist
Φ(zkrit)− Φ(−zkrit) = 2 · Φ(zkrit)− 1
Denn: Unter H0 ist die Stichprobenverteilung
von z annahernd eine N(0, 1)–Verteilung (falls
n ≥ 30).
Somit bestimmt sich zkrit aus der Gleichung
2 · Φ(zkrit)− 1 = 0.95
D. h.
Φ(zkrit) =1.95
2= 0.975
Damit ist zkrit das 0.975–Quantil der Standard-
normalverteilung, also z0.975 = 1.96.
StatSoz 300
Fazit: Unter H0 fuhren nur 5% aller Stichproben
(gleichen Umfangs) zu einem Prufgroßenwert z
mit z ≤ −1.96 oder z ≥ 1.96.
Ist das Ereignis
z ≤ −1.96 oder z ≥ 1.96
eingetreten, so bedeutet dies, dass
– entweder ein seltener z–Wert beobachtet
wurde (mit einer Wahrscheinlichkeit von
hochstens 0.05) oder
– dass die Nullhypothese H0 inkorrekt ist.
Plausibler ist die Entscheidung, dass H0 falsch
ist. Damit lautet die Testentscheidung:
StatSoz 301
• Ist z ≤ −1.96 oder z ≥ 1.96, so wird H0 zum
Signifikanzniveau 5% abgelehnt. Man spricht
von einem signifikanten Testresultat.
• Ist −1.96 < z < 1.96, so wird H0 zum Signi-
fikanzniveau 5% nicht abgelehnt. Man spricht
von einem nichtsignifikanten Testresultat.
Anteil: 0.05/2 keine Anteil: 0.05/2
Ablehnung Ablehnung Ablehnung] | [
−1.96 0 1.96
Abbildung 11–1 Verwerfungsbereich (z–Test) zum
Testniveau 0.05 zur Alternative µd 6= 0
StatSoz 302
Nur in 5% aller Falle kommt es unter der Gultig-
keitsannahme von H0 zu einer Fehlentscheidung
(Entscheidung fur H1). Die Wahrscheinlichkeit
eines Fehlers 1. Art (Entscheidung fur H1 ob-
wohl H0 richtig ist) betragt hochstens 5%. Mehr
zum Fehler 1. Art in Abschnitt 11.3.
t–Test
Der t–Test unterstellt die Normalverteilung der
Paardifferenzen. In diesem Fall ist die Prufgroße
t =d
sd/√n
unter H0 t–verteilt mit n − 1 Freiheitsgra-
den (Abschnitt 8.3). Der kritische Wert zum
5%–Testniveau ist das 0.975–Quantil der t–
Verteilung mit n− 1 Freiheitsgraden.
Bezeichnungsweise: tn−1;0.975
StatSoz 303
Der Verwerfungsbereich zum 5%–Testniveau be-
steht aus den beiden Intervallen
(−∞,−tn−1;0.975] und [tn−1;0.975,∞)
Anteil: 0.025 keine Anteil: 0.025
Ablehnung Ablehnung Ablehnung] | [
−tn−1;0.975 0 tn−1;0.975
Abbildung 11–2 Verwerfungsbereich (t–Test) zum
5%–Niveau zur Alternative µd 6= 0
Testentscheidung: Ablehnung von H0, falls
t ≤ −tn−1;0.975 oder tn−1;0.975 ≤ t
StatSoz 304
Allgemein: Testet man zum Niveau α, so ist
der kritische Wert das
(1− α/2)–Quantil
Beim z–Test ist es das (1 − α/2)–Quantil der
Standard–Normalverteilung. Bezeichnungsweise:
z1−α/2.
Beim t–Test ist es das (1 − α/2)–Quantil der
t–Verteilung mit n− 1 Freiheitsgraden. Bezeich-
nungsweise: tn−1;1−α/2.
Ausgewahlte (1 − α)–Quantile der N(0, 1)–
Verteilung und der t–Verteilung finden sich in
Tab. 11–1.
In der Praxis sind die Werte α = 0.01, α = 0.05
und α = 0.1 gebrauchlich.
StatSoz 305
11.1 Beispiel: Man mochte wissen, wie sich
ein neu eingefuhrter Kurs auf das Leistungs-
vermogen von Hauptschuler mit Migrationshin-
tergrund auswirkt. Dazu wurde die Zeit uber-
pruft, die 10 Hauptschulern mit Migrationshin-
tergrund benotigen, um eine bestimmte Anzahl
von Aufgaben zu losen. Am Ende des Kurses
wurden diese 10 Schuler einem ahnlichen Test
unterzogen und die Zeiten notiert. Hat sich die
durchschnittliche Bearbeitungszeit (bezogen auf
die Grundgesamtheit aller Hauptschuler mit Mi-
grationshintergrund) geandert?
Nullhypothese: Die durchschnittliche Bearbei-
tungszeit vorher (µ1) ist gleich der durchschnitt-
lichen Bearbeitungszeit nachher (µ2); H0 : µd =
0.
Alternative H1: Die durchschnittlichen Bearbei-
tungszeiten unterscheiden sich H1 : µd 6= 0.
StatSoz 306
Kann H0 zum Signifikanzniveau α = 0.05 abge-
lehnt werden? Unterstellt wird, dass die Annah-
me normalverteilter Paardifferenzen gerechtfer-
tigt ist.
Der kritische Wert ist das (1−α/2)–Quantil der
t–Verteilung mit n − 1 Freiheitsgraden. Hier ist
n = 10, α = 0.05 und man erhalt
tkrit = tn−1;1−α/2 = t9;0.975 = 2.262
siehe Tab. 11–1. Damit lautet der Annahmebe-
reich
(−2.262, 2.262)
StatSoz 307
Abbildung 11–3 t–Verteilung mit df = 9; Flache
unterhalb von −2.262 und oberhalb von 2.262 ist 0.05
(graue Flache)
Bei der Erhebung ergaben sich die folgenden
Daten:
StatSoz 308
Schuler Zeit Zeit DifferenzNr. vorher nachher vorher - nachher1 11 9 22 23 21 23 17 13 44 14 16 –25 16 13 36 21 17 47 9 10 –18 18 15 39 26 21 5
10 19 20 –1Stichproben–
mittel 17.40 (x1) 15.50 (x2) 1.90 (d)Standard–
abweichung 5.23 (s1) 4.37 (s2) 2.42 (sd)
Die Prufgroße t hat den konkreten Wert
t =1.9
2.42/√
10= 2.48
Wegen t = 2.48 > 2.262 kann H0 zum Signifi-
kanzniveau α = 0.05 abgelehnt werden.
StatSoz 309
Ware ein Signifikanzniveau von α = 0.01 vor-
gegeben worden, so lautet nach Tab. 11–1 der
kritische Wert
tkrit = tn−1;1−α/2 = t9;0.995 = 3.250
(1− α/2 = 1− 0.01/2 = 0.995).
Der Annahmebereich ist somit
(−3.250, 3.250)
Der beobachtete Prufgroßenwert t = 2.48 liegt
im Annahmebereich, d. h. H0 kann zum Signi-
fikanzniveau α = 0.01 nicht abgelehnt werden.
Dieses Beispiel macht folgendes deutlich: DasSignifikanzniveau ist vor Durchfuhrung desTests festzulegen!!!
StatSoz 310
Tabelle 11–1 (1 − α)–Quantile der t–Verteilung tdf ;1−αfur df = 1, . . . , 30 und α = 0.1, 0.05, 0.025, 0.01, 0.005(in der letzten Zeile sind die entsprechenden Quantile z1−αder Standard–Normalverteilung)
1− αdf 0.90 0.95 0.975 0.99 0.9951 3.078 6.314 12.706 31.821 63.6572 1.886 2.920 4.303 6.965 9.9253 1.638 2.353 3.182 4.541 5.8414 1.533 2.132 2.776 3.747 4.6045 1.476 2.015 2.571 3.365 4.032
6 1.440 1.943 2.447 3.143 3.7077 1.415 1.895 2.365 2.998 3.4998 1.397 1.860 2.306 2.896 3.3559 1.383 1.833 2.262 2.812 3.250
10 1.372 1.812 2.228 2.764 3.169
11 1.363 1.796 2.201 2.718 3.10612 1.356 1.782 2.179 2.681 3.05513 1.350 1.771 2.160 2.650 3.01214 1.345 1.761 2.145 2.624 2.97715 1.341 1.753 2.131 2.602 2.947
Fortsetzung nachste Seite!
StatSoz 311
1− αdf 0.90 0.95 0.975 0.99 0.99516 1.337 1.746 2.120 2.583 2.92117 1.333 1.740 2.110 2.567 2.89818 1.330 1.734 2.101 2.552 2.87819 1.328 1.729 2.093 2.539 2.86120 1.325 1.725 2.086 2.528 2.845
21 1.323 1.721 2.080 2.518 2.83122 1.321 1.717 2.074 2.508 2.81923 1.319 1.714 2.069 2.500 2.80724 1.318 1.711 2.064 2.492 2.79725 1.316 1.708 2.060 2.485 2.787
26 1.315 1.706 2.056 2.479 2.77927 1.314 1.703 2.052 2.473 2.77128 1.313 1.701 2.048 2.467 2.76329 1.311 1.699 2.045 2.462 2.75630 1.310 1.697 2.042 2.457 2.750
∞ 1.282 1.645 1.960 2.326 2.576
StatSoz 312
(2) Die p–Wert–Methode
Die Frage, ob die Daten mit der Nullhypothese
vertraglich sind, wird mit der klassischen Testme-
thode grob mit ,,ja” oder ,,nein” beantwortet.
,,Grob” deswegen, weil, wie Bsp. 11.1 zeigt,
auch ein kleinerer Wert als t = 2.48, etwa 2.34,
zu einer Ablehnung von H0 gefuhrt hatte (zum
Signifikanzniveau α = 0.05). Zur Erinnerung:
Das Signifikanzniveau α = 0.05 fuhrt zum Nicht-
ablehnungsbereich
(−2.262, 2.262)
Selbst wenn die Stichprobe zu einem Prufgroßen-
wert von t = 2.262 gefuhrt hatte, ware H0 (ge-
rade noch) zum 5%–Niveau abgelehnt worden.
Intuitiv hat man aber bei einem Wert von 2.48
ein großeres Vertrauen in die Testentscheidung
H0 abzulehnen. Es ware also informativer, ein
StatSoz 313
feineres Maß fur die Vertraglichkeit von Daten
und Nullhypothese anzugeben.
Statt von einem festen Signifikanzniveau aus-
zugehen, z. B. α = 0.05 oder α = 0.01,
und daraufhin einen kritischen Wert fur die
Prufgroße zu bestimmen, geht die p–Wert–Methode vom konkret beobachteten Wert ei-
ner Prufgroße aus, in Bsp. 11.1 t = 2.48. Die
wahrscheinlichkeitstheoretische Beurteilung, ob
der Prufgroßenwert 2.48 im Sinne der Nullhypo-
these extrem oder selten ist, erfolgt nicht uber
den Umweg kritischer Werte sondern direkt. Die
p–Wert–Methode fragt nach der Wahrscheinlich-
keit, einen Prufgroßenwert t zu beobachten, der
im Sinne der Nullhypothese noch extremer, noch
seltener als 2.48 ist.
Diese Wahrscheinlichkeit, unter H0 einen Pruf-
großenwert t mit
t ≤ −2.48 oder 2.48 ≤ t
StatSoz 314
zu beobachten ist der p–Wert. Dieser wird
in Abhangigkeit vom konkreten Prufgroßenwert
2.48 mit p(2.48) bezeichnet. Der p–Wert be-
tragt1
p(2.48) = 0.035
Abbildung 11–4 t–Verteilung mit df = 9 und
p–Wert = 0.035 (graue Flache) zu Bsp. 11.1
1Der p–Wert wird mittels statistischer Software, also mittels Com-
puter, berechnet.
StatSoz 315
Hatte man bei der klassischen Testmethode ein
Signifikanzniveau von 3.5% vorgegeben, dann
ware der kritische Wert
tkrit = t9;1−0.035/2 = t9;0.9825 = 2.48
und der Ablehnungsbereich
(−∞,−2.48] und [2.48,∞)
Mit anderen Worten: Der p–Wert 0.035 ist das
kleinste Signifikanzniveau, welches bei einem
Prufgroßenwert von t = 2.48 noch zu einer Ab-
lehnung von H0 fuhrt. (Die Wahl eines kleine-
ren Signifikanzniveaus als 0.035 fuhrt zu einem
Ablehnungsbereich, der den Prufgroßenwert von
2.48 nicht mehr enthalt).
Tatsachlich ware man also bereit gewesen, zu ei-
nem kleineren Signifikanzniveau als 5%, namlich
zum 3.5%–Niveau, H0 abzulehnen. Man hat also
StatSoz 316
ein großeres Vertrauen in die Entscheidung, H0
abzulehnen.
Testentscheidung aufgrund des p–Wertes
Ein kleiner Wert p(t) bedeutet entweder, dass die
Nullhypothese richtig ist und ein seltener t–Wert
beobachtet wurde oder dass die Nullhypothese
falsch ist. Deshalb sprechen kleine p–Wertegegen die Nullhypothese. Wie klein muss aber
der p–Wert sein, damit genugend Evidenz gegen
H0 vorliegt?
• Seit etwa 75 Jahren wird nach R. A. Fisher
(1890–1962) ublicherweise eine Nullhypothese
als unannehmbar betrachtet, falls fur den p–
Wert eines statistischen Tests gilt
p–Wert ≤ c mit 0.01 ≤ c ≤ 0.05
Man spricht von einem signifikanten Testre-
sultat.
StatSoz 317
• Andererseits herrscht im Allgemeinen Uber-
einstimmung daruber, dass zum Beispiel ein
p–Wert von 0.35 kaum ein Indiz gegen die
Nullhypothese sein kann. Man spricht von ei-
nem nichtsignifikanten Testresultat.
Wird H0 zu einem p–Wert abgelehnt, so bedeu-
tet dies, dass man eine Fehlerwahrscheinlichkeit
1. Art in Hohe des p–Wertes akzeptiert. Der
p–Wert wird auch exaktes oder tatsachlichesSignifikanzniveau genannt.
Hinweis: Die p–Wert–Methode beinhaltet das
klassische Testen. Lautet (vor Durchfuhrung des
Tests!) die Entscheidungsvorschrift, die Nullhy-
pothese ist abzulehnen, falls
p –Wert ≤ 0.05
so ist dies gleichbedeutend mit einem klassischen
Testverfahren zu (vorgegebenem) Signifikanzni-
StatSoz 318
veau α = 0.05. In beiden Fallen gelangt man zur
gleichen Testentscheidung!
Zusammenfassend lasst sich feststellen:
Der p–Wert ist ein Maß fur dieGlaubwurdigkeit einer Nullhypothese.
Besser:
Der p–Wert ist ein Maß fur die Ver-traglichkeit von Daten und Nullhypo-these.
Beim z–Test lasst sich der p–Wert aus Tabellen
ablesen. Bei einem Prufgroßenwert z ist der p–
Wert
p(z) =
{2 · (1− Φ(z)), z ≥ 0
2 · Φ(z) = 2 · (1− Φ(−z)), z < 0
StatSoz 319
Statistische Signifikanz und praktische Re-levanz
In Bsp. 11.1 konnte die Nullhypothese zum 5%
Niveau verworfen werden. Man entscheidet sich
fur die Alternative, dass die zwei Populationen
statistisch signifikante, unterschiedliche Mittel-
werte haben. Es stellt sich die Frage, ob dieser
Unterschied auch von praktischer Bedeutung ist.
Zur Beantwortung dieser Frage sind Konfidenz-intervalle hilfreich. Die Differenz der Stichpro-
benmittel ist
x1 − x2 = 17.40− 15.50 = 1.90
und die Grenzen eines 95%–Konfidenzintervalls
fur µd = µ1 − µ2 sind gegeben durch
StatSoz 320
x1 − x2 ± t9;0.975 ·sd√n
= 1.90± 2.262 · 2.42√10
= 1.90± 1.73
Inwieweit die Unterschiedswerte im Konfidenzin-
tervall
(0.17, 3.63)
als wesentlich beurteilt werden, hangt ausschließ-
lich von sachlogischen Argumenten ab. Ware
beispielsweise ein Unterschied erst ab 5 Minuten
Bearbeitungszeit interessant, so ist das Resul-
tat signifikant, aber nicht relevant. Zwischen
(praktischer) Relevanz und (statistischer) Sig-nifikanz ist daher genau zu unterscheiden.
StatSoz 321
Zusammenhang zwischen Test und Konfi-denzintervall
Ferner fallt auf, dass die 0 nicht im Konfidenz-
intervall liegt. In der Tat gilt: Die Nullhypothese
H0 : µd = 0 wird genau dann zum Signifikanz-
niveau 5% verworfen, wenn die 0 nicht im 95%
Konfidenzintervall fur µd liegt.
Generell lasst sich Folgendes sagen: Wenn
man einen beliebigen Wert aus dem 0.95–
Konfidenzintervall (0.17, 3.63) nimmt, dieser sei
mit δ bezeichnet, dann wurde der t–Test die
Nullhypothese
H0 : µd = δ
zum Signifikanzniveau 0.05 nicht ablehnen. Die
Prufgroße lautet in diesem Fall
t =d− δsd/√n
StatSoz 322
Achtung! Annahmebereich und Konfidenzinter-
vall nicht verwechseln:
• Annahmebereich: festes, kein zufalliges In-
tervall, abhangig vom Testniveau α. Der An-
nahmebereich enthalt den Wert einer Teststa-
tistik mit Wahrscheinlichkeit 1 − α, falls die
Nullhypothese richtig ist.
• Konfidenzintervall: zufalliges, d.h. von den
Daten abhangiges Intervall. Es enthalt den
wahren (aber unbekannten) Parameterwert
mit einer vorgegebenen Vertrauenswahr-
scheinlichkeit 1− α.
StatSoz 323
Einseitige und zweiseitige Alternativen
Grundsatzlich unterscheidet man einseitige und
zweiseitige Testprobleme. In der Praxis werden
die folgenden Testprobleme betrachtet:
(A) H0 : µ1 = µ2, H1 : µ1 6= µ2 (µd 6= 0)
(B) H0 : µ1 = µ2, H1 : µ1 > µ2 (µd > 0)
(C) H0 : µ1 = µ2, H1 : µ1 < µ2 (µd < 0)
Das Testproblem (A) nennt man zweiseitig(two–sided) oder ungerichtet (nondirectional),
da die Alternative nicht spezifiziert, ob µ1
großer als µ2 oder µ1 kleiner als µ2 ist, oder
anders formuliert, in welche Richtung
µd = µ1 − µ2
von Null abweichen soll (großer oder kleiner).
StatSoz 324
Die Testprobleme (B) und (C) nennt man ein-seitig oder gerichtet, da die Alternative jetzt
spezifiziert, in welche Richtung µ1 von µ2 abwei-
chen soll (nur großer wie in (B) bzw. nur kleiner
wie in (C)). Welches Testproblem zu wahlen ist,
hangt von der konkreten Fragestellung ab. Man
wird immer einseitig testen, wenn man sicher
ist, dass µd nur in eine Richtung von der Null
abweichen kann (nur großer oder nur kleiner).
Einseitige Testpobleme verwenden wie im zwei-
seitigen Fall die Prufgroße (11.2):
d
sd/√n
Fur den einseitigen z–Test zum Niveau α gilt
Folgendes:
StatSoz 325
Alternative H1 : µd > 0
Der kritische Wert ist das (1 − α)–Quantil der
Standard–Normalverteilung
zkrit = z1−α
Der einseitige Verwerfungsbereich ist das Inter-
vall [z1−α,∞)
Anteil: α
keine Ablehnung Ablehnung| [0 z1−α
Abbildung 11–5 Verwerfungsbereich (z–Test) bei
einseitiger Alternative µd > 0.
Testentscheidung: Ablehnung von H0, falls
z ≥ z1−α
p–Wert (einseitig): p(z) = 1− Φ(z).
StatSoz 326
Alternative H1 : µd < 0
Der kritische Wert ist
zkrit = −z1−α
Der einseitige Verwerfungsbereich ist das Inter-
vall (−∞,−z1−α]
Anteil: α
Ablehnung keine Ablehnung] |
−z1−α 0
Abbildung 11–6 Verwerfungsbereich (z–Test) bei
einseitiger Alternative µd < 0
Testentscheidung: Ablehnung von H0, falls
z ≤ −z1−α
p–Wert (einseitig): p(z) = Φ(z) = 1− Φ(−z).
StatSoz 327
Beim t–Test sind tn−1;1−α und −tn−1;1−α die
kritischen Werte zu den einseitigen Alternativen
H1 : µd > 0 bzw. H1 : µd < 0.
Bemerkung: Bei symmetrischen Verteilungen
(z. B. Normalverteilung, t–Verteilung) gilt allge-
mein:
p–Wert (zweiseitig) = 2 · p–Wert (einseitig)
Achtung! Ein einseitiger Test wird die Rich-
tigkeit einer Alternative eher entdecken als ein
zweiseitiger Test. Eine objektive Testentschei-
dung ist daher nur dann gewahrleistet, wenn
vorab festgelegt wird, ob einseitig oder zweisei-
tig getestet werden soll!
StatSoz 328
Hinweis: Bei den einseitigen Testproblemen (B)
und (C) uberpruft man automatisch die Nullhy-
pothesen
H0 : µd ≤ 0
bzw.
H0 : µd ≥ 0
Fortsetzung von Bsp. 11.1: Es wird von vorn-
herein (also vor Stichprobenerhebung) vermutet,
dass sich der Kurs positiv ausgewirkt hat. Daher
soll das einseitige Testproblem
H0 : µ1 = µ2, H1 : µ1 > µ2
betrachtet werden. Das Signifikanzniveau sei
α = 0.05.
StatSoz 329
Die Prufgroße hat den konkreten Wert
t =1.9
2.42/√
10= 2.48
Wegen t9;0.950 = 1.833 und t = 2.48 > 1.833
kann H0 zum Niveau 0.05 abgelehnt werden.
Fur den p–Wert (einseitig) erhalt man
p(2.48) = 0.0175
StatSoz 330
Abbildung 11–7 Bild oben: Unter H0 (Mittelwertsdiffe-
renz=0): t–Verteilung mit df = 9, tkrit = t9;0.95 = 1.833;
Fehlerwahrscheinlichkeit 1. Art = 0.05 = graue Flache =
Flache oberhalb von 1.833; Bild unten: p–Wert (einseitig):
p(2.48) = 0.0175 = graue Flache oberhalb von 2.48.
StatSoz 331
11.2 Bemerkung: Es lassen sich auch Nullhy-
pothesen der Form
H0 : µ = µ0
uberprufen. Dabei ist µ0 ein hypothetischer
Populations–Mittelwert (vgl. Aufgabe 5, Blatt
9). Ist
x1, . . . , xn
eine Stichprobe, so ist das studentisierte Stich-
probenmittelx− µ0
s/√n
(11.3)
eine geeignete Prufgroße. Dabei bezeichnet wie-
der x das Stichprobenmittel und s die Stichpro-
benstandardabweichung.
StatSoz 332
Unter H0 ist die Prufgroße (11.3) annahernd
standardnormalverteilt, falls n ≥ 30 (Ein–Stichproben–z–Test).
Unter der Normalverteilungsannahme ist die
Prufgroße (11.3) t–verteilt mit n − 1 Freiheits-
graden (Ein–Stichproben–t–Test).
Die Ablehnungsbereiche sind die gleichen wie im
Fall einer gepaarten Stichprobe.
StatSoz 333
11.2 Der z–Test (t–Test) fur unabhangigeStichproben
Gepruft (widerlegt) werden soll die Nullhypothe-
se: Gleichheit zweier Populationsmittelwerteµ1 und µ2. Das (zweiseitige) Testproblem lautet
H0 : µ1 = µ2 , H1 : µ1 6= µ2
Gegeben: Zwei unverbundene (ungepaarte)
Stichproben
Stichprobe von Stichprobe von
Grundgesamtheit 1 Grundgesamtheit 2
x11 x21x12 x22x13 x23
...
x1n1...
x2n2
StatSoz 334
Im Fall der Varianzhomogenitat lautet die
Prufgroße
x1 − x2Standardfehler von x1 − x2
=x1 − x2
sgepoolt ·√n1+n2n1·n2
(11.4)
Dabei bezeichnet wieder
s2gepoolt =(n1 − 1) · s21 + (n2 − 1) · s22
n1 + n2 − 2
die gepoolte Varianz (vgl. Abschnitt 9.3) als
Schatzung fur σ2.
StatSoz 335
(A) Fur hinreichend große Stichprobenumfange
(n1 ≥ 30, n2 ≥ 30) ist die Prufgroße
z =x1 − x2
sgepoolt ·√n1+n2n1·n2
nach dem zentralen Grenzwertsatz annahernd
N(0, 1)–verteilt (Zwei–Stichproben–z–Test).
(B) Unter der Normalverteilungsannahme ist die
Prufgroße
t =x1 − x2
sgepoolt ·√n1+n2n1·n2
t–verteilt mit n1+n2−2 Freiheitsgraden (Zwei–Stichproben–t–Test).
StatSoz 336
Zu einem vorgegebenen Testniveau α wird die
Nullhypothese H0 = µ1 − µ2 = 0 bei zweiseiti-ger Alternative H1 : µ1 6= µ2 abgelehnt, falls
z ≤ −z1−α/2 oder z1−α/2 ≤ z
(z–Test) bzw. falls
t ≤ −tn1+n2−2;1−α/2
oder
tn1+n2−2;1−α/2 ≤ t(t–Test).
Bei der einseitigen Alternative H1 : µ1 > µ2
wird H0 abgelehnt, falls
z ≥ z1−α
(z–Test) bzw.
t ≥ tn1+n2−2;1−α
StatSoz 337
(t–Test). Entsprechend wird bei der einseitigenAlternative H1 : µ1 < µ2 die Nullhypothese
abgelehnt, falls
z ≤ −z1−α
(z–Test) bzw.
t ≤ −tn1+n2−2;1−α
(t–Test).
Fortsetzung von Bsp. 9.3: Unterscheidet sich
der durchschnittliche Schatzwert armer Kinder
von dem durchschnittlichen Schatzwert reicher
Kinder? Gepruft werden soll die Nullhypothese
H0 : µreich (µ1) = µarm (µ2)
gegen die zweiseitige Alternative
µreich 6= µarm
StatSoz 338
zum Testniveau α = 0.05. Die Normalvertei-
lungsannahme und die Annahme der Varianzho-
mogenitat seien gerechtfertigt.
Die Stichprobenumfange sind n1 = 12 und n2 =
12. Der kritische Wert ist
tkrit = t22;0.975 = 2.074
Damit lautet der Annahmebereich
(−2.074, 2.074)
Fur die Prufgroße erhalt man den Wert
t =x1 − x2
sgepoolt ·√n1+n2n1·n2
=22.67− 24.92
2.71 ·√
12+1212·12
= −2.03
StatSoz 339
Da
−2.074 < −2.03 < 2.074
kann H0 zum Testniveau α = 0.05 nicht abge-
lehnt werden.
Der p–Wert betragt
p(−2.03) = 0.054
Ungleiche Populations–Varianzen
Sind die Varianzen σ21 und σ2
2 der beiden (nor-
malverteilten) Grundgesamtheiten verschieden,
so muss die Prufgroße (11.4) etwas modifiziert
werden, da die gepoolte (Stichproben–)Varianz
als ein Schatzwert fur zwei ungleiche Varian-
zen keinen Sinn mehr macht und daher nicht
verwendet werden kann. Der geschatzte Stan-
StatSoz 340
dardfehler von x1 − x2 ist√s21n1
+s22n2
(vgl. die Ausfuhrungen in Abschnitt 9.3) und die
(modifizierte) Prufgroße ist die studentisierte
Mittelwertdifferenz
x1 − x2√s21n1
+s22n2
(11.5)
Fur Stichprobenumfange n1 ≥ 30, n2 ≥ 30 ist
diese Prufgroße annahernd standardnormalver-
teilt.
Unter der Normalverteilungsannahme ist die
Prufgroße (11.5) naherungsweise t–verteilt, wo-
bei die Anzahl der Freiheitsgrade aus den Da-
ten heraus geschatzt werden muss (die genaue
StatSoz 341
Verteilung ist unbekannt (Behrens–Fisher–Problem), vgl. Abschnitt 9.3). Dies ist dann
der sogenannte Welch–Test.
Statistische Softwarepakete berechnen den p–
Wert.
11.3 Fehler 1. Art und Fehler 2. Art
Bei einem Test sind zwei Arten von Fehlentschei-
dungen moglich:
Fehler 1. Art: Die Nullhypothese H0 wird ab-
gelehnt, obwohl sie richtig ist. Die Wahrschein-
lichkeit einen Fehler 1. Art zu begehen wird mit
α (alpha) bezeichnet.
Fehler 2. Art: Die Nullhypothese H0 wird nicht
abgelehnt, obwohl sie falsch ist. Die Wahrschein-
lichkeit einen Fehler 2. Art zu begehen wird mit
β (beta) bezeichnet.
StatSoz 342
Wir
klic
hke
it
Tes
ten
tsch
eid
un
g
H0
ist
wah
rH
1is
tw
ahr
kein
eA
ble
hn
un
gri
chti
ge
En
t-fa
lsch
eE
nt-
vonH
0sc
hei
du
ng
mit
sch
eid
un
gm
itW
ahrs
.1−α
Wah
rs.β
Ab
leh
nu
ng
fals
che
En
t-ri
chti
ge
En
t-vo
nH
0sc
hei
du
ng
mit
sch
eid
un
gm
itm
itW
ahrs
.α
Wah
rs.
1−β
StatSoz 343
Das Risiko einer Fehlentscheidung lasst sich
nicht ausschließen, aber in einem ganz bestimm-
ten Sinne begrenzen.
Es ist nun so, dass man die Fehler 1. Art und
2. Art nicht gleichzeitig kontrollieren kann. Die
Fehlerwahrscheinlichkeiten α und β lassen sich
nicht gleichzeitig minimieren. Eine Verkleine-
rung von α bedeutet eine Vergroßerung von β
(α ↓ β ↑) und umgekehrt (α ↑ β ↓).
Die Vorgehensweise ist nun die, dass man den
Fehler 1. Art (Entscheidung fur H1, obwohl H0
richtig ist) kontrolliert. Dies wird dadurch er-
reicht, indem man α klein wahlt, ublicherweise
fordert man α = 0.05 oder α = 0.01. Fur den p–
Wert bedeutet dies p ≤ 0.05 oder p ≤ 0.01. Die
Zahl α heißt Irrtumswahrscheinlichkeit oder
Signifikanzniveau.
StatSoz 344
Interpretation (fur α = 0.05):
Berechnet man aus allen Stichproben (gleichen
Umfangs) die Prufgroßenwerte, so wird sich un-
ter der Annahme der Gultigkeit von H0
– in 5% aller Falle ein Widerspruch zu H0 ein-
stellen,
– in 95% der Falle nicht.
Die Forderung, den Fehler 1. Art zu kontrollieren,
hat eine wichtige Konsequenz hinsichtlich der
Hypothesen H0 und H1:
Durch die Wahl einer kleinen Zahl α wird eine
richtige Nullhypothese H0 nur mit einer geringen
Fehlerwahrscheinlichkeit abgelehnt. Mat hat also
ein gewisses Vertrauen in diese Entscheidung.
StatSoz 345
Dagegen kann man kein Vertrauen haben in
die Entscheidung H0 zu akzeptieren, wenn die
Fehlerwahrscheinlichkeit β nicht kontrollierbar
ist.
Die Ablehnung der Nullhypothese ist dieeinzige Entscheidung, die mit einer gerin-gen Fehlerwahrscheinlichkeit getroffen wer-den kann. (Deshalb wird man immer das in die
Nullhypothese stecken, was man widerlegt haben
mochte!)
StatSoz 346
Zusammenfassung:
Fehler 1. Art (Type I error), α–Fehler
• Die Nullhypothese wird falschlicherweise ab-
gelehnt.
• Die Wahrscheinlichkeit fur einen Fehler 1. Art
wird im Voraus (d. h. vor Testdurchfuhrung)
durch eine kleine Zahl α (alpha) festgelegt.
• α wird nicht durch den Stichprobenumfang
beeinflusst.
StatSoz 347
Fehler 2. Art (Type II error), β–Fehler
• Die Nullhypothese wird falschlicherweise nicht
abgelehnt.
• Die Wahrscheinlichkeit fur einen Fehler 2. Art
wird mit β (beta) bezeichnet.
• β hangt vom Stichprobenumfang und α ab.
Mit großerem Stichprobenumfang wird β klei-
ner (n ↑ β ↓, in diesem Sinne lasst sich β
kontrollieren).
• β ist fur einseitige und zweiseitige Alternati-
ven verschieden.
• β kann nur dann bestimmt werden, wenn die
wahre Alternative, also der wahre Effekt bzw.
Unterschied, bekannt ist oder hypothetisch
festgelegt wird.
StatSoz 348
Fortsetzung von Bsp. 11.1: Frage: Wie groß
ist β, falls tatsachlich
µ1 − µ2 = 2
ist? Also: Wie groß ist die Wahrscheinlichkeit,
unter der Gultigkeit der Alternative µ1−µ2 =
2 einen t–Wert zu beobachten, der kleiner als
1.833 ist?
Antwort: β = 0.42...
StatSoz 349
Abbildung 11–8 Bild oben: Unter H0 (Mittelwertdiffe-
renz=0): t–Verteilung mit df = 9, tkrit = t9;0.95 = 1.833;
Fehlerwahrscheinlichkeit 1. Art = 0.05 = graue Flache
= Flache oberhalb von 1.833; Bild unten: Alternative:
t–Verteilung mit df = 9 um 2 nach rechts verschoben
(Mittelwertdifferenz=2), Fehlerwahrscheinlichkeit 2. Art
β = graue Flache = Flache unterhalb von 1.833 ≈ 0.42.
StatSoz 350
Die Zahl
1− Fehlerwahrscheinlichkeit 2. Art = 1−β
heißt Power, man sagt auch
Macht, Gute, Trennscharfe
des Tests.
Dies ist die Wahrscheinlichkeit der Ablehnung
von H0, wenn H1 richtig ist. Diese sollte
naturlich moglichst groß sein, da die Entdeckung
einer richtigen Alternative der eigentliche Zweck
des Hypothesentestens ist. In den meisten prak-
tischen Fragestellungen bleibt der Fehler 2. Art
jedoch unberucksichtigt (man spricht dann von
Signifikanztests).
StatSoz 351
11.4 Typische Fehler im Umgang mit stati-stischen Tests
1. Eine Hypothese kann aufgrund eines sta-
tistischen Tests weder (logisch) ,,widerlegt”
noch ,,bewiesen” werden. Zufallsbehaftete Da-
ten konnen mit verschiedenen parametrischen
Modellen ,,in Einklang stehen”! Liegt der beob-
achtete Prufgroßenwert nicht im kritischen Be-
reich, so sagt man dazu, dass die Daten (Beob-
achtungen) nicht im Widerspruch zu H0 stehen.
Man spricht immer nur vom Ablehnen, Ver-
werfen oder Nichtablehnen, Nichtverwerfen der
Nullhypothese. Ein Nichtverwerfen der Null-hypothese bedeutet nicht unbedingt, dasssie zutrifft, sondern nur, dass sie nichtgenugend unplausibel ist, um verworfen zuwerden!
StatSoz 352
2. Es ist ferner vom Grundprinzip statistischer
Tests her unzulassig, eine Hypothese, die durch
,,Sichtung” der Daten gewonnen wurde, an-
hand derselben Daten zu testen. Dem Test
bleibt nichts anderes ubrig, als dem Wunsch
des ,,Hypothesen–Formulierers” entsprechend zu
antworten. Es ist vollig legitim, aufgrund von Da-
ten Hypothesen zu formulieren, zu generieren.
Nur: Wer erst aufgrund eines Datensatzeszu einer Hypothese kommt, braucht neueDaten, um diese Hypothese zu bestatigen!
3. Ergibt ein Test zur Irrtumswahrscheinlichkeit
α die Ablehnung von H0, so ist eine Formulie-
rung wie ,,Die Wahrscheinlichkeit ist hochstens
α, dass aufgrund des Testergebnisses die Hy-
pothese H0 zutrifft” sinnlos. Denn die Zahl α
gibt nicht an, mit welcher Wahrscheinlichkeit ei-
ne aufgrund von Daten getroffene Entscheidung
falsch ist. Die Wahrscheinlichkeit α charakteri-
StatSoz 353
siert nur in dem Sinne das Testverfahren, dass
bei Unterstellung der Gultigkeit von H0 die
Wahrscheinlichkeit fur eine Ablehnung von H0
hochstens α ist, d. h. in vielen Testdurchfuhrun-
gen wird es (unter der Gultigkeit von H0) in
etwa α · 100% der Falle zu einer Ablehnung von
H0 kommen. In jedem dieser Falle wurde mit
Sicherheit eine falsche Entscheidung getroffen.
Aber: Diese ,,Sicherheit” war nur vorhanden,
weil a priori die Gultigkeit von H0 in al-len Testdurchfuhrungen unterstellt wurde!!!In gleicher Weise wird sich bei Unterstellung
der Gultigkeit der Alternative H1 ein gewisser
Prozentsatz von signifikanten Ergebnissen, also
Ablehnungen von H0, einstellen. Hier hat man
in jedem dieser Falle eine richtige Entscheidung
getroffen, weil die Gultigkeit von H1 a priori
unterstellt wurde. Im Allgemeinen besitzt man
jedoch keinerlei Information daruber, ob bei der
Testdurchfuhrung H0 oder H1 zutrifft (sonst
StatSoz 354
konnte man sich das Testen ersparen)!
Entsprechendes gilt fur den p–Wert. Zur Erin-
nerung: Der p–Wert hangt vom Prufgroßenwert
und damit von den Daten ab. Ist wie in Bsp.11.1 p(2.48) = 0.035, so sind Aussagen der
Form ,,die Nullhypothese hat die Wahrschein-
lichkeit 0.035” bzw. ,,die Nullhypothese ist mit
Wahrscheinlichkeit 0.035 richtig” falsch. Model-
le haben selbst keine Wahrscheinlichkeiten, sie
legen Wahrscheinlichkeiten fur Beobachtungen
und Teststatistiken fest!
StatSoz 355
Appendix A: Uberprufung der Annahmenbeim t–Test
Fur große Stichprobenumfange ist der t–
Test robust (unempfindlich) gegenuber Abwei-
chungen der Normalverteilung: Dies bedeutet:
Die Fehlerwahrscheinlichkeiten α und β blei-
ben nahezu unverandert. Fur kleine Stichpro-
benumfange muss im Allgemeinen die Normal-
verteilungsannahme gepruft werden. Histogram-
me geben einen ersten Hinweis, sind aber zur
Prufung nicht geeignet.
Ein geeigneteres Instrument der graphischen
Uberprufung auf Normalverteilung ist der sogen-
ante Quantil–Quantil–Plot, kurz QQ–Plot. Er
vergleicht die Quantile der empirischen Vertei-
lung mit den entsprechenden Quantilen der Nor-
malverteilung. Zeigt dieser einen linearen Ver-
lauf (Gerade), so deutet dies auf normalverteilte
StatSoz 356
Daten hin. Die Interpretation von QQ–Plots er-
fordert jedoch einige Erfahrungen.
Auf Normalitat kann auch (statistisch) getestet
werden. Geeignete Tests sind z. B. der
• Shapiro–Wilk–Test und der
• Kolmogorov–Smirnov–Test, korrigiert nach
Lilliefors.
Achtung! Klassische Tests wie der Chi–
Quadrat–Anpassungstest und der (nicht–
korrigierte) Kolmogorov–Smirnov–Test sind un-
geeignet!!!
Prufung der Varianzhomogenitat bei un-
abhangigen Stichproben:
• Levene–Test (p–Wert groß, etwa p > 0.05,
StatSoz 357
Daten sprechen nicht gegen die Varianzhomo-
genitat).
Achtung! Der sogenannte F–Test zur Uber-
prufung der Varianzhomogenitat sollte nicht ver-
wendet werden.
Appendix B: t–Test mit SPSS
Fortsetzung von Bsp. 9.3:
Dateneingabe: Sie erfolgt im Daten–Editor–
Fenster nach folgendem Muster:
StatSoz 358
Befehle: Folgende Befehle sind aus der Menulei-
StatSoz 359
ste auszuwahlen:
Analysieren
Mittelwerte vergleichen
T–Test fur unabhangige Stichproben
Programm–Output:
0.95–Konfidenzintervalle werden automatisch
mitgeliefert. Da der Levene–Test den p–Wert
0.558 liefert, sprechen die Daten nicht gegen die
Annahme der Varianzhomogenitat.
StatSoz 360