View
5
Download
0
Category
Preview:
Citation preview
ZWEISEITIGER Z-TEST
1
2
Anwendungsbeispiel
Das Angstniveau eines Patienten wird auf einer Skala von 1 bis 10 gemessen. Der Wert des Patienten liegt bei 5. In der Population sei eine Mitte von 6 und eine Streuung von 1 bei unbehandelten Patienten bekannt. Testen Sie einseitig die rechte Seite (zu große Angst). Das Testniveau beträgt 5%. War die Therapie erfolgreich? 1) Geben Sie die Hypothesen an. 2) Berechnen Sie den kritischen Wert. 3) Berechnen Sie den p-Wert. 4) Skizzieren Sie beide Werte anhand der Testverteilung. 5) Führen Sie den Inferenzschluss durch.
Lernziele Ich kenne die Begriffe...
Zweiseitiger z-Signifikanztest Ungerichtete H1 z-Test bei beliebigem n z-Test bei unbekannter Streuung Standardfehler des Mittelwertes
Ich kann anwenden...
Alle z-Test-Varianten
4
Einseitiger Test
Stichprobenverteilung für X
xµ µ0
H0
xµ µ0
H0Kritischer Wert
↵
Ablehnungsbereich
keine Ablehnung
Prüfgröße VH0 nicht abgelehnt
Prüfgröße XH0 abgelehnt
dasud@statistik.wu-wien.ac.at – (2003) Statistik – Einfuhrung // Tests auf einen Parameter – 8 – p.15/74
Zweiseitiger Test
Stichprobenverteilung für X
xµ µ0
H0
xµ µ0
H0Kritischer Wert
↵ 2
Kritischer Wert
↵ 2
Ablehnungsbereich Ablehnungsbereich
keine Ablehnung
Prüfgröße VH0 nicht abgelehnt
Prüfgröße XH0 abgelehnt
Prüfgröße XH0 abgelehnt
dasud@statistik.wu-wien.ac.at – (2003) Statistik – Einfuhrung // Tests auf einen Parameter – 8 – p.16/74
Fehler beim Testen
dasud@statistik.wu-wien.ac.at – (2003) Statistik – Einfuhrung // Tests auf einen Parameter – 8 – p.17/74
Wiederholung
5
Der zweiseitige z-Test
Einseitiger Test
Stichprobenverteilung für X
xµ µ0
H0
xµ µ0
H0Kritischer Wert
↵
Ablehnungsbereich
keine Ablehnung
Prüfgröße VH0 nicht abgelehnt
Prüfgröße XH0 abgelehnt
dasud@statistik.wu-wien.ac.at – (2003) Statistik – Einfuhrung // Tests auf einen Parameter – 8 – p.15/74
Zweiseitiger Test
Stichprobenverteilung für X
xµ µ0
H0
xµ µ0
H0Kritischer Wert
↵ 2
Kritischer Wert
↵ 2
Ablehnungsbereich Ablehnungsbereich
keine Ablehnung
Prüfgröße VH0 nicht abgelehnt
Prüfgröße XH0 abgelehnt
Prüfgröße XH0 abgelehnt
dasud@statistik.wu-wien.ac.at – (2003) Statistik – Einfuhrung // Tests auf einen Parameter – 8 – p.16/74
Fehler beim Testen
dasud@statistik.wu-wien.ac.at – (2003) Statistik – Einfuhrung // Tests auf einen Parameter – 8 – p.17/74
Zweiseitiger z-Test
6
Bisher: Die durchschnittliche Lehrveranstaltungsdauer beträgt mindestens 90 Minuten! Absicherung gegen die geringere Dauer Jetzt: Die durchschnittliche Dauer kann geringer und höher ausfallen!
Hypothesen
7
Die folgenden Hypothesen kennzeichnen einen zweiseitigen Signifikanztest (two-tailed test): H0= 90 H1≠ 90 H1 nennt man in diesem Fall auch eine ungerichtete Hypothese.
8
Rahmenbedingungen Für das N(µ, 2)-verteilte Merkmal X („Dauer einer Lehrveranstaltung“)
soll bei einem Testniveau von 5%
mittels einer Zufallsstichprobe vom Umfang n=1
die Nullhypothese H0(µ=90) gegen die H1(µ ≠ 90)
(mit dem Testwert xtest=89) geprüft werden!
9
Zu bestimmen sind daher ein unterer und ein oberer kritischer Wert!
10
Inferenzschluss Ø Liegt ein Testwert unterhalb des xkrito und oberhalb
des xkritu, so ist die H0 anzunehmen. Ø Ist ein Testwert größer oder gleich xkrito bzw.
kleiner oder gleich xkritu, ist die H1 anzunehmen.
11
Berechnung des oberen kritischen Wertes:
Es gilt:
Wegen der Symmetrie:
⎟⎠
⎞⎜⎝
⎛ −≥
−=≥==
290
290)(
2025,0 90
90krito
kritoxXprobxXprobα
)(290
9090
kritokrito zZprobzXprob ≥=⎟⎠
⎞⎜⎝
⎛ ≥−
=
zkrito =1,96
xkrito − 902
= zkrito =1,96
xkrito = 90+ (1, 96*2) = 93,92
08,86)2*96,1(90 =−=kritux
95,005,01)92,9308,86( 90 =−=<< Xprob
12
Anderer Ansatz: Berechnung des p-Wertes:
Es gilt:
Der p-Wert ist größer als das halbierte Testniveau, damit H0-Annahme.
prob(X90 ≤ 89) = probX90 − 902
≤89− 902
#
$%
&
'(= prob Z90 ≤ −0,5( )
prob(Z90 ≤ −0,5) = 0,3085
DER Z-TEST FÜR EIN BELIEBIGES N & BEKANNTER STREUUNG
13
14
Vermutung Wenn man bereit ist, einen größeren Aufwand zu betreiben, indem man die Dauer einer größeren Anzahl von Lehrveranstaltungen untersucht, so kann man eine größere Sicherheit bei der Test-Entscheidung erlangen! Zielsetzung: Verwendung einer Teststatistik mit möglichst geringer Streuung in der Testverteilung
Warum ist eine geringe Streuung wichtig?
15
Herleitung: Teststatistik Vorgehen:
Jedes Element einer Zufallsstichprobe lässt sich als Realisierung eines Exemplars der Teststatistik „Xµ0
“ auffassen!
X
Xµ0 , i : i-tes Exemplar der Teststatistik „Xµ0
“
16
Die Teststatistik
Gebildet wird:
X
17
Feststellung: Je größer der Umfang der Zufallsstichprobe ist, desto geringer ist die Streuung der Teststatistik µ0
X__
18
Die Teststatistik Durch eine z-Transformation lässt sich erreichen:
X
Mit den Testvoraussetzungen:
19
Durchführung des z-Tests:
(d) Zu berechnen ist der folgende Testwert:
20
Durchführung des z-Tests:
21
Beispiel für einen ein- & zweiseitigen z-Test
22
Einseitiger z-Test (H1<90) & n=16
Zunächst wird berechnet:
Deswegen gilt:
Zugehöriges p-Niveau beim einseitigen z-Test:
0,0228
x_=116
(4*88)+ (8*89)+ (4*90( )) = 89
ztest =_
x − 90216
=89− 90216
= −2
23
Zweiseitiger z-Test
Für den Inferenzschluss beim zweiseitigen z-Test ist der Wert „0,0228“ daher mit dem halbierten Testniveau von „0,05“ zu vergleichen!
DER Z-TEST BEI UNBEKANNTER STREUUNG
24
25
15 Minuten Pause
http://media.w
endland-net.de/files/1/s/1sq6x8ef6yqo/im
ages_1349363034_L.jpg
z-Test ohne σ
26
Bisher: Bei der Prüfung einer unbekannten Mitte war bislang stets die Kenntnis der Streuung unterstellt worden. Jetzt: Normalerweise ist die Streuung unbekannt.
27
z-Test ohne σ
Dies ist die Standardabweichung!
Teststatistik:
Dabei ist die Stichprobenfunktion SX wie folgt vereinbart:
Realisierung dieser Stichprobenfunktion:
28
Es gilt der Zentrale Grenzwertsatz
Es gilt:
Standardfehler des Mittelwerts:
29
30
31
Der feine Unterschied zwischen sx & SEM
(=Standard Error Mean)
Originalarbeit 259
Koschack J. Standardabweichung und Standardfehler … Z Allg Med 2008 ; 84: 258 – 260
nach bestimmten Kriterien zusammengestellte Teilgruppe der eigentlichen Grundgesamtheit, z. B. 20 allgemeinmedizinische Praxen aus dem Raum G ö ttingen als Stichprobe aus der Grund-gesamtheit aller allgemeinmedizinischen Praxen in Deutsch-land. Mit anderen Worten: Der Standardfehler zeigt die theore-tische Streubreite des Stichprobenmittelwerts, im Gegensatz zur Standardabweichung, die die reale Streubreite aller Werte der Stichprobe beschreibt. Der Standardfehler wird berechnet, in- dem die Varianz s der untersuchten Patientengruppe durch die Wurzel des Stichprobenumfangs n geteilt wird:
Es wird nun gerne behauptet, die Angabe des Standardfehlers sei sinnvoll, weil damit die Genauigkeit der Messung des Mittel-werts ersichtlich wird. In einer nicht nat ü rlichen Untersu-chungssituation, wie z. B. bei Experimenten mit genetisch iden-tischen Labortieren, ist dieses Argument nachvollziehbar: Da alle Tiere identisch sind, gehen die Unterschiede zwischen der Kontrollgruppe und der Experimentalgruppe allein auf die Ver-suchsanordnung zur ü ck. Ein Beispiel w ä re ein Laborwert, in dem sich die beiden Gruppen unterscheiden, weil die Tiere un-terschiedliches Futter bekommen haben. Dass nicht alle Tiere einer Gruppe den absolut identischen Laborwert aufweisen, liegt daran, dass die Bestimmung des Laborwerts einer gewissen Ungenauigkeit unterworfen ist. Es ist nicht auf die biologische Variabilit ä t zur ü ckzuf ü hren, da diese durch den Einsatz gene-tisch identischer Tiere konstant gehalten wurde. In klinischen Studien mit Patienten hingegen interessiert genau diese biolo-gische Variabilit ä t, die durch die Standardabweichung beschrie-ben wird! Die Angabe des Standardfehlers anstelle der Stan-dardabweichung verschleiert also gelegentlich die sehr gro ß e (biologisch bedingte) Streubreite des erhobenen Werts. Im Ge-gensatz zur Standardabweichung, die nur in einem geringen Ausma ß durch die Gr ö ß e der Stichprobe beeinfl u ß bar ist, wird der Standardfehler des Mittelwerts kleiner, je gr ö ß er die Stich-probe ist. Die Angabe der Standardabweichung ist also auf jeden Fall der des Standardfehlers vorzuziehen. Im Hinterkopf sollte aber be-halten werden, dass statistische Aussagen, z. B. ü ber einen signi-fi kanten Unterschied zwischen zwei Patientengruppen, mathe-matisch auf den Standardfehler zur ü ckgehen. Die Statistik trifft eine Aussage dar ü ber, ob der Unterschied zwischen zwei Pa-tientengruppen nicht nur zuf ä llig, sondern unter Ber ü cksichti-
gung der Me ß ungenauigkeit (Standardfehler!) statistisch signi-fi kant ist ( ! " Tab. 1 ).
Ein kleines Rechenbeispiel & Ein kleines Rechenbeispiel, basierend auf Daten einer realen Studie [4] , veranschaulicht die Zusammenh ä nge zwischen Stich-probengr ö ß e und Standardfehler und damit zusammenh ä ngend die Signifi kanz von Gruppenunterschieden. Der zuvor beschrie-bene Unterschied zwischen Standardabweichung und Standard-fehler wird ebenfalls deutlich. Gegeben seien zwei Gruppen mit jeweils 15 Patienten. Beide Gruppen setzen sich zusammen aus Patienten mit kardiovasku-l ä ren Risikofaktoren; Patienten der Gruppe A1 zeigen eine ein-geschr ä nkte Ejektionsfraktion, Patienten der Gruppe B1 hinge-gen haben unauff ä llige echokardiographische Ergebnisse. Ein Mittelwertsvergleich soll nun pr ü fen, ob sich die beiden Grup-pen bez ü glich eines Laborwerts, dem sogenannten NT-proBNP (N-terminal pro-brain natriuretic peptide), signifi kant unter-scheiden. Dahinter steht die Idee, diesen Laborparameter zu-k ü nftig zur Diagnostik einer eingeschr ä nkten linksventrikul ä ren Funktion und somit als Ersatz f ü r die Echokardiographie einzu-setzen. Als statistische Spielerei werden zwei weitere Gruppen A2 und B2 mit jeweils 45 Patienten dargestellt. Deren Daten er-geben sich durch eine simple Verdreifachung der realen Werte der Gruppen A1 und B1. ! " Tab. 2 zeigt nun die Mittelwerte, Standardfehler und Standardabweichungen sowie das Ergebnis des t-Tests f ü r unabh ä ngige Stichproben, mit dem ü berpr ü ft wurde, ob sich die beiden Gruppen bez ü glich des NT-proBNP statistisch signifi kant unterscheiden. Die in ! " Tab. 2 abgebildeten Zahlen verdeutlichen, in welchem Ausma ß der Standardfehler kleiner wird, wenn die Stichproben-gr ö ß e verdreifacht wird, n ä mlich um 44 % (Gruppe A2 zu A1 = 378 zu 670 bzw. Gruppe B2 zu B1 = 25 zu 45). Die Standardabwei-chung hingegen verringert sich lediglich um 2 % (Gruppe A2 zu A1 = 2 535 zu 2 595 bzw. Gruppe B2 zu B1 = 170 zu 174). Obwohl die Mittelwerte identisch bleiben und die biologische Variabili-t ä t ( = Standardabweichung) der Laborwerte sich nur unwesent-lich verringert, wird die Ü berpr ü fung der Gruppenunterschiede signifi kant. Jeder Kliniker w ü rde selbst bei diesem signifi kanten Ergebnis z ö gern, den Laborwert f ü r eine diagnostische Entschei-dung heranziehen, wenn er die sehr gro ß en Standardabwei-chungen in den Gruppen sieht. Es ist ihm klar, dass der Ü berlap-pungsbereich der Laborwerte der beiden Gruppen sehr gro ß ist, also sehr viele Werte keine klare Entscheidung zulassen, ob eine verminderte Ejektionsfraktion vorliegt oder nicht. Allenfalls ex-trem hohe oder sehr niedrige Werte sind aussagekr ä ftig; eine Vielzahl an Werten bleibt jedoch uneindeutig. Die Angabe der Standardfehler statt der Standardabweichungen verschleiert
Tab. 1 Vergleich zwischen Standardabweichung SD und Standardfehler SEM
Standardabweichung (SD) Standardfehler (SEM)
– ist eine Aussage ü ber die Streuung der erhobenen Werte in einer Stichprobe
– ist eine Aussage ü ber die „ Genauigkeit “ des Mittelwerts in einer Stichprobe
– h ä ngt von der biologischen Variabilit ä t ab
– h ä ngt von der Me ß genauigkeit ab
– ist ein beschreibenden Ma ß – ist ein statistisches Ma ß – ist nur wenig durch die Gr ö ß e der
Stichprobe beeinfl u ß bar – steht in direktem Verh ä ltnis zur
Gr ö ß e der Stichprobe
–4 SD
x
68%
4 SD3 SD2 SD1 SD–1 SD–2 SD–3 SD
Abb. 1 Normalverteilungskurve mit x als Mittelwert und SD als Standardabweichung.
SEM = sn
32
Der feine Unterschied zwischen sx & SEM
Der Standardfehler des Mittelwertes
Die Streuung der Verteilung der Mittelwerte wird auch als Standardfehler des Mittelwertes bezeichnet.
Der Standardfehler gibt an, wie nah ein empirischer Stichprobenmittelwert durchschnittlich am wahren Populationsmittelwert liegt.
Dieser Standardfehler des Mittelwertes kann direkt ermittelt werden, ohne dass man mehrere Stichproben erheben muss:
NNxx
xσσ
σ
==
2
- 33
Der Standardfehler des Mittelwertes
Beispiel: In einer bestimmten Population, z.B. in einer Hochbegabten-Klasse, soll für ein Forschungsprojekt der mittlere IQ bestimmt werden. Es werden 10 Kinder getestet.
Es ergibt sich ein Mittelwert von 125 bei einer geschätzten Populationsvarianz von 90.
Wie groß ist der Standardfehler dieses Mittelwertes?
Wie groß wäre der Standardfehler bei einer Varianz von 250?
Und wie groß, wenn 90 Kinder getestet worden wären?
391090
===xσ
52510250
===xσ
119090
===xσ- 34
Interpretation des Standardfehlers
Der Standardfehler ist die Standardabweichung der Stichprobenkennwerteverteilung. Da diese normalverteilt ist, kann die Wahrscheinlichkeit dafür berechnet werden, dass der Mittelwert in einem bestimmten Intervall liegt.
118 121 124 =127 130 133 136
0
0,1
0,2
0,3
0,4
M=125
Mit p=.68 ist der Populationsmittelwert höchstens einen Std.-Fehler vom Stichprobenmittelwert entfernt
- 35
Wichtig! Standardfehler Standardabweichung
Varianz
≠Standardabweichung der Stichprobenkennwert- Verteilung Standardfehler des Mittelwertes
NNxx
xσσ
σ
==
2
Streuung der Stichprobenkennwerte um den Mittelwert Populationsschätzer
1
)(ˆ 1_
22
−
−=∑
N
xxN
i ixσ
37
Standardfehler des Mittelwerts
Ø Untersucht man mehrere Stichproben aus derselben Population, wird man unterschiedliche Mittelwerte erhalten. Trotz großer Standardabweichung werden die Mittelwerte nahe beieinander liegen. Die Abstände zwischen den Mittelwerten werden umso kleiner, je größer n.
Ø Der Standardfehler des Mittelwerts liefert ein Maß dafür, wie sehr sich Mittelwerte unterschiedlicher Stichproben aus einer Population mit wahrem Mittelwert unterscheiden. Damit ist er ein Maß für die Genauigkeit, mit welcher der wahre Mittelwert durch einen Stichprobenmittelwert geschätzt wird.
38
Berechnung mit SPSS & R
FREQUENCIES VARIABLES=X /FORMAT=NOTABLES/STATISTICS=SEMEAN.
x <- c(1,2,3,4)!!
library(plotrix)!std.error(x)!!
Oder auch von Hand:!!
(var(x) / length(x))^.5!
39
Beim zweiseitigem z-Test akzeptieren Sie die H1, wenn ... a) SN>TN b) Testwert<xkrito
c) Testwert<xkritu d) TN>SN
40
Beispiel für einen ein- & zweiseitigen z-Test mit unbekannter Streuung
41
Testwert für den z-Test bei unbekannter Streuung:
Beispiel:
n=36 5,89=x
resultierender Testwert:
zugehöriger p-Wert: 0,0475
Testniveau: 0,05
zweiseitiger Test: einseitiger Test:
kein signifikantes Testergebnis! signifikantes Testergebnis!
sx =1,8
42
Anwendungsbeispiel Einseitiger Test auf Mittelwert // Beispiel
Bei einem neuen Automodell wurde bei 50 getesteten Fahrzeugenein durchschnittlicher Benzinverbrauch von x 6.7 l/100 kmermittelt. Vergleichbare Fahrzeuge haben eine Benzinverbrauchvon 6.8 l/100 km. Es ist außerdem bekannt, dass die Standard-abweichung 0.52 l/100 km beträgt.
Kann man bei einem Signifikanzniveau von ↵ 1% schließen,dass das neue Modell durchschnittlich weniger Benzin verbraucht?
dasud@statistik.wu-wien.ac.at – (2003) Statistik – Einfuhrung // Tests auf einen Parameter – 8 – p.36/74
Einseitiger Test auf Mittelwert // Lösung
H0: µ 6.8
HA
: µ 6.8
↵ 0.01
n 50
Kritischer Wert: 2.33
02.33
1%
H0 ablehnen
V
Teststatistik:
Z X µ0� n
6.7 6.80.52 50
1.36
Entscheidung:H0 wird nicht abgelehnt.
Interpretation:Das Modell verbraucht nichtsignifikant weniger Benzin.
dasud@statistik.wu-wien.ac.at – (2003) Statistik – Einfuhrung // Tests auf einen Parameter – 8 – p.37/74
Beobachtetes Signifikanzniveau:
Der p-Wert.
Eine andere Sichtweise
dasud@statistik.wu-wien.ac.at – (2003) Statistik – Einfuhrung // Tests auf einen Parameter – 8 – p.38/74
----------- Test
43
44
Anwendungsbeispiel
Der p-Wert
Dient zur Entscheidung, ob abgelehnt werden soll.H0 wird abgelehnt, falls p-Wert ↵.H0 wird nicht abgelehnt, falls p-Wert ↵.
Beobachtetes Signifikanzniveau.Kleinster Wert für ↵, für den H0 abgelehnt werden muss.
Ist die Wahrscheinlichkeit eine Teststatistik zu erhalten, diezumindest so extrem ( , ) ist wie die beobachteteTeststatistik, unter der Voraussetzung, dass H0 zutrifft.
dasud@statistik.wu-wien.ac.at – (2003) Statistik – Einfuhrung // Tests auf einen Parameter – 8 – p.39/74
Zweiseitiger Test auf Mittelwert // p-Wert
Eine Packung Cornflakes enthält laut Verpackung durchschnittlich368 g. Bei 25 zufällig ausgewählten Packungen wird eineDurchschnittsmenge von x 372.5 g festgestellt. Die Abfüll-maschine arbeitet mit einer Präzision von � 15 g.
Wie lautet der p-Wert?
dasud@statistik.wu-wien.ac.at – (2003) Statistik – Einfuhrung // Tests auf einen Parameter – 8 – p.40/74
Zweiseitiger Test auf Mittelwert // p-Wert
Z X µ0� n
372.5 36815 25
1.5 (Krit. Werte bei ↵ 0.05 : 1.96)
p-Wert P Z 1.5 oder Z 1.5 2 0.5 0.4332 0.1336
01.5 1.51.96 1.96
12 p-Wert 1
2 p-Wert0.4332
aus Tabelle
p-Wert ↵ 0.05, H0 wird nicht abgelehnt.
dasud@statistik.wu-wien.ac.at – (2003) Statistik – Einfuhrung // Tests auf einen Parameter – 8 – p.41/74
Recommended