30
Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische Fakultät Einführung in die Statistik Stichproben- umfangsplanung

Einführung in die Statistik - tu-chemnitz.de · Prof. Dr. Günter Daniel Rey Professur Psychologie digitaler Lernmedien Institut für Medienforschung Philosophische Fakultät Einführung

Embed Size (px)

Citation preview

Prof. Dr. Günter Daniel Rey

Professur Psychologie digitaler LernmedienInstitut für Medienforschung Philosophische Fakultät

Einführung in die Statistik

Stichproben-umfangsplanung

27. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

• Einführung• Signifikanzniveau• Teststärke• Effektgröße• Weitere Einflussgrößen• Berechnung des Stichprobenumfangs

Überblick

37. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

• Stichprobenumfangsplanung sollte im Vorfeld einer Studie erfolgen• Forschungspraxis: Meist keine Stichprobenumfangsplanung• Probleme bei fehlender Stichprobenumfangsplanung

• Fehlende Wahrscheinlichkeitsangabe: Bei nicht signifikantem Ergebnis unklar, ob die Nullhypothese angenommen werden kann

• Unzureichende Ökonomie: Idealerweise sollten genauso viele Versuchspersonen erhoben werden wie benötigt

• Drei zentrale Einflussgrößen auf den Stichprobenumfang• Signifikanzniveau• Teststärke• Effektgröße

Einführung (Rey, 2017)

47. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

• 4 x 3 x 3-faktorielles, univariates Versuchsdesign ohne MW

Beispiel für eine Stichprobenumfangs-planung (Rey, 2017)

0

0,2

0,4

0,6

0,8

1

1,2

0 1 2 3 4 5 F-Wert

WahrscheinlichkeitsdichteBeta 1-Beta Alpha Nullhypothese Alternativhypothese

N = 129 für die komplexeste WW bei α = .05, 1 – β = .80 und f2 = 0.15

57. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

• Statistische Signifikanz: Wahrscheinlichkeit, dass das gefundene Ergebnis oder extremere Ergebnisse bei Gültigkeit der Nullhypothese eintreten

• Konventionen für die Entscheidungsfindung auf Basis der berechneten Wahrscheinlichkeit (p-Wert)

Signifikanzniveau (z.B. Bortz & Schuster, 2010; Döring & Bortz, 2015)

Nicht signifikant Signifikant Sehr

signifikantHoch

signifikantp-Wert > 5% ≤ 5% ≤ 1% ≤ 0.1%

Abkürzung n.s. * ** ***

67. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

0

0,2

0,4

0,6

0,8

1

1,2

0 1 2 3 4 5 F-Wert

WahrscheinlichkeitsdichteBeta 1-Beta Alpha Nullhypothese Alternativhypothese

• Je kleiner das Signifikanzniveau, desto kleiner die Teststärke (1 – β)• Veränderung des Signifikanzniveaus wirkt sich nicht auf die

Kurvenverläufe der zentralen und nonzentralen Verteilung aus• Beispiel für den Einfluss des Signifikanzniveaus auf die Teststärke:

Einfluss des Signifikanzniveaus auf die Teststärke (Rey, 2017)

0

0,2

0,4

0,6

0,8

1

1,2

0 1 2 3 4 5 F-Wert

WahrscheinlichkeitsdichteBeta 1-Beta Alpha Nullhypothese Alternativhypothese

α = 0.05 α = 0.01

1 – β = 0.80 1 – β = 0.58

77. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

• Je kleiner das Signifikanzniveau, desto größer der benötigte Stichprobenumfang

• Beispiel: Stichprobenumfänge für ein 2 x 2 faktorielles Design mit einem angenommenen mittleren Effekt von f = 0.25 und einer gewünschten Teststärke (1 – β) von 0.80:

Einfluss des Signifikanzniveaus auf den Stichprobenumfang

Signifikanzniveau Stichprobenumfang5.0% 1281.0% 1910.1% 279

87. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

0

0,2

0,4

0,6

0,8

1

1,2

0 1 2 3 4 5 F-Wert

WahrscheinlichkeitsdichteBeta 1-Beta Alpha Nullhypothese Alternativhypothese

0

0,2

0,4

0,6

0,8

1

1,2

0 1 2 3 4 5 F-Wert

WahrscheinlichkeitsdichteBeta 1-Beta Alpha Nullhypothese Alternativhypothese

• Je mehr Versuchspersonen, desto größer die Teststärke (1 – β)• Gründe hierfür:

• Veränderung der zentralen Verteilung• Veränderung der nonzentralen Verteilung

• Beispiel für den Einfluss des Stichprobenumfangs auf die Teststärke:

Einfluss des Stichprobenumfangs auf die Teststärke (Rey, 2017)

N = 50 N = 129

1 – β = 0.21 1 – β = 0.80F-Wert

97. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

• Je größer die (gewünschte) Teststärke, desto größer der benötigte Stichprobenumfang

• Beispiel: Stichprobenumfänge für ein 2 x 2 faktorielles Design mit einem angenommenen mittleren Effekt von f = 0.25 und einem Signifikanzniveau von 5%:

Einfluss der Teststärke auf den Stichprobenumfang

Teststärke Stichprobenumfang80% 12895% 21099% 296

107. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

• Effektgröße: Statistischer Kennwert, der angibt, wie gut das gesuchte Muster in den Zahlen erkennbar ist bzw. wie stark sich das gesuchte Signal vom Umgebungsrauschen unterscheidet

• Vorteile durch Angabe von (standardisierten) Effektgrößen• Leichtere Interpretierbarkeit der Ergebnisse• Mögliche Vergleichbarkeit von Studien• Einfache Aggregation für Metaanalysen

• Verschiedene Effektgrößen wie d, ηp², f, f² oder ωp²• Jede Effektgröße kann in jede andere Effektgröße umgerechnet

werden• Webseite zur Umrechnung: www.psychometrica.de/effektstaerke

Effektgröße (Rey, 2017)

117. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

• Konventionen zur Einschätzung verschiedener Effektgrößen

• Wichtig: Die Konventionen sind numerisch nicht äquivalent!

Effektgröße (Cohen, 1988)

Effektgröße Kleiner Effekt Mittlerer Effekt Großer Effektd 0.20 0.50 0.80

ηp² 0.01 0.06 0.14f 0.10 0.25 0.40f² 0.02 0.15 0.35

ωp² 0.01 0.06 0.14

127. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

• Effektgröße d als standardisierte Distanz zwischen zwei Stichprobenmittelwerten

• Formel:

• Beispiel zur Berechnung (vgl. Folien zur letzten Sitzung):

• Wertebereich von d reicht von – Unendlich bis + Unendlich

Effektgröße (z.B. Rasch, Friese, Hofmann & Naumann, 2014)

2

ˆˆ 22

21

21 xx

xxd

x1 = Mittelwert der Stichprobe 1x2 = Mittelwert der Stichprobe 2σx1

2 = Geschätzte Varianz der Stichprobe 1σx2

2 = Geschätzte Varianz der Stichprobe 2

59.7625.0

0.6

2

625.0625.0

0.20.8

d

137. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

• Partielles Eta-Quadrat (ηp²): Effektgröße, die den Anteil der aufgeklärten Variabilität der Messwerte relativ zur Summe der Quadratsummen des systematischen Effekts und des Residuums auf der Ebene der Stichprobe angibt

• Formel:

• Beispiel zur Berechnung (vgl. Folien zur letzten Sitzung):

• SPSS verwendet dieses Maß als Effektgröße• Problem: Maß überschätzt den Anteil an aufgeklärter Varianz in der

Population

Effektgröße (z.B. Rasch, Friese, Hofmann & Naumann, 2014)

InnerhalbEffekt

Effekt

pQSQS

QS

2

53.01025.11

25.112

InnerhalbA

Ap

QSQS

QS

147. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

• Weitere Effektgrößen: f² und ωp²

• Formeln:

• Beispiel zur Berechnung (vgl. Folien zur letzten Sitzung):

• GPower verwendet u. a. f und f² für die Stichprobenumfangsplanung• Im Gegensatz zu ηp² überschätzen f² und ωp² nicht den Anteil an

aufgeklärter Varianz in der Population• Zusammenhang zwischen f und d: d = 2 · f bzw.

Effektgröße (z.B. Rasch, Friese, Hofmann & Naumann, 2014)

N

dfFf Zähler

)1(2

85.020

1)118()1(2

N

dfFf AA

A

2

22

1 f

fp

46.085.01

85.0

1 2

22

A

Ap

f

f

2

2

12

d

157. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

Rey.participoll.com

Bitte rechnen Sie die Effektgröße d = 0.5 in f2 und ωp² um! Welche Werte sind richtig? A: f² = 4.00 und ωp² = 0.80 B: f² = 0.25 und ωp² = 0.20 C: f² = 1.00 und ωp² = 0.50 D: f² = 0.06 und ωp² = 0.06

Berechnung: d = 2 · f f = d : 2 = 0.5 : 2 = 0.25 f² = 0.25 · 0.25 = 0.0625

Umrechnung von Effektgrößen

0

vote at Rey.participoll.com

A B C D

05882353.00625.1

0625.0

0625.01

0625.0

1 2

22

f

fp

167. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

0

0,2

0,4

0,6

0,8

1

1,2

0 1 2 3 4 5 F-Wert

WahrscheinlichkeitsdichteBeta 1-Beta Alpha Nullhypothese Alternativhypothese

• Je größer die Effektgröße, desto größer die Teststärke (1 – β)• Effektgröße wirkt sich (nur) auf die nonzentrale Verteilung aus

• Nonzentrale Verteilung „wandert“ nach rechts• Nonzentrale Verteilung „verflacht“

• Beispiel für den Einfluss der Effektgröße auf die Teststärke:

Einfluss der Effektgröße auf die Teststärke (Rey, 2017)

0

0,2

0,4

0,6

0,8

1

1,2

0 1 2 3 4 5 F-Wert

WahrscheinlichkeitsdichteBeta 1-Beta Alpha Nullhypothese Alternativhypothese

f² = 0.09 f² = 0.19

1 – β = 0.53 1 – β = 0.90

177. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

• Je größer die Effektgröße, desto kleiner der benötigte Stichprobenumfang

• Beispiel: Stichprobenumfänge für ein 2 x 2 faktorielles Design mit einer gewünschten Teststärke (1 – β) von 0.80 und einem Signifikanzniveau von 5%:

Einfluss der Effektgröße auf den Stichprobenumfang

Effektgröße (f) Stichprobenumfang0.10 7870.25 1280.40 52

187. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

• Einflussgrößen neben den drei zentralen Kenngrößen (Stichproben-umfang, Signifikanzniveau und Effektgröße) auf die Teststärke:

Weitere Einflussgrößen (Rey, 2017)

Verteilungen Teststärke

Signifikanzniveau

α-Fehler-KumulierungAnzahl der Hypothesen

EffektgrößeNonzentralitäts-parameter λ

Zählerfreiheitsgrade

Nennerfreiheitsgrade

Stichprobenumfang

Art des TestsAnnahmevoraussetzungen des Tests* • Unabhängigkeit der Messwerte• Intervallskalenniveau der AV• Normalverteilung der AV in der Population• Homogenität der Populationsvarianzen

* Hier beispielhaft: Annahmevoraussetzungen der ANOVA ohne MW

Art der Hypothesen und des Versuchsplans• Anzahl an UVs• Faktorstufen der UVs• Messwiederholung?• Anzahl an AVs• Anzahl an Kovariaten

Kritischer Wert

Quelle: Angelehnt an Rey (2017)

197. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

• Einflussgrößen neben den drei zentralen Kenngrößen (Stichproben-umfang, Signifikanzniveau und Effektgröße) auf die Teststärke:

Weitere Einflussgrößen (Rey, 2017)

Verteilungen Teststärke

Signifikanzniveau

α-Fehler-KumulierungAnzahl der Hypothesen

EffektgrößeNonzentralitäts-parameter λ

Zählerfreiheitsgrade

Nennerfreiheitsgrade

Stichprobenumfang

Art des TestsAnnahmevoraussetzungen des Tests* • Unabhängigkeit der Messwerte• Intervallskalenniveau der AV• Normalverteilung der AV in der Population• Homogenität der Populationsvarianzen

* Hier beispielhaft: Annahmevoraussetzungen der ANOVA ohne MW

Art der Hypothesen und des Versuchsplans• Anzahl an UVs• Faktorstufen der UVs• Messwiederholung?• Anzahl an AVs• Anzahl an Kovariaten

Kritischer Wert

Quelle: Angelehnt an Rey (2017)

207. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

• Anzahl und Faktorstufen unabhängiger, hypothesenrelevanter Variablen beeinflusst die Zähler- und Nennerfreiheitsgrade

• Zählerfreiheitsgrade (dfZ):• Je größer dfZ, desto mehr Versuchspersonen werden benötigt• Formel für die Haupteffekte:

dfZ = p – 1 (bzw. q – 1 oder z – 1)• Formel für die Wechselwirkungen:

dfZ= (p – 1) · (q – 1) · (…) · (z – 1)• Nennerfreiheitsgrade (dfN):

• Je größer dfN, desto weniger Versuchspersonen werden benötigt• Formel für sämtliche Effekte: dfN = N – p · q · … · z

Weitere Einflussgrößen (Rey, 2017)

p = Faktorstufen des ersten Faktorsq = Faktorstufen des zweiten Faktorsz = Faktorstufen des letzten Faktors

217. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

• Veränderung von dfZ wirkt sich i.d.R. deutlich stärker auf das benötigte N aus als Veränderung von dfN

• Hieraus und aus den vorherigen Formeln folgt:• Hinzunahme von zweifachgestuften UVs beeinflusst das

benötigte N kaum• Hinzunahme von UVs mit mehreren Faktorstufen führt vor allem

in komplexen Versuchsplänen zu erheblich höherem benötigten N• Wichtig: Versuchsplan einschließlich UVs primär nach inhaltlichen

Gesichtspunkten und nicht nur nach Stichprobenumfang auswählen

Weitere Einflussgrößen (Rey, 2017)

227. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

Rey.participoll.com

Welches Versuchsdesign benötigt Ihrer Vermutung nach den höchsten Stichprobenumfang für die komplexeste Wechselwirkung (falls vorhanden)? A: Ein einfaktorielles, fünffachgestuftes Design B: Ein 2 x 4 faktorielles Design C: Ein 2 x 2 x 2 x 2 faktorielles Design

Benötigte Stichprobenumfänge (gerundet) für f = .25 (mittlerer Effekt), α = .05 und 1 – β = .80: A: N = 196 B: N = 179 C: N = 128

Einfluss des Versuchsdesigns auf den benötigten Stichprobenumfang

0

vote at Rey.participoll.com

A B C

237. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

• Formel zur Berechnung von N:

• Beispiel: 2 x 2 faktorielles Design mit α = .01, f = .40 (großer Effekt) und 1 – β = .80

• Formel (siehe vorherige Folien): ωp2 = f2 : (1 + f2)

• λ = 11.60 (laut Tabelle); f2 = .16; ωp2 ≈ .14; Φ2 = .16

• Benötigter Stichprobenumfang: N = 73 (72.5)

Berechnung des Stichprobenumfangs (z. B. Rasch, Friese, Hofmann & Naumann, 2014)

2

2

1;;

2

1;;

1 p

p

dfdfN

N = Benötigter Stichprobenumfangλ = Nonzentralitätsparameter LambdaΦ2 = Phi-Quadratωp

2 = Effektgröße partielles Omega-Quadrat

247. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

Rey.participoll.com

Bitte berechnen Sie das benötigte N für die Wechselwirkung zu einem 2 x 3 faktoriellenDesign mit f = .25, α = .01 und 1 – β = .80. A: N = 227 B: N = 223 C: N = 80 D: N = 236

Berechnung des Stichprobenumfangs

0

vote at Rey.participoll.com

A B C DQuelle: Rasch, Friese, Hofmann und Naumann (2014)

Berechnung: λ = 13.88f² = .0625ωp

2 = .0588235294117647

257. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

• Beispiel: Berechnung des Stichprobenumfangs mit GPower für ein 2 x 2 faktorielles Design• ANOVA / F-Test• Signifikanzniveau: 0.05• Angenommene Effektgröße:

f = 0.25 (mittlerer Effekt)• Gewünschte Teststärke: 0.80• Zählerfreiheitsgrade

(Numerator df): 1• Anzahl an Gruppen : 4

• Benötigter Stichprobenumfang: 128

Berechnung des Stichprobenumfangs mit GPower

267. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

Umfrage

277. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

0

0,2

0,4

0,6

0,8

1

1,2

0 1 2 3 4 5 F-Wert

WahrscheinlichkeitsdichteBeta 1-Beta Alpha Nullhypothese Alternativhypothese

0

0,2

0,4

0,6

0,8

1

1,2

0 1 2 3 4 5 F-Wert

WahrscheinlichkeitsdichteBeta 1-Beta Alpha Nullhypothese Alternativhypothese

Zusammenfassung

0

0,2

0,4

0,6

0,8

1

1,2

0 1 2 3 4 5 F-Wert

WahrscheinlichkeitsdichteBeta 1-Beta Alpha Nullhypothese Alternativhypothese

0

0,2

0,4

0,6

0,8

1

1,2

0 1 2 3 4 5 F-Wert

WahrscheinlichkeitsdichteBeta 1-Beta Alpha Nullhypothese Alternativhypothese

0

0,2

0,4

0,6

0,8

1

1,2

0 1 2 3 4 5 F-Wert

WahrscheinlichkeitsdichteBeta 1-Beta Alpha Nullhypothese Alternativhypothese

Ausgangssituation Verringerung des Signifikanzniveaus

Verringerung des Stichprobenumfangs Verringerung der Effektgröße

287. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

• Rey, G. D. (2017). Methoden der Entwicklungspsychologie. Datenerhebung und Datenauswertung (2., überarbeitete Auflage). Norderstedt: BoD.• Stichprobenumfangsplanung (S. 129-151)

• Rasch, B., Friese, M., Hofmann, W., & Naumann, E. (2014). Quantitative Methoden 1: Einführung in die Statistik für Psychologen und Sozialwissenschaftler (4. Aufl.). Heidelberg: Springer.• Der t-Test (S. 33-75)

• Rasch, B., Friese, M., Hofmann, W., & Naumann, E. (2014). Quantitative Methoden 2: Einführung in die Statistik für Psychologen und Sozialwissenschaftler (4. Aufl.). Heidelberg: Springer.• Einfaktorielle Varianzanalyse (S. 1-32)• Zweifaktorielle Varianzanalyse (S. 35-60)

Prüfungsliteratur

297. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

• Bortz, J., & Schuster, C. (2010). Statistik für Human- und Sozialwissenschaftler (7. Aufl.). Berlin: Springer.• Hypothesentesten (S. 97-115)

• Eid, M., Gollwitzer, M., & Schmitt, M. (2017). Statistik und Forschungsmethoden (5. Aufl.). Weinheim: Beltz.• Grundlagen der Inferenzstatistik (S. 217-278)

• Leonhart, R. (2017). Lehrbuch Statistik. Einstieg und Vertiefung(4. Auflage). Bern: Huber.• Einführung in die inferenzstatistische Hypothesenprüfung (S.

177-210)

Weiterführende Literatur I

307. StichprobenumfangsplanungProf. Dr. Günter Daniel Rey

• Sedlmeier, P., & Renkewitz, F. (2018). Forschungsmethoden und Statistik: Ein Lehrbuch für Psychologen und Sozialwissenschaftler (3. Aufl.). München: Pearson.• Signifikanztests (S. 369-406)

• Bühner, M., & Ziegler, M. (2017). Statistik für Psychologen und Sozialwissenschaftler (2. Aufl.). Hallbergmoos: Pearson Studium.• Versuchsplanung mit G*Power und R (S. 237-247)

• Döring, N., & Bortz, J. (2015). Forschungsmethoden und Evaluation in den Sozial- und Humanwissenschaften (5. Aufl.). Berlin: Springer.

• O'Keefe, D. J. (2007). Post hoc power, observed power, a priori power, retrospective power, prospective power, achieved power: Sorting out appropriate uses of statistical power analyses. Communication Methods and Measures, 1, 291-299.

Weiterführende Literatur II