55
Der t-Test 08_ttest(3) 1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten • Effektstärke Teststärke (Power)

Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Embed Size (px)

Citation preview

Page 1: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Der t-Test

08_ttest(3) 1

Gliederung • Vergleich der 3 Arten des t-Tests• Testergebnisse berichten• Effektstärke• Teststärke (Power)

Page 2: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Vergleich der 3 Arten des t-Tests

08_ttest(3) 2

unabhängige Stichproben

abhängige Stichproben

Eingruppen t-Test

Fragestellung Unterscheiden sich die Mittelwerte von zwei Gruppen?

Unterscheiden sich die Mittelwerte zu zwei Messzeit-punkten?

Unterscheidet sich der Mittelwert von einem Vergleichs-wert?

Voraus-setzungen

• Intervallskalen-niveau

• Normalverteilung• Varianz-

homogenität• Unabhängige

Stichproben

• Intervallskalen-niveau

• Normalverteilung

• Abhängige Stichproben

• Intervallskalen-niveau

• Normalverteilung

• Eine Zufalls-stichprobe

Page 3: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Vergleich der 3 Arten des t-Tests

08_ttest(3) 3

Unabhängige Stichproben

Abhängige Stichproben

Eingruppen t-Test

Ungerichtete Hypothese

H0: μ1 = μ2

H1: μ1 ≠ μ2

H0: μd = 0H1: μd ≠ 0

H0: μ = cH1: μ ≠ c

Gerichtete Hypothese

H0: μ1 ≤ μ2

H1: μ1 > μ2

H0: μd ≤ 0H1: μd > 0

H0: μ ≤ cH1: μ > c

Page 4: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Vergleich der 3 Arten des t-Tests

08_ttest(3) 4

Unabhängige Stichproben

Abhängige Stichproben

Eingruppen t-Test

Kennwert des Tests

Standardfehler des Kennwerts

t-Wert

Freiheitsgrade

21 xx dx cx

Nx

x

ˆ

ˆ Nd

d

xx

ˆˆ

2

22

1

21 ˆˆ

ˆ21 NNxx

ˆ

dx

dxt

x

cxt

21

ˆ21

xx

xxt

221 NNdf 1Ndf 1Ndf

Page 5: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Vergleich der 3 Arten des t-Tests

08_ttest(3) 5

Unabhängige Stichproben

Abhängige Stichproben

Eingruppen t-Test

Kritischer t-Wert hängt ab von …

• df• α• Art des Tests (1- vs.

2 seitig)

• df• α• Art des Tests (1- vs.

2 seitig)

• df• α• Art des Tests (1- vs.

2 seitig)H0 wird ver-worfen, wenn …

|temp| > tkrit |temp| > tkrit |temp| > tkrit

In SPSS:H0 wird ver-worfen, wenn …

• p < .05 (2-seitiger Test)

• p/2 < .05 (1-seitiger Test)

• p < .05 (2-seitiger Test)

• p/2 < .05 (1-seitiger Test)

• p < .05 (2-seitiger Test)

• p/2 < .05 (1-seitiger Test)

Page 6: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Testergebnisse berichten

08_ttest(3) 6

• Beim Bericht von Testergebnissen …– müssen alle relevanten Informationen vollständig präsentiert werden– sollten möglichst wenig unnötige Informationen präsentiert werden.– müssen formale Kriterien eingehalten werden

• Ziele:– Übersichtliche Darstellung– Es muss nachvollziehbar sein, was wie gerechnet wurde

• Richtlinien werden von der APA (American Psychological Association) vorgegeben:– American Psychological Association (2001). Publication manual of the

American Psychological Association (5th ed.). Washington, DC: American Psychological Association.

Page 7: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Testergebnisse berichten

08_ttest(3) 7

Aufbau einer psychologischen Arbeit:• Titelseite• Zusammenfassung• 1 Einleitung• 2 Methode• 3 Ergebnisse• 4 Diskussion• Literatur• Anhang

Page 8: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Aufbau einer psychologischen Arbeit

08_ttest(3) 8

Eine Titelseite sollte folgende Informationen enthalten:• Titel• Autor• Datum• Adresse / email• Veranstaltung• Dozent

Page 9: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Aufbau einer psychologischen Arbeit

08_ttest(3) 9

Zusammenfassung• Länge 100 – 200 Wörter• Enthält

– Fragestellung– Hypothesen– Ergebnisse

Page 10: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Aufbau einer psychologischen Arbeit

08_ttest(3) 10

Einleitung• Herleitung der Fragestellung• Relevanz der Fragestellung• Bisherige Forschungsarbeiten• Eigene Hypothesen (inhaltlich formuliert)

Page 11: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Aufbau einer psychologischen Arbeit

08_ttest(3) 11

Gliederung des Methodenteils• Überblick• Stichprobe• Design (Versuchsplan)• Material• Prozedur

Page 12: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Aufbau einer psychologischen Arbeit

08_ttest(3) 12

Ergebnisse• Ggf. Datenvorbehandlung

– Transformation von Variablen– Ausschluss von Ausreißerwerten

• Deskriptive Statistiken• Testverfahren

– Welches Verfahren (t-Test)– Gewähltes Alphaniveau

• Testergebnisse– Empirischer t-Wert (gerundet aus 2 Nachkommastellen) mit

Freiheitsgraden– p-Wert (gerundet aus 2 Nachkommastellen) – Ein- oder zweiseitiger Test?– Ggf. Richtung des Effekts

Page 13: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Aufbau einer psychologischen Arbeit

08_ttest(3) 13

Diskussion• Zusammenfassung der Ergebnisse

– Inhaltlich– keine Teststatistiken

• Bedeutung der Ergebnisse diskutieren– Haben sich die Hypothesen bestätigt?– Falls nein, wie könnte man die Ergebnisse erklären– Wie passen die eigenen Ergebnisse zu anderen Studien?

• Ausblick– Lässt die Studie wichtige Fragen offen?– Wie könnten Folgestudien aussehen?– Haben die Ergebnisse Konsequenzen für die Praxis?

Page 14: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Aufbau einer psychologischen Arbeit

08_ttest(3) 14

Literatur• Jede Quelle, die im irgendwo im Text zitiert wurde, muss im

Literaturverzeichnis aufgeführt werden.• Es werden nur Quellen aufgeführt, die auch zitiert wurden.• Bei der Zitation MUSS man sich an die APA Richtlinien halten.

Page 15: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Aufbau einer psychologischen Arbeit

08_ttest(3) 15

Anhang• Psychologische Arbeiten haben eher selten einen Anhang• Der Anhang enthält Informationen, die …

– so umfangreich sind, dass sie die Lesbarkeit des Textes beeinträchtigen • z.B. eine Liste aller 60 Adjektive, die in einem Gedächtnisexperiment

verwendet wurden• z.B. die genauen Instruktionen, die eine Versuchsperson erhält.

– für die meisten Leser weniger interessant sind• z.B. die mathematische Herleitung einer verwendeten Formel

Page 16: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Beispiel: „Levels of processing“

08_ttest(3) 16

• Im Folgenden werden kurz einige Ausschnitte zu einer Darstellung des Gedächtnisexperiments gezeigt.

• Zur Erinnerung: Es wurde getestet, wie verschiedene Verarbeitungsformen sich auf die Anzahl erinnerter Adjektive auswirken– Vokale zählen– Bildhaftigkeit beurteilen– Emotionalität beurteilen

Page 17: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Beispiel: „Levels of processing“

08_ttest(3) 17

Beeinflusst die Verarbeitungstiefe die Gedächtnisleitung? Eine Überprüfung der „Level of processing“ Hypothese

Andreas Voß

Albert-Ludwigs-Universität Freiburg

Titel der Arbeit

Page 18: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Beispiel: „Levels of processing“

08_ttest(3) 18

Bisherige Forschungsarbeiten zeigen, dass die Verarbeitungstiefe von Stimuli in einer Lernphase den späteren Abruf aus dem Gedächtnis beeinflussen. In der vorliegenden Studie soll diese Annahme empirisch überprüft werden. Es wird dabei erwartet, dass emotionale und bildhafte Verarbeitung zu einer besseren Erinnerungsleistung führen als eine rein strukturelle Verarbeitung. Die Ergebnisse einer Studie mit einem unangekündigten Erinnerungstest (free recall) bestätigen diese Hypothese.

Zusammenfassung

Page 19: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Beispiel: „Levels of processing“

08_ttest(3) 19

1 EinleitungCarik und Lockhart (1972) zeigten, sich eine tieferer Verarbeitung

positive auf den Gedächtnisabruf auswirkt …

In der vorliegenden Arbeit …

Dabei wird erwartet dass …

Einleitung

Page 20: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Beispiel: „Levels of processing“

08_ttest(3) 20

2 Methode

2.1 Stichprobe. An dem vorliegenden Experiment nahmen 77

Psychologiestudierende (64 weiblich) im ersten Studiensemester teil. Das

mittlere Alter lag bei 23.4 (SD=6.3; Spanne: 18 bis 48).

2.2 Material. Als Stimulusmaterial für die Gedächtnisaufgabe wurden

60 deutsche Adjektive verwendet (siehe Anhang).

2.3 Design. Der Versuchsplan beinhaltet die Gruppenvariable

Verarbeitungsbedingung mit den drei Stufen „strukturell“ (N=23), „emotional“

(N=28) und „bildhaft“ (N=26) (siehe Prozedur für Details). Abhängige Variable ist

die Anzahl korrekt erinnerter Wörter minus die Anzahl falsch erinnerter Wörter.

Methode

Page 21: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Beispiel: „Levels of processing“

08_ttest(3) 21

2.4 Prozedur. Der Versuch fand in einer gemeinsamen Sitzung aller

Versuchspersonen in einem Hörsaal statt. Dazu wurden die 60 Adjektive

nacheinander mittels eines Beamers präsentiert. Jedes Wort wurde drei

Sekunden gezeigt und dann ohne Pause direkt durch das nächste Wort ersetzt.

Die Versuchspersonen sollten dabei zu jedem Wort eine Angabe in einem

Fragebogen machen: Die „strukturelle Aufgabe bestand darin, die Anzahl der

Vokale jedes Adjektivs zu notieren. In den anderen Gruppen wurde die

Bildhaftigkeit bzw. die Emotionalität der Adjektive auf einer Skala von 1 bis 5

eingeschätzt.

Methode (Fortsetzung)

Page 22: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Beispiel: „Levels of processing“

08_ttest(3) 22

Nach der Lernphase wurde ein Fragebogen, der nicht mit der

aktuellen Studie im Zusammenhang steht ausgefüllt. Nach fünf Minuten

wurden alle Teilnehmer aufgefordert, alle Wörter der Lernphase, an die sie sich

erinnerten, zu notieren. Dafür standen 10 Minuten zur Verfügung. In einer

Nachbefragung äußerte eine Probandin, dass sie mit dem Gedächtnistest

gerechnet hatte.

Methode (Fortsetzung)

Page 23: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Ergebnisse

Erläuterungen:• M = Mittelwert; SD = Standardabweichung • Als Dezimaltrenner wird immer der Punkt verwendet

Beispiel: „Levels of processing“

08_ttest(3) 23

3 Ergebnisse

Für jede Versuchsperon wurde die Gedächtnisleitung als Anzahl der

notierten Wörter, die in der Lernliste enthalten waren, minus die Anzahl der

notierten Wörter, die nicht enthalten waren, berechnet (M=9.18; SD=5.52).

Page 24: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Ergebnisse (Fortsetzung)

Beispiel: „Levels of processing“

08_ttest(3) 24

Die mittelere Gedächtnisleistung der Gruppen wurde mit t-Tests für

unabhängige Stichproben verglichen. Für alle Tests wurde ein Alphaniveau von

α=.05 angenommen. Es zeigten sich bessere Gedächtnisleitungen sowohl bei

emotionaler Verarbeitung (M=9.82; SD=5.40) als auch bei bildhafter

Verarbeitung (M=11.96; SD=4.94) im Vergleich zur strukturellen Verarbeitung

(M=5.26; SD=4.02), mit t(49)=3.37; p<.01 bzw. t(47)=5.16; p<.001. Der

Unterschied von emotionaler Verarbeitung und bildhafter Verarbeitung

erreichte keine statistische Bedeutsamkeit, t(52)=1.52; p<.14.

Page 25: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Hinweise zum Ergebnisteil:• Bei mehr als 2 Gruppen sollte statt den t-Test besser die Varianzanalyse

verwendet werden. Die lernen wir im Sommersemester kennen.• Die Teststatistiken können wie im vorliegenden Beispiel (durch ein Komma

getrennt) an den Text angehängt werden.• Oder man berichtet die Testergebnsisse in einer Klammer am Ende des Satzes:

• „Der Unterschied von emotionaler Verarbeitung und bildhafter Verarbeitung erreichte keine statistische Bedeutsamkeit (t(52)=1.52; p<.14).“

• t- und p-Werte werden immer mit zwei Nachkommastellen angegeben.• Bei p wird die Null vor dem Komma weggelassen.

Beispiel: „Levels of processing“

08_ttest(3) 25

Page 26: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Hinweise zum Ergebnisteil:• Üblicherweise wird bei signifikanten Ergebnissen immer nur das

Signifikanzniveau angegeben:• p<.05 („signifikant“)• p<.01 („hoch signifikant“)• p<.001 („hoch signifikant“)

• Bei einem nicht-signifikanten Ergebnis wird häufig der exakte p-Wert angegeben.

• Alternativ kann auch n.s. (nicht signifikant ) geschrieben werden:• „Der Unterschied von emotionaler Verarbeitung und bildhafter Verarbeitung

erreichte keine statistische Bedeutsamkeit, t(52)=1.52; n.s.“• Ausnahme: Bei t-Werten kleiner 1 dürfen Freiheitsgrade und p-Werte ganz

weggelassen werden (weil t<1 nie signifikant ist).• „Männer und Frauen unterscheiden sich nicht in Ihrer Einstellung zur Statistik,

t<1“.

Beispiel: „Levels of processing“

08_ttest(3) 26

Page 27: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Diskussion

Beispiel: „Levels of processing“

08_ttest(3) 27

4 Diskussion

In der vorliegenden Studie wurde die Annahme des „Levels of Processing“

Ansatzes überprüft. Entsprecht der Hypothesen zeigte sich, dass eine rein

strukturelle Verarbeitung (Vokale zählen) zu einer schlechteren Erinnerungsleistung

führt als eine semantische Bearbeitung (Emotionalität oder Bildhaftigkeit

einschätzen).

Diese Befunde haben praktische Konsequenzen für Lernsituationen. Auch

in Alltagssituationen ist eine tiefe Verarbeitung von Lernstoff empfehlenswert. …

Kritisch anzumerken ist an der vorliegenden Studie, dass eine wenig

kontrollierte Massentestung vorgenommen wurde. Es wäre daher empfehlenswert,

diese Befunde in einer Laborsituation mit Einzeltestungen zu replizieren.

Page 28: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Literatur

Hinweise:• Nachname, Vorname (Nur Initialen)• Jahreszahl in Klammern• Titel des Aufsatzes• Titel der Zeitschrift (kursiv)• Band der Zeitschrift (Kursiv)• Seitenzahlen des Aufsatzes

Beispiel: „Levels of processing“

08_ttest(3) 28

Literatur

Craik, F. I. M., & Lockhart, R. S. (1972). Levels of processing: A framework

for memory research. Journal of Verbal Learning and Verbal Behavior, 11, 671-684.

Page 29: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

APA Richtlinien

American Psychological Association (2001). Publication manual of the American Psychological Association (5th ed.). Washington, DC: American Psychological Association.

08_ttest(3) 29

Page 30: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Effektstärke

Effektstärke (beim t-Test für unabhängige Stichproben)• Wenn ein signifikanter Gruppenunterschied gefunden wurde,

sollte ein Standardisiertes Maß für die Größe dieses Effektes, also die Effektstärke, berechnet werden.

• Dabei wird nicht nur der Mittelwertsunterschied sondern auch die Varianz des Merkmals berücksichtigt.

08_ttest(3) 30

x

xxd

21

11

)()(ˆ

21

221 ,2

211 ,12

21

NN

xxxxmit

N

i i

N

i ix

Page 31: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Effektstärke

Nach Cohen (1988) teilt man die Effektstärke folgendermaßen ein:– d ≥ .20: kleiner Effekt– d ≥ .50: mittlerer Effekt– d ≥ .80: großer Effekt

08_ttest(3) 31

Page 32: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Effektstärke

Beispiel 1 „Levels of Processing“– Emotional: M=10– Strukturell: M=5– σ= 4.5

Beispiel 2 „Levels of Processing“– Emotional: M=10– Bildhaft: M=12– σ= 5.0

08_ttest(3) 32

11.15.4

21

x

xxd

40.05

21

x

xxd

Page 33: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Teststärke

Teststärke• Die Teststärke ist die Wahrscheinlichkeit, einen in der Population

vorhanden Effekt in einer statistischen Untersuchung zu finden:Teststärke = p(sig. | H1).

• Damit ist die Teststärke ein „Gegenstück“ zum β-Fehler: Teststärke = 1-β.

08_ttest(3) 33

In der Populationgilt die

TestergebnisEnt-

scheidungH0 H1

p > α „H0“ (1-α) β

p < α „H1 “ α (1-β)

Page 34: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Teststärke

• Die Teststärke ist also die Wahrscheinlichkeit, einen tatsächlich existierenden Effekt mit einer empirischen Untersuchung auch zu finden.

• Jede Untersuchung sollte eine hohe Teststärke haben (also einen kleinen β-Fehler)!

• Der β-Fehler kann allerdings nicht einfach festgelegt werden. Im Folgenden werden verschiedene Einflussgrößen auf β-Fehler und Teststärke dargestellt.

08_ttest(3) 34

Page 35: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Beeinflussung der Teststärke (Power)

(1) Höhe des Alpha-Niveaus• Je größer (weniger streng) Alpha, desto größer die Teststärke

(1-Beta)!

08_ttest(3) 35

-3 -2 -1 0 1 2 30

0.1

0.2

0.3

0.4

H0 H1

Page 36: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Beeinflussung der Teststärke (Power)

(2) Art der Testung:• Die Teststärke hängt von der Art der Testung (einseitig- vs.

zweiseitig) ab:• Bei einer zweiseitigen Testung ist die Power geringer als bei einer

einseitigen Testung, da dann erst bei einem höheren t-Wert die H1 angenommen wird.

08_ttest(3) 36

Page 37: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Beeinflussung der Teststärke (Power)

(3) Varianz des Merkmals• Je mehr Varianz ein Merkmal hat, desto geringer ist die

Teststärke.• Durch Verwendung von „homogenen Stichproben“ und / oder die

Entfernung von „Ausreißern“ aus einer Stichprobe verringert sich die Varianz; damit wird es wahrscheinlicher, einen Effekt nachweisen zu können.

• Zudem sollte versucht werden, während einer Untersuchung externe Einflüsse konstant zu halten, um die „Fehlervarianz“ zu verringern

08_ttest(3) 37

Page 38: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Beeinflussung der Teststärke (Power)

08_ttest(3) 38

-3 -2 -1 0 1 2 30

0.1

0.2

0.3

0.4

-3 -2 -1 0 1 2 30

0.1

0.2

0.3

0.4 Bei geringerer Varianz des Merkmals wird der Standardfehler der Mittelwertsdifferenz geringer und die Test-stärke wird größer!

Page 39: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Beeinflussung der Teststärke (Power)

(4) Stichprobenumfang• Je größer die Stichprobe, desto höher ist die Power eines Tests.• Diese liegt daran, dass sich …

1. … der Standardfehler verringert und dadurch der empirische t-Wert vergrößert.

2. … die Freiheitsgrade erhöhen und dadurch der kritische t-Wert verringert.

08_ttest(3) 39

Page 40: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Beeinflussung der Teststärke (Power)

(5) Größe der Mittelwertsdifferenz• Je größer die Mittelwertsdifferenz, desto höher ist die Power

eines Tests.• Werden nur geringe Mittelwertsdifferenzen erwartet, dann

müssen andere Mittel eingesetzt werden, um die Teststärke zu erhöhen.

08_ttest(3) 40

Page 41: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Beeinflussung der Teststärke (Power)

(6) Auswahl des statistischen Tests• Stichprobe:

– Tests mit abhängigen Stichproben haben eine höhere Power als Tests mit unabhängigen Stichproben.

• Vorannahmen– Parameterische Test (die eine Normalverteilung des Merkmals

voraussetzen) haben eine höhere Power als non-parameterische Tests.• Skalenniveau:

– Tests, die auf einem höherem Skalenniveau beruhen, haben in der Regel eine höhere Power

– t-Test (intervall) > U-Test (ordinal) > Binomial-Test (nominal)

08_ttest(3) 41

Page 42: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Bestimmung der Teststärke (Power)

• Die tatsächliche Teststärke kann aus der Effektstärke, der Stichprobengröße und dem α-Fehler berechnet werden

• Die macht z.B. das kostenlosen Programm „ G*Power 3“.• Beispiele für die Teststärke des t-Test sfür unabhängige

Stichproben für d = .80 und α = .05:

08_ttest(3) 42

N1 = N2 Power

23 .76

24 .77

25 .79

26 .81

Page 43: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Optimale Stichprobengrößen

• Von einem optimalen Stichprobenumfang spricht man, wenn die Power groß genug ist, um für eine vorgegebene Effektstärke sicher zwischen der H0 und der H1 entscheiden zu können.

• Wenn man vor einer Untersuchung schon weiß, wie groß ein zu erwartender Effekt ist, dann kann a priori die optimale Stichprobengröße errechnet werden

• Dies geschieht ebenfalls mit „G*Power 3“

08_ttest(3) 43

Page 44: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Optimale Stichprobengrößen

• Beispiele für optimalen Stichprobenumfänge beim t-Test für unabhängige Stichproben für α = .05 und β = .20

08_ttest(3) 44

d N1 = N2

.20 310

.30 138

.40 78

.50 50

.60 37

.70 26

.80 20

Page 45: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

G*Power 3

• Das Programm „ G*Power 3“ erlaubt die Berechnung der Teststärke.

• Es ist kostenlos verfügbar unter: http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3/

• Berechnungsarten:(1) A priori: Die Effektstärke, Alpha und die Teststärke werden eingegeben

und der benötigte Stichprobenumfang wird berechnet.(2) Post-Hoc: Die Effektstärke, Alpha und der Stichprobenumfang wird

eingegeben und die Teststärke wird berechnet.

08_ttest(3) 45

Page 46: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

A priori - Analyse

08_ttest(3) 46

t-Test für unabhängige Stichproben

2-seitiger Test

N1=N2

Page 47: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

A priori - Analyse

08_ttest(3) 47

t-Test für unabhängige Stichproben

1-seitiger Test

N1=N2

Page 48: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

A priori - Analyse

08_ttest(3) 48

t-Test für abhängige Stichproben

2-seitiger Test

Page 49: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

A priori - Analyse

08_ttest(3) 49

t-Test für unabhängige Stichproben

2-seitiger Test

N1=N2

Page 50: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

A priori - Analyse

08_ttest(3) 50

t-Test für unabhängige Stichproben

2-seitiger Test

N1=N2

Page 51: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

08_ttest(3) 51

post-hoc - Analyse

t-Test für unabhängige Stichproben

2-seitiger Test

Page 52: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Zusammenfassung

• Es werden drei Arten des t-Test unterschieden:– t-Test für unabhängige Stichproben– t-Test für abhängige Stichproben– Eingruppen t-Test

• Die Test unterscheiden sich in– den Kennwerten– den Standardfehlern der Kennwerte– den Freiheitsgraden

• Alles andere ist weitgehend identisch

08_ttest(3) 52

Page 53: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Zusammenfassung

• Die Effektstärke (des t-Tests für unabhängige Stichproben) ist die Mittelwertsdifferenz relativiert an der gemeinsamen Merkmalsvarianz.

• Nach Cohen unterschiedet man kleine Effekte (d ≥ .20), mittlere Effekte (d ≥ .50), und große Effekte (d ≥ .80).

• Die Teststärke Power (1-β) ist die Wahrscheinlichkeit, einen tatsächlich existierenden Effekt zu finden.

08_ttest(3) 53

Page 54: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Zusammenfassung

• Die Teststärke ist groß, wenn …– ein hoher α-Fehler akzeptiert wird,– eine gerichtete Hypothese formuliert wird,– die Merkmalsvarianz verringert wird,– der Stichprobenumfang erhöht wird,– für eine große Mittelwertsdifferenz gesorgt wird,– abhängige Stichproben verwendet werden,– ein statistisches Verfahren verwendet wird, dass das erhobene

Skalenniveau ausnutzt.

08_ttest(3) 54

Page 55: Der t-Test 08_ttest(3)1 Gliederung Vergleich der 3 Arten des t-Tests Testergebnisse berichten Effektstärke Teststärke (Power)

Zusammenfassung

• Die tatsächliche Teststärke kann post-hoc aus der Effektstärke, der Stichprobengröße und dem α-Fehler berechnet werden.

• Umgekehrt kann die optimale Stichprobengröße aus der a priori festgelegten Teststärke, dem α-Fehler und der erwarteten Effektstärke berechnet.

• Beide Berechnungen können mit G*Power 3 durchgeführt werden.

08_ttest(3) 55