73
Matthias Gabriel 1 Kurze Einführung in SPSS 11.5 2001 überarbeitet Oktober 2003

Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

  • Upload
    vodiep

  • View
    225

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

1

Kurze Einführung in SPSS 11.5

2001 überarbeitet Oktober 2003

Page 2: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

2

Inhaltsverzeichnis

1 Datenaufbereitung 4

1.1 Die SPSS-Matrix 4 1.2 Variablen definieren 5 1.3 Variablen verschieben, einfügen 5 1.4 Fälle (Personen) einfügen 5 1.5 Fälle, Variablen löschen 5 1.6 Daten sortieren (sort) 5 1.7 Dateien aufteilen (split) 6 1.8 Fälle auswählen bzw. filtern (select) 6 1.9 Variablen kategorisieren 6 1.10 Zählen... 7 1.11 Variablen umkodieren (recode) 7 1.12 Der Befehl „Berechnen“ (compute) 9

2 Deskriptive Statistik 10

2.1 Tabellen 10

2.1.1 einfache Tabellen 10 2.1.2 Häufigkeitstabellen 10 2.1.3 allgemeine Tabellen 11

2.2 statistische Kennwerte (deskriptive Statistiken) 13

2.2.1 Mittelwert, Varianz, Median, Standardabweichung...+ Diagramme 13 2.3 Diagramme 14

3 Zusammenhangsmaße – Zusammenhangshypothesen 16

3.1 Arten von Korrelationen 16 3.2 Beispiele 17

4 Die einfache/multiple lineare Regression 21

4.1 Zweck der Regression: 21 4.2 Stichworte: 21 4.3 Theoretisches Beispiel 23 4.4 Praktisches Beispiel 23

5 Unterschiedshypothesen 27

5.1 Vergleich zweier Mittelwerte bzw. zentraler Tendenzen 27

5.1.1 t-Test (unabhängige Stichproben) 28 5.1.2 t-Test (abhängige Stichproben) 30 5.1.3 u-Test (2 unabhängige Stichproben, parameterfrei) 33 5.1.4 Wilcoxon-Vorzeichen-Rang-Test (2 abhängige Stichproben, parameterfrei) 34

5.2 Vergleich von mehr als zwei Mittelwerten bzw. zentraler Tendenzen 35

5.2.1 einfache Varianzanalyse (unabhängige Stichproben) 36 5.2.2 einfache Varianzanalyse (abhängige Stichproben) 43

Page 3: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

3

5.2.3 mehrfache Varianzanalyse (unabhängige Stichproben) 49 5.1.3 Kruskal-Wallis-Test (mehr als 2 unabhängige Stichproben, parameterfrei) 56 5.1.4 Friedman-Test (mehr als 2 abhängige Stichproben, parameterfrei) 59

6 Die Reliabilitätsanalyse 62

6.1 Objektivität 62 6.2 Validität (Gültigkeit) 62 6.3 Reliabilität 62

6.3.1 Paralleltest-Reliabilität 62 6.3.2 Retest-Reliabilität (=Stabilität) 63 6.3.3 Innere Konsistenz 63

7 Die Faktorenanalyse 68

7.1 Grundidee 68 7.2 Stichworte 68 7.3 Bestimmung der Faktorenanzahl bzw. Abbruchkriterium 69 7.4 Voraussetzungen der FA 69 7.5 Probleme der FA 70 7.6 Berechnung der FA mittels SPSS 70

Page 4: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

4

Legende: Im folgenden Text entsprechen die Wörter zwischen Anführungszeichen den Befehlen bzw. Menüoptionen im SPSS z.B: „Berechnen“, „Zählen“, „Umkodieren“...

1 Datenaufbereitung

1.1 Die SPSS-Matrix Der SPSS Editor ist in eine Datenansicht und eine Variablenansicht geteilt (links unten am Bildschirm). Zwischen den beiden Ansichten kann beliebig gewechselt werden.

1) Die Datenansicht zeigt die vom Benutzer eingegeben Daten an, wobei die Personen (Fälle) senkrecht angereiht sind und die Variablen waagrecht. Jede Person i hat also eine ganze Zeile Zi in der ihre Ausprägungen in allen Variablen k sichtbar werden. Jede Variable j hat eine Spalte Sj in der die Ausprägungen aller Personen n in dieser Variable sichtbar werden.

2) Die Variablenansicht gibt Auskunft über die Definitionen und Merkmale der einzelnen Variablen Vj, wobei in dieser Ansicht die Variablen senkrecht aufgereiht sind (jede Zeile = eine Variable) und jedes Merkmal, jede Einstellung dieser Variable eine Spalte darstellt. Folgende Einstellungen (jede Spalte ist eine Einstellung) werden angeboten:

a) Name: hier wird der Variablenname eingegeben (max. 8 Zeichen, der Name muss mit einem Buchstaben beginnen), der in der Datenansicht dann über der Spalte erscheint und somit die „Überschrift“ der Variable darstellt.

b) Typ: Numerisch (für Zahlen), Währung (für Geld), Datum, String (für Zeichen, Buchstabenketten, alphanumerische Kombination)...

c) Spaltenformat (benutzerdefiniert je nach Variable) d) Dezimalstellen e) Variablenlabel: Der hier eingeschriebene Name der Variable wird beim

Output automatisch verwendet; z.B. bei Tabellen, Diagrammen, Tests...(der Name aus Punkt a) wird also nicht(!) beim Output verwendet)

f) Wertelabels: Hier kann man Werte einer Variablen definieren (meist bei nominalskalierten bzw qualitiativen Variablen). z.B: Wert „0“ für „männlich“, Wert „1“ für „weiblich“ (bei Geschlecht), oder „16-20“ für „jung“ und „21-25“ für „mittel“... (bei Altersklassen). Erscheint ebenfalls im Output (wie das Variablenlabel).

g) Fehlende Wert: Definition des „missing-Wertes“: Falls Personen in verschiedenen Zellen, Variablen keine Werte haben, wird diese Zelle nicht einfach ausgelassen! Der missing-Wert wird eingegeben. (z.B: „-1“ oder „99“ , damit er nicht mit anderen Werten leicht vertauscht werden kann). Diese Eingabe ist ebenfalls wichtig für die Auswertung.

h) Spalten: für Spaltenbreite (benutzerdefiniert je nach Variable) i) Ausrichtung: wo die Werte in der Zelle angeordnet sein sollen (rechts, links...) j) Messniveau: Nominal (z.B: Geschlecht, Bildung, Hobby...) Ordinal (=

Rangskala z.B: Noten, Dienstgrad...) Metrisch (= Verhältnisskala z.B: Größe, Gewicht, Längen und u.a. auch Rohwerte...)

Page 5: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

5

1.2 Variablen definieren Definition: Die oben genannten Einstellungen (a bis j) für eine Variable modifizieren. Dies geschieht in der Regel gleich zu Beginn der Dateneingabe. Beispiel: Variable „Geschlecht“ defineren

a) Name: „Gender“ b) Typ: „numerisch“ c) Spaltenformat: 8 d) Dezimalstellen: 0 e) Variablenlabel: Geschlecht f) Wertelabels: Wert „0“ hat Wertelabel „männlich“ und Wert „1“ hat Wertelabel

„weiblich“ („hinzufügen“ nicht vergessen!) g) fehlende Wert „-1“ h) Spalten: 8 i) Ausrichtung: rechts j) Messniveau: „nominal“

1.3 Variablen verschieben, einfügen Verschieben: Variable markieren (beim Variablennamen), mit linker Maustaste nochmals anklicken, Taste halten und dann weiterschieben. Erst wenn richtige Stelle erreicht ist, Mausknopf loslassen. (eine andere Möglichkeit besteht mit kopieren und einfügen) Einfügen: In der Datenansicht Variable rechts neben der neu einzufügenden Variable markieren (beim Variablennamen), dann rechter Mausklick und „Variable einfügen“.

1.4 Fälle (Personen) einfügen In der Datenansicht die Zeile unter der neu einzufügenden Zeile markieren (bei Fallnummer), dann rechter Mausklick und „Fälle einfügen“.

1.5 Fälle, Variablen löschen Zeile bzw. Spalte markieren (wie unter 1.3 bzw. 1.4) und „entfernen“ drücken.

1.6 Daten sortieren (sort) Definition: Sortiert alle Fälle nach einer bestimmten Variable auf- oder absteigend. Beispiel: Alle Personen nach Alter aufsteigend sortieren (also vom Jüngsten zum Ältesten) „Daten“ → „Fälle sortieren“ → In „sortieren nach“ die gewünschte Variable eingeben nach der sortiert werden soll (hier Alter) → „aufsteigend“ → „ok“

Page 6: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

6

1.7 Dateien aufteilen (split) Definition: Um den Datensatz (imaginär) in Untergruppen zu teilen, z.B: Frauen und Männer trennen, nach Altersklassen aufteilen... Anwendung: z.B. bei der Normalverteilungsprüfung, bei Diagrammen, Tabellen und anderen deskriptiven Auswertungen Beispiel: Die Daten bezüglich Geschlecht aufteilen „Daten“ → „Datei aufteilen“ → „Ausgabe nach Gruppen aufteilen“ anklicken und die gewünschte split-Variable eingeben (hier Geschlecht) → „ok“ Die Daten werden jetzt für alle Berechnungen immer als gesplittet angesehen, dementsprechend gibt es auch im Output immer getrennte Ergebnisse. Nicht vergessen die Aufteilung wieder aufzuheben, falls sie nicht mehr gebraucht wird.

1.8 Fälle auswählen bzw. filtern (select) Definition: Um nur bestimmte Fälle in die Berechnungen einzubeziehen 1) Fälle nach bestimmten Kriterien auswählen Beispiel: Es werden nur jene Fälle für die Auswertung benötigt, die älter als 35 Jahre sind. „Daten“ → „Fälle auswählen“ → „Falls Bedingung zutrifft“ anklicken → „Falls“ → Bedingungsvariable hinzufügen (hier Alter) und Bedingung festlegen (hier „>35“ dazuschreiben) →“weiter“ → „ok“ 2) Zufallsstichprobe Definition: um aus den Daten eine repräsentative Stichprobe auszuwählen (meist nur für große Datensätze) „Daten“ → „Fälle auswählen“ → „Zufallsstichprobe“ anklicken 3) Aufgrund einer Filtervariablen filtern Beispiel: Daten nach Geschlecht filtern „Daten“ → „Fälle auswählen“ → „Filtervariable verwenden“ anklicken → gewünschte Filtervariable hinzufügen (hier Geschlecht) → „nicht ausgewählte Fälle“: „löschen“ oder (besser) „filtern“ auswählen Die Daten werden jetzt für alle Berechnungen immer als gefiltert angesehen, daher nicht vergessen die Filterung wieder aufzuheben, falls sie nicht mehr gebraucht wird.

1.9 Variablen kategorisieren Definition: Kategorisiert eine gewünschte Variable in k (selbst wählbare) Klassen. Die Wahl der Klassengrößen erfolgt automatisch!

Page 7: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

7

Anmerkung: Falls die Klassengrößen selbst definiert werden wollen (besser): siehe unter 1.11 Variablen umkodieren Beispiel: Das Alter soll in 4 Klassen eingeteilt werden „Transformieren“ → „Variablen kategorisieren“ → In „Kategorien erstellen für“ gewünschte Variable hinzufügen (hier Alter) → die „Anzahl der Kategorien“ festlegen (hier 4) → „ok“ Ergebnis: Eine neue Variable (hier nalter) mit 4 Kategorien wird erzeugt.

1.10 Zählen... Definition: Zählt zeilenweise bestimmte Werte nach benutzerdefiniert aufgestellten Formeln. Das Ergebnis wird in einer neuen Variablen angegeben. Dieser Befehl kann sehr hilfreich sein, etwa bei der Frage: „Wie oft hat eine Person bei bestimmten Items/Variablen bestimmte Werte gewählt?“ oder „Wie oft hat eine Person bei den 20 Items die Antwortmöglichkeit A gewählt?“ Anwendungsbeispiele:

• Darstellung des Antwortverhaltens der einzelnen Personen • Häufigkeiten von Werten in Zeilen (also pro Person) zählen

Beispiel: Ein Persönlichkeitsfragebogen mit 10 Fragen, 5 kategorielles Antwortmuster. Wie oft hat eine Versuchsperson Antwort 1, 2, 3, 4, bzw. 5 angekreuzt? „Transformieren“ → „Zählen...“ → In „Zielvariable“ den Namen der neuen Variable eingeben (z.B: „Antw_1“ für Antwortmöglichkeit 1) → In „Label“ den Variablennamen eingeben (zB: „Häufigkeit Antwort 1“) (siehe auch 1.1) → In „Variablen“ jene Variablen eingeben, die für den Zählvorgang berücksichtigt werden sollen (hier: Item1 bis Item 10) → „Werte definieren“ → unter „Wert“ den gewünschten zu zählenden Wert eingeben (hier: „1“) → „hinzufügen“ → „weiter“ → „ok“ Ergebnis: Eine neue Variable (hier: „Antw_1“) wird erzeugt in der die Häufigkeiten der Antwortalternative „1“ in den 10 Items für jede Person dargestellt wird. → analog erfolgt die Darstellung der anderen 4 Antwortmöglichkeiten in 4 neuen Variablen. Im Alert-Fenster „Werte definieren“ besteht auch die Möglichkeit nicht nur konkrete einzelne Werte, sondern auch Wertbereiche und missing Werte, die zu zählen sind, anzugeben.

1.11 Variablen umkodieren (recode) Ein sehr wichtiger Befehl. Anwendungsbeispiele:

• Das Alter in einer neuen Variable in Altersklassen einteilen, • Die Kodierung einzelner Items umdrehen (bei Rating- Likertskalen), also z.B: die

Werte 1,2,3,4,5 in 5,4,3,2,1 umdrehen.

Page 8: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

8

• Bestehende Kodierungen umändern: zB: 4 Schulformkategorien (AHS, HTL, HBLA, HAK) in 2 umkodieren (AHS und „Andere“), sodass unter „Andere“ HTL, HBLA und HAK enthalten sind.

Die Umkodierung wird in derselben Variablen durchgeführt, oder (besser) es wird eine neue Variable mit der neuen Kodierung erzeugt. Beispiel 1: Das Alter (stetige Variable) in die Altersklassen (qualitativ dreikategorielle Variable) „15-30“, „31-39“ und „40+“ umkodieren. Dafür soll eine neue Variable erzeugt werden. „Transformieren“ → „Umkodieren“ → „in andere Variablen“ → gewünschte umzukodierende Variable hinzufügen (hier Alter) → in „Ausgabevariable“ „Name“ den Namen der neuen Variablen eingeben (z.B: alter2) und „ändern“(!) drücken → „Label“ einschreiben (z.B: „Alter dreikategoriell“) (siehe auch 1.1) → „alte und neue Werte“ → „alter Wert“ „Bereich“ anklicken (weil ein Altersbereich angegeben werden muss) → die ersten Klassengrenzen eingeben (hier: 15 und 30) → unter „neuer Wert“ neuen „Wert“ angeben (hier: „1“ für 1.Altersklasse) → „hinzufügen“ → analog den zweiten Bereich (31 bis 39) eingeben und 2 für 2. Altersklasse als neuen Wert → für die letzte (offene!!) Klasse (40+) „Bereich“ „kleinster Wert bis“ anklicken und „40“ eingeben → als „neuen Wert“ „3“ (für 3. Klasse) „hinzufügen“ → „weiter“ → „ok“ Ergebnis: am Ende der Datenmatrix in der Datenansicht wird nun die neue Variable („alter2“) hinzugefügt, welche die Variable Alter in 3 Klassen einteilt. („1“ für 15-13, „2“ für 31-39 und „3“ für 40 und älter) Die neue Variable muss noch definiert werden (siehe 1.1) Beispiel 2: Die Werte des 5 kategoriellen Items 1 sollen umkodiert werden, in einer anderen Variable; also 5 zu 1, 4 zu 2, 3 zu 3, 2 zu 4 und 1 zu 5. „Transformieren“ → „Umkodieren“ → „in andere Variablen“ → gewünschte umzukodierende Variable hinzufügen (hier Item1) → in „Ausgabevariable“ „Name“ den Namen der neuen Variablen eingeben (z.B: Item1_a) und „ändern“(!) drücken → „Label“ einschreiben (z.B: „Item1 umkodiert“) → „alte und neue Werte“ → „alter Wert“ „1“ eingeben → „neuer Wert“ „5“ eingeben → “hinzufügen“ → analog für die anderen 4 Werte (2 zu 4; 3 zu 3; 4 zu 2 und 5 zu 1) → „weiter“ → ok“ Ergebnis: am Ende der Datenmatrix wird nun die neue Variable („Item1_a“) mit den umkodierten Werten hinzugefügt. Die neue Variable muss noch definiert werden (siehe 1.1) Automatisch umkodieren Das obige Beispiel 2 kann auch einfacher gelöst werden mit „automatisch umkodieren“ Fortsetzung Beispiel 2: „Transformieren“ → „automatisch umkodieren“ → gewünschte umzukodierende Variable hinzufügen (hier Item1) → in „Neuer Name“ den Namen der neuen Variablen eingeben (z.B: „Item1_a“) und „Neuer Name“(!) drücken → „Umkodieren beginnen bei „größtem Wert“ wählen → „ok“ Ergebnis: Am Ende der Datenmatrix wird nun die neue Variable („Item1_a“) hinzugefügt Die neue Variable muss noch definiert werden (siehe 1.1)

Page 9: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

9

1.12 Der Befehl „Berechnen“ (compute) Der „Berechnen“-Befehl ist ebenfalls eine sehr hilfreiche Anwendung. Definition: (zumeist zeilenweise) Berechnung von bestimmten statistischen Kennwerten, Formeln, deren Ergebnis in einer neuen Variable aufscheint. Anwendungsbeispiele:

• Welchen Rohscore haben die Personen in den k Items (Variablen) (also eine zeilenweise Summierung der Werte der k Items für jede Person, in einer neuen Variablen ausgegeben)

• Welchen Mittelwert, welche Varianz, Standardabweichung... hat jeder Fall in den k Variablen

• Viele weitere Berechnungen (z.B: Body-Maß-Index, relative Lösungshäufigkeiten, Summen, Wurzel, Potenzen, Logarithmen, Median, Modalwert...)

Beispiel 1: Welche relative Lösungshäufigkeit weist jede Peson in den 10 Items auf? „Transformieren“ → „Berechnen“ → In „Zielvariable“ gewünschten Namen der neuen Variable einschreiben (z.B. relHfgkt) → im Feld „numerischer Ausdruck“ werden alle gewünschten Berechnungen eingetragen. Dafür muss man einfach die benötigten Variablen aus der Variablenliste einfügen und mit den erwünschten Rechenoperatoren verknüpfen. Dieses Beispiel verlangt die Anzahl der gelösten Items (Variable „rohscore“) dividiert durch die Anzahl aller n Items für jede Zeile: Man schreibt bzw. fügt ins Berechnungsfeld also folgendes ein: “rohscore / 10” → „ok“ Ergebnis: Eine neue Variable „relHfgkt“ wird nun erzeugt, die für jede Person die relative Lösungswahrscheinlichkeit angibt. Berechnen mittels Funktionen Verschiedene vorprogrammierte Berechnungen (wie Mittelwert, Median, Varianz, Standardabweichung...) sind den vorprogrammierten Funktionen zu entnehmen. Diese vereinfachen den Rechenprozess oft wesentlich. Beispiel 2: Mittelwertsberechnung mittels vorprogrammierter Funktion Die Funktionen sind im Feld „Funktionen“ ersichtlich und mit englischen Wörtern abgekürzt. Für eine Direkthilfe braucht man nur die gewünschte Funktion markieren und die rechte Maustaste klicken. Für unser Beispiel wäre es die Funktion unter „M“ wie „Mean“ (Mittelwert) also „Mean(numausdr, numausdr,...)“ Die gewünschten 10 Items müssen noch eingefügt und mit einem Beistrich getrennt(!) werden. Dies sieht so aus: “MEAN(item1,item2,item3,item4,item5,item6,item7,item8item9,item10)” → „ok“ Dies wäre die Berechnung des Mittelwertes mittels Funktion. Ergebnis: Eine neue Variable wird nun erzeugt, die für jeden Fall den Mittelwert der Werte der 10 Items angibt.

Page 10: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

10

2 Deskriptive Statistik

2.1 Tabellen

2.1.1 einfache Tabellen Definition: zur einfachen, übersichtlichen Darstellung bzw. Zusammenfassung der Werte (Häufigkeiten) von Variablen nach ihren Ausprägungen (z.B.: Ja/Nein; Geschlecht; Alter...) Befehl: „Analysieren“ → „Tabellen“ → „einfache Tabellen“ → gewünschte Variable(n) in „Zeilen“ oder/und „Spalten“ geben → „ok“ Beispiel: Zeilen: Semester in denen sich die Vps befinden (1-9) Spalten: Unterteilung Geschlecht (dichotom) Geschlecht männlich weiblich aktuelles Semester 1 42 237 2 12 33 3 6 55 4 4 7 5 1 11 6 2 2 7 1 9 1 Variationen:

• separate Tabellen (z.B.: je eine Tabelle für Männer/Frauen): → gewünschte Variable (z.B.: Geschlecht) in „separate Tabellen“ geben um 2 separate Tabellen für 1) Männer 2) Frauen zu erhalten

• gestapelte/verschachtelte Tabellen • Zeilen/Spaltenprozente, Prozentangaben...: → „Statistik“ • die Anordnung der Zeilen/Spaltenprozente, Prozentangaben...innerhalb der Tabelle

können geändert werden: → „Layout“ → „Beschriftung für Statistik“ wie gewünscht ändern

• Werte sortieren: → „Statistik“ • Gesamtwerte (Gesamtergebnis für die Tabelle / Zeilen/Spaltensummen): → „Gesamt“ • Darstellung leerer Zellen (z.B.: mit Null): → „Format“

2.1.2 Häufigkeitstabellen Definition: Häufigkeitstabellen sind den einfachen Tabellen sehr ähnlich. Sie eignen sich aber zusätzlich besonders zur Darstellung von Häufigkeiten mehrerer Variablen, welche gleiche Antwortmöglichkeiten/kategorien haben (z.B.: Ja/Nein/weiß nicht; Multiple Choice...) Beispiel: Spalten: Zufriedenheit und Lebenssituation (2 Variablen(!)) Zeilen: Antwortkategorien (bei beiden Variablen gleich(!)) Befehl: „Analysieren“ → „Tabellen“ → „Häufigkeitstabellen“

Page 11: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

11

Allgemeine Zufriedenheit Ist das Leben aufregend oder langweilig? Anzahl Anzahl Sehr zufrieden 467 434 Ziemlich zufrieden 872 505 Nicht sehr zufrieden 165 41 Variation:

• Für jede Variable eine eigene Spalte: → alle gewünschten Variablen in „Häufigkeit für“ geben

• Verschachtelte Tabellen (mehrdimensional): → zusätzliche Variable(n) in „In jeder Tabelle“ geben

• Separate verschachtelte Tabellen: → zusätzliche Variable(n) in „separate Tabellen“ geben

• Prozente, Gesamtwerte: → „Statistik“

2.1.3 allgemeine Tabellen Definition: Mit allgemeinen Tabellen können Mehrfachantworten ausgewertet werden (mehrdimensionale Darstellungen, also viele Variablen in einer Tabelle). Weiters können auch verschiedene Stufen der Verschachtelung innerhalb der Tabellen festgelegt werden. Befehl: „Analysieren“ → „Tabellen“ → „allgemeine Tabellen“ Beispiel 1: (eine verschachtelte mehrdimensionale Tabelle) In den Zeilen: Beschreibung der Lebenssituation und (verschachteltes) Geschlecht In der Spalte: die Region (Lebensraum)

Region

Nordost Südost West

Aufregend Männlich 92 56 65 Weiblich 94 51 76 Routine Männlich 88 58 54 Weiblich 140 90 75 Langweilig Männlich 7 3 2

Ist das Leben aufregend oder langweilig?

Weiblich 12 9 8

Beispiel 2: (eine unverschachtelte mehrdimensionale Tabelle) In den Zeilen: Beschreibung der Lebenssituation und (unverschachteltes) Geschlecht In der Spalte: die Region Region Nordost Südost West Ist das Leben aufregend oder langweilig? Aufregend 186 107 141 Routine 228 148 129 Langweilig 19 12 10 Geschlecht Männlich 281 177 178 Weiblich 398 238 245

Page 12: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

12

Variationen: • Verschachteln von einzelnen Variablen (z.B.: Geschlecht): → Variable markieren und

„Verschachtelt“ wählen • Zellenstatistiken für einzelne Variablen (z.B.: nur Geschlecht hat Zeilenprozente alle

anderen haben Absolutwerte): → Variable markieren und „Statistik bearbeiten“ wählen

• Gesamtwerte einblenden: → Variable markieren und „Gesamtergebnis einfügen“ wählen.

• Mittelwert, Varianz.... berechnen: → Variable markieren und „wird ausgewertet“ wählen: → dann „Statistik“ wählen und die gewünschten Statistiken (Mittelwert...) „hinzufügen“ (eventuell Mittelwert... markieren und „Format“ ändern für Dezimalzahlen)

Page 13: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

13

2.2 statistische Kennwerte (deskriptive Statistiken)

2.2.1 Mittelwert, Varianz, Median, Standardabweichung...+ Diagramme 1. Möglichkeit: (mit Diagrammen) Befehl: „Analysieren“ → „deskriptive Statistiken“ → „Häufigkeiten“ → gewünschte Variable eingeben (z.B. Alter) → „Statistik“ → gewünschte Statistiken eingeben (z.B.7 Mittelwert, Varianz...) → „Diagramme“ → gewünschtes Diagramm eingeben Beispiel: Anzahl der Geschwister N Gültig 1505 Fehlend 12 Mittelwert 3,93 Median 3,00 Standardabweichung 3,05 Varianz 9,28 2. Möglichkeit: (leichter und übersichtlicher Vergleich von Mittelwerten, Varianzen... bezüglich Kategorien) ohne Diagramme Beispiel: Welchen Mittelwert, welche Varianz... hat die Variable Alter separat dargestellt nach der Variable Geschlecht? Befehl: „Analysieren“ → „Mittelwerte vergleichen“ → “Mittelwerte...“ → in „unabgängige Variable“ kommt die Breakvariable (hier: Geschlecht) → in „abhängige Variable“ kommt jene Variable, deren Statistiken (Mittelwert...) ausgerechnet werden soll (hier Alter) → „Optionen“ → gewünschte statistische Kennwerte hinzufügen → „weiter“ → „ok“ Bericht alter Geschlecht Mittelwert Standardabweichung Varianz Median männlich 24,15 6,14 37,757 22,00 weiblich 21,65 3,97 15,743 20,00 Insgesamt 22,04 4,46 19,928 21,00 3. Möglichkeit: (über Tabellen) Befehl: „Analysieren“ → „Tabellen“ → „einfache Tabellen“ → die gewünschte Variable(n) in das Feld „Auswerten“ geben → „Statistik“ → die gewünschten statistischen Kennwerte (zB: Mittelwert, Median, Varianz..) „hinzufügen“ (eventuell das „Format“ „ändern“, um Dezimalzahlen anzuzeigen). Beispiel: Mittelwert Median Standardabweichung Varianz Anzahl Geschwister 3,932 3,000 3,047 9,282

Page 14: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

14

4. Möglichkeit: (eher für Intervallskalierte Daten, ohne Median, Modalwert...) Befehl: „Analysieren“ → „deskriptive Statistiken“ → „deskriptive Statistiken...“ → Variable(n) eingeben → „Optionen“ → gewünschte Statistiken auswählen Beispiel: N Mittelwert Standardabweichung Varianz Anzahl Geschwister 1505 3,93 3,05 9,282 Gültige Werte (Listenweise) 1505

2.3 Diagramme Definitionen:

• Balkendiagramm: gibt pro Balken die Werte einer Ausprägung (z.B.: Mann/Frau) einer Variable (z.B.: Geschlecht) an.

• Kreisdiagramm: ein „Kuchen“ dessen „Kuchenstücke“ die verschiedenen Ausprägungen darstellen (z.B.: Anzahl der Studiensemester). Desto mehr Personen in eine Kategorie fallen (z.B.: erstes Semester) desto größer ist dieses Kuchenstück.

• Histogramm: (Vergleich: Häufigkeitsklassen) Verwendung: bei stetigen(!) Variablen, wenn die Variable in Klassen gegliedert ist oder in Klassen abgebildet werden soll (z.B.: Körpergröße, Klassen: 151-160cm, 161-170cm,...)

• Streudiagramm: (XY-Diagramm) Jeder Punkt im Diagramm hat einen X und einen Y Koordinate. Dadurch ergibt sich eine Punktwolke. Verwendung: z.B.: Regression, Korrelation, Modellkontrolle Rasch Modell

• Liniendiagramm: gibt eine Gerade/Kurve/Funktion an. Verwendung z.B.: bei Einkommen, Alter, Körpergröße, Konzentrationskoeffizienten...

Befehl: → „Grafiken“ → gewünschten Diagrammtyp (Balken, Kreis...) auswählen Beispiel 1: Balkendiagramm Wie viele Kinder haben männliche bzw. weibliche befragte Personen im Durchschnitt? Lösung: Darstellung mittels Balkendiagramm mit a) Kategorienvariable: Geschlecht b) auszuwertende Variable: durchschnittliche Anzahl der Kinder (Mittelwert) Befehl: → „Grafiken“ → „Balken...“ → „einfach“ und „Auswertung über Kategorien einer Variable“ (weil hier nur Kategorien der einen Variable Geschlecht gefragt sind. Für die Abbildung mehrerer Variablen in einem Diagramm → „Auswertung über verschiedene Variablen“ wählen) → „definieren“ → in „Kategorienachse“ Geschlecht hinzufügen → bei „Bedeutung der Balken“ „andere Auswertefunktion“ wählen (weil der Mittelwert der Anzahl der Kinder gefragt ist und nicht die Häufigkeit bzw. Anzahl der Fälle) → gewünschte auszuwertende Variable hinzufügen (hier Anzahl der Kinder) → „Auswertefunktion“ → „Mittelwert“ wählen → „weiter“ → „ok“

Page 15: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

15

Ergebnis:

Geschlecht

WeiblichMännlich

Mitt

elw

ert A

nzah

l Kin

der

2,2

2,1

2,0

1,9

1,8

1,7

1,6

1,5

Die durchschnittliche Anzahl der Kinder überwiegt bei den Frauen (ca. 2,1) im Vergleich zu den Männern (ca 1,6). Variationen:

• Häufigkeiten oder Prozente der Ausprägungen einer Variablen angeben (z.B.: Wie viele Männer/Frauen) → „Anzahl der Fälle“ oder „%der Fälle“ wählen statt „andere Auswertefunktion“

• Fehlende Werte anzeigen (als eigenen Balken) → „Optionen“ • Diagrammtitel → „Titel“ • Varianz, Median, Standardabweichung... → „andere Auswertefunktion“ (wie bei

Mittelwert) Anmerkung: Die Darstellung von Kreis-, Linien-, Flächendiagramm erfolgt fast äquivalent. Beispiel 2: Histogramm Nur sinnvoll bei (quantitativen) Variablen, die eine Klassenbildung benötigen, um zusammengefasst zu werden (z.B: Alter, Körpergröße, Gewicht, (Punkte in einem Test)...) Nicht bei qualitativen Variablen! Frage: Wie sieht die Verteilung der Variable „Alter“ aus? Eine Abbildung des Alters mit jedem Alter (Jahr) als eigene Kategorie bei einer Stichprobe von z.B:15 bis 70 jährigen wäre nicht sinnvoll und überhaupt nicht überschaubar. Lösung: Altersklassen bilden und Histogramm erstellen Befehl: → „Grafiken“ → „Histogramm“ → in „Variable“ die gewünschte Variable einfügen (hier: Alter) → „ok“

alter

47,545,0

42,540,0

37,535,0

32,530,0

27,525,0

22,520,0

300

200

100

0

Std.abw. = 4,45 Mittel = 22,0

N = 419,00

Die Verteilung des Alters in diesem Beispiel ist nicht normalverteilt, die Klasse 19-21jährige beinhaltet den Großteil der Stichprobe. Variationen:

• „Normalverteilungskurve (dazu) anzeigen“ Anmerkung: Die Klassen werden in der Regel automatisch gebildet.

Page 16: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

16

3 Zusammenhangsmaße – Zusammenhangshypothesen Zusammenhänge (zwischen 2 Variablen) misst man mittels Korrelationen. Die Wahl der Korrelation hängt ab von:

a) Skalenniveau der beiden Variablen: 1) intervallskaliert (Größe, Gewicht, Längen, Rohscore, Temperatur...) 2) rang- oder ordinalskaliert (Noten, Rangreihen, Dienstgrade, Beliebtheit von

Personen...) 3) nominalskaliert (Geschlecht, Bildungsgrad, Haarfarbe, Beruf...)

b) Art der Variable 1) Quantitativ

I) stetig wenn sie (theoretisch) unendlich viele Ausprägungen/Intervalle annehmen kann (wie Größe, Gewicht, Längen,...)

II) diskret, wenn sie nur eine bestimmte, endliche Anzahl aufweist (z.B: Anzahl der Personen in einem Raum, Testscore,...).

2) Qualitativ wenn sie nur beschränkte Ausprägungen oder in Klassen zusammengefasst ist.

I) Dichotom: 2 Ausprägungen (z.B: Geschlecht, Versuchs-Kontrollgruppe, Psychologie vs. Nicht-PsychologiestudentInnen

II) Polytom: mehr als 2 Ausprägungen (z.B: Bildung, Haarfarbe, Beruf...)

Intervallskala Quantitativ stetig, diskret Rangskala Nominalskala Qualitativ dichotom, polytom

3.1 Arten von Korrelationen Definitionen:

• Produktmomentkorrelation (Pearson) rxy: geht von –1 bis +1; Verwendung grundsätzlich bei intervallskalierten, quantitativen Variablen

• Rangkorrelation (Spearman) r`: geht von –1 bis +1; Verwendung grundsätzlich bei rangskalierten Variablen

• Kendall-Tau-Korrelation: ist der Spearmankorrelation sehr ähnlich, nützt aber die Ranginformation besser aus. (ebenfalls für rangskalierte Daten)

• Vierfelderkorrelation (phi): geht von –1 bis +1; Verwendung bei 2 nominalskalierten dichotomen (qualitativen) Variablen (z.B.: Geschlecht und Raucher/Nichtraucher)

• Partielle Korrelation: geht von –1 bis +1; Um den Einfluss einer möglichen dritten Variable (intervenierenden oder Störvariable) auszuschließen und die reine Korrelation zwischen den 2 gewünschten Variablen anzuzeigen. (Voraussetzung wie Pearson Korrelation)

• Kontingenzkoeffizient (CC): geht von 0 bis 1; Verwendung bei 2 qualitativen Variablen, wobei mindestens eine polytom (mehrkategoriell) ist.

• Cramer V: geht von 0 bis 1; ist dem CC sehr ähnlich und wird ebenfalls bei 2 qualitativen, dichotomen/polytomen Variablen verwendet.

Page 17: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

17

3.2 Beispiele Beispiel 1: Pearson Korrelation zwischen Körpergröße (cm) und Gewicht (kg) Ein klassisches Beispiel: beide Variablen sind einerseits intervallskaliert (oder sogar verhältnisskaliert) und andererseits quantitativ (es gibt theoretisch unendlich viele Ausprägungen). Logischer Weise (wie aus der Praxis bekannt) sollten die beiden Variablen korrelieren. (Jemand der größer ist, ist in der Regel auch schwerer.) Befehl: → „Analysieren“ → „Korrelation“ → „Bivariat...“ → gewünschten 2 Variablen (hier Größe und Gewicht) hinzufügen → „Pearson“ wählen (=Produkt-Moment-Korrelation) → „signifikante Korrelationen markieren“ anklicken → „zweiseitig“ → „ok“ Ergebnis: Die Korrelation ergibt 0,635, das Bestimmtheitsmaß (Korrelation zum Quadrat; selbsterrechnet) beträgt r2 = 40%. Die zweiseitige Signifikanzprüfung ergibt eine Signifikanz von 0,000 bei einer Irrtumswahrscheinlichkeit von 0,01. Es besteht demnach ein mittelmäßiger signifikant positiver Zusammenhang zwischen Gewicht und Größe. Korrelationen CM KG CM Korrelation nach Pearson 1,000 ,635 Signifikanz (2-seitig) , ,000 N 446 446 KG Korrelation nach Pearson ,635 1,000 Signifikanz (2-seitig) ,000 , N 446 446 ** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant. Beispiel 2: Spearman Korrelation und Kendall-Tau zwischen Deutsch und Englischnote. Deutsch und Englischnote sind beide rangskaliert, daher Spearman bzw. Kendall-Tau Befehl: → „Analysieren“ → „Korrelation“ → „Bivariat...“ → die 2 gewünschten Variablen eingeben → „Spearman“ und „Kendall-Tau“ wählen → „signifikante Korrelationen markieren“ anklicken → „zweiseitig“ → „ok“ Ergebnis: Die Korrelation r`= 0,436 (Spearman) sowie Kendall-Tau mit τ = 0,373 ist mit einem p-Wert von 0,000 signifikant bei α = 0,01. Es besteht also ein signifikanter positiver Zusammenhang zwischen Deutsch und Englischnote in beiden Korrelationen. Korrelationen

DEUTSCH ENGLISCH Kendall-Tau-b DEUTSCH Korrelationskoeffizient 1,000 ,373

Sig. (2-seitig) , ,000 N 424 381 ENGLISCH Korrelationskoeffizient ,373 1,000 Sig. (2-seitig) ,000 , N 381 393

Page 18: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

18

Spearman-Rho DEUTSCH Korrelationskoeffizient 1,000 ,436 Sig. (2-seitig) , ,000 N 424 381 ENGLISCH Korrelationskoeffizient ,436 1,000 Sig. (2-seitig) ,000 , N 381 393

** Korrelation ist auf dem Niveau von 0,01 signifikant (2-seitig). Beispiel 3: Phi (Vierfelder)korrelation Frage: Besteht ein Zusammenhang zwischen Geschlecht und der besuchten Schulform (AHS und HTL) der Versuchspersonen Lösung: 2 dichotome Variablen und nominalskaliert, Frage nach Zusammenhang → Vierfelderkorrelation für unabhängige Daten. Befehl: → „Analysieren“ → „deskriptive Statistiken“ → „Kreuztabellen“ → eine dichotome Variable in die „Zeile“ und eine dichotome in die „Spalte“ → „Statistik“ → „Phi und Cramer-V“ wählen (ev. auch „Korrelationen“) → „weiter“ → ev. „Gruppierte Balkendiagramme anzeigen“ → „ok“ Ergebnis: Geschlecht * besuchte Schulform2 Kreuztabelle Anzahl

besuchte Schulform Gesamt Ahs HTL

Geschlecht männlich 46 21 67 weiblich 277 82 359

Gesamt 323 103 426 Symmetrische Maße

Wert Asymptotischer Standardfehler

Näherungsweises T

Näherungsweise Signifikanz

Nominal- bzgl. Nominalmaß

Phi -,072 ,136

Cramer-V ,072 ,136 Der p-Wert der Phi-Korrelation beträgt 0,136 (nicht signifikant); es bestehen daher keine signifikanten Zusammenhänge zwischen Geschlecht und Schulform. Beispiel 4: Kontingenzkoeffizient CC bzw. Cramer V Frage: besteht ein Zusammenhang zwischen der besuchten Schulform (Ahs, Htl, Hbla, Andere) und dem aktuellen Studiensemester (1-9) der Personen? Lösung: 2 qualitative, polytome Variablen → CC bzw. Cramer V. Befehl: → „Analysieren“ → „deskriptive Statistiken“ → „Kreuztabellen“ → eine polytome Variable in die „Zeile“ und eine polytome in die „Spalte“ → „Statistik“ → „Kontingenzkoeffiezient“ und „Cramer-V“ wählen → „weiter“ → ev. „Gruppierte Balkendiagramme anzeigen“ → „ok“

Page 19: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

19

Ergebnis: Symmetrische Maße

Wert Näherungsweise Signifikanz Nominal- bzgl. Nominalmaß Phi ,179 ,962

Cramer-V ,104 ,962 Kontingenzkoeffizient ,176 ,962

Anzahl der gültigen Fälle 412 a Die Null-Hyphothese wird nicht angenommen. b Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet. Interpretation:

1) CC: Der Kontingenzkoeffiezient wird nur unkorrigiert ausgegeben! Man muss daher händisch folgende Berechnung (Korrektur) durchführen (da CC von der Größe der Tabelle abhängig ist). Nach der Korrektur geht CC von 0 bis 1 und ist leichter interpretierbar:

1) Berechnung von Cmax: ),min(1),min(

max srsrC −

= wobei „r“ die Reihen und „s“ die Spalten der

Tabelle sind. In unserem Beispiel gibt es 9 Zeilen und 4 Spalten. Min(r,s) ist also 4.

86,043

max ==C

2) Berechnung des korrigierten CC: 204,086,0

176,0

max

===C

CCkorr

Der korrigierte CC beträgt 0,204, bei einem p-Wert von 0,962 (siehe Tabelle). Es besteht daher kein signifikanter Zusammenhang zwischen besuchter Schulform und Anzahl der Semester.

2) Cramer-V:

Auch der Cramer-V Wert ist mit 0,104 und einem p-Wert von 0,962 nicht signifikant. Beispiel 5: Partielle Korrelation rxy.z Frage: Spielt das Alter eine Rolle in Bezug auf den Zusammenhang von Mathe- und Allgemeinwissen? Lösung: partielle Korrelation mit Alter als eventuelle Störvariable, welche eine „Scheinkorrelation“ zwischen den beiden Variablen Mathe und Allgemeinwissen verursachen könnte. Falls das Alter keinen Einfluss auf die beiden Variablen ausübt, entspricht die partielle Korrelation ungefähr der Produktmomentkorrelation! Befehl: → „Analysieren“ → „Korrelation“ → „Partiell“ → die zwei gewünschten Variablen in „Variablen“ einfügen (hier: Mathe und Allgemeinwissen) → Störvariable in „Kontrollvariable“ eingeben (hier: Alter) → „zweiseitig“ → „ok“

Page 20: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

20

Ergebnis: - - - P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S - - - Controlling for.. AGE (=Alter) ALLGW MATHE ALLGW 1,0000 ,3613 ( 0) ( 97) P= , P= ,000 MATHE ,3613 1,0000 ( 97) ( 0) P= ,000 P= , Die partielle Korrelation ergibt eine Korrelation von rxy.z 0,3613 (B = 13%). Im Vergleich dazu ergibt die Produktmomentkorrelation rxy =336 (B = 11%) (Muss noch separat errechnet werden; siehe Beispiel 1!) Die beiden Korrelationen sind also numerisch fast gleich. Das Alter übt demnach keinen relevanten Einfluss auf den Zusammenhang der beiden Variablen mathematisches und allgemeines Wissen aus. Anmerkung: Würde beispielsweise nur das Alter verantwortlich für die Korrelation sein, müsste beim Konstanthalten der Variable Alter (also bei der partiellen Korrelation) der Zusammenhang verschwinden, also rxy.z gegen 0 gehen, während bei der Produktmomentkorrelation der „Scheinzusammenhang“ bestehen würde, da das Alter nicht berücksichtigt wird.

Page 21: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

21

4 Die einfache/multiple lineare Regression (vgl. Bortz S.174, Statistik for you S. 16)

4.1 Zweck der Regression:

1. Funktionalen Zusammenhang zwischen einer oder mehreren unabhängigen Variablen (UV) oder X und der abhängigen (AV) bzw. Y Variablen untersuchen. (vgl. Korrelation)

2. Untersuchung, ob von bestimmten Prädiktoren (X) auf die Variable Y geschlossen

werden kann. (Werte prognostizieren bzw. vorhersagen) z.B.: Prädiktoren X: Geschlecht, Gewicht, Ausdauer, Alter Frage: Kann aufgrund dieser Prädiktoren die AV Sauerstoffverbrauch gut geschätzt bzw. vorausgesagt werden?

4.2 Stichworte:

1. Residuen: sind die Schätzfehler. Also die Differenz der geschätzten AV ( y ) und der wahren AV (y):

ˆ Rei i iy y e siduum− = = wenn alle ˆ 0i i iy y e− = → dann ist die Regression sehr gut ausgefallen und der

Zusammenhang der Prädiktoren und der AV ist hoch.

2. Regressionsgleichung

kk xxxy ββββ ++++= ......22110 vgl. y = kx+d (lineare Funktion) wobei

• 0β ................Konstante (der Abstand vom Ursprung zur Regressionsgeraden auf der y-Achse; die Höhenlage der Regressionsgeraden (alternativ: „d“ oder ayx)) (unbekannt!)

• kβββ ,......, 21 ...die Regressionskoeffizienten (alternativ: „k“ oder byx) der Prädiktoren X (unbekannt!)

• kxxx ,....,, 21 ......die Unabhängigen Variablen, Prädiktorvariablen oder UV • y......Kriteriumsvariable oder AV

Merke: verschiedene Bezeichnungen für : Statistik 1 SPSS Lineare Funktion Regressionskoeffizienten der k Prädiktoren

byx

b = 1....k kβββ ,......, 21 k (Steigung)

Konstante (Höhenlage der Regressionsgeraden)

ayx 0β , Intercept oder Konstante

d (Konstante)

Prädiktoren X X= 1....n

Unabhängige bzw. Einflussvariablen

X

Kriterium Y Abhängige Variable

Y = f(X)

Page 22: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

22

3. Regressionsgerade

• Mit der Regressionsgeraden wird der Trend festgelegt, der die Punkte am besten

beschreibt. • Sie wird durch den Punkteschwarm so gelegt, dass die Abweichungen (Residuen) der

einzelnen XY-Punkte zur Regressionsgerade ein Minimum werden. Da die Summe der positiven und negativen Residuen sich aber aufheben können, könnte es auch mehrere Regressionsgeraden geben (nicht eindeutig!). Daher soll die Summe der quadrierten Abweichungen (Residuen) ein Minimum ergeben.

• Schätzmethode: Ordinary least squares (Kleinste Quadrate Schätzung)

Beispiel: 27 Personen, X-Achse: Gewicht (kg), Y-Achse: Körpergröße (cm)

ayx: 124,563 byx: 0,723 Eine Person die 60 Kilo wiegt ist laut dieser Regressionsgleichung wie groß?...wir setzten ein Y = kX + d

60723,0563,124 ⋅+=y y = 167,943 Die Person ist dem Regressionsmodell zufolge ca. 168 cm groß. Eine positive Steigung bedeutet, dass die y-Werte bei steigenden x-Werten ebenfalls größer werden. (bei negativer Steigung umgekehrt)

Page 23: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

23

4.3 Theoretisches Beispiel Frage: Kann aufgrund Geschlecht, Gewicht, Alter, Ausdauer auf den Sauerstoffverbrauch einer Person geschlossen werden?

AV: Sauerstoffverbrauch UV: Geschlecht, Alter, Gewicht, Ausdauer Regressionsgleichung:

Sauerstoffverbr. AusdauerGewichtAlterGeschlechty ⋅+⋅+⋅+⋅+= 43210 βββββ

Die Regressionskoeffizienten β (=Schätzer) werden geschätzt und es wird überprüft,

welche β optimal sind d.h. welche β signifikante Einflüsse auf AV haben. Durch Einsetzen der Schätzer in das Regressionsmodell erhält man schließlich die

geschätzte AV: Y (geschätzter Sauerstoffverbrauch)

4.4 Praktisches Beispiel Frage: Kann aufgrund der Variablen Körpergröße der Mutter bzw. Körpergröße des Vaters auf die Körpergröße der Kinder geschlossen werden?

AV: Körpergröße (des Kindes) UV: Körpergröße Mutter, Körpergröße Vater Regressionsgleichung:

Körpergröße (y) = 0 1 2_ _Größe Mutter Größe Vaterβ β β+ +i i Befehl: → „Analysieren“ → „Regression“ → „Linear...“ → in „abhängige Variable“ die gewünschten AV einfügen (hier: Körpergröße des Kindes) → in „unabhängige Variable(n)“ die gewünschte(n) UV einfügen (hier: Körpergröße Mutter bzw. Vater) → bei „Methode“ „schrittweise“ wählen → „Statistiken...“ → „Schätzer“ und „Anpassungsgüte des Modells“ anklicken → „ok“ Ergebnis: Tabelle 1: Modellzusammenfassung Modell R R-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers

1 ,534 ,285 ,284 8,53 2 ,606 ,367 ,364 8,04

a Einflußvariablen : (Konstante), CM_M b Einflußvariablen : (Konstante), CM_M, CM_V Tabelle 2: ANOVA Modell Quadratsumme df Mittel der Quadrate F Signifikanz

1 Regression 11914,140 1 11914,140 163,647 ,000 Residuen 29849,511 410 72,804 Gesamt 41763,650 411

2 Regression 15341,779 2 7670,889 118,742 ,000 Residuen 26421,872 409 64,601 Gesamt 41763,650 411

a Einflußvariablen : (Konstante), CM_M b Einflußvariablen : (Konstante), CM_M, CM_V c Abhängige Variable: CM

Page 24: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

24

Tabelle 3: Koeffizienten

Nicht standardisierte Koeffizienten

Standardisierte Koeffizienten

T Signifikanz

Modell B Standardfehler Beta 1 (Konstante) 58,682 9,183 6,390 ,000

CM_M ,708 ,055 ,534 12,792 ,000 2 (Konstante) 21,889 10,017 2,185 ,029

CM_M ,512 ,059 ,386 8,725 ,000 CM_V ,393 ,054 ,322 7,284 ,000

a Abhängige Variable: CM Interpretation: Die Regression wurde „schrittweise“ gewählt, d.h. die Prädiktoren werden der Reihe nach zur Gleichung hinzugefügt. Zuerst wird die Gleichung mit Prädiktor 1 (Modell 1 in den Tabellen) aufgestellt, im Modell 2 kommt der 2. Prädiktor in die Gleichung hinzu. 1) Tabelle 1: Modellprüfung! korrigiertes R-Quadrat (korrigiertes Bestimmtheitsmaß): Wird zur Modellprüfung herangezogen (also wie gut ist die Regression, wie gut ist der Zusammenhang zwischen UV und AV; wie sinnvoll ist es, die Regression anzuwenden) Zeigt den Anteil der erklärten Varianz von Y (hier: Größe) durch die Prädiktoren an (hier: Größe Vater bzw. Mutter). Modell 1 (also nur die Größe der Mutter) erklärt 28,5% der Varianz Modell 2: kommt die Größe des Vaters als Prädiktor noch dazu wird 36,7% der Varianz erklärt. 100-36,7% = 63,3% unerklärte Varianz (Schätzfehler) bleiben jedoch noch offen. Das Modell ist daher nicht sehr gut! Es fehlen also noch weitere wichtige/relevante Prädiktoren. 2) Tabelle 2: Modellprüfung! F-Wert: wird ebenfalls zur Modellprüfung herangezogen Die Hypothesen lauten:

0ˆ....ˆˆ: 100 ==== kH βββ (also alle Regressionskoeffizienten sind Null, sie sind also schlechte Prädiktoren bzw. Konstante)

0ˆ:1 ≠jH β (also mindestens ein β ist nicht 0; min. ein Prädiktor beschreibt die AV gut) Die F-Werte sind in beiden Modellen signifikant mit den p-Werten von 0,000. Die Alternativhypothese wird angenommen. Das Modell ist daher sinnvoll, weil die Körpergröße von Vater und Mutter einen Einfluss auf AV (Größe Person) hat. 3) Tabelle 3: Regressionskoeffizienten! (byx, ayx) Folgende 2 Hypothesen für jeden einzelnen Koeffizienten jβ :

Page 25: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

25

0ˆ:0 =jH β (also der Regressionskoeffizient ist Null)

0ˆ:1 ≠jH β (der Koeffizient ist ungleich Null) Wenn jβ signifikant ungleich von 0 ist dann ist der zugehörige Prädiktor X eine

gute/sinnvolle Vorhersage für Y. (Gemessen mit der Prüfgröße t = dardfehlerS tan

β )

Folgende Koeffizienten sind aus der Tabelle ablesbar: Unter „Konstante“ wird das ayx dargestellt (also die Höhenlage der Regressionsgeraden) Unter „CM_M“ (Größe der Mutter) wird der Koeffizient by1 des ersten Prädiktors abgebildet. Unter „CM_V“ (Größe des Vaters) wird der Koeffizient by2 des zweiten Prädiktors abgebildet. Aus Tabelle 3 kann man entnehmen dass alle Koeffizienten der Prädiktoren signifikante p-Werte aufweisen. (Konstante: p = 0,029; CM_M: p = 0,000; CM_V: p = 0,000) Die Prädiktoren Größe des Vaters bzw. der Mutter sind demnach sinnvolle Schätzer für die abhängige Variable Größe der Person. Händische Berechnung zur Veranschaulichung: Die Regressionsgleichung wird wie folgt aufgestellt: Körpergröße (y) = VaterGrößeMutterGröße __ 210 βββ ++ oder (wie in Statistik 1) Körpergröße (y) = VaterGrößebMutterGrößeba yyyx __ 21 ++ Die Größe einer Person, dessen Mutter 162 cm und Vater 184 cm groß ist, kann aufgrund der Regressionsgleichung geschätzt werden. Eingesetzt werden folgende Werte aus Tabelle 3:

0β = 21,889 (vgl. ayx)

1β = 0,512 (vgl. by1)

2β = 0,393 (vgl. by2) Körpergröße (y) = 21,889 + 162*0,512 + 184*0,393 Körpergröße = 177,145 Aufgrund der Regressionsgleichung ist die Person ca. 177 cm groß. Die wahre Größe dieser Person ist 178 (aus den Daten entnommen). Das Residuum ˆy y− („wahrer“ Wert minus Schätzer) ist demnach 178-177,145 = 0,855. (Die Regressionsgleichung ist umso besser, je kleiner die Residuen werden.)

Page 26: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

26

Variationen: • Speichern der vorhergesagten Werte ( y ): „Speichern“ → „vorhergesagte Werte“

„nicht standardisiert“ anklicken → „weiter“ • Speichern der Residuen ( ˆ ˆu y y= − ): „Speichern“ → „Residuen“ „nicht

standardisiert“ anklicken → „weiter“

Page 27: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

27

5 Unterschiedshypothesen

5.1 Vergleich zweier Mittelwerte bzw. zentraler Tendenzen Sind die Daten intervallskaliert ist die Berechnung von Mittelwerten und Varianzen bzw. Standardabweichungen sinnvoll bzw. erlaubt. Unter diesen Voraussetzungen können auch Verteilungsannahmen der Daten gemacht werden. Verteilungen werden mit Parametern ( , xx s ...) charakterisiert, daher werden alle hypothesenprüfenden Verfahren, deren eine Verteilungstheorie unter Ho Zugrunde liegt, als „Parametertests“ bezeichnet. Ist das Skalenniveau der Daten lediglich rang- bzw. ordinalskaliert sind oben genannte Parameter nicht mehr zulässig, daher beruht die Grundlage der parameterfreien Tests auf Rangordnungen und Rangplätzen. 1) Parametertests sind die mächtigsten Tests zum Vergleich zweier Mittelwerte. Vorteil also die Macht/Power und Aussagekraft, Nachteil die strengen Voraussetzungen.

a) t-Test für unabhängige Stichproben Voraussetzungen des T-Tests für unabhängige Stichproben

• Intervallskala der Daten (siehe Kapitel 3) • Normalverteilung der Daten in beiden Gruppen • Homogenität der Varianzen der beiden Gruppen • Unabhängige Stichprobe

b) t-Test für abhängige Stichproben Voraussetzungen des T-Tests für abhängige Stichproben (z.B: Messwiederholungen, Geschwister, Parallelisierung)

• Intervallskala der Daten (siehe Kapitel 3) • Normalverteilung der Differenz der Daten • Abhängige Stichprobe

2) Parameterfreie Tests werden herangezogen, wenn die Voraussetzungen für einen Parametertest nicht gegeben sind. Vorteil: mildere Voraussetzungen; Nachteil: weniger Macht; aber trotzdem eine gute Alternative

a) U-Test (unabhängige Stichproben) • Rangskalierte Daten

b) Wilcoxon-Vorzeichen-Rang-Test (abhängige Stichproben)

• Die Differenzenbildung der Messwerte muss sinnvoll erscheinen • Rangskalierte Daten (mit „Intervallskaleneigenschaft“) (=ordered

metric scale)

Page 28: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

28

5.1.1 t-Test (unabhängige Stichproben) Wie aus der Statistik bekannt ist der t-Test der mächtigste Test zum Vergleich 2er Mittelwerte; dementsprechend müssen auch seine Voraussetzungen erfüllt sein:

a) Normalverteilung der Werte beider Gruppen b) Homogenität der Varianzen beider Gruppen c) Intervallskalierte Daten in beiden Gruppen

Beispiel: Frage: Unterscheiden sich Männer und Frauen signifikant hinsichltich ihrer Testpunkte in einem Leistungstest? H0: Männer und Frauen unterscheiden sich nicht signifikant bezüglich ihrer Testpunkte. H1: Männer und Frauen unterscheiden sich signifikant bezüglich ihrer Testpunkte. Unabhängige Variable „Geschlecht“ (qualitativ, dichotom) Abhängige Variable „Anzahl der Punkte im Test“ (intervallskaliert, quantitativ diskret) Zuerst erfolgt die Prüfung der Voraussetzungen des t-Tests für unabhängige Stichproben. Ad a) Normalverteilungsprüfung: Die Normalverteilung wird mittels „Kolmogorov-Smirnov-Test (K+S-Test)“ übergeprüft. Die Hypothesen werden wie folgt formuliert: H0: Die Verteilung (der abhängigen Variable) ist eine Normalverteilung (in jeder Gruppe) bzw. die empirische Verteilung (aus den Daten) weicht nicht signifikant von der theoretischen (Normal)verteilung ab. H1: Die Verteilung ist nicht normalverteilt bzw. die empirische Verteilung (aus den Daten) weicht signifikant von der theoretischen (Normal)verteilung ab. Befehl: Jede Gruppe (hier: Männer/Frauen) der UV, deren Mittelwert verglichen werden soll, muss separat auf Normalverteilung geprüft werden. Dafür müssen die Fälle erst nach der betreffenden Variable (hier: Geschlecht) getrennt werden (siehe 1.7) „Daten“ → „Datei aufteilen...“ → „Ausgabe nach Gruppen aufteilen“ wählen und in „Gruppe basierend auf“ die gewünschte Variable (hier: Geschlecht) hinzufügen → „ok“ Die Fälle sind jetzt bezüglich Geschlecht imaginär getrennt, jede Berechnung wird jetzt separat für Männer und Frauen ausgegeben. Anmerkung: Zur Auflösung dieser Gruppierung: „Daten“ → „Datei aufteilen“ → „alle Fälle analysieren, keine Gruppen bilden“ → „ok“ Nun kann die Normalverteilung separat für Männer und Frauen überprüft werden: „Analysieren“ → „Nichtparametrische Tests“ → „K+S bei einer Stichprobe“ → „Normal“ (für Normalverteilung) → gewünschte zu testende (abhängige) Variable (hier: Anzahl der Punkte) eingeben → „ok“ Ergebnis: Kolmogorov-Smirnov-Anpassungstest Anzahl der Punkte N 70 Parameter der Normalverteilung Mittelwert 11,01 Standardabweichung 2,76

Page 29: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

29

Extremste Differenzen Absolut ,131 Positiv ,131 Negativ -,100 Kolmogorov-Smirnov-Z 1,093 Asymptotische Signifikanz (2-seitig) ,183 a Die zu testende Verteilung ist eine Normalverteilung. b Aus den Daten berechnet. c Geschlecht = männlich Anmerkung: Die gleiche Tabelle wird auch für Frauen ausgegeben! Interpretation: Der p-Wert 0,183 ist bei α = 0,05 nicht signifikant. Die H0 bleibt beibehalten. Die Verteilung der Variable „Anzahl der Punkte“ entspricht bei der Gruppe „Männer“ einer Normalverteilung! (auch die Verteilung der Daten der Frauen muss einer Normalverteilung entsprechen, um die Voraussetzungen des t-Tests zu erfüllen) Anmerkung: Ein Histogramm der Daten zur visuellen Überprüfung der NV ist sehr sinnvoll. Ad b) Homogenität der Varianzen: Die Homogenität der Varianzen wird im Zuge des t-Tests automatisch durchgeführt (Levene-Test)! Ad c) Intervallskalierung: Wird Grundsätzlich nur durch studieren der Daten überprüft (sind die Daten quantitativ?..., gibt es Ausreißer?, ...ist es möglich bzw. sinnvoll die Differenzen von Werten zu vergleichen?...sind lineare Transformationen zulässig?...) t-Test: Anwendung nur bei Erfüllung aller oben genannten Voraussetzungen! (andernfalls u-Test) Befehl: Vorerst die Gruppierung nach Geschlecht für den K+S-Test aufheben! („Datei aufteilen...“) (siehe Punkt a) ) „Analysieren“ → „Mittelwerte vergleichen“ → „t-Test bei unabhängigen Stichproben“ → „Testvariable“ eingeben (hier: Anzahl der Punkte) → „Gruppenvariable“ eingeben (hier: Geschlecht) → „Gruppe def...“ (hier: 1 und 0 für Frauen bzw. Männer; je nach eigener Kodierung!) → „weiter“ → „Optionen“ → „Konfidenzintervall“ eingeben (95% für α = 0,05 und 99% für 0,01) → „weiter“ → „ok“ Ergebnis: Gruppenstatistiken Geschlecht N Mittelwert Standardabweichung Standardfehler des

Mittelwertes Anzahl Punkte weiblich 361 10,91 2,76 ,15 männlich 70 11,01 2,76 ,33

Page 30: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

30

Test bei unabhängigen Stichproben Levene T-Test F Signifikan

z T df Sig. (2-

seitig) Mittlere Differenz

Standardf 95% Konfidenzintervall

Untere Obere Anzahl d. Punkte

Varianzen sind gleich

,014 ,907 -,286 429 ,775 -,10 ,36 -,81 ,60

Varianze nicht gleich

-,285 97,492 ,776 -,10 ,36 -,82 ,61

Interpretation: Der Levene F-Test weist einen p-Wert von 0,907 auf. 0,907 ist weit größer als α = 0,05, die Varianzen sind demnach homogen! (Dies ist schon aus der 1. Tabelle ersichtlich; die Standardabweichungen sind identisch) Der t-Test ergibt einen p-Wert von 0,775. Männer und Frauen unterscheiden sich also nicht signifikant bezüglich der Anzahl der Testpunkte. H0 muss beibehalten werden. Anmerkung: Der geringe Unterschied zw. Männern und Frauen kann schon aus den Mittelwerten 10,91 und 11,01 (1. Tabelle) erkannt werden. Variationen:

• t-Test bei einer Stichprobe: (vgl. split half, eine Variable (z.B.: Anzahl der Punkte) wird aufgrund eines splitting points in 2 Teile getrennt und diese beiden resultierenden Teile werden auf signifikante Unterschiede getestet) → „t-Test bei einer Stichprobe“

• Diagramme (z.B.: Mittelwerte vergleichen): siehe 2.3 • Einseitige Testung: gleicher Vorgang wie oben beschrieben, nur den p-Wert

(Signifikanz 2-seitig) im SPSS-Output händisch durch 2 dividieren. Beispiel: 2-seitiger p-Wert: 0,08 → 1-seitiger p-Wert: 0.04 (einseitige Testung ist

daher schneller signifikant, wenn das Ergebnis in die vermutete Richtung geht, da die Fläche von α = 0,05 nur auf einer Seite der Verteilung als Verwerfungsbereich definiert wird und nicht wie bei der zweiseitigen Testung 2,5% auf beiden Seiten.)

5.1.2 t-Test (abhängige Stichproben) Was sind abhängige Stichproben? Eine Stichprobe ist dann abhängig, wenn einer Person bzw. einem Objekt in der ersten Gruppe immer eine Person bzw. ein Objekt in der zweiten Gruppe zugewiesen wird.

a) Messwiederholungen (z.B: die Messergebnisse zu zwei Zeitpunkten sind nicht unabhängig, da sie immer von der gleichen Person erzielt wurden; dem Wert von Zeitpunkt 1 wird der Wert des Zeitpunktes 2 zugewiesen)

b) Parallelisierung: z.B: Jede Person in Gruppe A hat einen „Testzwilling“ in Gruppe B, mit ähnlichen, für die Untersuchung relevanten Merkmalen

c) Zwillinge, Partner, Geschwister oder sonstige Paare. Voraussetzungen des t-Test (abhängig)

a) Normalverteilung der Differenzen (der Werte) beider Gruppen. b) Intervallskalierte Daten in beiden Gruppen

Page 31: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

31

Beispiel Frage: Gibt es zu den Zeitpunkten 1 und 2 Unterschiede im Atmungsverhalten der Patienten? Hypothesen H0: Die Werte der Zeitpunkte 1 und 2 unterscheiden sich nicht signifikant bezüglich des Atmungsverhaltens der Patienten. H1: Die Werte der Zeitpunkte 1 und 2 unterscheiden sich signifikant bezüglich des Atmungsverhaltens der Patienten. Variablen Gruppenvariable: „Zeitpunkt“ mit 2 Gruppen (Zeitpunkt 1 und Zeitpunkt 2) Abhängige Variable „Atmungsverhalten“. Zuerst erfolgt die Prüfung der Voraussetzungen des t-Tests für abhängige Stichproben. Ad a) Normalverteilungsprüfung Die Normalverteilung der Differenzen wird mittels „Kolmogorov-Smirnov-Test (K+S-Test)“ geprüft. Befehl Da die Differenz der Werte der beiden Zeitpunkte auf Normalverteilung geprüft wird, muss sie erst berechnet werden. Unter „Berechnen“ generieren wir eine neue Variable (z.B: „Diff1_2“) die die Differenzen der Werte des ersten bzw. zweiten Zeitpunktes darstellen (siehe dazu 1.12!) Nun kann die Normalverteilung für die Differenz geprüft werden: „Analysieren“ → „Nichtparametrische Tests“ → „K+S bei einer Stichprobe“ → „Normal“ (für Normalverteilung) → gewünschte zu testende (abhängige) Variable (hier: „Diff1_2“) eingeben → „ok“ Ergebnis Kolmogorov-Smirnov-Anpassungstest Diff1_2 N 12 Parameter der Normalverteilung Mittelwert -1,6667E-02 Standardabweichung 7,177E-02 Extremste Differenzen Absolut ,258 Positiv ,242 Negativ -,258 Kolmogorov-Smirnov-Z ,895 Asymptotische Signifikanz (2-seitig) ,399 a Die zu testende Verteilung ist eine Normalverteilung. b Aus den Daten berechnet. Interpretation Der p-Wert 0,399 ist bei α = 0,05 nicht signifikant. Die H0 bleibt beibehalten. Die Verteilung der Variable „Diff1_2“ entspricht einer Normalverteilung. Ad b) Intervallskalierung Wird Grundsätzlich nur durch studieren der Daten überprüft (sind die Daten quantitativ?..., gibt es Ausreißer?,... ist es möglich bzw. sinnvoll die Differenzen von Werten zu vergleichen?...sind lineare Transformationen der Daten zulässig?...)

Page 32: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

32

t-Test (abhängige Stichproben) Anwendung nur bei Erfüllung aller oben genannten Voraussetzungen! (andernfalls Wilcoxon-Test) Befehl „Analysieren“ → „Mittelwerte vergleichen“ → „t-Test bei gepaarten Stichproben“ → „gepaarte Variablen“ eingeben (hier: Zeitpunkt 1 bzw. Zeitpunkt 2) → „weiter“ → „Optionen“ → „Konfidenzintervall“ eingeben (95% für α = 0,05 und 99% für 0,01) → „weiter“ → „ok“ Ergebnis Statistik bei gepaarten Stichproben Mittelwert N Standardabweichung Standardfehler des Mittelwertes Paaren 1 Atmung, Zeitpunkt 1 3,292 12 7,930E-02 2,289E-02 Atmung, Zeitpunkt 2 3,308 12 7,930E-02 2,289E-02 Test bei gepaarten Stichproben Gepaarte

Differenzen T df Sig. (2-

seitig) Mittelwert Standarda

bweichung Standardfehler des Mittelwertes

95% Konfidenzintervall der Differenz

Untere Obere Paaren 1

Atmung, Zeitpunkt 1 - Atmung, Zeitpunkt 2

-1,667E-02 7,177E-02 2,072E-02 -6,227E-02 2,894E-02 -,804 11 ,438

Interpretation: Der t-Test ergibt einen p-Wert von 0,438. Die Atmung der Patienten unterscheidet sich also nicht signifikant bezüglich der Zeitpunkte 1 und 2. H0 muss beibehalten werden. (Der geringe Unterschied zwischen den Zeitpunkten kann schon aus den Mittelwerten 3,292 und 3,308 erkannt werden.)

Page 33: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

33

5.1.3 u-Test (2 unabhängige Stichproben, parameterfrei) Definition: Wenn die Voraussetzungen für einen t-Test nicht gegeben sind kann als gute Alternative der u-Test herangezogen werden. Er zählt zu den parameterfreien Tests (da die Formulierung der Hypothesen nicht auf Parametern 2,, σµ x ... beruhen) und hat viel mildere Voraussetzungen bei nur geringem Machtverlust im Vergleich zum t-Test. Voraussetzungen:

• Rangskalierte Daten • Stetigkeit des Merkmale (keine qualtitativen bzw. nominalskalierten Variablen wie

z.B: Geschlecht, Schulbildung...) Beispiel: Frage: Gibt es signifikante Unterschiede bezüglich des durchschnittlichen Alters der Teilnehmer in Übungsgruppe A bzw. B? Hypothesen H0: Es bestehen keine signifikanten Unterschiede in Übungsgruppe A bzw. B hinsichtlich des Alters. H1: Es bestehen signifikanten Unterschiede in Übungsgruppe A bzw. B hinsichtlich des Alters. Das Alter ist zwar eine verhätnisskalierte Variable (-> t-Test), war jedoch in der Voruntersuchung laut K+S-Test nicht normalverteilt daher wird der u-Test herangezogen. Befehl: „Analysieren“ → „Nichtparametrische Tests“ → „2 unabhängige Stichproben“ → „Testvariable“ eingeben (hier: Alter) → „Gruppenvariable“ eingeben (hier: Übungsgruppe A,B) → „Gruppe definieren“ (hier: A bzw. B)→ „weiter“ → „Mann-Whitney-u-Test“ wählen → „ok“ Ergebnis: Ränge GRUPPEA,B N Mittlerer Rang Rangsumme alter A 283 194,94 55167,00 B 136 241,35 32823,00 Gesamt 419 Statistik für Test alter Mann-Whitney-U 14981,000 Wilcoxon-W 55167,000 Z -3,743 Asymptotische Signifikanz (2-seitig) ,000 a Gruppenvariable: GRUPPEA,B Interpretation: Es bestehen signifikante Unterschiede zwischen Gruppe A und B bezüglich Alter. Der p-Wert von 0,000 ist kleiner als 0,05. Aufgrund der mittleren Ränge (Rangsumme/nj) erkennt man, dass Gruppe B durchschnittlich ältere Personen aufweist als Gruppe A (hohe Werte stehen für ältere Personen).

Page 34: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

34

Aufgrund der mittleren Rangsummen kann man also beim u-Test die Richtung der Ergebnisse interpretieren (wie beim t-Test durch Mittelwerte).

5.1.4 Wilcoxon-Vorzeichen-Rang-Test (2 abhängige Stichproben, parameterfrei) Definition: Der Wilcoxon-Test dient als gute Alternative falls die Voraussetzungen für den t-Test für abhängige Stichproben nicht gegeben sind. Voraussetzungen

• Stetigkeit des Merkmals (nicht qualtitativ) • rangskalierte Daten (mit „Intervallskaleneigenschaft“) (=ordered metric scale) → die

Differenzbildung der Werte der beiden Variablen muss also sinnvoll erscheinen Beispiel Frage: Gibt es signifikante Unterschiede in den Rohscores von mathematischem Wissen und allgemeinen Wissen der n=100 Personen einer Stichprobe? → abhängig, da jede Person den Mathematik- und Allgemeinwissenstest bearbeitet. Die Beiden Variablen sind laut K+S-Test nicht normalverteilt (daher kein t-Test erlaubt) → Wilcoxon Test als Alternative Befehl „Analysieren“ → „Nichtparametrische Tests“ → „zwei verbundene Stichproben“ → „Wilcoxon“ wählen → die „ausgewählten Variablenpaare“ eingeben (hier: Mathematik-Rohscore, Allgemeinwissen-Rohscore)→ „ok“ Ergebnis: Ränge N Mittlerer

Rang Rangsumme

mathematische kenntnisse - allgemeines wissen Negative Ränge 90 a 51,01 4590,50 Positive Ränge 6 b 10,92 65,50 Bindungen 4 c Gesamt 100 a mathematische kenntnisse < allgemeines wissen b mathematische kenntnisse > allgemeines wissen c allgemeines wissen = mathematische kenntnisse Statistik für Test mathematische kenntnisse - allgemeines wissen Z -8,276 Asymptotische Signifikanz (2-seitig) ,000 Interpretation Der p-Wert (0,000) ist signifikant, es gibt daher signifikante Unterschiede in den Roscorewerten des Mathematik- bzw. Allgemeinwissens. Die Richtung des Ergebnisses interpretiert man mit den mittleren Rängen. Da der mittlere Rang von 51,01 bei den negativen Rängen (N = 90) größer ist als der mittlere Rang bei den positiven Rängen (10,92) und die mathematischen Kenntnisse bei den negativen Rängen kleiner sind als allgemeines Wissen (siehe Fußnote „a“), kann der Rohscore des allgemeinen Wissens der Befragten als signifikant höher eingestuft werden.

Page 35: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

35

5.2 Vergleich von mehr als zwei Mittelwerten bzw. zentraler Tendenzen 1) Parametertests (siehe 5.1) sind die mächtigsten Tests zum Vergleich von Mittelwerten. Vorteil also die Macht/Power und Aussagekraft, Nachteil die strengen Voraussetzungen.

a) einfache Varianzanalyse für unabhängige Stichproben Voraussetzungen der Varianzanalyse für unabhängige Stichproben

• Intervallskala der Daten (siehe Kapitel 3) • Normalverteilung der Daten in allen k Gruppen • Homogenität der Varianzen aller k Gruppen • Unabhängige Stichprobe

b) Varianzanalyse für abhängige Stichproben Voraussetzungen der Varianzanalyse für abhängige Stichproben (z.B: Messwiederholungen, Geschwister, Parallelisierung)

• Intervallskala der Daten (siehe Kapitel 3) • Normalverteilung der Messwertdifferenzen • Zirkularität bzw. Homogenität der Varianzen der Messwertdifferenzen

(Mauchly Test auf Sphärizität) • Abhängige Stichprobe

c) mehrfache (zweifache) Varianzanalyse für unabhängige Stichproben Voraussetzungen der zweifachen Varianzanalyse für unabhängige Stichproben

• Intervallskala der Daten (siehe Kapitel 3) • Normalverteilung der Daten in allen k*m Gruppen • Homogenität der Varianzen aller k*m Gruppen • Unabhängige Stichprobe

2) Parameterfreie Tests werden herangezogen, wenn die Voraussetzungen für einen Parametertest nicht gegeben sind. Vorteil: mildere Voraussetzungen; Nachteil: weniger Macht; aber trotzdem eine gute Alternative

a) Kruskal-Wallis-Test (Rangvarianzanalyse) (unabhängige Stichproben) Voraussetzungen:

• Mindestens Rangskalierte Daten • Stetigkeit des Merkmals (keine qualtitativen bzw. nominalskalierten

Variablen wie z.B: Geschlecht, Schulbildung...) • Unabhängige Stichproben

b) Friedman-Test (abhängige Stichproben)

• Stetigkeit des Merkmals (keine qualtitativen bzw. nominalskalierten Variablen wie z.B: Geschlecht, Schulbildung...)

• Mindestens Rangskalierte Daten • Abhängige Stichproben

Page 36: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

36

5.2.1 einfache Varianzanalyse (unabhängige Stichproben) Wie aus der Statistik bekannt ist die Varianzanalyse der mächtigste Test zum Vergleich von mehr als 2 Mittelwerten; dementsprechend müssen auch ihre Voraussetzungen erfüllt sein:

d) Normalverteilung der Werte in allen k Gruppen e) Homogenität der Varianzen aller k Gruppen f) Intervallskalierte Daten in allen Gruppen

Das Modell der Varianzanalyse beruht auf einer Varianzzerlegung. QT = QZ + QI QT...Quadratsumme total; die gesamte Streuung der Daten

2..( )iji j

x x−∑ ∑ mit ..... ...ijx alle Messwerte x Gesamtmittelwert

QZ...Quadratsumme zwischen; die Streuung zwischen den k Gruppen

2. ..( )jj

n x x−∑ mit . ...... ...jx Gruppenmittelwert x Gesamtmittelwert

QI...Quadratsumme Innen; die Streuung innnerhalb der k Gruppen

2.( )ij ji j

x x−∑ ∑ mit .... ...ij jx alle Messwerte x Gruppenmittelwert

Die Annahme ist nun, dass unter H0 (keine signifikanten Gruppenunterschiede) das Verhältnis zwischen QZ und QI (mit ihren Freiheitsgraden) um den Wert 1 ist, da die Schwankungen innerhalb bzw. zwischen den Gruppen nur zufällig sind. Unter H1 (signifikante Unterschiede zwischen den Gruppen) müsste QZ wesentlich größer sein als QI und daher auch das Verhältnis QZ / QI wesentlich größer als 1. Die F-verteilte Prüfgröße F ist also das Verhältnis von QZ zu QI relativiert an den Freiheitsgraden, also

2120

ˆ1ˆ

QZMQZkF QI MQI

N k

σσ

−= = =

mit df1 = k-1 und df 2 = N-k

k....Anzahl der (Faktor)Gruppen N...Gesamtstichprobe Der resultierende Wert wird mit dem kritischen Wert der F-Verteilung (einseitig) verglichen; ist der empirische Wert höher als der kritische ist das Ergebnis signifikant.

Page 37: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

37

Variablen: UV (Faktor): Die einfache Varianzanalyse benötigt als unabhängige (Gruppen)Variable eine qualitative bzw. eine zu Messwertklassen zusammengefasste quantitative Variable. AV: die abhängige Variable muss quantitativ und intervallskaliert sein. Beispiel: Gibt es signifikante Unterschiede zwischen in den 3 Altersklassen bezüglich den Punktescores im Raumvorstellungstest? Hypothesen H0: Die 3 Altersklassen unterscheiden sich nicht signifikant bezüglich ihrer Testpunkte. H1: Die 3 Altersklassen unterscheiden sich signifikant bezüglich ihrer Testpunkte. Variablen Unabhängige Variable (Faktor): 3 Altersklassen (=Messwertklassen) Abhängige Variable: „Punktescore“ (intervallskaliert, quantitativ diskret) Personen Altersklassen

n 15-25 26-35 36-45 1 9 20 29 2 13 24 33 3 15 22 35 4 16 26 36 5 14 28 38 6 19 23 33 7 15 19 31 8 14 28 29 9 16 29 28 10 12 30 35 11 13 29 12 35 13 34

QI QI QI QZ QZ QT Zuerst erfolgt die Prüfung der Voraussetzungen der Varianzanalyse für unabhängige Stichproben. Ad Normalverteilungsprüfung: Die Normalverteilung wird mittels „Kolmogorov-Smirnov-Test (K+S-Test)“ übergeprüft. Die Hypothesen werden wie folgt formuliert: H0: Die Verteilung (der abhängigen Variable) ist eine Normalverteilung (in jeder Gruppe) bzw. die empirische Verteilung (aus den Daten) weicht nicht signifikant von der theoretischen (Normal)verteilung ab.

Page 38: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

38

H1: Die Verteilung ist nicht normalverteilt bzw. die empirische Verteilung (aus den Daten) weicht signifikant von der theoretischen (Normal)verteilung ab. Befehl: Jede Gruppe (hier: 3 Altersklassen) der UV, deren Mittelwert verglichen werden soll, muss separat auf Normalverteilung geprüft werden. Dafür müssen die Fälle erst nach der betreffenden Variable (hier: Altersklasse) getrennt werden (siehe 1.7) „Daten“ → „Datei aufteilen...“ → „Ausgabe nach Gruppen aufteilen“ wählen und in „Gruppe basierend auf“ die gewünschte Variable (hier: Altersklassen) hinzufügen → „ok“ Die Fälle sind jetzt bezüglich Altersklasse imaginär getrennt, jede Berechnung wird jetzt separat für alle 3 Klassen ausgegeben. Anmerkung: Zur Auflösung dieser Gruppierung: „Daten“ → „Datei aufteilen“ → „alle Fälle analysieren, keine Gruppen bilden“ → „ok“ Nun kann die Normalverteilung separat für alle 3 Klassen überprüft werden: „Analysieren“ → „Nichtparametrische Tests“ → „K+S bei einer Stichprobe“ → „Normal“ (für Normalverteilung) → gewünschte zu testende (abhängige) Variable (hier: Punktescore) eingeben → „ok“ Ergebnis: Kolmogorov-Smirnov-Anpassungstest(c)

15-25

Punktescore 26-35

Punktescore 36-45

Punktescore N 11 10 13 Parameter der Normalverteilung(a,b)

Mittelwert 14,18 24,90 32,69

Standardabweichung 2,562 3,872 3,199 Extremste Differenzen Absolut ,148 ,188 ,184 Positiv ,148 ,097 ,184 Negativ -,140 -,188 -,154 Kolmogorov-Smirnov-Z ,491 ,596 ,662 Asymptotische Signifikanz (2-seitig) ,969 ,870 ,774

a Die zu testende Verteilung ist eine Normalverteilung. b Aus den Daten berechnet. Interpretation: Die p-Werte 0,969; 0,870; 0,774 sind bei α = 0,05 nicht signifikant. Die H0 bleibt beibehalten. Die Verteilung der Variable „Punktescore“ entspricht in allen 3 Altersklassen einer Normalverteilung! Anmerkung: Ein Histogramm der Daten zur visuellen Überprüfung der NV ist sehr sinnvoll. Ad Homogenität der Varianzen: Die Homogenität der Varianzen wird im Zuge der Varianzanalyse automatisch durchgeführt (Levene-Test)! Ad Intervallskalierung: Wird Grundsätzlich nur durch studieren der Daten überprüft (sind die Daten quantitativ?..., gibt es Ausreißer?,... ist es möglich bzw. sinnvoll die Differenzen von Werten zu vergleichen?...sind lineare Transformationen zulässig?...)

Page 39: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

39

Varianzanalyse: Anwendung nur bei Erfüllung aller oben genannten Voraussetzungen! (andernfalls Kruskal-Wallis-Test) Befehl: Vorerst die Gruppierung nach Altersklassen für den K+S-Test aufheben! („Datei aufteilen...“) (siehe Punkt Normalverteilungsprüfung) „Analysieren“ → „Mittelwerte vergleichen“ → „einfaktorielle ANOVA“ → unter „Faktor“ die UV eingeben (hier: Altersklassen) → unter „Abhängige Variablen“ die AV eingeben (hier: Punktescore) → „Optionen“ → „Deskriptive Statistik“ und „Test auf Homogenität der Varianzen“ anklicken → „weiter“ → „ok“ Ergebnis:

Tabelle 1: ONEWAY deskriptive Statistiken Punktescore

95%-Konfidenzintervall für den Mittelwert

N Mittelwert Standardabw

eichung Standardfe

hler Untergrenze Obergrenze Minimum Maximum 15-25 11 14,18 2,562 ,772 12,46 15,90 9 19 26-35 10 24,90 3,872 1,224 22,13 27,67 19 30 36-45 13 32,69 3,199 ,887 30,76 34,63 28 38 Gesamt 34 24,41 8,471 1,453 21,46 27,37 9 38

Tabelle 2: Test der Homogenität der Varianzen Punktescore

Levene-Statistik df1 df2 Signifikanz

2,121 2 31 ,137 Tabelle 3: ONEWAY ANOVA Punktescore

Quadratsu

mme df Mittel der Quadrate F Signifikanz

Zwischen den Gruppen 2044,930 2 1022,465 98,039 ,000 Innerhalb der Gruppen 323,306 31 10,429 Gesamt 2368,235 33

Interpretation: Tabelle 2 Der Levene F-Test weist einen p-Wert von 0,137 auf. 0,137 ist größer als α = 0,05, die Varianzen sind demnach homogen!

Page 40: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

40

Tabelle 3 Die Varianzanalyse ergibt einen p-Wert von 0,000. Die 3 Altersklassen unterscheiden sich also signifikant bezüglich ihres Punktescores im Raumvorstellungstest. H1 wird angenommen. Anmerkung: Der Unterschied zw. den Altersklassen kann schon aus den Mittelwerten in Tabelle 1 erkannt werden. Die Richtung des signifikanten Ergebnisses (welche Gruppe unterschiedet sich signifikant von welcher?) kann durch 2 Methoden ermittelt werden:

1) Lineare Kontraste 2) Post hoc Tests

5.2.1.1 Lineare Kontraste (a-priori-Verfahren): Vorgehensweise:

a) Wird verwendet, wenn man schon vor der Hypothesenprüfung eine Vorahnung hat, welche Gruppen von welchen signifikant abweichen, und welche Gruppen eher ähnliche Werte aufweisen. b) Zuerst erstellt man ein Balkendiagramm mit den 3 Altersklassen als Kategorienachse und dem Mittelwert des Punktescores als Auswertungsvariable. (siehe 2.3)

Altersklassen

36-4526-3515-25

Mitt

elw

ert P

unkt

esco

re

40

30

20

10

c) Nachdem graphisch die Vorahnung überprüft wurde, definiert man die Koeffizienten der Kontraste. Vermutung in diesem Beispiel: Alle 3 Gruppen unterschieden sich signifikant voneinander, also Gruppe 1 mit 3, Gruppe 1 mit 2 und Gruppe 2 mit 3.

Befehl: „Analysieren“ → „Mittelwerte vergleichen“ → „einfaktorielle ANOVA“ → „Kontraste“ → unter „Koeffizienten“ unsere Vermutung in Zahlen ausdrücken

Page 41: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

41

Die Koeffizientensumme muss immer 0 sein; wenn wie in diesem Beispiel alle 3 Gruppen gegeneinander getestet werden, müssen die Koeffizienten so gewählt werden, dass jede Gruppe einen eigenen Koeffizienten hat und die Summe der 3 Koeffizienten 0 ist. Die Reihenfolge der Eingabe der Koeffizienten bezieht sich auf die Kodierungsnummern der UV (hier: 3 Altersklassen); erster Koeffzient für erste Altersklasse, 2. Koeffizient für 2. Altersklasse... z.B.: → „-1“ (für 1. Altersklasse)→ „hinzufügen“ → „0“ (für 2. Altersklasse)→ „hinzufügen“ → „1“ (für 3. Altersklasse)→ „hinzufügen“ → die „Koeffizientensumme“ kontrollieren (muss 0 sein!)→ „weiter“ → „ok“ Ergebnis: Tabelle 1 Kontrast-Koeffizienten

Altersklassen Kontrast 15-25 26-35 36-45 1 -1 0 1

Tabelle 2 Kontrast-Tests

Kontrast Kontrastwert Standardfe

hler T df Signifikanz (2-seitig)

Varianzen sind gleich

1 18,51 1,323 13,991 31 ,000 Punktescore

Varianzen sind nicht gleich

1 18,51 1,176 15,736 21,952 ,000

Interpretaion: Tabelle 1: Gibt die Koeffizienten wieder Tabelle 2: Da die Varianzen homogen sind (vgl. Levene Test oben) wird der p-Wert der ersten Zeile entnommen; p=0,000, das Ergebnis ist signifikant, die Koeffizientenwahl in diesem Beispiel war gut, alle Gruppen unterscheiden sich signifikant voneinander. Anmerkung: Falls der Kontrast-Test nicht signifikant ausfällt müssen die Koeffizienten anders gewählt werden bzw. die Gruppen anders gegenübergestellt werden (zB: Gruppe 1 und 2 gegen Gruppe 3 -> Koeffizienten z.B.: -0,5; -0,5; +1), damit die signifikante Richtung erkannt wird. Anmerkung: Fällt die Varianzanalyse nicht signifikant aus ist ein Prüfung mittels Kontraste natürlich nicht notwendig, da keine signifikanten Unterschiede zwischen keiner der Gruppen vorliegen.

Page 42: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

42

5.2.1.2 Post Hoc Tests Eine andere Methode sind Post Hoc Tests; sie zeigen auf Anhieb welche Gruppen mit welchen signifikante Unterschiede aufweisen. Eine Vorahnung der Ergebnisse ist nicht notwendig; Problem ist nur die Alpha-Kumulierung. Befehl: „Analysieren“ → „Mittelwerte vergleichen“ → „einfaktorielle ANOVA“ → „Post Hoc“ → „Scheffe“ wählen; „Signifikanzniveau“ festlegen (Alpha z.B. 5%) → „weiter“ → „ok“ Ergebnis: Tabelle 1: Mehrfachvergleiche Abhängige Variable: Punktescore Scheffé-Prozedur

95%-Konfidenzintervall

(I) Altersklassen (J) Altersklassen Mittlere

Differenz (I-J) Standardfe

hler Signifikanz Untergrenze Obergrenze 26-35 -10,72(*) 1,411 ,000 -14,35 -7,09 15-25 36-45 -18,51(*) 1,323 ,000 -21,91 -15,11

26-35 15-25 10,72(*) 1,411 ,000 7,09 14,35 36-45 -7,79(*) 1,358 ,000 -11,28 -4,30 36-45 15-25 18,51(*) 1,323 ,000 15,11 21,91 26-35 7,79(*) 1,358 ,000 4,30 11,28

* Die mittlere Differenz ist auf der Stufe .05 signifikant. Tabelle 2: Punktescore Scheffé-Prozedur

Untergruppe für Alpha = .05. Altersklassen N 1 2 3 15-25 11 14,18 26-35 10 24,90 36-45 13 32,69 Signifikanz 1,000 1,000 1,000

Die Mittelwerte für die in homogenen Untergruppen befindlichen Gruppen werden angezeigt. a Verwendet ein harmonisches Mittel für Stichprobengröße = 11,201. b Die Gruppengrößen sind nicht identisch. Es wird das harmonische Mittel der Gruppengrößen verwendet. Fehlerniveaus des Typs I sind nicht garantiert. Interpretation: Tabelle 1: Stellt jede (Faktor)Gruppe jeder gegenüber und markiert jene Gruppen, die signifikante Unterschiede aufweisen in der Spalte „mittlere Differenz“ mit einem Stern (auch unter der Spalte „Signifikanz“ ablesbar). In diesem Beispiel:

1. Zeile: Gruppe 15-25 sign. Unterschiede mit 26-35 und 36-45 2. Zeile: Gruppe 26-35 sign. Unterschiede mit 15-25 und 36-45 3. Zeile: Gruppe 36-45 sign. Unterschiede mit 15-25 und 26-35

Page 43: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

43

Tabelle 2: Zeigt - wie in den Kontrasten selbst eingeteilt wird – welche (Faktor)Gruppen zu einer homogenen Gruppe zugeordnet werden können und sich von anderen (Faktor)Gruppen eben signifikant unterschieden. In unserem Beispiel sind alle 3 Gruppen signifikant voneinander unterschiedlich, daher bildet jede Altersklasse eine homogene Gruppe.

5.2.2 einfache Varianzanalyse (abhängige Stichproben) Was sind abhängige Stichproben? Eine Stichprobe ist dann abhängig, wenn einer Person bzw. einem Objekt in der ersten Gruppe immer eine Person bzw. ein Objekt in der zweiten Gruppe zugewiesen wird.

d) Messwiederholungen (z.B: die Messergebnisse zu zwei Zeitpunkten sind nicht unabhängig, da sie immer von der gleichen Person erzielt wurden; dem Wert von Zeitpunkt 1 wird der Wert des Zeitpunktes 2 zugewiesen)

e) Parallelisierung: z.B: Jede Person in Gruppe A hat einen „Testzwilling“ in Gruppe B, mit ähnlichen, für die Untersuchung relevanten Merkmalen

f) Zwillinge, Partner, Geschwister oder sonstige Paare. Das Modell der abhängigen Varianzanalyse beruht ebenfalls auf einer Varianzzerlegung. QT = QZVp + QZBed + QRes QT...Quadratsumme total; die gesamte Streuung der Daten

2..( )iji j

x x−∑ ∑ ...... ...ijx alle Messwerte x Gesamtmittelwert

QZVP...Quadratsumme zwischen Versuchspersonen; die Streuung zwischen den n Personen (SPSS: Zwischensubjekteffekte)

2. ..( )ii

k x x−∑ mit . ...... ...ix Mittelwert Person i x Gesamtmittelwert QZBed...Quadratsumme zwischen Bedingungen; die Streuung zwischen den k Faktorenstufen (SPSS: Inneresubjekteffekte)

2. ..( )jj

n x x−∑ mit . ..... ...jx Mittelwert Faktorgruppe j x Gesamtmittelwert

QRes...Quadratsumme Rest(fehler), welche Interaktionseffekte (Vpn x Faktorgruppen ) und Fehlereffekte enthält, die nicht getrennt beobachtbar sind

2. . ..( )ij i ji j

x x x x− − +∑ ∑

Page 44: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

44

2 Hypothesen können durch dieses Modell geprüft werden: 1. Hypothese HO1: Es gibt keine signifikanten Unterschiede zwischen den Faktorstufen H11: Es gibt signifikante Unterschiede zwischen den Faktorstufen Die Annahme ist nun, dass unter H0 (keine signifikanten Faktorunterschiede) das Verhältnis zwischen QZBed und QRes (dividiert durch ihre Freiheitsgrade) um den Wert 1 ist, da die Schwankungen zwischen Faktorstufen nur zufällig sind, so wie die Residuen. Unter H1 (signifikante Unterschiede zwischen den Faktorstufen) müsste QZBed wesentlich größer sein als QRes und daher auch das Verhältnis QZBed / QRes wesentlich größer als 1. Die F-verteilte Prüfgröße F ist also das Verhältnis von QZBed zu QRes relativiert an den Freiheitsgraden, also

2120

ˆ1ˆ

( 1)( 1)

Bed

Res

QZkF Q

n k

σσ

−= =

− −

mit df1 = k-1 und df 2 = (n-1)(k-1)

k....Anzahl der Faktorstufen n....Anzahl der Personen Der resultierende Wert wird mit dem kritischen Wert der F-Verteilung (einseitig) verglichen; ist der empirische Wert höher als der kritische ist das Ergebnis signifikant. 2. Hypothese HO2:Es gibt keine signifikanten Unterschiede zwischen den Versuchspersonen. H12: Es gibt signifikante Unterschiede zwischen den Versuchspersonen. Die F-verteilte Prüfgröße F ist hier das Verhältnis von QZVp zu QRes relativiert an den Freiheitsgraden, also

2220

ˆ1ˆ

( 1)( 1)

Vp

Res

QZnF Q

n k

σσ

−= =

− −

mit df1 = n-1 und df 2 = (n-1)(k-1)

k....Anzahl der Faktorstufen n....Anzahl der Personen Der resultierende Wert wird mit dem kritischen Wert der F-Verteilung (einseitig) verglichen; ist der empirische Wert höher als der kritische ist das Ergebnis signifikant. Diese Hypothesenprüfung zwischen den Versuchspersonen ist letztlich aber meist uninteressant.

Page 45: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

45

Variablen: Die einfache abhängige Varianzanalyse benötigt eine abhängige Stichprobe, wobei jede Versuchsperson mehrere Messwerte zu verschiedenen Zeitpunkten/Treatments/....hat. Beispiel: Gibt es signifikante Unterschiede zwischen den 3 Zeitpunkten der Testung und den Ergebnissen des Konditionstrainings? Hypothesen H01: Die Versuchspersonen unterscheiden sich nicht signifikant bezüglich der Ergebnisse im Konditionstraining. H11: Die Versuchspersonen unterscheiden sich signifikant bezüglich der Ergebnisse im Konditionstraining. H02: Die Ergebnisse im Konditionstraining unterscheiden sich nicht signifikant bezüglich der 3 Zeitpunkte H12: Die Ergebnisse im Konditionstraining unterscheiden sich signifikant bezüglich der 3 Zeitpunkte Variablen Faktorstufen: 3 Zeitpunkte Abhängige Variable: Ergebnisse im Konditionstraining (hohe Werte stehen für hohe Kondition) (intervallskaliert, quantitativ diskret)

Zuerst erfolgt die Prüfung der Voraussetzungen der Varianzanalyse für abhängige Stichproben. Ad Intervallskalierung: Wird Grundsätzlich nur durch studieren der Daten überprüft (sind die Daten quantitativ?..., gibt es Ausreißer?,... ist es möglich bzw. sinnvoll die Differenzen von Werten zu vergleichen?...sind lineare Transformationen zulässig?...) Ad Normalverteilungsprüfung der Messwertdifferenzen: Die Normalverteilung wird bei n>30 aufgrund des zentralen Grenzwertsatzes angenommen. (eventuelle Berechnung mittels K+S-Test für alle Messwertdifferenzen (siehe 5.1.2) )

Personen Zeitpunkt (Faktorstufe) n T1 T2 T3 1 9 20 29 2 13 24 33 3 15 22 35 4 16 26 36 5 14 28 38 6 19 23 33 7 15 19 31 8 14 28 29 9 16 29 28 10 12 30 35

Page 46: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

46

Ad Zirkularität: Die Homogenität der Varianzen der Messwertdifferenzen wird im Zuge der Varianzanalyse automatisch durchgeführt (Mauchly-Test auf Sphärizität)! Varianzanalyse: Anwendung nur bei Erfüllung aller oben genannten Voraussetzungen! (andernfalls Friedman-Test) Befehl: „Analysieren“ → „allgemein lineares Modell“ → „Messwiederholung...“ → unter „Name des Innersubjektfaktors“ den Faktornamen eingeben (hier: Zeit) unter „Anzahl der Stufen“ die Faktorstufen eingeben (hier: 3) → „hinzufügen“ → „definieren“ → die Faktorstufen (hier 3 Zeitpunkte) in „Innersubjektvariablen“ “hinzufügen“ → „Diagramme...“ → Faktor (hier Zeit) in „horizontale Achse“ geben und „hinzufügen“ drücken→ „weiter“ → „Optionen“ → „Deskriptive Statistik“ anklicken → „weiter“ → „ok“ Ergebnis: Nach den Deskriptiven Statistiken und der Tabelle „Multivariate Tests“ (nicht relevant) werden folgende Tabellen ausgegeben:

Tabelle 1 Mauchly-Test auf Sphärizität(b) Maß: MASS_1

Innersubjekteffekt Mauchly-W Approximiertes

Chi-Quadrat df Signifikanz Epsilon(a)

Greenhouse-

Geisser Huynh-Feldt Untergr

enze ZEIT ,964 ,294 2 ,863 ,965 1,000 ,500

Prüft die Nullhypothese, daß sich die Fehlerkovarianz-Matrix der orthonormalisierten transformierten abhängigen Variablen proportional zur Einheitsmatrix verhält. a Kann zum Korrigieren der Freiheitsgrade für die gemittelten Signifikanztests verwendet werden. In der Tabelle mit den Tests der Effekte innerhalb der Subjekte werden korrigierte Tests angezeigt. b Design: Intercept Innersubjekt-Design: ZEIT Tabelle 2: Tests der Innersubjekteffekte Maß: MASS_1

Quelle Quadratsumme

vom Typ III df Mittel der Quadrate F Signifikanz

Sphärizität angenommen 1705,867 2 852,933 88,847 ,000

Greenhouse-Geisser 1705,867 1,930 883,725 88,847 ,000

Huynh-Feldt 1705,867 2,000 852,933 88,847 ,000

ZEIT

Untergrenze 1705,867 1,000 1705,867 88,847 ,000 Sphärizität angenommen 172,800 18 9,600

Greenhouse-Geisser 172,800 17,373 9,947

Huynh-Feldt 172,800 18,000 9,600

Fehler(ZEIT)

Untergrenze 172,800 9,000 19,200

Page 47: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

47

Tabelle 3: Tests der Innersubjektkontraste Maß: MASS_1

Quelle ZEIT Quadratsumme

vom Typ III df Mittel der Quadrate F Signifikanz

Stufe 1 gegen Stufe 3 3385,600 1 3385,600 217,026 ,000 ZEIT

Stufe 2 gegen Stufe 3 608,400 1 608,400 28,283 ,000 Stufe 1 gegen Stufe 3 140,400 9 15,600 Fehler(ZEIT)

Stufe 2 gegen Stufe 3 193,600 9 21,511

Tabelle 4: Tests der Zwischensubjekteffekte Maß: MASS_1 Transformierte Variable: Mittel

Quelle Quadratsumme

vom Typ III df Mittel der Quadrate F Signifikanz

Intercept 5744,011 1 5744,011 1208,794 ,000 Fehler 42,767 9 4,752

Abbildung 1:

Geschätztes Randmittel von MEASU

ZEIT

321

Ges

chät

ztes

Ran

dmitt

el

40

30

20

10

Page 48: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

48

Interpretation: Tabelle1: Der Mauchly-Test auf Sphärizität fällt nicht signifikant aus. (p=0,863), die Sphärizität kann angenommen werden. Sollte der Test signifikant ausfallen, ist die Sphärizität nicht gegeben, was zu einer Erhöhung des Alpha-Fehlers führt: die Varianzanalyse wird folglich zu progressiv (fällt zu schnell signifikant aus). In solchen Fällen müssen die Freiheitsgrade korrigiert werden; in den Resultaten der Varianzanalyse müssen daher die Werte in den Zeilen „Greenhouse-Geisser“ oder „Huynh-Feldt“ abgelesen werden. Tabelle 2: Die Innersubjekteffekte sind signifikant (p=0,000); die Werte der Vesuchspersonen in den 3 Zeitpunkten unterschieden sich also signifikant. Die H12 kann also angenommen werden. Tabelle 3: Die Kontraste zeigen wie in der Varianzanalyse für unabhängige Stichproben die Richtung der Ergebnisse. „Stufe 1 gegen Stufe 3“ und „Stufe 2 gegen Stufe 3“ fallen jeweils signifikant aus. Die Messwerte des Konditionstrainings der Personen sind somit in allen 3 Zeitfaktorstufen signifikant unterschiedlich. Tabelle 4: Beantwortet die zweite Hypothese (Unterschiede zwischen den Personen). In diesem Beispiel unterscheiden sich die Personen signifikant hinsichtlich ihrer Messwerte. Auch hier darf die H11 angenommen werden, obwohl diese Fragestellung eher zu vernachlässigen ist. Abbildung 1: Gibt das Profildiagramm wieder, um die Interpretation zu erleichtern. Abgebildet sind die Mittelwerte der Messwerte in den 3 Zeitpunkten. Wie schon aus der Tabelle „deskriptive Statistiken“ ersichtlich steigen die Werte des Konditionstrainings im Mittel von Zeitpunkt 1 zu Zeitpunkt 3.

Page 49: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

49

5.2.3 mehrfache Varianzanalyse (unabhängige Stichproben)

Das Modell der zweifachen Varianzanalyse QT = QZA + QZB + QI + Q(AxB) QT...Quadratsumme total; die gesamte Streuung der Daten QZA...Quadratsumme zwischen den Faktorstufen des Faktors A QZB...Quadratsumme zwischen den Faktorstufen des Faktors B Q(AxB)...Quadratsumme der Wechselwirkungen von Faktor A und B QI...Quadratsumme Innen; die Streuung innnerhalb der Faktorgruppen A und B Variablen: UV 1 (Faktor A): Erste (Gruppen)Variable; qualitative bzw. eine zu Messwertklassen zusammengefasste quantitative Variable. UV 2 (Faktor B): Zweite (Gruppen)Variable; qualitative bzw. eine zu Messwertklassen zusammengefasste quantitative Variable. AV: die abhängige Variable; quantitativ, intervallskaliert Mit der 2-fachen Varianzanylse sind die Prüfung von 3 Hypothesen möglich : 1. Hypothese H01: Es gibt keinen signifikanten Unterschiede zwischen den Stufen des Faktors A H11: Es gibt signifikante Unterschiede zwischen den Stufen des Faktors A Die F-verteilte Prüfgröße F ist das Verhältnis von QZA zu QI relativiert an den Freiheitsgraden, also

2

20

ˆ1ˆ

( 1)

A

QZAkF QI

km n

σσ

−= =

mit df1 = k-1 und df 2 = km(n-1)

k.....Anzahl der Faktorstufen Faktor A m... Anzahl der Faktorstufen Faktor B n....Anzahl der Personen Der resultierende Wert wird mit dem kritischen Wert der F-Verteilung (einseitig) verglichen; ist der empirische Wert höher als der kritische ist das Ergebnis signifikant. 2. Hypothese H02: Es gibt keinen signifikanten Unterschiede zwischen den Stufen des Faktors B H12: Es gibt signifikante Unterschiede zwischen den Stufen des Faktors B

Page 50: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

50

Die F-verteilte Prüfgröße F ist das Verhältnis von QZB zu QI relativiert an den Freiheitsgraden, also

2

20

ˆ1ˆ

( 1)

B

QZBmF QI

km n

σσ

−= =

mit df1 = m-1 und df 2 = km(n-1)

k.....Anzahl der Faktorstufen Faktor A m... Anzahl der Faktorstufen Faktor B n....Anzahl der Personen Der resultierende Wert wird mit dem kritischen Wert der F-Verteilung (einseitig) verglichen; ist der empirische Wert höher als der kritische ist das Ergebnis signifikant. 3. Hypothese H03: Es gibt keine signifikanten Wechselwirkungen zwischen Faktor A und Faktor B H13: Es gibt signifikante Wechselwirkungen zwischen Faktor A und Faktor B Die F-verteilte Prüfgröße F ist das Verhältnis von Q(AxB) zu QI relativiert an den Freiheitsgraden, also

2

20

( )ˆ( 1)( 1)ˆ

( 1)

AxB

Q AxBk mF QIkm n

σσ

− −= =

mit df1 = (k-1)(m-1) und df 2 = km(n-1)

k.....Anzahl der Faktorstufen Faktor A m... Anzahl der Faktorstufen Faktor B n....Anzahl der Personen Der resultierende Wert wird mit dem kritischen Wert der F-Verteilung (einseitig) verglichen; ist der empirische Wert höher als der kritische ist das Ergebnis signifikant. Beispiel: In einer wirtschaftspsychologischen Studie wurden die Variablen Alter (jung, mittel, alt) IQ (niedrig, mittel, hoch) und Einstellung zur EU (hohe Werte stehen für positive Einstellung zur EU) erhoben. Variablen: UV 1 (Faktor A): Altersklassen UV 2 (Faktor B): Intelligenzstufe AV: Einstellung zur EU

Page 51: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

51

Personen Altersklassen

n IQ 16-30 31-45 46-60 1 9 20 29 2 13 24 33 3 15 22 35 4 16 26 36 5 14 28 38 6

niedrig

19 23 33 7 15 19 31 8 14 28 29 9 16 29 28 10 12 30 35 11 13 24 29 12

mittel

14 26 35 13 16 28 34 14 13 21 30 15 117 22 33 16 20 21 31 17 21 29 29 18

hoch

14 25 29 Fragestellungen / Hypothesen: H01: Es gibt keine signifikanten Unterschiede zwischen den 3 Altersklassen bezüglich Einstellung zur EU. H11: Es gibt signifikante Unterschiede zwischen den 3 Altersklassen. H02: Es gibt keine signifikanten Unterschiede zwischen den 3 Stufen der Intelligenz bezüglich Einstellung zur EU. H12: Es gibt signifikante Unterschiede zwischen den 3 Stufen der Intelligenz. H03: Es gibt keine signifikanten Wechselwirkungen zwischen Intelligenz und Alter H13: Es gibt signifikante Wechselwirkungen zwischen Intelligenz und Alter Zuerst erfolgt die Prüfung der Voraussetzungen der zweifachen Varianzanalyse für unabhängige Stichproben. Ad Intervallskalierung: Wird Grundsätzlich nur durch studieren der Daten überprüft (sind die Daten quantitativ?..., gibt es Ausreißer?,... ist es möglich bzw. sinnvoll die Differenzen von Werten zu vergleichen?...sind lineare Transformationen zulässig?...) Ad Normalverteilungsprüfung: Die Normalverteilung wird mittels „Kolmogorov-Smirnov-Test (K+S-Test)“ übergeprüft. Die Hypothesen werden wie folgt formuliert: H0: Die Verteilung (der abhängigen Variable) ist eine Normalverteilung (in jeder Gruppe) bzw. die empirische Verteilung (aus den Daten) weicht nicht signifikant von der theoretischen (Normal)verteilung ab.

Page 52: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

52

H1: Die Verteilung ist nicht normalverteilt bzw. die empirische Verteilung (aus den Daten) weicht signifikant von der theoretischen (Normal)verteilung ab. Befehl: Jede k*m Gruppe (hier: 3 Altersklassen mal 3 IQ-Klassen = 9 Gruppen) der UVn, muss separat auf Normalverteilung geprüft werden. Dafür müssen die Fälle erst nach den betreffenden Variable (hier: Altersklasse und IQ-Klasse) getrennt werden (siehe 1.7) „Daten“ → „Datei aufteilen...“ → „Ausgabe nach Gruppen aufteilen“ wählen und in „Gruppe basierend auf“ die gewünschten Variablen (hier: Altersklassen und IQ-Klasse) hinzufügen → „ok“ Die Fälle sind jetzt bezüglich Altersklasse und IQ-Klasse imaginär getrennt, jede Berechnung wird jetzt separat für alle 9 Gruppen ausgegeben. Anmerkung: Zur Auflösung dieser Gruppierung: „Daten“ → „Datei aufteilen“ → „alle Fälle analysieren, keine Gruppen bilden“ → „ok“ Nun kann die Normalverteilung separat für alle 9 Gruppen überprüft werden: „Analysieren“ → „Nichtparametrische Tests“ → „K+S bei einer Stichprobe“ → „Normal“ (für Normalverteilung) → gewünschte zu testende (abhängige) Variable (hier: Einstellung zur EU) eingeben → „ok“ Ergebnis (Auswahl): Kolmogorov-Smirnov-Anpassungstest(c)

Jung

niedrig Jung mittel

Jung hoch

N 6 6 6 Parameter der Normalverteilung(a,b)

Mittelwert 14,33 14,00 33,5

Standardabweichung 3,327 1,414 41,03 Extremste Differenzen Absolut ,178 ,167 ,453 Positiv ,142 ,167 ,453 Negativ -,178 -,167 -,309 Kolmogorov-Smirnov-Z ,435 ,408 1,11 Asymptotische Signifikanz (2-seitig) ,991 ,996 ,170

a Die zu testende Verteilung ist eine Normalverteilung. b Aus den Daten berechnet. Interpretation: Die K+S-Tests für die Gruppen „jung, niedrig“, „jung, mittel“ „jung, hoch“ fallen alle nicht signifikant (p = 0,991; 0,996; 0,170) aus. Die H0 wird beibehalten. Die Normalverteilung in den 3 Gruppen ist gegeben. Anmerkung: Analog gibt SPSS die restliche 6 Gruppen aus (aus Platzgründen nicht angeführt), die ebenfalls alle nicht signifikant ausfallen müssen. Ad b) Homogenität der Varianzen: Die Homogenität der Varianzen wird im Zuge der Varianzanalyse durchgeführt (Levene-Test)!

Page 53: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

53

Varianzanalyse: Anwendung nur bei Erfüllung aller oben genannten Voraussetzungen! Befehl: Vorerst die Gruppierung nach Altersklassen für den K+S-Test aufheben! („Datei aufteilen...“) (siehe unter Punkt Normalverteilung) „Analysieren“ → „allgemeines linears Modell“ → „univariat“ → unter „abhängige Variable“ die AV eingeben (hier: Einstellung zur EU) → unter „feste Faktoren“ die UVn bzw. Faktoren eingeben (hier: Altersklassen und IQ-Klassen) → „Optionen“ → „Deskriptive Statistik“ und „Homogenitätstests“ anklicken → „weiter“ → „post hoc“ → unter „post hoc Test für“ beide Fakoteren (hier Altersklassen und IQ-Klassen) „hinzufügen“ und „Scheffe“ anklicken → „weiter“ → „Diagramme“ → unter „horizontale Achse“ einen Faktor eingeben (hier: Altersklasse) und unter „separate Linien“ den zweiten Faktor eingeben (hier IQ-Klasse) und „hinzufügen“ anklicken → „weiter“ → „ok“ Ergebnis:

Tabelle 1: Levene-Test auf Gleichheit der Fehlervarianzen(a) Abhängige Variable: Einstellung zur EU

F df1 df2 Signifikanz 5,090 8 45 ,000

Prüft die Nullhypothese, daß die Fehlervarianz der abhängigen Variablen über Gruppen hinweg gleich ist. a Design: Intercept+ALTER+IQ+ALTER * IQ Tabelle 2: Tests der Zwischensubjekteffekte Abhängige Variable: Einstellung zur EU

Quelle Quadratsumme

vom Typ III df Mittel der Quadrate F Signifikanz

Korrigiertes Modell 2754,926(a) 8 344,366 1,763 ,110 Intercept 35934,241 1 35934,241 184,009 ,000 ALTER 1209,926 2 604,963 3,098 ,055 IQ 393,926 2 196,963 1,009 ,373 ALTER * IQ 1151,074 4 287,769 1,474 ,226 Fehler 8787,833 45 195,285 Gesamt 47477,000 54 Korrigierte Gesamtvariation 11542,759 53

a R-Quadrat = ,239 (korrigiertes R-Quadrat = ,103)

Page 54: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

54

Tabelle 3: Mehrfachvergleiche Abhängige Variable: Einstellung zur EU Scheffé

95% Konfidenzintervall

(I) Intelligenzquotient (J) Intelligenzquotient Mittlere

Differenz (I-J) Standardfe

hler Signifikanz Untergrenze Obergrenze mittel ,33 4,658 ,997 -11,46 12,13 niedrig hoch -5,56 4,658 ,496 -17,35 6,24

mittel niedrig -,33 4,658 ,997 -12,13 11,46 hoch -5,89 4,658 ,456 -17,68 5,90 hoch niedrig 5,56 4,658 ,496 -6,24 17,35 mittel 5,89 4,658 ,456 -5,90 17,68

Basiert auf beobachteten Mittelwerten. Tabelle 4: Einstellung zur EU Scheffé

Untergruppe Intelligenzquotient N 1 mittel 18 23,72 niedrig 18 24,06 hoch 18 29,61 Signifikanz ,456

Die Mittelwerte für Gruppen in homogenen Untergruppen werden angezeigt. Basiert auf Typ III Quadratsumme Der Fehlerterm ist "Mittel der Quadrate (Fehler) = 195,285". a Verwendet Stichprobengrößen des harmonischen Mittels = 18,000 b Alpha = ,05 Tabelle 5: Mehrfachvergleiche Abhängige Variable: Einstellung zur EU Scheffé

95% Konfidenzintervall

(I) Altersklassen (J) Altersklassen Mittlere

Differenz (I-J) Standardfe

hler Signifikanz Untergrenze Obergrenze mittel -4,11 4,658 ,680 -15,90 7,68 jung alt -11,44 4,658 ,059 -23,24 ,35

mittel jung 4,11 4,658 ,680 -7,68 15,90 alt -7,33 4,658 ,299 -19,13 4,46 alt jung 11,44 4,658 ,059 -,35 23,24 mittel 7,33 4,658 ,299 -4,46 19,13

Basiert auf beobachteten Mittelwerten. Tabelle 6: Einstellung zur EU Scheffé

Untergruppe Altersklassen N 1 jung 18 20,61 mittel 18 24,72 alt 18 32,06 Signifikanz ,059

Die Mittelwerte für Gruppen in homogenen Untergruppen werden angezeigt. Basiert auf Typ III Quadratsumme Der Fehlerterm ist "Mittel der Quadrate (Fehler) = 195,285". a Verwendet Stichprobengrößen des harmonischen Mittels = 18,000 b Alpha = ,05

Page 55: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

55

Abbldung 1:

Geschätztes Randmittel von Einstel

Altersklassen

altmitteljung

Ges

chät

ztes

Ran

dmitt

el

40

30

20

10

Intelligenzquotient

niedrig

mittel

hoch

Interpretation: Nach den deskriptiven Statistiken werden folgende Tabellen ausgegeben: Tabelle 1: Der Levene F-Test weist einen p-Wert von 0,000 auf. Die Varianzen sind demnach nicht homogen! Die Ergebnisse der Varianzanalyse sind demnach mit Vorsicht zu geniesen(!), da eine Voraussetzung nicht erfüllt ist. Tabelle 2: Die Varianzanalyse ergibt für die 3 aufgestellten Hypothesen folgende Endresultate: Hypothese 1: Der p-Wert von 0,055 ist knapp nicht signifikant; zwischen den Altersklassen bestehen keine signifikanten Unterschiede bezüglich Einstellung zur EU. Die H01 wird beibehalten. Hypothese 2: Der p-Wert von 0,373 ist nicht signifikant; zwischen den IQ-Klassen bestehen keine signifikanten Unterschiede bezüglich Einstellung zur EU. Die H02 wird beibehalten. Hypothese 3: Der p-Wert von 0,226 ist nicht signifikant; es bestehen keine signifikanten Wechselwirkungen zwischen den Altersklassen und den IQ-Klassen. Die H03 wird beibehalten.

Page 56: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

56

Tabelle 3 und 4: Gibt den post hoc Scheffe Test wieder (vgl 5.2.1.2) für den Faktor IQ-Klasse. Da die Varianzanalyse für Faktor IQ-Klasse nicht signifikant ausgefallen ist, enthält auch der Scheffe Test keine signifikanten Ergebnisse. Tabelle 5 und 6: Gibt den Scheffe Tests für den Faktor Altersklassen wieder. Da die Varianzanalyse für Faktor Altersklasse ebenfalls nicht signifikant ausgefallen ist, ist auch hier der Scheffe Test sinnlos. Abildung 1: Gibt die Wechselwirkungen wieder. Da die Wechselwirkungen in der Varianzanalyse auch nicht signifikant ausgefallen sind, ist eine Interpretation von Wechselwirkungen des Faktors IQ und Alter nicht sinnvoll. Mögliche Interpretation: Junge Personen mit hohen IQ und ältere Personen unabhängig vom IQ sind positiver zur EU eingestellt als die anderen Gruppierungen.

5.1.3 Kruskal-Wallis-Test (mehr als 2 unabhängige Stichproben, parameterfrei) Definition: Wenn die Voraussetzungen für eine einfache Varianzanaylse nicht gegeben sind kann als gute Alternative der Kruskla-Wallis-Test herangezogen werden. Er zählt zu den parameterfreien Tests (da die Formulierung der Hypothesen nicht auf Parametern 2,, σµ x ... beruhen) und hat viel mildere Voraussetzungen bei nur geringem Machtverlust (ca. 95% der Macht der VA) . Im Unterschied zur einfachen Varianzanalyse wird hier nicht QT, QZ bzw. QI, sondern die mittleren Rangsummen der k Gruppen berechnet; dazu werden nicht die Messwerte herangezogen, sondern die Rangwerte aller Messwerte! (daher Rangvarianzanalyse) Beim Kruskal-Wallis-Test ist die Rangvarianz zwischen den Gruppen

2. ..( )j jj

RZ n r r= −∑

nj.....Stichprobenumfang der Gruppe j . jr ....mittlere Rangsumme der Gruppe j

..r ...mittlere Rangsumme gesamt k.....Anzahl der Gruppen ausreichend um Gruppenunterschiede zu testen. Die Prüfgröße H ist mit nj → ∞ asymptotisch 2χ -verteilt

2. ..

12 ( )( 1) j jj

H n r rN N

= −+ ∑ mit df = k-1

Page 57: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

57

Voraussetzungen: • Mindestens rangskalierte Daten • Stetigkeit des Merkmals (keine qualtitativen bzw. nominalskalierten Variablen wie

z.B: Geschlecht, Schulbildung...) • Unabhängige Stichproben

Beispiel: Frage: Gibt es signifikante Unterschiede bezüglich der Bearbeitungszeit in einem Konzentrationstest in den Berufsgruppen A, B, C und D?

Person A B C D 1 23 48 70 22 2 24 45 58 58 3 33 99 66 59 4 25 55 45 110 5 100 34 58 58 6 26 26 24 56 7 35 49 58 57 8 44 55 79 56 8 43 77 10 45

Variablen: UV: 4 Berufsgruppen AV: Bearbeitungszeit (quantitative Variable; aber Ausreißer(!), daher Intervallskala nicht gegeben) Da die Voraussetzung „Intervallskala“ der Varianzanalyse wegen der zahlreichen Ausreißer nicht gegeben ist, muss der Kruskal-Wallis-Test angewandt werden. Hypothesen: H0: Es bestehen keine signifikanten Unterschiede in den Berufsgruppen hinsichtlich der Bearbeitungszeit des Konzentrationstests. H1: Es bestehen signifikante Unterschiede in den Berufsgruppen hinsichtlich der Bearbeitungszeit des Konzentrationstests. Befehl: „Analysieren“ → „Nichtparametrische Tests“ → „K unabhängige Stichproben“ → „Gruppenvariable“ eingeben (hier: Berufsgruppe) → „Bereich definieren“ → „Minimum“ und „Maximum“ eingeben (hier 1 bzw. 4) → „weiter“ → unter „Testvariable“ die AV „hinzufügen“ (hier: Bearbeitungszeit) → „Kruskal-Wallis-H“ anklicken → „ok“

Page 58: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

58

Ergebnis: Tabelle 1 Ränge Berufsgruppe N Mittlerer Rang

Beruf 1 8 10,13 Beruf 2 10 15,75 Beruf 3 9 23,83 Beruf 4 8 22,13

Bearbeitungszeit

Gesamt 35 Tabelle 2 Statistik für Test(a,b)

Bearbeitun

gszeit Chi-Quadrat 9,457 df 3 Asymptotische Signifikanz ,024

a Kruskal-Wallis-Test b Gruppenvariable: Berufsgruppe Interpretation: Tabelle 1 Gibt die mittleren Rangsummen der 4 Berufsgruppen bezüglich ihrer Bearbeitungszeit wieder. Wie ersichtlich weisen Gruppe 1 und 2 gegen Gruppe 3 und 4 deutlich Unterschiede in ihrer Bearbeitungszeit auf. Tabelle 2 Es bestehen signifikante Unterschiede zwischen Gruppe 1, 2, 3 und 4 bezüglich Bearbeitungszeit im Konzentrationstest. Der p-Wert von 0,024 ist kleiner als 0,05. Die H0 wird verworfen. Aufgrund der mittleren Ränge (Rangsumme/nj) erkennt man, dass Gruppe 1 und 2 durchschnittlich weniger Bearbeitungszeit benötigt als Gruppe 3 und 4. Da es beim Kruskal-Wallis-Test keine Kontraste bzw. post hoc Tests gibt, muss mittles der mittleren Rangsummen interpretiert werden. Anmerkung: eine Berechung der einfachen Varianzanalyse würde nicht signifikant ausfallen (p= 0,182, df1=3 df2=31), da die höhe der Ausreißer in die Mittelwerts- und Varianzberechnungen einfließen würde (weil mit den Messwerten selbst und nicht mit ihren Rangwerten gerechnet wird) und dadurch die Werte verzerrten!

Page 59: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

59

5.1.4 Friedman-Test (mehr als 2 abhängige Stichproben, parameterfrei) Definition: Der Friedman-Test dient als Alternative falls die Voraussetzungen für die einfache Varianzanalyse für abhängige Stichproben nicht gegeben sind (Macht zur Varianzanalyse jedoch nur 64 - 95,5% je nach Gruppenanzahl). Der Friedman-Test rechnet im Gegensatz zur abhängigen Varianzanalyse nicht mit den Messwerten selbst, sondern mit den Rangzahlen der Messwerte in jeder der k Gruppen. Beim Friedman-Test ist ebenfalls die Rangvarianz zwischen den k Gruppen

2. ..( )jj

RZ r r= −∑

. jr ...mittlere Rangsumme der Gruppe j

..r ...mittlere Rangsumme gesamt k...Anzahl der Gruppen ausreichend um Gruppenunterschiede zu testen. Die Prüfgröße v ist mit n → ∞ asymptotisch 2χ -verteilt

2.

12 3 ( 1)( 1) jj

v r n knk k

= − ++ ∑ mit df = k-1

Voraussetzungen

• Stetigkeit des Merkmals (nicht qualtitativ) • mindestens rangskalierte Daten • abhängige Stichproben

Beispiel Frage: 16 Personen mussten 4 Politiker nach persönlicher Beliebtheit rangreihen (hohe Werte stehen für hohe Beliebtheit). Gibt es in dieser Stichprobe signifikante Unterschiede in der Beliebtheit der 4 Politiker?

Page 60: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

60

Politiker A B C D 1 1 3 4 2 2 3 2 4 1 3 4 3 2 1 4 2 3 4 1 5 3 2 4 1 6 2 3 4 1 7 3 2 4 1 8 2 3 1 4 9 1 4 3 2

11 2 3 4 1 12 1 2 3 4 13 2 1 3 4 14 3 2 4 1 15 2 3 4 1

Person

16 3 2 1 4 Variablen: Faktorstufen: 4 Politiker Abhängige Variable: Rangwerte der Politiker Da die AV auf einer Rangreihung basiert (=Rangskala und keine Intervallskala), muss statt der Varianzanalyse der Friedman-Test herangezogen werden. Da jede Person jedem der 4 Politiker einen Rangwert zuornet, ist die Stichprobe abhängig. Befehl „Analysieren“ → „Nichtparametrische Tests“ → „K verbundene Stichproben“ → „Friedman“ wählen → unter „Testvariablen“ die k abhängigen Gruppen eingeben (hier: Politiker A, B, C, D)→ „ok“ Ergebnis: Tabelle 1 Ränge Mittlerer Rang A 2,27 B 2,53 C 3,27 D 1,93

Tabelle 2 Statistik für Test(a) N 15 Chi-Quadrat 8,680 df 3 Asymptotische Signifikanz ,034

a Friedman-Test

Page 61: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

61

Interpretation: Tabelle 1 Gibt die mittleren Rangsummen der Bewertung der 4 Politiker wieder. Wie ersichtlich weisen Politiker A und B ähnliche mittlere Rangwerte auf, während Politiker C besser und Politiker D schlechter bewertet wird. Tabelle 2 Es bestehen signifikante Unterschiede zwischen den Bewertungen der 4 Politiker. Der p-Wert von 0,034 ist kleiner als 0,05. Die H0 wird verworfen. Aufgrund der mittleren Ränge erkennt man, dass Politiker D am schlechtesten, Politker A und B durchschnittlich und Politiker C am besten bewertet wurde.

Page 62: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

62

6 Die Reliabilitätsanalyse Tests bzw. Fragebögen müssen bestimmte Gütekriterien erfüllen. Die drei wichtigsten sind

6.1 Objektivität Objektivität beschreibt den Grad der Unabhängigkeit des Tests vom Versuchsleiter. Theoretisch bedeutet diese Annahme, dass alle Versuchsleiter zum gleichen Ergebnis kommen müssen. Dies ist aber aufgrund der Testwiederholungseffekte in der Psychologie nicht möglich. Die Objektivität ist abhängig von der Art bzw. Konstruktion der Items, von der Durchführung, der Auswertung und der Interpretation des Tests bzw. Fragebogens.

6.2 Validität (Gültigkeit) gibt den Grad der Genauigkeit an, mit dem ein Test das zu testende Merkmal tatsächlich misst. Sie ist das wichtigste Gütekriterium und gleichzeitig am schwierigsten zu prüfen. Mögliche Frage: „Misst der Test bzw. Fragebogen auch wirklich die Eigenschaft(en)/Fähigkeiten, die er angibt, messen zu können?“

• Inhaltliche Gültigkeit: wenn der Test quasi definitionsgemäß das optimale Kriterium des interessierenden Merkmals ist. Diese Annahme wird meist mittels „Experten-Rating“ überprüft: Jedes Item wird kontrolliert, ob es tatsächlich die gewünschte Eigenschaft, die der Test bzw. Fragebogen messen soll, misst.

• Konstruktvalidität wenn ein Test nicht nur praktische sondern auch theoretische Vorstellungen, Kriterien erfüllt. (Modelle, Theorien, Konstrukte) Klassische Methode: Faktorenanalyse

• Kriteriumsvalidität Diese Validität sollte den eigentlichen Grad der Genauigkeit auf statistischem Wege überprüfen; z.B. die Korrelation des Tests mit dem zu testenden Kriterium.

6.3 Reliabilität Die Reliabilität ist der Grad der Genauigkeit, Zuverlässigkeit mit der ein Test ein Merkmal misst. Unabhängig davon, was gemessen wird, sollten die Testwerte einer Person bei Messwiederholungen übereinstimmen. Diese theoretische Reproduzierbarkeit unter gleichen Bedingungen ist in der Praxis nicht 100%ig möglich. (Wiederholungseffekte) Die Reliabilität wird mit dem Reliabilitätskoeffizienten gemessen. Folgende Arten der Reliabilität werden unterschieden:

6.3.1 Paralleltest-Reliabilität Idee: Testwiederholung hat Wiederholungseffekte, aber die erneute Testung mit einem identen, äquivalenten Paralleltest würde diesen unerwünschten Effekt minimieren.. Die Korrelation des Tests mit seinem Paralleltest r(X, X`) ergibt die Reliabilität. X....Test 1 X`...zu Test 1 äquivalenter Test 2

Page 63: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

63

Problem: Die Konstruktion eines identen Paralleltests ist mittels klassischer Testtheorie problematisch, jedoch mit neuen Methoden / Ansätzen (probabilistische Testtheorie, Item-Response-Theorie) durchaus möglich.

6.3.2 Retest-Reliabilität (=Stabilität) Idee: Eine Wiederholung des gleichen Tests nach einem bestimmten Zeitraum (z.B: 4 Wochen) und eine anschließende Korrelation r(X, X`) liefert relevante Informationen zur Stabilität des Tests und der gemessenen Eigenschaft. → „Stabilitätsgebung“ X....Test X zum Zeitpunkt 1 X`...Test X zum Zeitpunkt 2

6.3.3 Innere Konsistenz Definition: Die Homogenität (Gleichheit) der Items wird überprüft. Alle Items müssen zusammenpassen und eine gemeinsame Dimension/Eigenschaft messen. Beispiel: 20 Mathematikitems sollen eine Dimension messen: mathematische Fähigkeit. Um die Homogenität der Items zu überprüfen gibt es eine Reihe an Verfahren und Prüfgrößen. Faustregeln: Wenig Homogenität der Items → schlechte Reliabilität Je ähnlicher die Items und je länger der Test desto besser ist die Reliabilität (Die Reliabilität ist abhängig von der Anzahl der Items!) Eine Reliabilität > 0,8 kann als zufriedenstellend bezeichnet werden. 0,8-0,9...zufriedenstellend >0,9....hohe Reliabilität >0,5... ist für Gruppenvergleiche noch zulässig Methoden der Reliabilitätsmessung:

1) Split-Half-Methode Definition: Der Test wird aufgrund eines splitting points in 2 Teile geteilt (z.B: hoher/niedriger Rohscore) und korreliert. Die zugrundeliegende Idee ist, den Test intern in 2 Paralleltests zu teilen und die Ähnlichkeit (Korrelation) der beiden internen Tests zu berechnen. Anmerkung: Im SPSS wird die erste Testhälfte der zweiten gegenübergestellt.

2) Cronbach alpha

Definition: Cronbach Alpha gibt die untere Schranke der Reliabilität an. Die wahre Reliabilität ist größer oder gleich dem Alpha-Wert.

Page 64: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

64

Anmerkung: Bei dichotomen Items wird automatisch die Kuder-Richardson-Formel benützt.

3) Guttman Der Guttman-Wert stellt die Korrektur des Cronbach-Alpha-Wertes dar.

4) Parallel Wird dann verwendet, wenn die Annahme besteht, dass die Items dieselbe Varianz besitzen.

5) Strikt parallel Unter der Annahme, dass die Items gleiche Varianz und gleichen Mittelwert besitzen. Beispiel 1: Reliabilität mittels (Cronbach) Alpha Zur Verfügung steht ein Allgemeinwissenstest mit 9 Kategorien (Geschichte, Geographie, Technik, Chemie, Biologie, Kunst, Kultur, Wirtschaft und Sport) mit je 3 Items; also insgesamt 27 Items. Das Antwortformat ist 4-kategoriell und eine Antwort ist richtig. Die Frage ist nun die Homogenität der Items, also die Reliabilität. Befehl „Analysieren“ → „Skalieren“ → „Reliabilitätsanalyse...“ → die gewünschten Items in das Feld „Items“ geben (hier: 27 Items) → bei „Modell“ „Alpha“ wählen → „Statistik“ → „Skala wenn Item gelöscht“ wählen und bei „ANOVA-Tabelle“ „Keine“ → „weiter“ → „ok“ 1. Ergebnis R E L I A B I L I T Y A N A L Y S I S - S C A L E (A L P H A) Item-total Statistics Scale Scale Corrected Mean Variance Item- Alpha if Item if Item Total if Item Deleted Deleted Correlation Deleted GESCHPO1 14,2700 15,3506 ,2663 ,6730 GESCHPO2 14,8500 15,5631 ,0543 ,6882 GESCHPO3 14,5300 14,0294 ,4872 ,6497 GEOREIS1 14,5800 14,7309 ,2718 ,6693 GEOREIS2 14,9600 15,7762 ,0115 ,6898 GEOREIS3 14,7100 15,3999 ,0867 ,6862 TECHWIS1 14,3800 14,9248 ,2999 ,6682 TECHWIS2 14,7600 14,6489 ,2881 ,6677 TECHWIS3 14,8800 14,7127 ,2987 ,6671 CHEMED1 14,3500 15,3813 ,1650 ,6779 CHEMED2 14,4700 15,6254 ,0462 ,6881 CHEMED3 14,3100 15,2868 ,2351 ,6737 NATBIO1 14,4700 14,4334 ,3957 ,6590 NATBIO2 14,6400 15,0610 ,1759 ,6781 NATBIO3 14,4500 14,3914 ,4210 ,6572 KUNST1 14,9300 15,2173 ,1693 ,6780 KUNST2 14,4700 14,8981 ,2561 ,6709 KUNST3 14,5200 15,2016 ,1544 ,6796 KULTUR1 14,5000 14,6768 ,3091 ,6662 KULTUR2 14,7100 14,8140 ,2400 ,6722

Page 65: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

65

KULTUR3 14,6000 14,9697 ,2039 ,6755 WIRTSCH1 15,1200 16,0057 -,0378 ,6875 WIRTSCH2 14,6700 14,8092 ,2413 ,6721 WIRTSCH3 14,4600 14,9378 ,2485 ,6716 SPORT1 14,8100 14,9029 ,2265 ,6734 SPORT2 14,7400 14,1539 ,4226 ,6549 SPORT3 14,8000 15,4343 ,0829 ,6862 Reliability Coefficients N of Cases = 100,0 N of Items = 27 Alpha = ,6819 Interpretation 1. Spalte: “Scale mean if item deleted” Gibt den Skalenmittelwert wieder, wenn das betroffene Item ausselektiert wird. 2. Spalte: „Scale variance if Item deleted“ Gibt die Skalenvarianz wieder, wenn das betroffene Item ausselektiert wird. 3. Spalte: „corrected Item-total correlation“ Bezeichnet die korrigierte Trennschärfe des Items. Die Trennschärfe ist die Korrelation des Items i mit dem Gesamttest X → r(i; X) Die korrigierte Trennschärfe ist die Korrelation des Items i mit dem Gesamttest X ohne dem Item i → r*(i; X*) mit X*=X ohne i. Eine hohe Trennschärfe weist darauf hin, dass das Item gut zu den anderen passt. Eine Trennschärfe von 1 bedeutet, dass das Item so gut misst wie der gesamte Test. Items mit niedrigen Trennschärfen (um 0) und vor allem negativen Trennschärfen werden ausselektiert, da sie nicht der Dimension der restlichen Items entsprechen! Im Beispiel: Item „Wirtsch1“ hat eine negative Trennschärfe und wird im nächsten Schritt auf jeden Fall ausselektiert. Einige andere Items weisen eine Trennschärfe um Null auf. 4. Spalte: „Alpha if Item deleted“ Gibt den Reliabilitätswert an, im Falle, dass das Item ausgeschlossen wird. Wenn Item „Wirtsch1“ ausselektiert wird, erhöht sich die Reliabilität minimal (auf: 0,6875). Reliability coefficients: Alpha: Alpha, der Reliabilitätskoeffizient stellt nun die Prüfgröße dar. Das Alpha von 0,6819 aus dem Beispiel liegt unter der erwünschten Schranke von 0,8. Die Reliabilität der 27 Items ist daher nur mäßig gut. Natürlich stellt sich in diesem Beispiel allgemein die Frage der Eindimensionalität der Items!!! Weiterer Vorgang Die Reliabilität wird erneut berechnet, jedoch ohne dem Item „Wirtsch1“.

Page 66: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

66

2. Ergebnis R E L I A B I L I T Y A N A L Y S I S - S C A L E (A L P H A) Item-total Statistics Scale Scale Corrected Mean Variance Item- Alpha if Item if Item Total if Item Deleted Deleted Correlation Deleted GESCHPO1 14,2000 15,3333 ,2800 ,6781 GESCHPO2 14,7800 15,5875 ,0509 ,6942 GESCHPO3 14,4600 14,0893 ,4728 ,6573 GEOREIS1 14,5100 14,7373 ,2732 ,6752 GEOREIS2 14,8900 15,7959 ,0092 ,6957 GEOREIS3 14,6400 15,3438 ,1042 ,6905 TECHWIS1 14,3100 14,9231 ,3043 ,6738 TECHWIS2 14,6900 14,7009 ,2771 ,6748 TECHWIS3 14,8100 14,7211 ,2996 ,6730 CHEMED1 14,2800 15,3754 ,1712 ,6833 CHEMED2 14,4000 15,6768 ,0351 ,6947 CHEMED3 14,2400 15,2954 ,2363 ,6794 NATBIO1 14,4000 14,4444 ,3958 ,6651 NATBIO2 14,5700 15,0355 ,1857 ,6831 NATBIO3 14,3800 14,3794 ,4283 ,6627 KUNST1 14,8600 15,2125 ,1741 ,6835 KUNST2 14,4000 14,8889 ,2622 ,6763 KUNST3 14,4500 15,2197 ,1526 ,6856 KULTUR1 14,4300 14,6516 ,3198 ,6713 KULTUR2 14,6400 14,8388 ,2365 ,6785 KULTUR3 14,5300 14,9991 ,1991 ,6818 WIRTSCH2 14,6000 14,8485 ,2339 ,6787 WIRTSCH3 14,3900 14,9474 ,2490 ,6774 SPORT1 14,7400 14,9014 ,2300 ,6790 SPORT2 14,6700 14,1627 ,4233 ,6610 SPORT3 14,7300 15,4516 ,0814 ,6921 Reliability Coefficients N of Cases = 100,0 N of Items = 26 Alpha = ,6875 Interpretation Die verbleibenden 26 Items ergeben eine Reliabilität von Alpha = 0,6875, welches auch kleiner 0.8 ist. Einige Trennschärfen sind noch um 0 („fett“ markiert), negative Trennschärfen gibt es jedoch keine. Das Weglassen der Items mit niedriger Trennschärfe würde jedoch die Reliabilität nur unwesentlich steigern (z.B: eine Selektion des Items „Georeis2“ würde Alpha nur auf 0,6957 heben), daher ergibt sich folgendes Endresultat: 26 Items weisen eine Reliabilität von 0,6875 auf, der Grad der Homogenität der Items ist daher nur mäßig.

Page 67: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

67

Beispiel 2: Reliabilität mittels split half Methode Die Berechnungsschritte sind gleich wie im Beispiel 1; lediglich das „Modell“ ändert sich auf „Split half“. Ergebnis: R E L I A B I L I T Y A N A L Y S I S - S C A L E (S P L I T) Item-total Statistics Scale Scale Corrected Mean Variance Item- Alpha if Item if Item Total if Item Deleted Deleted Correlation Deleted GESCHPO1 14,2000 15,3333 ,2800 ,6781 GESCHPO2 14,7800 15,5875 ,0509 ,6942 GESCHPO3 14,4600 14,0893 ,4728 ,6573 Usw-----------------usw------------------usw----------------usw--- Reliability Coefficients N of Cases = 100,0 N of Items = 26 Correlation between forms = ,5457 Equal-length Spearman-Brown = ,7061 Guttman Split-half = ,7014 Unequal-length Spearman-Brown =,7061 13 Items in part 1 13 Items in part 2 Alpha for part 1 = ,4828 Alpha for part 2 = ,5440 Interpretation

• Correlation between forms = ,5457 split half Reliabilität für die halbe Itemanzahl (n=13). Wie aus der Testtheorie bekannt muss die split half Reliabilität auf die doppelte Länge (n=26) aufgewertet werden. Dies geschieht durch...

• Equal-length Spearman-Brown = ,7061 Unequal-length Spearman-Brown = ,7061 Aufwertung der split half Rel. Für a) gleiche Länge der beiden Testteile b) unterschiedliche Länge der beiden Testhälften

• Guttman Split-half = ,7014 Noch eine andere Methode der Reliabilitätsberechnung.

Das Ergebnis ist ähnlich dem Resultat aus Beispiel 1, die verschiedenen Berechnungsmethoden führen in der Regel auch zu ähnlichen Ergebnissen.

Page 68: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

68

7 Die Faktorenanalyse

7.1 Grundidee Die Faktorenanalyse ist ein Verfahren zur Datenreduktion. Es wird versucht, die zwischen den Variablen/Items/Fragen bestehenden (Inter)Korrelationen zu erklären, indem latente Faktoren angenommen werden, welche den beobachteten Variablen zugrunde liegen. Ziel ist die Anzahl der resultierenden Faktoren wesentlich geringer zu halten, als die Anzahl der Variablen/Items; daher Datenreduktion, Informationszusammenfassung. Man versucht also Faktoren zu finden, welche die Korrelationen zwischen den Items erklären. Nach Extrahieren dieser Faktoren müssen die Interkorrelationen der Items/Variablen in der Korrelationsmatrix wesentlich niedriger werden (oder sogar um 0 sein, falls die Varianz bzw. Korrelationen zum Großteil durch die latenten Faktoren erklärt wird). Die Faktorenanalyse ist also ein datenreduzierendes, „klassifizierendes“ Verfahren.

7.2 Stichworte Beispiel Faktorenextraktion: Bei 5 Variablen resultieren in diesem Beispiel 3 latente Faktoren. Variablen i Faktorladung

Faktor 1 Faktorladung Faktor 2

Faktorladung Faktor3

Kommunalität 2ih

Variable 1 11a 12a 13a 2 2 211 12 13a a a+ +

Variable 2 21a 22a 23a 2 2 221 22 23a a a+ +

Variable 3 31a 32a 33a 2 2 231 32 33a a a+ +

Variable 4 41a 42a 43a 2 2 241 42 43a a a+ +

Variable 5 51a 52a 53a 2 2 251 52 53a a a+ +

Eigenwerte 2 2 211 21 31

2 241 51

a a aa a

+ +

+ +

2 2 212 22 32

2 242 52

a a aa a

+ +

+ +

2 2 213 23 33

2 243 53

a a aa a

+ +

+ +

Faktorladung: ist die Korrelation der beobachteten Variable i mit dem Faktor j;

);( jiij FXra = Quadrat der Faktorladung 2

ija gibt den erklärten Varianzanteil einer Variable i an, der durch den einen Faktor j beschrieben wird. Kommunalität ist die Summe der Quadrate der Ladungen der k Faktoren in einer Variablen i, also jener Varianzanteil einer Variablen i, der durch alle k Faktoren erklärt wird

20 1k

ijj

a≤ ≤∑ -> zeilenweise summiert! Weiters gilt: 20 1k

ijj

a≤ ≤∑

Page 69: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

69

Eigenwert jλ ist die Summe der Quadrate der Faktorenladungen eines Faktors j in allen m Variablen, also der erklärte Varianzanteil aller Variablen durch einen Faktor j.

2m

iji

a∑ -> spaltenweise summiert!

Markervariablen werden zur Interpretation der Faktoren herangezogen. Das sind jene (manifeste) Variablen, in denen die Ladungen der (latenten) Faktoren (positiv oder negativ) hoch sind. Jede Variable hat einen Varianzanteil von 1. Ausgangspunkt der Faktorennanalyse ist die Interkorrelationsmatrix, also jede Variable mit jeder (auch mit sich selbst = Hauptkomponente) korreliert (siehe Abbildung 1 unten).

7.3 Bestimmung der Faktorenanzahl bzw. Abbruchkriterium

2) Restkorrelation: Wenn die Restkorrelationen nach der Faktorenextraktion um 0 schwanken, wird abgebrochen.

3) Eigenwerte (Kaiser-Guttman-Kriterium): In der Praxis werden meist jene Faktoren verwendet mit einem Eigenwert (erklärten Varianzanteil) > 1 (da ein Faktor mit einem Eigenwert < 1 weniger erklären würde als eine Variable) Nachteil: Bei großen Variablenanzahlen führt dies zu zu vielen Faktoren.

4) Eigenwertdiagramm (Screeplot): die Eigenwerte werden in einem Diagramm dargestellt. Wenn ein großer Abfall des Eigenwertes von einem zum nächstkleineren Faktor beobachtet wird, wird an dieser Stelle die Faktoranzahl festgelegt (also alle Faktoren vor dem „Knick“) (siehe Abbildung 2 unten).

7.4 Voraussetzungen der FA

1) Die FA setzt strenggenommen quantitative Daten voraus (dichotome bzw. polytome Daten führen zu artifiziellen Faktoren; also Schwierigkeitsfaktoren)

2) Idealer Weise sollte das Skalenniveau der Variablen mindestens Intervallskala aufweisen und die Korrelationen in Form von Produkt-Moment-Korrelationen berechnet werden.

3) Die manifesten, beobachteten Variablen müssen zusammenhängen (Interkorrelationsmatrix), sonst macht es keine Sinn latente Faktoren, die den Zusammenhang beschreiben sollen, zu extrahieren. Messung vor der FA mittels Bartlett-Test: Es wird überprüft, ob die

Korrelationsmatrix signifikant von der Einheitsmatrix abweicht. 4) Die Stichprobe muss groß und repräsentativ sein.

Page 70: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

70

Abbildung 1: Interkorrelationsmatrix von 5 Variablen mit sehr hohen Korrelationen Korrelationsmatrix ITEM1 ITEM2 ITEM3 ITEM4 ITEM5 Korrelation ITEM1 1,000 ,807 ,928 ,948 ,992 ITEM2 ,807 1,000 ,923 ,789 ,812 ITEM3 ,928 ,923 1,000 ,886 ,941 ITEM4 ,948 ,789 ,886 1,000 ,964 ITEM5 ,992 ,812 ,941 ,964 1,000

7.5 Probleme der FA

1) Wie viele Faktoren sollen extrahiert werden? 2) Wie benenne ich die Faktoren? (inhaltliche Begründungen) 3) Die Faktorenanalyse ist stark stichprobenabhängig 4) Das Modell der FA ist nicht prüfbar 5) Wie sollen die Faktoren rotiert werden, um eine optimale Lösung zu erhalten?

Trotzdem ist die FA ein wichtiges und häufig verwendetes Verfahren in der (klassischen) Testtheorie bzw. Testkonstruktion.

7.6 Berechnung der FA mittels SPSS Zur Verfügung steht ein Mathematiktest mit 20 Items. Befehl → „Analysieren“ → „Dimensionsreduktion“ → „Faktorenanalyse...“ → in „Variablen“ die gewünschten Variablen/Items hinzufügen (hier: 20 Items) → „deskriptive Statistik“ → unter „Korrelationsmatrix“ „Koeffizienten“ wählen und „Anfangslösung“ anklicken→ „weiter“ → „Extraktion“ → bei „Methode“ „Hauptkomponenten“ wählen; weiters „Korrelationsmatrix“, „nicht rotierte Faktorenlösung“, „Screeplot“ und „Eigenwerte größer als 1“ anklicken → „weiter“ → „Rotation“ → „Varimax“ und „rotierte Lösung“ anklicken → „weiter“ → „Optionen“ → „Listenweiser Fallausschluss“ und „sortiert nach Größe“ wählen → “weiter“ → „ok“ Ergebnis Nach der Interkorrelationsmatrix werden folgende Tabellen ausgegeben: Tabelle1 Kommunalitäten Anfänglich Extraktion Item 1 1,000 ,609 Item 2 1,000 ,526 Item 3 1,000 ,507 Item 4 1,000 ,461 Item 5 1,000 ,788 Item 6 1,000 ,634 Item 7 1,000 ,693 Item 8 1,000 ,643 Item 9 1,000 ,673 Item 10 1,000 ,544 Extraktionsmethode: Hauptkomponentenanalyse.

Page 71: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

71

Tabelle 2 Erklärte Gesamtvarianz Anfängliche Eigenwerte

Summen von quadrierten Faktorladungen für Extraktion

Rotierte Summe der quadrierten Ladungen

Komponente

Gesamt % der Varianz

Kumulierte %

Gesamt % der Varianz

Kumulierte %

Gesamt % der Varianz

Kumulierte %

1 1,494 14,939 14,939 1,494 14,939 14,939 1,411 14,112 14,112 2 1,256 12,557 27,497 1,256 12,557 27,497 1,231 12,308 26,420 3 1,175 11,749 39,245 1,175 11,749 39,245 1,179 11,787 38,207 4 1,091 10,912 50,157 1,091 10,912 50,157 1,139 11,391 49,598 5 1,061 10,614 60,771 1,061 10,614 60,771 1,117 11,173 60,771 6 ,938 9,378 70,149 7 ,851 8,513 78,662 8 ,779 7,795 86,457 9 ,705 7,052 93,509 10 ,649 6,491 100,000 Extraktionsmethode: Hauptkomponentenanalyse. Abbildung 2

Tabelle 3 Komponentenmatrix Komponente 1 2 3 4 5 Item 3 -,693 ,157 -4,256E-02 -7,959E-03 1,208E-02 Item 2 ,614 ,295 ,101 6,304E-02 ,219 Item 6 -,465 ,406 ,175 ,438 -,173 Item 7 2,734E-02 -,659 5,151E-02 ,163 ,478 Item 9 8,000E-02 ,614 -,277 2,553E-02 ,460 Item 1 ,228 ,173 ,594 2,363E-02 -,417 Item 5 -7,245E-02 ,102 ,591 ,387 ,523 Item 4 ,318 ,249 -,489 ,240 -3,738E-02 Item 8 ,430 -,173 -3,403E-02 ,581 -,299 Item 10 -,265 -,186 -,334 ,569 -6,558E-02 Extraktionsmethode: Hauptkomponentenanalyse. a 5 Komponenten extrahiert

Screeplot

Faktor

10987654321

Eige

nwer

t

1,6

1,4

1,2

1,0

,8

,6

Page 72: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

72

Tabelle 4 Rotierte Komponentenmatrix Komponente 1 2 3 4 5 Item 6 ,700 ,105 ,259 ,160 ,199 Item 3 ,650 -4,925E-02 -,131 -,254 -1,043E-02 Item 2 -,463 ,449 ,236 9,726E-02 ,211 Item 9 6,500E-02 ,788 -,100 -,168 ,100 Item 4 -8,754E-02 ,494 -7,510E-02 ,371 -,259 Item 1 -8,325E-02 -,195 ,734 7,337E-02 ,141 Item 7 -,280 -,325 -,578 ,102 ,404 Item 8 -,186 -4,302E-02 ,139 ,766 2,988E-02 Item 10 ,379 -3,857E-02 -,357 ,521 -1,521E-02 Item 5 9,099E-02 6,702E-02 5,523E-02 -1,967E-02 ,878 Extraktionsmethode: Hauptkomponentenanalyse. Rotationsmethode: Varimax mit Kaiser-Normalisierung. a Die Rotation ist in 29 Iterationen konvergiert. Interpretation 1) Tabelle 1 Gibt die Kommunalitäten wieder (siehe 7.2). Zeilenweise wird also angegeben, wieviel Varianz von jeder Variablen durch alle extrahierten Faktoren erklärt wird. 1) Tabelle 2

• Die Spalte „anfängliche Eigenwerte“ gibt unter „Gesamt“ die Eigenwerte (siehe 7.2) der Faktoren wieder. Die Faktoren werden sukzessiv extrahiert, d.h. nach ihrem Eigenwert bzw. Erklärungswert gerangreiht (beginnend mit dem größten). Wie zu erkennen ist, haben die ersten 5 Faktoren einen Eigenwert über 1, diese werden auch für die spätere Berechnung herangezogen.

• In der Spalte „% der Varianz“ kann die erklärte Varianz des Faktors abgelesen werden. Da jede Variable einen Varianzanteil von 1 hat ist der Prozentsatz des Eigenwertes eines Faktors gleich seinem Eigenwert durch die Gesamtvarianz (hier bei 10 Items Gesamtvarianz = 10); beispielsweise beim ersten Faktor 1,494/10 = 14,94% der Gesamtvarianz.

• In der Spalte „kumulierte %“ kann die von Faktor zu Faktor aufsummierte Gesamtvarianz abgelesen werden. In diesem Beispiel erklären alle 5 Faktoren mit einem Eigenwert >1 60,771% der Gesamtvarianz.

• Die Spalte „Summen von quadrierten Faktorladungen für Extraktion“ gibt das gleiche wie die erste Spalte wieder, jedoch beschränkt auf die Faktoren mit einem Eigenwert über 1.

• Die Spalte „Rotierte Summe der quadrierten Ladungen“ gibt die (optimale) Faktorenlösung nach der Varimax-Rotation wieder. In unserem Beispiel sind sie den Werten der unrotierten Lösung sehr ähnlich.

2) Abbildung 2 (Screeplot) Das Diagramm zeigt den Abfall der Eigenwerte der Faktoren. In unserem Beispiel ist ein großer Abfall nach Faktor 1 und ein weiterer beobachtbarer nach Faktor 5 zu erkennen. Wir beenden die Anzahl der Faktoren bei Faktor 5.

Page 73: Kurze Einführung in SPSS 11 - Zentraler Informatikdiensthomepage.univie.ac.at/Matthias.Gabriel/SPSS_11Skript.pdf · Matthias Gabriel 3 5.2.3 mehrfache Varianzanalyse (unabhängige

Matthias Gabriel

73

3) Tabelle 3 und 4 Diese beiden Tabellen geben die Faktorladungen (siehe 7.2) wieder. Alle 5 Faktoren laden in den 10 Variablen unterschiedlich. Tabelle 2 gibt die unrotierte, Tabelle 3 die rotierte Lösung wieder. Die rotierte Komponentenmatrix ist leichter interpretierbar, da die Ladungen extremisiert werden. Die Ladungen sind geordnet, d.h dass zuerst die Variablen (zeilenweise) dargestellt werde, die in Faktor 1 hoch laden, dann jene Variablen , die in Faktor 2 hoch laden... Die fette Zickzacklinie (nicht von SPSS ausgegeben!) veranschaulicht, welche Faktoren in welchen Markervariablen (siehe 7.2) hoch laden. Faktor 1 lädt in den (Marker)Variablen Item6 und Item3 Faktor 2 lädt in den (Marker)Variablen Items 2, 9, 4 Faktor 3 lädt in den Items 1 und 7 Faktor 4 lädt in den Items 8 und 10 Faktor 5 lädt im Item 5 Bei der Namensgebung bzw. Interpretation der Faktoren müssen die Variablen, die in den betreffenden Faktoren hoch laden berücksichtigt werden. Beispiel: Angenommen, die Items 6 und 3 wären Gleichungsaufgaben, dann könnte der Faktor 1 beispielsweise „lineare Gleichungen“ benannt werden. Variationen

• Abbruchkriterium der Faktorenextraktion: statt Eigenvektor > 1 kann auch eine selbst definierte Anzahl an Faktoren gewählt werden (z.B: 3 Faktoren) → „Extraktion“ → „Anzahl der Faktoren“ wählen

• Überprüfung, ob die Variablen überhaupt signifikant korrelieren: wenn nicht, ist eine FA sinnlos. → „deskriptive Statistik“ → „KMO und Bartlett Test auf Sphärizität“ wählen. Ist die Signifikanz nach Bartlett im Output kleiner als 0,05 ist das Ergebnis

signifikant -> eine FA ist daher sinnvoll, weil die Variablen signifikant miteinander korrelieren und die beobachtete Korrelationsmatrix signifikant von der Einheitsmatrix abweicht. • In der Komponentenmatrix (vgl. Tabelle 3 und 4) können die

Korrelationen/Ladungen um Null ausgeblendet werden, um einen besseren Überblick zu erhalten. → „Optionen“ → „Unterdrückung von Absolutwerten kleiner als ...0,1“ wählen

• unter „Rotation“ können „Ladungsdiagramme“ erstellt werden, die die Variablen/Items im rotierten Faktorenraum darstellen .