P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im...

Preview:

Citation preview

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Statistik mit SPSSKurs im Sommersemester 2009

Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann Tim Rathjen

Forschungsinstitut Freie BerufeLeuphana Universität Lüneburg

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Organisatorisches (I)

Freitag 10:00 – 12:00 C 12.108 (Theorie)

12:00 – 13:00 Pause

13:00 – 19:00 7.111 und 7.114 (Praxis)

Samstag 10:00 – 12:00 C 12.108 (Theorie)

12:00 – 13:00 Pause

13:00 – 16:00 7.111 und 7.114 (Praxis)

Literatur:

- Skript - Backhaus, u.a.: „Multivariate Analysemethoden“

Termine:

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Organisatorisches (II)

Prüfungsleistung Diplomstudiengänge:• 4 CP (Wahlpflichtfach EWF oder Freier Bereich)• Hausarbeit: - Aufgaben (ohne Zusatzaufgabe)

- 1-2 Personen - Umfang: ca. 20 Seiten

- Download der Daten für Hausarbeit:ab 1. Juli 2009: ffb.uni-lueneburg.de

- Abgabetermin: 15. September 2009

Prüfungsleistung Komplementärstudium • 5 CP• Hausarbeit: - Aufgaben (mit Zusatzaufgabe)

- 1-2 Personen - Umfang: ca. 25 Seiten

- Download der Daten für Hausarbeit:ab 1. Juli 2009: ffb.uni-lueneburg.de

- Abgabetermin: 15. September 2009

Alternativ: Teilnahmeschein (+ PCP)

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

1. Arten von Merkmalen2. Deskriptive Statistik3. Induktive Statistik4. Korrelation5. Regression→ Kurzeinführung in SPSS

6. Logistische Regression7. Faktorenanalyse8. Clusteranalyse

Übersicht

Tag 1

Tag 2

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

1. Arten von Merkmalen – Skalenniveaus

Nominalskala

Ordinalskala

Metrische Skalen

Unterscheidung möglich

+ Reihenfolge

Geschlecht, Staatsangehörigkeit, …

Größenangaben, Geld, Stückzahlen, Alter,…

+ konstanter Wertabstand

Schulnoten, Güteklassen, …

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

1. Arten von Merkmalen – Skalenniveaus

Entscheidungsbaum

Lassen sich die Merkmalsausprägungen in eine sinnvolle Reihenfolge bringen?

Nominalskala(Z.B. Geschlecht)

nein ja

Sind die Abstände quantifizierbar?

nein ja

Ordinalskala(Z.B. Güteklassen)

Metrische Skalen(Z.B. Einkommen)

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

2. Deskriptive Statistik

Ziel: Verdichtung von Informationen

Methoden: - Darstellung von Häufigkeiten (HK)→ von einem Merkmal→ von zwei Merkmalen

- Lage- und Streuungsparameter

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

HK-Verteilung: Darstellung eines Merkmals

• Absolute Häufigkeit ni einer Merkmalsausprägung• Relative Häufigkeit hi einer Merkmalsausprägung

• Grafen: Balken- und Säulendiagramme, Kreisdiagramme, Histogramme, Boxplots, …

Merkmal Geschlecht ni hi

männlich 300 0,3

weiblich 700 0,7

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

HK-Verteilung: Darstellung zweier Merkmale

• Kreuztabellen

• Grafen: Zweidimensionale Balkendiagramme, …

Stadt Land

männlich h11=20% h12=25%

weiblich h21=25% h22=30%

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Lage- und Streuungsparameter

Einkommen [Euro]1000 2000 3000 4000

Lage des Datenfeldesz.B. Mittelwert

Einkommen [Euro]

“Aussehen” des Datenfeldesz.B. Spannweite

1000 2000 3000 4000

Lageparameter: Geben die Position des Datenfeldes wieder.

Streuungsparameter: Geben die ‚Form‘ des Datenfeldes (in Bezug auf einen Lageparameter) wieder.

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

• Lageparameter: Position des Datenfeldes

Bsp.: - Arithmetisches Mittel - Median - Modus - Quantile (Quartile/Dezile/Perzentile)

• Streuungsparameter: ‚Form‘ des Datenfeldes

Bsp.: - Spannweite - Varianz (mittlere quadratische Abweichung vom arithm.

Mittel) - Standardabweichung

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Ziel: Schließen von Kennzahlen einer (zufällig gezogenen) Stichprobe auf unbekannte Parameter der Grundgesamtheit

Methoden: 1. Punktschätzung2. Intervallschätzung3. Statistische Tests

Beispiel: Wahlprognose (Stichprobe: n = 1000;Grundgesamtheit: N = 50 Mio.)

3. Induktive Statistik

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Intervall- und Punktschätzung

Beispiel: Wahlprognose• Stichprobe: n = 1000• Grundgesamtheit: N = 50 Mio.

Partei StichprobePunkt-

schätzungIV

(95%)IV

(99%)

CDU 36,0 36,0 33,0 39,0 32,1 39,9

SPD 28,0 28,0 25,2 30,8 24,3 31,7

FDP 10,0 10,0 8,1 11,9 7,6 12,4

Grüne 10,0 10,0 8,1 11,9 7,6 12,4

Linke 12,0 12,0 10,0 14,0 9,4 14,6

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Theorie: Aufbau eines Tests in fünf Schritten

1. Formulierung der zu überprüfenden Hypothesen (H0 und HA)→ überprüfbare Hypothese ist HA

→ Gleichheitszeichen in H0

2. Festlegen der zulässigen Fehlerwahrscheinlichkeit des späteren Testergebnisses (α = 0,05; 0,01; …)

3. Berechnung einer Prüfgröße (Teststatistik), die sich aus der Stichprobe ermitteln lässt

4. Bestimmung eines kritischen Wertes, dessen Unter- oder Überschreiten zur Ablehnung der Nullhypothese führt

5. Vergleich von Prüfgröße und kritischem Wert und Entscheidung

Statistische Tests

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Beispiele für Hypothesen:

• Erreicht Schwarz-Gelb die absolute Mehrheit? (Rechtsseitig)H0: pSchwarz/Gelb ≤ 0,50

HA: pSchwarz/Gelb > 0,50

• Fällt die SPD unter die 25%-Grenze? (Linksseitig)H0: pSPD ≥ 0,25

HA: pSPD < 0,25

• Ist die Differenz zwischen Grünen und Linken signifikant? (Zweiseitig)

H0: pGRÜNE = pLINKE

H0: pGRÜNE ≠ pLINKE

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Hypothesen und Fehlerarten:

→ Fehler 1. Art (α)→ Fehler 2. Art (β)

Entscheidung

In Wirklichkeit gilt H0 ablehnen („HA“) H0 beibehalten („H0“)

H0 ist richtigFehler 1. Art (α)

P („HA“| H0)kein Fehler

H0 ist falsch kein Fehler Fehler 2. Art (β)

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Beispiel: Ist die mittlere Temperatur im Januar von Null verschieden?

1. H0: μ=0 HA: μ≠0 (zweiseitiger Test)

2. Fehlerwahrscheinlichkeit α=0,05. D.h. uns soll der Fehler erster Art mit einer Wahrscheinlichkeit von höchstens 5%

unterlaufen

3. Berechnung der Prüfgröße: , mit

4. Bestimmung des kritischen Wertes aus der (theoretischen) t-Verteilung

5. Vergleich der Prüfgröße mit dem kritischen Wert:

H0 wird abgelehnt wenn:

0 0

ˆˆ X

X XT

Var X

X

S

n

1

beob kritt t

Testen mit SPSS – einfaches Beispiel (konstruiert):

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

μ0=0

σ

tkrit

α/2α/2

H0 ablehnenH0 annehmen

H0 ablehnen

Testentscheidung

H0: μ = 0 HA: μ ≠ 0

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

• SPSS berechnet für Tests einen Sig.-Wert (= P-Value). Dieser gibt den exakten Fehler an, den man begeht, wenn man H0 ablehnen würde.

→ Ist Sig. kleiner als das vorgegebene Signifikanzniveau α, dann wird H0 abgelehnt. Häufig:

Sig. < 0,05: „ HA“

Sig. > 0,05: „ H0“

• SPSS berechnet während einiger Testprozeduren auch Konfidenzintervalle. Über diese können dann auch Testentscheidungen getroffen werden.

Anmerkungen zu Tests mit SPSS:

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Einstichprobentest mit H0: μ = 0

Beispieloutput von SPSS:

Statistik bei einer Stichprobe

100 1,0500 2,90115 ,29011TemperaturN Mittelwert

Standardabweichung

Standardfehler des

Mittelwertes

Test bei einer Sichprobe

3,619 99 ,000 1,05000 ,4743 1,6257TemperaturT df Sig. (2-seitig)

MittlereDifferenz Untere Obere

95% Konfidenzintervallder Differenz

Testwert = 0

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Mit SPSS besteht die Möglichkeit, aus einer großen Anzahl von Tests auszuwählen. Beispiele:

1. Einstichprobentest- Test auf den Erwartungswert μ - Test auf einen Anteilswert p - (...)

2. Zweistichprobentests – Test auf Differenz ... - zweier Erwartungswerte μ- zweier Anteilswerte p- (...)

3. weitere Tests - Tests bei Regressionsanalyse (F-Test, t-Test, …)- Verteilungs- und Unabhängigkeitstests (Chi²-Tests, …)- (...)

Mögliche Tests mit SPSS:

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Liegt ein Zusammenhang von zwei Merkmalen vor?

Interdependenzanalyse (keine kausale Richtung der Abhängigkeit)

Arten: Kontingenzkoef. Mindestens ein Merkmal nominal skaliert

Normierung: 0 ≤ KK ≤ 1 (Stärke)

Spearman Beide Merkmale mindestens ordinal skaliert Normierung: -1 (Absolut gegenläufig)

0 (Kein Zusammenhang)+1 (Absolut gleichläufig)

(Stärke und Richtung)

Pearson Beide Merkmale metrisch skaliert Normier. und Interpr. wie bei Spearman

4. Korrelation

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Gibt es einen Zusammenhang von Berufswahl und Geschlecht?Geschlecht und Tätigkeit sind nominalskaliert

→ Analyse mit dem Kontingenzkoeffizienten

Korrelation - Kontingenzkoeffizient(In SPSS: Analysieren, Deskript. Stat., Kreuztabellen, Statistik)

Geschlecht * Art der Tätigkeit Kreuztabelle

157 27 74 258

197,6 14,7 45,7 258,0

206 0 10 216

165,4 12,3 38,3 216,0

363 27 84 474

363,0 27,0 84,0 474,0

Anzahl

Erwartete Anzahl

Anzahl

Erwartete Anzahl

Anzahl

Erwartete Anzahl

Männlich

Weiblich

Geschlecht

Gesamt

Büro Bewachung Management

Art der Tätigkeit

Gesamt

54,4 %

45,6 %

100 %76,6 % 5,7 % 76,6 %17,7 %

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Ist der Zusammenhang signifikant? (α =0,05)Hypothesen:

H0: ρ = 0HA: ρ > 0

Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,000

→ H0 kann abgelehnt werden → signifikanter Zusammenhang

Korrelation - Kontingenzkoeffizient

Symmetrische Maße

,379 ,000

474

KontingenzkoeffizientNominal- bzgl. Nominalmaß

Anzahl der gültigen Fälle

WertNäherungsweise

Signifikanz

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Korrelation – Spearman

Gibt es einen Zusammenhang von polit. Einstellung und Schulbildung?

Höchster Schulabschluß

613 64,3 64,3 64,3

71 7,4 7,4 71,7

184 19,3 19,3 91,0

86 9,0 9,0 100,0

954 100,0 100,0

Hauptschule (Quali.)

Mittlere Reife

Abitur

Universität/FH

Gesamt

Gültig

Häufigkeit ProzentGültigeProzente

KumulierteProzente

politische Selbteinschätzung

21 2,2 2,2 2,2

134 14,0 14,0 16,2

168 17,6 17,6 33,9

423 44,3 44,3 78,2

208 21,8 21,8 100,0

954 100,0 100,0

sehr liberal

liberal

eher liberal

gemäßigt

eher konservativ

Gesamt

Gültig

Häufigkeit ProzentGültigeProzente

KumulierteProzente

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Korrelation – Spearman

Ist der Zusammenhang signifikant? (α =0,05)Hypothesen: H0: ρ = 0

HA: ρ ≠ 0

Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,008

→ H0 kann abgelehnt werden → signifikant negativer Zusammenhang

Korrelationen

1,000 -,086

. ,008

954 954

Korrelationskoeffizient

Sig. (2-seitig)

N

politische SelbteinschätzungSpearman-Rho

politischeSelbteinsch

ätzungHöchster

Schulabschluß

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Korrelation – Bravais Pearson Korrelieren die Schuljahre mit dem Einkommen?→ Schuljahre und Einkommen sind beide metrisch skaliert → Bravais Pearson Korrelationskoeffizient

Ist der Zusammenhang signifikant? (α =0,05)Hypothesen: H0: ρ = 0

HA: ρ ≠ 0Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,000→ H0 kann abgelehnt werden → signifikant positiver Zusammenhang

Korrelationen

1 ,437

,000

1496 1430

Korrelation nach Pearson

Signifikanz (2-seitig)

N

Anzahl Schuljahre

AnzahlSchuljahre

Familieneinkommen 1991

Einkommen

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Dependenzanalyse (Richtung des Zusammenhangs bekannt)

Abhängige Variable: Metrisch(=erklärte Variable; =endogene Variable)

Unabhängige Variablen: Metrisch(=erklärende Variable; =exogene Variable)

Ordinale Variablen Umwandlung in Dummyvariablen (0/1) !!!Nominale Variablen Umwandlung in Dummyvariablen (0/1) !!!

5. Regression

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Regression: Methode der kleinsten Quadrate

yabhängige Variable

(Z.B. Konsum)

x unabhängige Variable

(Z.B. Einkommen)

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Regression: Methode der kleinsten Quadrate

ei

ei2

yabhängige Variable

(Z.B. Konsum)

x unabhängige Variable

(Z.B. Einkommen)

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Regression: Interpretation

Interpretation des Ausdrucks:Gesamterklärungsgüte: R², F-TestKoeffizienten: b, t-Tests

Schätzung des Modells:

yi = β0 + β1x1i + β2x2i + …+ βKxKi + εi

β0 entspricht Ordinatenabschnitt im x-y-Diagrammβ1 entspricht der Steigung der Geraden im x-y-Diagramm

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Umwandlung in Dummys: Beispiel FamilienstandEs liegt das Merkmal „Familienstand“ mit folgenden Ausprägungen vor:

1 = verheiratet; 2 = ledig; 3 = geschieden

Erstellung von 3 Dummyvariablen (je Ausprägung eine Dummyvariable)

Bei der Regressionsanalyse muss ein Dummy als Referenzkategorie ausgelassen werden.

Interpretation der Koeffizienten der verbleibenden Dummys nur in Bezug auf die Referenzkategorie!!

Nominal/Ordinalskalierte Merkmale in der Regression

Ausprägung des jeweiligen Dummys für …

Verheiratete Ledige Geschiedene

Dummy verheiratet. 1 0 0

Dummy ledig 0 1 0

Dummy geschieden 0 0 1

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Wagei = β0 + β1*Alteri + β2*Manni + β3*Realschulei+ β4*Abituri+ β5*UniFHi+εi

Regression – Beispiel SPSS Output

Koeffizientena

6,499 ,600 10,834 ,000

,109 ,013 ,245 8,138 ,000

2,725 ,327 ,251 8,322 ,000

,717 ,604 ,036 1,187 ,236

2,477 ,410 ,187 6,044 ,000

4,063 ,543 ,232 7,475 ,000

(Konstante)

Alter

Geschlecht

Realschule

Abitur

UniFH

Modell

1

B Standardfehler

Nicht standardisierteKoeffizienten

Beta

StandardisierteKoeffizienten

T Signifikanz

Abhängige Variable: Einkommen des Befragtena.

Mann

Wagei = 6,499 + 0,109*Alteri + 2,725*Manni + 0,717*Realschulei + 2,477*Abituri + 4,063*UniFHi + εi

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Bestimmtheitsmaß/R²Wie viel der Varianz in der abhängigen Variable kann durch die Varianz der unabhängigen Variablen erklärt werden?

R2 = 0,210

21 Prozent der Varianz im Lohnsatz (Wage) der befragten Personen ist durch die Variablen Alter, Geschlecht und Schulabschluss erklärbar.

Regression – Beispiel SPSS Output

Modellzusammenfassung

,459a ,210 ,206 4,839

Modell

1

R R-QuadratKorrigiertesR-Quadrat

Standardfehlerdes Schätzers

Einflußvariablen : (Konstante), UniFH, Alter, Geschlecht,Realschule, Abitur

a.

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

F-Test

Ist das geschätzte Modell insgesamt signifikant?

H0: β1= β2= β3=… βk = 0 (alle Koeffizienten β1 bis βk =0; gemeinsam nicht signifikant)

HA: βk ≠ 0 (k=1,…, K)

Testentscheidung: 0,05 = α > Sig. = 0,000 H0 kann abgelehnt werden Modell insgesamt signifikant

Regression – Beispiel SPSS Output

ANOVA

5488,562 5 1097,712 46,871 ,000

20586,022 879 23,420

26074,583 884

Regression

Residuen

Gesamt

Modell

1

Quadratsumme dfMittel derQuadrate F Signifikanz

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Ansichten in SPSS

SPSS öffnet mehrere Fenster zur Erledigung verschiedener Aufgaben:

• Hauptfenster Variablenansicht Datenansicht

• Ausgabefenster • verschiedene Editorenfenster• Syntaxfenster für die Skriptsprache

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Hauptfenster Variablenansicht (Var. definieren)

• Variablentyp• Variablenlabel• Wertelabel• Messniveau

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Hauptfenster Datenansicht

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Ausgabefenster

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Syntax Fenster

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

6. Logistische Regression

Bisher: lineare Regression→ abhängige Variable ist metrisch

Jetzt: Schätzung einer Gruppenzugehörigkeit → abhängige Variable ist kategorial

Beispiele: • Produktkauf oder kein Produktkauf nach Marketingmaßnahme?• beschäftigt oder arbeitslos nach einer Ausbildung?• Person unterhalb der Armutsgrenze?• etc.

→ binäre (dichotome oder zweiwertige) abhängige Variablen→ Binäre Logistische Regression

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Binäre logistische Regression

xunabhängige Variable

(Z.B. Einkommen)

yabhängige

Variable(Z.B. Produktkauf)

0

1

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Geschätzt wird die Wahrscheinlichkeit, dass ein Ereignis eintritt: P(Y=1|x)

Nicht linearer Zusammenhang

Schätzung über Maximum Likelihood

Logistische Regression

i

E(y| ) F( ) F logistischeoder

Normalverteilungsfunktion

1P(Y 1| )

1 e

i

-x 'β

x xβ

x

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Beispiel: ehrenamtliche Aktivität

Beobachtet wird, ob eine Person ehrenamtlich aktiv ist oder nicht.

Abhängige Variable: Dummy_Ehrenamt (1=ja; 0=nein)

Die Wahrscheinlichkeit, ob eine Person ehrenamtlich aktiv ist wird mit Hilfe der binären logistischen Regression geschätzt. Als erklärende Größen wurden ausgewählt:

- Geschlecht- Alter- Erwerbstätigkeit- Berufsgruppe

Binäre logistische Regression

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Variablen in der Gleichung

-,325 ,033 98,012 1 ,000 ,723

-,087 ,027 10,134 1 ,001 ,917

,013 ,006 4,530 1 ,033 1,013

,000 ,000 1,545 1 ,214 1,000

,269 ,069 15,167 1 ,000 1,308

-,310 ,110 7,923 1 ,005 ,733

nicht erwerbstätig

Frau

Alter

Alter2

Selbständig

Konstante

Schritt1

RegressionskoeffizientB

Standardfehler Wald df Sig. Exp(B)

Marginale Effekte im Logit/Probit:

ii k

k k

E(y| ) F( )f( )

x x

x xβxβ → Abhängig vom Niveau aller x-Ausprägungen

Koeffizienteninterpretation:→ marginaler Effekt ist abhängig vom Niveau aller x-Ausprägungen→ nicht linearer Zusammenhang; nur Vorzeichen interpretierbar→ positives Vorzeichen: mit steigendem x steigt die Wahrscheinlichkeit, dass Y=1

Binäre logistische Regression: Beispiel Ehrenamt

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Binäre logistische Regression: Beispiel Ehrenamt

Omnibus-Tests der Modellkoeffizienten

212,176 5 ,000

212,176 5 ,000

212,176 5 ,000

Schritt

Block

Modell

Schritt 1Chi-Quadrat df Sig.

Modellzusammenfassung

31374,732 ,009 ,012Schritt1

-2Log-

LikelihoodCox & SnellR-Quadrat

NagelkerkesR-Quadrat

Klassifizierungstabelle

7722 4213 64,7

6418 4467 41,0

53,4

Beobachtet0

1

Ehrenamt

Gesamtprozentsatz

Schritt 10 1

Ehrenamt Prozentsatzder Richtigen

Vorhergesagt

Wie viele der Beobachtungen wurden vom Modell richtig zugeordnet?

„Bestimmtheitsmaße“ - Vergleich unterschiedlicher Modelle

Omnibus Test: - wie F-Test in der linearen Regression; testet den Gesamtansatz auf Signifikanz

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

RegressandAbhängige Variable

Regressoren

Unabhängige Variablen

Modell

metrischmetrisch dichotom

lineare Regression

OLS

dichotom

Dummy (0/1)metrisch dichotom

Logit / Probit

polytommetrisch dichotom

Multinomiales Logit

ordinalmetrisch dichotom

Ordered Logit/Probit

Übersicht Skalierung & Regressionsmodelle

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

7. Faktorenanalyse

Ziel:

Dimensionsreduktion einer gegebenen Anzahl von Variablen

→ Zusammenfassung vorhandener Variablen zu wenigen nicht-beobachtbaren (latenten), i.d.R. voneinander unabhängigen Faktoren.

Var 1 Var 2 Var 3 Var 4 Var 5 Var 6 Var 7 Var 8

Faktor 1 Faktor 2 Faktor 3

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Beispiel:

• Schulnoten in vier Fächern: Gibt es Faktoren wie „sprachliche Begabung“ oder „mathematische Begabung“?

• Hier: Deutsch, Englisch, Physik und Mathematik

• Schritt 1: Korrelationsmatrix

Deutsch Englisch Physik Mathe

Deutsch 1,00

Englisch 0,58 1,00

Physik 0,25 0,30 1,00

Mathe 0,17 0,25 0,74 1,00

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Faktorenanalyse – Das Modell

• Ansatz: zwei Variablen und ein Faktor f

z1k: Wert von Variable 1 (standardisiert: )fk: Wert des Faktorsa1: Faktorladung der ersten Variable

(= Maßzahl für den Zsh. zw. Faktor und Variable)k: Beobachtung k

• Generelle Schreibweise: P Variablen und M Faktoren

zz 0 und s 1

Faktorwerte • Faktorladungen

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Zur Interpretation der Faktorladungen (aij):

(1) Kommunalitäten:Die Kommunalität der i-ten Variable gibt den Anteil der Varianz der (standardisierten) Variablen i (mit Varianz gleich eins) wieder, die durch alle Faktoren gemeinsam aufgeklärt wird.

(2) Eigenwert eines Faktors:Der Eigenwert des j-ten Faktors gibt an, welcher Anteil der Gesamtvarianz aller (standardisierten) beobachteten Variablen durch diesen Faktor j aufgeklärt wird.

2ih( )

j( )

M2 2 2i ij i

j 1

h a 0 h 1

;

P2

j ij ji 1

a 0 P

;

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Faktorenanalyse – Generelle Vorgehensweise

(1) Korrelationsmatrix berechnen• Sind die Variablen für Faktoranalyse geeignet? (r ≠ 0)• Gängigstes Maß: Kaiser-Meyer-Olkin-Kriterium

→ mindestens 0,5 – möglichst größer 0,8

(2) Schätzung der Faktorladungen → Kommunalitäten/Eigenwerte• Bestimmung der Faktorenzahl• Gängigstes Kriterium: Kaiser-Kriterium

→ nur Faktoren mit Eigenwert größer 1

(3) Rotation der Faktoren• VARIMAX-Methode (Ziel: möglichst eindeutige Faktorladungen)

(4) Interpretation der Faktoren und Bestimmung der Faktorwerte

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Faktorenanalyse – Beispiel

→ Wichtigkeitsfragen bei Autos (1 – 10)

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

(1) Korrelationsmatrix

Kaiser-Meyer-Olkin-Kriterium = 0,824

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

(2a)Eigenwerte

Kaiser-Kriterium: Wahl von zwei Faktoren

→ Wie viel der Gesamtvarianz wird durch die einzelnen Faktoren erklärt?

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

(2b)Kommunalitäten

→ Wie viel % der Varianz einer Variablen wird durch die Faktoren erklärt?

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

(3) Rotation der Faktoren

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

(4) Interpretation der Faktoren

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

8. Clusteranalyse

Ziel:

• Zusammenfassung von Objekten (Merkmalsträger) zu möglichst homogenen Untergruppen (Cluster)

• Die gefundenen Cluster sollen in sich homogen sein, wohingegen sich die Cluster im Vergleich miteinander unterscheiden sollen.

Person Var 1 (Alter) Var 2 (Einkommen)1 (…) (…)

2 (…) (…)

3 (…) (…)

4 (…) (…)

5 (…) (…)

Cluster 1

Cluster 2

• Anwendungsgebiete: Identifikation ähnlicher Kunden, Regionen, Wähler, …

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Clusteranalyse – Einführung

Hierarchische agglomerative Clustermethoden:

• jedes Objekt bildet zunächst seinen eigenen Cluster• sukzessives Zusammenfügen zu (temporären) Clustern

→ Ähnlichkeits- bzw. Distanzmaß→ Fusionierungsalgorithmus

• schließlich fusionieren alle Objekte zu einem einzelnen Cluster.

Beispiel:

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Clusteranalyse – Distanzmaße

Schritt 1: Bestimmung einer Distanzmatrix

• Distanzmaße stehen für die (Un-)Ähnlichkeit von Objekten i und j• Je größer die Distanz, desto unähnlicher sind die beiden betrachteten Objekte• Distanzmaße (metrische Variablen):

- Quadrierte Euklidische Distanz

- Euklidische Distanz

• Distanzmaße (nominalskalierte Variablen):→ vgl. Backhaus et al.

K 2

ij ik jkk 1

d QE x x

( )

K 2

ij ik jkk 1

d E x x

( )

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

→ Exemplarisch:

Distanz zwischen erster (i=1) und zweiter (j=2) Person

212 (43 38) 5d

Beispiel:(nur 1 Var.)

Distanzmatrix auf Basis der euklidischen Distanz:

Person (Alter)1 43

2 38

3 6

4 47

5 37

6 9

{1,2,3, 4,5,6}

1

2

3

4

5

6

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Clusteranalyse – Fusionierungsalgorithmen

Schritt 2: Fusionierung der Objekte

• Grundproblem: Nach welchem Kriterium werden die Objekte zusammengefasst?

• Algorithmen:(1) Single Linkage (‚nächster Nachbar‘)(2) Complete Linkage (‚entferntester Nachbar‘) → s. Backhaus(3) Ward-Verfahren

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

(1) Single Linkage (‚nächster Nachbar‘), Basis: Euklid. Distanz

{1,2,3, 4,5,6}

1

2

3

4

5

6

• Fusionierung von Person 2 und Person 5

• Nächster Nachbar:

{{2,5},1,3, 4,6}

{2,5}

1

3

4

6

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Dendogramm (Single Linkage)

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Beispiel in SPSS:

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

(2) Ward-Verfahren (möglichst geringe Varianzerhöhung durch Fusion) Basis: Quadr. Euklid. Distanz

• Fusionierung von Person 2 und Person 5

• Ward:

{1,2,3, 4,5,6}

1

2

3

4

5

6

{{2,5},1,3, 4,6}

{2,5}

1

3

4

6

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Beispiel in SPSS:

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

(1) Single Linkage (‚nächster Nachbar‘)• Vereinigung von Objekten, die die kleinste Distanz aufweisen• es entstehen viel kleine und wenig große Cluster• Problem: Kettenbildung

(2) Ward-Verfahren• es werden die Objekte zu Gruppen zusammengefasst, die die

Varianz in einer Gruppe so wenig wie möglich erhöhen• bildet etwa gleich große Gruppen

Vergleich Fusionierungsalgorithmen:

Recommended