69
F F B P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann Tim Rathjen Forschungsinstitut Freie Berufe Leuphana Universität Lüneburg

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

Embed Size (px)

Citation preview

Page 1: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Statistik mit SPSSKurs im Sommersemester 2009

Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann Tim Rathjen

Forschungsinstitut Freie BerufeLeuphana Universität Lüneburg

Page 2: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Organisatorisches (I)

Freitag 10:00 – 12:00 C 12.108 (Theorie)

12:00 – 13:00 Pause

13:00 – 19:00 7.111 und 7.114 (Praxis)

Samstag 10:00 – 12:00 C 12.108 (Theorie)

12:00 – 13:00 Pause

13:00 – 16:00 7.111 und 7.114 (Praxis)

Literatur:

- Skript - Backhaus, u.a.: „Multivariate Analysemethoden“

Termine:

Page 3: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Organisatorisches (II)

Prüfungsleistung Diplomstudiengänge:• 4 CP (Wahlpflichtfach EWF oder Freier Bereich)• Hausarbeit: - Aufgaben (ohne Zusatzaufgabe)

- 1-2 Personen - Umfang: ca. 20 Seiten

- Download der Daten für Hausarbeit:ab 1. Juli 2009: ffb.uni-lueneburg.de

- Abgabetermin: 15. September 2009

Prüfungsleistung Komplementärstudium • 5 CP• Hausarbeit: - Aufgaben (mit Zusatzaufgabe)

- 1-2 Personen - Umfang: ca. 25 Seiten

- Download der Daten für Hausarbeit:ab 1. Juli 2009: ffb.uni-lueneburg.de

- Abgabetermin: 15. September 2009

Alternativ: Teilnahmeschein (+ PCP)

Page 4: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

1. Arten von Merkmalen2. Deskriptive Statistik3. Induktive Statistik4. Korrelation5. Regression→ Kurzeinführung in SPSS

6. Logistische Regression7. Faktorenanalyse8. Clusteranalyse

Übersicht

Tag 1

Tag 2

Page 5: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

1. Arten von Merkmalen – Skalenniveaus

Nominalskala

Ordinalskala

Metrische Skalen

Unterscheidung möglich

+ Reihenfolge

Geschlecht, Staatsangehörigkeit, …

Größenangaben, Geld, Stückzahlen, Alter,…

+ konstanter Wertabstand

Schulnoten, Güteklassen, …

Page 6: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

1. Arten von Merkmalen – Skalenniveaus

Entscheidungsbaum

Lassen sich die Merkmalsausprägungen in eine sinnvolle Reihenfolge bringen?

Nominalskala(Z.B. Geschlecht)

nein ja

Sind die Abstände quantifizierbar?

nein ja

Ordinalskala(Z.B. Güteklassen)

Metrische Skalen(Z.B. Einkommen)

Page 7: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

2. Deskriptive Statistik

Ziel: Verdichtung von Informationen

Methoden: - Darstellung von Häufigkeiten (HK)→ von einem Merkmal→ von zwei Merkmalen

- Lage- und Streuungsparameter

Page 8: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

HK-Verteilung: Darstellung eines Merkmals

• Absolute Häufigkeit ni einer Merkmalsausprägung• Relative Häufigkeit hi einer Merkmalsausprägung

• Grafen: Balken- und Säulendiagramme, Kreisdiagramme, Histogramme, Boxplots, …

Merkmal Geschlecht ni hi

männlich 300 0,3

weiblich 700 0,7

Page 9: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

HK-Verteilung: Darstellung zweier Merkmale

• Kreuztabellen

• Grafen: Zweidimensionale Balkendiagramme, …

Stadt Land

männlich h11=20% h12=25%

weiblich h21=25% h22=30%

Page 10: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Lage- und Streuungsparameter

Einkommen [Euro]1000 2000 3000 4000

Lage des Datenfeldesz.B. Mittelwert

Einkommen [Euro]

“Aussehen” des Datenfeldesz.B. Spannweite

1000 2000 3000 4000

Lageparameter: Geben die Position des Datenfeldes wieder.

Streuungsparameter: Geben die ‚Form‘ des Datenfeldes (in Bezug auf einen Lageparameter) wieder.

Page 11: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

• Lageparameter: Position des Datenfeldes

Bsp.: - Arithmetisches Mittel - Median - Modus - Quantile (Quartile/Dezile/Perzentile)

• Streuungsparameter: ‚Form‘ des Datenfeldes

Bsp.: - Spannweite - Varianz (mittlere quadratische Abweichung vom arithm.

Mittel) - Standardabweichung

Page 12: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Ziel: Schließen von Kennzahlen einer (zufällig gezogenen) Stichprobe auf unbekannte Parameter der Grundgesamtheit

Methoden: 1. Punktschätzung2. Intervallschätzung3. Statistische Tests

Beispiel: Wahlprognose (Stichprobe: n = 1000;Grundgesamtheit: N = 50 Mio.)

3. Induktive Statistik

Page 13: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Intervall- und Punktschätzung

Beispiel: Wahlprognose• Stichprobe: n = 1000• Grundgesamtheit: N = 50 Mio.

Partei StichprobePunkt-

schätzungIV

(95%)IV

(99%)

CDU 36,0 36,0 33,0 39,0 32,1 39,9

SPD 28,0 28,0 25,2 30,8 24,3 31,7

FDP 10,0 10,0 8,1 11,9 7,6 12,4

Grüne 10,0 10,0 8,1 11,9 7,6 12,4

Linke 12,0 12,0 10,0 14,0 9,4 14,6

Page 14: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Theorie: Aufbau eines Tests in fünf Schritten

1. Formulierung der zu überprüfenden Hypothesen (H0 und HA)→ überprüfbare Hypothese ist HA

→ Gleichheitszeichen in H0

2. Festlegen der zulässigen Fehlerwahrscheinlichkeit des späteren Testergebnisses (α = 0,05; 0,01; …)

3. Berechnung einer Prüfgröße (Teststatistik), die sich aus der Stichprobe ermitteln lässt

4. Bestimmung eines kritischen Wertes, dessen Unter- oder Überschreiten zur Ablehnung der Nullhypothese führt

5. Vergleich von Prüfgröße und kritischem Wert und Entscheidung

Statistische Tests

Page 15: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Beispiele für Hypothesen:

• Erreicht Schwarz-Gelb die absolute Mehrheit? (Rechtsseitig)H0: pSchwarz/Gelb ≤ 0,50

HA: pSchwarz/Gelb > 0,50

• Fällt die SPD unter die 25%-Grenze? (Linksseitig)H0: pSPD ≥ 0,25

HA: pSPD < 0,25

• Ist die Differenz zwischen Grünen und Linken signifikant? (Zweiseitig)

H0: pGRÜNE = pLINKE

H0: pGRÜNE ≠ pLINKE

Page 16: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Hypothesen und Fehlerarten:

→ Fehler 1. Art (α)→ Fehler 2. Art (β)

Entscheidung

In Wirklichkeit gilt H0 ablehnen („HA“) H0 beibehalten („H0“)

H0 ist richtigFehler 1. Art (α)

P („HA“| H0)kein Fehler

H0 ist falsch kein Fehler Fehler 2. Art (β)

Page 17: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Beispiel: Ist die mittlere Temperatur im Januar von Null verschieden?

1. H0: μ=0 HA: μ≠0 (zweiseitiger Test)

2. Fehlerwahrscheinlichkeit α=0,05. D.h. uns soll der Fehler erster Art mit einer Wahrscheinlichkeit von höchstens 5%

unterlaufen

3. Berechnung der Prüfgröße: , mit

4. Bestimmung des kritischen Wertes aus der (theoretischen) t-Verteilung

5. Vergleich der Prüfgröße mit dem kritischen Wert:

H0 wird abgelehnt wenn:

0 0

ˆˆ X

X XT

Var X

X

S

n

1

beob kritt t

Testen mit SPSS – einfaches Beispiel (konstruiert):

Page 18: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

μ0=0

σ

tkrit

α/2α/2

H0 ablehnenH0 annehmen

H0 ablehnen

Testentscheidung

H0: μ = 0 HA: μ ≠ 0

Page 19: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

• SPSS berechnet für Tests einen Sig.-Wert (= P-Value). Dieser gibt den exakten Fehler an, den man begeht, wenn man H0 ablehnen würde.

→ Ist Sig. kleiner als das vorgegebene Signifikanzniveau α, dann wird H0 abgelehnt. Häufig:

Sig. < 0,05: „ HA“

Sig. > 0,05: „ H0“

• SPSS berechnet während einiger Testprozeduren auch Konfidenzintervalle. Über diese können dann auch Testentscheidungen getroffen werden.

Anmerkungen zu Tests mit SPSS:

Page 20: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Einstichprobentest mit H0: μ = 0

Beispieloutput von SPSS:

Statistik bei einer Stichprobe

100 1,0500 2,90115 ,29011TemperaturN Mittelwert

Standardabweichung

Standardfehler des

Mittelwertes

Test bei einer Sichprobe

3,619 99 ,000 1,05000 ,4743 1,6257TemperaturT df Sig. (2-seitig)

MittlereDifferenz Untere Obere

95% Konfidenzintervallder Differenz

Testwert = 0

Page 21: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Mit SPSS besteht die Möglichkeit, aus einer großen Anzahl von Tests auszuwählen. Beispiele:

1. Einstichprobentest- Test auf den Erwartungswert μ - Test auf einen Anteilswert p - (...)

2. Zweistichprobentests – Test auf Differenz ... - zweier Erwartungswerte μ- zweier Anteilswerte p- (...)

3. weitere Tests - Tests bei Regressionsanalyse (F-Test, t-Test, …)- Verteilungs- und Unabhängigkeitstests (Chi²-Tests, …)- (...)

Mögliche Tests mit SPSS:

Page 22: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Liegt ein Zusammenhang von zwei Merkmalen vor?

Interdependenzanalyse (keine kausale Richtung der Abhängigkeit)

Arten: Kontingenzkoef. Mindestens ein Merkmal nominal skaliert

Normierung: 0 ≤ KK ≤ 1 (Stärke)

Spearman Beide Merkmale mindestens ordinal skaliert Normierung: -1 (Absolut gegenläufig)

0 (Kein Zusammenhang)+1 (Absolut gleichläufig)

(Stärke und Richtung)

Pearson Beide Merkmale metrisch skaliert Normier. und Interpr. wie bei Spearman

4. Korrelation

Page 23: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Gibt es einen Zusammenhang von Berufswahl und Geschlecht?Geschlecht und Tätigkeit sind nominalskaliert

→ Analyse mit dem Kontingenzkoeffizienten

Korrelation - Kontingenzkoeffizient(In SPSS: Analysieren, Deskript. Stat., Kreuztabellen, Statistik)

Geschlecht * Art der Tätigkeit Kreuztabelle

157 27 74 258

197,6 14,7 45,7 258,0

206 0 10 216

165,4 12,3 38,3 216,0

363 27 84 474

363,0 27,0 84,0 474,0

Anzahl

Erwartete Anzahl

Anzahl

Erwartete Anzahl

Anzahl

Erwartete Anzahl

Männlich

Weiblich

Geschlecht

Gesamt

Büro Bewachung Management

Art der Tätigkeit

Gesamt

54,4 %

45,6 %

100 %76,6 % 5,7 % 76,6 %17,7 %

Page 24: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Ist der Zusammenhang signifikant? (α =0,05)Hypothesen:

H0: ρ = 0HA: ρ > 0

Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,000

→ H0 kann abgelehnt werden → signifikanter Zusammenhang

Korrelation - Kontingenzkoeffizient

Symmetrische Maße

,379 ,000

474

KontingenzkoeffizientNominal- bzgl. Nominalmaß

Anzahl der gültigen Fälle

WertNäherungsweise

Signifikanz

Page 25: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Korrelation – Spearman

Gibt es einen Zusammenhang von polit. Einstellung und Schulbildung?

Höchster Schulabschluß

613 64,3 64,3 64,3

71 7,4 7,4 71,7

184 19,3 19,3 91,0

86 9,0 9,0 100,0

954 100,0 100,0

Hauptschule (Quali.)

Mittlere Reife

Abitur

Universität/FH

Gesamt

Gültig

Häufigkeit ProzentGültigeProzente

KumulierteProzente

politische Selbteinschätzung

21 2,2 2,2 2,2

134 14,0 14,0 16,2

168 17,6 17,6 33,9

423 44,3 44,3 78,2

208 21,8 21,8 100,0

954 100,0 100,0

sehr liberal

liberal

eher liberal

gemäßigt

eher konservativ

Gesamt

Gültig

Häufigkeit ProzentGültigeProzente

KumulierteProzente

Page 26: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Korrelation – Spearman

Ist der Zusammenhang signifikant? (α =0,05)Hypothesen: H0: ρ = 0

HA: ρ ≠ 0

Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,008

→ H0 kann abgelehnt werden → signifikant negativer Zusammenhang

Korrelationen

1,000 -,086

. ,008

954 954

Korrelationskoeffizient

Sig. (2-seitig)

N

politische SelbteinschätzungSpearman-Rho

politischeSelbteinsch

ätzungHöchster

Schulabschluß

Page 27: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Korrelation – Bravais Pearson Korrelieren die Schuljahre mit dem Einkommen?→ Schuljahre und Einkommen sind beide metrisch skaliert → Bravais Pearson Korrelationskoeffizient

Ist der Zusammenhang signifikant? (α =0,05)Hypothesen: H0: ρ = 0

HA: ρ ≠ 0Testentscheidung über Signifikanzwert: 0,05 = α > Sig. = 0,000→ H0 kann abgelehnt werden → signifikant positiver Zusammenhang

Korrelationen

1 ,437

,000

1496 1430

Korrelation nach Pearson

Signifikanz (2-seitig)

N

Anzahl Schuljahre

AnzahlSchuljahre

Familieneinkommen 1991

Einkommen

Page 28: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Dependenzanalyse (Richtung des Zusammenhangs bekannt)

Abhängige Variable: Metrisch(=erklärte Variable; =endogene Variable)

Unabhängige Variablen: Metrisch(=erklärende Variable; =exogene Variable)

Ordinale Variablen Umwandlung in Dummyvariablen (0/1) !!!Nominale Variablen Umwandlung in Dummyvariablen (0/1) !!!

5. Regression

Page 29: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Regression: Methode der kleinsten Quadrate

yabhängige Variable

(Z.B. Konsum)

x unabhängige Variable

(Z.B. Einkommen)

Page 30: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Regression: Methode der kleinsten Quadrate

ei

ei2

yabhängige Variable

(Z.B. Konsum)

x unabhängige Variable

(Z.B. Einkommen)

Page 31: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Regression: Interpretation

Interpretation des Ausdrucks:Gesamterklärungsgüte: R², F-TestKoeffizienten: b, t-Tests

Schätzung des Modells:

yi = β0 + β1x1i + β2x2i + …+ βKxKi + εi

β0 entspricht Ordinatenabschnitt im x-y-Diagrammβ1 entspricht der Steigung der Geraden im x-y-Diagramm

Page 32: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Umwandlung in Dummys: Beispiel FamilienstandEs liegt das Merkmal „Familienstand“ mit folgenden Ausprägungen vor:

1 = verheiratet; 2 = ledig; 3 = geschieden

Erstellung von 3 Dummyvariablen (je Ausprägung eine Dummyvariable)

Bei der Regressionsanalyse muss ein Dummy als Referenzkategorie ausgelassen werden.

Interpretation der Koeffizienten der verbleibenden Dummys nur in Bezug auf die Referenzkategorie!!

Nominal/Ordinalskalierte Merkmale in der Regression

Ausprägung des jeweiligen Dummys für …

Verheiratete Ledige Geschiedene

Dummy verheiratet. 1 0 0

Dummy ledig 0 1 0

Dummy geschieden 0 0 1

Page 33: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Wagei = β0 + β1*Alteri + β2*Manni + β3*Realschulei+ β4*Abituri+ β5*UniFHi+εi

Regression – Beispiel SPSS Output

Koeffizientena

6,499 ,600 10,834 ,000

,109 ,013 ,245 8,138 ,000

2,725 ,327 ,251 8,322 ,000

,717 ,604 ,036 1,187 ,236

2,477 ,410 ,187 6,044 ,000

4,063 ,543 ,232 7,475 ,000

(Konstante)

Alter

Geschlecht

Realschule

Abitur

UniFH

Modell

1

B Standardfehler

Nicht standardisierteKoeffizienten

Beta

StandardisierteKoeffizienten

T Signifikanz

Abhängige Variable: Einkommen des Befragtena.

Mann

Wagei = 6,499 + 0,109*Alteri + 2,725*Manni + 0,717*Realschulei + 2,477*Abituri + 4,063*UniFHi + εi

Page 34: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Bestimmtheitsmaß/R²Wie viel der Varianz in der abhängigen Variable kann durch die Varianz der unabhängigen Variablen erklärt werden?

R2 = 0,210

21 Prozent der Varianz im Lohnsatz (Wage) der befragten Personen ist durch die Variablen Alter, Geschlecht und Schulabschluss erklärbar.

Regression – Beispiel SPSS Output

Modellzusammenfassung

,459a ,210 ,206 4,839

Modell

1

R R-QuadratKorrigiertesR-Quadrat

Standardfehlerdes Schätzers

Einflußvariablen : (Konstante), UniFH, Alter, Geschlecht,Realschule, Abitur

a.

Page 35: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

F-Test

Ist das geschätzte Modell insgesamt signifikant?

H0: β1= β2= β3=… βk = 0 (alle Koeffizienten β1 bis βk =0; gemeinsam nicht signifikant)

HA: βk ≠ 0 (k=1,…, K)

Testentscheidung: 0,05 = α > Sig. = 0,000 H0 kann abgelehnt werden Modell insgesamt signifikant

Regression – Beispiel SPSS Output

ANOVA

5488,562 5 1097,712 46,871 ,000

20586,022 879 23,420

26074,583 884

Regression

Residuen

Gesamt

Modell

1

Quadratsumme dfMittel derQuadrate F Signifikanz

Page 36: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Ansichten in SPSS

SPSS öffnet mehrere Fenster zur Erledigung verschiedener Aufgaben:

• Hauptfenster Variablenansicht Datenansicht

• Ausgabefenster • verschiedene Editorenfenster• Syntaxfenster für die Skriptsprache

Page 37: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Hauptfenster Variablenansicht (Var. definieren)

• Variablentyp• Variablenlabel• Wertelabel• Messniveau

Page 38: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Hauptfenster Datenansicht

Page 39: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Ausgabefenster

Page 40: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Syntax Fenster

Page 41: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

6. Logistische Regression

Bisher: lineare Regression→ abhängige Variable ist metrisch

Jetzt: Schätzung einer Gruppenzugehörigkeit → abhängige Variable ist kategorial

Beispiele: • Produktkauf oder kein Produktkauf nach Marketingmaßnahme?• beschäftigt oder arbeitslos nach einer Ausbildung?• Person unterhalb der Armutsgrenze?• etc.

→ binäre (dichotome oder zweiwertige) abhängige Variablen→ Binäre Logistische Regression

Page 42: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Binäre logistische Regression

xunabhängige Variable

(Z.B. Einkommen)

yabhängige

Variable(Z.B. Produktkauf)

0

1

Page 43: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Geschätzt wird die Wahrscheinlichkeit, dass ein Ereignis eintritt: P(Y=1|x)

Nicht linearer Zusammenhang

Schätzung über Maximum Likelihood

Logistische Regression

i

E(y| ) F( ) F logistischeoder

Normalverteilungsfunktion

1P(Y 1| )

1 e

i

-x 'β

x xβ

x

Page 44: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Beispiel: ehrenamtliche Aktivität

Beobachtet wird, ob eine Person ehrenamtlich aktiv ist oder nicht.

Abhängige Variable: Dummy_Ehrenamt (1=ja; 0=nein)

Die Wahrscheinlichkeit, ob eine Person ehrenamtlich aktiv ist wird mit Hilfe der binären logistischen Regression geschätzt. Als erklärende Größen wurden ausgewählt:

- Geschlecht- Alter- Erwerbstätigkeit- Berufsgruppe

Binäre logistische Regression

Page 45: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Variablen in der Gleichung

-,325 ,033 98,012 1 ,000 ,723

-,087 ,027 10,134 1 ,001 ,917

,013 ,006 4,530 1 ,033 1,013

,000 ,000 1,545 1 ,214 1,000

,269 ,069 15,167 1 ,000 1,308

-,310 ,110 7,923 1 ,005 ,733

nicht erwerbstätig

Frau

Alter

Alter2

Selbständig

Konstante

Schritt1

RegressionskoeffizientB

Standardfehler Wald df Sig. Exp(B)

Marginale Effekte im Logit/Probit:

ii k

k k

E(y| ) F( )f( )

x x

x xβxβ → Abhängig vom Niveau aller x-Ausprägungen

Koeffizienteninterpretation:→ marginaler Effekt ist abhängig vom Niveau aller x-Ausprägungen→ nicht linearer Zusammenhang; nur Vorzeichen interpretierbar→ positives Vorzeichen: mit steigendem x steigt die Wahrscheinlichkeit, dass Y=1

Binäre logistische Regression: Beispiel Ehrenamt

Page 46: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Binäre logistische Regression: Beispiel Ehrenamt

Omnibus-Tests der Modellkoeffizienten

212,176 5 ,000

212,176 5 ,000

212,176 5 ,000

Schritt

Block

Modell

Schritt 1Chi-Quadrat df Sig.

Modellzusammenfassung

31374,732 ,009 ,012Schritt1

-2Log-

LikelihoodCox & SnellR-Quadrat

NagelkerkesR-Quadrat

Klassifizierungstabelle

7722 4213 64,7

6418 4467 41,0

53,4

Beobachtet0

1

Ehrenamt

Gesamtprozentsatz

Schritt 10 1

Ehrenamt Prozentsatzder Richtigen

Vorhergesagt

Wie viele der Beobachtungen wurden vom Modell richtig zugeordnet?

„Bestimmtheitsmaße“ - Vergleich unterschiedlicher Modelle

Omnibus Test: - wie F-Test in der linearen Regression; testet den Gesamtansatz auf Signifikanz

Page 47: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

RegressandAbhängige Variable

Regressoren

Unabhängige Variablen

Modell

metrischmetrisch dichotom

lineare Regression

OLS

dichotom

Dummy (0/1)metrisch dichotom

Logit / Probit

polytommetrisch dichotom

Multinomiales Logit

ordinalmetrisch dichotom

Ordered Logit/Probit

Übersicht Skalierung & Regressionsmodelle

Page 48: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

7. Faktorenanalyse

Ziel:

Dimensionsreduktion einer gegebenen Anzahl von Variablen

→ Zusammenfassung vorhandener Variablen zu wenigen nicht-beobachtbaren (latenten), i.d.R. voneinander unabhängigen Faktoren.

Var 1 Var 2 Var 3 Var 4 Var 5 Var 6 Var 7 Var 8

Faktor 1 Faktor 2 Faktor 3

Page 49: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Beispiel:

• Schulnoten in vier Fächern: Gibt es Faktoren wie „sprachliche Begabung“ oder „mathematische Begabung“?

• Hier: Deutsch, Englisch, Physik und Mathematik

• Schritt 1: Korrelationsmatrix

Deutsch Englisch Physik Mathe

Deutsch 1,00

Englisch 0,58 1,00

Physik 0,25 0,30 1,00

Mathe 0,17 0,25 0,74 1,00

Page 50: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Faktorenanalyse – Das Modell

• Ansatz: zwei Variablen und ein Faktor f

z1k: Wert von Variable 1 (standardisiert: )fk: Wert des Faktorsa1: Faktorladung der ersten Variable

(= Maßzahl für den Zsh. zw. Faktor und Variable)k: Beobachtung k

• Generelle Schreibweise: P Variablen und M Faktoren

zz 0 und s 1

Faktorwerte • Faktorladungen

Page 51: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Zur Interpretation der Faktorladungen (aij):

(1) Kommunalitäten:Die Kommunalität der i-ten Variable gibt den Anteil der Varianz der (standardisierten) Variablen i (mit Varianz gleich eins) wieder, die durch alle Faktoren gemeinsam aufgeklärt wird.

(2) Eigenwert eines Faktors:Der Eigenwert des j-ten Faktors gibt an, welcher Anteil der Gesamtvarianz aller (standardisierten) beobachteten Variablen durch diesen Faktor j aufgeklärt wird.

2ih( )

j( )

M2 2 2i ij i

j 1

h a 0 h 1

;

P2

j ij ji 1

a 0 P

;

Page 52: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Faktorenanalyse – Generelle Vorgehensweise

(1) Korrelationsmatrix berechnen• Sind die Variablen für Faktoranalyse geeignet? (r ≠ 0)• Gängigstes Maß: Kaiser-Meyer-Olkin-Kriterium

→ mindestens 0,5 – möglichst größer 0,8

(2) Schätzung der Faktorladungen → Kommunalitäten/Eigenwerte• Bestimmung der Faktorenzahl• Gängigstes Kriterium: Kaiser-Kriterium

→ nur Faktoren mit Eigenwert größer 1

(3) Rotation der Faktoren• VARIMAX-Methode (Ziel: möglichst eindeutige Faktorladungen)

(4) Interpretation der Faktoren und Bestimmung der Faktorwerte

Page 53: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Faktorenanalyse – Beispiel

→ Wichtigkeitsfragen bei Autos (1 – 10)

Page 54: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

(1) Korrelationsmatrix

Kaiser-Meyer-Olkin-Kriterium = 0,824

Page 55: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

(2a)Eigenwerte

Kaiser-Kriterium: Wahl von zwei Faktoren

→ Wie viel der Gesamtvarianz wird durch die einzelnen Faktoren erklärt?

Page 56: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

(2b)Kommunalitäten

→ Wie viel % der Varianz einer Variablen wird durch die Faktoren erklärt?

Page 57: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

(3) Rotation der Faktoren

Page 58: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

(4) Interpretation der Faktoren

Page 59: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

8. Clusteranalyse

Ziel:

• Zusammenfassung von Objekten (Merkmalsträger) zu möglichst homogenen Untergruppen (Cluster)

• Die gefundenen Cluster sollen in sich homogen sein, wohingegen sich die Cluster im Vergleich miteinander unterscheiden sollen.

Person Var 1 (Alter) Var 2 (Einkommen)1 (…) (…)

2 (…) (…)

3 (…) (…)

4 (…) (…)

5 (…) (…)

Cluster 1

Cluster 2

• Anwendungsgebiete: Identifikation ähnlicher Kunden, Regionen, Wähler, …

Page 60: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Clusteranalyse – Einführung

Hierarchische agglomerative Clustermethoden:

• jedes Objekt bildet zunächst seinen eigenen Cluster• sukzessives Zusammenfügen zu (temporären) Clustern

→ Ähnlichkeits- bzw. Distanzmaß→ Fusionierungsalgorithmus

• schließlich fusionieren alle Objekte zu einem einzelnen Cluster.

Beispiel:

Page 61: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Clusteranalyse – Distanzmaße

Schritt 1: Bestimmung einer Distanzmatrix

• Distanzmaße stehen für die (Un-)Ähnlichkeit von Objekten i und j• Je größer die Distanz, desto unähnlicher sind die beiden betrachteten Objekte• Distanzmaße (metrische Variablen):

- Quadrierte Euklidische Distanz

- Euklidische Distanz

• Distanzmaße (nominalskalierte Variablen):→ vgl. Backhaus et al.

K 2

ij ik jkk 1

d QE x x

( )

K 2

ij ik jkk 1

d E x x

( )

Page 62: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

→ Exemplarisch:

Distanz zwischen erster (i=1) und zweiter (j=2) Person

212 (43 38) 5d

Beispiel:(nur 1 Var.)

Distanzmatrix auf Basis der euklidischen Distanz:

Person (Alter)1 43

2 38

3 6

4 47

5 37

6 9

{1,2,3, 4,5,6}

1

2

3

4

5

6

Page 63: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Clusteranalyse – Fusionierungsalgorithmen

Schritt 2: Fusionierung der Objekte

• Grundproblem: Nach welchem Kriterium werden die Objekte zusammengefasst?

• Algorithmen:(1) Single Linkage (‚nächster Nachbar‘)(2) Complete Linkage (‚entferntester Nachbar‘) → s. Backhaus(3) Ward-Verfahren

Page 64: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

(1) Single Linkage (‚nächster Nachbar‘), Basis: Euklid. Distanz

{1,2,3, 4,5,6}

1

2

3

4

5

6

• Fusionierung von Person 2 und Person 5

• Nächster Nachbar:

{{2,5},1,3, 4,6}

{2,5}

1

3

4

6

Page 65: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Dendogramm (Single Linkage)

Page 66: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Beispiel in SPSS:

Page 67: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

(2) Ward-Verfahren (möglichst geringe Varianzerhöhung durch Fusion) Basis: Quadr. Euklid. Distanz

• Fusionierung von Person 2 und Person 5

• Ward:

{1,2,3, 4,5,6}

1

2

3

4

5

6

{{2,5},1,3, 4,6}

{2,5}

1

3

4

6

Page 68: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

Beispiel in SPSS:

Page 69: P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg Statistik mit SPSS Kurs im Sommersemester 2009 Dipl.-Volkswirt Paul Böhm Dipl.-Kaufmann

F F B

P. Böhm, T. Rathjen, Statistik mit SPSS, Leuphana Universität Lüneburg

Statistik mit SPSS

(1) Single Linkage (‚nächster Nachbar‘)• Vereinigung von Objekten, die die kleinste Distanz aufweisen• es entstehen viel kleine und wenig große Cluster• Problem: Kettenbildung

(2) Ward-Verfahren• es werden die Objekte zu Gruppen zusammengefasst, die die

Varianz in einer Gruppe so wenig wie möglich erhöhen• bildet etwa gleich große Gruppen

Vergleich Fusionierungsalgorithmen: