30
WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre Vorlesungsprogramm 04.06.2013 Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013 Zweidimensionale Datensätze 1. Kontingenztabelle und Streudiagramm 2. Korrelationsanalyse: Korrelationskoeffizienten von Fechner, Bravais-Pearson und Spearman 3. Regressionsanalyse: lineare Regression, Methode der kleinsten Quadrate Literatur: Degen, Horst / Lorscheid, Peter: Statistik-Lehrbuch, 2. Aufl., München-Wien 2002, S. 6286. Mosler, Karl und Schmid, Friedrich: Beschreibende Statistik und Wirtschaftsstatistik, 4. Aufl., Berlin-Heidelberg-New York 2009, S. 153201. von der Lippe, Peter: Deskriptive Statistik, Stuttgart 1993, Online-Ausgabe, S. 192 257, S. 259 301. Wewel, Max C.: Statistik im Bachelor-Studium der BWL und VWL, 2. erw. Aufl., München 2011, S. 77 123. Übungsaufgaben: WS 07/08 A3; WS 08/09 A1; SS 09 A4; WS 09/10 A3; SS 10 A2 ; SS 11 A1+ A3 .

Statistik I - 7. Vorlesung - Ruhr-Universität Bochum · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre

  • Upload
    builien

  • View
    219

  • Download
    0

Embed Size (px)

Citation preview

WISTAWIRTSCHAFTSSTATISTIK

PROF. DR. ROLF HÜPEN

FAKULTÄT FÜR

WIRTSCHAFTSWISSENSCHAFT

Seminar für Theoretische Wirtschaftslehre

Vorlesungsprogramm 04.06.2013

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze

1. Kontingenztabelle und Streudiagramm

2. Korrelationsanalyse: Korrelationskoeffizienten von Fechner, Bravais-Pearson und Spearman

3. Regressionsanalyse: lineare Regression, Methode der kleinsten Quadrate

Literatur: Degen, Horst / Lorscheid, Peter: Statistik-Lehrbuch, 2. Aufl., München-Wien 2002, S. 62–86.

Mosler, Karl und Schmid, Friedrich: Beschreibende Statistik und Wirtschaftsstatistik, 4. Aufl.,

Berlin-Heidelberg-New York 2009, S. 153–201.

von der Lippe, Peter: Deskriptive Statistik, Stuttgart 1993, Online-Ausgabe, S. 192 – 257, S.

259 – 301.

Wewel, Max C.: Statistik im Bachelor-Studium der BWL und VWL, 2. erw. Aufl., München

2011, S. 77 – 123.

Übungsaufgaben: WS 07/08 A3; WS 08/09 A1; SS 09 A4; WS 09/10 A3; SS 10 A2; SS 11 A1+ A3.

2Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Einführung

Mehrdimensionale Datensätze:

Bei n Merkmalsträgern und 𝑚 nicht häufbaren Merkmalen liegt für jeden Merkmalsträger ein 𝑚−Tupel an Beobachtungswerten vor. Die Urliste besteht mithin aus 𝑛 solcher 𝑚− Tupel und somit

aus 𝑛𝑚 Einzeldaten.

Beispiel Absolventenumfrage 2002: 𝑛 = 39 Personen haben jeweils 𝑚 = 22 Fragen

beantwortet. Also liegen 39 22 = 858 Einzeldaten vor.

Hier: Beschränkung auf 𝑚 = 2 Merkmale

Zweidimensionaler Datensatz:

• n Merkmalsträger

• 2 Merkmale X und Y

• Für jeden Merkmalsträger i liegt ein Wertepaar 𝑥𝑖 , 𝑦𝑖 vor.

• 𝑥𝑖 = Beobachtungswert für Merkmal X beim Merkmalsträger i.

• 𝑦𝑖 = Beobachtungswert für Merkmal Y beim Merkmalsträger i.

• Die Urliste besteht dann aus n Wertepaaren 𝑥1, 𝑦1 , 𝑥2, 𝑦2 , … , 𝑥𝑛, 𝑦𝑛

Darstellungsmöglichkeiten der Urliste:

• Kontingenztabelle

• Streudiagramm

3Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Kontingenztabelle

Kontingenztabelle

Die Kontingenztabelle ist eine zweidimensionale Häufigkeitstabelle, in der für jede mögliche

Kombination von Ausprägungen der beiden Merkmale die absolute (oder relative) Häufigkeit

notiert wird. Bei 𝑘 möglichen Ausprägungen des Merkmals X und 𝑙 möglichen Ausprägungen des

Merkmals Y entsteht so eine 𝑘 × 𝑙-Matrix mit 𝑘 ∙ 𝑙 absoluten Häufigkeiten der möglichen

Wertepaare.

Notation:

● Merkmal X hat 𝑘 mögliche Ausprägungen 𝑎1, … , 𝑎𝑘

● Merkmal Y hat 𝑙 mögliche Ausprägungen 𝑏1, … , 𝑏𝑙

● ℎ𝑖𝑗 = absolute Häufigkeit, mit der die Ausprägung 𝑎𝑖 , 𝑏𝑗 als Wertepaar in der Urliste

auftritt.

● Randhäufigkeit Merkmal X: ℎ𝑖● =

𝑗=1

𝑙

ℎ𝑖𝑗 mit 𝑖 = 1,… , 𝑘

● Randhäufigkeit Merkmal Y: ℎ●𝑗 =

𝑖=1

𝑘

ℎ𝑖𝑗 mit 𝑗 = 1,… , 𝑙

● Zahl der Merkmalsträger: 𝑛 =

𝑖=1

𝑘

𝑗=1

𝑙

ℎ𝑖𝑗

4Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Kontingenztabelle

Dann entsteht folgende Kontingenztabelle:

Merkmal Y

𝑗b1 b2 ⋯ bj ⋯ blM

erk

ma

l X

a1 h11 h12 ⋯ h1j ⋯ h1l h1

a2 h21 h22 ⋯ h2j ⋯ h2l h2

⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮

ai hi1 hi2 ⋯ hij ⋯ hil hi

⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮

ak hk1 hk2 ⋯ hkj ⋯ hkl hk

𝑖h1 h2 ⋯ hj ⋯ hl n

5Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Kontingenztabelle

Kontingenztabelle mit relativen Häufigkeiten 𝑓𝑖𝑗 = ℎ𝑖𝑗 𝑛:

Merkmal Y

𝑗b1 b2 ⋯ bj ⋯ blM

erk

ma

l X

a1 f11 f12 ⋯ f1j ⋯ f1l f1

a2 f21 f22 ⋯ f2j ⋯ f2l f2

⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮

ai fi1 fi2 ⋯ fij ⋯ fil fi

⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮

ak fk1 fk2 ⋯ fkj ⋯ fkl fk

𝑖f1 f2 ⋯ fj ⋯ fl 1

6Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Kontingenztabelle Zahlenbeispiel

Wirtschaftsbereich

SLand- und

Forstwirt-

schaft,

Fischerei

Produzie-

rendes

Gewerbe

Handel,

Gastgewer-

be und

Verkehr

sonstige

Dienstleis-

tungen

Ste

llung im

Beru

f Selbständige1) 55 170 229 403 857

Beamte / / 37 449 486

Angestellte2) 23 969 998 2 124 4 114

Arbeiter2) 42 1 134 504 498 2 178

S 120 2 273 1 768 3 474 7 635

Erwerbstätige in NRW 2005 nach Wirtschaftsbereichen und Stellung im BerufAngaben in 1 000 Personen

1) Einschließlich mithelfende Familienangehörige, 2) Einschließlich Auszubildende, / = Keine Angabe, da Zahlenwert nicht

sicher genug

Quelle: Landesamt für Statistik NRW, Internetseite

Merkmale:

X = Stellung im Beruf

Y = Wirtschaftsbereich

Merkmalsausprägungen X:

𝑎1 = Selbständige

𝑎2 = Beamte

𝑎3 = Angestellte

𝑎4 = Arbeiter und Arbeiterinnen

Merkmalsausprägungen Y:

𝑏1 = Land- und Forstwirtschaft, Fischerei

𝑏2 = Produzierendes Gewerbe

𝑏3 = Handel, Gastgewerbe und Verkehr

𝑏4 = sonstige Dienstleistungen

7Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Kontingenztabelle Zahlenbeispiel

Wirtschaftsbereich

SLand- und

Forstwirt-

schaft,

Fischerei

Produzie-

rendes

Gewerbe

Handel,

Gastgewer-

be und

Verkehr

sonstige

Dienstleis-

tungen

Ste

llung im

Beru

f Selbständige1) 0,72 2,23 3,00 5,28 11,22

Beamte / / 0,48 5,88 6,37

Angestellte2) 0,30 12,69 13,07 27,82 53,88

Arbeiter2) 0,55 14,85 6,60 6,52 28,53

S 1,57 29,77 23,16 45,50 100,00

Erwerbstätige in NRW 2005 nach Wirtschaftsbereichen und Stellung im BerufAngaben in Prozent

1) Einschließlich mithelfende Familienangehörige, 2) Einschließlich Auszubildende, / = Keine Angabe, da Zahlenwert nicht

sicher genug

Quelle: Landesamt für Statistik NRW, Internetseite

Merkmale:

X = Stellung im Beruf

Y = Wirtschaftsbereich

Merkmalsausprägungen X:

𝑎1 = Selbständige

𝑎2 = Beamte

𝑎3 = Angestellte

𝑎4 = Arbeiter und Arbeiterinnen

Merkmalsausprägungen Y:

𝑏1 = Land- und Forstwirtschaft, Fischerei

𝑏2 = Produzierendes Gewerbe

𝑏3 = Handel, Gastgewerbe und Verkehr

𝑏4 = sonstige Dienstleistungen

8Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Kontingenztabelle Bedingte relative Häufigkeit

Kontingenztabellen sind zur Darstellung zweidimensionaler Datensätze gut geeignet, wenn

• die Anzahl 𝑘 der Merkmalsausprägungen von X klein ist,

• die Anzahl 𝑙 der Merkmalsausprägungen von Y klein ist und

• viele der 𝑛 Wertepaare 𝑥𝑖 , 𝑦𝑖 identisch sind.

Diese Voraussetzungen sind in der Regel bei nominal skalierten Merkmalen erfüllt.

Bedingte relative Häufigkeit

𝑓 𝑎𝑖 𝑏𝑗 =ℎ𝑖𝑗

ℎ𝑗𝑖 = 1,… , 𝑘

Relative Häufigkeit, mit der die Ausprägung 𝑎𝑖 des Merkmals X bei

denjenigen Merkmalsträgern auftritt, die bezüglich des zweiten

Merkmals Y die Ausprägung 𝑏𝑗 besitzen.

𝑓 𝑏𝑗 𝑎𝑖 =ℎ𝑖𝑗

ℎ𝑖𝑗 = 1,… , 𝑙

Relative Häufigkeit, mit der die Ausprägung 𝑏𝑗 des Merkmals Y bei

denjenigen Merkmalsträgern auftritt, die bezüglich des ersten Merkmals

X die Ausprägung 𝑎𝑖 besitzen.

An den bedingten Häufigkeiten kann man erkennen, ob die beiden betrachteten Merkmale

voneinander unabhängig sind oder nicht.

9Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Kontingenztabelle Bedingte relative Häufigkeit

Deskriptive Unabhängigkeit liegt vor, wenn die bedingten relativen Häufigkeiten mit den

zugehörigen relativen Randhäufigkeiten übereinstimmen, also wenn gilt:

𝑓 𝑎𝑖 𝑏𝑗 =ℎ𝑖𝑛

, ∀𝑖 = 1,… , 𝑘 und 𝑓 𝑏𝑗 𝑎𝑖 =ℎ𝑗

𝑛, ∀𝑗 = 1,… , 𝑙

Berechnung der bedingten relativen Häufigkeiten für das Zahlenbeispiel mit dem

Wirtschaftsbereich, also dem Merkmal Y als Bedingung: 𝑓 𝑎𝑖 𝑏𝑗 = ℎ𝑖𝑗 ℎ𝑗

Wirtschaftsbereiche

SLand- und

Forstwirtschaft,

Fischerei

Produzie-

rendes

Gewerbe

Handel,

Gastgewerbe

und Verkehr

sonstige

Dienstleis-

tungen

Ste

llung im

Beru

f

Selbständige1) 55120

1702273

2291768

4033474

8577635

Beamte0

1200

227337

17684493474

4867635

Angestellte2) 23120

9692273

9981768

21243474

41147635

Arbeiter2) 42120

11342273

5041768

4983474

21787635

S 120120

22732273

17681768

34743474

76357635

10Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Kontingenztabelle Bedingte relative Häufigkeit

Ergebnis: Die Stellung im Beruf (Merkmal X) ist nicht unabhängig vom Wirtschaftsbereich

(Merkmal Y)

Wirtschaftsbereiche

Relative

Rand-

häufigkeit

Land- und

Forstwirt-

schaft,

Fischerei

Produzie-

rendes

Gewerbe

Handel,

Gastgewer-

be und

Verkehr

sonstige

Dienstleis-

tungen

Ste

llung im

Beru

f Selbständige1) 0,46 0,07 0,13 0,12 0,11

Beamte 0,00 0,00 0,02 0,13 0,06

Angestellte2) 0,19 0,43 0,56 0,61 0,54

Arbeiter2) 0,35 0,50 0,29 0,14 0,29

S 1 1 1 1 1

11Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Kontingenztabelle Bedingte relative Häufigkeit

Berechnung der bedingten relativen Häufigkeiten für das Zahlenbeispiel mit der Stellung im Beruf,

also dem Merkmal X als Bedingung: 𝑓 𝑏𝑗 𝑎𝑖 = ℎ𝑖𝑗 ℎ𝑖

Wirtschaftsbereiche

SLand- und

Forstwirtschaft,

Fischerei

Produzie-

rendes

Gewerbe

Handel,

Gastgewerbe

und Verkehr

sonstige

Dienstleis-

tungen

Ste

llung im

Beru

f

Selbständige1) 55857

170857

229857

403857

857857

Beamte0

4860

48637486

449486

486486

Angestellte2) 234114

9694114

9984114

21244114

41144114

Arbeiter2) 422178

11342178

5042178

4982178

21782178

S 1207635

22737635

17687635

34747635

76357635

12Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Kontingenztabelle Bedingte relative Häufigkeit

Ergebnis: In welchem Wirtschaftsbereich (Merkmal Y) jemand arbeitet, ist nicht unabhängig von

seiner Stellung im Beruf (Merkmal X).

Wirtschaftsbereiche

SLand- und

Forstwirt-

schaft,

Fischerei

Produzie-

rendes

Gewerbe

Handel,

Gastgewer-

be und

Verkehr

sonstige

Dienstleis-

tungen

Ste

llung im

Beru

f Selbständige1) 0,06 0,20 0,27 0,47 1

Beamte 0,00 0,00 0,08 0,92 1

Angestellte2) 0,01 0,24 0,24 0,52 1

Arbeiter2) 0,02 0,52 0,23 0,23 1

Relative Randhäufigkeit 0,02 0,30 0,23 0,46 1

… Beispielaufgabe

13Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Kontingenztabelle Prüfung auf deskriptive Unabhängigkeit

Wirtschaftsbereich

SLand- und

Forstwirt-

schaft,

Fischerei

Produzie-

rendes

Gewerbe

Handel,

Gastgewer-

be und

Verkehr

sonstige

Dienstleis-

tungen

Ste

llung im

Beru

f Selbständige1) 0,72 2,23 3,00 5,28 11,22

Beamte / / 0,48 5,88 6,37

Angestellte2) 0,30 12,69 13,07 27,82 53,88

Arbeiter2) 0,55 14,85 6,60 6,52 28,53

S 1,57 29,77 23,16 45,50 100,00

Erwerbstätige in NRW 2005 nach Wirtschaftsbereichen und Stellung im BerufAngaben in Prozent

Prüfung auf deskriptive Unabhängigkeit:

Man kann zeigen, dass zwei Merkmale voneinander deskriptiv unabhängig sind, wenn sich die relativen

Häufigkeiten in der Kontingenztabelle als Produkt aus den relativen Randhäufigkeiten ergeben:

𝑓𝑖𝑗 = 𝑓𝑖∙ ∙ 𝑓∙𝑗 ⇒ deskriptive Unabhängigkeit

Beispiel:

0,5388 ∙ 0,2977 = 0,1604 ≠ 0,1269

Die „Stellung im Beruf“ ist also nicht unabhängig vom „Wirtschaftsbereich“.

14Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Streudiagramm

Streudiagramm

In einem Streudiagramm werden die Wertepaare 𝑥𝑖 , 𝑦𝑖 als Punkte in einem x-y-

Koordinatensystem dargestellt.

Voraussetzung: Beide Merkmale sind kardinalskaliert.

Streudiagramme sind zur Darstellung zweidimensionaler Häufigkeitsverteilungen

besonders gut geeignet,

• wenn die 𝑛 Wertepaare (fast) alle voneinander verschieden sind,

• wenn die Anzahl 𝑛 der Wertepaare sehr groß ist,

• um sich einen ersten Eindruck über den (möglichen) Zusammenhang zwischen

den Merkmalen zu verschaffen.

15Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Streudiagramm Zahlenbeispiel

Zahlenbeispiel Absolventenumfrage, Merkmale: Fachsemester (X) und Lebensalter (Y)

ID-Nr. i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

Fachsemeste

rxi 11 11 13 9 9 13 13 9 12 12 10 12 11 13 11 11 16 18 9 8 10 13 11 16 10 11 9 17 9 10 13 7 14 11 9 29 16 14 11

Lebensalter yi 27 29 28 25 23 29 26 24 26 25 26 26 26 28 29 25 30 32 25 27 27 26 27 30 31 26 25 28 26 28 28 26 31 29 25 34 30 30 26

20

22

24

26

28

30

32

34

36

6 8 10 12 14 16 18 20 22 24 26 28 30

Le

be

ns

alt

er

be

im E

xa

me

n (

y)

Zahl der Fachsemester beim Examen (x)

Streudiagramm

16Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Korrelation allgemeine Aussagen

Korrelationsanalyse

Untersucht werden Stärke und Richtung des Zusammenhangs zweier mindestens ordinal

skalierter Merkmale X und Y.1)

Zu diesem Zweck werden Korrelationskoeffizienten 𝒓 berechnet:

• Für ordinal skalierte Merkmale der Rangkorrelationskoeffizient von Spearman.

• Für metrische Merkmale der Korrelationskoeffizient von Fechner und der von Bravais-

Pearson.

Die Korrelationskoeffizienten sind so konstruiert, dass sie nur Werte im Bereich 𝒓 ∈ −𝟏;+𝟏annehmen können.

Dabei wird die Richtung des Zusammenhangs durch das Vorzeichen und die Stärke des

Zusammenhangs durch den Absolutbetrag angezeigt.

1) Zusammenhangmaße für nominal skalierte Merkmale können nur die Stärke, nicht die Richtung messen und werden in dieser

Veranstaltung nicht behandelt.

17Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Korrelation allgemeine Aussagen

Richtung des Zusammenhangs:

𝒓 > 𝟎 „positive Korrelation“: „x und y überwiegend gleichläufig“.

Zu kleinen x-Werten gehören meist auch kleine y-Werte, zu großen x-Werten große

y-Werte. Je größer x umso größer tendenziell auch y.

𝒓 < 𝟎 „negative Korrelation“: „x und y überwiegend gegenläufig“.

Zu kleinen x-Werten gehören meist große y-Werte, zu großen x-Werten kleine y-

Werte. Je größer x umso kleiner tendenziell y.

Stärke des Zusammenhangs (Faustregel):

𝟎, 𝟖 < 𝒓 ≤ 𝟏 starke positive Korrelation

𝟎, 𝟓 < 𝒓 ≤ 𝟎, 𝟖 mittlere positive Korrelation

𝟎, 𝟑 < 𝒓 ≤ 𝟎, 𝟓 schwache positive Korrelation

𝟎 < 𝒓 ≤ 𝟎, 𝟑 fehlende positive Korrelation

−𝟎, 𝟑 ≤ 𝒓 < 𝟎 fehlende negative Korrelation

−𝟎, 𝟓 ≤ 𝒓 < −𝟎, 𝟑 schwache negative Korrelation

−𝟎, 𝟖 ≤ 𝒓 < −𝟎, 𝟓 mittlere negative Korrelation

−𝟏 ≤ 𝒓 < −𝟎, 𝟖 starke negative Korrelation

18Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Korrelation allgemeine Aussagen

Man beachte:

● Problem der Kausalität: Die Korrelationsanalyse lässt keinen Rückschluss auf eine kausale

Beziehung zwischen den Merkmalen zu. Am Korrelationskoeffizienten kann man nicht

erkennen, ob X die Ursache für Y oder Y die Ursache für X ist.

● Problem der Scheinkorrelation: X und Y korrelieren nur deshalb miteinander, weil sie

gemeinsam von einer dritten Variablen Z abhängig sind.

Beispiele: Geburtenzahl – Urbanisierungsgrad – Anzahl Störche,

Schuhgröße – Geschlecht – Bruttoeinkommen

● Problem der Nonsens-Korrelation: Der Korrelationskoeffizient signalisiert einen

Zusammenhang, für den es keine inhaltliche Erklärung gibt.

● Problem der Zufallskorrelation: Die Grundgesamtheit bzw. Stichprobe ist zu klein, um eine

sinnvolle Korrelationsanalyse durchführen zu können.

19Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Fechner

Korrelationskoeffizient von Fechner

Gegeben: 𝑛 Wertepaare 𝑥𝑖 , 𝑦𝑖 , 𝑖 = 1,… , 𝑛 als Beobachtungswerte.

Dann ist der Korrelationskoeffizient von Fechner definiert als:

𝒓𝑭 =Ü−𝑵

Ü+𝑵

wobei Ü = Anzahl der in den Vorzeichen übereinstimmenden Paare 𝑥𝑖 − 𝑥, 𝑦𝑖 − 𝑦

und N = Anzahl der in den Vorzeichen nicht übereinstimmenden Paare 𝑥𝑖 − 𝑥, 𝑦𝑖 − 𝑦

Fälle, in denen eine der Differenzen den Wert Null besitzt, werden als Übereinstimmung gezählt.

● Der Korrelationskoeffizient von Fechner setzt für beide Merkmale metrisches Skalenniveau

voraus.

● Es gehen nur die Vorzeichen der Abweichungen und nicht die Abweichungen selbst in die

Berechnung ein.

20Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Fechner

Zahlenbeispiel: Daten von 10 deutschen Kreditinstituten 𝑖 = 1,… , 10𝑥𝑖 = Anzahl Beschäftigte des Kreditinstituts i in 1 000, 𝑦𝑖 = Bilanzsumme des Kreditinstituts i in Mio Euro

𝑖 𝑥𝑖 𝑦𝑖 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 Ü N

1 93,2 823

2 46,2 482

3 50,7 396

4 11,1 390

5 34,9 369

6 7,8 278

7 1,9 195

8 15,0 193

9 2,2 145

10 4,2 114

S 267,2 3 385

𝑟𝐹 =Ü− 𝑁

Ü+ 𝑁

21Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Fechner

Zahlenbeispiel: Daten von 10 deutschen Kreditinstituten 𝑖 = 1,… , 10𝑥𝑖 = Anzahl Beschäftigte des Kreditinstituts i in 1 000, 𝑦𝑖 = Bilanzsumme des Kreditinstituts i in Mio Euro

𝑖 𝑥𝑖 𝑦𝑖 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 Ü N

1 93,2 823 66,48 484,5 1 0

2 46,2 482 19,48 143,5 1 0

3 50,7 396 23,98 57,5 1 0

4 11,1 390 -15,62 51,5 0 1

5 34,9 369 8,18 30,5 1 0

6 7,8 278 -18,92 -60,5 1 0

7 1,9 195 -24,82 -143,5 1 0

8 15,0 193 -11,72 -145,5 1 0

9 2,2 145 -24,52 -193,5 1 0

10 4,2 114 -22,52 -224,5 1 0

S 267,2 3 385 9 1

AM 26,72 338,5

𝑟𝐹 =Ü− 𝑁

Ü+ 𝑁=

9 − 1

9 + 1=

8

10= 0,8

22Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Fechner

Zugehöriges Streudiagramm:

𝑥 = 26,72

𝑦 = 338,5

0

100

200

300

400

500

600

700

800

900

1.000

0 10 20 30 40 50 60 70 80 90 100

Bilan

zsu

mm

e in

Mio

Eu

ro

Beschäftigte in 1 000

𝑟𝐹 =Ü− 𝑁

Ü+𝑁=

9 − 1

9 + 1=

8

10= 0,8

𝒙

𝒚𝒚

𝒙

23Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Korrelationskoeffizient von Bravais-Pearson

Gegeben: n Wertepaare 𝑥𝑖 , 𝑦𝑖 , 𝑖 = 1,… , 𝑛 als Beobachtungswerte

Dann ist der Korrelationskoeffizient von Bravais-Person definiert als:

Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Bravais-Pearson

𝑟 =

1

𝑛∙

𝑖=1

𝑛

𝑥𝑖 − 𝑥 ∙ 𝑦𝑖 − 𝑦

2 1

𝑛∙

𝑖=1

𝑛

𝑥𝑖 − 𝑥 2 ∙1

𝑛∙

𝑖=1

𝑛

𝑦𝑖 − 𝑦 2

𝑟 =

𝑖=1

𝑛

𝑥𝑖 − 𝑥 ∙ 𝑦𝑖 − 𝑦

2

𝑖=1

𝑛

𝑥𝑖 − 𝑥 2 ∙

𝑖=1

𝑛

𝑦𝑖 − 𝑦 2

Definiert man den Ausdruck 𝑠𝑥𝑦 =1

𝑛⋅ 𝑖=1

𝑛 𝑥𝑖 − 𝑥 ⋅ 𝑦𝑖 − 𝑦 als empirische Kovarianz und berücksichtigt ferner

die Formeln für die Varianz (mittlere quadratische Abweichung) für X bzw. Y, nämlich 𝑠𝑥2 =

1

𝑛⋅ 𝑖=1

𝑛 𝑥𝑖 − 𝑥 2 und

𝑠𝑦2 =

1

𝑛⋅ 𝑖=1

𝑛 𝑦𝑖 − 𝑦 2, so gilt für r :

𝑟 =𝑠𝑥𝑦

𝑠𝑥2 ⋅ 𝑠𝑦

2

=𝑠𝑥𝑦

𝑠𝑥 ⋅ 𝑠𝑦

mit 𝑠𝑥 = 𝑠𝑥2 und 𝑠𝑦 = 𝑠𝑦

2 als jeweilige Standardabweichung. Somit ist r nur definiert, wenn 𝑠𝑥 ≠ 0 und 𝑠𝑦 ≠ 0.

24Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Bravais-Pearson

● Beide Merkmale müssen metrisches Skalenniveau haben.

● Zerlegungsformeln: 𝑠𝑥𝑦 =1

𝑛⋅

𝑖=1

𝑛

𝑥𝑖𝑦𝑖 − 𝑥 ∙ 𝑦 𝑠𝑥2 =

1

𝑛⋅

𝑖=1

𝑛

𝑥𝑖2 − 𝑥

2𝑠𝑦2 =

1

𝑛⋅

𝑖=1

𝑛

𝑦𝑖2 − 𝑦

2

● Weitere Formel für den

Korrelationskoeffizienten von

Bravais-Pearson:

𝑟 =𝑛 ⋅ 𝑖=1

𝑛 𝑥𝑖 ⋅ 𝑦𝑖 − 𝑖=1𝑛 𝑥𝑖 ⋅ 𝑖=1

𝑛 𝑦𝑖

𝑛 ⋅ 𝑖=1𝑛 𝑥𝑖

2 − 𝑖=1𝑛 𝑥𝑖

2⋅ 𝑛 ⋅ 𝑖=1

𝑛 𝑦𝑖2 − 𝑖=1

𝑛 𝑦𝑖2

● Empirische Kovarianz

linearer Transformationen:

𝑥𝑖 = 𝑎 + 𝑏 ⋅ 𝑥𝑖 , 𝑦𝑖 = 𝑐 + 𝑑 ⋅ 𝑦𝑖⇒ 𝑠 𝑥 𝑦 = 𝑏 ⋅ 𝑑 ⋅ 𝑠𝑥𝑦

● Korrelation linearer

Transformationen:𝑟 𝑥, 𝑦 =

𝑟 𝑥, 𝑦 falls 𝑏 ⋅ 𝑑 > 0

−𝑟 𝑥, 𝑦 falls 𝑏 ⋅ 𝑑 < 0

● 𝒓 = 𝟏 erhält man, wenn alle Wertepaare einer Geradengleichung 𝑦𝑖 = 𝑎 + 𝑏 ∙ 𝑥𝑖 mit positiver Steigung

(𝑏 > 0) genügen.

● 𝒓 = −𝟏 erhält man, wenn alle Wertepaare einer Geradengleichung 𝑦𝑖 = 𝑎 + 𝑏 ∙ 𝑥𝑖 mit negativer

Steigung (𝑏 < 0) genügen.

Eigenschaften des Korrelationskoeffizienten von Bravais-Pearson

25Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Bravais-Pearson

AM x

AM x

AM y AM y

AM x

AM x

AM y AM y

𝑟 = 1 𝑟 = 0,78

Positive Korrelation:

26Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Bravais-Pearson

AM x

AM x

AM y AM y

AM x

AM x

AM y AM y

𝑟 = −1 𝑟 = −0,67

Negative Korrelation:

27Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Bravais-Pearson

AM x

AM x

AM y AM y

AM x

AM x

AM y AM y

𝑟 = 0 𝑟 = −0,07

Keine Korrelation:

28Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

𝑖 𝑥𝑖 𝑦𝑖 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 𝑥𝑖 − 𝑥 ∙ 𝑦𝑖 − 𝑦 𝑥𝑖 − 𝑥 2 𝑦𝑖 − 𝑦 2

1 0 1 -4 -4 16 16 16

2 2 4 -2 -1 2 4 1

3 4 3 0 -2 0 0 4

4 6 8 2 3 6 4 9

5 8 9 4 4 16 16 16

20 25 40 40 46

AM 4 5 8 8 9,2

Zweidimensionale Datensätze Korrelation Korrelationskoeffizient von Bravais-Pearson

𝑟 = 𝑖=1𝑛 𝑥𝑖 − 𝑥 ⋅ 𝑦𝑖 − 𝑦

𝑖=1𝑛 𝑥𝑖 − 𝑥 2 ⋅ 𝑖=1

𝑛 𝑦𝑖 − 𝑦 2=

40

40 ⋅ 46≈ 0,9325

oder:

𝑟 =𝑠𝑥𝑦

𝑠𝑥2 ⋅ 𝑠𝑦

2

=8

8 ⋅ 9,2≈ 0,9325

Zahlenbeispiel:

AM x

AM x

AM y AM y

0

1

2

3

4

5

6

7

8

9

10

0 2 4 6 8 10

y

x… Beispielaufgabe

29Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Korrelationskoeffizient von Spearman

Korrelationskoeffizient von Spearman(Rangkorrelationskoeffizient)

● Gegeben sind n Wertepaar (𝑥𝑖 , 𝑦𝑖), i = 1,…n, als Beobachtungswerte

● Voraussetzung: Die Merkmale X und Y sind mindestens ordinal skaliert. Hauptanwendungsgebiet sind

daher ordinal skalierte Merkmale.1

● Vorgehensweise: Man ordnet jedem 𝑥𝑖-Wert bzw. 𝑦𝑖-Wert eine Rangnummer 𝑅(𝑥𝑖) bzw. 𝑅(𝑦𝑖) zu, welche

seinen Platz in der geordneten Urliste 𝑥(1) ≤ 𝑥 2 ≤ ⋯ ≤ 𝑥(𝑛) bzw. 𝑦(1) ≤ 𝑦 2 ≤ ⋯ ≤ 𝑦(𝑛) widerspiegelt. Im

ersten Schritt erhält man dadurch die natürlichen Zahlen 1 bis n als vorläufige Rangnummern für jedes

Merkmal. Gibt es nur voneinander verschiedene Beobachtungswerte, ist man fertig. Sind die Ausprägungen

jeweils nicht alle voneinander verschieden (sog. „Bindungen“), werden in einem zweiten Schritt den jeweils

gleichen Werten das arithmetische Mittel der auf sie entfallenden vorläufigen Rangnummern als endgültige

Rangnummern zugeordnet. Schließlich wird aus den 𝑛 resultierenden Rangnummern 𝑅 𝑥𝑖 , 𝑅(𝑦𝑖) nach

dem Verfahren von Bravais-Pearson der Korrelationskoeffizient berechnet.2

● Formel: Für den Spearmanschen Korrelationskoeffizienten kann folgende Formel verwendet werden:3

𝑟𝑆𝑝 = 1 −6∙

𝑖=1

𝑛𝑑𝑖

2

𝑛∙ 𝑛2−1, mit 𝑑𝑖 = 𝑅 𝑥𝑖 − 𝑅 𝑦𝑖

● Extremwerte: 𝑟𝑆𝑝 = 1, wenn die Rangordnung der Merkmalsträger bei beiden Merkmalen dieselbe ist. 𝑟𝑆𝑝 =

− 1, wenn die Reihenfolge der Merkmalsträger beim zweiten Merkmal genau umgekehrt ist.4

1 Man kann den Spearmanschen Korrelationskoeffizienten zwar auch für metrische Merkmale berechnen, würde dabei aber vorhandene Informationen – etwa

über Differenzen zwischen den Beobachtungswerten – ignorieren.2 Mit den Rangnummern wird gerechnet wie mit einem metrischen Merkmal, was eigentlich gleiche Abstände zwischen den Rängen voraussetzt.3 Die Formel ist nur exakt, wenn keine Bindungen vorkommen.4 Im ersten Fall ist 𝑅 𝑥𝑖 = 𝑅(𝑦𝑖), im zweiten 𝑅 𝑥𝑖 = 𝑛 + 1 − 𝑅(𝑦𝑖) für alle 𝑖 = 1,… , 𝑛

30Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Korrelationskoeffizient von Spearman

Zahlenbeispiel: Zeugnisnoten von sieben Schülern in den Fächern Mathematik und Englisch

Schüler Nr. 1 2 3 4 5 6 7

Mathematiknote ausreichend mangelhaft gut sehr gut befriedigend mangelhaft gut

Englischnote gut ausreichend mangelhaft befriedigend gut sehr gut befriedigend

Schüler Mathenote Englischnote vorläufiger Rang endgültiger Rang

i xi yi R’(xi) R’(yi) R(xi) R(yi) di di2

1 4 2 5 3 5 2,5 2,5 6,25

2 5 4 6 6 6,5 6 0,5 0,25

3 2 5 2 7 2,5 7 -4,5 20,25

4 1 3 1 4 1 4,5 -3,5 12,25

5 3 2 4 2 4 2,5 1,5 2,25

6 5 1 7 1 6,5 1 5,5 30,25

7 2 3 3 5 2,5 4,5 -2 4

Summe 75,5

𝑟𝑆𝑝 = 1 −6 ⋅

𝑖=1

𝑛𝑑𝑖2

𝑛 ⋅ 𝑛2 − 1= 1 −

6 ⋅ 75,5

7 ⋅ 49 − 1= 1 −

453

336= −

117

336≈ −0,3482

→ schwache negative Korrelation

… Beispielaufgabe