Statistik: 8.3.04 Relationen zwischen metrischen Merkmalen

Preview:

Citation preview

Statistik: 8.3.04

Relationen zwischen metrischen Merkmalen

8.3.04 PI Statistik, SS 2004 (5) 2

Beispiel: Wohnungsmarkt

Fläche 122 71 125 45 100 63 194 85

Preis 530 410 480 170 315 455 885 400

Fläche 164 119 140 109 40 62 84 65

Preis 900 550 790 810 390 440 300 385

Für 16 Angebote von Eigentumswohnungen wurden registriert: Fläche der Wohnung (m2) Angebotspreis (1000 EUR)

8.3.04 PI Statistik, SS 2004 (5) 3

Wohnungsmarkt

Punkte- oder Streudiagramm(scatterplot)

0100

200300

400500

600700

800900

1000

0 50 100 150 200 250Fläche (m2)

Pre

is (

1000

EU

R)

8.3.04 PI Statistik, SS 2004 (5) 4

Randverteilungen

0

1

2

3

4

5

6

50 90 130 170 210 250H

äufi

gke

it

0

1

2

3

4

5

6

300 400 500 600 700 800 900 1000

Häu

fig

keit

Fläche der Wohnung (m2)

Preis (1000 EUR)

8.3.04 PI Statistik, SS 2004 (5) 5

RandverteilungenFläche Preis

Mittelwert 99,3 513,1

Standardfehler 10,8 54,8

Median 92,5 447,5

Standardabweichung 43,3 219,3

Stichprobenvarianz 1870,6 48109,6

Kurtosis -0,049 -0,547

Schiefe 0,651 0,663

Wertebereich 154 730

Minimum 40 170

Maximum 194 900

Anzahl 16 16

Kenngrößen

8.3.04 PI Statistik, SS 2004 (5) 6

Standardisieren

ii

x

x xz

s

, xx sMerkmal X : x1, …, xn Stichprobenkennzahlen:

Standardisieren:

Standardisierte Daten: z1, …, zn

Stichprobenkennzahlen: 0, 1zz s

8.3.04 PI Statistik, SS 2004 (5) 7

Beispiel: Wohnungsmarkt

-2

-2

-1

-1

0

1

1

2

2

-2 -2 -1 -1 0 1 1 2 2 3

Standardisierte Daten:

,i i

i ix y

x y

x x y yz z

s s

8.3.04 PI Statistik, SS 2004 (5) 8

Korrelationskoeffizient

Produkt-Moment Korrelationskoeffizient:

oder

mit der Kovarianz

Beispiel: Fläche (X) und Preis (Y) von angebotenen Wohnungen: sxy = 7342.34, sx= 43.3, sy= 219.3

r = 0.826

1 1

1 1i i

n ni i

x yi ix y

x x y yr z zn s s n

xy

x y

srs s

1

1( )( )

n

xy i ii

s x x y yn

8.3.04 PI Statistik, SS 2004 (5) 9

KorrelationskoeffizientKorrelationskoeffizient ist ein (durch das Standardisieren)

normiertes Maß für den linearen Zusammenhang

Eigenschaften:-1 ≤ r ≤ 1|r| ist Maß für die Stärke des linearen Zusammenhanges

|r|=1: perfekte lineare Abhängigkeit |r|<1: Punkte streuen stark (|r|~0) oder schwach (|r|~1)

um GeradeSign(r) ist Maß für Richtung des linearen Zusammenhanges

Sign(r)=1: steigende Gerade Sign(r)=-1: fallende Gerade

8.3.04 PI Statistik, SS 2004 (5) 10

Beziehungen: Beispiele

0.997

-0.977

-0.289-0.067

8.3.04 PI Statistik, SS 2004 (5) 11

Rang Korrelationskoeffizient

nach SpearmanKorrelationsmaß für ordinale MerkmaleAuch anwendbar auf Rangzahlen für metrische MerkmaleDefinition wie Produkt-Moment Korrelationskoeffizient rxy, angewendet auf die Ränge der Beobachtungen

( ), ( )spxy rg x rg yr r

8.3.04 PI Statistik, SS 2004 (5) 12

Berechnung von r sp

1. Sortieren der Stichprobenpaare (xi, yi) nach steigenden Werten von X

2. Ersetzen der Beobachtungen (xi, yi) durch die Rangzahlen (i, Ri)

3. Einsetzen in Formel für Produkt-Moment Korrelationskoeffizient r :

4. Alternative Schreibweise:

1 12 2

2 21 12 2

n nisp i

n nii i

i Rr

i R

22

61 ( )

( 1)sp

iir i R

n n

8.3.04 PI Statistik, SS 2004 (5) 13

Beispiel: Schulnoten

Math Engl

3 3

4 3

1 3

3 4

3 1

2 3

2 1

1 2

4 4

2 2

0

1

2

3

4

5

0 1 2 3 4 5

Math-Note

Engl

-Not

e

Math Engl

1 1 2 1,5 3,5

2 1 3 1,5 6,5

3 2 1 4 1,5

4 2 2 4 3,5

5 2 3 4 6,5

6 3 1 7 1,5

7 3 3 7 6,5

8 3 4 7 9,5

9 4 3 9,5 6,5

10 4 4 9,5 9,5

r sp = 0.430

8.3.04 PI Statistik, SS 2004 (5) 14

Typen von Beziehungen

zwischen MerkmalenKausaler Zusammenhang

Wenn es kalt ist, steigen die Heizkosten Rauchen macht Lungenkrebs

Gemeinsame Response Die fleißige Studentin bekommt viele gute Noten Zahl der Babys und der Störche wird weniger

Vermengung (confounding) Sloppy lifestyle Hypothese und Lungenkrebs

8.3.04 PI Statistik, SS 2004 (5) 15

Typen von Beziehungen

yx

x ist kausal für y

x, y sind gemeinsame Response auf z

y: Effekte von x und z sind vermengt

x y

z

x y

z

zwischen zwei Merkmalen x und y

8.3.04 PI Statistik, SS 2004 (5) 16

Vorsicht!

Die Interpretation von Korrelation als kausale Beziehung ist oft eine Fehlinterpretation!

Zahl der Babys und der Störche sind hoch positiv korreliert!?

Einkommen und Konsum sind hoch positiv korreliert

Ausreißer haben großen Effekt auf den Wert des KorrelationskoeffizientenNicht-lineare Beziehungen!

8.3.04 PI Statistik, SS 2004 (5) 17

Lineare Regression

0

200

400

600

800

1000

0 50 100 150 200 250Fläche (m2)

Pre

is (

1000

EU

R)

Gerade, die die Datenwolke im Streudiagramm bzw.die Beziehung zwischen den dargestellten Merkmalen möglichst gut repräsentiertWohnungsmarkt:

Daten und Regressionsgerade

8.3.04 PI Statistik, SS 2004 (5) 18

Lineare Regression, Forts.

Abhängiges Merkmal: YUnabhängiges Merkmal: XRegressionsgerade: Y = a + b X a, b: Regressionskoeffizienten (b: Anstieg, a: Interzept)Methode der kleinsten Quadrate: Wähle die Koeffizienten

so, dass die Summe der quadrierten Abstände zwischen Beobachtungen und der Geraden minimiert werden

Schätzer:

2

,

1( , ) ( ) min

n a bi ii

S a b y a bx

,y

x

sb r a y bx

s

8.3.04 PI Statistik, SS 2004 (5) 19

Wohnungsmarkt, Forts.

0

200

400

600

800

1000

0 50 100 150 200 250Fläche (m2)

Pre

is (

1000

EU

R)

97.59 4.19x

Geschätzte Regressionsgerade

8.3.04 PI Statistik, SS 2004 (5) 20

Wohnungsmarkt

ˆ 97.59 4.19y x Geschätzte Regressionsgerade

• Je m2 muss man im Durchschnitt mit Kosten von 4.190 Euro rechnen;• dazu kommt ein fixer Betrag von im Durchschnitt 97.590 Euro

• Residuen: • zur Beurteilung der Qualität der Erklärung der Daten durch die Regressionsgerade, insb. des Effekts von einzelnen Beobachtungen

( )i iy a bx

8.3.04 PI Statistik, SS 2004 (5) 21

Regression in EXCEL

Analysefunktion „Regression“Statistische Funktionen

RGP: liefert die Koeffizienten der linearen Regression SCHÄTZER: Liefert einen Y-Wert zu einem X-Wert

nach Anpassen der linearen Regression Und andere

8.3.04 PI Statistik, SS 2004 (5) 22

Regression in EXCEL: Ausgabe: Zusammenfassung

Regressions-Statistik

Multipler Korrela-tionskoeffizient 0,826

Bestimmtheitsmaß 0,682

Adj. Bestimmt-heitsmaß 0,659

Standardfehler 128,12

Beobachtungen 16

 Koeffizienten

Standard fehler t-Statistik P-Wert

Schnittpunkt 97,59 82,39 1,18 0,256

X Variable 1 4,19 0,76 5,47 8,2E-05

Recommended