6. Auswertung mehrdimensionaler Daten · 6. Auswertung mehrdimensionaler Daten Bisher: ‘ Auswertungsmethoden f¨ur Daten eines einzelnen Merkmals, z.B. Diskrete Klassierung Graﬁsche

6. Auswertung mehrdimensionaler Daten

Bisher:

• Auswertungsmethoden fur Daten eines einzelnen Merkmals,z.B.

Diskrete Klassierung

Grafische Darstellungen (Verteilungsfunktion)

Lagemaße

Streungsmaße

Schiefemaße

199

Jetzt:

• Methoden zur Auswertung von Daten uber mehrere Merk-male gleichzeitig(mehrdimensionale oder multivariate Daten)

Ziele:

• Simultane Beschreibung durch Tabellen und Grafiken

• Mehrdimensionale Messung von Lage und Streuung

• Aufdecken von Beziehungen zwischen den Merkmalen(Korrelationen)

200

6.1 Grundbegriffe

Ausgangssituation: [I]

• n Merkmalstrager e1, e2, . . . , en

• Grundgesamtheit: G = {e1, e2, . . . , en}

• 2 Merkmale X und Y , die jeweils am Merkmalstrager ei, i =1, . . . , n, beobachtet werden konnen

201

Ausgangssituation: [II]

• Urliste lautet dann:

(x1, y1), (x2, y2), . . . , (xn, yn)

oder in Matrix-Schreibweise

x1 y1x2 y2... ...

xn yn

(n× 2 Matrix)

202

Beispiel: [I]

• Ausgaben fur Werbung und Absatze von 84 Unternehmen inden USA im Jahr 1990

• Merkmale

X: Ausgaben fur Werbung (in Mill. US-$)

Y : Absatz (in Mill. US-$)

203

Beispiel: [II]

• Datensatz:

i Werbeausgaben (X) Absatze (Y)1 11.22487 508.83022 31.08904 517.04253 70.32822 524.7197... ... ...

82 31.50510 502.037883 55.39850 515.297684 48.43819 501.1283

• Falls X und Y metrisch skaliert sind (wie hier), kann man dien Datenpunkte (x1, y1), . . . , (xn, yn) in einem Streudiagrammdarstellen

204

Streudiagramm ’Werbeausgaben gegen Absatzzahlen’

205

480

500

520

540

560

0 20 40 60 80 100

Werbeausgaben in Mill. US-$ (X)

Abs

atz

in M

ill.

US-

$ (Y

)

Jetzt:

• Betrachte p ≥ 2 Merkmale X1, . . . , Xp mit Beobachtungen(xi1, xi2, . . . , xip) fur die Untersuchungseinheit ei−→ Urliste bzw. n× p Datenmatrix:

(x11, x12, . . . , x1p), (x21, x22, . . . , x2p), . . . , (xn1, xn2, . . . , xnp)

x11 x12 . . . x1px21 x22 . . . x2p... ... . . . ...

xn1 xn2 . . . xnp

206

6.1.1 Kontingenztafel und Haufigkeiten

Gegeben:

• 2 Merkmale X und Y

• n× 2 Datenmatrix

x1 y1x2 y2... ...

xn yn

bzw. Urliste mit n Zahlenpaaren

(xi, yi), i = 1, . . . , n,

207

Ziel:

• Beschreibung von absoluten und relativen Haufigkeiten

Notation:

• ξ1, . . . , ξJ seien die J moglichen Werte von X

• η1, . . . , ηK seien die K moglichen Werte von Y

208

Definition 6.1: (Gemeinsame und Randhaufigkeiten) [I]

Fur jedes j = 1, . . . , J und k = 1, . . . , K versteht man

1. unter der gemeinsamen absoluten Haufigkeit die Anzahl njkaller Datenpaare (xi, yi) fur die gilt xi = ξj und yi = ηk.

2. unter den absoluten Randhaufigkeiten der X-Auspragung ξjbzw. der Y -Auspragung ηk die Summen

nj· =K∑

k=1njk bzw. n·k =

J∑

j=1njk.

209

Definition 6.1: (Gemeinsame und Randhaufigkeiten) [II]

3. Die gemeinsamen absoluten Haufigkeiten zusammen mit denabsoluten Randhaufigkeiten stellt man ubersichtlich in derfolgenden Haufigkeitstabelle dar, die man Kontingenztafeloder Kontingenztabelle nennt:

Y =η1 η2 . . . ηK−1 ηK∑

ξ1 n11 n12 . . . n1(K−1) n1K n1·ξ2 n21 n22 . . . n2(K−1) n2K n2·

X = ... ... ... ... ... ...ξJ−1 n(J−1)1 n(J−1)2 . . . n(J−1)(K−1) n(J−1)K n(J−1)·

ξJ nJ1 nJ2 . . . nJ(K−1) nJK nJ ·∑

n·1 n·2 . . . n·(K−1) n·K n

210

Beispiel: [I]

• Erhebung folgender Merkmale bei n = 1000 Personen:

Berufszugehorigkeit X

Ausmaß sportlicher Betatigung Y

211

Beispiel: [II]

• Kontingenztabelle:

Y (sportliche Betatigung)X (Berufsgruppe) nie gelegentlich regelmaßig

∑

Arbeiter 240 120 70 430Angestellte 160 90 90 340Beamte 30 30 30 90Landwirte 37 7 6 50sonstige 40 32 18 90∑

507 279 214 1000

• Offensichtlich:Aus gemeinsamen Haufigkeiten lassen sich Randhaufigkeiteneindeutig bestimmen(Umkehrung gilt nicht!)

212

Definition 6.2: (Relative Haufigkeiten, Randverteilung)

Fur jedes j = 1, . . . , J und k = 1, . . . , K heißen

1. fjk =njkn die gemeinsame relative Haufigkeit von ξj und ηk,

2. fj· =∑K

k=1 fjk bzw. f·k =∑J

j=1 fjk die relative Randhaufigkeitvon ξj bzw. ηk.

3. Die relativen Randhaufigkeiten f1·, f2·, . . . , fJ · der Werte vonX nennt man die Randverteilung des Merkmals X. Entspre-chend bilden die relativen Randhaufigkeiten f·1, f·2, . . . , f·K dieRandverteilung des Merkmals Y .

213

Kontingenztafel mit relativen Haufigkeiten:

Y =η1 η2 . . . ηK−1 ηK∑

ξ1 f11 f12 . . . f1(K−1) f1K f1·ξ2 f21 f22 . . . f2(K−1) f2K f2·

X = ... ... ... ... ... ...ξJ−1 f(J−1)1 f(J−1)2 . . . f(J−1)(K−1) f(J−1)K f(J−1)·

ξJ fJ1 fJ2 . . . fJ(K−1) fJK fJ ·∑

f·1 f·2 . . . f·(K−1) f·K 1

214

Bemerkung:

• Offensichtlich gilt:

J∑

j=1

K∑

k=1fjk =

J∑

j=1fj· =

K∑

k=1f·k = 1

(Die Summe uber den relativen Randhaufigkeiten eines jedenMerkmals ist 1)

215

Kontingenztabelle mit relativen Haufigkeiten fur das obige Beispiel:

Y (sportliche Betatigung)X (Berufsgruppe) nie gelegentlich regelmaßig

∑

Arbeiter 0.240 0.120 0.070 0.430Angestellte 0.160 0.090 0.090 0.340Beamte 0.030 0.030 0.030 0.090Landwirte 0.037 0.007 0.006 0.050sonstige 0.040 0.032 0.018 0.090∑

0.507 0.279 0.214 1.000

216

6.1.2 Bedingte Verteilungen

Jetzt:

• Weiteres wichtiges Konzept der mehrdimensionalen Daten-analyse

Definition 6.3: (Bedingte relative Haufigkeiten)

Fur ein festes k ∈ {1, . . . , K} sowie fur jedes j = 1, . . . , J nenntman die Große

fj|Y =ηk=

fjk

f·kdie bedingte relative Haufigkeit von ξj unter der Bedingung Y =ηk.

217

Bemerkung:

• Die bedingte relative Haufigkeit fj|Y =ηkist die relative Haufigkeit

der X-Auspragung ξj in der Teilgesamtheit aller derjenigenEinheiten, welche die Y -Auspragung ηk aufweisen, denn

fj|Y =ηk=

fjk

f·k=

njk

nn·kn

=njk

n·k

Definition 6.4: (Bedingte Verteilung)

Gemaß Definition 6.3 kann man insgesamt J bedingte relativeHaufigkeiten betrachten:

f1|Y =ηk, f2|Y =ηk

, . . . , fJ |Y =ηk.

Die Gesamtheit dieser J Werte heißt die bedingte Verteilung vonX unter (der Bedingung) Y = ηk.

218

Bemerkungen: [I]

• Analog zu Definition 6.3 definiere fur ein festes j ∈ {1, . . . , J}sowie fur beliebige k = 1, . . . , K

fk|X=ξj=

fjk

fj·.

Diese Große heißt bedingte relative Haufigkeit von ηk unter(der Bedingung) X = ξj.

• Analog zu Definition 6.4 heißt

f1|X=ξj, f2|X=ξj

, . . . , fK|X=ξj

die bedingte Verteilung von Y unter X = ξj

219

Bemerkungen: [II]

• Offensichtlich gilt:

J∑

j=1fj|Y =ηk

=J

∑

j=1

njk

n·k= 1 fur jedes k = 1, . . . , K

K∑

k=1fk|X=ξj

=K∑

k=1

njk

nj·= 1 fur jedes j = 1, . . . , J

220

Beispiel: (Berufsgruppe ←→ Sport, vgl. Folien 211 ff.)

Gesucht: [I]

• Verteilung der sportlichen Aktivitat bei Arbeiternoder statistisch ausgedruckt:Die bedingte Verteilung von Y unter X = ξ1

f1|X=ξ1 =n11

n1·=

240430

= 0.558 (nie)

f2|X=ξ1 =n12

n1·=

120430

= 0.279 (gelegentlich)

f3|X=ξ1 =n13

n1·=

70430

= 0.163 (regelmaßig)

221

Gesucht: [II]

• Verteilung der Berufsgruppen bei regelmaßig Aktivenoder statistisch ausgedruckt:Die bedingte Verteilung von X unter Y = η3

f1|Y =η3=

70214

= 0.327 (Arbeiter)

f2|Y =η3=

90214

= 0.421 (Angestellte)

f3|Y =η3=

30214

= 0.140 (Beamte)

f4|Y =η3=

6214

= 0.028 (Landwirte)

f5|Y =η3=

18214

= 0.084 (sonstige)

222

6.1.3 Deskriptive Unabhangigkeit

Jetzt:

• Frage nach dem Zusammenhang zwischen X und Y

Definition 6.5: (Deskriptive Unabhangigkeit)

Die Merkmale X und Y heißen deskriptiv unabhangig, falls sichfur alle j = 1, . . . , J und fur alle k = 1, . . . , K die gemeinsamenrelativen Haufigkeiten als Produkt der relativen Randhaufigkeitenergeben, d.h. falls gilt

fjk = fj· · f·k.

223

Beispiel: (Geschlecht (X) ←→ gewahlte Partei (Y ))

Kontingenztafel mit absoluten Haufigkeiten:

Y (Partei)X (Geschlecht) A B C

∑

mannlich 200 120 80 400weiblich 300 180 120 600

∑

500 300 200 1000

224

Kontingenztafel mit relativen Haufigkeiten:

Y (Partei)X (Geschlecht) A B C

∑

mannlich 0.20 0.12 0.08 0.40weiblich 0.30 0.18 0.12 0.60

∑

0.50 0.30 0.20 1.00

f11 = 0.20 = 0.40 · 0.50 = f1· · f·1f12 = 0.12 = 0.40 · 0.30 = f1· · f·2f13 = 0.08 = 0.40 · 0.20 = f1· · f·3f21 = 0.30 = 0.60 · 0.50 = f2· · f·1f22 = 0.18 = 0.60 · 0.30 = f2· · f·2f23 = 0.12 = 0.60 · 0.20 = f2· · f·3

Fazit: X und Y sind deskriptiv unabhangig225

Betrachte nun:

• Bedingte Verteilungen von X unter Y = η1, Y = η2, Y = η3

• Bedingte Verteilungen von Y unter X = ξ1, X = ξ2

Bedingte Verteilungen von X: [I]

• unter Y = η1:

f1|Y =η1=

f11

f·1=

0.200.50

= 0.40

f2|Y =η1=

f21

f·1=

0.300.50

= 0.60

226

Bedingte Verteilungen von X: [II]

• unter Y = η2:

f1|Y =η2=

f12

f·2=

0.120.30

= 0.40

f2|Y =η2=

f22

f·2=

0.180.30

= 0.60

• unter Y = η3:

f1|Y =η3=

f13

f·3=

0.080.20

= 0.40

f2|Y =η3=

f23

f·3=

0.120.20

= 0.60

227

Offensichtlich:

• Bedingte Verteilungen von X unter Y = η1, Y = η2, Y = η3sind alle gleich

• Man uberpruft leicht, dass die bedingten Verteilungen von Yunter X = ξ1, X = ξ2 ebenfalls beide gleich sind

228

Allgemein gilt:X und Y sind genau dann deskriptiv unabhangig, sobald eine derfolgenden aquivalenten Bedingungen erfullt ist:

• Fur alle j = 1, . . . , J und alle k = 1, . . . , K gilt:

fjk = fj· · f·k (= Definition 6.5)

• Fur alle j = 1, . . . , J und alle k = 1, . . . , K gilt:

njk =nj· · n·k

n

• Fur alle j = 1, . . . , J gilt:

fj|Y =η1= fj|Y =η2

= . . . = fj|Y =ηK= fj·

• Fur alle k = 1, . . . , K gilt:

fk|X=ξ1 = fk|X=ξ2 = . . . = fk|X=ξJ= f·k

229

6.1.4 Arithmetische Mittel und Varianzen

Annahmen:

• X und Y sind metrisch skaliert(sinnvolle Arithmetik)

• Daten liegen in Kontingenztafeln vor(absolute oder relative Haufigkeiten)

230

Jetzt:

• Ubertragung von Mittelwert und Varianz auf mehrdimension-ale Daten

−→ Mittelwert- und Varianzbildung uber Rand- bzw. bedingteVerteilungen

Definition 6.6: (Arithmetische Mittel)

Die arithmetischen Mittel von X und Y sind definiert als diearithmetischen Mittel der jeweiligen Randverteilung:

x =1n

J∑

j=1ξj · nj· =

J∑

j=1ξj · fj·,

y =1n

K∑

k=1ηk · n·k =

K∑

k=1ηk · f·k.

231

Bemerkung:

• In mehrdimensionalen Datensatzen sind die arithmetischenMittel einzelner Merkmale einfach die Mittelwerte der einzel-nen Datenreihen

Definition 6.7: (Bedingte arithmetische Mittel)

Das bedingte arithmetische Mittel von X unter Y = ηk (k fest)sowie das bedingte arithmetische Mittel von Y unter X = ξj(j fest) sind jeweils definiert als die arithmetischen Mittel derentsprechenden bedingten Verteilungen von X und Y :

xk =1

n·k

J∑

j=1ξj · njk =

J∑

j=1ξj · fj|Y =ηk

,

yj =1

nj·

K∑

k=1ηk · njk =

K∑

k=1ηk · fk|X=ξj

.

232

Bemerkungen:

• Sind X und Y deskriptiv unabhangig, so stimmen samtlichebedingte Verteilungen von X mit der Randverteilung von Xuberein (vgl. Folie 229). Da das bedingte arithmetische Mit-tel von X unter Y = ηk der Mittelwert der entsprechendenbedingten Verteilung von X ist, stimmt im Fall der deskrip-tiven Unabhangigkeit fur jedes k der bedingte Mittelwert xkmit dem gewohnlichen Mittelwert uberein:

x1 = x2 = . . . = xK = x

• Analog gilt im Fall der deskriptiven Unabhangigkeit fur diebedingten Mittelwerte von Y :

y1 = y2 = . . . = yJ = y

233

Jetzt:

• Definition von Varianzen und bedingten Varianzen von X undY

Definition 6.8: (Varianz)

Die Varianzen von X und Y sind definiert als die Varianzen derjeweiligen Randverteilungen, d.h.

s2X =1n

J∑

j=1

(

ξj − x)2· nj· =

1n

J∑

j=1ξ2j · nj· − x2,

s2Y =1n

K∑

k=1(ηk − y)2 · n·k =

1n

K∑

k=1η2k · n·k − y2.

234

Bemerkung:

• In mehrdimensionalen Datensatzen sind die Varianzen dereinzelnen Merkmale einfach die Varianzen der einzelnen Daten-reihen

Definition 6.9: (Bedingte Varianz)

Die bedingte Varianz von X unter Y = ηk (k fest) sowie diebedingte Varianz von Y unter X = ξj (j fest) sind definiert alsdie Varianzen der entsprechenden bedingten Verteilungen von Xund Y :

s2X|Y =ηk=

J∑

j=1

(

ξj − xk)2·njk

n·k=

J∑

j=1ξ2j ·

njk

n·k− x2

k,

s2Y |X=ξj=

K∑

k=1

(

ηk − yj)2·njk

nj·=

K∑

k=1η2k ·

njk

nj·− y2

j .

235

Bemerkungen:

• Sind X und Y deskriptiv unabhangig, so stimmen samtlichebedingte Verteilungen von X mit der Randverteilung von Xuberein (vgl. Folie 229). Da die bedingte Varianz von X unterY = ηk die Varianz der entsprechenden bedingten Verteilungvon X ist, stimmt im Fall der deskriptiven Unabhangigkeit furjedes k die bedingte Varianz s2X|Y =ηk

mit der gewohnlichenVarianz uberein:

s2X|Y =η1= s2X|Y =η2

= . . . = s2X|Y =ηK= s2X

• Analog gilt im Fall der deskriptiven Unabhangigkeit fur diebedingten Varianzen von Y :

s2Y |X=ξ1= s2Y |X=ξ2

= . . . = s2Y |X=ξJ= s2Y

236

Beispiel: (Wohnraum)

• Betrachte n = 1000 Wohnungen

• Merkmale:

X: Anzahl der Wohnraume pro Wohnung

Y : Anzahl der Personen pro Wohnung

237

Y = 1 Y = 2 Y = 3 Y = 4 Y = 5∑

X = 1 200 40 0 0 0 240X = 2 200 100 30 10 0 340X = 3 80 40 100 60 10 290X = 4 20 15 10 20 20 85X = 5 0 5 10 10 20 45

∑

500 200 150 100 50 1000

Berechnung von (bedingten) Mittelwerten und Varianzen

• Im Proseminar

238

6.2 Zusammenhangsmaße

Gegeben:

• Zwei Merkmale X und Y mit Urliste der Lange n

Gesucht:

• Maßzahl fur den Zusammenhang zwischen X und Y

239

Beispiele:

• Zusammenhang zwischen Korpergroße (X) und Korperge-wicht (Y )

• Zusammenhang zwischen Inflationsrate (X) und Arbeitslo-senquote (Y )(Phillips-Kurve)

• Zusammenhang zwischen Arbeitslosigkeit (X) und Wirt-schaftswachstum (Y )(Okunsches Gesetz)

240

Wichtiges Charakteristikum:

• Datenniveau von X und Y

Metrische Skalierung

Ordinale Skalierung

Nominale Skalierung

241

6.2.1 Metrische Daten: Korrelationskoeffizient

Situation:

• X und Y sind metrisch skaliert

• Urliste: (x1, y1), . . . , (xn, yn)

Frage:

• Wie hangen X und Y zusammen?

242

Zunachst:

• Betrachte fur ein festes i ∈ {1, . . . , n} die Große

T1 = (xi − x) · (yi − y)

Offensichtlich gilt:

• T1 > 0

=⇒ xi und yi sind beide jeweils großer oder beide jeweils kleinerals ihre Mittelwerte

• T1 < 0

=⇒ xi und yi verhalten sich jeweils umgekehrt bzgl. ihrer Lagezum jeweiligen Mittelwert

243

Jetzt:

• Summenbildung uber alle Daten

T2 =n

∑

i=1(xi − x) · (yi − y)

• T2 � 0:

=⇒ Die positiven Summanden in T2 uberwiegen die negativenerheblich. Zu ’hohen’ bzw. ’niedrigen’ xi gehoren tenden-ziell ’hohe’ bzw. ’niedrige’ yi(positiver Zusammenhang)

244

Summenbildung uber alle Daten: [II]

• T2 � 0:

=⇒ Die negativen Summanden in T2 uberwiegen die positivenerheblich. Zu ’hohen’ bzw. ’niedrigen’ xi gehoren tenden-ziell nun ’niedrige’ bzw. ’hohe’ yi(negativer Zusammenhang)

• T2 ≈ 0:

=⇒ Positive und negative Summanden in T2 heben sich ten-denziell auf. Zu ’hohen’ (’niedrigen’) xi gehoren nunsowohl ’niedrige’ als auch ’hohe’ yi(kein Zusammenhang)

245

Definition 6.10: (Kovarianz)

Die Kovarianz zwischen X und Y ist definiert durch

sXY =1n

n∑

i=1(xi − x) · (yi − y) =

1n

n∑

i=1xi · yi − x · y.

Bemerkungen: [I]

• Die Kovarianz sXY ist ’symmetrisch’, d.h.

sXY = sY X

246

Bemerkungen: [II]

• Die Kovarianz eines Merkmals mit sich selbst ist gleich derVarianz des Merkmals:

sXX =1n

n∑

i=1(xi − x)2 = s2X

• Liegt die Datenurliste in Form einer Haufigkeitstabelle vor,so ist die Kovarianz gegeben durch

sXY =1n

J∑

j=1

K∑

k=1

(

ξj − x)

· (ηk − y) · njk

=1n

J∑

j=1

K∑

k=1ξj · ηk · njk − x · y

247

Jetzt:

• Normierung der Kovarianz sXY durch Division durch das Pro-dukt der Standardabweichungen von X und Y

248

Definition 6.11: (Korrelationskoeffizient von Bravais-Pearson)

Der Korrelationskoeffizient zwischen X und Y ist definiert durch

rXY =sXY

√

s2X ·√

s2Y=

n∑

i=1(xi − x) · (yi − y)

√

√

√

√

n∑

i=1(xi − x)2 ·

√

√

√

√

n∑

i=1(yi − y)2

=

n∑

i=1xi · yi − n · x · y

√

√

√

√

n∑

i=1x2

i − n · x2 ·

√

√

√

√

n∑

i=1y2i − n · y2

.

249

Bemerkungen: [I]

• Der Korrelationskoeffizient rXY ist ’symmetrisch’:

rXY = rY X

• Der Korrelationskoeffizient ist normiert, d.h. es gilt immer

−1 ≤ rXY ≤ 1

• Wenn rXY = 0 ist, so sagt man:

’Die Merkmale X und Y sind unkorreliert’

250

Bemerkungen: [II]

• Sind X und Y deskriptiv unabhangig, so gilt: rXY = 0(Deskrip. Unabhangigkeit impliziert Unkorreliertheit)

• Vorsicht:Die Umkehrung gilt im allgemeinen nicht(Unkorreliertheit (rXY = 0) impliziert nicht die deskriptiveUnabhangigkeit von X und Y )

• Ist rXY = 1 oder rXY = −1, so sagt man:

’Die Merkmale X und Y sind perfekt korreliert’

251

Zentrales Resultat:

• Es gilt rXY = 1 genau dann, wenn es Zahlen a > 0, b ∈ Rgibt, so dass yi = a · xi + b fur alle i = 1, . . . , n gilt

(Alle Daten liegen auf einer Geraden mit positiver Steigung)

• Es gilt rXY = −1 genau dann, wenn es Zahlen a < 0, b ∈ Rgibt, so dass yi = a · xi + b fur alle i = 1, . . . , n gilt

(Alle Daten liegen auf einer Geraden mit negativer Steigung)

252

Offensichtlich:

• Der Korrelationskoefizient rXY ist ein Maß fur den linearenZusammenhang zwischen X und Y

Vorsicht:

• rXY = 0 (bzw. rXY ≈ 0) bedeutet nur, dass kein (bzw. nurein schwacher) linearer Zusammenhang zwischen X und Ybesteht. Es konnen aber trotzdem starke andere (nicht-lineare) Zusammenhange zwischen X und Y bestehen

253

-4

-2

0

2

4

6

-4 -2 0 2 4

X

Y

Korrelation zwischen X und Y: -0.008

-6

-4

-2

0

2

4

6

-4 -2 0 2 4

X

Y1

Korrelation zwischen X und Y1: 0.7020

-6

-4

-2

0

2

4

6

-4 -2 0 2 4

X

Y2

Korrelation zwischen X und Y 2: -0.7054

0

5

10

15

20

-4 -2 0 2 4

X

Y3

Korrelation zwischen X und Y3: 0.0225

Weitere Aspekte zur Korrelation: [I]

• Korrelation und Kausalitat

• Scheinkorrelation:Die zu untersuchenden Merkmale X und Y hangen beidevon einem 3. Merkmal Z ab, das nicht Gegenstand der Un-tersuchung ist. Ein hoher Wert fur rXY kann daher zus-tandekommen, weil sowohl X als auch Y von Z abhangen(indirekter Zusammenhang)

Beispiel:

X: Wortschatz eines KindesY : Korpergroße eines KindesZ: Alter eines Kindes

255

Weitere Aspekte zur Korrelation: [II]

• Nonsens-Korrelation:Hohe Korrelation zwischen vollig sachfremden Merkmalen Xund Y

Beispiel:

Hohe Korrelation zwischen (menschlicher) Geburtenrate(X) einer Region und deren Population von Klapperstor-chen (Y )

256

6.2.2 Ordinale Daten: Rangkorrelationskoeffizient

Jetzt:

• X und Y sind ordinal skaliert

=⇒ Berechnung vonarithmetischem MittelVarianz und Kovarianz

nicht sinnvoll

Gesucht:

• Sinnvolles Korrelationsmaß fur ordinale Daten

257

Zunachst Zusatzannahme:

• Alle Daten eines Merkmals sind verschieden, d.h.

xi 6= xj und yi 6= yj fur alle i 6= j

Damit:

• Einfache Definition der Rangzahl einer Merkmalsauspragungxi bzw. yi

258

Definition 6.12: (Rangzahl eines Datenpunktes)

Gegeben seien die ungeordnete Urliste x1, . . . , xn sowie die geord-nete Urliste x(1) < x(2) < . . . < x(n) eines Merkmals X. Unter derRangzahl (kurz: Rang) eines Datenwertes xi, in Zeichen RX(xi),versteht man die Position, die xi in der geordneten Urliste ein-nimmt, d.h.

RX(xi) = r, falls xi = x(r).

259

Zahlenbeispiel:

• Ungeordnete Urliste

x1 x2 x3 x4 x5 x61 4 7 3 6 8

• Geordnete Urliste

x(1) x(2) x(3) x(4) x(5) x(6)(= x1) (= x4) (= x2) (= x5) (= x3) (= x6)

1 3 4 6 7 8

• Damit ergeben sich folgende Rangzahlen:

RX(x1) = 1, RX(x2) = 3, RX(x3) = 5,

RX(x4) = 2, RX(x5) = 4, RX(x6) = 6

260

Sinnvolles Korrelationsmaß fur ordinale Daten:

• Korrelationskoeffizient aus Definition 6.11 angewendet aufdie Range RX(xi) und RY (yi)

Definition 6.13: (Rangkorrelationskoeff. von Spearman)

Es bezeichnen RX und RY die arithmetischen Mittel der Rangzahlender Merkmale X und Y . Der Rangkorrelationskoeffizient zwis-chen X und Y ist definiert durch

rRXY =

n∑

i=1

(

RX(xi)−RX)

·(

RY (yi)−RY)

√

√

√

√

n∑

i=1

(

RX(xi)−RX)2·

√

√

√

√

n∑

i=1

(

RY (yi)−RY)2

.

261

Man beachte:

• Fur die arithmetischen Mittel RX und RY gilt:

RX = RY =1n

n∑

i=1i =

1n·n · (n + 1)

2=

n + 12

(vgl. Folie 27)

Hieraus folgt:

rRXY =

n∑

i=1

(

RX(xi)−n + 1

2

)

·(

RY (yi)−n + 1

2

)

√

√

√

√

n∑

i=1

(

RX(xi)−n + 1

2

)2·

√

√

√

√

n∑

i=1

(

RY (yi)−n + 1

2

)2

262

Bemerkungen:

• Es gibt weitere, aquivalente Formeln fur rRXY , z.B.

rRXY =

n∑

i=1RX(xi) ·RY (yi)−

n · (n + 1)2

4√

√

√

√

n∑

i=1RX(xi)

2 −n · (n + 1)2

4·

√

√

√

√

n∑

i=1RY (yi)

2 −n · (n + 1)2

4

• Sind alle xi und yi verschieden (wie hier zunachst angenom-men), so ergibt sich die vereinfachte Formel

rR,OBXY = 1−

6n

∑

i=1[RX(xi)−RY (yi)]

2

n · (n2 − 1)

263

Beispiel: (Schulnoten)

• 6 Schuler haben folgende Punktzahlen auf einer von 1 bis 10reichenden Ordinalskala fur Klausuren in Mathematik (X)und Physik (Y ) erreicht:

x1 x2 x3 x4 x5 x6 y1 y2 y3 y4 y5 y61 4 7 3 6 8 1 2 9 4 10 5

Es gilt:

rRXY = rR,OB

XY = 1−6 · 10

6 · (62 − 1)= 0.714

264

Wichtige Eigenschaften von rRXY : [I]

• rRXY ist symmetrisch, d.h. rR

XY = rRY X

• rRXY ist invariant gegenuber streng monoton wachsenden

Transformationen:

Sind f und g streng monoton wachsende Funktionen unduberfuhrt man die Ursprungsdaten (xi, yi) in

x′i = f(xi) und y′i = g(yi) fur alle i = 1, . . . , n

so gilt fur alle i:

RX ′(x′i) = RX(xi) RY ′(y′i) = RY (yi)

und damit

rRXY = rR

X ′Y ′

265

Wichtige Eigenschaften von rRXY : [II]

• rRXY ist normiert:

−1 ≤ rRXY ≤ 1

• Extremfalle:

rRXY = 1 ⇐⇒ RX(xi) = RY (yi) fur alle i = 1, . . . , n

(vollig gleich gerichteter monoton wachsender Zusammen-hang)

rRXY = −1 ⇐⇒ RX(xi) = n−RY (yi)+1 fur alle i = 1, . . . , n

(vollig gegenlaufiger monoton fallender Zusammenhang)

266

Jetzt:

• Berucksichtigung von Bindungen durch Anwendung der Meth-ode der Durchschnittsrange

Zahlenbeispiel: [I]

• Ungeordnete Urliste

x1 x2 x3 x43.7 3.9 3.1 3.7

267

Zahlenbeispiel: [II]

• Geordnete Urliste

x(1) x(2) x(3) x(4)(= x3) (= x1) (= x4) (= x2)3.1 3.7 3.7 3.9

• Vergabe von Rangen

RX(x3) = 1, RX(x1) = 2, RX(x4) = 3︸︷︷︸

(wegen x1 = x4 = 3.7)RX(x1) = 2.5, RX(x4) = 2.5

, RX(x2) = 4

268

Bei Auftreten von Bindungen:

• Vergabe von Durchschnittsrangen sowohl fur die xi als auchdie yi

• Die vereinfachte Formel rR,OBXY (vgl. Folie 263) nicht mehr

zulassig

Stattdessen:

Anwendung der aquivalenten Formeln fur rRXY auf den

Folien 262, 263

269

6.2.3 Nominale Daten: Kontingenzkoeffizient

Jetzt:

• X und Y sind nominal skaliert

• Daten in Kontingenztafel (absolute Haufigkeiten)

Geeignetes Zusammenhangsmaß:

• Der Kontingenzkoeffizient

270

Voruberlegung:

• X und Y sind deskriptiv unabhangig, wenn

njk =nj· · n·k

nfur alle j = 1, . . . , J und k = 1, . . . , K(vgl. Folie 229)

Abweichungsmaß von der deskriptiven Unabhangigkeit:

χ2 =J

∑

j=1

K∑

k=1

(

njk −nj· · n·k

n

)2

nj· · n·kn

= n ·

J∑

j=1

K∑

k=1

n2jk

nj· · n·k− 1

271

Bemerkung:

• Damit χ2 definiert ist, muss gelten: nj· > 0 und n·k > 0 furalle j und alle k. Ist einer der beiden Ausdrucke fur irgendeinj oder k gleich 0, so konnen die zugehorigen Merkmalswerteξj bzw. ηk aus der Kontingenztafel gestrichen werden

Jetzt:

• Normierung von χ2 liefert Kontingenzkoeffizient

272

Definition 6.14: (Kontingenzkoeffizient)

Als Zusammenhangsmaß zwischen den nominal skalierten Merk-malen X und Y verwendet man den Kontingenzkoeffizienten, derdefiniert ist als

CXY =

√

√

√

√

χ2

χ2 + n·

min{J, K}min{J, K} − 1

.

Bemerkung:

• Der Kontingenzkoeffizient CXY ist streng monoton wachsendin χ2 und normiert, d.h.

0 ≤ CXY ≤ 1

273

Zentrales Ergebnis:

• Der Kontingenzkoeffizient CXY wird genau dann gleich 0,wenn χ2 = 0 gilt, d.h. genau dann, wenn X und Y deskriptivunabhangig sind

Weitere Bemerkungen:

• Gilt CXY = 1, so spricht man von einem vollstandigen Zusam-menhang zwischen X und Y

• CXY misst nur die Starke des Zusammenhangs zwischen Xund Y , nicht jedoch die Richtung

• Jedoch misst CXY beliebige Zusammenhange, also nicht nurlineare (wie rXY ) oder monotone wie rR

XY

274

Zur praktischen Anwendung von rXY , rRXY , CXY :

• Unterschiedliche Datenniveaus von X und Y :

Wahle Zusammenhangsmaß fur das ’schwachste’ Daten-niveau der Variablen X und Y(vgl. Folie 276)

• Ermittlung des allgemeinen Zusammenhangs von X und Y :

Verwende CXY

275

Behandlung unterschiedlicher Datenniveaus:

Y Nominal Ordinal MetrischXNominal CXY CXY CXY

Ordinal CXY rRXY rR

XY

Metrisch CXY rRXY rXY

276

6.3 Deskriptive Regression

Bedeutung des Begriffes ’Regression’:

• Untersuchung des Zusammenhangs zwischen einer abhangi-gen Variablen (auch Regressand oder endogene Variable) undeiner oder mehrerer unabhangiger Variablen (auch Regres-soren oder exogene Variablen)

Allgemeines mathematisches Modell:

Y = f(X1, X2, . . . , Xk; ~β) + u

277

Bezeichnungen:

• Y : abhangige Variable, Regressand

• X: unabhangige Variablen, Regressoren

• f(·): funktionaler Zusammenhang

• ~β: unbekannter Parametervektor

• u: Fehler

278

Ziel der Regressionsrechnung:

• Moglichst ’genaue’ Aussagen uber den Zusammenhang zwis-chen Regressand und Regressor(en)

Beispiele: [I]

• Keynesianische Konsumfunktion

Y = a + b ·X + u

Y = privater Konsuma = autonomer Konsumb = marginale KonsumquoteX = verfugbares Einkommen

279

Beispiele: [II]

• Zusammenhang zwischen Inflation und Geldmengenwachs-tum (Quantitatstheorie)

Y = a + b ·X + u

Y = InflationsrateX = Wachstumsrate der Geldmenge (M2)

• Zusammenhang zwischen Inflation und Arbeitslosigkeit (Phillip-skurve)

Y = a + b ·1X

+ u

Y = InflationsrateX = Arbeitslosenquote(Vorsicht: f ist eine Hyperbel, nicht-linear)

280

Hier:

• Nur lineare Funktionen, d.h.

Y = a + b ·X + u (vgl. Abschnitt 6.3.2)

281

6.3.1 Regression 1. Art

Zunachst:

Y wird zuruckgefuhrt (regressiert) auf verschiedene Auspra-gungen von X(ohne funktionalen Zusammenhang)

Voraussetzungen:

• Y ist metrisch skaliert(mindestens intervallskaliert)

• X ist beliebig skaliert mit moglichen Auspragungen ξ1, . . . , ξJ

282

Jetzt:

• Bilde die bedingten Mittelwerte yj unter der Bedingung X =ξj fur j = 1, . . . , J(vgl. Definition 6.7, Folie 232)

Definition 6.15: (Deskriptive Regression 1. Art)

Die J Paare (ξj, yj), j = 1, . . . , J, nennt man deskriptive Regres-sion 1. Art von Y auf X.

283

Beispiel: (Haushaltseinkommen) [I]

• Y : verfugbares Haushalts-Nettoeinkommen(Durchschnitte)

• X: Haushaltstyp

284

Beispiel: (Haushaltseinkommen) [II]

• Daten:

Einkommen Y Anz. Haushaltej Haushaltstyp X (in DM) (in (1000)1 Selbstandige 8470 22482 Beamte 7977 17343 Angestellte 6150 104524 Arbeiter 4967 72405 Arbeitslose 2892 19836 Nichterwerbstatige 3756 13124

Summe: 36781

285

Hier:

• Regressionsergebnis dargestellt als Balkendiagramm

286

0100020003000400050006000700080009000

j=1 j=2 j=3 j=4 j=5 j=6

Offensichtlich:

• Durch die J Auspragungen von X kann die Grundgesamtheitin J Teilgesamtheiten zerlegt werden

• Die J Teilgesamtheiten haben die Umfange n1·, n2·, . . . , nJ ·

=⇒ Anwendung der Additionssatze fur arithmetische Mittelund Varianzen des Merkmals Y(vgl. Abschnitt 4.3.4)

287

Es gilt:

y =1n

J∑

j=1yj · nj·

s2Y =1n

J∑

j=1s2Y |X=ξj

· nj·

︸︷︷︸

=s2int

+1n

J∑

j=1

(

yj − y)2· nj·

︸︷︷︸

=s2ext

Hieraus:

• Maßzahl fur den Erklarungswert der unabhangigen VariablenX fur die abhangige Variable Y

288

Definition 6.16: (Bestimmtheitsmaß)

Die Große

B =s2exts2Y

heißt Bestimmtheitsmaß der deskriptiven Regression 1. Art.

Bemerkungen: [I]

• Es gilt stets:

0 ≤ B ≤ 1

289

Bemerkungen: [II]

• Es gilt B = 0 genau dann, wenn s2ext = 0 , d.h. wenn

y1 = y2 = . . . = yJ = y

=⇒ Alle bedingten Mittel yj sind gleich

=⇒ X hat keinen Erklarungswert fur Y

• Es gilt B = 1 genau dann, wenn s2Y = s2ext und s2int = 0

=⇒ Fur alle bedingten Varianzen gilt s2Y |X=ξj= 0

=⇒ X hat hochsten Erklarungswert fur Y

290

Bemerkungen: [III]

• B gibt den Anteil der durch die Regression 1. Art erklartenVarianz an der Gesamtvarianz von Y an

291

6.3.2 Regression 2. Art: Die lineare Einfachregre-ssion

Jetzt:

• X und Y sind beide metrisch skaliert

Ziel:

• Erklarung der Abhangigkeit zwischen X und Y durch eineGerade

292

Ausgangssituation:

• Urliste (x1, y1), . . . , (xn, yn)

• Regressionsgleichung

yi = a + b · xi + ui (i = 1, . . . , n)

• a, b sind aus den Daten zu bestimmende Parameter

• ui ist die Abweichung (auch Fehler oder Residuum)

293

Problemstellung:

• Bestimme die Parameter a und b aus den Daten derart, dassein ’geeignet definiertes Abweichungsmaß’ fur die Residuenminimal wird

Definition 6.17: (Lineare Einfachregression)

Das Regressionsproblem von Folie 293 nennt man lineare Ein-fachregression von Y auf X.

Beispiel:

• Zusammenhang zwischen Ausgaben fur Werbung (X) undden Absatzen (Y ) gemessen an 84 Unternehmen in den USAim Jahr 1990

294

Lineare Einfachregression

295

480

500

520

540

560

0 20 40 60 80 100

Werbeausgaben in Mill. US-$

Abs

atz

in M

ill. U

S-$

Absatz = 502.92 + 0.218 * Werbeausgaben + Fehler

Jetzt:

• ’Sinnvolle Ermittlung’ der Parameter a und b aus den Daten(x1, y1), . . . , (xn, yn)

Dafur zunachst:

• Geeignetes Abweichungsmaß fur die Residuen

ui = yi − (a + b · xi)

(vertikaler Abstand des Datenpunktes (xi, yi) von der Regres-sionsgeraden)

296

Sinnvolles Abstandsmaß ist:

Q(α, β) =n

∑

i=1[yi − (α + β · xi)]

2

Bemerkungen:

• Die Großen α, β ∈ R sind ’formaler Ersatz’ fur die unbekan-nten Parameter a, b

• Die unbekannten Parameter a, b der Regressionsgeraden wer-den gleich durch spezielle Wahlen von α bzw. β ermittelt

297

Jetzt:

• Ermittle a und b durch Minimierung des Abstandsmaßes Q(α, β)bezuglich α und β

Bemerkungen:

• a und b werden also derart gewahlt, dass die Summe derquadrierten Abstande zwischen den Datenpunkten (xi, yi) undder Regressionsgeraden minimal wird

• Die Regressionsgerade yi = a + b · xi beschreibt dann die(xi, yi)-Punktwolke im Sinne des gewahlten Abstandsmaßesoptimal

298

Jetzt:

• Mathematische Bestimmung der Parameter a und b

Formaler Ablauf: [I]

• Bilde die (partiellen) Ableitungen von Q(α, β)

∂∂α

Q(α, β) = 2n

∑

i=1[yi − (α + β · xi)] · (−1)

∂∂β

Q(α, β) = 2n

∑

i=1[yi − (α + β · xi)] · (−xi)

299

Formaler Ablauf: [II]

• Die jeweiligen Nullstellen der partiellen Ableitungen (bezeich-net mit a und b) liefern das potenzielle Minimum (d.h. diegesuchten Parameterwerte)(notwendige Bedingung)

• Es bleibt zu uberprufen, ob die Nullstellen tatsachlich einMinimum darstellen(hinreichende Bedingung)

300

Endergebnisse:

• Die gesuchten Nullstellen ergeben sich als

b =

n∑

i=1xi · yi − n · x · y

n∑

i=1x2

i − n · x2=

sXYs2X

= rXY ·sYsX

,

a = y − b · x

Definition 6.18: (Kleinste-Quadrate-Methode)

Die obige Vorgehensweise zur Bestimmung der Regressionskoef-fizienten a und b nennt man die Methode der Kleinsten Quadrate.

301

Offensichtlich:

• Zur Berechnung der Kleinste-Quadrate-Koeffizienten beno-tigt man nur die 4 Großen x, y, s2X und sXY

302

Bemerkungen:

• Fur die Regressionsgerade gilt also:

y(x) = a + b · x

= y −sXYs2X

· x︸︷︷︸

= a

+sXYs2X

︸︷︷︸

= b

·x

Fur die Regresssionsgerade gilt somit:

y(x) = y

=⇒ Die Regressionsgerade verlauft durch den Punkt (x, y)

• Interpretation der Regressionsgeraden nicht fur alle x-Wertesinnvoll

303

Beispiel:

• X = Werbeausgaben, Y = Absatze, n = 84

• Es gilt:

x = 50.7276, y = 513.9912, s2X = 297.5332, sXY = 64.9557

Damit ergibt sich:

b =64.9557297.5332

= 0.2183

a = 513.9912− 0.2183 · 50.7276 = 502.9174

304

Erinnerung:

• Bestimmtheitsmaß B bei Regression 1. Art beschreibt Anteilan der Varianz s2Y , der durch die Regression erklart wird

Jetzt:

• Ubetragung dieses Konzeptes auf Regression 2. Art

Betrachte dazu:

• Werte der Regressionsgerade (yi) an den Stellen xi:

yi = a + b · xi, i = 1, . . . , n

305

Offensichtlich gilt fur die y-Daten:

yi = a + b · xi + ui = yi + ui

Bedeutung:

• Datenwert yi ist Summe aus Wert auf Regressionsgeradenplus Fehler

Nun gilt folgende Varianzzerlegung:

s2Y = s2Y + s2U

306

Fazit:

• Varianz der Y -Werte lasst sich in 2 Teile zerlegen

s2Y : Varianz der exakt auf der Regressionsgeraden liegen-

den Werte yi(den durch die Regression erklarten Teil der Varianz derY -Werte s2Y )

s2U : Varianz der Residuen ui(Residualvarianz oder den durch die Regression nicht er-klarten Teil der Varianz der Y -Werte s2Y )

307

Definition 6.19: (Bestimmtheitsmaß)

Das Bestimmtheitsmaß der deskriptiven Regression 2. Art definiertman als

R2 =s2Ys2Y

= 1−s2Us2Y

.

Bemerkungen: [I]

• Das R2 ist der Anteil an der Varianz der y-Werte, der durchdie Regression erklart wird

• Es gilt:

0 ≤ R2 ≤ 1

308

Bemerkungen: [II]

• R2 = 0:Es ist dann s2U = s2Y , d.h. die Residualvarianz entspricht exaktder Varianz der y-Werte. Die Regression selbst liefert keinenErklarungsbeitrag fur die y-Werte

• R2 = 1:Es ist dann s2Y = s2Y . Die Regression erklart die Varianz dery-Werte vollstandig(Alle Punkte (xi, yi) liegen auf der Regressionsgeraden)

309

Bemerkungen: [III]

• Praktische Berechnungsmoglichkeit:

R2 =

sXY√

s2X ·√

s2Y

2

= (rXY )2

(R2 entspricht dem Quadrat des Korrelationskoeffizientenvon Bravais-Pearson)

310

Beispiel:

• Im Beispiel Werbeausgaben ←→ Absatz gilt:

R2 =

sXY√

s2X ·√

s2Y

2

=

(

64.9557√297.5332 ·

√159.309

)2

= 0.0890

311

6.4 Lineare Mehrfachregression

Jetzt:

• Ubertragung des Konzeptes auf k Regressoren X1, . . . , Xk(alle metrisch)

Regressionsmodell:

yi = a + b1 · x1i + . . . + bk · xki + ui, i = 1, . . . , n

312

Analog zu Abschnitt 6.3.2:

• Kleinste-Quadrate-Methode:

minα,β1,...,βk

Q(α, β1, . . . , βk)

mit

Q(α, β1, . . . , βk) =n

∑

i=1[yi − (α + β1 · x1i + . . . + βk · xki)]

2

• Definition des R2:

R2 =s2Ys2Y

= 1−s2Us2Y

313

Documents

6. Auswertung mehrdimensionaler Daten · 6. Auswertung mehrdimensionaler Daten Bisher: ‘ Auswertungsmethoden f¨ur Daten eines einzelnen Merkmals, z.B. Diskrete Klassierung Graﬁsche