Upload
others
View
9
Download
0
Embed Size (px)
Citation preview
6. Auswertung mehrdimensionaler Daten
Bisher:
• Auswertungsmethoden fur Daten eines einzelnen Merkmals,z.B.
Diskrete Klassierung
Grafische Darstellungen (Verteilungsfunktion)
Lagemaße
Streungsmaße
Schiefemaße
199
Jetzt:
• Methoden zur Auswertung von Daten uber mehrere Merk-male gleichzeitig(mehrdimensionale oder multivariate Daten)
Ziele:
• Simultane Beschreibung durch Tabellen und Grafiken
• Mehrdimensionale Messung von Lage und Streuung
• Aufdecken von Beziehungen zwischen den Merkmalen(Korrelationen)
200
6.1 Grundbegriffe
Ausgangssituation: [I]
• n Merkmalstrager e1, e2, . . . , en
• Grundgesamtheit: G = {e1, e2, . . . , en}
• 2 Merkmale X und Y , die jeweils am Merkmalstrager ei, i =1, . . . , n, beobachtet werden konnen
201
Ausgangssituation: [II]
• Urliste lautet dann:
(x1, y1), (x2, y2), . . . , (xn, yn)
oder in Matrix-Schreibweise
x1 y1x2 y2... ...
xn yn
(n× 2 Matrix)
202
Beispiel: [I]
• Ausgaben fur Werbung und Absatze von 84 Unternehmen inden USA im Jahr 1990
• Merkmale
X: Ausgaben fur Werbung (in Mill. US-$)
Y : Absatz (in Mill. US-$)
203
Beispiel: [II]
• Datensatz:
i Werbeausgaben (X) Absatze (Y)1 11.22487 508.83022 31.08904 517.04253 70.32822 524.7197... ... ...
82 31.50510 502.037883 55.39850 515.297684 48.43819 501.1283
• Falls X und Y metrisch skaliert sind (wie hier), kann man dien Datenpunkte (x1, y1), . . . , (xn, yn) in einem Streudiagrammdarstellen
204
Streudiagramm ’Werbeausgaben gegen Absatzzahlen’
205
480
500
520
540
560
0 20 40 60 80 100
Werbeausgaben in Mill. US-$ (X)
Abs
atz
in M
ill.
US-
$ (Y
)
Jetzt:
• Betrachte p ≥ 2 Merkmale X1, . . . , Xp mit Beobachtungen(xi1, xi2, . . . , xip) fur die Untersuchungseinheit ei−→ Urliste bzw. n× p Datenmatrix:
(x11, x12, . . . , x1p), (x21, x22, . . . , x2p), . . . , (xn1, xn2, . . . , xnp)
x11 x12 . . . x1px21 x22 . . . x2p... ... . . . ...
xn1 xn2 . . . xnp
206
6.1.1 Kontingenztafel und Haufigkeiten
Gegeben:
• 2 Merkmale X und Y
• n× 2 Datenmatrix
x1 y1x2 y2... ...
xn yn
bzw. Urliste mit n Zahlenpaaren
(xi, yi), i = 1, . . . , n,
207
Ziel:
• Beschreibung von absoluten und relativen Haufigkeiten
Notation:
• ξ1, . . . , ξJ seien die J moglichen Werte von X
• η1, . . . , ηK seien die K moglichen Werte von Y
208
Definition 6.1: (Gemeinsame und Randhaufigkeiten) [I]
Fur jedes j = 1, . . . , J und k = 1, . . . , K versteht man
1. unter der gemeinsamen absoluten Haufigkeit die Anzahl njkaller Datenpaare (xi, yi) fur die gilt xi = ξj und yi = ηk.
2. unter den absoluten Randhaufigkeiten der X-Auspragung ξjbzw. der Y -Auspragung ηk die Summen
nj· =K∑
k=1njk bzw. n·k =
J∑
j=1njk.
209
Definition 6.1: (Gemeinsame und Randhaufigkeiten) [II]
3. Die gemeinsamen absoluten Haufigkeiten zusammen mit denabsoluten Randhaufigkeiten stellt man ubersichtlich in derfolgenden Haufigkeitstabelle dar, die man Kontingenztafeloder Kontingenztabelle nennt:
Y =η1 η2 . . . ηK−1 ηK∑
ξ1 n11 n12 . . . n1(K−1) n1K n1·ξ2 n21 n22 . . . n2(K−1) n2K n2·
X = ... ... ... ... ... ...ξJ−1 n(J−1)1 n(J−1)2 . . . n(J−1)(K−1) n(J−1)K n(J−1)·
ξJ nJ1 nJ2 . . . nJ(K−1) nJK nJ ·∑
n·1 n·2 . . . n·(K−1) n·K n
210
Beispiel: [I]
• Erhebung folgender Merkmale bei n = 1000 Personen:
Berufszugehorigkeit X
Ausmaß sportlicher Betatigung Y
211
Beispiel: [II]
• Kontingenztabelle:
Y (sportliche Betatigung)X (Berufsgruppe) nie gelegentlich regelmaßig
∑
Arbeiter 240 120 70 430Angestellte 160 90 90 340Beamte 30 30 30 90Landwirte 37 7 6 50sonstige 40 32 18 90∑
507 279 214 1000
• Offensichtlich:Aus gemeinsamen Haufigkeiten lassen sich Randhaufigkeiteneindeutig bestimmen(Umkehrung gilt nicht!)
212
Definition 6.2: (Relative Haufigkeiten, Randverteilung)
Fur jedes j = 1, . . . , J und k = 1, . . . , K heißen
1. fjk =njkn die gemeinsame relative Haufigkeit von ξj und ηk,
2. fj· =∑K
k=1 fjk bzw. f·k =∑J
j=1 fjk die relative Randhaufigkeitvon ξj bzw. ηk.
3. Die relativen Randhaufigkeiten f1·, f2·, . . . , fJ · der Werte vonX nennt man die Randverteilung des Merkmals X. Entspre-chend bilden die relativen Randhaufigkeiten f·1, f·2, . . . , f·K dieRandverteilung des Merkmals Y .
213
Kontingenztafel mit relativen Haufigkeiten:
Y =η1 η2 . . . ηK−1 ηK∑
ξ1 f11 f12 . . . f1(K−1) f1K f1·ξ2 f21 f22 . . . f2(K−1) f2K f2·
X = ... ... ... ... ... ...ξJ−1 f(J−1)1 f(J−1)2 . . . f(J−1)(K−1) f(J−1)K f(J−1)·
ξJ fJ1 fJ2 . . . fJ(K−1) fJK fJ ·∑
f·1 f·2 . . . f·(K−1) f·K 1
214
Bemerkung:
• Offensichtlich gilt:
J∑
j=1
K∑
k=1fjk =
J∑
j=1fj· =
K∑
k=1f·k = 1
(Die Summe uber den relativen Randhaufigkeiten eines jedenMerkmals ist 1)
215
Kontingenztabelle mit relativen Haufigkeiten fur das obige Beispiel:
Y (sportliche Betatigung)X (Berufsgruppe) nie gelegentlich regelmaßig
∑
Arbeiter 0.240 0.120 0.070 0.430Angestellte 0.160 0.090 0.090 0.340Beamte 0.030 0.030 0.030 0.090Landwirte 0.037 0.007 0.006 0.050sonstige 0.040 0.032 0.018 0.090∑
0.507 0.279 0.214 1.000
216
6.1.2 Bedingte Verteilungen
Jetzt:
• Weiteres wichtiges Konzept der mehrdimensionalen Daten-analyse
Definition 6.3: (Bedingte relative Haufigkeiten)
Fur ein festes k ∈ {1, . . . , K} sowie fur jedes j = 1, . . . , J nenntman die Große
fj|Y =ηk=
fjk
f·kdie bedingte relative Haufigkeit von ξj unter der Bedingung Y =ηk.
217
Bemerkung:
• Die bedingte relative Haufigkeit fj|Y =ηkist die relative Haufigkeit
der X-Auspragung ξj in der Teilgesamtheit aller derjenigenEinheiten, welche die Y -Auspragung ηk aufweisen, denn
fj|Y =ηk=
fjk
f·k=
njk
nn·kn
=njk
n·k
Definition 6.4: (Bedingte Verteilung)
Gemaß Definition 6.3 kann man insgesamt J bedingte relativeHaufigkeiten betrachten:
f1|Y =ηk, f2|Y =ηk
, . . . , fJ |Y =ηk.
Die Gesamtheit dieser J Werte heißt die bedingte Verteilung vonX unter (der Bedingung) Y = ηk.
218
Bemerkungen: [I]
• Analog zu Definition 6.3 definiere fur ein festes j ∈ {1, . . . , J}sowie fur beliebige k = 1, . . . , K
fk|X=ξj=
fjk
fj·.
Diese Große heißt bedingte relative Haufigkeit von ηk unter(der Bedingung) X = ξj.
• Analog zu Definition 6.4 heißt
f1|X=ξj, f2|X=ξj
, . . . , fK|X=ξj
die bedingte Verteilung von Y unter X = ξj
219
Bemerkungen: [II]
• Offensichtlich gilt:
J∑
j=1fj|Y =ηk
=J
∑
j=1
njk
n·k= 1 fur jedes k = 1, . . . , K
K∑
k=1fk|X=ξj
=K∑
k=1
njk
nj·= 1 fur jedes j = 1, . . . , J
220
Beispiel: (Berufsgruppe ←→ Sport, vgl. Folien 211 ff.)
Gesucht: [I]
• Verteilung der sportlichen Aktivitat bei Arbeiternoder statistisch ausgedruckt:Die bedingte Verteilung von Y unter X = ξ1
f1|X=ξ1 =n11
n1·=
240430
= 0.558 (nie)
f2|X=ξ1 =n12
n1·=
120430
= 0.279 (gelegentlich)
f3|X=ξ1 =n13
n1·=
70430
= 0.163 (regelmaßig)
221
Gesucht: [II]
• Verteilung der Berufsgruppen bei regelmaßig Aktivenoder statistisch ausgedruckt:Die bedingte Verteilung von X unter Y = η3
f1|Y =η3=
70214
= 0.327 (Arbeiter)
f2|Y =η3=
90214
= 0.421 (Angestellte)
f3|Y =η3=
30214
= 0.140 (Beamte)
f4|Y =η3=
6214
= 0.028 (Landwirte)
f5|Y =η3=
18214
= 0.084 (sonstige)
222
6.1.3 Deskriptive Unabhangigkeit
Jetzt:
• Frage nach dem Zusammenhang zwischen X und Y
Definition 6.5: (Deskriptive Unabhangigkeit)
Die Merkmale X und Y heißen deskriptiv unabhangig, falls sichfur alle j = 1, . . . , J und fur alle k = 1, . . . , K die gemeinsamenrelativen Haufigkeiten als Produkt der relativen Randhaufigkeitenergeben, d.h. falls gilt
fjk = fj· · f·k.
223
Beispiel: (Geschlecht (X) ←→ gewahlte Partei (Y ))
Kontingenztafel mit absoluten Haufigkeiten:
Y (Partei)X (Geschlecht) A B C
∑
mannlich 200 120 80 400weiblich 300 180 120 600
∑
500 300 200 1000
224
Kontingenztafel mit relativen Haufigkeiten:
Y (Partei)X (Geschlecht) A B C
∑
mannlich 0.20 0.12 0.08 0.40weiblich 0.30 0.18 0.12 0.60
∑
0.50 0.30 0.20 1.00
f11 = 0.20 = 0.40 · 0.50 = f1· · f·1f12 = 0.12 = 0.40 · 0.30 = f1· · f·2f13 = 0.08 = 0.40 · 0.20 = f1· · f·3f21 = 0.30 = 0.60 · 0.50 = f2· · f·1f22 = 0.18 = 0.60 · 0.30 = f2· · f·2f23 = 0.12 = 0.60 · 0.20 = f2· · f·3
Fazit: X und Y sind deskriptiv unabhangig225
Betrachte nun:
• Bedingte Verteilungen von X unter Y = η1, Y = η2, Y = η3
• Bedingte Verteilungen von Y unter X = ξ1, X = ξ2
Bedingte Verteilungen von X: [I]
• unter Y = η1:
f1|Y =η1=
f11
f·1=
0.200.50
= 0.40
f2|Y =η1=
f21
f·1=
0.300.50
= 0.60
226
Bedingte Verteilungen von X: [II]
• unter Y = η2:
f1|Y =η2=
f12
f·2=
0.120.30
= 0.40
f2|Y =η2=
f22
f·2=
0.180.30
= 0.60
• unter Y = η3:
f1|Y =η3=
f13
f·3=
0.080.20
= 0.40
f2|Y =η3=
f23
f·3=
0.120.20
= 0.60
227
Offensichtlich:
• Bedingte Verteilungen von X unter Y = η1, Y = η2, Y = η3sind alle gleich
• Man uberpruft leicht, dass die bedingten Verteilungen von Yunter X = ξ1, X = ξ2 ebenfalls beide gleich sind
228
Allgemein gilt:X und Y sind genau dann deskriptiv unabhangig, sobald eine derfolgenden aquivalenten Bedingungen erfullt ist:
• Fur alle j = 1, . . . , J und alle k = 1, . . . , K gilt:
fjk = fj· · f·k (= Definition 6.5)
• Fur alle j = 1, . . . , J und alle k = 1, . . . , K gilt:
njk =nj· · n·k
n
• Fur alle j = 1, . . . , J gilt:
fj|Y =η1= fj|Y =η2
= . . . = fj|Y =ηK= fj·
• Fur alle k = 1, . . . , K gilt:
fk|X=ξ1 = fk|X=ξ2 = . . . = fk|X=ξJ= f·k
229
6.1.4 Arithmetische Mittel und Varianzen
Annahmen:
• X und Y sind metrisch skaliert(sinnvolle Arithmetik)
• Daten liegen in Kontingenztafeln vor(absolute oder relative Haufigkeiten)
230
Jetzt:
• Ubertragung von Mittelwert und Varianz auf mehrdimension-ale Daten
−→ Mittelwert- und Varianzbildung uber Rand- bzw. bedingteVerteilungen
Definition 6.6: (Arithmetische Mittel)
Die arithmetischen Mittel von X und Y sind definiert als diearithmetischen Mittel der jeweiligen Randverteilung:
x =1n
J∑
j=1ξj · nj· =
J∑
j=1ξj · fj·,
y =1n
K∑
k=1ηk · n·k =
K∑
k=1ηk · f·k.
231
Bemerkung:
• In mehrdimensionalen Datensatzen sind die arithmetischenMittel einzelner Merkmale einfach die Mittelwerte der einzel-nen Datenreihen
Definition 6.7: (Bedingte arithmetische Mittel)
Das bedingte arithmetische Mittel von X unter Y = ηk (k fest)sowie das bedingte arithmetische Mittel von Y unter X = ξj(j fest) sind jeweils definiert als die arithmetischen Mittel derentsprechenden bedingten Verteilungen von X und Y :
xk =1
n·k
J∑
j=1ξj · njk =
J∑
j=1ξj · fj|Y =ηk
,
yj =1
nj·
K∑
k=1ηk · njk =
K∑
k=1ηk · fk|X=ξj
.
232
Bemerkungen:
• Sind X und Y deskriptiv unabhangig, so stimmen samtlichebedingte Verteilungen von X mit der Randverteilung von Xuberein (vgl. Folie 229). Da das bedingte arithmetische Mit-tel von X unter Y = ηk der Mittelwert der entsprechendenbedingten Verteilung von X ist, stimmt im Fall der deskrip-tiven Unabhangigkeit fur jedes k der bedingte Mittelwert xkmit dem gewohnlichen Mittelwert uberein:
x1 = x2 = . . . = xK = x
• Analog gilt im Fall der deskriptiven Unabhangigkeit fur diebedingten Mittelwerte von Y :
y1 = y2 = . . . = yJ = y
233
Jetzt:
• Definition von Varianzen und bedingten Varianzen von X undY
Definition 6.8: (Varianz)
Die Varianzen von X und Y sind definiert als die Varianzen derjeweiligen Randverteilungen, d.h.
s2X =1n
J∑
j=1
(
ξj − x)2· nj· =
1n
J∑
j=1ξ2j · nj· − x2,
s2Y =1n
K∑
k=1(ηk − y)2 · n·k =
1n
K∑
k=1η2k · n·k − y2.
234
Bemerkung:
• In mehrdimensionalen Datensatzen sind die Varianzen dereinzelnen Merkmale einfach die Varianzen der einzelnen Daten-reihen
Definition 6.9: (Bedingte Varianz)
Die bedingte Varianz von X unter Y = ηk (k fest) sowie diebedingte Varianz von Y unter X = ξj (j fest) sind definiert alsdie Varianzen der entsprechenden bedingten Verteilungen von Xund Y :
s2X|Y =ηk=
J∑
j=1
(
ξj − xk)2·njk
n·k=
J∑
j=1ξ2j ·
njk
n·k− x2
k,
s2Y |X=ξj=
K∑
k=1
(
ηk − yj)2·njk
nj·=
K∑
k=1η2k ·
njk
nj·− y2
j .
235
Bemerkungen:
• Sind X und Y deskriptiv unabhangig, so stimmen samtlichebedingte Verteilungen von X mit der Randverteilung von Xuberein (vgl. Folie 229). Da die bedingte Varianz von X unterY = ηk die Varianz der entsprechenden bedingten Verteilungvon X ist, stimmt im Fall der deskriptiven Unabhangigkeit furjedes k die bedingte Varianz s2X|Y =ηk
mit der gewohnlichenVarianz uberein:
s2X|Y =η1= s2X|Y =η2
= . . . = s2X|Y =ηK= s2X
• Analog gilt im Fall der deskriptiven Unabhangigkeit fur diebedingten Varianzen von Y :
s2Y |X=ξ1= s2Y |X=ξ2
= . . . = s2Y |X=ξJ= s2Y
236
Beispiel: (Wohnraum)
• Betrachte n = 1000 Wohnungen
• Merkmale:
X: Anzahl der Wohnraume pro Wohnung
Y : Anzahl der Personen pro Wohnung
237
Y = 1 Y = 2 Y = 3 Y = 4 Y = 5∑
X = 1 200 40 0 0 0 240X = 2 200 100 30 10 0 340X = 3 80 40 100 60 10 290X = 4 20 15 10 20 20 85X = 5 0 5 10 10 20 45
∑
500 200 150 100 50 1000
Berechnung von (bedingten) Mittelwerten und Varianzen
• Im Proseminar
238
6.2 Zusammenhangsmaße
Gegeben:
• Zwei Merkmale X und Y mit Urliste der Lange n
Gesucht:
• Maßzahl fur den Zusammenhang zwischen X und Y
239
Beispiele:
• Zusammenhang zwischen Korpergroße (X) und Korperge-wicht (Y )
• Zusammenhang zwischen Inflationsrate (X) und Arbeitslo-senquote (Y )(Phillips-Kurve)
• Zusammenhang zwischen Arbeitslosigkeit (X) und Wirt-schaftswachstum (Y )(Okunsches Gesetz)
240
Wichtiges Charakteristikum:
• Datenniveau von X und Y
Metrische Skalierung
Ordinale Skalierung
Nominale Skalierung
241
6.2.1 Metrische Daten: Korrelationskoeffizient
Situation:
• X und Y sind metrisch skaliert
• Urliste: (x1, y1), . . . , (xn, yn)
Frage:
• Wie hangen X und Y zusammen?
242
Zunachst:
• Betrachte fur ein festes i ∈ {1, . . . , n} die Große
T1 = (xi − x) · (yi − y)
Offensichtlich gilt:
• T1 > 0
=⇒ xi und yi sind beide jeweils großer oder beide jeweils kleinerals ihre Mittelwerte
• T1 < 0
=⇒ xi und yi verhalten sich jeweils umgekehrt bzgl. ihrer Lagezum jeweiligen Mittelwert
243
Jetzt:
• Summenbildung uber alle Daten
T2 =n
∑
i=1(xi − x) · (yi − y)
• T2 � 0:
=⇒ Die positiven Summanden in T2 uberwiegen die negativenerheblich. Zu ’hohen’ bzw. ’niedrigen’ xi gehoren tenden-ziell ’hohe’ bzw. ’niedrige’ yi(positiver Zusammenhang)
244
Summenbildung uber alle Daten: [II]
• T2 � 0:
=⇒ Die negativen Summanden in T2 uberwiegen die positivenerheblich. Zu ’hohen’ bzw. ’niedrigen’ xi gehoren tenden-ziell nun ’niedrige’ bzw. ’hohe’ yi(negativer Zusammenhang)
• T2 ≈ 0:
=⇒ Positive und negative Summanden in T2 heben sich ten-denziell auf. Zu ’hohen’ (’niedrigen’) xi gehoren nunsowohl ’niedrige’ als auch ’hohe’ yi(kein Zusammenhang)
245
Definition 6.10: (Kovarianz)
Die Kovarianz zwischen X und Y ist definiert durch
sXY =1n
n∑
i=1(xi − x) · (yi − y) =
1n
n∑
i=1xi · yi − x · y.
Bemerkungen: [I]
• Die Kovarianz sXY ist ’symmetrisch’, d.h.
sXY = sY X
246
Bemerkungen: [II]
• Die Kovarianz eines Merkmals mit sich selbst ist gleich derVarianz des Merkmals:
sXX =1n
n∑
i=1(xi − x)2 = s2X
• Liegt die Datenurliste in Form einer Haufigkeitstabelle vor,so ist die Kovarianz gegeben durch
sXY =1n
J∑
j=1
K∑
k=1
(
ξj − x)
· (ηk − y) · njk
=1n
J∑
j=1
K∑
k=1ξj · ηk · njk − x · y
247
Jetzt:
• Normierung der Kovarianz sXY durch Division durch das Pro-dukt der Standardabweichungen von X und Y
248
Definition 6.11: (Korrelationskoeffizient von Bravais-Pearson)
Der Korrelationskoeffizient zwischen X und Y ist definiert durch
rXY =sXY
√
s2X ·√
s2Y=
n∑
i=1(xi − x) · (yi − y)
√
√
√
√
n∑
i=1(xi − x)2 ·
√
√
√
√
n∑
i=1(yi − y)2
=
n∑
i=1xi · yi − n · x · y
√
√
√
√
n∑
i=1x2
i − n · x2 ·
√
√
√
√
n∑
i=1y2i − n · y2
.
249
Bemerkungen: [I]
• Der Korrelationskoeffizient rXY ist ’symmetrisch’:
rXY = rY X
• Der Korrelationskoeffizient ist normiert, d.h. es gilt immer
−1 ≤ rXY ≤ 1
• Wenn rXY = 0 ist, so sagt man:
’Die Merkmale X und Y sind unkorreliert’
250
Bemerkungen: [II]
• Sind X und Y deskriptiv unabhangig, so gilt: rXY = 0(Deskrip. Unabhangigkeit impliziert Unkorreliertheit)
• Vorsicht:Die Umkehrung gilt im allgemeinen nicht(Unkorreliertheit (rXY = 0) impliziert nicht die deskriptiveUnabhangigkeit von X und Y )
• Ist rXY = 1 oder rXY = −1, so sagt man:
’Die Merkmale X und Y sind perfekt korreliert’
251
Zentrales Resultat:
• Es gilt rXY = 1 genau dann, wenn es Zahlen a > 0, b ∈ Rgibt, so dass yi = a · xi + b fur alle i = 1, . . . , n gilt
(Alle Daten liegen auf einer Geraden mit positiver Steigung)
• Es gilt rXY = −1 genau dann, wenn es Zahlen a < 0, b ∈ Rgibt, so dass yi = a · xi + b fur alle i = 1, . . . , n gilt
(Alle Daten liegen auf einer Geraden mit negativer Steigung)
252
Offensichtlich:
• Der Korrelationskoefizient rXY ist ein Maß fur den linearenZusammenhang zwischen X und Y
Vorsicht:
• rXY = 0 (bzw. rXY ≈ 0) bedeutet nur, dass kein (bzw. nurein schwacher) linearer Zusammenhang zwischen X und Ybesteht. Es konnen aber trotzdem starke andere (nicht-lineare) Zusammenhange zwischen X und Y bestehen
253
-4
-2
0
2
4
6
-4 -2 0 2 4
X
Y
Korrelation zwischen X und Y: -0.008
-6
-4
-2
0
2
4
6
-4 -2 0 2 4
X
Y1
Korrelation zwischen X und Y1: 0.7020
-6
-4
-2
0
2
4
6
-4 -2 0 2 4
X
Y2
Korrelation zwischen X und Y 2: -0.7054
0
5
10
15
20
-4 -2 0 2 4
X
Y3
Korrelation zwischen X und Y3: 0.0225
Weitere Aspekte zur Korrelation: [I]
• Korrelation und Kausalitat
• Scheinkorrelation:Die zu untersuchenden Merkmale X und Y hangen beidevon einem 3. Merkmal Z ab, das nicht Gegenstand der Un-tersuchung ist. Ein hoher Wert fur rXY kann daher zus-tandekommen, weil sowohl X als auch Y von Z abhangen(indirekter Zusammenhang)
Beispiel:
X: Wortschatz eines KindesY : Korpergroße eines KindesZ: Alter eines Kindes
255
Weitere Aspekte zur Korrelation: [II]
• Nonsens-Korrelation:Hohe Korrelation zwischen vollig sachfremden Merkmalen Xund Y
Beispiel:
Hohe Korrelation zwischen (menschlicher) Geburtenrate(X) einer Region und deren Population von Klapperstor-chen (Y )
256
6.2.2 Ordinale Daten: Rangkorrelationskoeffizient
Jetzt:
• X und Y sind ordinal skaliert
=⇒ Berechnung vonarithmetischem MittelVarianz und Kovarianz
nicht sinnvoll
Gesucht:
• Sinnvolles Korrelationsmaß fur ordinale Daten
257
Zunachst Zusatzannahme:
• Alle Daten eines Merkmals sind verschieden, d.h.
xi 6= xj und yi 6= yj fur alle i 6= j
Damit:
• Einfache Definition der Rangzahl einer Merkmalsauspragungxi bzw. yi
258
Definition 6.12: (Rangzahl eines Datenpunktes)
Gegeben seien die ungeordnete Urliste x1, . . . , xn sowie die geord-nete Urliste x(1) < x(2) < . . . < x(n) eines Merkmals X. Unter derRangzahl (kurz: Rang) eines Datenwertes xi, in Zeichen RX(xi),versteht man die Position, die xi in der geordneten Urliste ein-nimmt, d.h.
RX(xi) = r, falls xi = x(r).
259
Zahlenbeispiel:
• Ungeordnete Urliste
x1 x2 x3 x4 x5 x61 4 7 3 6 8
• Geordnete Urliste
x(1) x(2) x(3) x(4) x(5) x(6)(= x1) (= x4) (= x2) (= x5) (= x3) (= x6)
1 3 4 6 7 8
• Damit ergeben sich folgende Rangzahlen:
RX(x1) = 1, RX(x2) = 3, RX(x3) = 5,
RX(x4) = 2, RX(x5) = 4, RX(x6) = 6
260
Sinnvolles Korrelationsmaß fur ordinale Daten:
• Korrelationskoeffizient aus Definition 6.11 angewendet aufdie Range RX(xi) und RY (yi)
Definition 6.13: (Rangkorrelationskoeff. von Spearman)
Es bezeichnen RX und RY die arithmetischen Mittel der Rangzahlender Merkmale X und Y . Der Rangkorrelationskoeffizient zwis-chen X und Y ist definiert durch
rRXY =
n∑
i=1
(
RX(xi)−RX)
·(
RY (yi)−RY)
√
√
√
√
n∑
i=1
(
RX(xi)−RX)2·
√
√
√
√
n∑
i=1
(
RY (yi)−RY)2
.
261
Man beachte:
• Fur die arithmetischen Mittel RX und RY gilt:
RX = RY =1n
n∑
i=1i =
1n·n · (n + 1)
2=
n + 12
(vgl. Folie 27)
Hieraus folgt:
rRXY =
n∑
i=1
(
RX(xi)−n + 1
2
)
·(
RY (yi)−n + 1
2
)
√
√
√
√
n∑
i=1
(
RX(xi)−n + 1
2
)2·
√
√
√
√
n∑
i=1
(
RY (yi)−n + 1
2
)2
262
Bemerkungen:
• Es gibt weitere, aquivalente Formeln fur rRXY , z.B.
rRXY =
n∑
i=1RX(xi) ·RY (yi)−
n · (n + 1)2
4√
√
√
√
n∑
i=1RX(xi)
2 −n · (n + 1)2
4·
√
√
√
√
n∑
i=1RY (yi)
2 −n · (n + 1)2
4
• Sind alle xi und yi verschieden (wie hier zunachst angenom-men), so ergibt sich die vereinfachte Formel
rR,OBXY = 1−
6n
∑
i=1[RX(xi)−RY (yi)]
2
n · (n2 − 1)
263
Beispiel: (Schulnoten)
• 6 Schuler haben folgende Punktzahlen auf einer von 1 bis 10reichenden Ordinalskala fur Klausuren in Mathematik (X)und Physik (Y ) erreicht:
x1 x2 x3 x4 x5 x6 y1 y2 y3 y4 y5 y61 4 7 3 6 8 1 2 9 4 10 5
Es gilt:
rRXY = rR,OB
XY = 1−6 · 10
6 · (62 − 1)= 0.714
264
Wichtige Eigenschaften von rRXY : [I]
• rRXY ist symmetrisch, d.h. rR
XY = rRY X
• rRXY ist invariant gegenuber streng monoton wachsenden
Transformationen:
Sind f und g streng monoton wachsende Funktionen unduberfuhrt man die Ursprungsdaten (xi, yi) in
x′i = f(xi) und y′i = g(yi) fur alle i = 1, . . . , n
so gilt fur alle i:
RX ′(x′i) = RX(xi) RY ′(y′i) = RY (yi)
und damit
rRXY = rR
X ′Y ′
265
Wichtige Eigenschaften von rRXY : [II]
• rRXY ist normiert:
−1 ≤ rRXY ≤ 1
• Extremfalle:
rRXY = 1 ⇐⇒ RX(xi) = RY (yi) fur alle i = 1, . . . , n
(vollig gleich gerichteter monoton wachsender Zusammen-hang)
rRXY = −1 ⇐⇒ RX(xi) = n−RY (yi)+1 fur alle i = 1, . . . , n
(vollig gegenlaufiger monoton fallender Zusammenhang)
266
Jetzt:
• Berucksichtigung von Bindungen durch Anwendung der Meth-ode der Durchschnittsrange
Zahlenbeispiel: [I]
• Ungeordnete Urliste
x1 x2 x3 x43.7 3.9 3.1 3.7
267
Zahlenbeispiel: [II]
• Geordnete Urliste
x(1) x(2) x(3) x(4)(= x3) (= x1) (= x4) (= x2)3.1 3.7 3.7 3.9
• Vergabe von Rangen
RX(x3) = 1, RX(x1) = 2, RX(x4) = 3︸ ︷︷ ︸
(wegen x1 = x4 = 3.7)RX(x1) = 2.5, RX(x4) = 2.5
, RX(x2) = 4
268
Bei Auftreten von Bindungen:
• Vergabe von Durchschnittsrangen sowohl fur die xi als auchdie yi
• Die vereinfachte Formel rR,OBXY (vgl. Folie 263) nicht mehr
zulassig
Stattdessen:
Anwendung der aquivalenten Formeln fur rRXY auf den
Folien 262, 263
269
6.2.3 Nominale Daten: Kontingenzkoeffizient
Jetzt:
• X und Y sind nominal skaliert
• Daten in Kontingenztafel (absolute Haufigkeiten)
Geeignetes Zusammenhangsmaß:
• Der Kontingenzkoeffizient
270
Voruberlegung:
• X und Y sind deskriptiv unabhangig, wenn
njk =nj· · n·k
nfur alle j = 1, . . . , J und k = 1, . . . , K(vgl. Folie 229)
Abweichungsmaß von der deskriptiven Unabhangigkeit:
χ2 =J
∑
j=1
K∑
k=1
(
njk −nj· · n·k
n
)2
nj· · n·kn
= n ·
J∑
j=1
K∑
k=1
n2jk
nj· · n·k− 1
271
Bemerkung:
• Damit χ2 definiert ist, muss gelten: nj· > 0 und n·k > 0 furalle j und alle k. Ist einer der beiden Ausdrucke fur irgendeinj oder k gleich 0, so konnen die zugehorigen Merkmalswerteξj bzw. ηk aus der Kontingenztafel gestrichen werden
Jetzt:
• Normierung von χ2 liefert Kontingenzkoeffizient
272
Definition 6.14: (Kontingenzkoeffizient)
Als Zusammenhangsmaß zwischen den nominal skalierten Merk-malen X und Y verwendet man den Kontingenzkoeffizienten, derdefiniert ist als
CXY =
√
√
√
√
χ2
χ2 + n·
min{J, K}min{J, K} − 1
.
Bemerkung:
• Der Kontingenzkoeffizient CXY ist streng monoton wachsendin χ2 und normiert, d.h.
0 ≤ CXY ≤ 1
273
Zentrales Ergebnis:
• Der Kontingenzkoeffizient CXY wird genau dann gleich 0,wenn χ2 = 0 gilt, d.h. genau dann, wenn X und Y deskriptivunabhangig sind
Weitere Bemerkungen:
• Gilt CXY = 1, so spricht man von einem vollstandigen Zusam-menhang zwischen X und Y
• CXY misst nur die Starke des Zusammenhangs zwischen Xund Y , nicht jedoch die Richtung
• Jedoch misst CXY beliebige Zusammenhange, also nicht nurlineare (wie rXY ) oder monotone wie rR
XY
274
Zur praktischen Anwendung von rXY , rRXY , CXY :
• Unterschiedliche Datenniveaus von X und Y :
Wahle Zusammenhangsmaß fur das ’schwachste’ Daten-niveau der Variablen X und Y(vgl. Folie 276)
• Ermittlung des allgemeinen Zusammenhangs von X und Y :
Verwende CXY
275
Behandlung unterschiedlicher Datenniveaus:
Y Nominal Ordinal MetrischXNominal CXY CXY CXY
Ordinal CXY rRXY rR
XY
Metrisch CXY rRXY rXY
276
6.3 Deskriptive Regression
Bedeutung des Begriffes ’Regression’:
• Untersuchung des Zusammenhangs zwischen einer abhangi-gen Variablen (auch Regressand oder endogene Variable) undeiner oder mehrerer unabhangiger Variablen (auch Regres-soren oder exogene Variablen)
Allgemeines mathematisches Modell:
Y = f(X1, X2, . . . , Xk; ~β) + u
277
Bezeichnungen:
• Y : abhangige Variable, Regressand
• X: unabhangige Variablen, Regressoren
• f(·): funktionaler Zusammenhang
• ~β: unbekannter Parametervektor
• u: Fehler
278
Ziel der Regressionsrechnung:
• Moglichst ’genaue’ Aussagen uber den Zusammenhang zwis-chen Regressand und Regressor(en)
Beispiele: [I]
• Keynesianische Konsumfunktion
Y = a + b ·X + u
Y = privater Konsuma = autonomer Konsumb = marginale KonsumquoteX = verfugbares Einkommen
279
Beispiele: [II]
• Zusammenhang zwischen Inflation und Geldmengenwachs-tum (Quantitatstheorie)
Y = a + b ·X + u
Y = InflationsrateX = Wachstumsrate der Geldmenge (M2)
• Zusammenhang zwischen Inflation und Arbeitslosigkeit (Phillip-skurve)
Y = a + b ·1X
+ u
Y = InflationsrateX = Arbeitslosenquote(Vorsicht: f ist eine Hyperbel, nicht-linear)
280
Hier:
• Nur lineare Funktionen, d.h.
Y = a + b ·X + u (vgl. Abschnitt 6.3.2)
281
6.3.1 Regression 1. Art
Zunachst:
Y wird zuruckgefuhrt (regressiert) auf verschiedene Auspra-gungen von X(ohne funktionalen Zusammenhang)
Voraussetzungen:
• Y ist metrisch skaliert(mindestens intervallskaliert)
• X ist beliebig skaliert mit moglichen Auspragungen ξ1, . . . , ξJ
282
Jetzt:
• Bilde die bedingten Mittelwerte yj unter der Bedingung X =ξj fur j = 1, . . . , J(vgl. Definition 6.7, Folie 232)
Definition 6.15: (Deskriptive Regression 1. Art)
Die J Paare (ξj, yj), j = 1, . . . , J, nennt man deskriptive Regres-sion 1. Art von Y auf X.
283
Beispiel: (Haushaltseinkommen) [I]
• Y : verfugbares Haushalts-Nettoeinkommen(Durchschnitte)
• X: Haushaltstyp
284
Beispiel: (Haushaltseinkommen) [II]
• Daten:
Einkommen Y Anz. Haushaltej Haushaltstyp X (in DM) (in (1000)1 Selbstandige 8470 22482 Beamte 7977 17343 Angestellte 6150 104524 Arbeiter 4967 72405 Arbeitslose 2892 19836 Nichterwerbstatige 3756 13124
Summe: 36781
285
Hier:
• Regressionsergebnis dargestellt als Balkendiagramm
286
0100020003000400050006000700080009000
j=1 j=2 j=3 j=4 j=5 j=6
Offensichtlich:
• Durch die J Auspragungen von X kann die Grundgesamtheitin J Teilgesamtheiten zerlegt werden
• Die J Teilgesamtheiten haben die Umfange n1·, n2·, . . . , nJ ·
=⇒ Anwendung der Additionssatze fur arithmetische Mittelund Varianzen des Merkmals Y(vgl. Abschnitt 4.3.4)
287
Es gilt:
y =1n
J∑
j=1yj · nj·
s2Y =1n
J∑
j=1s2Y |X=ξj
· nj·
︸ ︷︷ ︸
=s2int
+1n
J∑
j=1
(
yj − y)2· nj·
︸ ︷︷ ︸
=s2ext
Hieraus:
• Maßzahl fur den Erklarungswert der unabhangigen VariablenX fur die abhangige Variable Y
288
Definition 6.16: (Bestimmtheitsmaß)
Die Große
B =s2exts2Y
heißt Bestimmtheitsmaß der deskriptiven Regression 1. Art.
Bemerkungen: [I]
• Es gilt stets:
0 ≤ B ≤ 1
289
Bemerkungen: [II]
• Es gilt B = 0 genau dann, wenn s2ext = 0 , d.h. wenn
y1 = y2 = . . . = yJ = y
=⇒ Alle bedingten Mittel yj sind gleich
=⇒ X hat keinen Erklarungswert fur Y
• Es gilt B = 1 genau dann, wenn s2Y = s2ext und s2int = 0
=⇒ Fur alle bedingten Varianzen gilt s2Y |X=ξj= 0
=⇒ X hat hochsten Erklarungswert fur Y
290
Bemerkungen: [III]
• B gibt den Anteil der durch die Regression 1. Art erklartenVarianz an der Gesamtvarianz von Y an
291
6.3.2 Regression 2. Art: Die lineare Einfachregre-ssion
Jetzt:
• X und Y sind beide metrisch skaliert
Ziel:
• Erklarung der Abhangigkeit zwischen X und Y durch eineGerade
292
Ausgangssituation:
• Urliste (x1, y1), . . . , (xn, yn)
• Regressionsgleichung
yi = a + b · xi + ui (i = 1, . . . , n)
• a, b sind aus den Daten zu bestimmende Parameter
• ui ist die Abweichung (auch Fehler oder Residuum)
293
Problemstellung:
• Bestimme die Parameter a und b aus den Daten derart, dassein ’geeignet definiertes Abweichungsmaß’ fur die Residuenminimal wird
Definition 6.17: (Lineare Einfachregression)
Das Regressionsproblem von Folie 293 nennt man lineare Ein-fachregression von Y auf X.
Beispiel:
• Zusammenhang zwischen Ausgaben fur Werbung (X) undden Absatzen (Y ) gemessen an 84 Unternehmen in den USAim Jahr 1990
294
Lineare Einfachregression
295
480
500
520
540
560
0 20 40 60 80 100
Werbeausgaben in Mill. US-$
Abs
atz
in M
ill. U
S-$
Absatz = 502.92 + 0.218 * Werbeausgaben + Fehler
Jetzt:
• ’Sinnvolle Ermittlung’ der Parameter a und b aus den Daten(x1, y1), . . . , (xn, yn)
Dafur zunachst:
• Geeignetes Abweichungsmaß fur die Residuen
ui = yi − (a + b · xi)
(vertikaler Abstand des Datenpunktes (xi, yi) von der Regres-sionsgeraden)
296
Sinnvolles Abstandsmaß ist:
Q(α, β) =n
∑
i=1[yi − (α + β · xi)]
2
Bemerkungen:
• Die Großen α, β ∈ R sind ’formaler Ersatz’ fur die unbekan-nten Parameter a, b
• Die unbekannten Parameter a, b der Regressionsgeraden wer-den gleich durch spezielle Wahlen von α bzw. β ermittelt
297
Jetzt:
• Ermittle a und b durch Minimierung des Abstandsmaßes Q(α, β)bezuglich α und β
Bemerkungen:
• a und b werden also derart gewahlt, dass die Summe derquadrierten Abstande zwischen den Datenpunkten (xi, yi) undder Regressionsgeraden minimal wird
• Die Regressionsgerade yi = a + b · xi beschreibt dann die(xi, yi)-Punktwolke im Sinne des gewahlten Abstandsmaßesoptimal
298
Jetzt:
• Mathematische Bestimmung der Parameter a und b
Formaler Ablauf: [I]
• Bilde die (partiellen) Ableitungen von Q(α, β)
∂∂α
Q(α, β) = 2n
∑
i=1[yi − (α + β · xi)] · (−1)
∂∂β
Q(α, β) = 2n
∑
i=1[yi − (α + β · xi)] · (−xi)
299
Formaler Ablauf: [II]
• Die jeweiligen Nullstellen der partiellen Ableitungen (bezeich-net mit a und b) liefern das potenzielle Minimum (d.h. diegesuchten Parameterwerte)(notwendige Bedingung)
• Es bleibt zu uberprufen, ob die Nullstellen tatsachlich einMinimum darstellen(hinreichende Bedingung)
300
Endergebnisse:
• Die gesuchten Nullstellen ergeben sich als
b =
n∑
i=1xi · yi − n · x · y
n∑
i=1x2
i − n · x2=
sXYs2X
= rXY ·sYsX
,
a = y − b · x
Definition 6.18: (Kleinste-Quadrate-Methode)
Die obige Vorgehensweise zur Bestimmung der Regressionskoef-fizienten a und b nennt man die Methode der Kleinsten Quadrate.
301
Offensichtlich:
• Zur Berechnung der Kleinste-Quadrate-Koeffizienten beno-tigt man nur die 4 Großen x, y, s2X und sXY
302
Bemerkungen:
• Fur die Regressionsgerade gilt also:
y(x) = a + b · x
= y −sXYs2X
· x︸ ︷︷ ︸
= a
+sXYs2X
︸ ︷︷ ︸
= b
·x
Fur die Regresssionsgerade gilt somit:
y(x) = y
=⇒ Die Regressionsgerade verlauft durch den Punkt (x, y)
• Interpretation der Regressionsgeraden nicht fur alle x-Wertesinnvoll
303
Beispiel:
• X = Werbeausgaben, Y = Absatze, n = 84
• Es gilt:
x = 50.7276, y = 513.9912, s2X = 297.5332, sXY = 64.9557
Damit ergibt sich:
b =64.9557297.5332
= 0.2183
a = 513.9912− 0.2183 · 50.7276 = 502.9174
304
Erinnerung:
• Bestimmtheitsmaß B bei Regression 1. Art beschreibt Anteilan der Varianz s2Y , der durch die Regression erklart wird
Jetzt:
• Ubetragung dieses Konzeptes auf Regression 2. Art
Betrachte dazu:
• Werte der Regressionsgerade (yi) an den Stellen xi:
yi = a + b · xi, i = 1, . . . , n
305
Offensichtlich gilt fur die y-Daten:
yi = a + b · xi + ui = yi + ui
Bedeutung:
• Datenwert yi ist Summe aus Wert auf Regressionsgeradenplus Fehler
Nun gilt folgende Varianzzerlegung:
s2Y = s2Y + s2U
306
Fazit:
• Varianz der Y -Werte lasst sich in 2 Teile zerlegen
s2Y : Varianz der exakt auf der Regressionsgeraden liegen-
den Werte yi(den durch die Regression erklarten Teil der Varianz derY -Werte s2Y )
s2U : Varianz der Residuen ui(Residualvarianz oder den durch die Regression nicht er-klarten Teil der Varianz der Y -Werte s2Y )
307
Definition 6.19: (Bestimmtheitsmaß)
Das Bestimmtheitsmaß der deskriptiven Regression 2. Art definiertman als
R2 =s2Ys2Y
= 1−s2Us2Y
.
Bemerkungen: [I]
• Das R2 ist der Anteil an der Varianz der y-Werte, der durchdie Regression erklart wird
• Es gilt:
0 ≤ R2 ≤ 1
308
Bemerkungen: [II]
• R2 = 0:Es ist dann s2U = s2Y , d.h. die Residualvarianz entspricht exaktder Varianz der y-Werte. Die Regression selbst liefert keinenErklarungsbeitrag fur die y-Werte
• R2 = 1:Es ist dann s2Y = s2Y . Die Regression erklart die Varianz dery-Werte vollstandig(Alle Punkte (xi, yi) liegen auf der Regressionsgeraden)
309
Bemerkungen: [III]
• Praktische Berechnungsmoglichkeit:
R2 =
sXY√
s2X ·√
s2Y
2
= (rXY )2
(R2 entspricht dem Quadrat des Korrelationskoeffizientenvon Bravais-Pearson)
310
Beispiel:
• Im Beispiel Werbeausgaben ←→ Absatz gilt:
R2 =
sXY√
s2X ·√
s2Y
2
=
(
64.9557√297.5332 ·
√159.309
)2
= 0.0890
311
6.4 Lineare Mehrfachregression
Jetzt:
• Ubertragung des Konzeptes auf k Regressoren X1, . . . , Xk(alle metrisch)
Regressionsmodell:
yi = a + b1 · x1i + . . . + bk · xki + ui, i = 1, . . . , n
312
Analog zu Abschnitt 6.3.2:
• Kleinste-Quadrate-Methode:
minα,β1,...,βk
Q(α, β1, . . . , βk)
mit
Q(α, β1, . . . , βk) =n
∑
i=1[yi − (α + β1 · x1i + . . . + βk · xki)]
2
• Definition des R2:
R2 =s2Ys2Y
= 1−s2Us2Y
313