32
M. Kresken 1 Bivariate Statistik

1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

Embed Size (px)

Citation preview

Page 1: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 1

Bivariate Statistik

Page 2: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 2

Wertepaare, Punktwolke

Page 3: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 3

Wertepaare, Punktwolke

• Werden an mehreren Beobachtungseinheiten je zwei stetige Merkmale gemessen, so lässt sich jedes Wertepaar durch einen Punkt in einem Koordinatensystem darstellen (Punktwolke)

Messwerte Merkmal 1

Mes

swe

rte

Mer

kmal

2

Page 4: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 4

Regression von y auf x

Page 5: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 5

Zusammenhang zwischen n Wertepaaren(xj,yj)

x

y y

x

Page 6: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 6

Regression von y auf x

• Das Problem einer Regression von y auf x liegt vor, wenn für das Merkmal x fest vorgegebene Werte xj (z.B. Dosen oder Zeitpunkte) und für das Merkmal y zugehörige yj (z.B. Serumkonzentration eines Arzneistoffes) erhoben werden.

• Häufig kann eine graphisch erkennbare Beziehung zwischen zwei Merkmalen (x und y) näherungsweise durch eine Gerade „gut“ beschrieben werden.

• Aber was bedeutet „gut“ ?

Page 7: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 7

Regression von y auf x

• Berechnung einer Geraden, die sich aus der Summe der quadrierten Abstände ermittelt wird

• Methode der kleinsten Quadrate

x

y

Page 8: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 8

Regression von y auf x

• Die so aus den Abständen der einzelnen Messpunkte (xj,yj) zu der Geraden parallel zur y-Achse eindeutig bestimmte Gerade heißt Regressionsgerade von y auf x:

• byx wird Regressionskoeffizient genannt und beschreibt den Anstieg der Regressionsgeraden.

• Der Regressionskoeffizient gibt an, um wie viel sich y im Durchschnitt ändert, wenn x um eine Einheit erhöht wird.

• Der Parameter ayx bezeichnet den Schnittpunkt mit der y-Achse.

y = byxx + ayx

Page 9: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 9

Regression von y auf x

• byx und ayx ergeben sich aus folgenden Formeln:

_y – byx x ayx =

_

1n - 1

n

j=1

syx = sxy = (xj - x )_

(yj - y )_

byx = syx

sxx, falls sxx = 0

= 1n - 1

( n

j=1( xjyj ) _

n

j=1( xj)1

n)

n

j=1( yj)

= 1n - 1

( n

j=1( xjyj ) _ n x y )

_ _

Page 10: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 10

Regression von y auf x

1n - 1

n

j=1

sxx = sx = (xj - x )_2

_1n - 1

n

j=1

= ( xj ) - n x ( 2 2)

2

Page 11: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 11

Regression von y auf x

• Die Größe sxy heißt Kovarianz und beschreibt die gemeinsame Streuung der x- und y-Werte, d.h. die Ausdehnung der Punktwolke.

• Der Punkt (x, y) heißt Schwerpunkt der Punktwolke und ist ein Lagemaß für das Zentrum der Wertepaare.

• In manschen Situationen lässt sich eine lineare Beziehung erst nach Transformation der x- oder y-Werte erkennen.

• Folgen z.B. die (x,y)-Werte einem exponentiellen Verlauf (y = ex), so wird sich nach Logarithmierung der y-Werte ein linearer Zusammenhang ergeben.

• Mit den transformierten Werten wird dann eine Regressionsrechnung durchgeführt.

_ _

Page 12: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 12

Abbau der Adrenalinkonzentration in der Leber

Nr.Zeit nach

Adrenalingabe

[min]

Adrenalin

[mg/l]

1 6 30,2

2 18 9,8

3 30 4,7

4 42 1,8

5 54 0,8

Page 13: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 13

Zusammenhang des Abbaus der Adrenalinkonzentration in der Leber über die Zeit

Ad

ren

alin

(m

g/1

00m

l)

Zeit [min]

Page 14: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 14

Regression von y auf x

• Es liegt die Vermutung nahe, dass die Adrenalinwerte mit der Zeit exponentiell abfallen.

• Wegen der graphisch erkennbaren Beziehung werden deshalb statt der Werte selbst die Logarithmen für die Regressionsrechnung verwendet, wobei die logarithmierten Werte mit y bezeichnet werden.

• Bei der Berechnung werden also nicht die ursprünglichen Messwerte (Zeit, Adrenalin), sondern die transformierten Messwerte (Zeit, log(Adrenalin)) = (x,y) benutzt.

Page 15: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 15

Abbau der Adrenalinkonzentration in der Leber(Originalmesswerte und logarithmierte Adrenalinwerte)

Nr.Zeit nach

Adrenalingabe

[min]

Adrenalin

[mg/l]log

(Adrenalin)

1 6 30,2

2 18 9,8

3 30 4,7

4 42 1,8

5 54 0,8

Page 16: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 16

Abbau der Adrenalinkonzentration in der Leber(Originalmesswerte und logarithmierte Adrenalinwerte)

Nr.Zeit nach

Adrenalingabe

[min]

Adrenalin

[mg/l]log

(Adrenalin)

1 6 30,2 1,48

2 18 9,8 0,99

3 30 4,7 0,67

4 42 1,8 0,26

5 54 0,8 -0,10

Page 17: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 17

Punktwolke und Regressionsgerade für den Abbau der logarithmischen Adrenalinkonzentration über die Zeit

log

Ad

ren

alin

(m

g/1

00m

l)

Zeit [min]

y = byxx + ayx

Page 18: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 18

Punktwolke und Regressionsgerade für den Abbau der logarithmischen Adrenalinkonzentration über die Zeit

y = byxx + ayx

• Benötigte Formeln

Page 19: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 19

Abbau der Adrenalinkonzentration in der Leber(Originalmesswerte und logarithmierte Adrenalinwerte)

Nr.Zeit

xAdrenalin

[mg/l]

log(Adrenalin)

yxy x2 y2

1 6 30,2 1,48

2 18 9,8 0,99

3 30 4,7 0,67

4 42 1,8 0,26

5 54 0,8 -0,10

Page 20: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 20

Abbau der Adrenalinkonzentration in der Leber(Originalmesswerte und logarithmierte Adrenalinwerte)

Nr.Zeit

xAdrenalin

[mg/l]

log(Adrenalin)

yxy x2 y2

1 6 30,2 1,48 8,88 36 2,1904

2 18 9,8 0,99 17,82 324 0,9801

3 30 4,7 0,67 20,10 900 0,4489

4 42 1,8 0,26 10,92 1764 0,0676

5 54 0,8 -0,10 -5,40 2916 0,0100

150 3,30 52,32 5940 3,6970

Page 21: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 21

Zusammenhangsmaße

Page 22: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 22

Zusammenhangsmaße

• Maßzahlen, mit deren Hilfe sich der Zusammenhang zwischen zwei Merkmalen beschreiben lässt.

• Keines der Maße dient dazu, einen sachlogischen oder kausalen Zusammenhang nachzuweisen.

Page 23: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 23

Korrelationskoeffizient

• Der Korrelationskoeffizient r nach Pearson ist ein quantitatives Maß für die Beziehung zwischen zwei stetigen Merkmalen und beschreibt die lineare Komponente des Zusammenhangs.

r = syx

sxx · syy

, falls sxx = 0 und syy = 0

• Der Korrelationskoeffizient r kann nur Werte von –1 bis +1 annehmen.

• Der Korrelationskoeffizient ist eine einheitslose Größe.

Page 24: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 24

Zusammenhang zwischen Punktwolken und Korrelationskoeffizienten

Page 25: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 25

Korrelationskoeffizient zwischen der logarithmischen Adrenalinkonzentration und der Zeit

Berechnung des Korrelationskoeffizienten r

Page 26: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 26

Bestimmtheitsmaß

• Im Zusammenhang mit der Regressionsrechnung gibt man häufig statt des Korrelationskoeffizienten das so genannte Bestimmtheitsmaß an.

• Das Bestimmtheitsmaß ist gleich dem Quadrat des Korrelationskoeffizienten.

• Es beschreibt, welcher Anteil an der Gesamtvarianz durch das Regressionsmodell bzw. die Regressionsgerade erklärt wird.

Page 27: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 27

Rang-Korrelationskoeffizient

• Ist ein alternatives Maß, um Zusammenhänge zwischen Merkmalen zu beschreiben (Spearman Rang-Korrelationskoeffizient).

• Wird auf der Basis der Ränge der Messwerte berechnet:(R (x1), R (y1)), (R (x2), R (y2)),....., (R (xn), R (yn)).

• Der kleinste Messwert erhält den Rang 1, der größte Wert den Rang „n“.

• Mit den mittleren Rangzahlen lässt sich analog zum Korrelationskoeffizienten nach Pearson der Rang-Korrelationskoeffizient berechnen.

R(X) = 1n

n

j=1R(xj) R(Y) =

1n

n

j=1R(yj)

Page 28: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 28

Rang-Korrelationskoeffizient

• Die Berechnung erfolgt analog zum Korrelationskoeffizienten nach Pearson unter Verwendung der Rangzahlen.

r = syx

sxx syy

Page 29: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 29

Rang-Korrelationskoeffizient

• Bei ordinalen Merkmalen beobachtet man häufig die Übereinstimmung der Messergebnisse mehrerer Beobachtungseinheiten.

• In solchen Fällen werden den übereinstimmenden Messergebnissen mittlere Ränge zugeordnet.

• Dass die Originalmessergebnisse nur über ihre Position in den jeweiligen Ranglisten, d.h. indirekt in die Berechnung des Rang-Korrelationskoeffizienten einfließen, bedeutet eine Informationsreduktion.

• Auf der anderen Seite können dadurch nichtlineare Zusammenhänge beschrieben werden.

• Der Rang-Korrelationskoeffizient liefert Werte von–1 bis +1.

Page 30: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 30

Abbau der Adrenalinkonzentration in der Leber(Originalmesswerte und logarithmierte Adrenalinwerte)

Nr.Zeit

x

Ränge

R(x)Adrenalin

[mg/l]Ränge

R(y)R(x) R(y) R(x)2 R(y)2

1 6 30,2

2 18 9,8

3 30 4,7

4 42 1,8

5 54 0,8

Page 31: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 31

Abbau der Adrenalinkonzentration in der Leber(Originalmesswerte und logarithmierte Adrenalinwerte)

Nr.Zeit

x

Ränge

R(x)Adrenalin

[mg/l]Ränge

R(y)R(x) R(y) R(x)2 R(y)2

1 6 1 30,2 5 5 1 25

2 18 2 9,8 4 8 4 16

3 30 3 4,7 3 9 9 9

4 42 4 1,8 2 8 16 4

5 54 5 0,8 1 5 25 1

15 35 55 55

Page 32: 1M. Kresken Bivariate Statistik. 2M. Kresken Wertepaare, Punktwolke

M. Kresken 32

Interpretation der Ergebnisse der Regressions- bzw. Korrelationsrechnung

1. Eine Extrapolierung der Regressionsgleichung über den Bereich der Punktwolke hinaus ist nicht zulässig.

2. Ein Korrelationskoeffizient nahe null bedeutet nicht, dass kein Zusammenhang zwischen den betrachteten Merkmalen besteht.

3. Einzelne extreme Wertepaare können sowohl den Korrelationskoeffizienten als auch die Regressionsgleichung erheblich beeinflussen.

4. Eine beobachtete Korrelation bedeutet nicht ohne weiteres einen sachlogischen Zusammenhang zwischen diesen beiden Merkmalen.