42
Lineare Regression 10_regression 1 Gliederung Kriterium und Prädiktor Methode der kleinsten Quadrate Voraussetzungen der linearen Regression • Varianzzerlegung Der Standardschätzfehler • Konfidenzintervalle • Kreuzvalidierung Regression zur Mitte Die lineare Regression in SPSS

Lineare Regression

  • Upload
    baylee

  • View
    82

  • Download
    1

Embed Size (px)

DESCRIPTION

Lineare Regression. Gliederung Kriterium und Prädiktor Methode der kleinsten Quadrate Voraussetzungen der linearen Regression Varianzzerlegung Der Standardschätzfehler Konfidenzintervalle Kreuzvalidierung Regression zur Mitte Die lineare Regression in SPSS. Lineare Regression. - PowerPoint PPT Presentation

Citation preview

Page 1: Lineare Regression

Lineare Regression

10_regression 1

Gliederung • Kriterium und Prädiktor• Methode der kleinsten Quadrate• Voraussetzungen der linearen Regression• Varianzzerlegung• Der Standardschätzfehler• Konfidenzintervalle• Kreuzvalidierung• Regression zur Mitte• Die lineare Regression in SPSS

Page 2: Lineare Regression

Lineare Regression

10_regression 2

• Das Ziel einer linearen Regression ist die Vorhersage einer Variablen y durch eine Variable x.

• Eine solche Vorhersage ist nur möglich, wenn x und y miteinander korrelieren.

• Die vorherzusagende Variable (y) heißt Kriteriumsvariable.

• Die zur Vorhersage verwendete Variable (x) heißt Prädiktorvariable.

Page 3: Lineare Regression

Lineare Regression

10_regression 3

• Es wird eine Gerade gesucht, die eine möglichst geringe Abweichung zu allen Punkten hat.

• Mit einer solchen Gerade kann zu jedem Wert von x ein Wert von y vorausgesagt werden.– x=120 y=30

– x=80 y=13

OPT

1801601401201008060

RIS

IKO

50

40

30

20

10

0

Page 4: Lineare Regression

Lineare Regression

10_regression 4

Herleitung der Linearen Regression

• Allgemeine Funktion für eine Gerade:

• wobei b für die Steigung und a für den y-Achsen-Abschitt steht.

• Bei der Regression schreibt man:

axby

xyixyi axby ,,ˆ

Abschnitt)-Achsen-(y Konstante additive:aiPerson der Wert x:x

(Steigung)nt skoeffizieRegression:biPerson der Wert ygter vorhergesa:y

xy,

i

xy,

i

Page 5: Lineare Regression

Lineare Regression

10_regression 5

Methode der kleinsten Quadrate

• Für einen Datensatz (eine Punktewolke) werden a und b so gewählt, dass der Vorhersagefehler über alle Probanden minimal ist.

• Der Vorhersagefehler bezeichnet die Abweichung der vorhergesagten y-Werte von den tatsächlichen y-Werten.

OPT

1801601401201008060

RIS

IKO

50

40

30

20

10

0

2030ˆ

i

i

yy

Der Vorhersagefehler für diese Person beträgt also 10.

(Das Vorzeichen der Differenz wird nicht berücksichtigt)

Page 6: Lineare Regression

Lineare Regression

10_regression 6

Methode der kleinsten Quadrate

• Für die Ermittlung der Regressionsgleichung wird die Differenz der tatsächlichen von den vorhergesagten y-Werten quadriert. Diese hat zwei Vorteile:(1) Abeichungswerte sind dann immer positiv.

(2) Große Abweichungen werden stärker berücksichtigt als kleine Abweichungen.

• Folgende Formel wird also verwendet:

minimal

NyyN

i ii

1

ˆ1

2

Page 7: Lineare Regression

Lineare Regression

10_regression 7

Beispiel 1

• Aus der Abiturnote soll die Abschlussnote eines Studierenden vorhergesagt werden.

60.:

40.070.1:80.010.2:

xy

y

x

rnKorrelatio

syStudiumsxAbinote

yxxss

ry ix

yxyi ˆ

07.130.0ˆ70.163.030.0ˆ

70.110.230.030.0ˆ70.110.230.0ˆ

70.110.280.040.060.ˆ

ii

ii

ii

ii

ii

xyxyxyxy

xy

Page 8: Lineare Regression

Lineare Regression

10_regression 8

Beispiel 1

• Mithilfe der resultierenden Gleichung können für beliebige x-Werte die y-Werte geschätzt werden.

• Für Studienanfänger mit den Abiturnoten 1, 2, 3 und 4 würden z.B. folgende Studienabschlussnoten geschätzt:

07.130.0ˆ ii xy

27.207.1430.0ˆ497.107.1330.0ˆ367.107.1230.0ˆ2

37.107.1130.0ˆ1

yxyxyxyx

Page 9: Lineare Regression

Lineare Regression

10_regression 9

Beispiel 2

• Aus der Arbeitsmotivation soll vorhergesagt werden, wie lange ein Arbeiter zur Fertigung eines Bauteils benötigt. yxx

ss

ry ix

yxyi ˆ

20.:nKorrelatio

535:Zeit1055:Motivation

xy

y

x

r

sysx

5.401.0ˆ355.51.0ˆ35551.0ˆ

355510520.ˆ

ii

ii

ii

ii

xyxyxy

xy

Page 10: Lineare Regression

3.335.407210.0ˆ720.345.406510.0ˆ650.355.405510.0ˆ555.365.404010.0ˆ40

yxyxyxyx

Lineare Regression

10_regression 10

Beispiel 2

• Aus der Arbeitsmotivation soll vorhergesagt werden, wie lange ein Arbeiter zur Fertigung eines Bauteils benötigt.

• Für Studienanfänger mit den Abiturnoten 1, 2, 3 und 4 würden z.B. folgende Studienabschlussnoten geschätzt:

5.4010.0ˆ ii xy

Page 11: Lineare Regression

Voraussetzungen der linearen Regression

10_regression 11

Folgende Voraussetzungen müssen erfüllt sein, damit eine lineare Regressionsanalyse berechnet werden darf:

(1) Die Variablen x und y müssen intervallskaliert sein

(2) Die Variablen x und y müssen normalverteilt sein.

(3) Die Homoskedastizität der Variablen muss gegeben sein.

Page 12: Lineare Regression

Güte der Vorhersage

• Bei einer Vorhersage ist natürlich nicht nur der vorhergesagte Wert sondern auch die Qualität der Vorhersage wichtig.

• Der „wahre“ Wert der Variable y setzt sich aus dem vorhergesagten Wert und einem Residuum („Fehler“) zusammen:

bzw.

• Dies gilt auch für die Mittewerte:

10_regression 12

)()( iresiregi yyy iii eyy ˆ

)()( iresiregi yyy

Page 13: Lineare Regression

Varianzzerlegung

• Nach dem Varianzadditionssatz gilt:

• Für die Regression ergibt sich:

• Residuen und vorhergesagte Werte sind unkorreliert, also zerlegt sich die Varianz von y folgendermaßen:

10_regression 13

bax ssss

bax

ba ,222 2

resregresregy

resreg

ssss

yyy

,222 2

222resregy sss

nicht-erklärbare Varianz

aufgeklärte Varianz

Page 14: Lineare Regression

Der Standardschätzfehler

• Weiter gilt:

• Also:

10_regression 14

22222 1 yyy srsrs

nicht-erklärbare Varianz

aufgeklärte Varianz

222yreg srs

222 1 yres srs

Page 15: Lineare Regression

Der Standardschätzfehler

• Die Standardabweichung der Residuen wird als Standard-schätzfehler bezeichnet.

• Der Standardschätzfehler ist die Wurzelder nicht aufgeklärten Varianz:

• Als Populationsschätzer:

10_regression 15

2,,

22,

1

1

yxyxy

yxy

rss

rss

2,, 1

2ˆ yxyxy rs

NN

Page 16: Lineare Regression

Der Standardschätzfehler

Wovon hängt der Standardschätzfehler ab?

• Je größer die Streuung des Kriteriums, desto größer der Standardschätzfehler.

• Je größer die Streuung des Prädiktors, desto kleiner der Standardschätzfehler.

• Je größer die Korrelation zwischen Prädiktor und Kriterium, desto kleiner ist der Standardschätzfehler.

10_regression 16

Page 17: Lineare Regression

Konfidenzintervalle

• Der Standardschätzfehler ist ein Maß dafür, wie stark die wahren y-Werte von den vorhergesagten Werten abweichen.

• Mit Hilfe des Standardschätzfehlers kann ein Vertrauensintervall um einen vorhergesagten Wert berechnet werden (s.u.).

10_regression 17

Page 18: Lineare Regression

Konfidenzintervalle

• Ein Konfidenzintervall (Vertrauensintervall) ist ein Bereich, in dem ein wahrer Wert mit einer vorgegebenen Wahrschein-lichkeit liegt.

• Mit Hilfe der Standardnormalverteilung wird zunächst der z-Wert für die gewählte Wahrscheinlichkeit (p = .95) bestimmt.

10_regression 18

-3 -2 -1 0 1 2 30

0.1

0.2

0.3

0.4

zo

zu

2.5% 95% 2.5%

Aus der Tabelle:

z(p=0.025) = -1.96

z(p=0.975)= 1.96

Page 19: Lineare Regression

Konfidenzintervalle

• Bei einer normalverteilten Variablen liegen also 95% aller Werte in einem Bereich von Mittelwert ± 1.96 Standardabweichungen.

• Weil die Standardabweichung der Residuen bekannt ist (der „Standardschätzfehler“), kann nun Konfidenzintervall berechnet werden:

10_regression 19

xyi syKI ,96.1ˆ xyiyKI ,ˆ96.1ˆ bzw.

Page 20: Lineare Regression

Konfidenzintervalle

Beispiel 1 – Fortsetzung

Standardschätzfehler:

10_regression 20

60.:

40.070.1:80.010.2:

xy

y

x

rnKorrelatio

syStudiumsxAbinote

32.080.040.0

64.040.0

36.0140.0

60.0140.0

1

2

2,,

yxyxy rss

Page 21: Lineare Regression

33.032.002.1

32.04850

2ˆ ,,

xyxy sNN

Konfidenzintervalle

Beispiel 1 – Fortsetzung

Für N=50 ergibt sich einPopulationsschätzer von:

10_regression 21

60.:

40.070.1:80.010.2:

xy

y

x

rnKorrelatio

syStudiumsxAbinote

Page 22: Lineare Regression

Konfidenzintervalle

Beispiel 1 – Fortsetzung

Das 95%-Konfidenzintervall berechnet sich als:

Damit ergibt sich für folgende Konfidenzintervalle:

10_regression 22

64.0ˆ33.096.1ˆ

ˆ96.1ˆ ,

i

i

xyi

yy

yKI

27.2ˆ497.1ˆ367.1ˆ237.1ˆ1

yxyxyxyx

91.263.161.233.131.203.101.273.0

yyyy

Page 23: Lineare Regression

90.498.05

96.05

04.015

20.015

1

2

2,,

yxyxy rss

Konfidenzintervalle

Beispiel 2 – Fortsetzung

Standardschätzfehler:

10_regression 23

20.:

535:1055:

xy

y

x

rnKorrelatio

syZeitsxotivationM

Page 24: Lineare Regression

Konfidenzintervalle

Beispiel 2 – Fortsetzung

Für N=20 ergibt sich einPopulationsschätzer von:

10_regression 24

60.:

40.070.1:80.010.2:

xy

y

x

rnKorrelatio

syStudiumsxAbinote

14.590.405.1

90.41820

2ˆ ,,

xyxy sNN

Page 25: Lineare Regression

Konfidenzintervalle

Beispiel 2 – Fortsetzung

Das 95%-Konfidenzintervall berechnet sich als:

Damit ergibt sich für folgende Konfidenzintervalle:

10_regression 25

07.10ˆ14.596.1ˆ

ˆ96.1ˆ ,

i

i

xyi

yy

yKI

37.4323.2307.4493.2307.4593.2457.4643.26

yyyy

3.33ˆ720.34ˆ650.35ˆ555.36ˆ40

yxyxyxyx

Page 26: Lineare Regression

Kreuzvalidierung

• Die Regressionsgleichung wird immer mit Hilfe einer Stichprobe erstellt, von denen die Prädiktoren und die Kriterien bekannt sind.

• Es stellt sich jedoch die Frage nach der Generalisierbarkeit („externe Validität“), d.h. ob eine Vorhersage des Kriteriums anhand der Regressionsgleichung auch für Personen gültig ist, die nicht zu der ursprünglichen Stichprobe gehörten.

• Die externe Validität einer Regressionsanalyse kann mit der so genannten Kreuzvalidierung erfolgen

10_regression 26

Page 27: Lineare Regression

Kreuzvalidierung

• Definition: Die Kreuzvalidierung ist ein Verfahren zur Überprüfung der „externen“ Validität einer Regressions-gleichung. Es wird dabei die Gültigkeit der Gleichung für eine Stichprobe überprüft, die nicht zur Ermittlung dieser Gleichung verwendet wurde.

• Es werden also zwei Stichproben benötigt!– Entweder werden zwei getrennte Stichproben S1 und S2 erhoben

– Oder es wird nur eine Stichprobe erhoben, die zufällig in zwei Teilstichproben aufgeteilt wird.

10_regression 27

Page 28: Lineare Regression

Kreuzvalidierung

Vorgehen:

(1) Berechnung der Regressionsgleichung R1anhandder Stichprobe S1.

(2) Anwendung der Regressiongleichung R1 auf die zweite Stichprobe S2.

(3) Vergleich der vorhergesagten Kriteriumswerte mit den wahren Kriteriumswerten in S2.

Das gleiche Verfahren kann natürlich auch umgekehrt durchgeführt werden; dann wird die Gleichung aus S2 auf S1 angewendet (daher „Kreuzvalidierung“).

10_regression 28

Page 29: Lineare Regression

Kreuzvalidierung

• Kreuzvalidierungen sind wichtig, da Regressionskoeffizienten häufig stichprobenabhängig sind.

• Die Entscheidung, welche Abweichung noch zu tolerieren ist, ist jedoch nicht eindeutig festgelegt.

• Abhilfe liefern multivariate Strukturgleichungsmodelle (z.B. die Auswertungssoftware AMOS), die in dieser Veranstaltung jedoch nicht besprochen werden.

10_regression 29

Page 30: Lineare Regression

Regression zur Mitte

• Für eine Prognose wird oft die aktuelle Ausprägung eines Merkmals zum Zeitpunkt (t0) verwendet, um die künftige Ausprägung des selben Merkmals zu einem späteren Zeitpunkt (t1) vorherzusagen („Autoregression“)

• Es findet also eine Messwiederholung statt.

Beispiele:• Schulleitung zum Ende der 4. Klasse und Noten im Gymnasium• Depressivität am Beginn und am Ende einer Therapie

10_regression 30

Page 31: Lineare Regression

Regression zur Mitte

• In diesem Fällen kommt es zum Effekt der „Regression zur Mitte“ (regression to the average) .

• Der Effekt sagt vorher, dass viele Probanden, die zum Zeitpunkt t0

besonders extreme Merkmalsausprägungen hatten, zum Zeitpunkt t1 durchschnittlichere Ausprägungen aufweisen.

• Daher besteht für Probanden …mit hohen Werten zu t0 eine erhöhte Wahrscheinlichkeit dafür, dass sich

die Merkmalsausprägung bis t1 verringert. mit niedrigen Werten zu t0 eine erhöhte Wahrscheinlichkeit dafür, dass

sich die Merkmalsausprägung bis t1 erhöht.

10_regression 31

Page 32: Lineare Regression

Regression zur Mitte

10_regression 32

t1t2

y

Zeit

Δy<0

Δy>0

Δy=0

y1

Δy

0

Page 33: Lineare Regression

Regression zur Mitte

10_regression 33

• Wenn nun aus dem Wert y1 die Veränderung Δy vorhergesagt werden soll, ergibt sich daher in der Regel ein negatives Regressionsgewicht, z.B.:

• Dies wird als Regression zur Mitte bezeichnet.

• Das negative Regressionsgewicht kann jedoch ein rein methodisches „Artefakt“ sein und sollte daher nicht inhaltlich interpretiert werden.

05.0ˆ1 yy

Page 34: Lineare Regression

Regression zur Mitte

10_regression 34

• Der Effekt der Regression zur Mitte muss auch dann berücksichtigt werden, wenn für eine Mehrfachmessung Personen ausgewählt werden, deren Werte zu Zeitpunkt 1 auffällig hoch oder gering sind.

• Beispiel:– Für Schüler mit auffällig niedrigen Werten in einem Test zur sozialen

Kompetenz (Vorhermessung) wird ein entsprechendes Training durchgeführt.

– Nach 6 Monaten wird das Training evaluiert (Nachhermessung).– Allein aufgrund statistischer Effekte ist zu erwarten, dass die auffälligen

Schüler in der Nachhermessung besser abschneiden als in der Vorhermessung.

Page 35: Lineare Regression

Die lineare Regression in SPSS

10_regression 35

Page 36: Lineare Regression

Die lineare Regression in SPSS

10_regression 36

Page 37: Lineare Regression

Die lineare Regression in SPSS

• Lineare Regression im Syntax:

regression /dependent stat

/method enter stat_k.

10_regression 37

Page 38: Lineare Regression

Die lineare Regression in SPSS

10_regression 38

Modellzusammenfassung

Modell R R-QuadratKorrigiertes R-

QuadratStandardfehler des Schätzers

1 ,342a ,117 ,108 2,98178a. Einflußvariablen : (Konstante), Kenntnisse in der Statistik

Page 39: Lineare Regression

Die lineare Regression in SPSS

10_regression 39

ANOVAb

ModellQuadratsum

me dfMittel der Quadrate F Signifikanz

1 Regression 112,924 1 112,924 12,701 ,001a

Residuen 853,535 96 8,891Gesamt 966,459 97

a. Einflußvariablen : (Konstante), Kenntnisse in der Statistikb. Abhängige Variable: stat

• Der „globale“ Signifikanztest:ANOVA = Analysis of Variance = Varianzanalyse

• Diese Ausgabe wird erst im Sommersemester besprochen!

Page 40: Lineare Regression

Die lineare Regression in SPSS

10_regression 40

Koeffizientena

Modell

Nicht standardisierte Koeffizienten

Standardisierte Koeffizienten

T SignifikanzBStandardf

ehler Beta1 (Konstante) 15,145 ,489 30,943 ,000

Kenntnisse in der Statistik ,054 ,015 ,342 3,564 ,001

a. Abhängige Variable: stat

Additive Konstante(y-Achsen-Abschnitt)

Regressionsgewicht

Signifikanztests für die einzelnen Parameter („Test gegen 0“)

15.1505.0ˆ ii xy

Page 41: Lineare Regression

Zusammenfassung

• Ziel einer linearen Regression ist die Vorhersage eines Kriteriums durch einen Prädiktor.

• Dazu wird eine Gerade gesucht, die zu allen Punkten einer Punktewolke eine möglichst geringe (vertikale) Distanz hat.

• Eine Regressionsgleichung ist durch das Regressionsgewicht (b) und den Achsenabschnitt (a) definiert.

• Zur Schätzung dieser beiden Parameter wird die Methode der kleinsten Quadrate verwendet.

• Voraussetzungen für einer Regressionsanalyse sind Intervallskalenniveau und Normalverteilung der beteiligten Variablen, sowie deren Homoskedastizität.

• Die Güte der Vorhersage wird durch den Standardschätzfehler angegeben.

10_regression 41

Page 42: Lineare Regression

Zusammenfassung

• Der Standardschätzfehler ist klein, wenn ein Kriterium mit geringer Varianz hoch mit einem Prädiktor mit großer Varianz korreliert ist.

• Aus dem Standardschätzfehler kann ein Konfidenzintervall für die wahren Kriteriumswerte berechnet werden.

• Die externe Validität gibt an, ob die Ergebnisse aus einer Stichprobe auf eine Population generalisiert werden können. Sie kann durch eine Kreuzvalidierung überprüft werden.

• Der Effekt der Regression zur Mitte führt zu einer negativen Korrelation einer Merkmalsausprägung zur Veränderung der Merkmalsausprägung über die Zeit.

10_regression 42