Ökonometrie - Vorlesung an der Universität des Saarlandes · Okonometrie Vorlesung an der Universit at des Saarlandes PD Dr. Stefan Kl oˇner Sommersemester 2019 Okonometrie (SS

OkonometrieVorlesung an der Universitat des Saarlandes

PD Dr. Stefan Kloßner

Sommersemester 2019

Okonometrie (SS 2019) Folie 1

1 Einleitung Organisatorisches 1.1

Organisatorisches I

Vorlesung: Mittwoch, 08:30-10:00 Uhr, Gebaude B4 1, HS 0.06

Ubung: Dienstag, 10-12, Gebaude B4 1, HS 0.04, Beginn: 23.04.

Prufung: 2-stundige Klausur nach Semesterende (1. Prufungszeitraum)Anmeldung im ViPa nur vom 10.05. (8 Uhr) – 28.05. (15 Uhr)!(Abmeldung im ViPa bis 04.07., 12 Uhr)

Hilfsmittel fur KlausurI

”Moderat“ programmierbarer Taschenrechner, auch mit Grafikfahigkeit

I 2 beliebig gestaltete DIN A 4–Blatter (bzw. 4, falls nur einseitig)I Benotigte Tabellen werden gestellt, aber keine weitere Formelsammlung!

Durchgefallen — was dann?I

”Nachprufung“ Ende Marz/Anfang April 2020 (2. Prufungszeitraum)



Organisatorisches II

Informationen und Materialien unter

http://www.oekonometrie.uni-saarland.de/

bzw. genauer

http://www.oekonometrie.uni-saarland.de/Oeko.html

Informationen und Materialien auch via Moodle:

https://bit.ly/2uSoLnP

Kontakt: PD Dr. Stefan KloßnerGeb. C3 1, 2. OG, Zi. 2.19e-Mail: [email protected]

Sprechstunde nach Vereinbarung (Terminabstimmung per e-Mail)

VorlesungsunterlagenI Diese Vorlesungsfolien (Erganzung im Laufe des Semesters)I Download spatestens dienstags, 19:00 Uhr, vor der Vorlesung moglich


http://www.oekonometrie.uni-saarland.de/

http://www.oekonometrie.uni-saarland.de/Oeko.html

https://bit.ly/2uSoLnP

mailto:[email protected]


Organisatorisches III

UbungsunterlagenI Ubungsblatter (i.d.R. wochentlich)I Download i.d.R. nach der Vorlesung im Laufe des Mittwochs moglichI Besprechung der Ubungsblatter in der Ubung der folgenden Woche.I Ubungsaufgaben sollten unbedingt vorher selbst bearbeitet werden!I Kontakt: M.Sc. Sandra Baar

Geb. C3 1, 2. OG, Zi. 2.20e-Mail: [email protected]

Die folgenden Folien (S. 5–128) ermoglichen bei Bedarf die Wiederholung derwichtigsten Grundlagen aus den Veranstaltungen

”Deskriptive Statistik und

Wahrscheinlichkeitsrechung“ und”Schließende Statistik“.


mailto:[email protected]

2 Wiederholung statistischer Grundlagen Deskriptive Statistik 2.1

Inhaltsverzeichnis(Ausschnitt)

2 Wiederholung statistischer GrundlagenDeskriptive StatistikWahrscheinlichkeitsrechnungSchließende Statistik



Lage- und Streuungsmaße eindimensionaler Daten

Betrachte zunachst ein kardinalskaliertes Merkmal X mit Urliste (Daten)x1, . . . , xn der Lange n.

Daten sollen auf wenige”Kennzahlen“ verdichtet werden.

Ubliches Lagemaß:”klassische“ Mittelung der Merkmalswerte, also

”arithmetisches Mittel“ x mit:

x :=1

n(x1 + x2 + · · ·+ xn) =

1

n

n∑i=1

xi

Ubliche Streuungsmaße: Mittlere quadrierte Differenz zwischenMerkmalswerten und arithmetischem Mittel (empirische Varianz) s2

X sowiederen (positive) Wurzel (empirische Standardabweichung) sX mit:

s2X :=

1

n

n∑i=1

(xi − x)2 !=

1

n

(n∑

i=1

x2i

)− x2 =: x2 − x2, sX = +

√s2

X

Standardabweichung sX hat dieselbe Dimension wie die Merkmalswerte,daher i.d.R. besser zu interpretieren als Varianz s2

X .



Abhangigkeitsmaße zweidimensionaler Daten I

Nehme nun an, dass den Merkmalstragern zu zwei kardinalskaliertenMerkmalen X und Y Merkmalswerte zugeordnet werden, also eine Urliste derLange n (also n Datenpaare)

(x1, y1), (x2, y2), . . . , (xn, yn)

zu einem zweidimensionalen Merkmal (X ,Y ) vorliegt.

Unverzichtbare Eigenschaft der Urliste ist, dass die Paare vonMerkmalswerten jeweils demselben Merkmalstrager zuzuordnen sind!

Mit den zugehorigen Lage- und Streuungsmaßen x , y , sX und sY dereindimensionalen Merkmale definiert man als Abhangigkeitsmaße zunachstdie empirische Kovarianz sX ,Y mit:

sX ,Y :=1

n

n∑i=1

(xi − x)(yi − y)!

=1

n

(n∑

i=1

xi · yi

)− x · y =: xy − x · y



Abhangigkeitsmaße zweidimensionaler Daten II

Als standardisiertes, skalenunabhangiges Abhangigkeitsmaß definiert mandarauf aufbauend den empirischen (Bravais-)PearsonschenKorrelationskoeffizienten rX ,Y mit:

rX ,Y :=sX ,Y

sX · sY

Es gilt stets −1 ≤ rX ,Y ≤ 1.

rX ,Y misst lineare Zusammenhange, spezieller giltI rX ,Y > 0 bei positiver

”Steigung“ (

”X und Y sind positiv korreliert“),

I rX ,Y < 0 bei negativer”Steigung“ (

”X und Y sind negativ korreliert“),

I |rX ,Y | = 1, falls alle (xi , yi ) auf einer Geraden (mit Steigung 6= 0) liegen.

rX ,Y ist nur definiert, wenn X und Y jeweils mindestens zwei verschiedeneMerkmalsauspragungen besitzen.



Beispiel: Empirischer Pearsonscher Korrelationskoeffizient

5 10 15 20

510

1520

rX, Y = 1

X

Y

5 10 15 20

020

4060

8010

0

rX, Y = 0

XY

5 10 15 20

24

68

10

rX, Y = −1

X

Y

5 10 15 20

05

1015

20

rX, Y = 0.9652

X

Y

5 10 15 20

3.0

4.0

5.0

6.0

rX, Y = 0.1103

X

Y

5 10 15 202

46

810

12

rX, Y = −0.837

X

Y


2 Wiederholung statistischer Grundlagen Wahrscheinlichkeitsrechnung 2.2





Eindimensionale Zufallsvariablen I

(Eindimensionale) Zufallsvariablen X entstehen formal als (Borel-messbare)Abbildungen X : Ω→ R von Ergebnismengen Ω einesWahrscheinlichkeitsraums (Ω,F ,P) in die reellen Zahlen.

Auf eine Wiederholung der grundlegenden Konzepte von Zufallsexperimentenbzw. Wahrscheinlichkeitsraumen muss aus Zeitgrunden allerdings verzichtetwerden.

Wir fassen eine Zufallsvariable auf als eine”Variable“,

I die (i.d.R. mehrere verschiedene) numerische Werte annehmen kann,I deren Werte (

”Realisationen“) nicht vorherbestimt sind, sondern von einem

zufalligen, meist wiederholbarem Vorgang abhangen,I uber deren

”Werteverteilung“ man allerdings Kenntnisse hat

( Wahrscheinlichkeitsrechnung) oder Kenntnisse erlangen mochte( Schließende Statistik).



Eindimensionale Zufallsvariablen II

Unterteilung von Zufallsvariablen X (abhangig von Werteverteilung) inmehrere Typen

Diskrete Zufallsvariablen X :I Konnen nur endlich viele oder abzahlbar unendlich viele verschiedene Werte

annehmen.I Werteverteilung kann durch eine Wahrscheinlichkeitsfunktion pX spezifiziert

werden, die jeder reellen Zahl die Wahrscheinlichkeit des Auftretens zuordnet.

Stetige Zufallsvariablen X :I Konnen uberabzahlbar viele Werte (in einem Kontinuum reeller Zahlen)

annehmen.I Werteverteilung kann durch eine Dichtefunktion fX spezifiziert werden, mit

deren Hilfe man zum Beispiel Wahrscheinlichkeiten dafur ausrechnen kann,dass der Wert der Zufallsvariablen in einem bestimmten Intervall liegt.

I Einzelne reelle Zahlen (alle!) werden mit Wahrscheinlichkeit 0 angenommen!

Außerdem existieren (hier nicht betrachtete) Misch-/Sonderformen.



Eindimensionale Zufallsvariablen III

Wahrscheinlichkeiten PX ∈ A = PX (A) dafur, dass eine Zufallsvariable XWerte in einer bestimmten Menge A annimmt, konnen konkreterI bei diskreten Zufallsvariablen X fur endliche oder abzahlbar unendliche

Mengen A mit Hilfe der Wahrscheinlichkeitsfunktion pX durch

PX ∈ A =∑xi∈A

pX (xi )

I bei stetigen Zufallsvariablen X fur Intervalle A = [a, b], A = (a, b), A = (a, b]oder(!) A = [a, b) (mit a < b) mit Hilfe einer(!) zugehorigen Dichtefunktion fX

durch

PX ∈ A =

∫ b

a

fX (x)dx

berechnet werden.

Werteverteilungen von Zufallsvariablen sind bereits eindeutig durch alleWahrscheinlichkeiten der Form PX ≤ x := PX ∈ (−∞, x ] fur x ∈ Rfestgelegt.

Die zugehorige Funktion FX : R→ R; FX (x) = PX ≤ x heißtVerteilungsfunktion von X .



Momente eindimensionaler Zufallsvariablen I

Lage- und Streuungsmaßen von Merkmalen (aus deskriptiver Statistik)entsprechen Momente von Zufallsvariablen.

Momente von Zufallsvariablen sind also Kennzahlen, die die Werteverteilungauf einzelne Zahlenwerte verdichten. (Diese Kennzahlen mussen nichtexistieren, Existenzfragen hier aber vollkommen ausgeklammert!)

Kennzahl fur die Lage der (Werte-)Verteilung einer Zufallsvariablen X :Erwartungswert bzw. auch Mittelwert µX := E(X )I Berechnung bei diskreter Zufallsvariablen X durch:

E(X ) =∑

xi∈T (X )

xi · pX (xi )

(wobei T (X ) := x ∈ R | pX (xi ) > 0 den Trager von X bezeichnet).I Berechnung bei stetiger Zufallsvariablen X durch:

E(X ) =

∫ ∞−∞

x · fX (x)dx



Momente eindimensionaler Zufallsvariablen II

Kennzahl fur die Streuung der (Werte-)Verteilung einer Zufallsvariablen X :Varianz σ2

X := Var(X ) von X und deren (positive) Wurzel σX = +√

Var(X ),die sog. Standardabweichung von X , mit

Var(X ) = E[(X − E(X ))2

]!

= E(X 2)− [E(X )]2

I Berechnung von E(X 2) fur diskrete Zufallsvariable X durch:

E(X 2) =∑

xi∈T (X )

x2i · pX (xi )

I Berechnung von E(X 2) bei stetiger Zufallsvariablen X durch:

E(X 2) =

∫ ∞−∞

x2 · fX (x)dx



Momente eindimensionaler Zufallsvariablen III

Fur eine Zufallsvariable X und reelle Zahlen a, b gilt:I E(aX + b) = a E(X ) + bI Var(aX + b) = a2 Var(X )

Allgemeiner gilt (”Linearitat des Erwartungswerts“) fur eine

(eindimensionale) Zufallsvariable X , reelle Zahlen a, b und (messbare)Abbildungen G : R→ R und H : R→ R:

E(aG (X ) + bH(X )) = a E(G (X )) + b E(H(X ))

Ist X eine Zufallsvariable mit Erwartungswert µX = E(X ) undStandardabweichung σX =

√Var(X ), so erhalt man mit

Z :=X − E(X )√

Var(X )=

X − µX

σX

eine neue Zufallsvariable mit E(Z ) = 0 und Var(Z ) = 1.Man nennt Z dann eine standardisierte Zufallsvariable.



Momente eindimensionaler Zufallsvariablen IV

Weiteres Lagemaß fur Zufallsvariablen: p-Quantile

Fur p ∈ (0, 1) ist xp ein p-Quantil der Zufallsvariablen X , wenn gilt:

PX ≤ xp ≥ p und PX ≥ xp ≥ 1− p

Quantile sind nicht immer eindeutig bestimmt, fur stetige Zufallsvariablen mitstreng monoton wachsender Verteilungsfunktion lassen sich Quantile abereindeutig durch Losung der Gleichung

FX (xp) = p

bzw. unter Verwendung der Umkehrfunktion F−1X der Verteilungsfunktion FX

(auch Quantilsfunktion genannt) direkt durch

xp = F−1X (p)

bestimmen.



Spezielle parametrische Verteilungsfamilien

Parametrische Verteilungsfamilien fassen ahnliche Verteilungen zusammen.

Genaue Verteilung innerhalb dieser Familien wird durch einen oder wenige(reelle) Parameter (bzw. einen ein- oder mehrdimensionalenParametervektor) eineindeutig festgelegt, alsoI legt der Parameter(vektor) die Verteilung vollstandig fest undI gehoren zu verschiedenen Parameter(vektore)n auch jeweils unterschiedliche

Verteilungen (”Identifizierbarkeit“).

Die Menge der zulassigen Parameter(vektoren) heißt Parameterraum.

Im Folgenden: Exemplarische Wiederholung je zweier diskreter und stetigerVerteilungsfamilien.



Bernoulli-/Alternativverteilung

Verwendung:I Modellierung eines Zufallsexperiments (Ω,F ,P), in dem nur das Eintreten

bzw. Nichteintreten eines einzigen Ereignisses A von Interesse ist.I Eintreten des Ereignisses A wird oft als

”Erfolg“ interpretiert, Nichteintreten

(bzw. Eintreten von A) als”Misserfolg“.

I Zufallsvariable soll im Erfolgsfall Wert 1 annehmen, im Misserfolgsfall Wert 0,es sei also

X (ω) :=

1 falls ω ∈ A

0 falls ω ∈ A

I Beispiel: Werfen eines fairen Wurfels, Ereignis A:”6 gewurfelt“ mit P(A) = 1

6.

Verteilung von X hangt damit nur von”Erfolgswahrscheinlichkeit“ p := P(A)

ab; p ist also einziger Parameter der Verteilungsfamilie.

Um triviale Falle auszuschließen, betrachtet man nur Ereignisse mit p ∈ (0, 1)

Der Trager der Verteilung ist dann T (X ) = 0, 1, diePunktwahrscheinlichkeiten sind pX (0) = 1− p und pX (1) = p.

Symbolschreibweise fur Bernoulli-Verteilung mit Parameter p: B(1, p)

Ist X also Bernoulli-verteilt mit Parameter p, so schreibt man X ∼ B(1, p).



Bernoulli-/Alternativverteilung Parameter:B(1, p) p ∈ (0, 1)

Trager: T (X ) = 0, 1Wahrscheinlichkeitsfunktion:

pX (x) =

1− p fur x = 0p fur x = 10 sonst −1.0 −0.5 0.0 0.5 1.0 1.5 2.0

0.0

0.2

0.4

0.6

0.8

pX

x

p X(x

)

p = 0.4

Verteilungsfunktion:

FX (x) =

0 fur x < 01− p fur 0 ≤ x < 1

1 fur x ≥ 1 −1.0 −0.5 0.0 0.5 1.0 1.5 2.0

0.0

0.2

0.4

0.6

0.8

1.0

FX

xF

X(x

)

p = 0.4

Momente: E (X ) = p Var(X ) = p · (1− p)

γ(X ) = 1−2p√p(1−p)

κ(X ) = 1−3p(1−p)p(1−p)



Binomialverteilung

Verallgemeinerung der Bernoulli-VerteilungVerwendung:I Modellierung der unabhangigen, wiederholten Durchfuhrung eines

Zufallsexperiments, in dem nur die Haufigkeit des Eintretens bzw.Nichteintretens eines Ereignisses A interessiert (

”Bernoulli-Experiment“).

I Eintreten des Ereignisses A wird auch hier oft als”Erfolg“ interpretiert,

Nichteintreten (bzw. Eintreten von A) als”Misserfolg“.

I Zufallsvariable X soll die Anzahl der Erfolge bei einer vorgegebenen Anzahlvon n Wiederholungen des Experiments zahlen.

I Nimmt Xi fur i ∈ 1, . . . , n im Erfolgsfall (fur Durchfuhrung i) den Wert 1an, im Misserfolgsfall den Wert 0, dann gilt also X =

∑ni=1 Xi .

I Beispiel: 5-faches Werfen eines fairen Wurfels, Anzahl der Zahlen kleiner 3. n = 5, p = 1/3.

Verteilung von X hangt damit nur von”Erfolgswahrscheinlichkeit“ p := P(A)

sowie der Anzahl der Durchfuhrungen n des Experiments ab.Um triviale Falle auszuschließen, betrachtet man nur die Falle n ∈ N undp ∈ (0, 1). Trager der Verteilung ist dann T (X ) = 0, 1, . . . , n.Symbolschreibweise fur Binomialverteilung mit Parameter n und p: B(n, p)Ubereinstimmung mit Bernoulli-Verteilung (mit Parameter p) fur n = 1.



Binomialverteilung Parameter:B(n, p) n ∈ N, p ∈ (0, 1)

Trager: T (X ) = 0, 1, . . . , nWahrscheinlichkeitsfunktion: pX (x)

=

(

n

x

)px (1− p)n−x fur x ∈ T (X )

0 sonst −1 0 1 2 3 4 5 6

0.0

0.1

0.2

0.3

0.4

0.5

pX

x

p X(x

)

n = 5, p = 0.4


FX (x) =∑

xi∈T (X )xi≤x

pX (xi )

−1 0 1 2 3 4 5 6

0.0

0.2

0.4

0.6

0.8

1.0

FX

xF

X(x

)

n = 5, p = 0.4

Momente: E (X ) = n · p Var(X ) = n · p · (1− p)

γ(X ) = 1−2p√np(1−p)

κ(X ) = 1+(3n−6)p(1−p)np(1−p)



Stetige Gleichverteilung

Einfachste stetige Verteilungsfamilie:Stetige Gleichverteilung auf Intervall [a, b]

Modellierung einer stetigen Verteilung, in der alle Realisationen in einemIntervall [a, b] als

”gleichwahrscheinlich“ angenommen werden.

Verteilung hangt von den beiden Parametern a, b ∈ R mit a < b ab.

Dichtefunktion fX einer gleichverteilten Zufallsvariablen X kann auf Intervall[a, b] konstant zu 1

b−a gewahlt werden.

Trager der Verteilung: T (X ) = [a, b]

Symbolschreibweise fur stetige Gleichverteilung auf [a, b]: X ∼ Unif(a, b)



Stetige Gleichverteilung Parameter:Unif(a, b) a, b ∈ R mit a < b

Trager: T (X ) = [a, b]Dichtefunktion: fX : R→ R;

fX (x) =

1

b−a fur a ≤ x ≤ b

0 sonst0 1 2 3 4

0.0

0.2

0.4

0.6

fX

x

f X(x

)

a = 1, b = 3

Verteilungsfunktion: FX : R→ R;

FX (x) =

0 fur x < a

x−ab−a fur a ≤ x ≤ b

1 fur x > b0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

1.0

FX

xF

X(x

)

a = 1, b = 3

Momente: E (X ) = a+b2 Var(X ) = (b−a)2

12

γ(X ) = 0 κ(X ) = 95



Normalverteilung

Verteilung entsteht als Grenzverteilung bei Durchschnittsbildung vieler(unabhangiger) Zufallsvariablen (spater mehr!) Einsatz fur Naherungen

Familie der Normalverteilungen hat Lageparameter µ ∈ R, der mitErwartungswert ubereinstimmt, und Streuungsparameter σ2 > 0, der mitVarianz ubereinstimmt, Standardabweichung ist dann σ := +

√σ2.

Verteilungsfunktion von Normalverteilungen schwierig zu handhaben,Berechnung muss i.d.R. mit Software/Tabellen erfolgen.

Wichtige Eigenschaft der Normalverteilungsfamilie:Ist X normalverteilt mit Parameter µ = 0 und σ2 = 1, dann ist

aX + b fur a, b ∈ R normalverteilt mit Parameter µ = b und σ2 = a2.

Zuruckfuhrung allgemeiner Normalverteilungen auf den Fall derStandardnormalverteilung (Gauß-Verteilung) mit Parameter µ = 0 undσ2 = 1, Tabellen/Algorithmen fur Standardnormalverteilung damit einsetzbar.

Dichtefunktion der Standardnormalverteilung: ϕ, Verteilungsfunktion: Φ.

Trager aller Normalverteilungen ist T (X ) = R.

Symbolschreibweise fur Normalverteilung mit Parameter µ, σ2: X ∼ N(µ, σ2)



Normalverteilung Parameter:N(µ, σ2) µ ∈ R, σ2 > 0

Trager: T (X ) = RDichtefunktion: fX : R→ R;

fX (x) =1√2πσ

e−(x−µ)2

2σ2 =1

σϕ

(x − µσ

)0 5 10

0.00

0.05

0.10

0.15

0.20

fX

x

f X(x

)

µ = 5, σ2 = 4


FX : R→ R; FX (x) = Φ

(x − µσ

)0 5 10

0.0

0.2

0.4

0.6

0.8

1.0

FX

xF

X(x

)

µ = 5, σ2 = 4

Momente: E (X ) = µ Var(X ) = σ2

γ(X ) = 0 κ(X ) = 3



Arbeiten mit Normalverteilungen

Problem (nicht nur) bei normalverteilten Zufallsvariablen X ∼ N(µ, σ2):Verteilungsfunktion FX und Quantilsfunktion F−1

X schlecht handhabbar bzw.nicht leicht auszuwerten!

Traditionelle Losung: Tabellierung der entsprechenden Funktionswerte

Losung nicht mehr zeitgemaß: (kostenlose) PC-Software fur alle benotigtenVerteilungsfunktionen verfugbar, zum Beispiel Statistik-Software R(http://www.r-project.org)

Aber: In Klausur keine PCs verfugbar, daher dort Ruckgriff auf (dort zurVerfugung gestellte) Tabellen.

Wegen der Symmetrie der Standardnormalverteilung um 0 gilt nicht nurϕ(x) = ϕ(−x) fur alle x ∈ R, sondern auch

Φ(x) = 1− Φ(−x) fur alle x ∈ R .

Daher werden Tabellen fur Φ(x) in der Regel nur fur x ∈ R+ erstellt.


http://www.r-project.org


Ausschnitt aus Tabelle fur Φ(x)

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.090.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.53590.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.57530.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.61410.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.65170.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879

0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.72240.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.75490.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.78520.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.81330.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389

1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.86211.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.88301.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.90151.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.91771.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319

1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.94411.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.95451.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.96331.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.97061.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767

2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.98172.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.98572.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.98902.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.99162.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936



Beispiel: Arbeiten mit Normalverteilungstabelle

Frage: Mit welcher Wahrscheinlichkeit nimmt eine N(100, 82)-verteilteZufallsvariable Werte kleiner als 90 an? (Wie groß ist die schraffierte Flache?)

70 80 90 100 110 120 130

0.00

0.02

0.04

x

f N(1

00, 8

2 )(x)

µ = 100, σ2 = 82

Antwort: Ist X ∼ N(100, 82), so gilt:

PX < 90 = FN(100,82)(90) = Φ

(90− 100

8

)= Φ(−1.25) = 1− Φ(1.25) = 1− 0.8944 = 0.1056

Die gesuchte Wahrscheinlichkeit ist 0.1056 = 10.56%.Okonometrie (SS 2019) Folie 29


Frage: Welchen Wert x uberschreitet eine N(100, 82)-verteilte Zufallsvariablenur mit 2.5% Wahrscheinlichkeit? (Welche linke Grenze x fuhrt bei derschraffierten Flache zu einem Flacheninhalt von 0.025?)

70 80 90 100 110 120 130

0.00

0.02

0.04

f N(1

00, 8

2 )(x) 2.5%

<− | −>?

µ = 100, σ2 = 82

Antwort: Ist X ∼ N(100, 82), so ist das 97.5%- bzw. 0.975-Quantil von Xgesucht. Mit

FX (x) = FN(100,82)(x) = Φ

(x − 100

8

)und der Abkurzung Np fur das p-Quantil der N(0, 1)-Verteilung erhalt man

Φ

(x − 100

8

)!

= 0.975 ⇔ x − 100

8= Φ−1(0.975) = N0.975 = 1.96

⇒ x = 8 · 1.96 + 100 = 115.68



Beispiel: Arbeiten mit Statistik-Software R

Beantwortung der Fragen (noch) einfacher mit Statistik-Software R:

Frage: Mit welcher Wahrscheinlichkeit nimmt eine N(100, 82)-verteilteZufallsvariable Werte kleiner als 90 an?

Antwort:

> pnorm(90,mean=100,sd=8)

[1] 0.1056498

Frage: Welchen Wert x uberschreitet eine N(100, 82)-verteilte Zufallsvariablenur mit 2.5% Wahrscheinlichkeit?

Antwort:

> qnorm(0.975,mean=100,sd=8)

[1] 115.6797



Mehrdimensionale Zufallsvariablen/Zufallsvektoren I

Simultane Betrachtung mehrerer (endlich vieler) Zufallsvariablen zurUntersuchung von Abhangigkeiten moglich (und fur die Okonometrie spatererforderlich!)

Ist n ∈ N die Anzahl der betrachteten Zufallsvariablen, so fasst man die nZufallsvariablen X1, . . . ,Xn auch in einem n-dimensionalen VektorX = (X1, . . . ,Xn)′ zusammen und befasst sich dann mit der gemeinsamenVerteilung von X .

Die meisten bekannten Konzepte eindimensionaler Zufallsvariablen sind leichtubertragbar, nur technisch etwas anspruchsvoller.

Zwei Spezialfalle: Diskrete Zufallsvektoren und stetige Zufallsvektoren



Mehrdimensionale Zufallsvariablen/Zufallsvektoren II

Die gemeinsame Verteilung eines diskreten Zufallsvektors kann durch eine(mehrdimensionale) gemeinsame Wahrscheinlichkeitsfunktion pX : Rn → Rmit pX(x) := PX = x fur x ∈ Rn festgelegt werden.

Wahrscheinlichkeiten PX ∈ A dafur, dass X Werte in der Menge Aannimmt, konnen dann wiederum durch Aufsummieren derPunktwahrscheinlichkeiten aller Tragerpunkte xi mit xi ∈ A berechnetwerden:

PX ∈ A =∑

xi∈A∩T (X)

pX(xi )

Die gemeinsame Verteilung eines stetigen Zufallsvektors kann durchAngabe einer gemeinsamen Dichtefunktion fX : Rn → R spezifiziertwerden, mit deren Hilfe sich Wahrscheinlichkeiten von Quadern im Rn (uberMehrfachintegrale) ausrechnen lassen:

PX(A) =

∫ b1

a1

· · ·∫ bn

an

fX(t1, . . . , tn)dtn · · · dt1

fur A = (a1, b1]× · · · × (an, bn] ⊂ Rn mit a1 ≤ b1, . . . , an ≤ bn



Mehrdimensionale Zufallsvariablen/Zufallsvektoren III

Die Verteilungen der einzelnen Zufallsvariablen X1, . . . ,Xn einesn-dimensionalen Zufallsvektors nennt man auch Randverteilungen.

Bei diskreten Zufallsvektoren sind auch die einzelnen ZufallsvariablenX1, . . . ,Xn diskret, die zugehorigen WahrscheinlichkeitsfunktionenpX1 , . . . , pXn nennt man dann auch Randwahrscheinlichkeitsfunktionen.

Bei stetigen Zufallsvektoren sind auch die einzelnen ZufallsvariablenX1, . . . ,Xn stetig, zugehorige Dichtefunktionen fX1 , . . . , fXn nennt man dannauch Randdichte(funktione)n.

Randwahrscheinlichkeits- bzw. Randdichtefunktionen konnen durch(Mehrfach)summen bzw. (Mehrfach)integrale aus der gemeinsamenWahrscheinlichkeits- bzw. Dichtefunktion gewonnen werden (siehe FolienWahrscheinlichkeitsrechnung).



Unabhangigkeit von Zufallsvariablen, Abhangigkeitmaße I

Diskrete bzw. stetige Zufallsvektoren heißen (stochastisch) unabhangig,wenn man ihre gemeinsame Wahrscheinlichkeits- bzw. Dichtefunktion alsProdukt der jeweiligen Randwahrscheinlichkeits- bzw. Randdichtefunktionen

pX(x) =n∏

i=1

pXi (xi ) = pX1 (x1) · . . . · pXn (xn)

bzw.

fX(x) =n∏

i=1

fXi (xi ) = fX1 (x1) · . . . · fXn (xn)

fur alle x = (x1, . . . , xn) ∈ Rn gewinnen kann.(Im stetigen Fall: siehe Folien WR fur

”exakte“ bzw.

”korrekte“ Formulierung!)



Unabhangigkeit von Zufallsvariablen, Abhangigkeitmaße II

Bei fehlender Unabhangigkeit: Betrachtung bedingter Verteilungen und(paarweise) linearer Abhangigkeiten interessant!

Bedingte Verteilungen:Was weiß man uber die Verteilung einer Zufallsvariablen (konkreter), wennman die Realisation (einer oder mehrerer) anderer Zufallsvariablen bereitskennt?

Lineare Abhangigkeiten:Treten besonders große Realisation einer Zufallsvariablen haufig imZusammenhang mit besondere großen (oder besonders kleinen) Realisationeneiner anderen Zufallsvariablen auf (mit einem entsprechenden Zusammenhangfur besonders kleine Realisationen der ersten Zufallsvariablen);lasst sich dieser Zusammenhang gut durch eine Gerade beschreiben?



Unabhangigkeit von Zufallsvariablen, Abhangigkeitmaße III

Zur einfacheren Darstellung: Bezeichnung X bzw. Y statt Xi und Xj fur zweiZufallsvariablen (aus einem Zufallsvektor).

Maß fur lineare Abhangigkeit zweier Zufallsvariablen X und Y : Kovarianz

σXY := Cov(X ,Y ) := E [(X − E(X )) · (Y − E(Y ))]!

= E(X ·Y )−E(X ) ·E(Y )

(Zur Berechnung von E(X · Y ) siehe Folien WR!)

Rechenregeln fur Kovarianzen (X ,Y ,Z Zufallsvariablen aus Zufallsvektor,a, b ∈ R):

1 Cov(aX , bY ) = ab Cov(X ,Y )2 Cov(X + a,Y + b) = Cov(X ,Y )

(Translationsinvarianz)3 Cov(X ,Y ) = Cov(Y ,X )

(Symmetrie)4 Cov(X + Z ,Y ) = Cov(X ,Y ) + Cov(Z ,Y )5 Cov(X ,X ) = Var(X )6 X , Y stochastisch unabhangig ⇒ Cov(X ,Y ) = 0



Unabhangigkeit von Zufallsvariablen, Abhangigkeitmaße IV

”Nachteil“ der Kovarianz:

Erreichbare Werte hangen nicht nur von Starke der linearen Abhangigkeit,sondern (wie z.B. aus Rechenregel 1 von Folie 37 ersichtlich) auch von derStreuung von X bzw. Y ab.

Wie in deskriptiver Statistik: Alternatives Abhangigkeitsmaß mit normiertem

”Wertebereich“, welches invariant gegenuber Skalierung von X bzw. Y ist.

Hierzu Standardisierung der Kovarianz uber Division durchStandardabweichungen von X und Y (falls σX > 0 und σY > 0!).

Man erhalt so den Pearsonschen Korrelationskoeffizienten:

ρXY := Korr(X ,Y ) :=σXY

σX · σY=

Cov(X ,Y )

+√

Var(X ) · Var(Y )



Unabhangigkeit von Zufallsvariablen, Abhangigkeitmaße V

Rechenregeln: Sind X und Y Zufallsvariablen aus einem Zufallsvektor mitσX > 0, σY > 0 und a, b ∈ R, so gilt:

1 Korr(aX , bY ) =

Korr(X ,Y ) falls a · b > 0

−Korr(X ,Y ) falls a · b < 02 Korr(X + a,Y + b) = Korr(X ,Y )

(Translationsinvarianz)3 Korr(X ,Y ) = Korr(Y ,X )

(Symmetrie)4 −1 ≤ Korr(X ,Y ) ≤ 15 Korr(X ,X ) = 1

6Korr(X ,Y ) = 1Korr(X ,Y ) = −1

genau dann, wenn Y = aX + b mit

a > 0a < 0

7 X , Y stochastisch unabhangig ⇒ Korr(X ,Y ) = 0

Zufallsvariablen X , Y mit Cov(X ,Y ) = 0 (!) heißen unkorreliert.



Beispiel: Zweidimensionale Normalverteilung I

Wichtige mehrdimensionale stetige Verteilung: mehrdimensionale(multivariate) Normalverteilung

Spezifikation am Beispiel der zweidimensionalen (bivariaten)Normalverteilung durch Angabe einer Dichtefunktion

fX ,Y (x , y) = 1

2πσXσY

√1−ρ2

e

− 1

2(1−ρ2)

[(x−µXσX

)2−2ρ

(x−µXσX

)(y−µYσY

)+(

y−µYσY

)2]

abhangig von den Parametern µX , µY ∈ R, σX , σY > 0, ρ ∈ (−1, 1).

Man kann zeigen, dass die Randverteilungen von (X ,Y ) dann wieder(eindimensionale) Normalverteilungen sind, genauer gilt X ∼ N(µX , σ

2X ) und

Y ∼ N(µY , σ2Y )

Außerdem kann der Zusammenhang Korr(X ,Y ) = ρ gezeigt werden.



Beispiel: Zweidimensionale Normalverteilung II

Sind fX bzw. fY die wie auf Folie 26 definierten Dichtefunktionen zurN(µX , σ

2X )- bzw. N(µY , σ

2Y )-Verteilung, so gilt (genau) im Fall ρ = 0

fX ,Y (x , y) = fX (x) · fY (y) fur alle x , y ∈ R ,

also sind X und Y (genau) fur ρ = 0 stochastisch unabhangig.

Auch fur ρ 6= 0 sind die bedingten Verteilungen von X |Y = y und Y |X = xwieder Normalverteilungen, es gilt genauer:

X |Y = y ∼ N

(µX +

ρσX

σY(y − µY ), σ2

X (1− ρ2)

)bzw.

Y |X = x ∼ N

(µY +

ρσY

σX(x − µX ), σ2

Y (1− ρ2)

)



Beispiel: Zweidimensionale Normalverteilung III

x

−4

−2

02

46y

0

2

4

6

f(x,y)

0.02

0.04

0.06

Dichtefunktion der mehrdimensionalen Normalverteilung

µX = 1, µY = 3, σX2 = 4, σY

2 = 2, ρ = 0.5



Beispiel: Zweidimensionale Normalverteilung IV

Isohöhenlinien der mehrdimensionalen Normalverteilungsdichte

µX = 1, µY = 3, σX2 = 4, σY

2 = 2, ρ = 0.5x

y

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

0.045

0.05

0.055

0.06

−4 −2 0 2 4 6

02

46



Beispiel: Zweidimensionale Normalverteilung V

x

−3

−2

−10

12

3

y−3

−2

−1

0

1

23

f(x,y)

0.05

0.10

0.15


µX = 0, µY = 0, σX2 = 1, σY

2 = 1, ρ = 0



Beispiel: Zweidimensionale Normalverteilung VI


µX = 0, µY = 0, σX2 = 1, σY

2 = 1, ρ = 0x

y

0.02

0.04

0.06

0.08

0.1

0.12

0.14

−3 −2 −1 0 1 2 3

−3

−2

−1

01

23



Beispiel: Zweidimensionale Normalverteilung VII

x

4

6

810

1214

16

y4

6

8

10

12

1416

f(x,y)

0.00

0.05

0.10


µX = 10, µY = 10, σX2 = 4, σY

2 = 4, ρ = −0.95



Beispiel: Zweidimensionale Normalverteilung VIII


µX = 10, µY = 10, σX2 = 4, σY

2 = 4, ρ = −0.95x

y

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

0.11

0.12

4 6 8 10 12 14 16

46

810

1214

16



Momente von Summen von Zufallsvariablen I

Sind X und Y zwei Zufallsvariablen aus einem Zufallsvektor und a, b, c ∈ R,so gilt:

E(a · X + b · Y + c) = a · E(X ) + b · E(Y ) + c

und

Var(aX + bY + c) = a2 Var(X ) + 2ab Cov(X ,Y ) + b2 Var(Y )

Dies kann fur mehr als zwei Zufallsvariablen X1, . . . ,Xn eines Zufallsvektorsweiter verallgemeinert werden!



Momente von Summen von Zufallsvariablen II

Fur einen n-dimensionalen Zufallsvektor X = (X1, . . . ,Xn)′ heißt dern-dimensionale Vektor

E(X) := [E(X1), . . . ,E(Xn)]′

Erwartungswertvektor von X und die n × n-Matrix

V(X) := E[(X− E(X)) · (X− E(X))′

]:=

E[(X1 − E(X1)) · (X1 − E(X1))] · · · E[(X1 − E(X1)) · (Xn − E(Xn))]...

. . ....

E[(Xn − E(Xn)) · (X1 − E(X1))] · · · E[(Xn − E(Xn)) · (Xn − E(Xn))]

=

Var(X1) Cov(X1,X2) · · · Cov(X1,Xn−1) Cov(X1,Xn)

Cov(X2,X1) Var(X2) · · · Cov(X2,Xn−1) Cov(X2,Xn)...

.... . .

......

Cov(Xn−1,X1) Cov(Xn−1,X2) · · · Var(Xn−1) Cov(Xn−1,Xn)Cov(Xn,X1) Cov(Xn,X2) · · · Cov(Xn,Xn−1) Var(Xn)

(Varianz-)Kovarianzmatrix von X.



Momente von Summen von Zufallsvariablen III

In Verallgemeinerung von Folie 48 erhalt man fur eine gewichtete Summe

n∑i=1

wi · Xi = w1 · X1 + · · ·+ wn · Xn (w = (w1, . . . ,wn)′ ∈ Rn)

den Erwartungswert E

(n∑

i=1

wi · Xi

)=

n∑i=1

wi · E(Xi ) = w′ E(X)

die Varianz

Var

(n∑

i=1

wi · Xi

)=

n∑i=1

n∑j=1

wi · wj · Cov(Xi ,Xj )

=n∑

i=1

w 2i · Var(Xi ) + 2

n−1∑i=1

n∑j=i+1

wi · wj · Cov(Xi ,Xj )

= w′ V(X)w



Summen unabhangig identisch verteilter Zufallsvariablen I

Sind fur n ∈ N die Zufallsvariablen X1, . . . ,Xn eines n-dimensionalenZufallsvektors stochastisch unabhangig (damit unkorreliert!) und identischverteilt (

”u.i.v.“ oder

”i.i.d.“) mit E(Xi ) ≡ µX und Var(Xi ) ≡ σ2

X , dann giltfur die Summe Yn :=

∑ni=1 Xi also

E(Yn) = n · µX sowie Var(Yn) = n · σ2X

und man erhalt durch

Zn :=Yn − nµX

σX√

n=

(1n

∑ni=1 Xi

)− µX

σX

√n

standardisierte Zufallsvariablen (mit E(Zn) = 0 und Var(Zn) = 1).

Zentraler Grenzwertsatz:Verteilung von Zn konvergiert fur n→∞ gegen eine N(0, 1)-Verteilung(Standardnormalverteilung).

Gilt sogar Xiiid∼ N(µX , σ

2X ), so gilt (exakt!) Zn ∼ N(0, 1) fur alle n ∈ N.



Summen unabhangig identisch verteilter Zufallsvariablen II

Anwendung des zentralen Grenzwertsatzes z.B. dadurch, dass mannaherungsweise (auch falls Xi nicht normalverteilt ist) furhinreichend großes n ∈ N

I die N(nµX , nσ2X )-Verteilung fur Yn :=

n∑i=1

Xi oder

I die Standardnormalverteilung fur Zn :=Yn − nµX

σX√

n=

(1n

∑ni=1 Xi

)− µX

σX

√n

verwendet.

Leicht zu merken:

Man verwendet naherungsweise die Normalverteilung mit

”passendem“ Erwartungswert und

”passender“ Varianz!


2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3





Grundidee der schließenden Statistik

Ziel der schließenden Statistik/induktiven Statistik:

Ziehen von Ruckschlussen auf dieVerteilung einer (großeren) Grundgesamtheit auf Grundlage der

Beobachtung einer (kleineren) Stichprobe.

Ruckschlusse auf die Verteilung konnen sich auch beschranken auf spezielleEigenschaften/Kennzahlen der Verteilung, z.B. den Erwartungswert.

”Fundament“: Drei Grundannahmen

1 Der interessierende Umweltausschnitt kann durch eine (ein- odermehrdimensionale) Zufallsvariable Y beschrieben werden.

2 Man kann eine Menge W von Wahrscheinlichkeitsverteilungen angeben, zu derdie unbekannte wahre Verteilung von Y gehort.

3 Man beobachtet Realisationen x1, . . . , xn von (Stichproben-)ZufallsvariablenX1, . . . ,Xn, deren gemeinsame Verteilung in vollstandig bekannter Weise vonder Verteilung von Y abhangt.

Ziel ist es also, aus der Beobachtung der n Werte x1, . . . , xn mit Hilfe desbekannten Zusammenhangs zwischen den Verteilungen von X1, . . . ,Xn und YAussagen uber die Verteilung von Y zu treffen.



”Veranschaulichung“ der schließenden Statistik

Zufallsvariable YZufallsvariablen

X1, …, Xn

Realisationenx1, …, xn

Grundgesamtheit Ziehungsverfahren Stichprobe

induziert

Verteilung von

(konkrete) Ziehung/

Auswahl der Stichprobe

führt zu

Rückschluss auf

Verteilung/Kenngrößen



Bemerkungen zu den 3 Grundannahmen

Die 1. Grundannahme umfasst insbesondere die Situation, in der dieZufallsvariable Y einem numerischen Merkmal auf einer endlichen Menge vonMerkmalstragern entspricht, wenn man mit der Zufallsvariable Y dasFeststellen des Merkmalswerts eines rein zufallig (gleichwahrscheinlich)ausgewahlten Merkmalstragers beschreibt.In diesem Fall interessiert man sich haufig fur bestimmte Kennzahlen von Y ,z.B. den Erwartungswert von Y , der dann mit dem arithmetischen Mittelaller Merkmalswerte ubereinstimmt.

Die Menge W von Verteilungen aus der 2. Grundannahme ist haufig eineparametrische Verteilungsfamilie, zum Beispiel die Menge allerNormalverteilungen mit Varianz σ2 = 22.

Wir beschranken uns auf sehr einfache Zusammenhange zwischen derVerteilung der interessierenden Zufallsvariablen Y und der Verteilung derZufallsvariablen X1, . . . ,Xn.



Einfache (Zufalls-)Stichprobe

”Einfachster“ Zusammenhang zwischen X1, . . . ,Xn und Y :I Alle Zufallsvariablen X1, . . . ,Xn haben dieselbe Verteilung wie Y .I Die Zufallsvariablen X1, . . . ,Xn sind stochastisch unabhangig.

Zufallsvariablen X1, . . . ,Xn mit diesen beiden Eigenschaften nennt man eineeinfache (Zufalls-)Stichprobe vom Umfang n zu Y .

Eine Stichprobenrealisation x1, . . . , xn einer solchen einfachen Stichprobevom Umfang n erhalt man z.B., wennI Y das Werfen eines bestimmten Wurfels beschreibt und x1, . . . , xn die

erhaltenen Punktzahlen sind, wenn man den Wurfel n Mal geworfen hat.I Y das Feststellen des Merkmalswerts eines rein zufallig (gleichwahrscheinlich)

ausgewahlten Merkmalstragers beschreibt und x1, . . . , xn die Merkmalswertesind, die man bei n-maliger rein zufalliger Auswahl eines Merkmalstragers alszugehorige Merkmalswerte erhalten hat, wobei die Mehrfachauswahl desselbenMerkmalstragers nicht ausgeschlossen wird.



Stichprobenfunktionen

Die Realisation x1, . . . , xn einer Stichprobe hat große Ahnlichkeit mit einerUrliste zu einem Merkmal aus der deskriptiven Statistik.

Die Information aus einer Stichprobe wird in der Regel zunachst mitsogenannten Stichprobenfunktionen weiter aggregiert; auch diese haben oft(große) Ahnlichkeit mit Funktionen, die in der deskriptiven Statistik zurAggregierung von Urlisten eingesetzt werden.

Interessant sind nicht nur die Anwendung dieser Stichprobenfunktionen aufbereits vorliegende Stichprobenrealisationen x1, . . . , xn, sondern auch auf dieStichprobenzufallsvariablen X1, . . . ,Xn selbst, was dann zu einer neuenZufallsvariablen fuhrt!

”Bekannteste“ Stichprobenfunktion:

X :=1

n

n∑i=1

Xi bzw. x :=1

n

n∑i=1

xi



Illustration: Realisationen x von X

Beispiel: Verschiedene Realisationen x von X , wenn Y die Punktzahl einesfairen Wurfels beschreibt und wiederholt Stichprobenrealisationen x1, . . . , x5

vom Umfang n = 5 (durch jeweils 5-maliges Wurfeln mit diesem Wurfel)generiert werden:

Stichprobe Nr. x1 x2 x3 x4 x5 x

1 2 3 4 6 2 3.42 6 6 4 4 1 4.23 2 2 5 3 5 3.44 3 5 6 3 5 4.45 6 2 4 1 2 36 3 1 3 6 3 3.27 3 4 3 2 5 3.48 5 5 1 5 3 3.89 5 4 5 4 4 4.4...

......

......

......

...



Visualisierung Verteilung X / Zentraler Grenzwertsatzim

”Wurfelbeispiel“ mit einfachen Stichproben vom Umfang n

0.00

0.05

0.10

0.15

0.20

n=1

xi

p X(x

i)

1 2 3 4 5 6

0.00

0.05

0.10

0.15

n=2

xi

p X(x

i)

1 2 3 4 5 6

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

n=3

xi

p X(x

i)

1 2 3 4 5 6

0.00

0.02

0.04

0.06

0.08

0.10

0.12

n=4

xi

p X(x

i)

1 1.75 2.75 3.75 4.75 5.75

0.00

0.02

0.04

0.06

0.08

0.10

n=5

xi

p X(x

i)

1 1.8 2.6 3.4 4.2 5 5.8

0.00

0.02

0.04

0.06

0.08

n=6

xi

p X(x

i)

1 2 3 4 5 6



Bemerkungen

Fur Augenzahl Y eines fairen Wurfels gilt: E(Y ) = 3.5.

Realisationen x aus Realisationen einer einfachen Stichprobe vom Umfang nzu Y schwanken offensichtlich um den Erwartungswert von Y .

Genauer kann leicht gezeigt werden (vgl. Ubungsaufgabe!), dass (generell!)E(X ) = E(Y ) gilt.

Je großer der Stichprobenumfang n ist, desto naher liegen tendenziell dieRealisationen von x am Erwartungswert.

Genauer kann leicht gezeigt werden (vgl. Ubungsaufgabe!), dass (generell!)

σX =σY√

ngilt und sich somit die Standardabweichung von X halbiert, wenn

n vervierfacht wird.

Offensichtlich wird die Naherung der Werteverteilung von X durch eineNormalverteilung ( Zentraler Grenzwertsatz) immer besser, je großer derStichprobenumfang n ist.



(Punkt-)Schatzfunktionen

Mit den beschriebenen Eigenschaften scheint X sehr gut geeignet, um aufGrundlage einer Stichprobenrealisation Aussagen uber den Erwartungswertvon Y zu machen (wenn dieser – anders als im Beispiel – unbekannt ist).

Unbekannt ware der Erwartungswert zum Beispiel auch beim Wurfelngewesen, wenn man nicht gewusst hatte, ob der Wurfel fair ist!

X bzw. x konnen so unmittelbar zur Schatzung von µY := E(Y ) oder pbzw. µ verwendet werden; in diesem Zusammenhang nennt man X dann(Punkt-)Schatzfunktion oder (Punkt-)Schatzer, x die zugehorigeRealisation oder den Schatzwert.

Wegen der Zusammenhange zwischen Erwartungswert undVerteilungsparameter (vgl. Folien 20 bzw. 26) konnen so auch Aussagen uberden Parameter p der Alternativ- bzw. den Parameter µ der Normalverteilunggewonnen werden. X wird dann auch Parameter(punkt)schatzer genannt.



(Qualitats-)Eigenschaften von Schatzfunktionen I

Im Beispiel offensichtlich: Wer schatzt, macht Fehler!

Zur Untersuchung der Qualitat von Punktschatzfunktionen:

Untersuchung der Verteilung (!) des Schatzfehlers

Zur Vereinheitlichung der Schreibweise:”Bezeichnung“

I θ fur die SchatzfunktionI θ fur die zu schatzende Große

Schatzfehler damit also: θ − θOffensichtlich wunschenswert: Verteilung des Schatzfehlers nahe bei Null

Gangige Konkretisierung von”nahe bei Null“: Erwartete quadratische

Abweichung (Englisch: Mean Square Error, MSE)

MSE(θ) := E

[(θ − θ

)2]

soll moglichst klein sein.



(Qualitats-)Eigenschaften von Schatzfunktionen II

Man kann leicht zeigen:

MSE(θ) = E[(θ − θ)2

]= Var(θ − θ)︸︷︷︸

=Var(θ)

+[ E(θ − θ)︸︷︷︸=:Bias(θ)

]2

Mit Bias(θ) = E(θ − θ) = E(θ)− θ wird also die systematische Abweichung(Abweichung im Mittel, Verzerrung) eines Schatzers von der zu schatzendenGroße bezeichnet.

Gibt es keine solche systematische Abweichung (gilt also Bias(θ) = 0 fur alle

denkbaren Werte von θ), so nennt man θ erwartungstreu fur θ.√Var(θ) wird auch Standardfehler oder Stichprobenfehler von θ genannt.

Bei Schatzung von E(Y ) mit X gilt:

MSE(X ) = E[(X − E(Y ))2

] E(X )=E(Y )= Var(X ) = σ2

X=σ2

Y

n



(Qualitats-)Eigenschaften von Schatzfunktionen III

Naheliegende”Mindestanforderung“: Mit wachsendem Stichprobenumfang n

sollte der MSE einer vernunftigen Schatzfunktion gegen Null gehen.

Schatzfunktionen θ fur θ, die diese Forderung erfullen, heißen konsistent imquadratischen Mittel oder MSE-konsistent fur θ.

Wegen MSE(X ) =σ2

Y

n ist X offensichtlich MSE-konsistent fur E(Y ).

Mit der Zerlegung (vgl. Folie 64)

MSE(θ) = Var(θ) + [Bias(θ)]2

ist θ also genau dann konsistent im quadratischen Mittel fur θ, wenn jeweilsfur alle denkbaren Werte von θ sowohl

1 die Varianz von θ gegen Null geht als auch2 der Bias von θ gegen Null geht

(diese Eigenschaft heißt auch asymptotische Erwartungstreue).



(Qualitats-)Eigenschaften von Schatzfunktionen IV

Beim Vergleich mehrerer Schatzfunktionen ist es gangig, die Schatzfunktionvorzuziehen, die den

”kleineren“ MSE hat.

Damit zieht man bei erwartungstreuen Schatzfunktionen die mit”geringerer“

Varianz vor.

Wichtig hierbei ist, dass man”universelle“ Vergleiche zu ziehen hat, also nicht

nur spezielle Situationen (also spezielle θ) betrachtet. Bei erwartungstreuen

Schatzfunktionen θ und θ heißt1 θ mindestens so wirksam wie θ, wenn Var(θ) ≤ Var(θ) fur alle denkbaren

Werte von θ gilt, und2 θ wirksamer als θ, wenn daruberhinaus Var(θ) < Var(θ) fur mindestens einen

denkbaren Wert von θ gilt.

Eine Schatzfunktion, die in einer vorgegebenen Menge von Schatzfunktionenmindestens so wirksam ist wie alle anderen Schatzfunktionen, heißt effizientin dieser Menge von Schatzfunktionen.



Schatzung von Var(Y )

Naheliegender Ansatz zur Schatzung der Varianz σ2Y = Var(Y ) aus einer

einfachen Stichprobe X1, . . . ,Xn vom Umfang n zu Y : Verwendung derempirischen Varianz

1

n

n∑i=1

(Xi − X )2 bzw.1

n

n∑i=1

(xi − x)2

Man kann allerdings zeigen, dass diese Schatzfunktion nicht erwartungstreufur die Varianz von Y ist!

Bei dieser Rechnung wird allerdings klar, dass man mit der leichtenAnpassung

S2 :=1

n − 1

n∑i=1

(Xi − X )2 bzw. s2 :=1

n − 1

n∑i=1

(xi − x)2

eine erwartungstreue Schatzfunktion fur σ2Y erhalt.



Intervallschatzung von µY := E(Y )

(Realisation der) Punktschatzfunktion X fur µY beinhaltet (zunachst) keineInformation uber die Qualitat der Schatzung (bzw. uber den zu erwartendenSchatzfehler).

Bisher: Varianz σ2X

:= Var(X ) (hier gleich mit MSE!) bzw. Standardfehler

σX =√

Var(X ) zur Quantifizierung der Schatzunsicherheit verwendet.

Weitergehender Ansatz:Nicht nur Momente von X (hier: Varianz), sondern komplette Verteilungberucksichtigen!

Erinnerung: X entsteht als (durch n dividierte) Summe unabhangigidentisch verteilter Zufallsvariablen. X ist N

(µY ,

σ2Yn

)-verteilt, falls Xi (bzw. Y ) normalverteilt

(Wahrscheinlichkeitsrechnung!).

X kann naherungsweise als N(µY ,

σ2Yn

)-verteilt angesehen, falls Xi (bzw. Y )

nicht normalverteilt (Zentraler Grenzwertsatz!).



Die Qualitat der Naherung durch eine Normalverteilung wird mitzunehmendem Stichprobenumfang großer, hangt aber ganz entscheidendvon der Verteilung von Y ab!

Pauschale Kriterien an den Stichprobenumfang n (”Daumenregeln“, z.B.

n ≥ 30) finden sich haufig in der Literatur, sind aber nicht ganz unkritisch.

Verteilungseigenschaft X ∼ N(µ, σ

2

n

)bzw. X

•∼ N(µ, σ

2

n

)wird meistens

(aquivalent!) in der (auch aus dem zentralen Grenzwertsatz bekannten)Gestalt

X − µσ

√n ∼ N(0, 1) bzw.

X − µσ

√n•∼ N(0, 1)

verwendet, da dann Verwendung von Tabellen zur Standardnormalverteilungmoglich.



Beispiel: Naherung fur X−µσ

√n, falls Y ∼ Unif(20, 50)

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

f(x)

N(0,1)n=2

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

f(x)

N(0,1)n=4

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

f(x)

N(0,1)n=7

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

f(x)

N(0,1)n=12




√n, falls Y ∼ Exp(2)

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

f(x)

N(0,1)n=3

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

f(x)

N(0,1)n=10

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

f(x)

N(0,1)n=30

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

f(x)

N(0,1)n=250




√n, falls Y ∼ B(1, 0.5)

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

f(x)

N(0,1)n=3

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

f(x)

N(0,1)n=10

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

f(x)

N(0,1)n=30

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

f(x)

N(0,1)n=250




√n, falls Y ∼ B(1, 0.05)

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

f(x)

N(0,1)n=3

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

f(x)

N(0,1)n=10

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

f(x)

N(0,1)n=30

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

f(x)

N(0,1)n=250



Schwankungsintervalle fur X I

Kennt man die Verteilung von X (oder eine geeignete Naherung), kann manbeispielsweise Intervalle angeben, in denen die Realisationen von X (ggf.naherungsweise) mit einer vorgegebenen Wahrscheinlichkeit liegen.

Sucht man zum Beispiel ein Intervall, aus welchem die Realisationen einerZufallsvariablen nur mit einer Wahrscheinlichkeit von 0 < α < 1 herausfallen,bietet sichI die Verwendung des α

2-Quantils, welches nur mit Wahrscheinlichkeit α

2

unterschritten wird, als untere Grenze sowieI die Verwendung des 1− α

2-Quantils, welches nur mit Wahrscheinlichkeit α

2

uberschritten wird, als obere Grenze

an (vgl. Ubungsaufgabe).



Schwankungsintervalle fur X II

Fur N(µ, σ2)-verteilte Zufallsvariablen lasst sich in Abhangigkeit des α2 - bzw.(

1− α2

)-Quantils Nα

2bzw. N1−α2 der N(0, 1)-Verteilung

I das α2

-Quantil durch µ+ σ · Nα2

undI das

(1− α

2

)-Quantil durch µ+ σ · N1−α

2

berechnen (vgl. auch Folien 26 und 30).

Unter Verwendung der Symmetrieeigenschaft

Nα = −N1−α bzw. hier Nα2

= −N1−α2

fur Quantile der Standardnormalverteilung erhalt man so die Darstellung[µ− σ · N1−α2 , µ+ σ · N1−α2

]eines um den Erwartungswert µ symmetrischen Intervalls, in dem dieRealisationen der Zufallsvariablen mit Wahrscheinlichkeit 1− α liegen bzw.mit Wahrscheinlichkeit α nicht enthalten sind.



Schwankungsintervalle fur X III

Ist X1, . . . ,Xn eine einfache Stichprobe zum Umfang n zu Y , und sindµY = E(Y ) der Erwartungswert und σY =

√Var(Y ) die Standardabweichung

von Y , so erhalt man also unter Verwendung von X ∼ N(µY ,

σ2Y

n

)(exakt

oder naherungsweise!) fur vorgegebenes 0 < α < 1

P

X ∈

[µY −

σY√n· N1−α2 , µY +

σY√n· N1−α2

]= 1− α

und damit das (symmetrische) (1− α)-Schwankungsintervall[µY −

σY√n· N1−α2 , µY +

σY√n· N1−α2

]von X .



Beispiel: Schwankungsintervall

Aufgabenstellung:I Es gelte Y ∼ N(50, 102).I Zu Y liege eine einfache Stichprobe X1, . . . ,X25 der Lange n = 25 vor.I Gesucht ist ein 1− α = 0.95-Schwankungsintervall fur X .

Losung:I Es gilt also µY = 50, σ2

Y = 102, n = 25 und α = 0.05.I Zur Berechnung des Schwankungsintervalls[

µY −σY√

n· N1−α

2, µY +

σY√n· N1−α

2

]benotigt man also nur noch das 1− α

2= 0.975-Quantil N0.975 der

Standardnormalverteilung. Dies erhalt man mit geeigneter Software (oder ausgeeigneten Tabellen) als N0.975 = 1.96.

I Insgesamt erhalt man also das Schwankungsintervall[50− 10√

25· 1.96, 50 +

10√25· 1.96

]= [46.08, 53.92] .

I Eine Stichprobenziehung fuhrt also mit einer Wahrscheinlichkeit von 95% zueiner Realisation x von X im Intervall [46.08, 53.92].



Beispiel: Schwankungsintervall (Grafische Darstellung)Im Beispiel: X ∼ N

(50, 102

25

), α = 0.05

0.00

0.05

0.10

0.15

0.20

f X(x

)

α 2 = 0.025 1 − α = 0.95 α 2 = 0.025

X

µY −σY

nN1−α

2µY µY +

σY

nN1−α

2



Konfidenzintervalle fur den Erwartungswert Ibei bekannter Varianz σ2

In der Praxis interessanter als Schwankungsintervalle fur X :Intervallschatzungen fur unbekannte Erwartungswerte µ := µY = E(Y ).

Zunachst: Annahme, dass die Varianz von σ2 := σ2Y = Var(Y ) (und damit

auch Var(X )) bekannt ist.

Fur 0 < α < 1 kann die Wahrscheinlichkeitsaussage

P

X ∈

[µ− σ√

n· N1−α2 , µ+

σ√n· N1−α2

]= 1− α

umgestellt werden zu einer Wahrscheinlichkeitsaussage der Form

P

µ ∈

[X − σ√

n· N1−α2 ,X +

σ√n· N1−α2

]= 1− α .

Dies liefert sogenannte Konfidenzintervalle[X − σ√

n· N1−α2 ,X +

σ√n· N1−α2

]fur µ zur Vertrauenswahrscheinlichkeit bzw. zum Konfidenzniveau 1−α.



Konfidenzintervalle fur den Erwartungswert IIbei bekannter Varianz σ2

In der resultierenden Wahrscheinlichkeitsaussage

P

µ ∈

[X − σ√

n· N1−α2 ,X +

σ√n· N1−α2

]= 1− α .

sind die Intervallgrenzen

X − σ√n· N1−α2 und X +

σ√n· N1−α2

des Konfidenzintervalls zufallig (nicht etwa µ!).

Ziehung einer Stichprobenrealisation liefert also Realisationen derIntervallgrenzen und damit ein konkretes Konfidenzintervall, welches denwahren (unbekannten) Erwartungswert µ entweder uberdeckt oder nicht.

Die Wahrscheinlichkeitsaussage fur Konfidenzintervalle zum Konfidenzniveau1− α ist also so zu verstehen, dass man bei der Ziehung der Stichprobe miteiner Wahrscheinlichkeit von 1− α ein Stichprobenergebnis erhalt, welches zueinem realisierten Konfidenzintervall fuhrt, das den wahren Erwartungswertuberdeckt.



Beispiel: Konfidenzintervall bei bekannter Varianz σ2

Die Zufallsvariable Y sei normalverteilt mit unbekanntem Erwartungswertund bekannter Varianz σ2 = 22.

Gesucht: Konfidenzintervall fur µ zum Konfidenzniveau 1− α = 0.99.

Als Realisation x1, . . . , x16 einer einfachen Stichprobe X1, . . . ,X16 vomUmfang n = 16 zu Y liefere die Stichprobenziehung

18.75, 20.37, 18.33, 23.19, 20.66, 18.36, 20.97, 21.48, 21.15, 19.39, 23.02,20.78, 18.76, 15.57, 22.25, 19.91 ,

was zur Realisation x = 20.184 von X fuhrt.

Als Realisation des Konfidenzintervalls fur µ zum Konfidenzniveau1− α = 0.99 erhalt man damit insgesamt[

x − σ√n· N1−α2 , x +

σ√n· N1−α2

]=

[20.184− 2√

16· 2.576, 20.184 +

2√16· 2.576

]= [18.896, 21.472] .



Verteilung von X bei unbekanntem σ2

Wie kann man vorgehen, falls die Varianz σ2 von Y unbekannt ist?

Naheliegender Ansatz: Ersetzen von σ2 durch eine geeignete Schatzfunktion.

Erwartungstreue Schatzfunktion fur σ2 bereits bekannt:

S2 =1

n − 1

n∑i=1

(Xi − X )2

Ersetzen von σ durch S =√

S2 moglich, Verteilung andert sich aber:

Satz 2.1

Seien Y ∼ N(µ, σ2), X1, . . . ,Xn eine einfache Stichprobe zu Y . Dann gilt mit

S :=√

S2 =√

1n−1

∑ni=1(Xi − X )2

X − µS

√n ∼ t(n − 1) ,

wobei t(n − 1) die t-Verteilung mit n − 1 Freiheitsgraden bezeichnet.



Die Familie der t(n)-Verteilungen

Die Familie der t(n)-Verteilungen mit n > 0 ist eine spezielle Familie stetigerVerteilungen. Der Parameter n wird meist

”Anzahl der Freiheitsgrade“

(”degrees of freedom“) genannt.

t-Verteilungen werden (vor allem in englischsprachiger Literatur) oft auch als

”Student’s t distribution“ bezeichnet;

”Student“ war das Pseudonym, unter

dem William Gosset die erste Arbeit zur t-Verteilung in englischer Spracheveroffentlichte.

t(n)-Verteilungen sind fur alle n > 0 symmetrisch um 0. Entsprechend gilt furp-Quantile der t(n)-Verteilung, die wir im Folgendem mit tn;p abkurzen,analog zu Standardnormalverteilungsquantilen

tn;p = −tn;1−p bzw. tn;1−p = −tn;p

fur alle p ∈ (0, 1)

Fur wachsendes n nahert sich die t(n)-Verteilung derStandardnormalverteilung an.



Grafische Darstellung einiger t(n)-Verteilungenfur n ∈ 2, 5, 10, 25, 100

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

f(x)

N(0,1)t(2)t(5)t(10)t(25)t(100)



Konfidenzintervalle fur den Erwartungswert Ibei unbekannter Varianz σ2

Konstruktion von Konfidenzintervallen fur µ bei unbekannter Varianzσ2 = Var(Y ) ganz analog zur Situation mit bekannter Varianz, lediglich

1 Ersetzen von σ durch S =√

S2 =√

1n−1

∑ni=1(Xi − X )2

2 Ersetzen von N1−α2

durch tn−1;1−α2

erforderlich.

Resultierendes Konfidenzintervall fur µ zur Vertrauenswahrscheinlichkeitbzw. zum Konfidenzniveau 1− α:[

X − S√n· tn−1;1−α2 ,X +

S√n· tn−1;1−α2

]



Konfidenzintervalle fur den Erwartungswert IIbei unbekannter Varianz σ2

Benotigte Quantile tn−1;1−α2 konnen ahnlich wie bei derStandardnormalverteilung z.B. mit der Statistik-Software R ausgerechnetwerden oder aus geeigneten Tabellen abgelesen werden.

Mit R erhalt man z.B. t15;0.975 durch

> qt(0.975,15)

[1] 2.13145

Mit zunehmendem n werden die Quantile der t(n)-Verteilungen betragsmaßigkleiner und nahern sich den Quantilen der Standardnormalverteilung an.

Ist Y und sind damit die Xi nicht normalverteilt, erlaubt der zentraleGrenzwertsatz dennoch die naherungsweise Verwendung einer

t(n − 1)-Verteilung fur X−µS

√n und damit auch die Berechnung von

(approximativen) Konfidenzintervallen.



Quantile der t-Verteilungen: tn;pn\p 0.85 0.90 0.95 0.975 0.99 0.995 0.9995

1 1.963 3.078 6.314 12.706 31.821 63.657 636.6192 1.386 1.886 2.920 4.303 6.965 9.925 31.5993 1.250 1.638 2.353 3.182 4.541 5.841 12.9244 1.190 1.533 2.132 2.776 3.747 4.604 8.6105 1.156 1.476 2.015 2.571 3.365 4.032 6.869

6 1.134 1.440 1.943 2.447 3.143 3.707 5.9597 1.119 1.415 1.895 2.365 2.998 3.499 5.4088 1.108 1.397 1.860 2.306 2.896 3.355 5.0419 1.100 1.383 1.833 2.262 2.821 3.250 4.781

10 1.093 1.372 1.812 2.228 2.764 3.169 4.587

11 1.088 1.363 1.796 2.201 2.718 3.106 4.43712 1.083 1.356 1.782 2.179 2.681 3.055 4.31813 1.079 1.350 1.771 2.160 2.650 3.012 4.22114 1.076 1.345 1.761 2.145 2.624 2.977 4.14015 1.074 1.341 1.753 2.131 2.602 2.947 4.073

20 1.064 1.325 1.725 2.086 2.528 2.845 3.85025 1.058 1.316 1.708 2.060 2.485 2.787 3.72530 1.055 1.310 1.697 2.042 2.457 2.750 3.64640 1.050 1.303 1.684 2.021 2.423 2.704 3.55150 1.047 1.299 1.676 2.009 2.403 2.678 3.496

100 1.042 1.290 1.660 1.984 2.364 2.626 3.390200 1.039 1.286 1.653 1.972 2.345 2.601 3.340500 1.038 1.283 1.648 1.965 2.334 2.586 3.310

1000 1.037 1.282 1.646 1.962 2.330 2.581 3.3005000 1.037 1.282 1.645 1.960 2.327 2.577 3.292



Beispiel: Konfidenzintervall bei unbekanntem σ2

Die Zufallsvariable Y sei normalverteilt mit unbekanntem Erwartungswertund unbekannter Varianz.

Gesucht: Konfidenzintervall fur µ zum Konfidenzniveau 1− α = 0.95.

Als Realisation x1, . . . , x9 einer einfachen Stichprobe X1, . . . ,X9 vom Umfangn = 9 zu Y liefere die Stichprobenziehung

28.12, 30.55, 27.49, 34.79, 30.99, 27.54, 31.46, 32.21, 31.73 ,

was zur Realisation x = 30.542 von X und zur Realisation s = 2.436 vonS =√

S2 fuhrt.

Als Realisation des Konfidenzintervalls fur µ zum Konfidenzniveau1− α = 0.95 erhalt man damit insgesamt[

x − s√n· tn−1;1−α2 , x +

s√n· tn−1;1−α2

]=

[30.542− 2.436√

9· 2.306, 30.542 +

2.436√9· 2.306

]= [28.67, 32.414] .



Hypothesentests

Bisher betrachtet:

Punkt- bzw. Intervallschatzung des unbekannten Mittelwerts

Hierzu: Verwendung der1 theoretischen Information uber Verteilung von X2 empirischen Information aus Stichprobenrealisation x von X

zur Konstruktion einerI PunktschatzungI Intervallschatzung, bei der jede Stichprobenziehung mit einer vorgegebenen

Chance ein realisiertes (Konfidenz-)Intervall liefert, welches den (wahren)Mittelwert (Erwartungswert) enthalt.

Nachste Anwendung (am Beispiel des Erwartungswerts): Hypothesentests:

Entscheidung, ob der (unbekannte!) Erwartungswert von Y in einervorgegebenen Teilmenge der denkbaren Erwartungswerte liegt

(”Nullhypothese“ H0) oder nicht (

”Gegenhypothese/Alternative“ H1).



Einfuhrendes Beispiel I

Interessierende Zufallsvariable Y :Von einer speziellen Abfullmaschine abgefullte Inhaltsmenge vonMuslipackungen mit Soll-Inhalt µ0 = 500 (in [g ]).

Verteilungsannahme:Y ∼ N(µ, 42) mit unbekanntem Erwartungswert µ = E (Y ).

Es liege eine Realisation x1, . . . , x16 einer einfachen Stichprobe X1, . . . ,X16

vom Umfang n = 16 zu Y vor.

Ziel: Verwendung der Stichprobeninformation (uber X bzw. x), um zuentscheiden, ob die tatsachliche mittlere Fullmenge (also der wahre,unbekannte Parameter µ) mit dem Soll-Inhalt µ0 = 500 ubereinstimmt(H0 : µ = µ0 = 500) oder nicht (H1 : µ 6= µ0 = 500).



Einfuhrendes Beispiel II

Offensichlich gilt:I X schwankt um den wahren Mittelwert µ; selbst wenn H0 : µ = 500 gilt, wird

X praktisch nie genau den Wert x = 500 annehmen!I Realisationen x

”in der Nahe“ von 500 sprechen eher dafur, dass H0 : µ = 500

gilt.I Realisationen x

”weit weg“ von 500 sprechen eher dagegen, dass H0 : µ = 500

gilt.

Also: Entscheidung fur Nullhypothese H0 : µ = 500, wenn x nahe bei 500,und gegen H0 : µ = 500 (also fur die Gegenhypothese H1 : µ 6= 500), wenn xweit weg von 500.

Aber: Wo ist die Grenze zwischen”in der Nahe“ und

”weit weg“? Wie kann

eine”geeignete“ Entscheidungsregel konstruiert werden?



Verteilungen von Xfur verschiedene Erwartungswerte µ bei σ = 4 und n = 16

494 496 498 500 502 504 506

0.0

0.1

0.2

0.3

0.4

x

f X(x

|µ)

µ = 500µ = 494µ = 499µ = 503



Entscheidungsproblem

Fallen einer Entscheidung zwischen H0 : µ = 500 und H1 : µ 6= 500 fuhrt zugenau einer der folgenden vier verschiedenen Situationen:

Tatsachliche Situation: Tatsachliche Situation:H0 wahr (µ = 500) H1 wahr (µ 6= 500)

Entscheidung richtige Fehlerfur H0 (µ = 500) Entscheidung 2. Art

Entscheidung Fehler richtigefur H1 (µ 6= 500) 1. Art Entscheidung

Wunschenswert:Sowohl

”Fehler 1. Art“ als auch

”Fehler 2. Art“ moglichst selten begehen.

Aber: Zielkonflikt vorhanden:Je naher Grenze zwischen

”in der Nahe“ und

”weit weg“ an µ0 = 500, desto

I seltener Fehler 2. ArtI haufiger Fehler 1. Art

und umgekehrt fur fernere Grenzen zwischen”in der Nahe“ und

”weit weg“.



Beispiel fur”nahe“ Grenze

Fur µ 6= 500 (gegen µ = 500) entscheiden, wenn Abstand zwischen x und 500 großer als 1

494 496 498 500 502 504 506

0.0

0.1

0.2

0.3

0.4

x

f X(x

|µ)

µ = 500µ = 494µ = 499µ = 503



Beispiel fur”ferne“ Grenze

Fur µ 6= 500 (gegen µ = 500) entscheiden, wenn Abstand zwischen x und 500 großer als 3

494 496 498 500 502 504 506

0.0

0.1

0.2

0.3

0.4

x

f X(x

|µ)

µ = 500µ = 494µ = 499µ = 503



Konstruktion einer Entscheidungsregel I

Unmoglich, Wahrscheinlichkeiten der Fehler 1. Art und 2. Art gleichzeitig furalle moglichen Situationen (also alle denkbaren µ) zu verringern.

Ubliche Vorgehensweise: Fehler(wahrscheinlichkeit) 1. Art kontrollieren!

Also: Vorgabe einer kleinen Schranke α (”Signifikanzniveau“) fur die

Wahrscheinlichkeit, mit der man einen Fehler 1. Art (also eine Entscheidunggegen H0, obwohl H0 wahr ist) begehen darf.

Festlegung der Grenze zwischen”in der Nahe“ und

”weit weg“ so, dass man

den Fehler 1. Art nur mit Wahrscheinlichkeit α begeht, also die Realisation xbei Gultigkeit von µ = µ0 = 500 nur mit einer Wahrscheinlichkeit von αjenseits der Grenzen liegt, bis zu denen man sich fur µ = µ0 = 500entscheidet!



Konstruktion einer Entscheidungsregel II

Gesucht ist also ein Bereich, in dem sich X bei Gultigkeit vonH0 : µ = µ0 = 500 mit einer Wahrscheinlichkeit von 1− α realisiert (unddamit nur mit Wahrscheinlichkeit α außerhalb liegt!).

Gilt tatsachlich µ = µ0, dann naturlich auch E(X ) = µ0, und man erhaltden gesuchten Bereich gerade als Schwankungsintervall (vgl. Folie 76)[

µ0 −σ√n· N1−α2 , µ0 +

σ√n· N1−α2

]mit

P

X ∈

[µ0 −

σ√n· N1−α2 , µ0 +

σ√n· N1−α2

]= 1− α .



Beispiel fur Grenze zum Signifikanzniveau α = 0.05Grenzen aus Schwankungsintervall zur Sicherheitswahrscheinlichkeit 1− α = 0.95

494 496 498 500 502 504 506

0.0

0.1

0.2

0.3

0.4

x

f X(x

|µ)

µ = 500µ = 494µ = 499µ = 503



Entscheidung im Beispiel I

Bei einem Signifikanzniveau von α = 0.05 entscheidet man sich im Beispielalso fur H0 : µ = µ0 = 500 genau dann, wenn die Realisation x von X imIntervall[

500− 4√16· N0.975, 500 +

4√16· N0.975

]= [498.04, 501.96] ,

dem sog. Annahmebereich des Hypothesentests, liegt.

Entsprechend fallt die Entscheidung fur H1 : µ 6= 500 (bzw. gegenH0 : µ = 500) aus, wenn die Realisation x von X in der Menge

(−∞, 498.04) ∪ (501.96,∞) ,

dem sog. Ablehnungsbereich oder kritischen Bereich des Hypothesentests,liegt.

Durch Angabe eines dieser Bereiche ist die Entscheidungsregel offensichtlichschon vollstandig spezifiziert!



Entscheidung im Beispiel II

Statt Entscheidungsregel auf Grundlage der Realisation x von X (unter

Verwendung der Eigenschaft X ∼ N(µ0,σ2

n ) falls µ = µ0) ublicher:

Aquivalente Entscheidungsregel auf Basis der sog. Testgroße oderTeststatistik

N :=X − µ0

σ

√n .

Bei Gultigkeit von H0 : µ = µ0 ensteht N als Standardisierung von X undist daher daher (fur µ = µ0) standardnormalverteilt:

X − µ0

σ

√n ∼ N(0, 1) falls µ = µ0



Entscheidung im Beispiel III

Man rechnet leicht nach:

X ∈[µ0 −

σ√n· N1−α2 , µ0 +

σ√n· N1−α2

]⇔ X − µ0

σ

√n ∈

[−N1−α2 ,N1−α2

]Als Annahmebereich A fur die Testgroße N = X−µ0

σ

√n erhalt man also[

−N1−α2 ,N1−α2

], als kritischen Bereich K entsprechend

K = R\A =(−∞,−N1−α2

)∪(N1−α2 ,∞

)und damit eine Formulierung der Entscheidungsregel auf Grundlage von N.



Entscheidung im Beispiel IV

Man kann ( Veranstaltung”Schließende Statistik“) die Verteilung von X

bzw. N auch in der Situation µ 6= µ0 (also bei Verletzung von H0) naheruntersuchen. Damit lassen sich dann auch (von µ abhangige!)Fehlerwahrscheinlichkeiten 2. Art berechnen.

Im Beispiel erhalt man so zu den betrachteten Szenarien (alsounterschiedlichen wahren Parametern µ):

Wahrscheinlichkeit der Wahrscheinlichkeit derAnnahme von µ = 500 Ablehnung von µ = 500

PN ∈ A PN ∈ Kµ = 500 0.95 0.05µ = 494 0 1µ = 499 0.8299 0.1701µ = 503 0.1492 0.8508

(Fettgedruckte Wahrscheinlichkeiten entsprechen korrekter Entscheidung.)

Test aus dem Beispiel heißt auch”zweiseitiger Gauß-Test fur den

Erwartungswert einer Zufallsvariablen mit bekannter Varianz“.



Zweiseitiger Gauß-Test fur den Ewartungswertbei bekannter Varianz

Anwendung

als exakter Test, falls Y normalverteilt und Var(Y ) = σ2 bekannt,

als approximativer Test, falls Y beliebig verteilt mit bekannter Varianz σ2.

”Testrezept“ des zweiseitigen Tests:

1 Hypothesen: H0 : µ = µ0 gegen H1 : µ 6= µ0 fur ein vorgegebenes µ0 ∈ R.

2 Teststatistik:

N :=X − µ0

σ

√n mit N ∼ N(0, 1) (bzw. N

•∼ N(0, 1)), falls H0 gilt (µ = µ0).

3 Kritischer Bereich zum Signifikanzniveau α:

K =(−∞,−N1−α2

)∪(N1−α2 ,∞

)4 Berechnung der realisierten Teststatistik N

5 Entscheidung: H0 ablehnen ⇔ N ∈ K .



Beispiel: Qualitatskontrolle (Lange von Stahlstiften)

Untersuchungsgegenstand: Weicht die mittlere Lange der von einerbestimmten Maschine produzierten Stahlstifte von der Solllange µ0 = 10 (in[cm]) ab, so dass die Produktion gestoppt werden muss?

Annahmen: Fur Lange Y der produzierten Stahlstifte gilt: Y ∼ N(µ, 0.42)

Stichprobeninformation: Realisation einer einfachen Stichprobe vom Umfangn = 64 zu Y liefert Stichprobenmittel x = 9.7.

Gewunschtes Signifikanzniveau (max. Fehlerwahrscheinlichkeit 1. Art):α = 0.05

Geeigneter Test:(Exakter) Gauß-Test fur den Mittelwert bei bekannter Varianz

1 Hypothesen: H0 : µ = µ0 = 10 gegen H1 : µ 6= µ0 = 10

2 Teststatistik: N = X−µ0

σ

√n ∼ N(0, 1), falls H0 gilt (µ = µ0)

3 Kritischer Bereich zum Niveau α = 0.05:K = (−∞,−N0.975) ∪ (N0.975,∞) = (−∞,−1.96) ∪ (1.96,∞)

4 Realisierter Wert der Teststatistik: N = 9.7−100.4

√64 = −6

5 Entscheidung: N ∈ K H0 wird abgelehnt und die Produktion gestoppt.



Einseitige Gauß-Tests fur den Ewartungswert Ibei bekannter Varianz

Neben zweiseitigem Test auch zwei einseitige Varianten:

H0 : µ ≤ µ0 gegen H1 : µ > µ0 (rechtsseitiger Test)

H0 : µ ≥ µ0 gegen H1 : µ < µ0 (linksseitiger Test)

Konstruktion der Tests beschrankt Wahrscheinlichkeit, H0 falschlicherweiseabzulehnen, auf das Signifikanzniveau α.

Entscheidung zwischen beiden Varianten daher wie folgt:

H0 : Nullhypothese ist in der Regel die Aussage, die von vornherein alsglaubwurdig gilt und die man beibehalt, wenn das Stichprobenergebnis beiGultigkeit von H0 nicht sehr untypisch bzw. uberraschend ist.

H1 : Gegenhypothese ist in der Regel die Aussage, die man statistisch absichernmochte und fur deren Akzeptanz man hohe Evidenz fordert.Die Entscheidung fur H1 hat typischerweise erhebliche Konsequenzen, so dassman das Risiko einer falschlichen Ablehnung von H0 zugunsten von H1

kontrollieren will.



Einseitige Gauß-Tests fur den Ewartungswert IIbei bekannter Varianz

Auch fur einseitige Tests fasst Teststatistik

N =X − µ0

σ

√n

die empirische Information uber den Erwartungswert µ geeignet zusammen.

Allerdings gilt nun offensichtlichI im Falle des rechtsseitigen Tests von

H0 : µ ≤ µ0 gegen H1 : µ > µ0 ,

dass große (insbesondere positive) Realisationen von N gegen H0 und fur H1

sprechen, sowieI im Falle des linksseitigen Tests von

H0 : µ ≥ µ0 gegen H1 : µ < µ0 ,

dass kleine (insbesondere negative) Realisationen von N gegen H0 und furH1 sprechen.



Rechtsseitiger Gauß-Test fur den Ewartungswert Ibei bekannter Varianz

Noch notig zur Konstruktion der Tests:Geeignetes Verfahren zur Wahl der kritischen Bereiche so, dassWahrscheinlichkeit fur Fehler 1. Art durch vorgegebenes Signifikanzniveau αbeschrankt bleibt.

Konkreter sucht man bei rechtsseitigen Tests einen Wert kα mitPN ∈ (kα,∞) ≤ α fur alle µ ≤ µ0.

Offensichtlich wird PN ∈ (kα,∞) mit wachsendem µ großer, es genugtalso, die Einhaltung der Bedingung PN ∈ (kα,∞) ≤ α fur dasgroßtmogliche µ mit der Eigenschaft µ ≤ µ0, also µ = µ0, zu gewahrleisten.

Um die Fehlerwahrscheinlichkeit 2. Art unter Einhaltung der Bedingung andie Fehlerwahrscheinlichkeit 1. Art moglichst klein zu halten, wird kα geradeso gewahlt, dass PN ∈ (kα,∞) = α fur µ = µ0 gilt.

Man rechnet leicht nach, dass kα = N1−α gelten muss, und erhalt damitinsgesamt den kritischen Bereich K = (N1−α,∞) fur den rechtsseitigen Test.



Beispiel fur Verteilungen von NRechtsseitiger Test (µ0 = 500) zum Signifikanzniveau α = 0.05

−6 −4 −2 0 2 4 6

0.0

0.1

0.2

0.3

0.4

x

f N(x

|µ)

µ = 500µ = 499µ = 502µ = 504



Rechtsseitiger Gauß-Test fur den Ewartungswert IIbei bekannter Varianz

Anwendung



”Testrezept“ des rechtsseitigen Tests:

1 Hypothesen: H0 : µ ≤ µ0 gegen H1 : µ > µ0 fur ein vorgegebenes µ0 ∈ R.

2 Teststatistik:

N :=X − µ0

σ

√n mit N ∼ N(0, 1) (N

•∼ N(0, 1)), falls H0 gilt (mit µ = µ0).


K = (N1−α,∞)

4 Berechnung der realisierten Teststatistik N




Linksseitiger Gauß-Test fur den Ewartungswert Ibei bekannter Varianz

Fur linksseitigen Test muss zur Konstruktion des kritischen Bereichs einkritischer Wert bestimmt werden, den die Teststatistik N im Fall derGultigkeit von H0 maximal mit einer Wahrscheinlichkeit von α unterschreitet.

Gesucht ist also ein Wert kα mit PN ∈ (−∞, kα) ≤ α fur alle µ ≥ µ0.

Offensichtlich wird PN ∈ (−∞, kα) mit fallendem µ großer, es genugtalso, die Einhaltung der Bedingung PN ∈ (−∞, kα) ≤ α fur daskleinstmogliche µ mit µ ≥ µ0, also µ = µ0, zu gewahrleisten.

Um die Fehlerwahrscheinlichkeit 2. Art unter Einhaltung der Bedingung andie Fehlerwahrscheinlichkeit 1. Art moglichst klein zu halten, wird kα geradeso gewahlt, dass PN ∈ (−∞, kα) = α fur µ = µ0 gilt.

Man rechnet leicht nach, dass kα = Nα = −N1−α gelten muss, und erhaltdamit insgesamt den kritischen Bereich K = (−∞,−N1−α) fur denlinksseitigen Test.



Beispiel fur Verteilungen von NLinksseitiger Test (µ0 = 500) zum Signifikanzniveau α = 0.05

−6 −4 −2 0 2 4 6

0.0

0.1

0.2

0.3

0.4

x

f N(x

|µ)

µ = 500µ = 496µ = 498µ = 501



Linksseitiger Gauß-Test fur den Ewartungswert IIbei bekannter Varianz

Anwendung



”Testrezept“ des linksseitigen Tests:

1 Hypothesen: H0 : µ ≥ µ0 gegen H1 : µ < µ0 fur ein vorgegebenes µ0 ∈ R.

2 Teststatistik:

N :=X − µ0

σ

√n mit N ∼ N(0, 1) (N

•∼ N(0, 1)), falls H0 gilt (mit µ = µ0).


K = (−∞,−N1−α)

4 Berechnung der realisierten Teststatistik N




Interpretation von Testergebnissen I

Durch die Asymmetrie in den Fehlerwahrscheinlichkeiten 1. und 2. Art istVorsicht bei der Interpretation von Testergebnissen geboten, es besteht eingroßer Unterschied zwischen dem Aussagegehalt einer Ablehnung von H0

und dem Aussagegehalt einer Annahme von H0:

Fallt die Testentscheidung gegen H0 aus, so hat man — sollte H0 tatsachlicherfullt sein — wegen der Beschrankung der Fehlerwahrscheinlichkeit 1. Artdurch das Signifikanzniveau α nur mit einer typischerweise geringenWahrscheinlichkeit ≤ α eine Stichprobenrealisation erhalten, diefalschlicherweise zur Ablehnung von H0 gefuhrt hat.

Aber: Vorsicht vor”Uber“interpretation als Evidenz fur Gultigkeit von H1:

Aussagen der Form”

Wenn H0 abgelehnt wird, dann gilt H1 mitWahrscheinlichkeit von mindestens 1− α“ sind unsinnig!



Interpretation von Testergebnissen II

Fallt die Testentscheidung jedoch fur H0 aus, so ist dies meist einvergleichsweise schwacheres

”Indiz“ fur die Gultigkeit von H0, da die

Fehlerwahrscheinlichkeit 2. Art nicht kontrolliert ist und typischerweise großeWerte (bis 1− α) annehmen kann.

Gilt also tatsachlich H1, ist es dennoch mit einer oft – meist abhangig vom

”Grad“ der Verletzung von H0 – sehr großen Wahrscheinlichkeit moglich, eine

Stichprobenrealisation zu erhalten, die falschlicherweise nicht zurAblehnung von H0 fuhrt.

Aus diesem Grund sagt man auch haufig statt”H0 wird angenommen“ eher

”H0 kann nicht verworfen werden“.



Interpretation von Testergebnissen III

Die Ablehnung von H0 als Ergebnis eines statistischen Tests wird haufig alsI signifikante Veranderung (zweiseitiger Test),I signifikante Verringerung (linksseitiger Test) oderI signifikante Erhohung (rechtsseitiger Test)

einer Große bezeichnet. Konstruktionsbedingt kann das Ergebnis einerstatistischen Untersuchung — auch im Fall einer Ablehnung von H0 — aberniemals als zweifelsfreier Beweis fur die Veranderung/Verringerung/Erhohungeiner Große dienen!

Vorsicht vor”Publication Bias“:

I Bei einem Signifikanzniveau von α = 0.05 resultiert im Mittel 1 von 20statistischen Untersuchungen, bei denen H0 wahr ist, konstruktionsbedingt ineiner Ablehnung von H0.

I Gefahr von Fehlinterpretationen, wenn die Untersuchungen, bei denen H0 nichtverworfen wurde, verschwiegen bzw. nicht publiziert werden!



Interpretation von Testergebnissen IV

Ein”signifikanter“ Unterschied ist noch lange kein

”deutlicher“ Unterschied!

Problem:”Fluch des großen Stichprobenumfangs“

Beispiel: Abfullmaschine soll Flaschen mit 1000 ml Inhalt abfullen.I Abfullmenge schwankt zufallig, Verteilung sei Normalverteilung mit bekannter

Standardabweichung σ = 0.5 ml, d.h. in ca. 95% der Falle liegt Abfullmengeim Bereich ±1 ml um den (tatsachlichen) Mittelwert.

I Statistischer Test zum Niveau α = 0.05 zur Uberprufung, ob mittlereAbfullmenge (Erwartungswert) von 1000 ml abweicht.

Tatsachlicher Mittelwert sei 1000.1 ml, Test auf Grundlage von 500 Flaschen.

Wahrscheinlichkeit, die Abweichung von 0.1 ml zu erkennen: 99.4%

Systematische Abweichung der Abfullmenge von 0.1 ml also zwar mit hoherWahrscheinlichkeit (99.4%) signifikant, im Vergleich zur (ohnehinvorhandenen) zufalligen Schwankung mit σ = 0.5 ml aber keinesfalls deutlich!

Fazit:”Durch wissenschaftliche Studien belegte signifikante Verbesserungen“

konnen vernachlassigbar klein sein ( Werbung...)



Der p-Wert

Hypothesentests”komprimieren“ Stichprobeninformation zur Entscheidung

zwischen H0 und H1 zu einem vorgegebenen Signifikanzniveau α.

Testentscheidung hangt von α ausschließlich uber kritischen Bereich Kα ab!

Genauere Betrachtung (Gauß-Test fur den Erwartungswert) offenbart:I Je kleiner α, desto kleiner (im Sinne von

”⊂“) der kritische Bereich.

I Zu jeder realisierten Teststatistik N findet man sowohlF

”große“ Signifikanzniveaus, deren zugehorige kritische Bereiche

N enthalten ( Ablehnung von H0), als auchF

”kleine“ Signifikanzniveaus, deren zugehorige kritische Bereiche

N nicht enthalten ( Annahme von H0).

Es gibt also zu jeder realisierten Teststatistik N ein sogenanntesempirisches (marginales) Signifikanzniveau, haufiger p-Wert genannt,welches die Grenze zwischen Annahme und Ablehnung von H0 widerspiegelt.



p-Wert bei Gauß-Testsfur den Erwartungswert bei bekannter Varianz

Der Wechsel zwischen”N ∈ Kα“ und

”N /∈ Kα“ findet bei den diskutierten

Gauß-Tests offensichtlich dort statt, wo die realisierte Teststatistik N gerademit (einer) der Grenze(n) des kritischen Bereichs ubereinstimmt, d.h.I bei rechtsseitigen Tests mit Kα = (N1−α,∞) fur N = N1−α,I bei linksseitigen Tests mit Kα = (−∞,−N1−α) fur N = −N1−α,I bei zweiseitigen Tests mit Kα = (−∞,−N1−α

2) ∪ (N1−α

2,∞) fur

N =

−N1−α

2falls N < 0

N1−α2

falls N ≥ 0.

Durch Auflosen nach α erhalt manI fur rechtsseitige Tests den p-Wert 1− Φ(N),I fur linksseitige Tests den p-Wert Φ(N),I fur zweiseitige Tests den p-Wert

2 · Φ(N) = 2 · (1− Φ(−N)) falls N < 02 · (1− Φ(N)) falls N ≥ 0

= 2 · (1− Φ(|N|)) .



Beispiel: p-Werte bei rechtsseitigem Gauß-Test (Grafik)Realisierte Teststatistik N = 1.6, p-Wert: 0.0548

0.0

0.1

0.2

0.3

0.4

x

f N(0

, 1)(x

)

N0.85N = 1.6 N0.99

1 − p = 0.9452 p = 0.0548



Beispiel: p-Werte bei zweiseitigem Gauß-Test (Grafik)Realisierte Teststatistik N = −1.8, p-Wert: 0.0719

0.0

0.1

0.2

0.3

0.4

x

f N(0

, 1)(x

)

− N0.995 N = − 1.8 − N0.85 N0.85 N0.995

1 − p = 0.9281p

2= 0.03595

p

2= 0.03595



Entscheidung mit p-Wert

Offensichtlich erhalt man auf der Grundlage des p-Werts p zur beobachtetenStichprobenrealisation die einfache Entscheidungsregel

H0 ablehnen ⇔ p < α

fur Hypothesentests zum Signifikanzniveau α.Sehr niedrige p-Werte bedeuten also, dass man beim zugehorigenHypothesentest H0 auch dann ablehnen wurde, wenn man die maximaleFehlerwahrscheinlichkeit 1. Art sehr klein wahlen wurde.Kleinere p-Werte liefern also starkere Indizien fur die Gultigkeit von H1 alsgroßere, aber (wieder) Vorsicht vor Uberinterpretation: Aussagen der Art

”Der p-Wert gibt die Wahrscheinlichkeit fur die Gultigkeit von H0 an“ sind

unsinnig!

Warnung!

Bei der Entscheidung von statistischen Tests mit Hilfe des p-Werts ist esunbedingt erforderlich, das Signifikanzniveau α vor Berechnung des p-Wertsfestzulegen, um nicht der Versuchung zu erliegen, α im Nachhinein so zu wahlen,dass man die

”bevorzugte“ Testentscheidung erhalt!



Tests und Konfidenzintervalle

Enger Zusammenhang zwischen zweiseitigem Gauß-Test und (symmetrischen)Konfidenzintervallen fur den Erwartungswert bei bekannter Varianz.

Fur Konfidenzintervalle zur Vertrauenswahrscheinlichkeit 1− α gilt:

µ ∈[

X − σ√n· N1−α2 ,X +

σ√n· N1−α2

]⇔ µ− X ∈

[− σ√

n· N1−α2 ,

σ√n· N1−α2

]⇔ µ− X

σ

√n ∈

[−N1−α2 ,N1−α2

]⇔ X − µ

σ

√n ∈

[−N1−α2 ,N1−α2

]Damit ist µ also genau dann im Konfidenzintervall zurSicherheitswahrscheinlichkeit 1− α enthalten, wenn ein zweiseitigerGauß-Test zum Signifikanzniveau α die Nullhypothese H0 : µ = µ nichtverwerfen wurde.



Zusammenfassung: Gauß-Test fur den Mittelwertbei bekannter Varianz

Anwendungs- exakt: Y ∼ N(µ, σ2) mit µ ∈ R unbekannt, σ2 bekanntvoraussetzungen approximativ: E(Y ) = µ ∈ R unbekannt, Var(Y ) = σ2 bekannt

X1, . . . ,Xn einfache Stichprobe zu Y

Nullhypothese H0 : µ = µ0 H0 : µ ≤ µ0 H0 : µ ≥ µ0

Gegenhypothese H1 : µ 6= µ0 H1 : µ > µ0 H1 : µ < µ0

Teststatistik N =X − µ0

σ

√n

Verteilung (H0) N fur µ = µ0 (naherungsweise) N(0, 1)-verteilt

Benotigte Großen X =1

n

n∑i=1

Xi

Kritischer Bereich (−∞,−N1−α2

) (N1−α,∞) (−∞,−N1−α)

zum Niveau α ∪(N1−α2,∞)

p-Wert 2 · (1− Φ(|N|)) 1− Φ(N) Φ(N)



t-Test fur den Mittel-/Erwartungswert Ibei unbekannter Varianz

Konstruktion des (exakten) Gauß-Tests fur den Mittelwert bei bekannterVarianz durch Verteilungsaussage

N :=X − µσ

√n ∼ N(0, 1) ,

falls X1, . . . ,Xn einfache Stichprobe zu normalverteilter ZV Y .

Analog zur Konstruktion von Konfidenzintervallen fur den Mittelwert beiunbekannter Varianz: Verwendung der Verteilungsaussage

t :=X − µ

S

√n ∼ t(n − 1) mit S =

√√√√ 1

n − 1

n∑i=1

(Xi − X )2 ,

falls X1, . . . ,Xn einfache Stichprobe zu normalverteilter ZV Y , um geeignetenHypothesentest fur den Mittelwert µ zu entwickeln.Test lasst sich genauso wie Gauß-Test herleiten, lediglichI Verwendung von S statt σ,I Verwendung von t(n − 1) statt N(0, 1).



t-Test fur den Mittel-/Erwartungswert IIbei unbekannter Varianz

Beziehung zwischen symmetrischen Konfidenzintervallen und zweiseitigenTests bleibt wie beim Gauß-Test erhalten.

Wegen Symmetrie der t(n − 1)-Verteilung bleiben auch alle entsprechenden

”Vereinfachungen“ bei der Bestimmung von kritischen Bereichen undp-Werten gultig.

p-Werte konnen mit Hilfe der Verteilungsfunktion Ft(n−1) dert(n − 1)-Verteilung bestimmt werden. In der Statistik-Software R erhalt manFt(n−1)(t) beispielsweise mit dem Befehl pt(t,df=n-1).

Zur Berechnung von p-Werten fur große n: Naherung der t(n − 1)-Verteilungdurch Standardnormalverteilung moglich.

Analog zu Konfidenzintervallen:Ist Y nicht normalverteilt, kann der t-Test auf den Mittelwert beiunbekannter Varianz immer noch als approximativer (naherungsweiser) Testverwendet werden.



Zusammenfassung: t-Test fur den Mittelwertbei unbekannter Varianz

Anwendungs- exakt: Y ∼ N(µ, σ2) mit µ ∈ R, σ2 ∈ R++ unbekanntvoraussetzungen approximativ: E(Y ) = µ ∈ R,Var(Y ) = σ2 ∈ R++ unbekannt

X1, . . . ,Xn einfache Stichprobe zu Y

Nullhypothese H0 : µ = µ0 H0 : µ ≤ µ0 H0 : µ ≥ µ0

Gegenhypothese H1 : µ 6= µ0 H1 : µ > µ0 H1 : µ < µ0

Teststatistik t =X − µ0

S

√n

Verteilung (H0) t fur µ = µ0 (naherungsweise) t(n − 1)-verteilt

Benotigte Großen X =1

n

n∑i=1

Xi

S =

√√√√ 1

n − 1

n∑i=1

(Xi − X )2 =

√√√√ 1

n − 1

(n∑

i=1

X 2i − nX

2

)Kritischer Bereich (−∞,−tn−1;1−α

2) (tn−1;1−α,∞) (−∞,−tn−1;1−α)

zum Niveau α ∪(tn−1;1−α2,∞)

p-Wert 2 · (1− Ft(n−1)(|t|)) 1− Ft(n−1)(t) Ft(n−1)(t)Okonometrie (SS 2019) Folie 126


Beispiel: Durchschnittliche Wohnflache

Untersuchungsgegenstand: Hat sich die durchschnittliche Wohnflache proHaushalt in einer bestimmten Stadt gegenuber dem aus dem Jahr 1998stammenden Wert von 71.2 (in [m2]) erhoht?

Annahmen: Verteilung der Wohnflache Y im Jahr 2009 unbekannt.

Stichprobeninformation: Realisation einer einfachen Stichprobe vom Umfangn = 400 zu Y liefert Stichprobenmittel x = 73.452 undStichprobenstandardabweichung s = 24.239.

Gewunschtes Signifikanzniveau (max. Fehlerwahrscheinlichkeit 1. Art):α = 0.05

Geeigneter Test:Rechtsseitiger approx. t-Test fur den Mittelwert bei unbekannter Varianz

1 Hypothesen: H0 : µ ≤ µ0 = 71.2 gegen H1 : µ > µ0 = 71.2

2 Teststatistik: t = X−µ0

S

√n•∼ t(399), falls H0 gilt (µ = µ0)

3 Kritischer Bereich zum Niveau α = 0.05: K = (t399;0.95,∞) = (1.649,∞)4 Realisierter Wert der Teststatistik: t = 73.452−71.2

24.239

√400 = 1.858

5 Entscheidung: t ∈ K H0 wird abgelehnt; Test kommt zur Entscheidung,dass sich durchschnittliche Wohnflache gegenuber 1998 erhoht hat.



Beispiel: p-Wert bei rechtsseitigem t-Test (Grafik)Wohnflachenbeispiel, realisierte Teststatistik t = 1.858, p-Wert: 0.032

0.0

0.1

0.2

0.3

0.4

x

f t(39

9)(x

)

t399, 0.8 t = 1.858 t399, 0.999

1 − p = 0.968 p = 0.032


3 Einfache lineare Regression Deskriptiver Ansatz 3.1


3 Einfache lineare RegressionDeskriptiver AnsatzStatistisches ModellParameterschatzungKonfidenzintervalle und TestsPunkt- und IntervallprognosenEinfache lineare Modelle mit R



Deskriptive Beschreibung linearer Zusammenhange I

Aus deskriptiver Statistik bekannt: Pearsonscher Korrelationskoeffizient alsMaß der Starke des linearen Zusammenhangs zwischen zwei(kardinalskalierten) Merkmalen X und Y .

Nun: Ausfuhrlichere Betrachtung linearer Zusammenhange zwischenMerkmalen (zunachst rein deskriptiv!):Liegt ein linearer Zusammenhang zwischen zwei Merkmalen X und Y nahe,ist nicht nur die Starke dieses Zusammenhangs interessant, sondern auch diegenauere

”Form“ des Zusammenhangs.

”Form“ linearer Zusammenhange kann durch Geraden(gleichungen)

spezifiziert werden.



Deskriptive Beschreibung linearer Zusammenhange II

Problemstellung: Wie kann zu einer Urliste (x1, y1), . . . , (xn, yn) der Lange nzu (X ,Y ) eine sog. Regressiongerade (auch: Ausgleichsgerade) gefundenwerden, die den linearen Zusammenhang zwischen X und Y

”moglichst gut“

widerspiegelt?

Wichtig: Was soll”moglichst gut“ uberhaupt bedeuten?

Hier: Summe der quadrierten Abstande von der Geraden zu denDatenpunkten (xi , yi ) in vertikaler Richtung soll moglichst gering sein.(Begrundung fur Verwendung dieses

”Qualitatskriteriums“ wird nachgeliefert!)



Deskriptive Beschreibung linearer Zusammenhange III

Geraden (eindeutig) bestimmt (zum Beispiel) durch Absolutglied a undSteigung b in der bekannten Darstellung

y = fa,b(x) := a + b · x .

Fur den i-ten Datenpunkt (xi , yi ) erhalt man damit den vertikalen Abstand

ui (a, b) := yi − fa,b(xi ) = yi − (a + b · xi )

von der Geraden mit Absolutglied a und Steigung b.



Deskriptive Beschreibung linearer Zusammenhange IV

Gesucht werden a und b so, dass die Summe der quadrierten vertikalenAbstande der

”Punktwolke“ (xi , yi ) von der durch a und b festgelegten

Geraden,

n∑i=1

(ui (a, b))2 =n∑

i=1

(yi − fa,b(xi ))2 =n∑

i=1

(yi − (a + b · xi ))2 ,

moglichst klein wird.

Verwendung dieses Kriteriums heißt auch Methode der kleinsten Quadrate(KQ-Methode) oder Least-Squares-Methode (LS-Methode).



Beispiel:”Punktwolke“

aus n = 10 Paaren (xi , yi )

0 2 4 6 8

05

1015

xi

y i



Beispiel:”Punktwolke“ und verschiedene Geraden I

a = 1, b = 0.8,∑n

i=1(ui (a, b))2 = 180.32

0 2 4 6 8

05

1015

xi

y i

ui(a, b)

a = 1

b = 0.8

1



Beispiel:”Punktwolke“ und verschiedene Geraden II

a = 5, b = 0.8,∑n

i=1(ui (a, b))2 = 33.71

0 2 4 6 8

05

1015

xi

y i

ui(a, b)

a = 5

b = 0.8

1



Beispiel:”Punktwolke“ und verschiedene Geraden III

a = −1, b = 1.9,∑n

i=1(ui (a, b))2 = 33.89

0 2 4 6 8

05

1015

xi

y i

ui(a, b)

a = −1

b = 1.9

1



Rechnerische Bestimmung der Regressionsgeraden I

Gesucht sind also a, b ∈ R mitn∑

i=1

(yi − (a + bxi ))2 = mina,b∈R

n∑i=1

(yi − (a + bxi ))2

Losung dieses Optimierungsproblems durch Nullsetzen des Gradienten, also

∂∑n

i=1(yi − (a + bxi ))2

∂a= −2

n∑i=1

(yi − a− bxi )!

= 0

∂∑n

i=1(yi − (a + bxi ))2

∂b= −2

n∑i=1

(yi − a− bxi )xi!

= 0 ,

fuhrt zu sogenannten Normalgleichungen:

na +

(n∑

i=1

xi

)b

!=

n∑i=1

yi(n∑

i=1

xi

)a +

(n∑

i=1

x2i

)b

!=

n∑i=1

xi yi



Rechnerische Bestimmung der Regressionsgeraden II

Aufgelost nach a und b erhalt man die Losungen

b =n(∑n

i=1 xi yi

)−(∑n

i=1 xi

)·(∑n

i=1 yi

)n(∑n

i=1 x2i

)−(∑n

i=1 xi

)2

a = 1n

(∑ni=1 yi

)− 1

n

(∑ni=1 xi

)· b

oder kurzer mit den aus der deskr. Statistik bekannten Bezeichnungen

x = 1n

∑ni=1 xi , x2 = 1

n

∑ni=1 x2

i , y = 1n

∑ni=1 yi und xy = 1

n

∑ni=1 xi yi

bzw. den empirischen Momenten sX ,Y = xy − x · y und s2X = x2 − x2:

b =xy − x · yx2 − x2

=sX ,Y

s2X

a = y − xb

Die erhaltenen Werte a und b minimieren tatsachlich die Summe derquadrierten vertikalen Abstande, da die Hesse-Matrix positiv definit ist.



Beispiel:”Punktwolke“ und Regressionsgerade

a = 2.03, b = 1.35,∑n

i=1(ui (a, b))2 = 22.25

0 2 4 6 8

05

1015

xi

y i

ui(a, b)

a = 2.03

b = 1.35

1



Eigenschaften der KQ-Methode I

Zu a und b kann man offensichtlich die folgende, durch die Regressionsgeradeerzeugte Zerlegung der Merkmalswerte yi betrachten:

yi = a + b · xi︸︷︷︸=:yi

+ yi − (a + b · xi )︸︷︷︸=ui (a,b)=:ui

Aus den Normalgleichungen lassen sich leicht einige Eigenschaften fur die sodefinierten ui und yi herleiten, insbesondere:I∑n

i=1 ui = 0 und damit∑n

i=1 yi =∑n

i=1 yi bzw. y = y := 1n

∑ni=1 yi .

I∑n

i=1 xi ui = 0.I Mit

∑ni=1 ui = 0 und

∑ni=1 xi ui = 0 folgt auch

∑ni=1 yi ui = 0.



Eigenschaften der KQ-Methode II

Mit diesen Eigenschaften erhalt man die folgende Varianzzerlegung:

1

n

n∑i=1

(yi − y)2

︸︷︷︸Gesamtvarianz der yi

=1

n

n∑i=1

(yi − y)2

︸︷︷︸erklarte Varianz

+1

n

n∑i=1

u2i︸︷︷︸

unerklarte Varianz

Die als Anteil der erklarten Varianz an der Gesamtvarianz gemessene Starkedes linearen Zusammenhangs steht in engem Zusammenhang mit rX ,Y ; es gilt:

r 2X ,Y =

1n

∑ni=1(yi − y)2

1n

∑ni=1(yi − y)2



Beispiel: Regressionsgerade mit Zerlegung yi = yi + uia = 2.03, b = 1.35,

∑ni=1 u2

i = 22.25

0 2 4 6 8

05

1015

xi

y i

ui

y = yx

yi

yi

a

b

1



Beispiel: Berechnung von a und b

Daten im Beispiel:

i 1 2 3 4 5 6 7 8 9 10

xi 2.51 8.27 4.46 3.95 6.42 6.44 2.12 3.65 6.2 6.68yi 6.57 12.44 10.7 5.51 12.95 8.95 3.86 6.22 10.7 10.98

Berechnete (deskriptive/empirische) Großen:

x = 5.0703 y = 8.8889 x2 = 29.3729 y 2 = 87.9398

s2X = 3.665 s2

Y = 8.927 sX ,Y = 4.956 rX ,Y = 0.866

Damit erhalt man Absolutglied a und Steigung b als

b =sX ,Y

s2X

=4.956

3.665= 1.352

a = y − b · x = 8.8889− 1.352 · 5.0703 = 2.03

und damit die Regressionsgerade

y = f (x) = 2.03 + 1.352 · x .


3 Einfache lineare Regression Statistisches Modell 3.2

Das einfache lineare Regressionsmodell I

Bisher: rein deskriptive Betrachtung linearer Zusammenhange

Bereits erlautert/bekannt: Korrelation 6= Kausalitat:Aus einem beobachteten (linearen) Zusammenhang zwischen zwei Merkmalenlasst sich nicht schließen, dass der Wert eines Merkmals den des anderenbeeinflusst.

Bereits durch die Symmetrieeigenschaft rX ,Y = rY ,X bei der Berechnung vonPearsonschen Korrelationskoeffizienten wird klar, dass diese Kennzahl alleineauch keine Wirkungsrichtung erkennen lassen kann.

Nun: statistische Modelle fur lineare Zusammenhange



Das einfache lineare Regressionsmodell II

Keine symmetrische Behandlung von X und Y mehr, sondern:I Interpretation von X (

”Regressor“) als erklarende deterministische Variable.

I Interpretation von Y (”Regressand“) als abhangige, zu erklarende

(Zufalls-)Variable.

Es wird angenommen, dass Y in linearer Form von X abhangt, dieseAbhangigkeit jedoch nicht

”perfekt“ ist, sondern durch zufallige Einflusse

”gestort“ wird.

Anwendung in Experimenten: Festlegung von X durch Versuchsplaner,Untersuchung des Effekts auf Y

Damit auch Kausalitatsanalysen moglich!



Das einfache lineare Regressionsmodell III

Es wird genauer angenommen, dass fur i ∈ 1, . . . , n die Beziehung

yi = β0 + β1 · xi + ui

gilt, wobeiI u1, . . . , un (Realisationen von) Zufallsvariablen mit E(ui ) = 0, Var(ui ) = σ2

(unbekannt) und Cov(ui , uj ) = 0 fur i 6= j sind, die zufallige Storungen derlinearen Beziehung (

”Storgroßen“) beschreiben,

I x1, . . . , xn deterministisch sind mit s2X = 1

n

∑ni=1(xi − x)2 > 0

(d.h. nicht alle xi sind gleich),I β0, β1 feste, unbekannte reelle Parameter sind.

Man nimmt an, dass man neben x1, . . . , xn auch y1, . . . , yn beobachtet, diewegen der Abhangigkeit von den Zufallsvariablen u1, . . . , un ebenfalls(Realisationen von) Zufallsvariablen sind. Dies bedeutet nicht, dass man auch(Realisationen von) u1, . . . , un beobachten kann (β0 und β1 unbekannt!).


3 Einfache lineare Regression Parameterschatzung 3.3

Parameterschatzung I

Das durch die getroffenen Annahmen beschriebene Modell heißt auch

einfaches lineares Regressionsmodell.

Im einfachen linearen Regressionsmodell sind also (neben σ2) insbesondere β0

und β1 Parameter, deren Schatzung fur die Quantifizierung des linearenZusammenhangs zwischen xi und yi notig ist.

Die Schatzung dieser beiden Parameter fuhrt wieder zum Problem der Suchenach Absolutglied und Steigung einer geeigneten Geradengleichung

y = fβ0,β1 (x) = β0 + β1 · x .

Achtung!

Die Bezeichnung der Parameter hat sich gegenuber der Veranstaltung

”Schließende Statistik“ geandert, aus β1 wird β0, aus β2 wird β1!



Parameterschatzung II

Satz 3.1 (Satz von Gauß-Markov)

Unter den getroffenen Annahmen liefert die aus dem deskriptiven Ansatz bekannteVerwendung der KQ-Methode, also die Minimierung der Summe der quadriertenvertikalen Abstande zur durch β0 und β1 bestimmten Geraden, in Zeichen

n∑i=1

(yi − (β0 + β1 · xi ))2 != minβ0,β1∈R

n∑i=1

(yi − (β0 + β1 · xi ))2 ,

die beste (varianzminimale) lineare (in yi ) erwartungstreue Schatzfunktion β0

fur β0 bzw. β1 fur β1.

Dies rechtfertigt letztendlich die Verwendung des Optimalitatskriteriums

”Minimierung der quadrierten vertikalen Abstande“ (KQ-Methode).



Parameterschatzung III

Man erhalt also — ganz analog zum deskriptiven Ansatz — die folgendenParameterschatzer:

Parameterschatzer im einfachen linearen Regressionsmodell

β1 =n(∑n

i=1 xi yi

)−(∑n

i=1 xi

)·(∑n

i=1 yi

)n(∑n

i=1 x2i

)−(∑n

i=1 xi

)2 =xy − x · yx2 − x2

=sX ,Y

s2X

,

β0 = 1n

(∑ni=1 yi

)− 1

n

(∑ni=1 xi

)· β1 = y − x β1 .

Vorsicht!

s2X , s2

Y sowie sX ,Y bezeichnen in diesem Kapitel die empirischen Großen

s2X = 1

n

∑ni=1(xi − x)2 = x2 − x2, s2

Y = 1n

∑ni=1(yi − y)2 = y 2 − y 2

und sX ,Y = 1n

∑ni=1(xi − x) · (yi − y) = xy − x · y .



Parameterschatzung IV

Die resultierenden vertikalen Abweichungen ui := yi − (β0 + β1 · xi ) = yi − yi

der yi von den auf der Regressionsgeraden liegenden Werten yi := β0 + β1 · xi

nennt man Residuen.

Wie im deskriptiven Ansatz gelten die Beziehungen∑ni=1 ui = 0,

∑ni=1 yi =

∑ni=1 yi ,

∑ni=1 xi ui = 0,

∑ni=1 yi ui = 0

die Streuungszerlegung

n∑i=1

(yi − y)2

︸︷︷︸Total Sum of Squares

=n∑

i=1

(yi − y)2

︸︷︷︸Explained Sum of Squares

+n∑

i=1

u2i︸︷︷︸

Residual Sum of Squares

bzw. die Varianzzerlegung

1n

∑ni=1(yi − y)2 = 1

n

∑ni=1(yi − y)2 + 1

n

∑ni=1 u2

i .



Das (multiple) Bestimmtheitsmaß R2

Auch im linearen Regressionsmodell wird die Starke des linearenZusammenhangs mit dem Anteil der erklarten Varianz an der Gesamtvarianzgemessen und mit

R2 =

∑ni=1(yi − y)2∑ni=1(yi − y)2

= 1−∑n

i=1 u2i∑n

i=1(yi − y)2=

ESS

TSS= 1− RSS

TSS

bezeichnet. R2 wird auch (multiples) Bestimmtheitsmaß genannt.

Es gilt 0 ≤ R2 ≤ 1 sowie der (bekannte) Zusammenhang R2 = r 2X ,Y =

s2X,Y

s2X ·s

2Y

.

Großere Werte von R2 (in der Nahe von 1) sprechen fur eine hoheModellgute, niedrige Werte (in der Nahe von 0) fur eine geringe Modellgute.



Beispiel: Ausgaben in Abhangigkeit vom Einkommen I

Es wird angenommen, dass die Ausgaben eines Haushalts fur Nahrungs- undGenussmittel yi linear vom jeweiligen Haushaltseinkommen xi (jeweils in 100e) in der Form

yi = β0 + β1 · xi + ui , uiiid∼ N(0, σ2), i ∈ 1, . . . , n

abhangen. Fur n = 7 Haushalte beobachte man nun neben dem Einkommenxi auch die (Realisation der) Ausgaben fur Nahrungs- und Genussmittel yi

wie folgt:

Haushalt i 1 2 3 4 5 6 7

Einkommen xi 35 49 21 39 15 28 25NuG-Ausgaben yi 9 15 7 11 5 8 9

Mit Hilfe dieser Stichprobeninformation sollen nun die Parameter β0 und β1

der linearen Modellbeziehung geschatzt sowie die Werte yi , die Residuen ui

und das Bestimmtheitsmaß R2 bestimmt werden.



Berechnete (deskriptive/empirische) Großen:

x = 30.28571 y = 9.14286 x2 = 1031.71429 y 2 = 92.28571

s2X = 114.4901 s2

Y = 8.6938 sX ,Y = 30.2449 rX ,Y = 0.9587

Damit erhalt man die Parameterschatzer β0 und β1 als

β1 =sX ,Y

s2X

=30.2449

114.4901= 0.26417

β0 = y − β1 · x = 9.14286− 0.26417 · 30.28571 = 1.14228 .

Als Bestimmtheitsmaß erhalt man R2 = r 2X ,Y = 0.95872 = 0.9191.

Fur yi und ui erhalt man durch Einsetzen (yi = β0 + β1 · xi , ui = yi − yi ):

i 1 2 3 4 5 6 7

xi 35 49 21 39 15 28 25yi 9 15 7 11 5 8 9yi 10.39 14.09 6.69 11.44 5.1 8.54 7.75ui −1.39 0.91 0.31 −0.44 −0.1 −0.54 1.25



Grafik: Ausgaben in Abhangigkeit vom Einkommenβ0 = 1.14228, β1 = 0.26417, R2 = 0.9191

0 10 20 30 40 50

05

1015

xi

y i

ui

y = yx

yiyi



Eigenschaften der Schatzfunktionen β0 und β1 I

Wegen der Abhangigkeit von yi handelt es sich bei β0 und β1 (wie in derschließenden Statistik gewohnt) um (Realisationen von) Zufallsvariablen.

β0 und β1 sind linear in yi , man kann genauer zeigen:

β0 =n∑

i=1

x2 − x · xi

n · s2X

· yi und β1 =n∑

i=1

xi − x

n · s2X

· yi



Eigenschaften der Schatzfunktionen β0 und β1 II

β0 und β1 sind erwartungstreu fur β0 und β1, denn wegen E(ui ) = 0 giltI E(yi ) = β0 + β1 · xi + E(ui ) = β0 + β1 · xi ,I E(y) = E

(1n

∑ni=1 yi

)= 1

n

∑ni=1 E(yi ) = 1

n

∑ni=1(β0 + β1 · xi ) = β0 + β1 · x ,

I E(xy) = E(

1n

∑ni=1 xi yi

)= 1

n

∑ni=1 xi (β0 + β1 · xi ) = β0 · x + β1 · x2

und damit

E(β1) = E

(xy − x · yx2 − x2

)=

E(xy)− x · E(y)

x2 − x2

=β0 · x + β1 · x2 − x · (β0 + β1 · x)

x2 − x2=β1 · (x2 − x2)

x2 − x2= β1

sowie

E(β0) = E(y − x β1) = E(y)− x E(β1) = β0 + β1 · x − x · β1 = β0 .

Diese beiden Eigenschaften folgen bereits mit dem Satz von Gauß-Markov.



Eigenschaften der Schatzfunktionen β0 und β1 III

Fur die Varianzen der Schatzfunktionen erhalt man (mit der Darstellung ausFolie 156):

Var(β1) =σ2

n · s2X

sowie Var(β0) =σ2 · x2

n · s2X

Diese hangen von der unbekannten Varianz σ2 der ui ab.

Eine erwartungstreue Schatzfunktion fur σ2 ist gegeben durch

σ2 := Var(ui ) =1

n − 2

n∑i=1

u2i

=n

n − 2· s2

Y · (1− R2) =n

n − 2· (s2

Y − β1 · sX ,Y )

Die positive Wurzel σ = +√σ2 dieser Schatzfunktion heißt auch

Standard Error of the Regression (SER) oder residual standard error.



Eigenschaften der Schatzfunktionen β0 und β1 IV

Einsetzen des Schatzers σ2 fur σ2 liefert die geschatzten Varianzen derParameterschatzer

σ2β1

:= Var(β1) =σ2

n · s2X

=s2

Y − β1 · sX ,Y

(n − 2) · s2X

und

σ2β0

:= Var(β0) =σ2 · x2

n · s2X

=(s2

Y − β1 · sX ,Y ) · x2

(n − 2) · s2X

.

Die positiven Wurzeln σβ0=√σ2β0

und σβ1=√σ2β1

dieser geschatzten

Varianzen werden wie ublich als (geschatzte) Standardfehler von β0 und β1

bezeichnet.


3 Einfache lineare Regression Konfidenzintervalle und Tests 3.4

Konfidenzintervalle und Testsunter Normalverteilungsannahme fur ui

Haufig nimmt man weitergehend fur die Storgroßen an, dass speziell

uiiid∼ N(0, σ2)

gilt, d.h. dass alle ui (fur i ∈ 1, . . . , n) unabhangig identisch normalverteiltsind mit Erwartungswert 0 und (unbekannter) Varianz σ2.

In diesem Fall sind offensichtlich auch y1, . . . , yn stochastisch unabhangig undjeweils normalverteilt mit Erwartungswert E(yi ) = β0 + β1 · xi und VarianzVar(yi ) = σ2.

Da β0 und β1 linear in yi sind, folgt insgesamt mit den bereits berechnetenMomenten von β0 und β1:

β0 ∼ N

(β0,

σ2 · x2

n · s2X

)und β1 ∼ N

(β1,

σ2

n · s2X

)



Konfidenzintervalleunter Normalverteilungsannahme fur ui

Da σ2 unbekannt ist, ist fur Anwendungen wesentlich relevanter, dass imFalle unabhangig identisch normalverteilter Storgroßen ui mit den

Schatzfunktionen σ2β0

fur Var(β0) und σ2β1

fur Var(β1) gilt:

β0 − β0

σβ0

∼ t(n − 2) undβ1 − β1

σβ1

∼ t(n − 2)

Hieraus erhalt man unmittelbar die”Formeln“[

β0 − tn−2;1−α2 · σβ0, β0 + tn−2;1−α2 · σβ0

]fur (symmetrische) Konfidenzintervalle zur Vertrauenswahrscheinlichkeit1− α fur β0 bzw.[

β1 − tn−2;1−α2 · σβ1, β1 + tn−2;1−α2 · σβ1

]fur (symmetrische) Konfidenzintervalle zur Vertrauenswahrscheinlichkeit1− α fur β1.



Beispiel: Ausgaben in Abhangigkeit vom Einkommen II

Im bereits erlauterten Beispiel erhalt man als Schatzwert fur σ2:

σ2 =n · (s2

Y − β1 · sX ,Y )

n − 2=

7 · (8.6938− 0.26417 · 30.2449)

7− 2= 0.9856

Die (geschatzten) Standardfehler fur β0 und β1 sind damit

σβ0=

√σ2 · x2

n · s2X

=

√0.9856 · 1031.71429

7 · 114.4901= 1.1264 ,

σβ1=

√σ2

n · s2X

=

√0.9856

7 · 114.4901= 0.0351 .

Fur α = 0.05 erhalt man mit tn−2;1−α2 = t5;0.975 = 2.571 fur β0 also

[1.14228− 2.571 · 1.1264, 1.14228 + 2.571 · 1.1264] = [−1.7537, 4.0383]

als Konfidenzintervall zur Vertrauenswahrscheinlichkeit 1− α = 0.95 bzw.

[0.26417− 2.571 · 0.0351, 0.26417 + 2.571 · 0.0351] = [0.1739, 0.3544]

als Konfidenzintervall zur Vertrauenswahrscheinlichkeit 1− α = 0.95 fur β1.



Hypothesentestsunter Normalverteilungsannahme fur ui

Genauso lassen sich unter der Normalverteilungsannahme (exakte) t-Tests furdie Parameter β0 und β1 konstruieren.Trotz unterschiedlicher Problemstellung weisen die Tests Ahnlichkeiten zumt-Test fur den Mittelwert einer normalverteilten Zufallsvariablen beiunbekannter Varianz auf.Untersucht werden konnen die Hypothesenpaare

H0 : β0 = β00 H0 : β0 ≤ β0

0 H0 : β0 ≥ β00

gegen gegen gegenH1 : β0 6= β0

0 H1 : β0 > β00 H1 : β0 < β0

0

bzw.

H0 : β1 = β01 H0 : β1 ≤ β0

1 H0 : β1 ≥ β01

gegen gegen gegenH1 : β1 6= β0

1 H1 : β1 > β01 H1 : β1 < β0

1

Besonders anwendungsrelevant sind Tests auf die”Signifikanz“ der Parameter

(insbesondere β1), die den zweiseitigen Tests mit β00 = 0 bzw. β0

1 = 0entsprechen.



Zusammenfassung: t-Test fur den Parameter β0im einfachen linearen Regressionsmodell mit Normalverteilungsannahme

Anwendungs- exakt: yi = β0 + β1 · xi + ui mit uiiid∼ N(0, σ2) fur i ∈ 1, . . . , n,

voraussetzungen σ2 unbekannt, x1, . . . , xn deterministisch und bekannt,Realisation y1, . . . , yn beobachtet

Nullhypothese H0 : β0 = β00 H0 : β0 ≤ β0

0 H0 : β0 ≥ β00

Gegenhypothese H1 : β0 6= β00 H1 : β0 > β0

0 H1 : β0 < β00

Teststatistik t =β0 − β0

0

σβ0

Verteilung (H0) t fur β0 = β00 t(n − 2)-verteilt

Benotigte Großen β1 =sX ,Y

s2X

, β0 = y − β1 · x , σβ0=

√(s2

Y − β1 · sX ,Y ) · x2

(n − 2) · s2X

Kritischer Bereich (−∞,−tn−2;1−α2

) (tn−2;1−α,∞) (−∞,−tn−2;1−α)


p-Wert 2 · (1− Ft(n−2)(|t|)) 1− Ft(n−2)(t) Ft(n−2)(t)



Zusammenfassung: t-Test fur den Parameter β1im einfachen linearen Regressionsmodell mit Normalverteilungsannahme

Anwendungs- exakt: yi = β0 + β1 · xi + ui mit uiiid∼ N(0, σ2) fur i ∈ 1, . . . , n,

voraussetzungen σ2 unbekannt, x1, . . . , xn deterministisch und bekannt,Realisation y1, . . . , yn beobachtet

Nullhypothese H0 : β1 = β01 H0 : β1 ≤ β0

1 H0 : β1 ≥ β01

Gegenhypothese H1 : β1 6= β01 H1 : β1 > β0

1 H1 : β1 < β01

Teststatistik t =β1 − β0

1

σβ1

Verteilung (H0) t fur β1 = β01 t(n − 2)-verteilt

Benotigte Großen β1 =sX ,Y

s2X

, σβ1=

√s2

Y − β1 · sX ,Y

(n − 2) · s2X

Kritischer Bereich (−∞,−tn−2;1−α2

) (tn−2;1−α,∞) (−∞,−tn−2;1−α)


p-Wert 2 · (1− Ft(n−2)(|t|)) 1− Ft(n−2)(t) Ft(n−2)(t)



Beispiel: Ausgaben in Abhangigkeit vom Einkommen III

Im bereits erlauterten Beispiel soll zum Signifikanzniveau α = 0.05 getestetwerden, ob β0 signifikant von Null verschieden ist. Geeigneter Test:t-Test fur den Regressionsparameter β0

1 Hypothesen:

H0 : β0 = 0 gegen H1 : β0 6= 02 Teststatistik:

t =β0 − 0

σβ0

ist unter H0 (fur β0 = 0) t(n − 2)-verteilt.

3 Kritischer Bereich zum Niveau α = 0.05:

K = (−∞,−tn−2;1−α2

) ∪ (tn−2;1−α2,+∞) = (−∞,−t5;0.975) ∪ (t5;0.975,+∞)

= (−∞,−2.571) ∪ (2.571,+∞)4 Berechnung der realisierten Teststatistik:

t =β0 − 0

σβ0

=1.14228− 0

1.1264= 1.014

5 Entscheidung:

t = 1.014 /∈ (−∞,−2.571) ∪ (2.571,+∞) = K ⇒ H0 wird nicht abgelehnt!

(p-Wert: 2− 2 · Ft(5)(|t|) = 2− 2 · Ft(5)(|1.014|) = 2− 2 · 0.8215 = 0.357)

Der Test kann fur β0 keine signifikante Abweichung von Null feststellen.Okonometrie (SS 2019) Folie 166


Beispiel: Ausgaben in Abhangigkeit vom Einkommen IV

Nun soll zum Signifikanzniveau α = 0.01 getestet werden, ob β1 positiv ist.Geeigneter Test:t-Test fur den Regressionsparameter β1

1 Hypothesen:

H0 : β1 ≤ 0 gegen H1 : β1 > 02 Teststatistik:

t =β1 − 0

σβ1

ist unter H0 (fur β1 = 0) t(n − 2)-verteilt.

3 Kritischer Bereich zum Niveau α = 0.01:

K = (tn−2;1−α,+∞) = (t5;0.99,+∞) = (3.365,+∞)4 Berechnung der realisierten Teststatistik:

t =β1 − 0

σβ1

=0.26417− 0

0.0351= 7.5262

5 Entscheidung:

t = 7.5262 ∈ (3.365,+∞) = K ⇒ H0 wird abgelehnt!

(p-Wert: 1− Ft(5)(t) = 1− Ft(5)(7.5262) = 1− 0.9997 = 0.0003)

Der Test stellt fest, dass β1 signifikant positiv ist.


3 Einfache lineare Regression Punkt- und Intervallprognosen 3.5

Punkt- und Intervallprognosenim einfachen linearen Regressionsmodell mit Normalverteilungsannahme

Neben Konfidenzintervallen und Tests fur die Parameter β0 und β1 in linearenRegressionsmodellen vor allem Prognosen wichtige Anwendung.Zur Erstellung von Prognosen: Erweiterung der Modellannahme

yi = β0 + β1 · xi + ui , uiiid∼ N(0, σ2), i ∈ 1, . . . , n

auf (zumindest) einen weiteren, hier mit (x0, y0) bezeichneten Datenpunkt,bei dem jedoch y0 nicht beobachtet wird, sondern lediglich der Wert desRegressors x0 bekannt ist.Ziel:

”Schatzung“ (Prognose) von y0 = β0 + β1 · x0 + u0 bzw.

E(y0) = β0 + β1 · x0 auf Grundlage von x0.

Wegen E(u0) = 0 und der Erwartungstreue von β0 fur β0 bzw. β1 fur β1 ist

y0 := β0 + β1 · x0 =: E(y0)

offensichtlich erwartungstreu fur y0 bzw. E(y0) gegeben x0.

y0 bzw. E(y0) wird auch (bedingte) Punktprognose fur y0 bzw. E(y0)gegeben x0 genannt.



Prognosefehler

Zur Beurteilung der Genauigkeit der Prognosen:Untersuchung der sogenannten Prognosefehler

y0 − y0 bzw. E(y0)− E(y0) .

Qualitativer Unterschied:I Prognosefehler

E(y0)− E(y0) = β0 + β1 · x0 − (β0 + β1 · x0) = (β0 − β0) + (β1 − β1) · x0

resultiert nur aus Fehler bei der Schatzung von β0 bzw. β1 durch β0 bzw. β1.I Prognosefehler

y0 − y0 = β0 + β1 · x0 − (β0 + β1 · x0 + u0) = (β0 − β0) + (β1 − β1) · x0 − u0

ist Kombination von Schatzfehlern (fur β0 und β1) sowie zufalligerSchwankung von u0 ∼ N(0, σ2).

Zunachst: Untersuchung von eE := E(y0)− E(y0)



Wegen der Erwartungstreue stimmen mittlerer quadratischer (Prognose-)

Fehler und Varianz von eE = E(y0)− E(y0) uberein und man erhalt

Var(E(y0)− E(y0)) = Var(E(y0)) = Var(β0 + β1 · x0)

= Var(β0) + x20 Var(β1) + 2 · x0 · Cov(β0, β1).

Es kann gezeigt werden, dass fur die Kovarianz von β0 und β1 gilt:

Cov(β0, β1) = −σ2 · x∑ni=1(xi − x)2

= −σ2 · x

n · s2X

Insgesamt berechnet man so die Varianz des Prognosefehlers

σ2eE

:= Var(eE ) =σ2 · x2

n · s2X

+ x20 ·

σ2

n · s2X

− 2 · x0 ·σ2 · xn · s2

X

= σ2 · x2 + x20 − 2 · x0 · xn · s2

X

= σ2 · (x2 − x2) + (x2 + x20 − 2 · x0 · x)

n · s2X

= σ2 · s2X + (x0 − x)2

n · s2X

= σ2 ·(

1

n+

(x0 − x)2

n · s2X

).



Die Linearitat von β0 und β1 (in yi ) ubertragt sich (naturlich) auch auf

E(y0), damit gilt offensichtlich

eE = E(y0)− E(y0) ∼ N(0, σ2

eE

)bzw.

E(y0)− E(y0)

σeE

∼ N(0, 1) .

Da σ2 unbekannt ist, erhalt man durch Ersetzen von σ2 durch dieerwartungstreue Schatzfunktion σ2 die geschatzte Varianz

σ2eE := Var(eE ) = σ2 ·

(1

n+

(x0 − x)2

n · s2X

)von E(y0) und damit die praktisch wesentlich relevantere Verteilungsaussage

eE

σeE

=E(y0)− E(y0)

σeE

∼ t(n − 2) ,

aus der sich in bekannter Weise (symmetrische) Konfidenzintervalle (undTests) konstruieren lassen.



Prognoseintervalle fur E(y0) gegeben x0

Intervallprognosen zur Vertrauenswahrscheinlichkeit 1− α erhalt man also alsKonfidenzintervalle zum Konfidenzniveau 1− α fur E(y0) in der Form[

E(y0)− tn−2;1−α2 · σeE , E(y0) + tn−2;1−α2 · σeE

]=[(β0 + β1 · x0)− tn−2;1−α2 · σeE , (β0 + β1 · x0) + tn−2;1−α2 · σeE

].

Im Beispiel (Ausgaben in Abhangigkeit vom Einkommen) erhalt man zugegebenem x0 = 38 (in 100 e)

σ2eE = σ2 ·

(1

n+

(x0 − x)2

n · s2X

)= 0.9856 ·

(1

7+

(38− 30.28571)2

7 · 114.4901

)= 0.214

die Punktprognose E(y0) = β0 + β1 · x0 = 1.14228 + 0.26417 · 38 = 11.1807(in 100 e) sowie die Intervallprognose zur Vertrauenswahrscheinlichkeit 0.95[

11.1807− 2.571 ·√

0.214 , 11.1807 + 2.571 ·√

0.214]

= [9.9914 , 12.37] (in 100 e) .



Prognosefehler e0 := y0 − y0

Nun: Untersuchung des Prognosefehlers e0 := y0 − y0

Offensichtlich gilt fur e0 = y0 − y0 die Zerlegung

y0 − y0 = (β0 + β1 · x0)︸︷︷︸=E(y0)

−(β0 + β1 · x0︸︷︷︸=E(y0)

+u0)

= E(y0)− E(y0)︸︷︷︸Fehler aus Schatzung von

β0 und β1

− u0︸︷︷︸zufallige Schwankung

der Storgroße

.

E(y0) hangt nur von u1, . . . , un ab (uber y1, . . . , yn bzw. β0 und β1) und ist

wegen der Annahme uiiid∼ N(0, σ2) unabhangig von u0.

Damit sind die beiden Bestandteile des Prognosefehlers insbesondere auchunkorreliert und man erhalt:

σ2e0

:= Var(y0 − y0) = Var(E(y0)− E(y0)) + Var(u0)

= σ2 ·(

1

n+

(x0 − x)2

n · s2X

)+ σ2 = σ2 ·

(1 +

1

n+

(x0 − x)2

n · s2X

)Okonometrie (SS 2019) Folie 173


Aus der Unkorreliertheit der beiden Komponenten des Prognosefehlers folgtauch sofort die Normalverteilungseigenschaft des Prognosefehlerse0 = y0 − y0, genauer gilt:

e0 = y0 − y0 ∼ N(0, σ2

e0

)bzw.

y0 − y0

σe0

∼ N(0, 1) .

Wieder muss σ2 durch σ2 ersetzt werden, um mit Hilfe der geschatzenVarianz

σ2e0 := Var(y0 − y0) = σ2 ·

(1 +

1

n+

(x0 − x)2

n · s2X

)des Prognosefehlers die fur die Praxis relevante Verteilungsaussage

e0

σe0

=y0 − y0

σe0

∼ t(n − 2) ,

zu erhalten, aus der sich dann wieder Prognoseintervalle konstruieren lassen.



Prognoseintervalle fur y0 gegeben x0

Intervallprognosen fur y0 zur Vertrauenswahrscheinlichkeit 1− α erhalt manalso analog zu den Intervallprognosen fur E(y0) in der Form

[y0 − tn−2;1−α2 · σe0 , y0 + tn−2;1−α2 · σe0

]=[(β0 + β1 · x0)− tn−2;1−α2 · σe0 , (β0 + β1 · x0) + tn−2;1−α2 · σe0

].

Im Beispiel (Ausgaben in Abhangigkeit vom Einkommen) erhalt man zugegebenem x0 = 38 (in 100 e)

σ2e0 = σ2 ·

(1 +

1

n+

(x0 − x)2

n · s2X

)= 0.9856 ·

(1 +

1

7+

(38− 30.28571)2

7 · 114.4901

)= 1.1996

mit der bereits berechneten Punktprognose y0 = E(y0) = 11.1807 (in 100 e)die zugehorige Intervallprognose fur y0 zur Vertrauenswahrscheinlichkeit 0.95[

11.1807− 2.571 ·√

1.1996 , 11.1807 + 2.571 ·√

1.1996]

= [8.3648 , 13.9966] (in 100 e) .



Prognose: Ausgaben in Abhangigkeit vom Einkommenβ0 = 1.14228, β1 = 0.26417, x0 = 38, y0 = 11.1807, 1− α = 0.95

0 10 20 30 40 50

05

1015

xi

y i

y = yx


3 Einfache lineare Regression Einfache lineare Modelle mit R 3.6

Einfache lineare Modelle mit Statistik-Software RBeispiel (Ausgaben in Abhangigkeit vom Einkommen)

> summary(lm(y~x))

Call:

lm(formula = y ~ x)

Residuals:

1 2 3 4 5 6 7

-1.3882 0.9134 0.3102 -0.4449 -0.1048 -0.5390 1.2535

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 1.14225 1.12645 1.014 0.357100

x 0.26417 0.03507 7.533 0.000653 ***

---

Signif. codes:

0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.9928 on 5 degrees of freedom

Multiple R-squared: 0.919, Adjusted R-squared: 0.9028

F-statistic: 56.74 on 1 and 5 DF, p-value: 0.0006529



Interpretation des Outputs IResiduen, σ2 und R2

Residuals:

1 2 3 4 5 6 7

-1.3882 0.9134 0.3102 -0.4449 -0.1048 -0.5390 1.2535

Coefficients:


(Intercept) 1.14225 1.12645 1.014 0.357100

x 0.26417 0.03507 7.533 0.000653 ***

--

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1




Auflistung bzw. Zusammenfassung der Residuen ui

SER σ =√σ2, hier: σ = 0.9928⇒ σ2 = 0.9857

Anzahl Freiheitsgrade n − 2, hier: n − 2 = 5⇒ n = 7

(Multiples) Bestimmtheitsmaß R2, hier: R2 = 0.919



Interpretation des Outputs IIErgebnisse zur Schatzung von β0 und β1

Residuals:

1 2 3 4 5 6 7

-1.3882 0.9134 0.3102 -0.4449 -0.1048 -0.5390 1.2535

Coefficients:


(Intercept) 1.14225 1.12645 1.014 0.357100

x 0.26417 0.03507 7.533 0.000653 ***

--

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1




Realisationen von β0, β1, hier: β0 = 1.14225, β1 = 0.26417

Standardfehler von β0, β1, hier: σβ0= 1.12645, σβ1

= 0.03507

t-Statistiken zu Tests auf Signifikanz, hier: zu β0 : t = 1.014, zu β1 : t = 7.533

p-Werte zu Tests auf Signifikanz, hier: zu β0 : p = 0.3571, zu β1 : p = 0.000653



Zusammenhang zwischen p-Wertenzu zweiseitigen und einseitigen Tests bei unter H0 (um Null) symmetrisch verteilter Teststatistik

Erinnerung: t(n)- sowie N(0, 1)-Verteilung sind symmetrisch um Null, fur diezugehorigen Verteilungsfunktionen F gilt also F (x) = 1− F (−x) fur allex ∈ R und F (0) = 0.5, F (x) < 0.5 fur x < 0 sowie F (x) > 0.5 fur x > 0.Fur die p-Werte pz der zweiseitigen Tests auf den Mittelwert bei bekannter(Gauß-Test) sowie unbekannter (t-Test) Varianz gilt daher bekanntlich

pz = 2 ·minF (x), 1− F (x) =

2 · F (x) falls x < 0

2 · (1− F (x)) falls x ≥ 0,

wobei x den realisierten Wert der Teststatistik sowie F dieVerteilungsfunktion der Teststatistik unter H0 bezeichne.Fur die p-Werte pl = F (x) zum linksseitigen sowie pr = 1− F (x) zumrechtsseitigen Test bei realisierter Teststatistik x gelten demnach diefolgenden Zusammenhange:

pl =

pz

2falls x < 0

1− pz

2falls x ≥ 0

sowie pr =

1− pz

2falls x < 0

pz

2falls x ≥ 0

.

Somit auch p-Werte zu einseitigen Tests aus R-Output bestimmbar!Okonometrie (SS 2019) Folie 180

4 Multiple lineare Regression Multiples lineares Modell 4.1

Zusammenfassung: Einfache lineare Regression I

Bisher: Annahme der Gultigkeit eines einfachen linearen Modells

yi = β0 + β1 · xi + ui , i ∈ 1, . . . , n,

mitI der abhangigen Variablen (Regressand) yi ,I einer unabhangigen, erklarenden Variablen (Regressor) xi , wobei

1 xi als deterministisch angenommen wird und2 s2

X > 0 gelten muss,

I der Storgroße ui , wobei1 E(ui ) ≡ 0,2 Var(ui ) ≡ σ2 > 0,3 Cov(ui , uj ) = 0 fur alle i , j mit i 6= j sowie meist daruberhinaus eine4 gemeinsame Normalverteilung der ui ,

damit insgesamt uiiid∼ N(0, σ2) angenommen wird.



Zusammenfassung: Einfache lineare Regression II

Auf Grundlage dieses Annahmen-Komplexes:I Verwendung der KQ-Methode, um eine geschatze Regressionsgerade

y = β0 + β1 · x mit den zugehorigen KQ-Prognosen yi = β0 + β1 · xi und denzugehorigen KQ-Residuen ui = yi − yi zu bestimmen.

I Bestimmung von Konfidenzintervallen und Durchfuhrung von Hypothesentestsfur die Regressionsparameter β0 und β1.

I Bestimmung von bedingten Punktprognosen und Prognoseintervallen fur dieabhangige Variable y zu

”neuen“ Werten der unabhangigen, erklarenden

Variablen x .

Problem: (Perfekte) Validitat der Ergebnisse nur, wenn Modell korrekt undAnnahmen-Komplex erfullt ist!

Im Folgenden:I Erweiterung des einfachen linearen Regressionsmodells zum multiplen linearen

RegressionsmodellI Untersuchung der Konsequenz von AnnahmeverletzungenI Geeignete Reaktion auf bzw. geeignete Verfahren im Fall von

Annahmeverletzungen



Konsequenz bei weggelassener erklarender Variablen IDer

”omitted variable bias“

Eine Moglichkeit der Verletzung der Annahmen des einfachen linearenModells: Modell ist tatsachlich komplexer, yi hange auch von einer weiterenerklarenden Variablen xi linear in der Gestalt

yi = β0 + β1 · xi + β2 · xi + εi , i ∈ 1, . . . , n,

mit β2 6= 0 ab, wobei die ublichen Annahmen fur die Storgroßen εi

(insbesondere E(εi ) ≡ 0) gelten sollen.

Wird statt des komplexeren Modells die Gultigkeit eines einfachen linearenModells angenommen, ist die Abhangigkeit von xi offensichtlich in derStorgroße ui subsummiert, man erhalt die Darstellung

yi = β0 + β1 · xi + β2 · xi + εi︸︷︷︸ui

, i ∈ 1, . . . , n.

Damit gilt im einfachen Modell jedoch E(ui ) = β2 · xi , die Annahme E(ui ) ≡ 0ist also verletzt, sobald xi 6= 0 fur mindestens ein i ∈ 1, . . . , n gilt!



Konsequenz bei weggelassener erklarender Variablen IIDer

”omitted variable bias“

Werden trotz dieser Annahmenverletzung Parameterschatzer im einfachenlinearen Modell bestimmt, so erhalt man beispielsweise fur β1

β1 =n∑

i=1

(xi − x)

ns2X

· yi =n∑

i=1

(xi − x)

ns2X

· (β0 + β1 · xi + β2 · xi + εi )

= β0

n∑i=1

(xi − x)

ns2X︸︷︷︸

=0

+β1

n∑i=1

(xi − x)xi

ns2X︸︷︷︸

!=1

+β2

n∑i=1

(xi − x)xi

ns2X︸︷︷︸

!=

sX,X

s2X

+n∑

i=1

(xi − x)εi

ns2X

und damit E(β1) = β1 + β2

sX ,X

s2X

.

(sX ,X bezeichnet wie ublich die empirische Kovarianz zwischen X und X .)

Damit ist β1 nicht mehr erwartungstreu fur β1, falls sX ,X 6= 0 gilt, auchKonfidenzintervalle und Tests werden dann unbrauchbar!



Das multiple lineare Regressionsmodell I

Losung des Problems durch Schaffung der Moglichkeit, weitere erklarendeVariablen einzubeziehen.

Erweiterung des einfachen linearen Modells um zusatzliche Regressorenx2i , . . . , xKi zum multiplen linearen Modell

yi = β0 + β1x1i + . . .+ βK xKi + ui , i ∈ 1, . . . , n,

bzw. in Matrixschreibweisey = Xβ + u

mit

y =

y1

...yn

, X =

1 x11 · · · xK1

......

...1 x1n · · · xKn

, β =

β0

β1

...βK

, u =

u1

...un

.



Das multiple lineare Regressionsmodell II

Modellannahmen im multiplen linearen Regressionsmodell ubertragen sich (zumTeil verallgemeinert) aus einfachem linearen Modell:

Fur die K unabhangigen, erklarenden Variablen (Regressoren) x1i , . . . , xKi

wird angenommen, dass1 die xki deterministisch sind (fur i ∈ 1, . . . , n, k ∈ 1, . . . ,K) und dass2 sich fur kein k ∈ 1, . . . ,K der Regressor xki als (fur alle i ∈ 1, . . . , n feste)

Linearkombination einer Konstanten und der ubrigen Regressoren darstellenlasst. Aquivalent dazu:F Die Regressormatrix X hat vollen (Spalten-)Rang K + 1.F x1i lasst sich nicht als Linearkombination einer Konstanten und der ubrigen

Regressoren x2i , . . . , xKi darstellen.

Fur die Storgroßen ui wird1 E(ui ) ≡ 0 bzw. E(u) = 0 mit dem Nullvektor 0 := (0, . . . , 0)′,2 Var(ui ) ≡ σ2 > 0,3 Cov(ui , uj ) = 0 fur alle i , j mit i 6= j sowie meist daruberhinaus eine4 gemeinsame Normalverteilung der ui ,

damit insgesamt uiiid∼ N(0, σ2) bzw. u ∼ N(0, σ2In) mit der

(n × n)-Einheitsmatrix In angenommen.



Das multiple lineare Regressionsmodell III

Fur den Erwartungswert von yi gilt nun

E (yi ) = β0 + β1x1i + . . .+ βK xKi , i ∈ 1, . . . , n,

die Regressionsgerade aus dem einfachen linearen Modell wird also nun zueiner Regressionsebene, beschrieben durch die Regressions-Parameterβ0, . . . , βK .

Der Regressionsparameter (und Steigungskoeffizient) βk gibt nun furk ∈ 1, . . . ,K die erwartete Anderung (ohne den Einfluss der Storgroße ui )von yi an, die aus der Erhohung des Regressors xki um eine Einheit resultiert,wenn alle anderen Regressoren konstant gehalten werden.

Zur Schatzung der Parameter des multiplen Regressionsmodells wirdwiederum die Methode der Kleinsten Quadrate (Least Squares, auchOrdinary Least Squares) verwendet.


4 Multiple lineare Regression Parameterschatzung 4.2

Schatzung im multiplen linearen Modell I

Die Anwendung der KQ-Methode im multiplen linearen Modell fuhrt zurSuche nach β0, β1, . . . , βK ∈ R mit

n∑i=1

(yi − (β0 + β1xi1 + . . .+ βK xKi ))2

!= minβ0,β1,...,βK∈R

n∑i=1

(yi − (β0 + β1xi1 + . . .+ βK xKi ))2 .

In Matrixschreibweise ist also der Vektor β = (β0, β1, . . . , βK )′ ∈ RK+1

gesucht mit

(y − Xβ)′(y − Xβ)!

= minβ∈RK+1

(y − Xβ)′(y − Xβ) .

(Zu Matrizen A bzw. Vektoren b seien hier und im Folgenden wie ublich mitA′ bzw. b′ jeweils die transponierten Matrizen bzw. Vektoren bezeichnet.)



Schatzung im multiplen linearen Modell II

Die Matrixdarstellung erlaubt eine kompakte Losung der Optimierung:

Fur die zu minimierende Funktion

f (β) := (y − Xβ)′(y − Xβ) = y′y − β′X′y − y′Xβ + β′X′Xβ

= y′y − 2β′X′y + β′X′Xβ

erhalt man den Gradienten

∂f (β)

∂β= −2X′y + 2X′Xβ = 2(X′Xβ − X′y)

und damit wegen der Invertierbarkeit (!) von X′X als Losung von∂f (β)

∂β

!= 0

β = (X′X)−1X′y ,

die wegen der positiven Definitheit (!) von X′X auch (einzige) Losung desMinimierungsproblems ist.



Schatzung im multiplen linearen Modell III

Die Invertierbarkeit von X′X ist gewahrleistet, da nach Annahme die(n × (K + 1))-Matrix X vollen (Spalten-)Rang K + 1 und damit auch die((K + 1)× (K + 1))-Matrix X′X vollen Rang K + 1 hat.

Da X vollen (Spalten-)Rang besitzt, ist X′X außerdem positiv definit.

Eine Verletzung der getroffenen Annahme, dass X vollen (Spalten-)Rangbesitzt, bezeichnet man auch als perfekte Multikollinearitat derRegressormatrix X.

Bei Vorliegen von perfekter Multikollinearitat ist die KQ-Methode zwar immernoch (allerdings nicht wie eben beschrieben!) durchfuhrbar, der optimale

Vektor β ist allerdings nicht mehr eindeutig bestimmt, der zugehorigeParametervektor β damit nicht mehr identifiziert.

Perfekte Multikollinearitat kann durch (zum Teil offensichtliche)Unachtsamkeiten bei der Zusammenstellung der Regressoren entstehen(spater mehr!).



Schatzung im multiplen linearen Modell IV

Eine andere Darstellung des KQ-Schatzers β ist gegeben durch β1

...

βK

=

s11 s12 · · · s1K

......

...sK1 sK2 · · · sKK

−1 s1Y

...sKY

und

β0 = y − (β1x1 + . . .+ βK xK )

mit

xk =1

n

n∑i=1

xki , skj =1

n

n∑i=1

(xki − xk )(xji − x j ),

y =1

n

n∑i=1

yi , skY =1

n

n∑i=1

(xki − xk )(yi − y)

fur k, j ∈ 1, . . . ,K.



Schatzung im multiplen linearen Modell V

Offensichtlich erhalt man fur K = 1 hiermit die – abgesehen von der leichtabweichenden Notation – zum KQ-Schatzer im einfachen linearen Modellubereinstimmende Darstellung

β1 =s1Y

s11sowie β0 = y − β1x1 .

Fur K = 2 lasst sich die Darstellung

β1 =s22s1Y − s12s2Y

s11s22 − s212

, β2 =s11s2Y − s12s1Y

s11s22 − s212

, β0 = y − (β1x1 + β2x2)

fur die KQ-Schatzer ableiten.



Schatzung im multiplen linearen Modell VI

Wie im einfachen linearen Regressionsmodell definiert man zu denKQ/OLS-geschatzten Parametern β = (β0, β1, . . . , βK )′ mit

yi := β0 + β1x1i + . . . βK xKi , i ∈ 1, . . . , n bzw. y := Xβ

die vom (geschatzten) Modell prognostizierten Werte der abhangigenVariablen auf der geschatzten Regressionsebene sowie mit

ui := yi − yi , i ∈ 1, . . . , n bzw. u := y − y

die Residuen, also die Abstande (in y -Richtung) der beobachteten Werte derabhangigen Variablen von den prognostizierten Werten auf der geschatztenRegressionsebene.

Es gilt (analog)∑n

i=1 ui = 0 sowie∑n

i=1 xki ui = 0 fur k ∈ 1, . . . ,K bzw.

X′u = X′(y − y) = X′y − X′Xβ = X′y − X′X(X′X)−1X′y = 0 .



Schatzung im multiplen linearen Modell VII

Damit gilt weiter y′u = (Xβ)′u = β′X′u = 0 sowie mit0 =

∑ni=1 ui =

∑ni=1(yi − yi ) auch

∑ni=1 yi =

∑ni=1 yi ⇐⇒ y = y .

So erhalt man

y′y = (y + u)′(y + u) = y′y + u′y︸︷︷︸=0

+ y′u︸︷︷︸=0

+u′u

und durch Subtraktion von ny 2 = ny2

auf beiden Seiten

y′y − ny 2 = y′y − ny2

+ u′u

und damit insgesamt die bekannte Streuungszerlegung

n∑i=1

(yi − y)2

︸︷︷︸Total Sum of Squares

=n∑

i=1

(yi − y)2

︸︷︷︸Explained Sum of Squares

+n∑

i=1

u2i︸︷︷︸

Residual Sum of Squares

.



Schatzung im multiplen linearen Modell VIII

Wie im einfachen linearen Modell misst das multiple Bestimmtheitsmaß

R2 = 1−∑n

i=1 u2i∑n

i=1(yi − y)2=

∑ni=1(yi − y)2∑ni=1(yi − y)2

= 1− RSS

TSS=

ESS

TSS

den Anteil der durch den (geschatzten) linearen Zusammenhang erklartenStreuung an der gesamten Streuung der abhangigen Variablen.

Es gilt weiterhin 0 ≤ R2 ≤ 1.

Bei der Hinzunahme weiterer erklarender Variablen (Regressoren) in einbestehendes lineares Modell kann sich im Laufe der KQ/OLS-Schatzung derZielfunktionswert an der Minimumstelle, RSS =

∑ni=1 u2

i , offensichtlichhochstens weiter verringern.

Damit fuhrt die Hinzunahme weiterer (auch eigentlich irrelevanter)Regressoren hochstens zu einer Zunahme des multiplen BestimmtheitsmaßesR2.



Schatzung im multiplen linearen Modell IX

Um einen aussagekraftigeren Vergleich der Bestimmtheitmaße einesursprunglichen und eines erweiterten Modells durchfuhren zu konnen, kanndas adjustierte Bestimmtheitsmaß

R2 := 1−1

n−(K+1) · RSS1

n−1 · TSS= 1− n − 1

n − (K + 1)

RSS

TSS

verwendet werden.

Dieses kann sich bei Erweiterung eines Modells um zusatzliche Regressorenauch verringern (und sogar negativ werden).

Es gilt (offensichtlich) stets

R2 ≤ R2 ≤ 1 .



Schatzung im multiplen linearen Modell X

Bei der Berechnung von R2 wird die fur σ2 = Var(ui ) erwartungstreueSchatzfunktion

σ2 =1

n − (K + 1)

n∑i=1

u2i =

u′u

n − (K + 1)=

RSS

n − (K + 1)

verwendet.

Wie im einfachen linearen Modell wird die positive Wurzel +√σ2 dieser

Schatzfunktion als Standard Error of the Regression (SER) oder residualstandard error bezeichnet.

Die Korrektur um K + 1 Freiheitsgrade erklart sich dadurch, dass nun K + 1Beobachtungen notig sind, um die Regressionsebene (eindeutig) bestimmenzu konnen.



Schatzung im multiplen linearen Modell XI

Die Schatzfunktion β = (X′X)−1X′y ist offensichtlich linear in den yi .

Einsetzen von y = Xβ + u liefert die Darstellung

β = (X′X)−1X′y = (X′X)−1X′(Xβ + u)

= (X′X)−1(X′X)β + (X′X)−1X′u = β + (X′X)−1X′u

von β, unter der Annahme E(u) = 0 folgt daraus sofort E(β) = β und damit

die Erwartungstreue von β fur β.

Fur die (Varianz-)Kovarianzmatrix V(β) von β erhalt man mit der obigen

Darstellung fur β wegen der Symmetrie von (X′X)−1 weiter

V(β) = E

[(β − E(β)

)(β − E(β)

)′]= E

[((X′X)−1X′u

) ((X′X)−1X′u

)′]= E

[(X′X)−1X′uu′X(X′X)−1

]= (X′X)−1X′ E(uu′)︸︷︷︸

=V(u)=σ2In

X(X′X)−1

= σ2(X′X)−1X′X(X′X)−1 = σ2(X′X)−1



Schatzung im multiplen linearen Modell XII

Die (symmetrische) Matrix V(β) enthalt alle Varianzen der Parameterschatzer

β0, β1, . . . , βK sowie deren paarweise Kovarianzen in der Gestalt

V(β) =

Var(β0) Cov(β0, β1) · · · Cov(β0, βK )

Cov(β1, β0) Var(β1) · · · Cov(β1, βK )...

.... . .

...

Cov(βK , β0) Cov(βK , β1) · · · Var(βK )

.

V(β) = σ2(X′X)−1 kann unter Zuhilfenahme von σ2 durch

V(β) = σ2(X′X)−1

geschatzt werden.



Schatzung im multiplen linearen Modell XIII

Man erhalt so Schatzwerte fur die Varianzen der Schatzer β0, β1, . . . , βK

sowie deren paarweise Kovarianzen in der Gestalt

V(β) =

Var(β0) Cov(β0, β1) · · · Cov(β0, βK )

Cov(β1, β0) Var(β1) · · · Cov(β1, βK )...

.... . .

...

Cov(βK , β0) Cov(βK , β1) · · · Var(βK )

.

Die (positiven) Wurzeln der Hauptdiagonalelemente von V(β),

σβ0:=

√Var(β0), σβ1

:=

√Var(β1), . . . , σβK

:=

√Var(βK ) ,

werden wie ublich als Standardfehler der Parameterschatzer β0, β1, . . . , βK

bezeichnet.



Schatzung im multiplen linearen Modell XIV

Zusammengefasst erhalt man unter bisherigen Annahmen an X sowie denanfangs getroffenen Annahmen

1 E(ui ) ≡ 0,2 Var(ui ) ≡ σ2 > 0,3 Cov(ui , uj ) = 0 fur alle i , j mit i 6= j

an die Storgroßen ui , i ∈ 1, . . . , n, dass

I β eine in yi lineare Schatzfunktion ist,I β erwartungstreu fur β ist,I β die Varianz-Kovarianzmatrix V(β) = σ2(X′X)−1 besitzt.

Der Satz von Gauß-Markov sichert daruberhinaus, dass β sogar die bestelineare unverzerrte Schatzfunktion (BLUE) ist.

Unter der zusatzlichen Annahme einer4 gemeinsamen Normalverteilung der ui

erhalt man mit der Linearitat sofort die Normalverteilungseigenschaft von β,also β ∼ N

(β, σ2(X′X)−1

). Außerdem kann man zeigen, dass β dann sogar

varianzminimal unter allen fur β erwartungstreuen Schatzfunktionen ist.



Schatzung im multiplen linearen Modell XV

Auch ohne Normalverteilungsannahme fur die ui kann man unter gewissentechnischen Voraussetzungen (die hier nicht naher ausgefuhrt werden) zeigen,

dass die Verteilung von β bei wachsendem Beobachtungsumfang n gegeneine (mehrdimensionale) Normalverteilung konvergiert.

In der Praxis bedeutet dies, dass man – auch fur endliches n – als geeigneteNaherung der Verteilung von β haufig eine mehrdimensionaleNormalverteilung mit dem Erwartungswertvektor β und derVarianz-Kovarianzmatrix σ2(X′X)−1 verwenden kann.

Wie”gut“ diese Naherung ist, hangt wieder vom konkreten Anwendungsfall

ab; insbesondereI steigt die Qualitat der Naherung i.d.R. mit wachsendem n,I ist die Naherung umso besser, je ahnlicher die tatsachliche Verteilung der ui

einer Normalverteilung ist.

In der Praxis beurteilt man die”Nahe“ der Verteilung der (unbeobachteten!)

Storgroßen ui zu einer Normalverteilung mit Hilfe der (geschatzten!)Residuen ui .


4 Multiple lineare Regression Konfidenzintervalle und Tests 4.3

Konfidenzintervalle und Tests fur einzelne Parameter

Konfidenzintervalle und Tests fur einzelne Parameter konnen ganz analogzum einfachen linearen Modell konstruiert werden.

Fur die Komponenten βk , k ∈ 0, . . . ,K, des Parameterschatzers β gilt beiNormalverteilungsannahme an die ui exakt (sonst ggf. approximativ)

βk − βk

σβk

∼ t(n − (K + 1)), k ∈ 0, . . . ,K

Hieraus ergeben sich fur k ∈ 0, . . . ,K unmittelbar die zum einfachenlinearen Modell analogen

”Formeln“ der (ggf. approximativen)

(symmetrischen) Konfidenzintervalle fur βk zum Konfidenzniveau 1− αbzw. zur Vertrauenswahrscheinlichkeit 1− α als[

βk − tn−(K+1);1−α2 · σβk, βk + tn−(K+1);1−α2 · σβk

]Ebenfalls analog erhalt man t-Tests fur die Regressionsparameterβ0, β1, . . . , βK .



Zusammenfassung: t-Test fur den Parameter βkim multiplen linearen Regressionsmodell

Anwendungs- exakt: y = Xβ + u mit u ∼ N(0, σ2In),voraussetzungen approx.: y = Xβ + u mit E(u) = 0, V(u) = σ2In,

σ2 unbekannt, X deterministisch mit vollem Spaltenrang K + 1,Realisation y = (y1, . . . , yn)′ beobachtet

Nullhypothese H0 : βk = β0k H0 : βk ≤ β0

k H0 : βk ≥ β0k

Gegenhypothese H1 : βk 6= β0k H1 : βk > β0

k H1 : βk < β0k

Teststatistik t =βk − β0

k

σβk

Verteilung (H0) t fur βk = β0k (naherungsweise) t(n − (K + 1))-verteilt

Benotigte Großen βk =[(X′X)−1X′y

]k+1

, σβk=√σ2 [(X′X)−1]k+1,k+1 mit

σ2 = u′un−(K+1)

, wobei u = y − X(X′X)−1X′y

Kritischer Bereich (−∞,−tn−(K+1);1−α2

) (tn−(K+1);1−α,∞) (−∞,−tn−(K+1);1−α)

zum Niveau α ∪(tn−(K+1);1−α2,∞)

p-Wert 2 · (1− Ft(n−(K+1))(|t|)) 1− Ft(n−(K+1))(t) Ft(n−(K+1))(t)



Beispiel: Multiples Modell/Omitted Variable Bias I

Beispieldatensatz mit Daten zur Lohnhohe (yi ), zu den Ausbildungsjahrenuber den Hauptschulabschluss hinaus (x1i ) sowie zum Alter in Jahren (x2i )von n = 20 Mitarbeitern eines Betriebs:

i 1 2 3 4 5 6 7 8 9 10

Lohnhohe yi 1250 1950 2300 1350 1650 1750 1550 1400 1700 2000Ausbildung x1i 1 9 11 3 2 1 4 1 3 4Alter x2i 28 34 55 24 42 43 37 18 63 58

i 11 12 13 14 15 16 17 18 19 20

Lohnhohe yi 1350 1600 1400 1500 2350 1700 1350 2600 1400 1550Ausbildung x1i 1 2 2 3 6 9 1 7 2 2Alter x2i 30 43 23 21 50 64 36 58 35 41

(vgl. von Auer, Ludwig: Okonometrie – Eine Einfuhrung, 6. Aufl., Tabelle 13.1)

Es soll nun angenommen werden, dass das multiple lineare Regressionsmodell

yi = β0 + β1x1i + β2x2i + ui , uiiid∼ N(0, σ2), i ∈ 1, . . . , 20,

mit den ublichen Annahmen korrekt spezifiziert ist.Okonometrie (SS 2019) Folie 205


Beispiel: Multiples Modell/Omitted Variable Bias II

Zunachst wird (falschlicherweise!) die Variable”Alter“ (x2i ) weggelassen und

die”Lohnhohe“ (yi ) nur mit der Variable

”Ausbildung“ (x1i ) erklart:

Call:

lm(formula = Lohnhohe ~ Ausbildung)

Residuals:

Min 1Q Median 3Q Max

-458.19 -140.36 -68.94 87.32 620.37

Coefficients:


(Intercept) 1354.66 94.22 14.377 2.62e-11 ***

Ausbildung 89.28 19.82 4.505 0.000274 ***

---

Signif. codes:

0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1






Beispiel: Multiples Modell/Omitted Variable Bias III

Danach wird das korrekte, vollstandige Modell geschatzt:Call:

lm(formula = Lohnhohe ~ Ausbildung + Alter)

Residuals:


-569.50 -120.79 -5.14 73.12 519.26

Coefficients:


(Intercept) 1027.806 164.473 6.249 8.81e-06 ***

Ausbildung 62.575 21.191 2.953 0.0089 **

Alter 10.602 4.577 2.317 0.0333 *

---

Signif. codes:

0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1






Beispiel: Multiples Modell/Omitted Variable Bias IV

Geschätzte Regressionsebene mit Residuen

0 2 4 6 8 10 121200

1400

1600

1800

2000

2200

2400

2600

1020

3040

5060

70

Ausbildung x1i

Alte

rx 2

i

Lohn

höhe

y i



Beispiel: Multiples Modell/Omitted Variable Bias V

Gegenuberstellung der Schatzergebnisse:

falsches Modell korrektes Modell

Absolutglied β0 1354.658 1027.806σβ0

94.222 164.473

Ausbildung β1 89.282 62.575σβ1

19.82 21.191

Alter β2 10.602σβ2

4.577

u′u 1260028 957698SER 264.578 237.35R2 0.5299 0.6427

R2 0.5038 0.6007



Beispiel: Multiples Modell/Omitted Variable Bias VI

Die Regressoren x1i (Ausbildungsjahre) und x2i (Alter) sind positiv korreliert,es gilt (mit den Bezeichnungen von Folie 191) genauer

s12 = 22.445 bzw.s12√

s11√

s22=

22.445√8.91 ·

√191.028

= 0.544

Außerdem hat der Regressor”Alter“ (neben dem Regressor

”Ausbildung“) im

korrekten Modell einen signifikanten Regressionskoeffizienten.

Im Modell mit ausgelassener Variablen x2i (Alter) spiegelt der geschatzteKoeffizient zum Regressor

”Ausbildung“ damit nicht den

”isolierten“ Effekt der

Ausbildung wider, sondern einen”kombinierten“ Effekt.

Wie man zeigen (und im Beispiel leicht nachrechnen) kann, erhalt man(analog zum Resultat von Folie 184) durch

β1 +s12

s11β2 = 62.575 +

22.445

8.91· 10.602 = 89.282

aus den Schatzergebnissen des korrekten Modells den Punktschatzer fur β1

im falschen Modell mit ausgelassenem Regressor.Okonometrie (SS 2019) Folie 210


Beispiel: Multiples Modell/Omitted Variable Bias VII

Auch die Punkt- und Intervallschatzung von β0 sowie Hypothesentests fur dieRegressionsparameter unterliegen im Modell mit ausgelassener Variablenvergleichbaren Verzerrungen.

Geht man falschlicherweise davon aus, die Annahmen des linearenRegressionsmodell im Modell mit ausgelassenem Regressor erfullt und mit derModellschatzung den isolierten Effekt des Regressors

”Ausbildung“ gemessen

zu haben, so fuhrt dies zuI verzerrten Punktschatzern,I verschobenen und in der Breite verzerrten Konfidenzintervallen sowieI wertlosen Hypothesentests

fur den isolierten Effekt (da man tatsachlich einen kombinierten Effektgemessen hat).


4 Multiple lineare Regression Punkt- und Intervallprognosen 4.4

Punkt- und Intervallprognosen I

Wie im einfachen linearen Regressionsmodell: Erweiterung derModellannahme

yi = β0 + β1x1i + . . .+ βK xKi + ui , uiiid∼ N(0, σ2), i ∈ 1, . . . , n

auf (zumindest) einen weiteren Datenpunkt (y0, x10, . . . , xK0), bei dem jedochy0 nicht beobachtet wird, sondern lediglich die Werte der Regressorenx10, . . . , xK0 bekannt sind.

Ziel ist wiederum die Prognose von y0 = β0 + β1x10 + . . . βK xK0 + u0 bzw.E(y0) = β0 + β1x10 + . . . βK xK0 auf Grundlage von x10, . . . , xK0.

Hierzu definiert man wie im einfachen linearen Modell mit

y0 := β0 + β1x10 + . . .+ βK xK0

bzw. E(y0) := β0 + β1x10 + . . .+ βK xK0

die (bedingte) Punktprognose y0 fur y0 gegeben x10, . . . , xK0 bzw.

die (bedingte) Punktprognose E(y0) fur E(y0) gegeben x10, . . . , xK0.



Punkt- und Intervallprognosen II

Die Untersuchung der Eigenschaften der bedingten Punktprognosenvereinfacht sich durch die Definition des Vektors

x0 =[1 x10 · · · xK0

]′,

der (transponiert) analog zu einer Zeile der Regressormatrix X aufgebaut ist.

Fur die (bedingte) Punktprognose fur y0 bzw. E(y0) gegeben x0 erhalt manso die kompakte Darstellung

y0 = x0′β bzw. E(y0) = x0

′β .

Die Erwartungstreue der (bedingten) Punktprognosen ergibt sich damit

unmittelbar aus der Erwartungstreue von β fur β und E(u0) = 0:

E(x0′β) = x0

′ E(β) = x0′β = E(y0) [ = E(E(y0)) ]



Punkt- und Intervallprognosen III

Wie im einfachen linearen Modell resultiert der Prognosefehler

eE := E(y0)− E(y0) = x0′β − x0

′β = x0′(β − β)

nur aus dem Fehler bei der Schatzung von β durch β, wahrend

e0 := y0 − y0 = x0′β − (x0

′β + u0) = x0′(β − β)− u0

zusatzlich die zufallige Schwankung von u0 ∼ N(0, σ2) enthalt.

Fur die Varianz des Prognosefehlers eE erhalt man (da E(E(y0)− E(y0)) = 0)

σ2eE

:= Var(eE ) = Var(E(y0)− E(y0)) = E[[x0′(β − β)]2

](!)= E

[(x0′(β − β))(x0

′(β − β))′]

= E[x0′(β − β)(β − β)′x0

]= x0

′ V(β)x0 = σ2x0′(X′X)−1x0 .



Punkt- und Intervallprognosen IV

Fur die Varianz des Prognosefehlers e0 erhalt man (wegen E(y0 − y0) = 0,

E(β − β) = 0 und E(u0) = 0)

σ2e0

:= Var(e0) = Var(y0 − y0) = E[[x0′(β − β)− u0]2

]= E

[[x0′(β − β)]2 − 2x0

′(β − β)u0 + u20

]= E

[[x0′(β − β)]2

]︸︷︷︸

=σ2x0′(X′X)−1x0

−2x0′ E[(β − β)u0

]︸︷︷︸=Cov(β−β,u0)=0

+ E(u20)︸︷︷︸

=σ2

= σ2[1 + x0

′(X′X)−1x0

].



Punkt- und Intervallprognosen V

Wegen der Linearitat von y0 bzw. E(y0) in β ubertragt sich die

Normalverteilungseigenschaft von β auf y0 bzw. E(y0), es gilt also

y0 ∼ N(y0, σ

2e0

)bzw. E(y0) ∼ N

(E(y0), σ2

eE

).

Wie im einfachen linearen Regressionsmodell muss das unbekannte σ2 durch

σ2 geschatzt werden, mit

σ2e0 := σ2

[1 + x0

′(X′X)−1x0

]bzw. σ2

eE := σ2x0′(X′X)−1x0

erhalt man mit σe0 :=

√σ2

e0 und σeE :=

√σ2

eE die Verteilungsaussagen

y0 − y0

σe0

∼ t(n − (K + 1)) bzw.E(y0)− E(y0)

σeE

∼ t(n − (K + 1)) ,

aus denen sich Prognoseintervalle fur y0 und E(y0) konstruieren lassen.



Punkt- und Intervallprognosen VI

Intervallprognosen fur y0 zur Vertrauenswahrscheinlichkeit 1− α erhalt manalso in der Form[

y0 − tn−(K+1);1−α2 · σe0 , y0 + tn−(K+1);1−α2 · σe0

]=[

x0′β−tn−(K+1);1−α

2·σ√

1+x0′(X′X)−1x0 , x0

′β+tn−(K+1);1−α2·σ√

1+x0′(X′X)−1x0

].

Intervallprognosen fur E(y0) zur Vertrauenswahrscheinlichkeit 1− α (auchinterpretierbar als Konfidenzintervalle zum Konfidenzniveau 1− α fur E(y0))erhalt man entsprechend in der Form[

E(y0)− tn−(K+1);1−α2 · σeE , E(y0) + tn−(K+1);1−α2 · σeE

]=[

x0′β−tn−(K+1);1−α

2·σ√

x0′(X′X)−1x0 , x0

′β+tn−(K+1);1−α2·σ√

x0′(X′X)−1x0

].



Punkt- und Intervallprognosen VII

Eine Punktprognose fur die (erwartete) Lohnhohe eines 38-jahrigenMitarbeiters, der nach dem Hauptschulabschluss weitere 4 Ausbildungsjahreabsolviert hat, erhalt man im geschatzten Modell aus Folie 207 mitx0 =

[1 4 38

]′als

y0 = E(y0) = x0′β =

[1 4 38

] 1027.80662.57510.602

= 1680.978 .

Im Beispiel aus Folie 207 gilt weiterhin

(X′X)−1 =

0.4801866 0.0081102 −0.01146190.0081102 0.0079709 −0.0009366−0.0114619 −0.0009366 0.0003718

und σ = 237.35.



Punkt- und Intervallprognosen VIII

Mit

x0′(X′X)−1x0 =

[1 4 38

] 0.4801866 0.0081102 −0.01146190.0081102 0.0079709 −0.0009366−0.0114619 −0.0009366 0.0003718

14

38

= 0.0536441

erhalt man weiter

σe0 = σ√

1 + x0′(X′X)−1x0 = 237.35 ·

√1 + 0.0536441 = 243.6331

undσeE = σ

√x0′(X′X)−1x0 = 237.35 ·

√0.0536441 = 54.9731 .



Punkt- und Intervallprognosen IX

Insgesamt erhalt man fur α = 0.05 schließlich das Prognoseintervall[y0 − t20−(2+1);1− 0.05

2· σe0 , y0 + t20−(2+1);1− 0.05

2· σe0

]= [y0 − t17;0.975 · σe0 , y0 + t17;0.975 · σe0 ]

= [1680.978− 2.1098 · 243.6331 , 1680.978 + 2.1098 · 243.6331]

= [1166.961 , 2194.995]

zur Vertrauenswahrscheinlichkeit 1− α = 0.95 fur y0 gegeben x10 = 4 undx20 = 38.

Entsprechend erhalt man fur α = 0.05 das Prognoseintervall[E(y0)− t20−(2+1);1− 0.05

2· σeE , E(y0) + t20−(2+1);1− 0.05

2· σeE

]= [1680.978− 2.1098 · 54.9731 , 1680.978 + 2.1098 · 54.9731]

= [1564.996 , 1796.96]

zur Vertrauenswahrscheinlichkeit 1− α = 0.95 fur E(y0) gegeben x10 = 4 undx20 = 38.


4 Multiple lineare Regression Tests einzelner linearer Hypothesen 4.5

Tests einzelner linearer Hypothesen I

Neben Tests fur einzelne Regressionsparameter sind auch Tests (undKonfidenzintervalle) fur Linearkombinationen von Regressionsparameternproblemlos moglich.

Bei Vorliegen der Normalverteilungseigenschaft uiiid∼ N(0, σ2) bzw.

u ∼ N(0, σ2In) gilt bekanntlich

β ∼ N(β, σ2(X′X)−1

),

und auch ohne Normalverteilungsannahme an die ui ist die approximativeVerwendung einer (mehrdimensionalen) Normalverteilung fur β oft sinnvoll.

Damit gilt allerdings nicht nur βk ∼ N(βk , σ2) bzw. βk

•∼ N(βk , σ2) fur

k ∈ 0, . . . ,K, sondern daruberhinaus, dass jede beliebige Linearkombination

der Koeffizientenschatzer β0, β1, . . . , βK (naherungsweise) normalverteilt ist.



Tests einzelner linearer Hypothesen II

Tests uber einzelne Linearkombinationen von Regressionsparametern lassensich mit Hilfe von K + 1 Koeffizienten a0, a1, . . . , aK ∈ R fur die Parameterβ0, β1, . . . , βK sowie einem Skalar c ∈ R in den Varianten

H0 :K∑

k=0

akβk = c H0 :K∑

k=0

akβk ≤ c H0 :K∑

k=0

akβk ≥ c

vs. vs. vs.

H1 :K∑

k=0

akβk 6= c H1 :K∑

k=0

akβk > c H1 :K∑

k=0

akβk < c

bzw. in vektorieller Schreibweise mit a :=[a0 a1 · · · aK

]′als

H0 : a′β = c H0 : a′β ≤ c H0 : a′β ≥ c

vs. vs. vs.

H1 : a′β 6= c H1 : a′β > c H1 : a′β < c

formulieren.Okonometrie (SS 2019) Folie 222


Tests einzelner linearer Hypothesen III

Mit den bekannten”Rechenregeln“ fur die Momente von Linearkombinationen

eines Zufallsvektors (vgl. Folie 50) erhalt man zunachst

a′β ∼ N(a′β, σ2a′(X′X)−1a

)bzw. a′β

•∼ N(a′β, σ2a′(X′X)−1a

).

Ersetzt man die unbekannte Storgroßenvarianz σ2 wie ublich durch den

(erwartungstreuen) Schatzer σ2, so erhalt man die Verteilungsaussage

a′β − a′β

σ√

a′(X′X)−1a∼ t(n− (K + 1)) bzw.

a′β − a′β

σ√

a′(X′X)−1a

•∼ t(n− (K + 1)) ,

woraus sich in gewohnter Weise Konfidenzintervalle und Tests konstruierenlassen.



Zusammenfassung: t-Test fur einzelne lineare Hypothesenim multiplen linearen Regressionsmodell


σ2 unbekannt, X deterministisch mit vollem Spaltenrang K + 1,Realisation y = (y1, . . . , yn)′ beobachtet

Nullhypothese H0 : a′β = c H0 : a′β ≤ c H0 : a′β ≥ cGegenhypothese H1 : a′β 6= c H1 : a′β > c H1 : a′β < c

Teststatistik t =a′β − c

σ√

a′(X′X)−1a

Verteilung (H0) t fur a′β = c (naherungsweise) t(n − (K + 1))-verteilt

Benotigte Großen β = (X′X)−1X′y, σ2 =u′u

n − (K + 1), wobei u = y − Xβ


) (tn−(K+1);1−α,∞) (−∞,−tn−(K+1);1−α)





Beispiel: Test einer einzelnen linearen Hypothese I

Im vorangegangenen Beispiel (Lohnhohe erklart durch Ausbildung und Alter)kann (im korrekt spezifizierten Modell) zum Beispiel getestet werden, ob der(isolierte) Effekt eines weiteren Ausbildungsjahres mehr als doppelt so großwie der (isolierte) Effekt eines zusatzlichen Lebensjahres ist, also obβ1 > 2 · β2 gilt.

Die passende Hypothesenformulierung lautet in diesem Fall

H0 : β1 − 2 · β2 ≤ 0 gegen H1 : β1 − 2 · β2 > 0

bzw. in der bisherigen Schreibweise

H0 : a′β ≤ c gegen H1 : a′β > c

mit a =[0 1 −2

]′und c = 0.



Beispiel: Test einer einzelnen linearen Hypothese II

Mit (X′X)−1 und σ wie auf Folie 218 angegeben erhalt man zunachst

a′(X′X)−1a =[0 1 −2

] 0.4801866 0.0081102 −0.01146190.0081102 0.0079709 −0.0009366−0.0114619 −0.0009366 0.0003718

01−2

= 0.013204

und mit a′β =[0 1 −2

] 1027.80662.57510.602

= 41.371 die realisierte Teststatistik

t =a′β − c

σ√

a′(X′X)−1a=

41.371− 0

237.35 ·√

0.013204= 1.5169 .

H0 kann hier zum Signifikanzniveau α = 0.05 nicht abgelehnt werden, dat = 1.5169 /∈ (1.74,∞) = (t17;0.95,∞) = (tn−(K+1);1−α,∞) = K .


4 Multiple lineare Regression Konfidenzintervalle fur Linearkombinationen 4.6

Konfidenzintervalle fur (einzelne) Linearkombinationen

Ein (ggf. approximatives) symmetrisches Konfidenzintervall fur a′β zumKonfidenzniveau 1− α erhalt man auf vergleichbare Art und Weise durch:[

a′β − tn−(K+1);1−α2 · σ√

a′(X′X)−1a , a′β + tn−(K+1);1−α2 · σ√

a′(X′X)−1a]

Im vorangegangenen Beispiel erhalt man somit ein Konfidenzintervall furβ1 − 2 · β2, also fur a′β mit a =

[0 1 −2

]′, zum Konfidenzniveau

1− α = 0.95 unter Verwendung der bisherigen Zwischenergebnisse sowie vont17;0.975 = 2.11 durch:[a′β − tn−(K+1);1−α2 · σ

√a′(X′X)−1a , a′β + tn−(K+1);1−α2 · σ

√a′(X′X)−1a

]=[41.371− 2.11 · 237.35

√0.013204 , 41.371 + 2.11 · 237.35

√0.013204

]= [−16.1762 , 98.9182]


4 Multiple lineare Regression Tests mehrerer linearer Hypothesen 4.7

(Simultane) Tests mehrerer linearer Hypothesen I

Neben einzelnen linearen Hypothesen konnen auch mehrere lineareHypothesen simultan uberpruft werden.

Die Nullhypothese H0 solcher Tests enthalt L lineare(Gleichheits-)Restriktionen in der Gestalt

a10β0 + a11β1 + . . .+ a1KβK = c1

a20β0 + a21β1 + . . .+ a2KβK = c2

......

...

aL0β0 + aL1β1 + . . .+ aLKβK = cL

bzw.K∑

k=0

alkβk = cl fur l ∈ 1, . . . , L .



(Simultane) Tests mehrerer linearer Hypothesen II

Mit dem L-dimensionalen Vektor c :=[c1 · · · cL

]′und der

(L× (K + 1))-Matrix

A :=

a10 a11 · · · a1K

......

...aL0 aL1 · · · aLK

lasst sich die Nullhypothese auch als Aβ = c schreiben.

H1 ist (wie immer) genau dann erfullt, wenn H0 verletzt ist, hier also wennmindestens eine Gleichheitsrestriktion nicht gilt.

Da Vektoren genau dann ubereinstimmen, wenn alle Komponenten gleichsind, kann das Hypothesenpaar also in der Form

H0 : Aβ = c gegen H1 : Aβ 6= c

kompakt notiert werden.



(Simultane) Tests mehrerer linearer Hypothesen III

Zur Konstruktion eines Hypothesentests fordert man zunachst, dass A wederredundante noch

”zu viele“ Linearkombinationen enthalt, dass A also vollen

Zeilenrang L besitzt.

Eine geeignete Testgroße zur gemeinsamen Uberprufung der L linearenRestriktionen aus der Nullhypothese ist dann

F =(Aβ − c)′

[A(X′X)−1A′

]−1(Aβ − c)

/L

u′u/(n − (K + 1))

=(Aβ − c)′

[σ2A(X′X)−1A′

]−1

(Aβ − c)

L.

Man kann zeigen, dass F bei Gultigkeit von H0 : Aβ = c unter denbisherigen Annahmen (einschließlich der Annahme u ∼ N(0, σ2In)) einersogenannten F -Verteilung mit L Zahler- und n − (K + 1)Nennerfreiheitsgraden folgt, in Zeichen F ∼ F (L, n − (K + 1)).



(Simultane) Tests mehrerer linearer Hypothesen IV

Die F -Statistik aus Folie 230 ist im Wesentlichen eine (positiv definite)

quadratische Form in den”empirischen Verletzungen“ Aβ − c der

Nullhypothese.

Besonders große Werte der F -Statistik sprechen also gegen die Gultigkeit derNullhypothese.

Entsprechend bietet sich als kritischer Bereich zum Signifikanzniveau α

K = (FL,n−(K+1);1−α,∞)

an, wobei mit Fm,n;p das p-Quantil der F (m, n)-Verteilung (F -Verteilung mitm Zahler- und n Nennerfreiheitsgraden) bezeichnet ist.

Auch bei Verletzung der Normalverteilungsannahme ist eine approximativeAnnahme der F (L, n − (K + 1))-Verteilung (unter H0!) und damit einapproximativer Test sinnvoll.



Grafische Darstellung einiger F (m, n)-Verteilungenfur m, n ∈ 2, 5, 10

0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

1.0

x

f(x)

F(2, 2)F(5, 2)F(10, 2)F(2, 5)F(5, 5)F(10, 5)F(2, 10)F(5, 10)F(10, 10)



0.95-Quantile der F (m, n)-Verteilungen Fm,n;0.95n\m 1 2 3 4 5 6 7 8

1 161.448 199.500 215.707 224.583 230.162 233.986 236.768 238.8832 18.513 19.000 19.164 19.247 19.296 19.330 19.353 19.3713 10.128 9.552 9.277 9.117 9.013 8.941 8.887 8.8454 7.709 6.944 6.591 6.388 6.256 6.163 6.094 6.0415 6.608 5.786 5.409 5.192 5.050 4.950 4.876 4.818

6 5.987 5.143 4.757 4.534 4.387 4.284 4.207 4.1477 5.591 4.737 4.347 4.120 3.972 3.866 3.787 3.7268 5.318 4.459 4.066 3.838 3.687 3.581 3.500 3.4389 5.117 4.256 3.863 3.633 3.482 3.374 3.293 3.230

10 4.965 4.103 3.708 3.478 3.326 3.217 3.135 3.072

11 4.844 3.982 3.587 3.357 3.204 3.095 3.012 2.94812 4.747 3.885 3.490 3.259 3.106 2.996 2.913 2.84913 4.667 3.806 3.411 3.179 3.025 2.915 2.832 2.76714 4.600 3.739 3.344 3.112 2.958 2.848 2.764 2.69915 4.543 3.682 3.287 3.056 2.901 2.790 2.707 2.641

16 4.494 3.634 3.239 3.007 2.852 2.741 2.657 2.59117 4.451 3.592 3.197 2.965 2.810 2.699 2.614 2.54818 4.414 3.555 3.160 2.928 2.773 2.661 2.577 2.51019 4.381 3.522 3.127 2.895 2.740 2.628 2.544 2.47720 4.351 3.493 3.098 2.866 2.711 2.599 2.514 2.447

30 4.171 3.316 2.922 2.690 2.534 2.421 2.334 2.26640 4.085 3.232 2.839 2.606 2.449 2.336 2.249 2.18050 4.034 3.183 2.790 2.557 2.400 2.286 2.199 2.130

100 3.936 3.087 2.696 2.463 2.305 2.191 2.103 2.032150 3.904 3.056 2.665 2.432 2.274 2.160 2.071 2.001



Zusammenfassung: F -Test fur L ≥ 1 lineare Restriktionenim multiplen linearen Regressionsmodell


σ2 unbekannt, X deterministisch mit vollem Spaltenrang K + 1,Realisation y = (y1, . . . , yn)′ beobachtet, c ∈ RL,(L× (K + 1))-Matrix A mit vollem Zeilenrang L

Nullhypothese H0 : Aβ = cGegenhypothese H1 : Aβ 6= c

Teststatistik F =(Aβ − c)′

[σ2A(X′X)−1A′

]−1

(Aβ − c)

L

Verteilung (H0) F ist (approx.) F (L, n − (K + 1))-verteilt, falls Aβ = c

Benotigte Großen β = (X′X)−1X′y, σ2 =u′u

n − (K + 1), wobei u = y − Xβ

Kritischer Bereich (FL,n−(K+1);1−α,∞)zum Niveau α

p-Wert 1− FF (L,n−(K+1))(F )



Ein spezieller F -Testauf

”Signifikanz des Erklarungsansatzes“

Eine spezielle, haufig verwendete Ausgestaltung des F -Tests uberpruft(simultan), ob mindestens ein Regressor einen (signifikanten) Effekt auf denRegressanden hat.

Die Hypothesen lauten also:

H0 : β1 = . . . = βK = 0 gegen H1 : βk 6= 0 fur mind. ein k ∈ 1, . . . ,K

Die realisierte Teststatistik zu diesem Test, die Anzahl der (Zahler- undNenner-)Freiheitsgrade der (F -)Verteilung unter H0 sowie der p-Wert derrealiserten Teststatistik sind ublicherweise Bestandteil von Regressionsoutputszu Schatzungen linearer Modelle mit Statistik-Software.

In der Schatzung des korrekt spezifizierten Modells aus Folie 207 liest manbeispielsweise die realisierte Teststatistik F = 15.29, 2 Zahler- und 17Nennerfreiheitsgrade der F -Verteilung unter H0 sowie den p-Wert 0.0001587ab.



Alternative Darstellungen der F -Statistik I

Es kann gezeigt werden, dass man unter den getroffenen Annahmen dierealisierte F -Statistik auch berechnen kann, indem man neben demeigentlichen

”unrestringierten“ Regressionsmodell das sogenannte

”restringierte“ Regressionsmodell schatzt und die Ergebnisse vergleicht.

Die Schatzung des restringierten Modells erfolgt als Losung desursprunglichen KQ-Optimierungsproblems unter der NebenbedingungAβ = c.

Werden mit RSS0 die Summe der quadrierten Residuen bzw. mit R20 das

Bestimmtheitsmaß der restringierten Modellschatzung bezeichnet, lasst sichdie F -Statistik auch als

F =(RSS0 − RSS)/L

RSS/(n − (K + 1))=

(R2 − R20 )/L

(1− R2)/(n − (K + 1))

darstellen, wenn mit RSS, R2 bzw. K wie ublich die Summe der quadriertenResiduen, das Bestimmtheitsmaß bzw. die Anzahl der Regressoren desunrestringierten Modells bezeichnet werden und L die Anzahl der linearenRestriktionen (Anzahl der Zeilen von A) ist.



Alternative Darstellungen der F -Statistik II

Insbesondere wenn die linearen Restriktionen im Ausschluss einiger derRegressoren bestehen, die Nullhypothese also die Gestalt

H0 : βj = 0 fur j ∈ J ⊆ 1, . . . ,K mit |J| = L

besitzt, kann die Schatzung des restringierten Modells naturlich durch dieSchatzung des entsprechend verkleinerten Regressionsmodells erfolgen.

Im bereits betrachteten Spezialfall J = 1, . . . ,K bzw.

H0 : β1 = . . . = βK = 0 gegen H1 : βk 6= 0 fur mind. ein k ∈ 1, . . . ,K

gilt offensichtlich R20 = 0, damit kann die F -Statistik ohne weitere Schatzung

auch durch

F =R2/K

(1− R2)/(n − (K + 1))

ausgewertet werden.


4 Multiple lineare Regression Konfidenzellipsen 4.8

Konfidenzellipsen fur mehrere Parameter I

Konfidenzintervalle fur einen Regressionsparameter βk zurVertrauenswahrscheinlichkeit 1− α bestehen aus genau den hypothetischenParameterwerten β0

k , zu denen ein (zweiseitiger) Signifikanztest zumSignifikanzniveau α (mit H0 : βk = β0

k ) die Nullhypothese nicht ablehnt.

Dieses Konzept lasst sich problemlos auf Konfidenzbereiche (simultan) furmehrere Regressionsparameter erweitern; wegen der resultierenden Gestaltwerden diese Konfidenzellipsen oder ggf. Konfidenzellipsoide genannt.

Fur eine Teilmenge J = j1, . . . , jL ⊆ 0, . . . ,K mit |J| = L enthalt also einKonfidenzbereich fur den Parameter(teil)vektor (βj1 , . . . , βjL )′ zumKonfidenzniveau 1− α genau die Vektoren (β0

j1, . . . , β0

jL)′, fur die ein F -Test

zum Signifikanzniveau α mit

H0 : βj1 = β0j1 ∧ . . . ∧ βjL = β0

jL

diese Nullhypothese nicht verwirft.



Konfidenzellipsen fur mehrere Parameter II

Da der F -Test H0 genau dann nicht verwirft, wenn fur die Teststatistik

F =(Aβ − c)′

[σ2A(X′X)−1A′

]−1

(Aβ − c)

L≤ FL,n−(K+1);1−α

gilt, wird der Konfidenzbereich zum Niveau 1− α also durch die Mengec ∈ RL

∣∣∣(Aβ − c)′[σ2A(X′X)−1A′

]−1

(Aβ − c) ≤ L · FL,n−(K+1);1−α

beschrieben, wobei die Matrix A aus L Zeilen besteht und die Zeile l jeweilsin der (zu βjl gehorenden) (jl + 1)-ten Spalte den Eintrag 1 hat und sonst nurNullen beinhaltet.

Konfidenzellipsen bzw. -ellipsoide sind auch fur mehrere Linearkombinationender Regressionsparameter als Verallgemeinerung der Konfidenzintervalle fureinzelne Linearkombinationen ganz analog konstruierbar, es muss lediglich dieentsprechende (allgemeinere) Matrix A eingesetzt werden.



Beispiel: Konfidenzellipse fur β1 und β2im korrekt spezifizierten Modell von Folie 207, 1− α = 0.95

20 40 60 80 100 120

05

1015

20

Ausbildung β1

Alte

r β 2


4 Multiple lineare Regression Multikollinearitat 4.9

Multikollinearitat

Erinnerung: Unter der (gemaß Modellannahmen ausgeschlossenen) perfektenMultikollinearitat versteht man eine perfekte lineare Abhangigkeit unter denRegressoren (einschließlich des

”Absolutglieds“).

Bei perfekter Multikollinearitat ist eine Schatzung des Modells mit demvorgestellten Verfahren nicht moglich.

Im Unterschied zur perfekten Multikollinearitat spricht man von imperfekterMultikollinearitat, wenn die Regressoren (einschließlich des

”Absolutglieds“)

beinahe (in einem noch genauer zu spezifizierenden Sinn!) lineareAbhangigkeiten aufweisen.

Eine (konventionelle) Schatzung des Modells ist dann (abgesehen vonnumerischen Schwierigkeiten in sehr extremen Fallen) moglich, die Ergebnissekonnen aber (i.d.R. unerwunschte) Besonderheiten aufweisen.



Perfekte Multikollinearitat I

Perfekte Multikollinearitat tritt in linearen Modellen mit Absolutglied (wiehier betrachtet) zum Beispiel dann auf, wenn Modelle mit sog.Dummy-Variablen falsch spezifiziert werden.

Unter Dummy-Variablen versteht man Regressoren, die nur die Werte 0 und 1annehmen.

Oft werden nominalskalierte Regressoren mit Hilfe von Dummy-Variablen inlineare Modelle einbezogen, indem den vorhandenen (!) Auspragungenseparate Dummy-Variablen zugeordnet werden, die jeweils den Wert 1annehmen, wenn die entsprechende Auspragung vorliegt, und 0 sonst.

Wird zu jeder vorhandenen Auspragung eine solche Dummy-Variabledefiniert, hat offensichtlich immer genau eine der Dummy-Variablen den Wert1, alle anderen den Wert 0.

Damit ist aber offensichtlich die Summe uber alle Dummy-Variablen stetsgleich 1 und damit identisch mit dem (und insbesondere linear abhangig zum)Absolutglied.



Perfekte Multikollinearitat II

Losung: (Genau) eine Dummy-Variable wird weggelassen.

Damit nimmt die zu dieser Dummy-Variablen gehorende Auspragung desMerkmals eine Art

”Benchmark“ oder Bezugsgroße ein.

Die Koeffizienten vor den im Modell verbliebenen Dummy-Variablen zu denanderen Merkmalsauspragungen sind dann als Anderung gegenuber dieserBenchmark zu interpretieren, wahrend der

”Effekt“ der Benchmark selbst im

Absolutglied enthalten (und ohnehin nicht separat zu messen) ist.

Beispiel: Einbeziehung des Merkmals”Geschlecht“ mit den beiden (auch im

Datensatz auftretenden!) Auspragungen weiblich und mannlich mit Hilfeeiner Dummy-Variablen weiblich (oder alternativ mannlich) ist korrekt,wahrend Aufnahme der beiden Variablen weiblich und mannlich

zwangslaufig zu perfekter Multikollinearitat fuhrt.

Lineare Abhangigkeiten zwischen Regressoren konnen auch ohne (fehlerhafte)Verwendung von Dummy-Variablen auftreten.



Perfekte Multikollinearitat III

Beispiel 1: Sind in einem Modell die Regressoren”durchschnittl.

Monatseinkommen“ (Monat),”Jahressonderzahlung“ (Sonderzahlung) und

”Jahreseinkommen“ (Jahr) enthalten, besteht wegen des Zusammenhangs

Jahr = 12 · Monat + Sonderzahlung

offensichtlich perfekte Multikollinearitat.

Beispiel 2: Sind gleichzeitig die Regressoren”Nettoeinnahmen mit reduz.

MWSt.“ (NettoReduziert),”Nettoeinnahmen mit regul. MWSt.“

(NettoRegular) und”Bruttoeinnahmen“ (Brutto) enthalten, besteht wegen

des Zusammenhangs

Brutto = 1.07 · NettoReduziert + 1.19 · NettoRegular

ebenfalls perfekte Multikollinearitat.

Losung: Eine der Variablen im linearen Zusammenhang weglassen (wird vonStatistik-Software meist automatisch erledigt).



Beispiel: Imperfekte Multikollinearitat I

Imperfekte Multikollinearitat kann im Beispiel 1 aus Folie 244 auch nachElimination des Regressors Jahr auftreten:

Oft ist die Jahressonderzahlung (mehr oder weniger) linear vomdurchschnittlichen Monatseinkommen abhangig (

”13. Monatsgehalt“). Dies

kann zu”beinahe“ linearen Abhangigkeiten zwischen den Regressoren fuhren.

In einem (fiktiven) linearen Modell werden die monalichen Ausgaben furNahrungs- und Genussmittel in Haushalten (NuG) durch die Anzahl Personenim Haushalt (Personen), das durchschn. Monatseinkommen (Monat) und diejahrliche Sonderzahlung (Sonderzahlung) erklart.

Im (ebenfalls fiktiven) Datensatz der Lange n = 25 betragt die Korrelationzwischen den Regressoren Monat und Sonderzahlung 0.972, wie auch imfolgenden Plot visualisiert ist.



Beispiel: Imperfekte Multikollinearitat IIDarstellung der Regressoren Monat und Sonderzahlung

1500 2000 2500 3000 3500 4000 4500 5000

1500

2000

2500

3000

3500

4000

4500

5000

Punktwolke der Regressoren Monat und Sonderzahlung

Monat x2i

Son

derz

ahlu

ng x

3i



Beispiel: Imperfekte Multikollinearitat IIISchatzergebnisse des vollstandigen Modells

Call:

lm(formula = NuG ~ Personen + Monat + Sonderzahlung)

Residuals:


-268.49 -109.97 -0.13 122.96 248.30

Coefficients:


(Intercept) 61.44311 124.97001 0.492 0.628

Personen 159.57520 29.13033 5.478 1.96e-05 ***

Monat 0.17848 0.11854 1.506 0.147

Sonderzahlung 0.07205 0.12413 0.580 0.568

---

Signif. codes:

0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1



F-statistic: 32.82 on 3 and 21 DF, p-value: 4.097e-08



Beispiel: Imperfekte Multikollinearitat IV

In der Schatzung des vollstandigen Modells ist nur der Koeffizient desRegressors Personen signifikant von Null verschieden (zu gangigenSignifikanzniveaus).

Insbesondere die (geschatzten) Koeffizienten zu den Regressoren Monat undSonderzahlung sind zwar (wie zu erwarten) positiv, durch dievergleichsweise großen Standardfehler jedoch insignifikant.

Es liegt die Vermutung nahe, dass die Schatzung der Koeffizienten deshalb so

”ungenau“ ausfallt, weil die Effekte der beiden Regressoren wegen der hohen

Korrelation im linearen Modellansatz kaum zu trennen sind.

Die imperfekte, aber große (lineare) Abhangigkeit der beiden RegressorenMonat und Sonderzahlung ubertragt sich auf einen stark ausgepragten(negativen!) Zusammenhang der Koeffizientenschatzer zu diesen Regressoren,was sich auch in Konfidenzellipsen zu den entsprechenden Parameternwiderspiegelt:



Beispiel: Imperfekte Multikollinearitat VKonfidenzellipse (1− α = 0.95) fur β2 und β3 im vollstandigen Modell

−0.1 0.0 0.1 0.2 0.3 0.4 0.5

−0.

2−

0.1

0.0

0.1

0.2

0.3

0.4

Monat β2

Son

derz

ahlu

ng β

3



Beispiel: Imperfekte Multikollinearitat VI

Bei Betrachtung der Konfidenzellipse fallt auf, dass die Ellipse sehr”flach“ ist.

Grund hierfur ist die bereits erwahnte starke negative (geschatzte)

Korrelation der Schatzfunktionen β2 und β3, die sich aus der geschatztenVarianz-Kovarianzmatrix

V(β) =

15617.50443 −2322.95496 −3.52136 0.76131−2322.95496 848.57606 0.76545 −0.69665−3.52136 0.76545 0.01405 −0.014310.76131 −0.69665 −0.01431 0.01541

als Korr(β2, β3) =

−0.01431√0.01405 · 0.01541

= −0.973 errechnen lasst.

Fasst man die Regressoren Monat und Sonderzahlung in dem Regressor

Jahr = 12 · Monat + Sonderzahlung

zusammen, erhalt man folgende Ergebnisse:



Beispiel: Imperfekte Multikollinearitat VIIModell mit Regressor Jahr statt Regressoren Monat und Sonderzahlung

Call:

lm(formula = NuG ~ Personen + Jahr)

Residuals:


-263.159 -109.291 5.702 121.542 262.347

Coefficients:


(Intercept) 58.0719 122.3825 0.475 0.64

Personen 162.0057 28.0344 5.779 8.18e-06 ***

Jahr 0.0190 0.0021 9.044 7.27e-09 ***

---

Signif. codes:

0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1






Beispiel: Imperfekte Multikollinearitat VIII

Nun ist auch der Koeffizient zum (aggregierten) Regressor Jahr (hoch)signifikant von Null verschieden (und wie zu erwarten positiv).

Trotz der Reduzierung der Zahl der Regressoren bleibt der Anteil dererklarten Varianz beinahe unverandert, das adjustierte Bestimmtheitsmaßvergroßert sich sogar.

Nicht wesentlich andere Resultate sind zu beobachten, wenn man einen derRegressoren Monat oder Sonderzahlung aus dem ursprunglichen Modellentfernt.

Ist das Weglassen von Regressoren oder eine Umspezifikation des Modellsmoglich und sinnvoll, kann man das Problem der (imperfekten)Multikollinearitat also dadurch umgehen.

Ansonsten kann man den bisher dargestellten Folgen von imperfekterMultikollinearitat nur durch einen vergroßerten Stichprobenumfangentgegenwirken.



Beispiel: Imperfekte Multikollinearitat IXModell ohne Regressor Sonderzahlung

Call:

lm(formula = NuG ~ Personen + Monat)

Residuals:


-261.656 -109.348 7.655 109.174 267.646

Coefficients:


(Intercept) 57.88292 122.92403 0.471 0.642

Personen 162.83304 28.15048 5.784 8.08e-06 ***

Monat 0.24538 0.02726 9.003 7.88e-09 ***

---

Signif. codes:

0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 151 on 22 degrees of freedom





Beispiel: Imperfekte Multikollinearitat XModell ohne Regressor Monat

Call:

lm(formula = NuG ~ Personen + Sonderzahlung)

Residuals:


-299.94 -113.54 25.03 87.79 293.15

Coefficients:


(Intercept) 106.1682 124.8342 0.850 0.404

Personen 149.8531 29.2120 5.130 3.85e-05 ***

Sonderzahlung 0.2538 0.0298 8.515 2.06e-08 ***

---

Signif. codes:

0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1






Beispiel: Imperfekte Multikollinearitat XI

Das Vorliegen von imperfekter Multikollinearitat bedeutet im Ubrigen nicht,dass die Resultate der Schatzung nicht mehr nutzlich oder gar falsch sind,insbesondere bleiben verwertbare Prognosen meist moglich.

Im vollstandigen Modell erhalt man außerdem beispielsweise mit demKonfidenzintervall zum Konfidenzniveau 1− α = 0.95 fur die Summeβ2 + β3, also fur a′β mit a =

[0 0 1 1

]′, mit

[0.1781, 0.3219]

eine deutlich prazisere Schatzung als fur die einzelnen Koeffizientenβ2 (Konfidenzintervall zum Niveau 1− α = 0.95: [−0.0681, 0.425]) undβ3 (Konfidenzintervall zum Niveau 1− α = 0.95: [−0.1861, 0.3302]).

Werden die”schlecht zu trennenden“ Effekte also (z.B. durch geeignete

Linearkombination) zusammengefasst, sind wieder prazisere Schlusse moglich.

Auch die Frage, ob wenigstens einer der Koeffizienten β2 bzw. β3 signifikant(α = 0.05) von Null verschieden ist, kann mit einem Blick auf dieKonfidenzellipse auf Folie 249 (oder mit einem passenden F -Test) klar positivbeantwortet werden.



Messung von imperfekter Multikollinearitat I

Ausstehend ist noch die prazisere Festlegung einer Schwelle fur die lineareAbhangigkeit zwischen den Regressoren, ab der man ublicherweise vonimperfekter Multikollinearitat spricht.

Man benotigt zunachst ein Maß fur die lineare Abhangigkeit der Regressoren.Dazu setzt man zunachst jeden der K (echten) Regressoren separat alsabhangige Variable in jeweils ein neues Regressionsmodell ein und verwendetals unabhangige, erklarende Variablen jeweils alle ubrigen Regressoren in derfolgenden Gestalt:

x1i = γ0 + γ2x2i + γ3x3i + . . .+ γK−1x(K−1)i + γK xKi + ui ,

x2i = γ0 + γ1x1i + γ3x3i + . . .+ γK−1x(K−1)i + γK xKi + ui ,

......

......

x(K−1)i = γ0 + γ1x1i + γ2x2i + γ3x3i + . . . + γK xKi + ui ,

xKi = γ0 + γ1x1i + γ2x2i + γ3x3i + . . .+ γK−1x(K−1)i + ui .



Messung von imperfekter Multikollinearitat II

Die K resultierenden Bestimmtheitsmaße R2k (k ∈ 1, . . . ,K) werden dann

verwendet, um die sogenannten Varianz-Inflations-Faktoren (VIF)

VIFk :=1

1− R2k

zu definieren.

Offensichtlich gilt VIFk ≥ 1, und VIFk wachst mit zunehmendem R2k

(es gilt genauer VIFk = 1 ⇐⇒ R2k = 0 und VIFk →∞ ⇐⇒ R2

k → 1).

Sind Regressoren mit einem Varianz-Inflations-Faktor von mehr als 10 imModell enthalten, spricht man in der Regel vom Vorliegen von imperfekterMultikollinearitat oder vom Multikollinearitatsproblem, es existieren aberauch einige andere

”Faustregeln“.



Messung von imperfekter Multikollinearitat III

In der Darstellung (mit den Abkurzungen xk und skk aus Folie 191)

Var(βk ) =σ2

n · skk· VIFk =

σ2∑ni=1(xki − xk )2

· VIFk

der geschatzten Varianz der Parameterschatzer βk ist die Bezeichnung

”Varianz-Inflations-Faktor“ selbsterklarend.

In der im Beispiel durchgefuhrten Schatzung des vollstandigen Modellsergeben sich die folgenden Varianz-Inflations-Faktoren:

Regressor Personen Monat Sonderzahlung

VIF 1.062 18.765 18.531

Nach der oben genannten”Faustregel“ liegt also ein Multikollinearitatsproblem

bei den Regressoren Monat und Sonderzahlung vor.


4 Multiple lineare Regression Heteroskedastische Storgroßen 4.10

Heteroskedastie der Storgroßen I

Die Annahme 2 an die Storgroßen ui auf Folie 186 lautet Var(ui ) = σ2 furalle i ∈ 1, . . . , n, es wird also die Gleichheit aller Storgroßenvarianzengefordert.

Die Gleichheit der Varianz mehrerer Zufallsvariablen wird auch alsHomoskedastie oder Homoskedastizitat dieser Zufallsvariablen bezeichnet.Man spricht bei Erfullung der Annahme 2 an die Storgroßen damit auch vonhomoskedastischen Storgroßen.

Das Gegenteil von Homoskedastie wird mit Heteroskedastie oderHeteroskedastizitat bezeichnet.Ist Annahme 2 an die Storgroßen verletzt, gilt also (mit σ2

i := Var(ui ))σ2

i 6= σ2j fur mindestens eine Kombination i , j ∈ 1, . . . , n, so spricht man

von heteroskedastischen Storgroßen.



Heteroskedastie der Storgroßen II

Im Folgenden untersuchen wir die Auswirkungen des Vorliegensheteroskedastischer, aber (nach wie vor) unkorrelierter Storgroßen.

Es gelte also

V(u) = diag(σ21 , . . . , σ

2n) :=

σ2

1 0 0 · · · 0 0 00 σ2

2 0 · · · 0 0 0...

. . ....

0 0 0 · · · 0 σ2n−1 0

0 0 0 · · · 0 0 σ2n

,

V(u) ist also eine Diagonalmatrix.

Sind die Storgroßen gemeinsam normalverteilt (gilt also Annahme 4 ), sosind die ui noch unabhangig, aber nicht mehr identisch verteilt.



Heteroskedastie der Storgroßen III

Auswirkungen von Heteroskedastie in den Storgroßenbei Schatzung des Modells mit der OLS-/KQ-Methode

I Der Vektor von Schatzfunktionen β bleibt unverzerrt fur β.(Die Koeffizientenschatzer bleiben prinzipiell sinnvoll und gut einsetzbar.)

I β ist nicht mehr effizient (varianzminimal).(Je nach Situation, insbesondere bei bekannter Struktur der Heteroskedastie, sindprazisere Schatzfunktionen konstruierbar. Dies wird in dieser Veranstaltung abernicht weiter besprochen.)

I Konfidenzintervalle und Tests werden in der bisherigen Ausgestaltungunbrauchbar!

Ursachlich fur den letzten (und folgenreichsten) Aspekt ist, dass bei der

Herleitung bzw. Berechnung von V(β) bzw. V(β) regelmaßig die (beiHeteroskedastie falsche!) Spezifikation V(u) = σ2In eingesetzt bzw.verwendet wurde.



Schatzung von V(β) bei Heteroskedastie I

Bei Vorliegen von Heteroskedastie in den Storgroßen kann V(β) nicht mehrso stark wie auf Folie 198 vereinfacht werden, man erhalt lediglich

V(β) = E

[(β − E(β)

)(β − E(β)

)′]= E

[((X′X)−1X′u

) ((X′X)−1X′u

)′]= E

[(X′X)−1X′uu′X(X′X)−1

]= (X′X)−1X′ E(uu′)X(X′X)−1

= (X′X)−1X′ V(u)X(X′X)−1 .

Bei unbekannter Form von Heteroskedastie wurde als Schatzer fur V(u) vonHalbert White zunachst (Econometrica, 1980) die folgende Funktionvorgeschlagen:

Vhc0(u) := diag(u21 , . . . , u

2n) =

u2

1 0 0 · · · 0 0 00 u2

2 0 · · · 0 0 0...

. . ....

0 0 0 · · · 0 u2n−1 0

0 0 0 · · · 0 0 u2n



Schatzung von V(β) bei Heteroskedastie II

Auf dieser Basis wurden weitere Schatzer entwickelt, einer davon ist die (furbessere Eigenschaften in kleinen Stichproben um Freiheitsgrade korrigierte)Variante

Vhc1(u) :=n

n − (K + 1)diag(u2

1 , . . . , u2n)

=n

n − (K + 1)

u2

1 0 0 · · · 0 0 00 u2

2 0 · · · 0 0 0...

. . ....

0 0 0 · · · 0 u2n−1 0

0 0 0 · · · 0 0 u2n

.

Einsetzen in die Darstellung von V(β) aus Folie 262 liefert dann z.B.

Vhc1(β) := (X′X)−1X′Vhc1(u)X(X′X)−1

als (unter moderaten Bedingungen konsistenten) Schatzer fur die

Varianz-Kovarianz-Matrix V(β).



Konfidenz-, Prognoseintervalle und Hypothesentests Ibei heteroskedastischen Storgroßen

Konfidenz- und Prognoseintervalle sowie Hypothesentests mussen nun auf derVerteilungsaussage

β ∼ N(β, (X′X)−1X′ V(u)X(X′X)−1)

bzw.β•∼ N(β, (X′X)−1X′ V(u)X(X′X)−1)

aufbauen, die durch eine geeignete Schatzung von V(u) nutzbar gemachtwird.

Die Verwendung eines heteroskedastie-konsistenten Schatzers Vhc(β) fur

V(β) fuhrt dazu, dass viele bei Homoskedastie (zumindest bei gemeinsamnormalverteilen Storgroßen) exakt gultigen Verteilungsaussagen nur nochasymptotisch und damit fur endliche Stichprobenumfange nur nochnaherungsweise (approximativ) gelten (selbst bei gemeinsam normalverteiltenStorgroßen).



Konfidenz-, Prognoseintervalle und Hypothesentests IIbei heteroskedastischen Storgroßen

Achtung!

Bei der Verwendung von heteroskedastie-konsistenten Schatzern fur V(β) mussunbedingt darauf geachtet werden, keine

”Formeln“ einzusetzen, die unter

Ausnutzung von nur bei Homoskedastie der Storgroßen gultigenZusammenhangen hergeleitet wurden.

Generell sind ganz offensichtlich alle”Formeln“, die σ2 oder σ enthalten, also

nicht mehr einsetzbar. Dazu zahlen einige Darstellungen auf den Folien 204,217, 224, 227, 230 und 234.

Bei der Berechnung von Konfidenzintervallen (Folie 203) und derDurchfuhrung von Tests (Folie 204) fur einzelne Parameter sind naturlich bei

jedem Auftreten von σ2βk

bzw. σβkdie entsprechenden Diagonaleintrage der

verwendeten heteroskedastie-konsistenten Schatzmatrix Vhc(β) bzw. derenWurzeln einzusetzen!

Der t-Test fur einzelne lineare Hypothesen hat nun die folgende Darstellung:



Zusammenfassung: t-Test fur einzelne lineare Hypothesenim multiplen linearen Regressionsmodell mit heteroskedastischen Storgroßen

Anwendungs- approx.: y = Xβ + u mit E(u) = 0, V(u) = diag(σ21 , . . . , σ

2n),

voraussetzungen σ2i unbekannt, X deterministisch mit vollem Spaltenrang K + 1,

Realisation y = (y1, . . . , yn)′ beobachtet

Nullhypothese H0 : a′β = c H0 : a′β ≤ c H0 : a′β ≥ cGegenhypothese H1 : a′β 6= c H1 : a′β > c H1 : a′β < c

Teststatistik t =a′β − c√a′Vhc(β)a

Verteilung (H0) t fur a′β = c naherungsweise t(n − (K + 1))-verteilt

Benotigte Großen β = (X′X)−1X′y, Vhc(β) eine heteroskedastie-konsistente Schatz-

funktion fur V(β), z.B. Vhc1(β) = (X′X)−1X′Vhc1(u)X(X′X)−1

mit Vhc1(u) = nn−(K+1)

diag(u21 , . . . , u

2n), wobei u = y − Xβ


) (tn−(K+1);1−α,∞) (−∞,−tn−(K+1);1−α)





Konfidenz-, Prognoseintervalle und Hypothesentests IIIim multiplen linearen Regressionsmodell mit heteroskedastischen Storgroßen

Auch die alternativen Darstellungen der Statistik des F -Tests von Folie 236f.verlieren ihre Korrektheit!

Die F -Statistik aus Folie 230 ist durch eine Darstellung der”Bauart“

F =(Aβ − c)′

[AVhc(β)A′

]−1

(Aβ − c)

L

zu ersetzen, beispielsweise also durch

F =(Aβ − c)′

[A(X′X)−1X′Vhc1(u)X(X′X)−1A′

]−1

(Aβ − c)

L

mit Vhc1(u) = nn−(K+1) diag(u2

1 , . . . , u2n).

Der F -Test hat also bei heteroskedastischen Storgroßen die folgende Gestalt:



Zusammenfassung: F -Test fur L ≥ 1 lineare Restriktionenim multiplen linearen Regressionsmodell mit heteroskedastischen Storgroßen


2n),

voraussetzungen σ2i unbekannt, X deterministisch mit vollem Spaltenrang K + 1,

Realisation y = (y1, . . . , yn)′ beobachtet, c ∈ RL,(L× (K + 1))-Matrix A mit vollem Zeilenrang L

Nullhypothese H0 : Aβ = cGegenhypothese H1 : Aβ 6= c

Teststatistik F =(Aβ − c)′

[AVhc(β)A′

]−1

(Aβ − c)

L

Verteilung (H0) F ist approx. F (L, n − (K + 1))-verteilt, falls Aβ = c

Benotigte Großen β = (X′X)−1X′y, Vhc(β) eine heteroskedastie-konsistente Schatz-

funktion fur V(β), z.B. Vhc1(β) = (X′X)−1X′Vhc1(u)X(X′X)−1

mit Vhc1(u) = nn−(K+1)

diag(u21 , . . . , u

2n), wobei u = y − Xβ

Kritischer Bereich (FL,n−(K+1);1−α,∞)zum Niveau α

p-Wert 1− FF (L,n−(K+1))(F )



Konfidenz-, Prognoseintervalle und Hypothesentests IVim multiplen linearen Regressionsmodell mit heteroskedastischen Storgroßen

Ein approximatives symmetrisches Konfidenzintervall fur a′β zumKonfidenzniveau 1−α erhalt man bei heteroskedastischen Storgroßen durch[a′β − tn−(K+1);1−α2 ·

√a′Vhc(β)a , a′β + tn−(K+1);1−α2 ·

√a′Vhc(β)a

]mit einer geeigneten (heteroskedastie-konsistenten) Schatzmatrix Vhc(β).

Bei der Konstruktion von Konfidenzellipsen bzw. -ellipsoiden ist naturlichanalog eine geeignete Darstellung der F -Statistik (siehe z.B. Folie 267) zuverwenden, man erhalt einen (approximativen) Konfidenzbereich zumKonfidenzniveau 1− α also nun (unter Beibehaltung der bisherigenBezeichnungen) mit der Menge

c ∈ RL∣∣∣(Aβ − c)′

[AVhc(β)A′

]−1

(Aβ − c) ≤ L · FL,n−(K+1);1−α

.



Konfidenz-, Prognoseintervalle und Hypothesentests Vim multiplen linearen Regressionsmodell mit heteroskedastischen Storgroßen

(Approximative) Intervallprognosen fur E(y0) gegeben x0 zurVertrauenswahrscheinlichkeit 1− α (auch interpretierbar alsKonfidenzintervalle zum Konfidenzniveau 1− α fur E(y0) gegeben x0) erhaltman nun in der Gestalt[

x0′β − tn−(K+1);1−α2 ·

√x0′Vhc(β)x0 , x0

′β + tn−(K+1);1−α2 ·√

x0′Vhc(β)x0

]mit einer geeigneten (heteroskedastie-konsistenten) Schatzmatrix Vhc(β).

Intervallprognosen von y0 gegeben x0 sind nun nicht mehr sinnvolldurchfuhrbar, da man keine Informationen mehr uber die von u0 verursachteSchwankung von y0 hat!



”Robuste Standardfehler“

Die Verwendung von heteroskedastie-konsistenten Schatzern fur dieStandardabweichungen von βk (bzw. weitergehender die Verwendung eines

heteroskedastie-konsistenten Schatzers fur die Schatzung von V(β)) wirdauch als

”Verwendung robuster Standardfehler“ bezeichnet.

Gangige Statistik-Software erlaubt die Verwendung robuster Standardfehler,auch wenn standardmaßig in der Regel von homoskedastischen Storgroßenausgegangen wird.

In der Statistik-Software R implementiert beispielsweise die Funktion hccm

(”heteroscedasticity-corrected covariance matrix“) im Paket car verschiedene

Varianten heteroskedastie-konsistenter Schatzungen von V(β) bei denAuswertungen zu linearen Regressionsmodellen.

Die Verwendung robuster Standardfehler trotz homoskedastischer Storgroßenist unkritisch. Moderne Lehrbucher empfehlen zunehmend eine generelleVerwendung robuster Standardfehler.



Beispiel: Robuste Standardfehler I

Berechnung von V(β) und Vhc1(β) im Beispiel von Folie 207:

> library(car)

> fit <- lm(Lohnhohe ~ Ausbildung + Alter)

> print(vcov(fit),digits=6) # "standard"

(Intercept) Ausbildung Alter

(Intercept) 27051.397 456.8888 -645.7068

Ausbildung 456.889 449.0435 -52.7609

Alter -645.707 -52.7609 20.9445

> Vhhc1 <- hccm(fit, type="hc1")

> print(Vhhc1,digits=6) # "robust"

(Intercept) Ausbildung Alter

(Intercept) 23815.318 -1602.3359 -583.2360

Ausbildung -1602.336 271.0231 26.8099

Alter -583.236 26.8099 16.1392



Beispiel: Robuste Standardfehler II

t-Tests auf Signifikanz der einzelnen Koeffizienten:> print(coeftest(fit)) # "standard"

t test of coefficients:


(Intercept) 1027.8058 164.4731 6.2491 8.814e-06 ***

Ausbildung 62.5745 21.1906 2.9529 0.008904 **

Alter 10.6020 4.5765 2.3166 0.033265 *

---

Signif. codes:

0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

> print(coeftest(fit, vcov. = Vhhc1)) # "robust"



(Intercept) 1027.8058 154.3221 6.6601 4.021e-06 ***

Ausbildung 62.5745 16.4628 3.8010 0.001428 **

Alter 10.6020 4.0174 2.6390 0.017229 *

---

Signif. codes:

0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1



Beispiel: Robuste Standardfehler III

Die Schatzung unter Zulassung heteroskedastischer Storgroßen fuhrt imBeispiel zu kleineren p-Werten der Tests auf Signifikanz der einzelnenParameter.

Insbesondere ist nun der Koeffizient zum Regressor Ausbildung sogar zumSignifikanzniveau α = 0.001 bzw. der Koeffizient zum Regressor Alter sogarzum Signifikanzniveau α = 0.01 signifikant positiv!

Der t-Test zum Test der linearen Hypothese

H0 : β1 − 2 · β2 ≤ 0 gegen H1 : β1 − 2 · β2 > 0

bzw.H0 : a′β ≤ c gegen H1 : a′β > c

mit a =[0 1 −2

]′und c = 0 wird im Folgenden statt unter der Annahme

von Homoskedastie der Storgroßen unter Zulassung heteroskedastischerStorgroßen durchgefuhrt.



Beispiel: Robuste Standardfehler IV

Mit Vhc1(β) wie auf Folie 272 angegeben erhalt man nun zunachst

a′Vhc1(β)a =[0 1 −2

] 23815.318 −1602.336 −583.236−1602.336 271.023 26.810−583.236 26.810 16.139

01−2

= 228.3404

und mit a′β =[0 1 −2

] 1027.80662.57510.602

= 41.371 die realisierte Teststatistik

t =a′β − c√a′Vhc1(β)a

=41.371− 0√

228.3404= 2.7378 .

H0 kann nun zum Signifikanzniveau α = 0.05 anders als bei Annahmehomoskedastischer Storgroßen also abgelehnt werden, dat = 2.7378 ∈ (1.74,∞) = (t17;0.95,∞) = (tn−(K+1);1−α,∞) = K .



Beispiel: Robuste Standardfehler V

Mit der (bereits auf Folie 218 berechneten) Punktprognose E(y0) = 1680.982fur die erwartete Lohnhohe eines 38-jahrigen Mitarbeiters, der nach demHauptschulabschluss weitere 4 Ausbildungsjahre absolviert hat (also fur

x0 =[1 4 38

]′), erhalt man unter Annahme heteroskedastischer

Storgroßen nun mit

x0′Vhc1(β)x0 =

[1 4 38

] 23815.318 −1602.336 −583.236−1602.336 271.023 26.810−583.236 26.810 16.139

14

38

= 2462.304

das Prognoseintervall[x0′β − tn−(K+1);1−α2 ·

√x0′Vhc(β)x0 , x0

′β + tn−(K+1);1−α2 ·√

x0′Vhc(β)x0

]=[1680.982− 2.1098 ·

√2462.304 , 1680.982 + 2.1098 ·

√2462.304

]= [1576.29 , 1785.674]

zur Vertrauenswahrscheinlichkeit 1− α = 0.95 fur E(y0) gegeben x10 = 4 undx20 = 38. (Intervall bei homoskedastischen Storgroßen: [1565, 1796.964])



Beispiel:”Robuste“ Konfidenzellipse fur β1 und β2

Modell von Folie 207, mit bzw. ohne Verwendung robuster Standardfehler, 1− α = 0.95

20 40 60 80 100 120

05

1015

20

Ausbildung β1

Alte

r β 2

V(β)Vhc1(β)


4 Multiple lineare Regression Tests auf Heteroskedastie 4.11


4 Multiple lineare RegressionMultiples lineares ModellParameterschatzungKonfidenzintervalle und TestsPunkt- und IntervallprognosenTests einzelner linearer HypothesenKonfidenzintervalle fur LinearkombinationenTests mehrerer linearer HypothesenKonfidenzellipsenMultikollinearitatHeteroskedastische StorgroßenTests auf Heteroskedastie



Tests auf Heteroskedastie der Storgroßen

Neben dem Ansatz, generell eine heteroskedastie-konsistente Schatzung vonV(β) zu verwenden, besteht auch die Moglichkeit, das Vorliegen vonHeteroskedastizitat der Storgroßen statistisch zu untersuchen, um dann

”bei

Bedarf“ einen heteroskedastie-konsistenten Schatzer zu verwenden.

Hierzu existieren verschiedene Hypothesentests, derenAnwendungsmoglichkeiten zum Beispiel davon abhangen, ob man einebestimmte

”Quelle“ fur die Heteroskedastie in den Storgroßen angeben kann

bzw. vermutet.

In der vorangegangenen Regression (Lohnhohe regressiert auf Ausbildungund Alter) konnte man beispielsweise vermuten, dass die Varianz derStorgroßen dort groß ist, wo auch die Lohnhohe groß ist.

Ein Test, der in dieser Situation sehr gut geeignet sein kann, ist derGoldfeld-Quandt-Test.



Goldfeld-Quandt-Test I

Zur (sinnvollen) Anwendung des Goldfeld-Quandt-Tests ist es erforderlich,dass die Heteroskedastie in den StorgroßenI von einer beobachteten (und identifizierten) Variablen verursacht wird undI

”monoton“ in dieser Variablen ist.

Die”Monotonie“ kann sich auch dahingehend außern, dass sich bei einem

(nur) nominalskalierten Regressor mit zwei Auspragungen (also z.B. einerDummy-Variablen!) die Storgroßenvarianz in der einen

”Gruppe“ von der in

der anderen Gruppe unterscheidet!

Zur Anwendung des Goldfeld-Quandt-Tests ist es bei einerordinal-/kardinalskalierten Variablen, die die Storgroßenvarianz

”monoton“

beeinflussen soll, sogar erforderlich, den Datensatz in eine Gruppe vonBeobachtungen mit

”kleinen“ Auspragungen und eine weitere Gruppe von

Beobachtungen mit”großen“ Auspragungen dieser Variablen aufzuteilen

(eventuell unter Auslassung eines Teils der Daten mit”mittelgroßen“

Auspragungen dieser Variablen).



Goldfeld-Quandt-Test II

Das ursprungliche Regressionsmodell wird dann jeweils getrennt fur diebeiden Gruppen A (entspricht ggf. Gruppe mit

”kleinen“ Auspragungen) und

B (entspricht ggf. Gruppe mit”großen“ Auspragungen) (unter der – fur die

Durchfuhrung des Tests wenig schadlichen – Annahme von Homoskedastie inbeiden Gruppen) geschatzt.

Die Anwendung des Goldfeld-Quandt-Tests lauft dann auf einen (aus derSchließenden Statistik bekannten!) F -Test zum Vergleich zweier Varianzen(unter Normalverteilungsannahme) hinaus.

Unter der Nullhypothese der Homoskedastie sind insbesondere dieStorgroßenvarianzen beider Gruppen, im Folgenden mit σ2

A bzw. σ2B

bezeichnet, sowohl konstant als auch gleich.

Der Test kann sowohl beidseitig als auch einseitig (links- bzw. rechtsseitig)durchgefuhrt werden, so erhalt man die folgenden Hypothesenpaare:

H0 : σ2A = σ2

B H0 : σ2A ≤ σ2

B H0 : σ2A ≥ σ2

B

gegen gegen gegen

H1 : σ2A 6= σ2

B H1 : σ2A > σ2

B H1 : σ2A < σ2

B



Goldfeld-Quandt-Test III

Bezeichnen uA bzw. uB jeweils den Residuenvektor der Schatzung ausGruppe A bzw. B, SERA bzw. SERB jeweils den Standard Error of Regression(residual standard error) der Schatzung aus Gruppe A bzw. B, nA bzw. nB

die Lange des jeweils zur Schatzung verwendeten (Teil-)Datensatzes furGruppe A bzw. B sowie K (wie ublich) die Anzahl (echter) Regressoren, soerhalt man die moglichen Darstellungen

F =u′AuA/(nA − (K + 1))

u′B uB/(nB − (K + 1))=

SER2A

SER2B

der Teststatistik, die bei Gultigkeit von σ2A = σ2

B eineF (nA − (K + 1), nB − (K + 1))-Verteilung besitzt.

Insgesamt erhalt man die folgende Zusammenfassung desGoldfeld-Quandt-Tests:



Zusammenfassung: Goldfeld-Quandt-Test (GQ-Test)auf Heteroskedastizitat der Storgroßen

Anwendungs- exakt: y = Xβ + u mit E(u) = 0, V(u) Diagonalmatrix aus σ2A, σ2

B ,voraussetzungen u normalverteilt, X deterministisch mit vollem Spaltenrang K + 1,

Realisation y = (y1, . . . , yn)′ beobachtet, Auswahl von zwei GruppenA bzw. B vom Umfang nA bzw. nB aus den Beobachtungen

Nullhypothese H0 : σ2A = σ2

B H0 : σ2A ≤ σ2

B H0 : σ2A ≥ σ2

B

Gegenhypothese H1 : σ2A 6= σ2

B H1 : σ2A > σ2

B H1 : σ2A < σ2

B

Teststatistik F =u′AuA/(nA − (K + 1))

u′B uB/(nB − (K + 1))=

SER2A

SER2B

Verteilung (H0) F unter H0 fur σ2A = σ2

B F (nA − (K + 1), nB − (K + 1))-verteilt

Benotigte Großen Residuenvektoren uA bzw. uB oder Standard Error of Regression

SERA bzw. SERB aus jeweils separater Modellschatzung

zu den Gruppen A und B

Kritischer Bereich [0, FnA−(K+1),nB−(K+1);

α2

) (FnA−(K+1),nB−(K+1);1−α,∞) [0, FnA−(K+1),nB−(K+1);α)

zum Niveau α ∪(FnA−(K+1),nB−(K+1);1−α

2

,∞)

p-Wert 2·min

FF (nA−(K+1),nB−(K+1))(F ), 1−FF (nA−(K+1),nB−(K+1))

(F ) FF (nA−(K+1),nB−(K+1))(F )

1 − FF (nA−(K+1),nB−(K+1))(F )



Beispiel: Goldfeld-Quandt-Test I

Teilt man den Datensatz des”Lohnhohen-Beispiels“ in die beiden Gruppen

”A“

zu den 10 hochsten Lohnhohen und”B“ zu den 10 niedrigsten Lohnhohen auf,

so erhalt man die folgende Modellschatzung fur Gruppe”A“:

Call:lm(formula = Lohnhohe ~ Ausbildung + Alter, subset = Lohnhohe >

sort(Lohnhohe)[10])

Residuals:Min 1Q Median 3Q Max

-488.33 -154.11 -34.06 78.62 534.61

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 1516.69 561.23 2.702 0.0305 *Ausbildung 51.87 32.07 1.618 0.1498Alter 3.20 11.07 0.289 0.7809---Signif. codes:0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 328 on 7 degrees of freedomMultiple R-squared: 0.3051, Adjusted R-squared: 0.1066F-statistic: 1.537 on 2 and 7 DF, p-value: 0.2797



Beispiel: Goldfeld-Quandt-Test II

Die Schatzung fur Gruppe”B“ liefert:

Call:lm(formula = Lohnhohe ~ Ausbildung + Alter, subset = Lohnhohe <=

sort(Lohnhohe)[10])


-100.381 -27.528 -2.589 47.221 101.743


(Intercept) 1198.772 108.647 11.034 1.11e-05 ***Ausbildung 57.711 24.688 2.338 0.052 .Alter 3.270 3.359 0.973 0.363---Signif. codes:0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 77.72 on 7 degrees of freedomMultiple R-squared: 0.4967, Adjusted R-squared: 0.3529F-statistic: 3.454 on 2 and 7 DF, p-value: 0.09045



Beispiel: Goldfeld-Quandt-Test III

Die Teststatistik des GQ-Tests erhalt man also durch

F =3282

77.722= 17.811 .

Der rechtsseitige Test zum Signifikanzniveau α = 0.05 lehnt mit

K = (F1−α;nA−(K+1),nB−(K+1),∞) = (F0.95;7,7,∞) = (3.79,∞)

wegen F ∈ K die Nullhypothese der Homoskedastie der Storgroßen also abund entscheidet sich fur eine großere Storgroßenvarianz in der Gruppe, die zuden großeren Lohnhohen gehort.



Beispiel: Goldfeld-Quandt-Test IVVisualisierung der Abhangigkeit der u2

i vom Regressor Lohnhohe und des GQ-Tests

1200 1400 1600 1800 2000 2200 2400 2600

050

000

1000

0015

0000

2000

0025

0000

3000

00

Punktwolke der abhängigen Variablen und der quadrierten Residuen

Lohnhöhe yi

quad

riert

e R

esid

uen

u i2

SERB2

SERA2



Beispiel: Goldfeld-Quandt-Test V

Schneller lasst sich die Fragestellung mit dem Befehl gqtest aus dem Paketlmtest bearbeiten.

Die Verwendung der Voreinstellung teilt den Datensatz gemaß der Ordnungeiner vorgegebenen Variablen in zwei (moglichst) gleich große Teile undmacht einen einseitigen Test auf positive Abhangigkeit der Storgroßenvarianzvon der vorgegebenen Variablen (wie im Beispiel):

> library(lmtest)

> gqtest(lm(Lohnhohe~Ausbildung+Alter),order.by=Lohnhohe)

Goldfeld-Quandt test

data: lm(Lohnhohe ~ Ausbildung + Alter)

GQ = 17.817, df1 = 7, df2 = 7, p-value = 0.00058

alternative hypothesis: variance increases from segment 1 to 2



Breusch-Pagan-Test Iauf Heteroskedastie in den Storgroßen

Ein weiterer Test auf Heteroskedastie in den Storgroßen ist derBreusch-Pagan-Test.

Im Gegensatz zum Goldfeld-Quandt-Test ist es nicht erforderlich, eine(einzelne) Quelle der Heteroskedastizitat anzugeben bzw. zu vermuten.

Vielmehr lasst sich mit dem Breusch-Pagan-Test eine konstanteStorgroßenvarianz σ2 ≡ σ2

i gegen eine recht allgemeine Abhangigkeit derStorgroßenvarianzen von Q Variablen z1i , z2i , . . . , zQi , i ∈ 1, . . . , n, in derForm

σ2i = h(γ0 + γ1 · z1i + . . .+ γQ · zQi ) (1)

mit einer Funktion h, an die nur moderate Bedingungen gestellt werdenmussen, abgrenzen.

Im Breusch-Pagan-Test entspricht der Fall einer konstantenStorgroßenvarianz der Nullhypothese

H0 : γ1 = . . . = γQ = 0 ⇐⇒ σ2i ≡ h(γ0)

im allgemeineren”Varianz-Modell“ aus Formel (1).



Breusch-Pagan-Test IIauf Heteroskedastie in den Storgroßen

Haufig werden als Variablen z1i , z2i , . . . , zQi gerade wieder die Regressorendes ursprunglichen Regressionsmodells eingesetzt, es gilt dann also

Q = K und zji = xji fur i ∈ 1, . . . , n, j ∈ 1, . . . ,K .

Durch die Freiheit bei der Auswahl der Einflussvariablen z1i , z2i , . . . , zQi sindaber auch zahlreiche Varianten moglich, zum BeispielI die Verwendung nicht nur der Regressoren des ursprunglichen Modells, sondern

auch Potenzen hiervon und/oder Produkte verschiedener Regressoren oderI die Verwendung der aus der ursprunglichen Modellschatzung gewonnenen yi .

Unter dem Namen”Breusch-Pagan-Test“ (BP-Test) werden ublicherweise

zwei unterschiedliche Versionen subsumiert, namlichI der ursprungliche Test von Breusch und Pagan (Econometrica, 1979), der

unabhangig auch von Cook und Weisberg (Biometrika, 1983) vorgeschlagenwurde, sowie

I eine”robuste“ Modifikation von Koenker (Journal of Econometrics, 1981), die

geeigneter ist, wenn die Storgroßen nicht normalverteilt sind.



Breusch-Pagan-Test IIIauf Heteroskedastie in den Storgroßen

Beide Versionen des BP-Tests sind als”Score-Test“ konzipiert, die

Teststatistik lasst sich jedoch jeweils leicht auf Basis von(OLS-)Schatzergebnissen einer (linearen) Hilfsregression berechnen.

Sind ui die Residuen aus der Schatzung des auf heteroskedastischeStorgroßen zu untersuchenden linearen Modells und RSS die Residual Sum ofSquares (mit RSS =

∑ni=1 u2

i = u′u), so benotigt man als abhangige Variableder Hilfsregression die gemaß

wi :=n

u′uu2

i =n

RSSu2

i fur i ∈ 1, . . . , n

”standardisierten“ quadrierten Residuen wi .



Breusch-Pagan-Test IVauf Heteroskedastie in den Storgroßen

Fur beide Versionen des BP-Tests ist dann die Hilfsregression

wi = γ0 + γ1 · z1i + . . .+ γQ · zQi + ei , i ∈ 1, . . . , n,

(per OLS-/KQ-Methode) zu schatzen.

Im ursprunglichen BP-Test erhalt man die unter der Nullhypothesenaherungsweise χ2(Q)-verteilte Teststatistik dann als die Halfte der

”Explained Sum of Squares“ der Hilfsregression, mit der Bezeichnung ei

fur die Residuen der Hilfsregression und der Abkurzung w = 1n

∑ni=1 wi also

zum Beispiel unter Verwendung von ESS = TSS− RSS durch

χ2 =1

2·

((n∑

i=1

(wi − w)2

)−

(n∑

i=1

e2i

)).



Breusch-Pagan-Test Vauf Heteroskedastie in den Storgroßen

In der robusteren Version von Koenker erhalt man die unter derNullhypothese ebenfalls naherungsweise χ2(Q)-verteilte Teststatistik alsn-faches multiples Bestimmtheitsmaß der Hilfsregression, es gilt also

χ2 = n · R2H

mit der Bezeichnung R2H fur das Bestimmtheitsmaß der Hilfsregression.

Offensichtlich kann (nur) bei Verwendung der Version von Koenker auf dieStandardisierung der quadrierten Residuen der ursprunglichenModellschatzung verzichtet werden und die Hilfsregression auch direkt mitder abhangigen Variablen u2

i durchgefuhrt werden, da dies dasBestimmtheitsmaß nicht andert (wohl aber die ESS!).



Zusammenfassung: Breusch-Pagan-Test (”Original“)

auf Heteroskedastizitat der Storgroßen


2n),

voraussetzungen X deterministisch mit vollem Spaltenrang K + 1,Realisation y = (y1, . . . , yn)′ beobachtet, Q Einflussvariablenz1i , . . . , zQi , σ

2i = h(γ0 + γ1 · z1i + . . .+ γQ · zQi )

Nullhypothese H0 : γ1 = . . . = γQ = 0 ⇐⇒ σ2i ≡ h(γ0)

Gegenhypothese H1 : γq 6= 0 fur mindestens ein q ∈ 1, . . . ,Q

Teststatistik χ2 =1

2·

((n∑

i=1

(wi − w)2

)−

(n∑

i=1

e2i

))Verteilung (H0) χ2 ist approx. χ2(Q)-verteilt, falls σ2

i ≡ h(γ0) konstant.

Benotigte Großen u = (u1, . . . , un)′ = y − X(X′X)−1X′y, wi = nu′u u2

i ,ei die Residuen der Hilfsregressionwi = γ0 + γ1 · z1i + . . .+ γQ · zQi + ei

Kritischer Bereich (χ2Q;1−α,∞)

zum Niveau α

p-Wert 1− Fχ2(Q)(χ2)



Zusammenfassung: Breusch-Pagan-Test (”Koenker“)

auf Heteroskedastizitat der Storgroßen


2n),

voraussetzungen X deterministisch mit vollem Spaltenrang K + 1,Realisation y = (y1, . . . , yn)′ beobachtet, Q Einflussvariablenz1i , . . . , zQi , σ

2i = h(γ0 + γ1 · z1i + . . .+ γQ · zQi )

Nullhypothese H0 : γ1 = . . . = γQ = 0 ⇐⇒ σ2i ≡ h(γ0)

Gegenhypothese H1 : γq 6= 0 fur mindestens ein q ∈ 1, . . . ,Q

Teststatistik χ2 = n · R2H

Verteilung (H0) χ2 ist approx. χ2(Q)-verteilt, falls σ2i ≡ h(γ0) konstant.

Benotigte Großen u = (u1, . . . , un)′ = y − X(X′X)−1X′y, R2H das Bestimmtheitsmaß

der Hilfsregression u2i = γ0 + γ1 · z1i + . . .+ γQ · zQi + ei

Kritischer Bereich (χ2Q;1−α,∞)

zum Niveau α

p-Wert 1− Fχ2(Q)(χ2)



White-Testauf Heteroskedastie in den Storgroßen

White hat in seiner Arbeit von 1980 (Econometrica) nicht nurheteroskedastie-konsistente Schatzverfahren, sondern auch einen Test aufHeteroskedastie in den Storgroßen vorgeschlagen.

Es zeigt sich, dass der White-Test auf heteroskedastische Storgroßen einSpezialfall der

”Koenker“-Version des Breusch-Pagan-Tests ist.

Konkret erhalt man den White-Test bei der Durchfuhrung einesBreusch-Pagan-Tests nach Koenker, wenn man als Einflussvariablen zqi furdie Varianz der Storgroßen geradeI alle Regressoren, zusatzlichI alle quadrierten Regressoren sowie zusatzlichI alle gemischten Produkte von Regressoren

des ursprunglichen Modells wahlt.

In einem Modell mit 2 Regressoren ware also die Hilfsregression

u2i = γ0 + γ1x1i + γ2x2i + γ3x2

1i + γ4x22i + γ5x1i x2i + ei

durchzufuhren.



Beispiel: Breusch-Pagan-Test/White-Test I

Im Folgenden werden zwei Varianten des Breusch-Pagan-Test am bereitsmehrfach verwendeten

”Lohnhohen“-Beispiel illustriert.

Ausgehend von den quadrierten Residuen u2i der ursprunglichen Regression

der Lohnhohe auf die beiden Regressoren Ausbildung und Alter (sowie einAbsolutglied) werden fur die

”Original“-Version des Breusch-Pagan-Tests

zunachst die standardisierten quadrierten Residuen wi = nu′u u2

i berechnet:

> uhat <- residuals(lm(Lohnhohe~Ausbildung+Alter))

> w <- uhat^2/mean(uhat^2)

Als Summe der quadrierten Abweichungen vom arithmetischen Mittel∑ni=1(wi − w)2 der wi (also als TSS der folgenden Hilfsregression!) erhalt

man:

> sum((w-mean(w))^2)

[1] 72.66564



Beispiel: Breusch-Pagan-Test/White-Test II

Werden als Einflussvariablen fur die Varianz der Storgroßen die beidenursprunglichen Regressoren Ausbildung und Alter gewahlt, ist dann dieHilfsregression

wi = γ0 + γ1Ausbildungi + γ2Alteri + ei

zu schatzen und die zugehorige RSS zu bestimmen, man erhalt

> sum(residuals(lm(w~Ausbildung+Alter))^2)

[1] 45.76786

und damit (gerundet) die Teststatistik

χ2 =1

2·

((n∑

i=1

(wi − w)2

)−

(n∑

i=1

e2i

))=

1

2(72.666− 45.768) = 13.449 .

Ein Vergleich zum kritischen Wert χ22;0.95 = 5.991 bei einem Test zum Niveau

α = 0.05 erlaubt die Ablehnung der Nullhypothese und damit den Schluss aufdas Vorliegen von Heteroskedastie in den Storgroßen.



Beispiel: Breusch-Pagan-Test/White-Test III

Wird in der beschriebenen Situation ein White-Test durchgefuhrt, so musseine der Hilfsregressionen

u2i = γ0 + γ1 · Ausbildungi + γ2 · Alteri + γ3 · Ausbildung2

i

+ γ4 · Alter2i + γ5 · Ausbildungi · Alteri + ei

oder

wi = γ0 + γ1 · Ausbildungi + γ2 · Alteri + γ3 · Ausbildung2i

+ γ4 · Alter2i + γ5 · Ausbildungi · Alteri + ei

durchgefuhrt werden.

In der Statistik-Software R mussen diese”Rechenoperationen“ von

Regressoren bei der Modellformulierung in den Befehl”I()“ eingeschlossen

werden, da”

“ und”*“ bei der Notation von Modellgleichungen andere

Bedeutungen haben!



Beispiel: Breusch-Pagan-Test/White-Test IV

Man erhalt als OLS-Schatzergebnis:Call:lm(formula = uhat^2 ~ Ausbildung + Alter + I(Ausbildung^2) +

I(Alter^2) + I(Ausbildung * Alter))


-104762 -17524 -9639 29687 78007


(Intercept) 5778.593 125459.783 0.046 0.9639Ausbildung -5788.874 23416.039 -0.247 0.8083Alter -6.682 6568.457 -0.001 0.9992I(Ausbildung^2) -6319.607 2139.021 -2.954 0.0105 *I(Alter^2) -58.640 92.777 -0.632 0.5375I(Ausbildung * Alter) 1826.589 549.299 3.325 0.0050 **---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 58820 on 14 degrees of freedomMultiple R-squared: 0.7093, Adjusted R-squared: 0.6055F-statistic: 6.831 on 5 and 14 DF, p-value: 0.002013



Beispiel: Breusch-Pagan-Test/White-Test V

Unter Verwendung des Bestimmtheitsmaßes dieser Hilfsregression ergibt sichχ2 = n · R2

H = 20 · 0.7093 = 14.186 > χ25;0.95 = 11.07, also wird auch hier

zum Niveau α = 0.05 signifikante Heteroskedastie in den Storgroßenfestgestellt.

Schneller: mit dem Befehl bptest() im Paket lmtest:I

”Original“-Breusch-Pagan-Test (1. Beispiel):

> bptest(lm(Lohnhohe~Ausbildung+Alter),studentize=FALSE)

Breusch-Pagan test


BP = 13.449, df = 2, p-value = 0.001201

I

”White“- bzw.

”Koenker“-Variante (2. Beispiel):

> bptest(lm(Lohnhohe~Ausbildung+Alter),

+ ~Ausbildung+Alter+I(Ausbildung^2)+I(Alter^2)+I(Ausbildung*Alter))

studentized Breusch-Pagan test


BP = 14.186, df = 5, p-value = 0.01447


5 Nichtlineare Regressionsfunktionen Nichtlinearitat in den Regressoren 5.1


5 Nichtlineare RegressionsfunktionenNichtlinearitat in den RegressorenNichtlinearitat in einer VariablenModelle mit InteraktionenStrukturbruchmodelle



Nichtlinearitat in den Regressoren I

Eine Variable y hangt linear von einer Variablen x ab, wenn derDifferenzenquotient bzw. die Ableitung bzgl. dieser Variablen konstant ist,wenn also

∆y

∆x= c bzw.

∂y

∂x= c

fur eine Konstante c ∈ R gilt.

Im bisher betrachteten linearen Regressionsmodell

yi = β0 + β1x1i + . . .+ βK xKi + ui , i ∈ 1, . . . , n,

hangt y also linear von jedem Regressor xk (k ∈ 1, . . . ,K) ab, denn es gilt

∆y

∆xk= βk bzw.

∂y

∂xk= βk .

Die hier als”marginaler Effekt“ einer Anderung von xk auf y interpretierbare

(partielle) Ableitung ist also konstant und damit insbesondere unabhangigvon xk (sowie unabhangig von anderen Variablen).



Nichtlinearitat in den Regressoren II

Bereits im White-Test verwendet:”Regressionsfunktion“

y = β0 + β1x1 + β2x2 + β3x21 + β4x2

2 + β5x1x2 ,

die zwar linear in den Regressionsparametern β0, . . . , β5, aber nichtlinear inden Regressoren x1 und x2 ist.

Der marginale Effekt einer Anderung von x1 auf y betragt hier beispielsweise(abhangig vom Wert der Regressoren x1 und x2!)

∂y

∂x1= β1 + 2β3x1 + β5x2 .

Allgemein betrachten wir nun Regressionsmodelle, die sich in der Form

g(yi ) = β0+β1h1(x1i , . . . , xKi )+. . .+βM hM (x1i , . . . , xKi )+ui , i ∈ 1, . . . , n,

mit M Transformationen h1, . . . , hM der K Regressoren und (ggf.) einerTransformation g der abhangigen Variablen darstellen lassen.



Nichtlinearitat in den Regressoren III

Unter den ublichen Annahmen an die Storgroßen ui und unter derVoraussetzung, dass die Transformationen h1, . . . , hM zu einer

”neuen“

Regressormatrix

X :=

1 h1(x11, . . . , xK1) · · · hM (x11, . . . , xK1)1 h1(x12, . . . , xK2) · · · hM (x12, . . . , xK2)...

......

1 h1(x1n, . . . , xKn) · · · hM (x1n, . . . , xKn)

mit vollem Spaltenrang M + 1 fuhren, bleiben die bisher besprochenenEigenschaften der OLS-/KQ-Schatzung dieses Modells bestehen.

Bezeichnet y := (g(y1), . . . , g(yn))′ den transformierten (bzw. – fallsg(y) = y fur alle y ∈ R gilt – untransformierten) Vektor der abhangigenVariable, erhalt man beispielsweise den KQ-Schatzer als

β = (X′X)−1X′y .



Nichtlinearitat in den Regressoren IV

Weitere Beispiele fur Modelle mit Regressionsfunktionen, die nichtlinear inden (ursprunglichen) Regressoren xk sind:

1 yi = β0 + β1x1i + β2x21i + ui ,

2 yi = β0 + β1x1i + β2x21i + β3x3

1i + ui ,3 yi = β0 + β1 ln(x1i ) + ui ,4 ln(yi ) = β0 + β1x1i + ui ,5 ln(yi ) = β0 + β1 ln(x1i ) + β2 ln(x2i ) + ui .

Wichtig!

Unabhangig von der konkreten Form der Regressionsfunktion muss (wie auchbisher!) die Korrektheit der Spezifikation der Regressionsfunkion gewahrleistetsein, um die Ergebnisse der Schatzung uberhaupt sinnvoll verwerten zu konnen!

Im Folgenden werden zunachst Regressionsfunktionen untersucht, die nur voneiner unabhangigen Variablen x1 abhangen (wie in den Beispielen 1 – 4 ).


5 Nichtlineare Regressionsfunktionen Nichtlinearitat in einer Variablen 5.2

Polynomiale Modelle Iin nur einer Variablen x1

Die Modelle aus 1 bzw. 2 ,

yi = β0 + β1x1i + β2x21i + ui bzw. yi = β0 + β1x1i + β2x2

1i + β3x31i + ui ,

sind Beispiele fur polynomiale Modelle (in einer Variablen) der Form

yi = β0 + β1x1i + β2x21i + . . .+ βr x r

1i + ui

zu vorgegebenem Grad r ∈ 2, 3, . . . des Polynoms.

In polynomialen Modellen (in einer Variablen) sind die marginalen Effekteeiner Anderung von x1 auf y gegeben durch

∂y

∂x1= β1 + 2β2x1 + . . .+ rβr x r−1

1

und damit insbesondere nicht konstant, sondern abhangig vom Regressor x1.



Polynomiale Modelle IIin nur einer Variablen x1

Konfidenzintervalle fur die marginalen Effekte an einem vorgegebenen Wertx1 des Regressors konnen dann als Konfidenzintervalle furLinearkombinationen a′β bestimmt werden, wenn der Vektor a ∈ Rr+1

(abhangig von x1) entsprechend gewahlt wird, im polynomialen Modell mitPolynomgrad r also als

a =[0 1 2x1 . . . rx r−1

1

]′.

Bei einer sehr großen Wahl von r besteht die Gefahr des”Overfittings“: Sind

bei einer”Punktwolke“ aus n Beobachtungen (x1i , yi ) alle xi unterschiedlich,

so kann die Punktwolke durch ein Polynom vom Grad r = n − 1 perfekt

”interpoliert“ werden!

In der Praxis finden sich haufig polynomiale Modelle mit r = 2 oder r = 3.



Polynomiale Modelle IIIin nur einer Variablen x1

Gelegentlich wird – unter der Annahme, dass die wahre Regressionsfunktionein Polynom von unbekanntem Grad ist – zunachst ein Modell mit

”großem“

r geschatzt und dann sukzessive mit Hilfe von t-Tests uberpruft, ob βr

signifikant von Null verschieden ist, um ggf. den Grad r des Polynoms in derRegressionsfunktion um 1 zu reduzieren.

Die Nullhypothese eines linearen Zusammenhangs gegen die Alternative einespolynomialen Zusammenhangs (mit Polynomgrad r ≥ 2) kann offensichtlichdurch einen F -Test mit

H0 : β2 = . . . = βr = 0

uberpruft werden.

Naturlich konnen Tests bzw. Konfidenzintervalle auch unter der Annahmeheteroskedastischer Storgroßen durchgefuhrt werden, wenn die entsprechendeheteroskedastie-konsistente Schatzung Vhc(β) der Varianz-Kovarianzmatrix

V(β) und die dafur geeigneten Darstellungen der jeweiligen Tests verwendetwerden.



(Semi-)logarithmische Modelle Iin nur einer Variablen x1

Log-Transformationen von x1i in ln(x1i ) und/oder yi in ln(yi ) bieten sichdann an, wenn anstelle der Annahme eines konstanten Effekts ∆y = β1∆x1

von absoluten Anderungen ∆x1 auf absolute Anderungen ∆y eher dann einkonstanter Effekt β1 erwartet wird, wenn relative, prozentuale Anderungenbei der Ursache ( ∆x1

x1) und/oder bei der abhangigen Variablen ( ∆y

y )betrachtet werden.

Grundlage dafur ist ∂ ln(x)∂x = 1

x bzw.

ln(x + ∆x)− ln(x) = ln

(1 +

∆x

x

)≈ ∆x

x, wenn |∆x | |x |.

Abhangig davon, ob nur die unabhangige Variable, nur die abhangige Variableoder beide Variablen transformiert werden, sind die folgenden Spezifikationenmoglich:



(Semi-)logarithmische Modelle IIin nur einer Variablen x1

1 Linear-log-Spezifikation:

yi = β0 + β1 ln(x1i ) + ui .

Konstanter Effekt β1 der relativen Anderung von x1 auf eine absoluteAnderung von y , bzw. abnehmender marginaler Effekt bei steigendem x :

∆y ≈ β1∆x1

x1bzw.

∂y

∂x1=β1

x1

Bsp.: x1i Dungemitteleinsatz, yi Ernteertrag (auf Feld i).I Eine (relative) Erhohung des Dungemitteleinsatzes um 1% erhoht den

(absoluten) Ernteertrag (etwa) um 0.01 · β1.I Eine (absolute) Erhohung des Dungemitteleinsatzes um einen Betrag ∆x1 hat

dort mehr Wirkung, wo noch nicht so viel Dunger eingebracht wurde(”abnehmende Grenzertrage“).



(Semi-)logarithmische Modelle IIIin nur einer Variablen x1

2 Log-linear-Spezifikation:

ln(yi ) = β0 + β1x1i + ui .

Konstanter Effekt β1 der absoluten Anderung von x1 auf eine relativeAnderung von y , bzw. steigender marginaler Effekt bei steigendem y :

∆y

y≈ β1∆x1 bzw.

∂y

∂x1= β1y

Bsp.: x1i Berufserfahrung von BWL-Absolventen (in Jahren), yi Einkommen.I Ein Jahr zusatzliche Berufserfahrung erhoht danach das mittlere Einkommen

um etwa 100β1%.I Eine (absolute) Erhohung der Berufserfahrung hat also einen hoheren

(absoluten) Effekt auf das Einkommen dort, wo das Einkommen ohnehinbereits ein hoheres Niveau hatte.



(Semi-)logarithmische Modelle IVin nur einer Variablen x1

3 Log-log-Spezifikation:

ln(yi ) = β0 + β1 ln(x1i ) + ui .

Konstanter Effekt β1 (=Elastizitat) der relativen Anderung von x1 auf einerelative Anderung von y :

∆y

y≈ β1

∆x1

x1bzw.

∂y

∂x1

x1

y= β1

Bsp.: x1i Kapitaleinsatz pro Arbeitskraft, yi Output pro Arbeitskraft.I Erhohung des per-capita-Kapitaleinsatzes um 1% fuhrt zur Erhohung des

per-capita-Output um β1% (Cobb-Douglas-Produktionsfunktion).I Modellierung von

”konstanten Skalenertragen“.



(Semi-)logarithmische Modelle Vin nur einer Variablen x1

Anmerkungen zu Log-transformierten abhangigen Variablen (ln(y))

Insbesondere Log-log-Spezifikationen konnen bei der sog.”Linearisierung“ von

Regressionsmodellen entstehen, die zunachst nichtlinear (auch!) in denRegressionsparametern sind, zum Beispiel erhalt man aus dem Modell (hier:mit mehreren Regressoren)

yi = β0 · xβ1

1i · xβ2

2i · eui , i ∈ 1, . . . , n,

durch Logarithmieren auf beiden Seiten mit

ln(yi ) = β0 + β1 ln(x1i ) + β2 ln(x2i ) + ui , i ∈ 1, . . . , n.

ein”linearisiertes“ Modell.



(Semi-)logarithmische Modelle VIin nur einer Variablen x1

Bei der Prognose von y0 gegeben x0 bzw. der Bestimmung von yi auf Basisvon Modellen mit log-tranformierter abhangiger Variablen ln(y) ist zubeachten, dass wegen E (eui ) 6= eE(ui ) trotz der Annahme E(ui ) ≡ 0 im

Allgemeinen E (eui ) 6= 1 = e0 gilt. Fur uiiid∼ N(0, σ2) gilt insbesondere

E (eui ) = eσ2

2 , damit erhalt man fur ln(yi ) = h(x1i ) + ui mit uiiid∼ N(0, σ2)

E(yi ) = E(

e ln(yi ))

= E(

eh(x1i )+ui

)= E

(eh(x1i ) · eui

)= eh(x1i ) · E (eui ) = eh(x1i ) · e σ

2

2 > eh(x1i ) .

Wenn die abhangige Variable y in ln(y) transformiert wird, kann man dasBestimmtheitsmaß fur die geschatzte Regression nicht sinnvoll mit demBestimmtheitsmaß einer Regressionsgleichung fur y vergleichen!(Anteil der erklarten Varianz der ln(yi ) vs. Anteil der erklarten Varianz der yi )



Beispiel zur Nichtlinearitat in einer Variablen I

Im Folgenden soll am Beispiel der Abhangigkeit der Milchleistung von Kuhenvon der zugefuhrten Futtermenge die Schatzung einiger in den Regressorennichtlinearer Modelle illustriert werden.

Es liege hierzu folgender Datensatz vom Umfang n = 12 zu Grunde:

i 1 2 3 4 5 6

Milchleistung (Liter/Jahr) yi 6525 8437 8019 8255 5335 7236Futtermenge (Zentner/Jahr) x1i 10 30 20 33 5 22

i 7 8 9 10 11 12

Milchleistung (Liter/Jahr) yi 5821 7531 8320 4336 7225 8112Futtermenge (Zentner/Jahr) x1i 8 14 25 1 17 28

(vgl. von Auer, Ludwig: Okonometrie – Eine Einfuhrung, 6. Aufl., Tabelle 14.1)

Es wird nacheinander die Gultigkeit einer linearen, quadratischen, kubischen,linear-log-, log-linear- bzw. log-log-Spezifikation unterstellt und daszugehorige Modell geschatzt (unter Homoskedastieannahme).



Beispiel zur Nichtlinearitat in einer Variablen II

Lineares Modell: Milchi = β0 + β1Futteri + ui

Call:

lm(formula = Milch ~ Futter)

Residuals:


-768.2 -275.0 -115.6 353.4 880.9

Coefficients:


(Intercept) 4985.27 312.84 15.935 1.95e-08 ***

Futter 118.91 15.39 7.725 1.60e-05 ***

---

Signif. codes:

0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1






Beispiel zur Nichtlinearitat in einer Variablen III

Quadratisches Modell: Milchi = β0 + β1Futteri + β2Futter2i + ui

Call:

lm(formula = Milch ~ Futter + I(Futter^2))

Residuals:


-699.14 -135.47 -2.44 179.63 490.67

Coefficients:


(Intercept) 4109.445 290.487 14.147 1.87e-07 ***

Futter 271.393 38.626 7.026 6.14e-05 ***

I(Futter^2) -4.432 1.087 -4.076 0.00277 **

---

Signif. codes:

0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1






Beispiel zur Nichtlinearitat in einer Variablen IV

Kubisches Modell: Milchi = β0 + β1Futteri + β2Futter2i + β3Futter

3i + ui

Call:

lm(formula = Milch ~ Futter + I(Futter^2) + I(Futter^3))

Residuals:


-641.92 -117.82 5.13 202.86 447.31

Coefficients:


(Intercept) 3954.93841 389.73064 10.148 7.61e-06 ***

Futter 327.00926 97.73076 3.346 0.0101 *

I(Futter^2) -8.50791 6.63147 -1.283 0.2354

I(Futter^3) 0.07951 0.12747 0.624 0.5502

---

Signif. codes:

0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1






Beispiel zur Nichtlinearitat in einer Variablen V

Linear-log-Modell: Milchi = β0 + β1 ln(Futteri ) + ui

Call:

lm(formula = Milch ~ log(Futter))

Residuals:


-635.74 -287.21 33.02 373.09 517.67

Coefficients:


(Intercept) 3818.3 358.2 10.660 8.82e-07 ***

log(Futter) 1268.8 130.1 9.754 2.00e-06 ***

---

Signif. codes:

0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1






Beispiel zur Nichtlinearitat in einer Variablen VI

Log-linear-Modell: ln(Milchi ) = β0 + β1Futteri + ui

Call:

lm(formula = log(Milch) ~ Futter)

Residuals:


-0.16721 -0.03642 -0.01678 0.05692 0.14677

Coefficients:


(Intercept) 8.523601 0.055220 154.358 < 2e-16 ***

Futter 0.018315 0.002717 6.741 5.1e-05 ***

---

Signif. codes:

0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1






Beispiel zur Nichtlinearitat in einer Variablen VII

Log-log-Modell: ln(Milchi ) = β0 + β1 ln(Futteri ) + ui

Call:

lm(formula = log(Milch) ~ log(Futter))

Residuals:


-0.076867 -0.028385 -0.004122 0.049235 0.066730

Coefficients:


(Intercept) 8.32264 0.04468 186.29 < 2e-16 ***

log(Futter) 0.20364 0.01622 12.55 1.91e-07 ***

---

Signif. codes:

0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1






Geschatzte Regressions-/Prognosefunktionen I

0 5 10 15 20 25 30

5000

7000

Lineares Modell

Futter

Milc

h

0 5 10 15 20 25 30

5000

7000

Quadratisches Modell

Futter

Milc

h

0 5 10 15 20 25 30

5000

7000

Kubisches Modell

Futter

Milc

h

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

5000

7000

Linear−log−Modell

log(Futter)M

ilch

0 5 10 15 20 25 30

8.4

8.6

8.8

9.0

Log−linear−Modell

Futter

log(

Milc

h)

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

8.4

8.6

8.8

9.0

Log−log−Modell

log(Futter)

log(

Milc

h)



Geschatzte Regressions-/Prognosefunktionen II

0 5 10 15 20 25 30

5000

6000

7000

8000

Vergleich der Prognosefunktionen

Futter

Milc

h

LinearQuadratischKubischLinear−logLog−linearLog−log


5 Nichtlineare Regressionsfunktionen Modelle mit Interaktionen 5.3

Modelle mit Interaktionsvariablen I

In der beim White-Test verwendeten Regressionsfunktion

y = β0 + β1x1 + β2x2 + β3x21 + β4x2

2 + β5x1x2 ,

ist – anders als bei den bisher naher betrachteten polynomialen oder(semi-)log-Modellen – der marginale Effekt einer Anderung von x1 auf y

∂y

∂x1= β1 + 2β3x1 + β5x2

nicht nur von der betrachteten Stelle x1 des 1. Regressors, sondern auch vomWert x2 des 2. Regressors abhangig!

Ursachlich hierfur ist die Verwendung des Produkts x1 · x2 als unabhangigeVariable. Man bezeichnet solche Produkte als Interaktionsvariablen oderInteraktionsterme.



Modelle mit Interaktionsvariablen II

Wir betrachten nun die folgenden drei Falle:1 Interaktion von zwei Dummyvariablen2 Interaktion einer Dummyvariablen mit einer kardinalskalierten Variablen3 Interaktion von zwei kardinalskalierten Variablen

Erinnerung: Dummyvariablen (auch 0,1-Indikatorvariablen genannt, imFolgenden auch mit dk statt xk bezeichnet) sind Regressoren, die nur dieWerte 0 und 1 annehmen.

Der Wert 1 einer Dummyvariablen dki kennzeichnet bei einem betrachtetenDatenpunkt i in der RegelI das Vorhandensein eines gewissen Charakteristikums/einer gewissen

Eigenschaft bzw.I die Zugehorigkeit zu einer gewissen Gruppe.

Der Wert 1 eines Produkts dki · dli von zwei Dummyvariablen dk und dl trittalso bei den Datenpunkten i auf, bei denen beide Charakteristika bzw.Gruppenzugehorigkeiten gleichzeitig vorliegen.



Interaktion von zwei Dummyvariablen I

Interaktionsvariablen zu 2 Dummyvariablen sind also beispielsweise dann inein Modell aufzunehmen, wenn der Effekt der Zugehorigkeit zu einer Gruppenicht unabhangig vom Vorliegen eines weiteren Charakteristikums ist.

Beispiel: Betrachte das Modell

yi = β0 + β1d1i + β2d2i + ui , i ∈ 1, . . . , n,

z.B. zu einer Stichprobe von Monatseinkommen (yi ) vonI 30-jahrigen Frauen (d2i = 1) und Mannern (d2i = 0)I mit akademischem Grad (d1i = 1) und ohne akademischen Grad (d1i = 0).

In dieser Spezifikation istI das Basiseinkommen (Absolutglied) fur Manner (β0) und Frauen (β0 + β2)

unterschiedlich, aberI der Effekt eines abgeschlossenen Studiums fur Manner und Frauen gleich (β1).



Interaktion von zwei Dummyvariablen II

Die Einfuhrung einer zusatzlichen Interaktionsvariablen d1i d2i ist hiergleichbedeutend damit, dass fur Manner und Frauen das Basiseinkommen(Absolutglied) und der Effekt des akademischen Grades unterschiedlich seinkonnen:

yi = β0 + β1d1i + β2d2i + β3d1i d2i + ui

⇐⇒ yi =

β0 + β1d1i + ui , falls i mannlich

(β0 + β2) + (β1 + β3)d1i + ui , falls i weiblich

In diesem Modell kann man mit (jeweils) einem t-Test uberprufen, obI das Basiseinkommen geschlechtsabhangig ist (H1 : β2 6= 0),I der Effekt des akademischen Grades geschlechtsabhangig ist (H1 : β3 6= 0).

Mit einem F -Test (H1 : (β2, β3)′ 6= (0, 0)′) kann außerdem (gemeinsam)uberpruft werden, ob das Geschlecht in dem Modell irgendeinen Einfluss aufdas Monatseinkommen hat.



Interaktion einer kardinalskalierten mit einer Dummyvariablen I

Eine Interaktionsvariable zu einer kardinalskalierten und einerDummyvariablen ist dann in ein Modell aufzunehmen, wenn der Effekt einerkardinalskalierten Variablen nicht unabhangig vom Vorliegen eines bestimmtenCharakteristikums bzw. der Zugehorigkeit zu einer bestimmten Gruppe ist.


yi = β0 + β1x1i + β2d2i + ui , i ∈ 1, . . . , n,

z.B. zu einer Stichprobe von Monatseinkommen (yi ) von MannernI mit (d2i = 1) und ohne (d2i = 0) akademischen GradI mit einer Anzahl von x1i Jahren an Berufserfahrung.

In dieser Spezifikation istI das Basiseinkommen (Absolutglied) der Nichtakademiker (β0) und der

Akademiker (β0 + β2) unterschiedlich, aberI der Effekt eines Jahres Berufserfahrung fur Nichtakademiker und Akademiker

gleich (β1).



Interaktion einer kardinalskalierten mit einer Dummyvariablen II

Die Einfuhrung einer zusatzlichen Interaktionsvariablen x1i d2i sorgt hierdafur, dass fur Nichtakademiker und Akademiker das Basiseinkommen(Absolutglied) und der Effekt der Berufserfahrung unterschiedlich seinkonnen:

yi = β0 + β1x1i + β2d2i + β3x1i d2i + ui

⇐⇒ yi =

β0 + β1x1i + ui , falls i Nichtakademiker

(β0 + β2) + (β1 + β3)x1i + ui , falls i Akademiker

Auch in diesem Modell kann man mit (jeweils) einem t-Test uberprufen, obI das Basiseinkommen vom Vorhandensein eines akademischen Grads abhangt

(H1 : β2 6= 0),I der Effekt der Berufserfahrung fur Nichtakademiker und Akademiker

unterschiedlich ist (H1 : β3 6= 0).

Mit einem F -Test (H1 : (β2, β3)′ 6= (0, 0)′) kann außerdem wiederum(gemeinsam) uberpruft werden, ob das Vorhandensein eines akademischenGrads in dem Modell irgendeinen Einfluss auf das Monatseinkommen hat.



Interaktion von zwei kardinalskalierten Variablen I

Eine Interaktionsvariable zu zwei kardinalskalierten Variablen ist dann in einModell aufzunehmen, wenn der Effekt einer kardinalskalierten Variablen nichtunabhangig vom Wert einer anderen kardinalskalierten Variablen ist.


yi = β0 + β1x1i + β2x2i + ui , i ∈ 1, . . . , n,

z.B. zu einer Stichprobe von Monatseinkommen (yi ) von MannernI mit einer Anzahl von x1i Jahren an Berufserfahrung undI einer Ausbildungszeit von x2i Jahren.

In dieser Spezifikation istI der Effekt eines (zusatzlichen) Jahres an Berufserfahrung unabhangig von der

Ausbildungszeit gleich β1 undI der Effekt eines (zusatzlichen) Jahres an Ausbildungszeit unabhangig von der

Berufserfahrung gleich β2.



Interaktion von zwei kardinalskalierten Variablen II

Die Einfuhrung einer zusatzlichen Interaktionsvariablen x1i x2i sorgt hierdafur, dass der Effekt eines (zusatzlichen) Jahres an Berufserfahrung bzw.Ausbildungszeit jeweils abhangig vom Niveau der anderen Variablen sein kann.

Fur die Regressionsfunktion

y = β0 + β1x1 + β2x2 + β3x1x2

zum Modellansatz

yi = β0 + β1x1i + β2x2i + β3x1i x2i + ui , i ∈ 1, . . . , n,

gilt namlich:

∂y

∂x1= β1 + β3x2 sowie

∂y

∂x2= β2 + β3x1

In diesem Modell kann mit einem t-Test uberpruft werden, ob tatsachlicheine signifikante Interaktion vorliegt und der Effekt eines (zusatzlichen)Jahres an Berufserfahrung bzw. Ausbildungszeit jeweils abhangig vom Niveauder anderen Variablen ist.



Beispiel: Modelle mit Interaktionen I

Im”Lohnhohenbeispiel“ wurde bisher als Modell

Lohnhohei = β0 + β1Ausbildungi + β2Alteri + ui

angenommen, mit dem folgenden Schatzergebnis (unter Annahmehomoskedastischer Storgroßen):Call:lm(formula = Lohnhohe ~ Ausbildung + Alter)


-569.50 -120.79 -5.14 73.12 519.26


(Intercept) 1027.806 164.473 6.249 8.81e-06 ***Ausbildung 62.575 21.191 2.953 0.0089 **Alter 10.602 4.577 2.317 0.0333 *---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1




Beispiel: Modelle mit Interaktionen II

Die Schatzung bei Hinzunahme einer Interaktionsvariablen fur dieRegressoren Ausbildung und Alter ergibt (unter Annahmehomoskedastischer Storgroßen):Call:lm(formula = Lohnhohe ~ Ausbildung + Alter + I(Ausbildung * Alter))


-470.03 -128.21 -29.24 61.99 541.43


(Intercept) 817.924 288.786 2.832 0.0120 *Ausbildung 128.650 77.493 1.660 0.1164Alter 15.764 7.422 2.124 0.0496 *I(Ausbildung * Alter) -1.414 1.595 -0.887 0.3883---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1




Beispiel: Modelle mit Interaktionen III

Auch die Verwendung robuster Standardfehler (Vhc1(β)) andert dieSchatzergebnisse nicht wesentlich:



(Intercept) 817.9240 257.6594 3.1744 0.005885 **

Ausbildung 128.6496 83.6652 1.5377 0.143669

Alter 15.7637 6.8998 2.2847 0.036323 *

I(Ausbildung * Alter) -1.4143 1.9546 -0.7236 0.479787

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Die Berechnung der Varianzinflationsfaktoren”offenbart“ das entstandene

Multikollinearitatsproblem:

> library(car)

> vif(lm(Lohnhohe~Ausbildung+Alter+I(Ausbildung*Alter)))

Ausbildung Alter I(Ausbildung * Alter)

18.757206 3.688704 27.428395



Beispiel: Modelle mit Interaktionen IV

Betrachte nun die folgende”Erganzung“ des Datensatzes um die

Dummyvariablen Weiblich (mit Wert 1 fur weibliche und 0 fur mannlicheBetriebsangehorige) sowie Stamm (mit Wert 1 fur Beschaftigte mit uber 25Jahren Betriebszugehorigkeit, 0 sonst) zum Lohnhohenbeispiel:

i 1 2 3 4 5 6 7 8 9 10

Lohnhohe yi 1250 1950 2300 1350 1650 1750 1550 1400 1700 2000Ausbildung x1i 1 9 11 3 2 1 4 1 3 4Alter x2i 28 34 55 24 42 43 37 18 63 58Weiblich d3i 1 0 0 1 0 0 1 0 1 0Stamm d4i 0 0 0 0 0 0 0 0 0 1

i 11 12 13 14 15 16 17 18 19 20

Lohnhohe yi 1350 1600 1400 1500 2350 1700 1350 2600 1400 1550Ausbildung x1i 1 2 2 3 6 9 1 7 2 2Alter x2i 30 43 23 21 50 64 36 58 35 41Weiblich d3i 1 0 0 0 0 1 1 0 1 0Stamm d4i 0 0 0 0 0 1 0 1 0 0



Beispiel: Modelle mit Interaktionen V

Eine erste Modellschatzung mit der zusatzlichen Dummyvariablen Stamm

ergibt:

Call:

lm(formula = Lohnhohe ~ Ausbildung + Alter + Stamm)

Residuals:


-585.19 -120.69 -1.91 64.44 499.54

Coefficients:


(Intercept) 1044.204 191.386 5.456 5.28e-05 ***

Ausbildung 62.034 22.017 2.818 0.0124 *

Alter 10.110 5.418 1.866 0.0805 .

Stamm 35.620 193.640 0.184 0.8564

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1






Beispiel: Modelle mit Interaktionen VI

Eine Modellschatzung mit der zusatzlichen Dummyvariablen Weiblich ergibt:

Call:

lm(formula = Lohnhohe ~ Ausbildung + Alter + Weiblich)

Residuals:


-341.81 -63.29 -23.10 54.66 415.58

Coefficients:


(Intercept) 1153.784 128.038 9.011 1.15e-07 ***

Ausbildung 49.842 16.277 3.062 0.00745 **

Alter 11.754 3.452 3.405 0.00362 **

Weiblich -312.816 83.257 -3.757 0.00172 **

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1






Beispiel: Modelle mit Interaktionen VII

Eine Modellschatzung mit den zusatzlichen Dummyvariablen Stamm undWeiblich ergibt:Call:lm(formula = Lohnhohe ~ Ausbildung + Alter + Weiblich + Stamm)


-352.78 -63.15 -19.96 55.61 402.17


(Intercept) 1164.906 147.862 7.878 1.04e-06 ***Ausbildung 49.484 16.931 2.923 0.01050 *Alter 11.416 4.095 2.788 0.01379 *Weiblich -312.513 85.926 -3.637 0.00243 **Stamm 24.423 145.819 0.167 0.86922---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 184 on 15 degrees of freedomMultiple R-squared: 0.8105, Adjusted R-squared: 0.76F-statistic: 16.04 on 4 and 15 DF, p-value: 2.7e-05



Beispiel: Modelle mit Interaktionen VIII

Variante I: Hinzufugen der Interaktion von Weiblich und Stamm:Call:lm(formula = Lohnhohe ~ Ausbildung + Alter + Weiblich + Stamm +

I(Weiblich * Stamm))


-202.67 -76.43 -4.51 18.03 325.65


(Intercept) 1084.687 112.439 9.647 1.46e-07 ***Ausbildung 64.889 13.324 4.870 0.000248 ***Alter 11.007 3.054 3.604 0.002877 **Weiblich -200.118 71.233 -2.809 0.013922 *Stamm 220.038 121.483 1.811 0.091603 .I(Weiblich * Stamm) -693.032 192.232 -3.605 0.002869 **---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 137.2 on 14 degrees of freedomMultiple R-squared: 0.9018, Adjusted R-squared: 0.8667F-statistic: 25.7 on 5 and 14 DF, p-value: 1.375e-06



Beispiel: Modelle mit Interaktionen IX

Breusch-Pagan-Test (nach Koenker) im ursprunglichen Modell:



BP = 7.4032, df = 2, p-value = 0.02468

Breusch-Pagan-Test (nach Koenker) im Modell mit Dummyvariablen:


data: lm(Lohnhohe ~ Ausbildung + Alter + Weiblich + Stamm)

BP = 9.6253, df = 4, p-value = 0.04724

Breusch-Pagan-Test (nach Koenker) im Modell mit Dummyvariablen undInteraktionsterm:


data: lm(Lohnhohe ~ Ausbildung + Alter + Weiblich + Stamm + I(Weiblich * Stamm))

BP = 6.9717, df = 5, p-value = 0.2228



Beispiel: Modelle mit Interaktionen X

Variante II: Hinzufugen der Interaktion von Weiblich und Ausbildung:Call:lm(formula = Lohnhohe ~ Ausbildung + Alter + Weiblich + Stamm +

I(Weiblich * Ausbildung))


-160.32 -86.44 -23.71 69.83 305.85


(Intercept) 1061.933 124.133 8.555 6.22e-07 ***Ausbildung 65.991 14.724 4.482 0.000517 ***Alter 11.725 3.306 3.547 0.003220 **Weiblich -41.731 113.671 -0.367 0.719016Stamm 154.349 125.352 1.231 0.238484I(Weiblich * Ausbildung) -81.946 27.259 -3.006 0.009436 **---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1




Beispiel: Modelle mit Interaktionen XI

Variante III: Hinzufugen der Interaktion von Weiblich und Ausbildung

sowie von Weiblich und Alter :Call:lm(formula = Lohnhohe ~ Ausbildung + Alter + Weiblich + Stamm +

I(Weiblich * Ausbildung) + I(Weiblich * Alter))


-170.48 -79.35 -21.72 68.58 283.54


(Intercept) 986.879 153.018 6.449 2.17e-05 ***Ausbildung 61.942 15.604 3.970 0.0016 **Alter 14.159 4.386 3.228 0.0066 **Weiblich 114.977 216.239 0.532 0.6039Stamm 114.635 134.825 0.850 0.4106I(Weiblich * Ausbildung) -60.144 37.519 -1.603 0.1329I(Weiblich * Alter) -5.713 6.681 -0.855 0.4080---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1




Beispiel: Modelle mit Interaktionen XII

Die Berechnung der Varianzinflationsfaktoren”offenbart“ erneut ein

Multikollinearitatsproblem:

> vif(lm(Lohnhohe~Ausbildung+Alter+Weiblich+Stamm+

+ I(Weiblich*Ausbildung)+I(Weiblich*Alter)))

Ausbildung Alter Weiblich

1.930386 3.270178 9.985942

Stamm I(Weiblich * Ausbildung) I(Weiblich * Alter)

2.062336 5.837059 18.249808

Die Hinzunahme von Interaktionstermen (und anderen in den Regressorennichtlinearen Variablen) lasst insgesamt eine sehr flexible Modellbildung zu.

Die Schatzungenauigkeiten (z.B. Standardfehler) werden aber (insbesondere –wie im Beispiel – bei Schatzung auf Basis kleiner Datensatze) mitzunehmender Variablenanzahl tendenziell immer großer!


5 Nichtlineare Regressionsfunktionen Strukturbruchmodelle 5.4


5 Nichtlineare RegressionsfunktionenNichtlinearitat in den RegressorenNichtlinearitat in einer VariablenModelle mit InteraktionenStrukturbruchmodelle



Strukturbruchmodelle I

Ein Spezialfall von Modellen mit Dummyvariablen – insbesondere auch inInteraktionstermen – sind sogenannte Strukturbruchmodelle.

Als Strukturbruch wird eine (abrupte) Anderung der Parameterstruktur (imGanzen oder in Teilen) bezeichnet. Strukturbruchmodelle erlauben dieseAnderung der Parameterstruktur im Rahmen des formulierten Modells.

Die Anderung eines oder mehrerer Regressionsparameter kann dabei zumBeispielI beim Wechsel zwischen verschiedenen Gruppen des Datensatzes oderI insbesondere bei Zeitreihendaten beim Wechsel zwischen verschiedenen

Zeitraumen

auftreten.

Wird die mogliche Anderung der Parameter nicht in einem entsprechendenStrukturbruchmodell zugelassen, sondern stattdessen von konstantenParametern ausgegangen, handelt es sich im Fall eines tatsachlichvorliegenden Strukturbruchs um eine Annahmeverletzung, welche dieSchatzergebnisse (des dadurch fehlspezifizierten Modells) oft unbrauchbarmacht.



Strukturbruchmodelle II

Zur Formulierung eines einfachen Strukturbruchmodells mit zwei Phasen (1)und (2) oder Gruppen (1) und (2) seien die Indizes 1, . . . , n der nDatenpunkte gemaß der beiden Phasen/Gruppen durch die Mengen

∅ 6= I(1) ( 1, . . . , n und I(2) = 1, . . . , n\I(1)

partitioniert.

Die moglichen Parameterunterschiede in den beiden Phasen/Gruppen konnenoffensichtlich durch eine getrennte Schatzung der beiden Regressionsmodelle

yi = β(1)0 + β

(1)1 x1i + . . .+ β

(1)K xKi + ui , i ∈ I(1),

undyi = β

(2)0 + β

(2)1 x1i + . . .+ β

(2)K xKi + ui , i ∈ I(2),

berucksichtigt werden.(Die Rangbedingung an die Regressormatrix muss fur beide Modelle erfulltbleiben, insbesondere folgen hieraus Mindestgroßen von I(1) und I(2)!)



Strukturbruchmodelle III

Mit einer die Gruppen-/Phasenzugehorigkeit beschreibenden Dummyvariablen

di :=

0 falls i ∈ I(1)

1 falls i ∈ I(2)

lassen sich die beiden Einzelschatzungen alternativ jedoch auch in einem(großeren) Strukturbruchmodell der Gestalt

yi = β(1)0 +δ0di +β

(1)1 x1i +δ1di x1i +. . .+β

(1)K xKi +δK di xKi +ui , i ∈ 1, . . . , n,

mit 2K + 2 Regressionsparametern subsummieren, wobei zwischen denParametern dann die Beziehung

δk = β(2)k − β

(1)k bzw. β

(2)k = β

(1)k + δk fur k ∈ 0, . . . ,K

gilt.



Strukturbruchmodelle IV

Aus den Ergebnissen einer OLS-/KQ-Schatzung des Strukturbruchmodellslassen sich dann mit t-Tests bzw. F -Tests Ruckschlusse auf das (tatsachliche)Vorliegen von Parameterunterschieden ziehen.

Relevant sind hierbei insbesondereI t-Tests auf Signifikanz einzelner Parameter δk , k ∈ 0, . . . ,K, also

H1 : δk 6= 0, sowieI F -Tests auf Signifikanz von mindestens einem der Parameter δ0, δ1, . . . , δK ,

also H1 : δk 6= 0 fur mind. ein k ∈ 0, . . . ,K,denn wegen der bereits skizzierten Parameterzusammenhange gilt

δk = 0 ⇐⇒ β(1)k = β

(2)k fur alle k ∈ 0, . . . ,K .

Je nachdem, ob von homoskedastischen oder heteroskedastischen Storgroßenausgegangen werden soll, sind die entsprechenden Darstellungen derjeweiligen Tests zu verwenden.



Strukturbruchmodelle V

Fur die Durchfuhrung des F -Tests auf Signifikanz von mindestens einem derParameter δ0, δ1, . . . , δK besteht bei Annahme homoskedastischer Storgroßendie Moglichkeit, das ursprungliche Modell

yi = β0 + β1x1i + . . .+ βK xKi + ui

ohne die StrukturbruchkomponenteI einmal fur den Gesamtdatensatz (i ∈ 1, . . . , n) als restringiertes Modell

sowie zusatzlichI jeweils einmal fur die Phasen/Gruppen (i ∈ I(1) bzw. i ∈ I(2)) (als insgesamt

unrestringiertes Modell)

zu schatzen und die (Gesamt-)Summen der Residuenquadrate in derentsprechenden Darstellung der F -Statistik aus Folie 236 einzusetzen.(Beispiel: Ubungsblatt)

Zu beachten ist dabei, dass die ubrigen Ergebnisse dieser”Hilfsregressionen“

nur teilweise sinnvoll zu interpretieren sind!



Strukturbruchmodelle VI

Strukturbruchmodelle sind auch fur komplexere Situationen konstruierbar,insbesondere wenn mehr als zwei Gruppen/Phasen betrachtet werden sollen.Dazu ist dann eine allgemeinere Partitionierung der Beobachtungen1, . . . , n in M Teilmengen I(1), . . . , I(M) mit den Eigenschaften

M⋃j=1

I(j) = 1, . . . , n und I(j) ∩ I(l) = ∅ fur j 6= l

durchzufuhren.

Wahrend wir Strukturbruchmodelle als Spezialfall von Modellen mitDummyvariablen betrachten, werden (in der Literatur) gelegentlich auchModelle mit Dummyvariablen als spezielle Strukturbruchmodelle aufgefasst.



Beispiel: Strukturbruchmodell I

Fur ein Modell, welches im Lohnhohenbeispiel unterschiedliche Parameter furmannliche und weibliche Betriebsangehorige zulasst, erhalt man:Call:lm(formula = Lohnhohe ~ Weiblich + Ausbildung + I(Weiblich *

Ausbildung) + Alter + I(Weiblich * Alter))


-184.63 -77.76 -12.46 52.31 308.12


(Intercept) 930.154 136.338 6.822 8.29e-06 ***Weiblich 142.514 211.674 0.673 0.511736Ausbildung 60.334 15.335 3.934 0.001497 **I(Weiblich * Ausbildung) -45.101 32.756 -1.377 0.190171Alter 16.196 3.637 4.453 0.000546 ***I(Weiblich * Alter) -7.669 6.209 -1.235 0.237113---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1




Beispiel: Strukturbruchmodell II

Eine Schatzung des Strukturbruchmodells unter Annahme heteroskedastischerStorgroßen (und Verwendung von Vhc1(β)) liefert:



(Intercept) 930.1539 132.1236 7.0400 5.865e-06 ***

Weiblich 142.5142 146.5563 0.9724 0.3473445

Ausbildung 60.3345 16.1410 3.7380 0.0022052 **

I(Weiblich * Ausbildung) -45.1015 20.2299 -2.2294 0.0426748 *

Alter 16.1964 3.7428 4.3273 0.0006959 ***

I(Weiblich * Alter) -7.6693 4.1761 -1.8365 0.0876084 .

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Zum Niveau α = 0.05 ist nun wenigstens der Koeffizient zur Interaktion vonWeiblich mit Ausbildung, zum Niveau α = 0.10 daruberhinaus der zurInteraktion von Weiblich mit Alter signifikant von Null verschieden.



Beispiel: Strukturbruchmodell III

Obwohl unter Annahme homoskedastischer Storgroßen kein einziger der

”Strukturbruchparameter“ δk signifikant (α = 0.05) von Null verschieden ist,

erhalt man zum F -Test fur die (gemeinsame) Nullhypothese

H0 : δ0 = δ1 = δ2 = 0

das Ergebnis (Befehl linearHypothesis im R-Paket car):Linear hypothesis test

Hypothesis:Weiblich = 0I(Weiblich * Ausbildung) = 0I(Weiblich * Alter) = 0

Model 1: restricted modelModel 2: Lohnhohe ~ Weiblich + Ausbildung + I(Weiblich * Ausbildung) +

Alter + I(Weiblich * Alter)

Res.Df RSS Df Sum of Sq F Pr(>F)1 17 9576982 14 308438 3 649260 9.8233 0.0009567 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1



Beispiel: Strukturbruchmodell IV

Eine Durchfuhrung des F -Tests unter Annahme heteroskedastischerStorgroßen (bei Verwendung von Vhc1(β)) liefert ein ahnliches Resultat:Linear hypothesis test

Hypothesis:Weiblich = 0I(Weiblich * Ausbildung) = 0I(Weiblich * Alter) = 0

Model 1: restricted modelModel 2: Lohnhohe ~ Weiblich + Ausbildung + I(Weiblich * Ausbildung) +

Alter + I(Weiblich * Alter)

Note: Coefficient covariance matrix supplied.

Res.Df Df F Pr(>F)1 172 14 3 11.485 0.0004565 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1



Beispiel: Strukturbruchmodell V

Dass die einzelnen t-Tests die jeweilige Nullhypothese nicht ablehnen konnen,scheint zumindest teilweise durch ein Multikollinearitatsproblem imStrukturbruchmodell begrundet zu sein, fur die Varianz-Inflations-Faktorenerhalt man:

Weiblich Ausbildung I(Weiblich * Ausbildung)

9.761929 1.902040 4.539092

Alter I(Weiblich * Alter)

2.293787 16.084175

Nicht uninteressant ist das Resultat des Breusch-Pagan-Tests (nach Koenker)im Strukturbruchmodell, bei dem die Regressoren des Strukturbruchmodellsauch fur die Hilfsregression verwendet werden:


data: fit

BP = 10.089, df = 5, p-value = 0.07275

Die Evidenz fur heteroskedastische Storgroßen ist also imStrukturbruchmodell erheblich schwacher als im urspunglichen Modell.


6 Validitat

Validitat von Schlussfolgerungen einer Regressionsstudie

Aussagen und Schlussfolgerungen zu Kausalwirkungen, die auf Basis einerRegressionsstudie gezogen werden, haben generell nicht den Status vonBeweisen, wie z.B. die Ableitung von Eigenschaften von Schatzfunktionen(Konsistenz, Erwartungstreue, Effizienz, asymptotische Normalverteilung) ausModellannahmen.

Bei der Einschatzung der Validitat einer Regressionsstudie unterscheidet manzwischen interner und externer Validitat.

Interne Validitat bezieht sich dabei auf die Gultigkeit von Aussagen uber diePopulation, aus der die Stichprobe fur die Regressionsstudie stammt.

Externe Validitat bezieht sich hingegen auf die Gultigkeit vonverallgemeinernden Aussagen, die Ergebnisse auf andere Populationen undRahmenbedingungen ubertragen.


6 Validitat Interne Validitat 6.1

Interne Validitat

Damit die interne Validitat gewahrleistet ist, mussen insbesondereI die Ursache-Wirkung-Beziehungen korrekt spezifiziert sein,I die relevanten Koeffizienten unverzerrt und konsistent geschatzt werden undI bei Verwendung von Konfidenzintervallen und Hypothesentests auch die

Standardfehler bzw. die Varianz-Kovarianzmatrix der Koeffizientenschatzerkonsistent geschatzt werden.

Verschiedene Verletzungen von Modellannahmen konnen die interne Validitatgefahrden bzw. machen zumindest besondere Maßnahmen erforderlich, umdie interne Validitat zu erhalten.

Im Folgenden (zum Teil Wiederholung):Exemplarische Auflistung einiger Konstellationen, unter denen notwendigeAnnahmen fur die Konsistenz und Unverzerrtheit der Koeffizientenschatzer βverletzt werden.



Konsistenz/Unverzerrtheit der Koeffizientenschatzer I

1 Fehlende Variablen fuhren – wie bereits diskutiert – zur Verzerrung desOLS-Schatzers, wenn sie nicht nur die abhangige Variable y beeinflussen,sondern auch mit dem relevanten Regressor xk , ggf. auch mit mehrerenRegressoren, korreliert sind (

”omitted variable bias“). Grund dafur ist die

Verletzung der Annahme E(u) = 0. Daher sollte schon vor derRegressionsanalyse uberlegt werden:I Welche mit xk korrelierten Einflusse sind unberucksichtigt?I Gibt es eventuell Daten der fehlenden Variablen?I Gibt es wenigstens

”Kontrollvariablen“, deren Aufnahme in das Modell den

omitted variable bias reduziert?I Muss eventuell auf eine andere Datenerhebung (Paneldaten, Randomisierung)

oder ein anderes Schatzverfahren (Instrumentalvariablenschatzung)zuruckgegriffen werden?



Konsistenz/Unverzerrtheit der Koeffizientenschatzer II

Bei der Aufnahme zusatzlicher Variablen ist zu beachten, dassI die Aufnahme zusatzlicher Variablen auch einen Preis hat, namlich die

Erhohung der Varianzen der OLS-Schatzer. Es ist also abzuwagen, ob dieReduktion von Verzerrung die Verringerung der Prazision aufwiegt.

I in der Prasentation der Ergebnisse einer Regressionsstudie nicht nur dieErgebnisse der letztlich favorisierten Spezifikation mit zusatzlichen Variablenangegeben werden sollten, sondern auch die der alternativen Regressionen.

2 Fehlspezifikation der funktionalen Form der Regressionsfunktion fuhrtdazu, dass der (moglicherweise vom xk -Niveau abhangige) marginale Effektvon xk auf y auch bei großer Stichprobe verzerrt geschatzt wird.( korrekte Spezifikation eventuell durch einen nichtlinearen Ansatz)



Konsistenz/Unverzerrtheit der Koeffizientenschatzer III

3 Messfehler in den erklarenden Variablen fuhren dazu, dass dieOLS-Schatzung nicht konsistent ist.Im klassischen Fehler-in-den-Variablen-Modell wird angenommen, dassanstelle des tatsachlichen Regressors xki die Variable xki = xki + εi verwendetwird, wobei angenommen wird, dass die Messfehler εi unabhangig identischverteilt sind mit Erwartungswert Null und Varianz σ2

ε, unkorreliert mit xki undmit der Storgroße ui . In diesem FallI wird der zugehorige Koeffizient βk systematisch betragsmaßig unterschatzt,

I kann die Verzerrung ohne Probleme korrigiert werden, wenn das Verhaltnisσ2

xkσ2ε

bekannt ist,I muss ansonsten auf andere Schatzverfahren (Instrumentalvariablenschatzung)

zuruckgegriffen werden.



Konsistenz/Unverzerrtheit der Koeffizientenschatzer IV

4 Wenn die Stichprobenauswahl von den y−Werten abhangig ist, z.B.wenn – beabsichtigt oder unbeabsichtigt – Beobachtungen ausgeschlossenwerden, bei denen yi unterhalb eines Schwellenwerts liegt, ist derOLS-Schatzer verzerrt und inkonsistent (

”sample selection bias“).

Schatzverfahren, die in dieser Situation konsistent sind, bauen aufMaximum-Likelihood-Verfahren in Modellen mit binaren abhangigenVariablen auf.

5 Simultane Kausalitat von xk nach y und von y nach xk fuhrt dazu, dassder Regressor xk (der dann auch nicht mehr als deterministische Großebetrachtet werden kann, sondern als Zufallsvariable aufgefasst werden muss!)mit der Storgroße korreliert und der OLS-Schatzer verzerrt und inkonsistentist (

”simultaneous equation bias“).



Konsistenz/Unverzerrtheit der Koeffizientenschatzer V

Die Situation simultaner Kausalitat kann formalisiert erfasst werden, indemzur Regressionsbeziehung fur den Einfluss von xk auf y eine weitere Gleichungfur eine umgekehrte Regressionsbeziehung formuliert wird, also eininterdependentes System simultaner Regressionsgleichungen, z.B.

yi = β0 + β1x1i + β2x2i + ui und

x1i = γ0 + γ1yi + γ3x3i + vi .

Die konsistente Schatzung in simultanen Gleichungssystemen spielte einedominierende Rolle in der Entwicklung der Okonometrie, vor allem imKontext makrookonomischer Modelle.Ein Losungsansatz ist die Instrumentalvariablenschatzung.



Konsistenz der Standardfehler der OLS-Schatzung

Wenn die Standardfehler nicht mit einem konsistenten Schatzverfahrenberechnet wurden, sind darauf beruhende Konfidenzintervalle und Tests nichtmehr valide.

Die Konsistenz der geschatzten Standardfehler hangt davon ab, welcheAnnahmen bezuglich der Varianzen und Kovarianzen der Storgroßen adaquatsind.

Wie bereits hervorgehoben wurde, wird man oft von Heteroskedastizitatausgehen mussen, in diesem Fall sind nur die entsprechenden robustenStandardfehler konsistent.

Daruberhinaus wurden Schatzer der Varianzen der OLS-Schatzer entwickelt,die auch bei korrelierten Storgroßen konsistent sind.

Korrelation in den Storgroßen tritt insbesondere dann haufig auf, wenn essich bei den untersuchten Daten um Zeitreihendaten handelt.


Documents

Ökonometrie - Vorlesung an der Universität des Saarlandes · Okonometrie Vorlesung an der Universit at des Saarlandes PD Dr. Stefan Kl oˇner Sommersemester 2019 Okonometrie (SS