86
3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 Ungefähr 7000 britische Haushalte pro Jahr Für jeden Haushalt: Einkommen aus verschiedenen Quellen, Ausgaben für verschiedene Güter, Alter, Familiengröße, Be- rufe, etc. Nominale Nettoeinkommen im Jahr 1976 (136 von 7041 Haus- halten): 66.49 14.40 43.54 36.50 18.34 117.23 31.10 26.78 79.39 58.36 72.88 40.22 45.87 70.99 31.28 54.58 40.72 17.87 26.09 62.87 90.52 5.92 99.39 27.72 50.24 17.62 53.10 50.47 77.94 87.60 34.85 70.53 57.46 60.30 15.52 23.20 26.56 66.91 54.17 116.41 43.64 62.05 46.57 86.96 46.12 50.13 22.97 89.37 71.37 107.94 45.21 43.26 34.39 17.17 115.67 19.85 68.32 56.18 74.29 33.44 18.64 24.11 18.51 48.27 14.15 17.87 49.00 34.90 16.37 87.58 103.58 68.48 51.21 33.52 71.21 55.21 40.56 72.33 29.69 25.07 17.52 76.62 37.29 50.81 73.07 15.52 98.73 90.81 15.70 45.44 68.14 18.76 80.38 61.50 41.39 76.96 87.07 78.03 29.82 96.03 92.10 14.09 35.29 48.17 75.71 110.77 93.50 55.92 14.15 144.97 36.54 52.92 98.42 55.98 14.15 23.90 115.05 22.23 37.76 17.45 29.11 48.71 36.86 21.87 61.03 24.04 16.43 42.34 48.48 16.88 34.74 29.42 121.75 113.76 97.20 86.62 Nichtparametrisch@LS-Kneip 3–1

3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

3 Nichtparametrische Dichteschätzung

Beispiel: Analyse von Einkommnensdaten

• Quelle: U.K. Family Expenditure Survey (FES) 1968-1995

• Ungefähr 7000 britische Haushalte pro Jahr

• Für jeden Haushalt: Einkommen aus verschiedenen Quellen,Ausgaben für verschiedene Güter, Alter, Familiengröße, Be-rufe, etc.

Nominale Nettoeinkommen im Jahr 1976 (136 von 7041 Haus-halten):

66.49 14.40 43.54 36.50 18.34 117.23 31.10 26.78 79.39 58.36 72.88 40.22 45.87 70.99 31.28

54.58 40.72 17.87 26.09 62.87 90.52 5.92 99.39 27.72 50.24 17.62 53.10 50.47 77.94 87.60 34.85

70.53 57.46 60.30 15.52 23.20 26.56 66.91 54.17 116.41 43.64 62.05 46.57 86.96 46.12 50.13

22.97 89.37 71.37 107.94 45.21 43.26 34.39 17.17 115.67 19.85 68.32 56.18 74.29 33.44 18.64

24.11 18.51 48.27 14.15 17.87 49.00 34.90 16.37 87.58 103.58 68.48 51.21 33.52 71.21 55.21

40.56 72.33 29.69 25.07 17.52 76.62 37.29 50.81 73.07 15.52 98.73 90.81 15.70 45.44 68.14

18.76 80.38 61.50 41.39 76.96 87.07 78.03 29.82 96.03 92.10 14.09 35.29 48.17 75.71 110.77

93.50 55.92 14.15 144.97 36.54 52.92 98.42 55.98 14.15 23.90 115.05 22.23 37.76 17.45 29.11

48.71 36.86 21.87 61.03 24.04 16.43 42.34 48.48 16.88 34.74 29.42 121.75 113.76 97.20 86.62

Nichtparametrisch@LS-Kneip 3–1

Page 2: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Charakterisierung von Verteilungen

Einfache Zufallsstichprobe X1, . . . , Xn

Traditionelle statistische Maßzahlen: Mittelwert, Median,Varianz, Quartilsabstand, etc. Solche Maßzahlen geben immernur Teilaspekte von Verteilungseigenschaften wieder.

Detailliertere Informationen: DichteschätzungEinfachster Dichteschätzer (Statistik I): HistogrammHistogramm für FES Einkommensdaten im Jahr 1976):

0 13 26 39 52 65 78 91 104 117 130 143 156 169 182 195income

0

200

400

600

800

1000

Histogramm als Dichteschätzer mit Nachteilen:

• Wahl der Zellenbreite(n); (des Anfangspunktes)

• Unstetig, lokal konstant ⇒ Histogramm ist kein besonders„effizienter“ Schätzer der zugrunde liegenden Dichte f(x).

Nichtparametrisch@LS-Kneip 3–2

Page 3: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Histogramm für FES Einkommensdaten im Jahr 1983 (große Zel-lenbreite):

0.0 0.5 1.0 1.5 2.0 2.5 3.0

020

040

060

080

010

0012

001983

Histogramm für FES Einkommensdaten im Jahr 1983 (kleineZellenbreite):

0.0 0.5 1.0 1.5 2.0 2.5 3.0

020

4060

8010

012

014

0 1983

Nichtparametrisch@LS-Kneip 3–3

Page 4: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Verfeinertes Histogramm und Kerndichteschätzer:

0.0 22.8 45.6 68.4 91.2 114.0 136.8 159.6 182.4income

0.000

0.004

0.008

0.012

Histogramm mit Intervallbreite 2h:

• Intervalle (xj−1, xj ] mit xj − xj−1 = 2h

• Schätzung an den Mittelpunkten x = (xj−1 + xj)/2

fhist(x) =Anzahl Xi in [xj−1, xj ]

2hn=

1

nh

n∑i=1

K

(x−Xi

h

)mit

K(z) =

1/2 falls z ∈ [−1, 1)

0 sonst

Kernschätzer: Schätzung an jedem Punkt x mittels

fh(x) =1

nh

∑i

K

(x−Xi

h

)• K - Kernfunktion; h - Bandbreite

Nichtparametrisch@LS-Kneip 3–4

Page 5: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

3.1 Kerndichteschätzer: Motivation

Fragestellung / Modell

• Situation: Gegeben einfache ZufallsstichprobeX1, . . . , Xn einer metrischen Zufallsvariablen X

• Gesucht: (Schätzer für die) Dichtefunktion f(x)

• Modellannahme: f ist „glatt“ (d.h. so oft differenzierbar wienötig)

Theoretische Analyse:Ausgangspunkt: Zusammenhang zwischen Dichtefunktion f undVerteilungsfunktion F (x) = P (X ≤ x)

fX(x) =d

dxFX(x) = F ′

X(x), x ∈ IR

Idee: Approximiere Ableitung der Verteilungsfunktion durch Dif-ferenzenquotienten: Für (ein kleines) h > 0 gilt:

F ′(x) ≈ F (x+ h)− F (x)

h, F ′(x) ≈ F (x)− F (x− h)

h

⇒ Approximationsfehler O(h) (d.h. proportional zu h)

Nichtparametrisch@LS-Kneip 3–5

Page 6: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

• Eine bessere Approximation erhält man durch symmetri-schen Differenzenquotienten:

f(x) = F ′(x) ≈ F (x+ h)− F (x− h)

2h, h > 0

⇒ i.Allg. Approximationsfehler O(h2)

• Nach Definition einer Verteilungsfunktion folgt hieraus

f(x) ≈ P (X ≤ x+ h)− P (X ≤ x− h)

2h

=1

2hP (x− h < X ≤ x+ h)

Moving HistogrammErsetze (unbekannte!) Wahrscheinlichkeit in

f(x) ≈ 1

2hP (x− h < X ≤ x+ h)

durch relative Häufigkeit (geschätzt aus der Stichprobe X1, . . . , Xn)

⇒ Moving Histogramm

fh(x) =1

2h

Anzahl Xi in (x− h, x+ h]

n

Eigenschaften: lokal konstant, unstetig, unabhänging vom An-fangspunkt, „effizienter“ als gewöhnliches Histogramm

Nichtparametrisch@LS-Kneip 3–6

Page 7: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Umschreiben des Moving Histogramms:

fh(x) =1

2h

Anzahl Xi in (x− h, x+ h]

n

=1

2nh

n∑i=1

I(x−h,x+h](Xi)

=1

nh

n∑i=1

1

2I[−1,1)

(x−Xi

h

)

=1

n

n∑i=1

1

hK

(x−Xi

h

)

Mit „Gewichtsfunktion“, sogenannter „Kernfunktion“:

K(u) =1

2I[−1,1)(u) =

1/2 falls −1 ≤ u < 1

0 sonst

Kerndichteschätzer: Ersetze den Kern des naiven Schät-zers durch eine stetige, differenzierbare Funktion.

• z.B. K(u) = 34 (1− u2), für u ∈ [−1, 1], 0 sonst

• oder K(u) = φ(u) = 1√2π

exp(−u2/2)

Nichtparametrisch@LS-Kneip 3–7

Page 8: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

⇒ Kerndichteschätzer (mit Kern K und Bandbreite h)

fh(x) =1

n

n∑i=1

1

hK

(x−Xi

h

), x ∈ IR

• Eigenschaften: Glatte Dichteschätzung, effizienter als Histo-gramm, flexible Anpassung, rechenintensiv

• Bandbreite h ist ein Glättungsparameter⇒ Bandbreite (und der Kern K) müssen vom Anwender(bzw. Computer) festgelegt werden

• Neue Notation für einen skalierten Kern: Kh(u) := K(u/h)/h

⇒ fh,K(x) = n−1∑n

i=1 Kh(x−Xi)

Achtung:

fh: h als Index: Abhängigkeit des Schätzers von der Bandweite

Kh: Skalierung mit h: Abkürzung für K(·/h)/h

Kerndichteschätzer: Einfache Eigenschaften

• „Positivität“: K ≥ 0 ⇒ fh ≥ 0

• „Glattheit“: K stetig, differenzierbar ⇒ fh stetig, differen-zierbar

• Ist fh Dichtefunktion? Falls∫K = 1 ⇒

∫fh = 1

Fazit:

• Kernschätzer fh „erbt“ die Eigenschaften seines Kerns K.Insbesondere: Falls K Dichte ⇒ fh Dichte

Nichtparametrisch@LS-Kneip 3–8

Page 9: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Theoretische Anforderungen an eine Kernfunktion:

•∫∞−∞ K(x)dx = 1

•∫∞−∞ xK(x)dx = 0

• Typische Wahl der Kernfunktion K: Glatte Dichtefunktion,die symmetrisch um 0 ist.

Wichtige Kernfunktionen:

• Familie der symmetrischen Beta-Dichten: Für p = 0, 1, 2, . . .

K(u; p) = Constp(1− u2)p für u ∈ [−1, 1] und 0 sonst

Resultierende Kerne für verschiedene p (u ∈ [−1, 1]):

p = 0 Uniformer Kern: K(u) = 12

p = 1 Epanechnikov-Kern: K(u) = 34 (1− u2)

p = 2 Quartic/Biweight Kern: K(u) = 1516 (1− u2)2

p = 3 Triweight Kern: K(u) = 3532 (1− u2)3

• Normalkern (Gaußkern): „Grenzfall“: p = ∞K(u) = ϕ(u) = 1√

2πexp(−u2/2), u ∈ IR

• Triangulärer Kern: K(u) = 1− |u|, für u ∈ [−1, 1], 0 sonst.

Nichtparametrisch@LS-Kneip 3–9

Page 10: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Kerndichteschätzer für verschiedene Bandbreiten (Normalkern)

−200 0 200 400 600 800 1000 12000

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5x 10

−3 Family Expenditure Survey (1990)

income − before housing costs −

h = 5

−200 0 200 400 600 800 1000 12000

0.5

1

1.5

2

2.5

3

3.5

4

4.5x 10

−3 Family Expenditure Survey (1990)

income − before housing costs −

h = 10

Nichtparametrisch@LS-Kneip 3–10

Page 11: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

−200 0 200 400 600 800 1000 12000

0.5

1

1.5

2

2.5

3

3.5

4x 10

−3 Family Expenditure Survey (1990)

income − before housing costs −

h = 20

−200 0 200 400 600 800 1000 12000

0.5

1

1.5

2

2.5

3

3.5x 10

−3 Family Expenditure Survey (1990)

income − before housing costs −

h = 30

Nichtparametrisch@LS-Kneip 3–11

Page 12: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Kerndichteschätzer mit Normal-Reference Bandbreite

0 200 400 600 800 1000 12000

0.5

1

1.5

2

2.5

3

3.5

4

4.5x 10

−3 Family Expenditure Survey (1990)

income − before housing costs −

Normal Reference

Kerndichteschätzer mit geschätzter optimaler Bandbreite (Plug-In)

0 200 400 600 800 1000 12000

0.5

1

1.5

2

2.5

3

3.5

4

4.5x 10

−3 Family Expenditure Survey (1990)

income − before housing costs −

Sheather / Jones

Nichtparametrisch@LS-Kneip 3–12

Page 13: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

3.2 Die Genauigkeit von Kerndichteschätzern

Der Kerndichteschätzer hängt ab von der Wahl des Kerns K undder Bandbreite h ab.

• Wahl von K weit weniger wichtig für die Qualität der Dich-teschätzung als Wahl der Bandbreite h.

• Es werden Kriterien benötigt, um die (statistische) Quali-tät der Schätzung zu messen. (Asymptotische Eigenschaften,MISE)

• Problem der Bandweitenwahl, d.h. „automatisches“ Festle-gen der Bandweite in Abhängigkeit der Daten

Asymptotische Eigenschaften: Mindestanforderung anfh: Konsistenz

In gewissem Sinne: Geschätzte Dichtefunktion fh sollte sich derwahren (unbekannten!) Dichte f annähern; unter der fiktiven An-nahme, dass die Stichprobe immer größer wird.

• Punktweise Konsistenz für festes x: Für wachsende Stich-probengröße ( n → ∞) konvergiert fh(x) gegen f(x)

Analogie: Parameterschätzung aus Statistik II:

• Gleichmäßige Konsistenz für alle x:≈ Für wachsende Stichprobengröße ( n → ∞) konvergiertdie maximale Abweichung maxx |fh(x)− f(x)| gegen Null

Punktweise Konsistenz. Annahmen an die Bandweiten(folge)h = hn, den Kern K und die (wahre) Dichte f :

• hn → 0, nhn → ∞ für n → ∞

• f stetig in x

•∫|K| < ∞, lim|y|→∞ |yK(y)| = 0, K beschränkt,

∫K = 1

(falls K symmetrische Dichte, i. Allg. ok)Nichtparametrisch@LS-Kneip 3–13

Page 14: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Dann gilt für den punktweisen mittleren quadratischen Fehler:

MSE(fhn(x)

)= E

(fhn(x)− f(x)

)2= Var

(fhn(x)

)+Bias2

(fhn(x)

)→ 0

für n → ∞.

⇒ fh(x) → f(x)in Wahrscheinlichkeit

∀c > 0 P(|fhn(x)− f(x)| > c

)→ 0, für n → ∞

(vgl. Statistik II, Tschebycheff-Ungleichung)

⇒ Unter schwachen Annahmen an f (und K,h) ist der Kern-dichteschätzer fh punktweise konsistent

Es gilt sogar asymptotische Normalität:

fhn(x)− E(fhn(x)

)√

Var(fhn(x)

) ∼ AN(0, 1)

Gleichmäßige Konsistenz.• einige technische Annahmen an K

• hn → 0 und nh2n → ∞ für n → ∞

• f ist gleichmäßig stetig (hinreichende Bedingung ist z.B.: f ′

beschränkt)

⇒ supx∈IR

∣∣∣fhn(x)− f(x)∣∣∣→P 0

D.h. die Wahrscheinlichkeit, dass die geschätzte Dichte von derwahren Dichte (an irgendeinem x) um mehr als eine beliebig(kleine) vorgegebene Schranke abweicht, wird mit zunehmendemStichprobenumfang immer geringer.Nichtparametrisch@LS-Kneip 3–14

Page 15: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

⇒ Unter schwachen Annahmen an f (und K,h) ist fh gleichmä-ßig konsistent

MISE

Der MISE (Mean Integrated Squared Error) ist das wichtigsteKriterium für die (statistische) Qualität des Kerndichteschätzers.

Für den punktweisen MSE ergibt sich für festes x ∈ IR:

MSE(fh(x)) = E(fh(x)− f(x))2

Var(fh(x)) + (f(x)− Efh(x))2︸ ︷︷ ︸

Bias2(fh(x)

„Summieren“ über alle x ∈ IR:

MISE(fh) =

∫ ∞

−∞MSE(fh(x)) dx

=

∫ ∞

−∞E(fh(x)− f(x))

2dx

=

∫ ∞

−∞Var(fh(x))dx+

∫ ∞

−∞Bias2(fh(x))dx

Optimale Wahl der Bandbreite h ⇔ Minimieren von MISE(fh)

Nichtparametrisch@LS-Kneip 3–15

Page 16: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Asymptotische Approximation von MISE(fh): Es gilt

E(fh(x)) =1

n

n∑i=1

1

hE

(K(

x−Xi

h)

)= E

(1

hK(

x−Xi

h)

)=

∫ ∞

−∞

1

hK(

x− u

hf(u)du

Berechnung des inneren Integrals:∫∞−∞

1hK(x−u

h f(u)du:

∫ ∞

−∞

1

hK(

x− u

hf(u)du =

∫ ∞

−∞K(y)f(x+ yh)dy

=

∫ ∞

−∞K(y)

{f(x) + f ′(x)yh+

1

2!f ′′(x)y2h2 + o(h2)

}dy

= f(x) + h2 1

2f ′′(x)

∫ ∞

−∞K(y)y2dy︸ ︷︷ ︸ν2(K)

+o(h2)

Dies impliziert∫ ∞

−∞Bias2(fh(x))dx = h4 1

4ν2(K)2

∫ ∞

−∞f ′′(x)2dx+ o(h4)

Für die Varianz ergibt sich:∫ ∞

−∞Var(fh(x))dx

=1

n2

n∑i=1

E

(1

hK(

x−Xi

h)− E(

1

hK(

x−Xi

h)

)2

=1

nh

∫ ∞

−∞K(y)2dy︸ ︷︷ ︸R(K)

+o(1

nh)

Damit erhält man folgende asymptotische Approximation fürMISE(fh):Nichtparametrisch@LS-Kneip 3–16

Page 17: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

⇒ MISE(fh) =1

nhR(K) +

1

4h4ν2(K)2

∫ ∞

−∞f ′′(x)2dx

+ o(1

nh+ h4)

Minimieren über h liefert eine (asymptotisch) optimale Bandwei-te:

hopt =

{R(K)

nν2(K)2 ∫∞

−∞ f ′′(x)2dx

}1/5

Als minimaler Wert des MISE bei Verwendung der optimalenBandbreite ergibt sich somit:

MISE(fhopt) = minh>0

MISE(fh)

=5

4

{ν2(K)2R(K)4

∫ ∞

−∞f ′′(x)2dx

}1/5

n−4/5

Man erkennt sofort einige wesentliche Eigenschaften von MISE(fhopt):

• Abnahme mit zunehmendem Stichprobenumfang: Rate n−4/5

• Einfluss von K durch ν2(K)2, R(K)

• Einfluss von f durch∫∞−∞ f ′′(x)2dx („curvature“)

Nichtparametrisch@LS-Kneip 3–17

Page 18: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Bandbreitenwahl:• Referenzbandbreite: In der asymptotischen Formel für die

optimale Bandweite hopt geht die unbekannte Dichte f „nurnoch“ durch das Funktional

∫∞−∞ f ′′(x)2dx ein.

In vielen Anwendungen kann man davon ausgehen, dass diezugrundeligende Dichte f sich ”nicht sehr stark” von einerNormaldichte unterscheidet. Eine vernünfige Approximati-on einer optimalen Bandbreite für die wahre Dichte f lässtsich daher oft dadurch erreichen, dass man auf die optimaleBandbreite für die Normaldichte zurückgreift.Normaldichte: ϕµ,σ(x) =

1σϕ(

x−µσ ),

wobei ϕ- Dichte der Standardnormalverteilung und µ, σ2 Mit-telwert und Varianz von Xi.Einige einfache Rechnungen führen auf∫ ∞

−∞ϕ′′µ,σ(x)

2dx =3√π8σ5

⇒ Normal-Reference Bandbreite

hNR =

{8√πR(K)

3ν2(K)2n

}1/5

σ

Schätzer für σ: σ = S (S2 - Stichprobenvarianz) oder σ =

IQRn/(Φ−1(0.75)− Φ−1(0.25)) bzw. das Minimum von bei-

den.

• Kreuzvalidierung: Offensichtlich gilt∫ ∞

−∞(fh(x)− f(x))2 dx

=

∫ ∞

−∞fh(x)

2dx− 2

∫ ∞

−∞fh(x)f(x)dx+

∫ ∞

−∞f(x)2dx

Nichtparametrisch@LS-Kneip 3–18

Page 19: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Da∫∞−∞ f(x)2dx nicht von h abhängt, ist Minimieren von

MISE(fh) über h äquivalent zum Minimieren von

E(

∫ ∞

−∞fh(x)

2dx)− E(2

∫ ∞

−∞fh(x)f(x)dx)

Diese Terme lassen sich durch Kreuzvalidierung schätzen,

CV (h) =1

n

n∑i=1

∫ ∞

−∞fh,−i(x)

2dx− 21

n

n∑i=1

fh,−i(Xi)

wobei fh,i für i = 1, . . . , n jeweils einen Kerndichteschätzerbezeichnet, der unter Weglassen der i-te Beobachtung, d.h.aus der reduzierten Stichprobe X1, . . . , Xi−1, Xi+1, . . . , Xn,berechnet wird.Minimieren von CV (h) über h liefert eine (konsistente) Schät-zung h der optimalen Bandbreite hopt.

• Plug-in Methoden: In der Formel

hopt =

{R(K)

nν2(K)2 ∫∞

−∞ f ′′(x)2dx

}1/5

können die Größen R(K) und ν2(K) anhand der verwen-deten Kernfunktion sofort berechnet werden. Nur die vonder wahren Dichte abhängende, unbekannte Größe Qf =∫∞−∞ f ′′(x)2dx verhindert eine direkte Berechnung von hopt.

– Für eine Bandbreite h und eine zweimal stetig differen-zierbare Kernfunktion K liefert die zweite Ableitung f ′′

h(x)

eine Approximation von f ′′(x). Qf kann daher durch Qf (h) =∫∞−∞ f ′′

h(x)2dx geschätzt werden. Theoretische Analysen

zeigen, dass eine optimale Bandbreite h von der Grö-ßenordnung n−1/7 ist, und Qf (h) dann ein konsistenterSchätzer von Qf ist.

Nichtparametrisch@LS-Kneip 3–19

Page 20: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

– Für eine geeignete Bandbreite h berechnen einfache Plug-in Schätzer eine Approximation von hopt durch

h∗opt =

{R(K)

nν2(K)2Qf (h)

}1/5

Problem: Wahl von h?

– Man beachte: hopt ∼ n−1/5 ⇒ h5/7 ∼ n−1/7 (Größen-ordnung einer optimalen Bandbreite zur Schätzung vonQf ).

– Verfeinerte Plug-in Methoden benutzen diesen Zusam-menhang zwischen hopt und h. Die bekannteste Methodedieser Art wurde von Sheather und Jones vorgeschlagen.Man setzt h = αh5/7 (α wird wiederum aus den Datenbestimmt) und bestimmt einen Schätzer hopt von hopt

durch Lösen der Gleichung

hopt =

{R(K)

nν2(K)2Qf (αh

5/7opt)

}1/5

Nichtparametrisch@LS-Kneip 3–20

Page 21: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

3.3 Test auf Normalität

Gegeben sei wiederum eine einfache ZufallsstichprobeX1, . . . , Xn. Viele Standardverfahren der parametrischen Stati-stik beruhen auf der Annahme, dass Xi normalverteilt ist. Invielen Anwendungen ist dies jedoch zweifelhaft, und man möch-te die Nullhypothese

H0 : Xi ∼ N(µ, σ2)

gegen die Alternative

H1 : Xi ist nicht normalverteilt

testen.

Ein geeignetes Testverfahren beruht auf der Verwendung vonKerndichteschätzern (mit K = Normalkern)

Falls die Nullhypothese richtig ist, d.h wenn f = ϕµ,σ, so lässtsich zeigen, dass für jede Bandbreite h

E(fh(x)) = ϕµ,√σ2+h2

Hieraus folgt, dass∫ ∞

−∞E(fh(x)− ϕµ,

√σ2+h2

)2dx =

∫ ∞

−∞Var(fh(x))dx

Falls die Nullhypothese richtig ist, so ist die Differenz zwischenfh(x) und ϕµ,

√σ2+h2 ausschließlich auf Zufallsschwankungen

zurückzuführen (kein systematischer Unterschied)!

Das hierauf aufbauende Testverfahren lässt sich folgendermaßenbeschreiben:

• Schätze Mittelwert und Varianz von Xi durch µ = 1n

∑ni=1 Xi =

X und σ2 = S2.Nichtparametrisch@LS-Kneip 3–21

Page 22: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

• Bestimme die Normal-Reference Bandreite hNR und die zu-gehörige Kerndichteschätzung fhNR .

• Berechne

D =

∫ ∞

−∞

(fhNR(x)− ϕ

µ,√

σ2+hNR2(x)

)2dx

Lehne die Nullhypothese ab, falls D zu groß ist.

Die Verteilung von D unter der Nullhypothese kann durch Monte-Carlo-Simulationen approximiert werden. In erster Ordnung hängtdiese Verteilung nur von der Stichprobengröße und nicht von denWerten µ, σ2 ab. Die folgende Tabelle gibt die kritischen Wertefür einen Test zum Niveau 5% wieder.

n crit. value

25 0.109

50 0.0766

100 0.0567

150 0.0453

200 0.0380

250 0.0332

300 0.0301

400 0.0232

500 0.0205

Beispiel: In der ökonomischen Literatur wird oft angenommen,dass die Einkommensverteilung lognormal ist. Dies bedeutet,dass ln Xi normalverteilt ist.

FES Daten (1990): Eine Anwendung des obigen Testverfahrens

Nichtparametrisch@LS-Kneip 3–22

Page 23: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

auf die logarithmierten Einkommenswerte liefert D = 0, 7915. ⇒Ablehnung der Nullhypothese, die logarithmierten Einkommens-werte sind nicht normalverteilt.

1 2 3 4 5 6 7 8 90

0.1

0.2

0.3

0.4

0.5

0.6

0.7Family Expenditure Survey (1990)

ln(income) − before housing costs −

L2−distance=0.7915

Normal Reference = 0.137N(5.23, 0.762)

Nichtparametrisch@LS-Kneip 3–23

Page 24: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

3.4 Multivariate Dichteschätzung

Kernschätzer können auch zur Schätzung von multivariaten Dich-tefunktionen verwendet werden. Man betrachte also das Problemder Schätzung der d-dimensionalen Dichtefunktion eines Zufalls-vektor Xi = (Xi1, Xi2, . . . , Xid)

τ .

Daten: Zufallsstichprobe X1 =

X11

...

X1d

, . . . , X1 =

Xn1

...

Xnd

Zweidimensionaler Kerndichteschätzer (mit Kern K undBandbreite h)

fh(x) =1

n

n∑i=1

1

hdK

(x1 −Xi1

h, . . . ,

xd −Xid

h

), x =

x1

...

xd

∈ IRd

Hierbei ist die Kernfunktion K : IRd → IR eine reelwertige Funk-tion mit ∫

IRdK(x1, x2, . . . , xd)dx1dx2 . . . dxd = 1

Nichtparametrisch@LS-Kneip 3–24

Page 25: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Häufig verwendete Kernfunktionen:

• Produktkern: Sei K eine eindimensionale Kernfunktion.Eine d-dimensionale Kernfunktion ist dann das zugehörigeProdukt der K(xi), i = 1, . . . , d:

K(x1, x2, . . . , xd) = K(x1) · K(x2) · . . . · K(xd)

Beispiel: d-dimensionaler Gaußkern (Produkt eindimensiona-ler Kerne mit K(x) = Dichte der Standardnormalverteilung)

• Multivariater Epanechnikov-Kern:

K(x1, . . . , xd) =

12cd

(d+ 2)(1−∑d

i=1 x2i ) falls

∑di=1 x

2i ≤ 1

0 sonst

wobei cd das Volumen des d-dimensionalen Einheitskreisesist: c1 = 2, c2 = π, c3 = 4π/3, etc.

• Glatte (ein- bzw. zweimal differenzierbare ) Kerne im Falld = 2:

K(x1, x2) =

3π (1−

∑2i=1 x

2i )

2 falls∑2

i=1 x2i ≤ 1

0 sonst

K(x1, x2) =

4π (1−

∑2i=1 x

2i )

3 falls∑2

i=1 x2i ≤ 1

0 sonst

Nichtparametrisch@LS-Kneip 3–25

Page 26: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

• In der obigen Definition eines multivariaten Kernschätzerswird die gleiche Bandbreite h für jede x-Richtung benutzt.Dies setzt natürlich voraus, dass alle d Variablen eine ver-gleichbare Skalierung besitzen.Der Schätzer ist in der angegebenen Form sinnlos, wenn z.B.Xi1 zwischen 0.1 und 0.2 schwankt, während die Werte vonXi2 zwischen 100 und 200 liegen. Eine mögliche (komplizier-te) Lösung ist die Verwendung unterschiedlicher Bandbrei-ten.

• In der Praxis werden die Variablen fast immer standardisiert,um Skalenunterschiede zu eliminieren. Man betrachte d (evtl.unterschiedlich skalierte) Originalvariablen Yi1, . . . , Yid. Be-zeichnen Yj und Sj Mittelwert und empirische Standardab-weichung der Yij , j = 1, . . . , d, so ergeben sich die zugehöri-gen standardisierten Variablen durch

Xij =Yij − Yj

Sj, j = 1, . . . , d

Alle so standardisierten Variablen besitzen Mittelwert 0 undihre empirische Standardabweichung ist gleich 1 (gleiche ”Ska-la”). Sei

fh(x) - Kernschätzung der gemeinsamen Dichte der standar-disierten Variablen Xij

⇒ Schätzung der Dichte der Originalvariablen:

fh;Y (y) =1

S1 · S2 · . . . · Sdfh

(y1 − Y1

S1, . . . ,

yd − Yd

Sd

)

Nichtparametrisch@LS-Kneip 3–26

Page 27: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Der „Curse of Dimensionality“

Kernschätzer sind eine nützliches Werkzeug zur nichtparametri-schen Schätzung ein-, zwei- oder dreidimensionaler Dichtefunk-tionen. Die Genauigkeit nimmt jedoch mit steigender Dimensionsehr stark ab. Bei hochdimensionalen Problemen sind die resul-tierenden Schätzungen für praxisrelevante Stichprobengrößen soungenau, dass sie praktisch wertlos sind. Dies trifft grundsätzlichauf alle nichtparametrischen Kurvenschätzer zu, man spricht all-gemein von einem „Curse of Dimensionality“. Der Hauptgrund istdie „Leere“ eines hochdimensionalen Raums IRd (d ≫ 1), in demes auch bei großen Stichproben kaum noch „eng benachbarte“Beobachtungen gibt.

Als Beispiel betrachte man die Schätzung einer d-variaten Stan-dardnormalverteilung am Punkt x = 0. Dies ist jeweils das Zen-trum der Verteilung, die Dichte nimmt am Punkt x = 0 ihrenhöchsten Wert an.

• Man betrachte die Verwendung eines Kernschätzers(Epanechnikov-Kern) mit Bandbreite h = 1 (dies ist natür-lich eine relativ große Bandbreite, die auf einen deutlichensystematischen Fehler (Bias!) führt.

– Im Fall d = 1 gilt P (|Xi| ≤ 1) ≈ 0.68, d.h. man kannerwarten, dass etwa 68% der Beobachtungen bei einerKernschätzung fh(0) (mit h = 1) von f(0) mit positivemGewicht berücksichtigt werden.

– Im Fall d = 2 gilt P (|Xi1| ≤ 1 und |Xi2| ≤ 1) ≈ 0.46, d.h.man kann erwarten, dass etwa 46% der Beobachtungenbei einer Kernschätzung fh(0) (mit h = 1) von f(0) mitpositivem Gewicht berücksichtigt werden.

Nichtparametrisch@LS-Kneip 3–27

Page 28: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

– Im Fall d = 10 gilt P (|Xij | ≤ 1 für alle j = 1, . . . , 10) ≈0.02, d.h. man kann erwarten, dass nur etwa 2% der Be-obachtungen bei einer Kernschätzung

• Verwendet man jeweils eine optimale Bandbreite h = hopt,so sind folgende Stichprobengrößen n notwendig, damit derrelative mittlere quadratische Fehler unter 10% liegt,

d.h.E(fhopt (0)−f(0))2

f(0)2 ≤ 0.1:

Dimension d Stichprobengröße n

1 4

2 19

3 67

4 223

5 768

7 10700

10 842000

Nichtparametrisch@LS-Kneip 3–28

Page 29: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

4 Grundlagen der nichtparametrischenRegressionsanalyse

Daten: (Yi, Xi), i = 1, . . . , n, wobei

• Yi Zielvariable

• Xi ∈ [a, b] ⊂ IR erklärende Variable

• n groß (Faustregel: n ≥ 40)

Regressionsmodell (allgemeine Forumilerung):

Yi = m(Xi) + ϵi

• m(Xi) = E(Yi|X = Xi) Regressionsfunktion

• ϵ1, ϵ2, . . . i.i.d., E(ϵi) = 0, var(ϵi) = σ2

Klassischer Ansatz:

• Lineare Einfachregression: m(x) ist eine Gerade

m(X) = β0 + β1X

• Schätzer der Koeffizienten durch die Kleinste Quadrate Me-thode: β0 und β1 minimieren

n∑i=1

(Yi − β0 − β1Xi)2

• Schätzung der Regressionsfunktion:

m(x) = β0 + β1x (Ausgleichsgerade)

Nichtparametrisch@LS-Kneip 4–29

Page 30: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

In der Regressionsanalyse ist es oft von Bedeutung, auf welcheWeise die Beobachtungspunkte X1, . . . , Xn erzeugt werden. Manunterscheidet zwischen ”Fixed” und ”Random Design”.

• Fixed Design: Die Beobachtungspunkte X1, . . . , Xn sindfest vorgegebene (nicht stochastische) Werte.Beispiel: Ernteertrag (Y ) in Abhängigkeit von festgelegtenMengen von Düngemittel.Wichtigster Spezialfall: äquidistanten Design - alle Beob-achtungspunkte besitzen den gleichen Abstand, Xi+1−Xi =b−an .

• Random Design: Die Beobachtungspunkte X1, . . . , Xn sind(Realisationen von) unabhängig und identisch verteilten Zu-fallsvariablen mit einer Dichtefunktion f ; Xi und ϵi sind un-korreliert.f wird als ”Designdichte” bezeichnet.Beispiel: Stichprobe (Y1, X1), . . . , (Yn, Xn) von Einkommen(Y ) und Alter (X) von n ≈ 7000 zufällig ausgewählten bri-tischen Haushalten.Bei Random Design ist m(x) der bedingte Erwartungswertvon Y gegeben X = x:

m(x) = E(Y | X = x)

Man beachte: Im Falle von Random Design sind im Folgen-den alle Erwartungswerte (bzw. Varianzen) als bedingte Er-wartungswerte (bzw. Varianzen) gegeben X1, . . . , Xn zu in-terpretieren.

Nichtparametrisch@LS-Kneip 4–30

Page 31: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

• Die Fehler- oder Störvariablen ϵi quantifizieren unsystema-tische, zufällige Schwankungen von Yi um den zugehöri-gen Mittelwert β0 + β1xi. Diese Schwankungen beinhaltenMessfehler ebenso wie den Einfluss zusätzlicher, unbeobach-teter Variablen, die den Wert von Yi mitbestimmen.

• ϵ1, . . . , ϵn sind als Zufallsvariablen aufzufassen. Wegen Yi =

m(Xi) + ϵi folgt, dass auch Y1, . . . , Yn Zufallsvariablen sind.

Illustration: Die nachfolgende Figur zeigt jeweils 10 möglicheRealisationen von Yi für jeden Wert Xi, die die zugehörigen zu-fälligen Realisationen der Fehlervariablen ϵi widerspiegeln. DieStreuung der resultierenden Verteilungen der Yi (bzw. ϵi) wirddurch die Standardabweichung σ quantifiziert.

0 5 10 15 20 25

x

5

9

13

17

β0+β1x

Y

Falls X1, . . . , Xn selbst Zufallsvariablen sind, so ist m(x) = E(Yi|Xi =

X) als bedingter Erwartungswert von Yi gegeben Xi = x aufzu-fassen.

Nichtparametrisch@LS-Kneip 4–31

Page 32: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Beispiel: Ernteertrag von Weizen (Y) in Abhängigkeit von derMenge des eingesetzten Düngemittels (X) in kg/ha

Beobachtungen für n = 7 Parzellen

X 100 200 300 400 500 600 700

Y 40 50 50 70 65 65 80

100 200 300 400 500 600 700

Duenger

40

50

60

70

80

Ertra

g

Schätzungen im Beispiel Ernteertrag - Dünger:

Schätzwert Standardfehler t-Wert P (|T | > |t|)

Konstante (β0) 36.42857 5.03812 7.23 0.001

Dünger (β1) .0589286 .0112656 5.23 0.003

R2 = 0.8455

Nichtparametrisch@LS-Kneip 4–32

Page 33: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

• Mögliche Verallgemeinerung: m(x) quadratisches oder kubi-sches Polynom

m(X) = β0 + β1X + β2X2

oder m(X) = β0 + β1X + β2X2 + β3X

3

Beispiel: Dünger (X) -Ernteertrag (Y )

7 zusätzliche Beobachtungen

0 200 400 600 800 1000 1200 1400

Duenger

40

60

80

100

120

Ansatz: Quadratisches Polynom

Y ≈ β0 + β1X + β2X2

Kleinste-Quadrate-Methode: β0, β1 und β2 minimieren

Q(β0, β1, β2) =

n∑i=1

(yi − β0 − β1xi − β2x2i )

2

⇒ β0 = 27, 6, β1 = 0, 11, β2 = −0, 000057

Nichtparametrisch@LS-Kneip 4–33

Page 34: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Die Genauigkeit von polynomialen Approximationender Regressionsfunktion

Lineare Einfachregression: Yi = β0 + β1Xi + ϵi.

• Falls das Modell gültig ist, sind β0 und β1 erwartungstreueSchätzer der wahren Koeffizienten und

E(m(x)) = E(β0) + E(β1)x = β0 + β1x = m(x).

m(x) ist dann ein erwartungstreuer Schätzer von m(x)

• Mittlere Varianz:1n

∑ni=1 V ar(m(Xi)) = V ar(β0)+

1n

∑ni=1 V ar(β1)X

2i = 2σ2

n

• Erwarteter mittlerer quadratischer Fehler:

MASE(m) = E

(1

n

n∑i=1

(m(Xi)−m(Xi))2

)

=1

n

n∑i=1

(E(m(Xi))−m(Xi))2

︸ ︷︷ ︸Bias2=0

+1

n

n∑i=1

V ar(m(Xi)) =2σ2

n

Verallgemeinerung: Yi = β0 +∑p

j=1 βjXji + ϵi für ein p > 0

• Die Kleinste-Quadrate Schätzer βj sind erwartungstreue Schät-zer von βj und m(x) = β0 +

∑pj=1 βjx ist ein erwartungs-

treuer Schätzer von m(x).

• 1n

∑ni=1 V ar(m(Xi)) =

(p+1)σ2

n und MASE(m) = (p+1)σ2

n .

Man beachte: Diese Überlegungen setzen voraus, dass das Modell

”wahr” ist. Falls die nicht der Fall ist, existiert ein systematischer Feh-

ler und E(m(x)) = m(x). Der resultierende Bias ist konstant und

konvergiert nicht gegen Null für n → ∞. m ist dann kein konsistenterSchätzer von m.

Nichtparametrisch@LS-Kneip 4–34

Page 35: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

• In einer ganzen Reihe von wichtigen Anwendungen ist dieStruktur der Regressionsfunktion relativ komplex. In solchenFällen sind alle diese Modelle zu einfach und liefern keinebrauchbare Approximation an m(x)

”All models are false, but some are useful” (G. Box)

Alternative:

• Nichtparametrische Regression: Es werden keine spezifi-schen Annahmen über die Struktur der Regressionsfunktiongemacht. Die Analyse basiert allein auf der qualitativen An-nahme, dass m glatt ist.

Beispiel: Gesamtausgaben in Abhängigkeit vom Alter

Die folgenden Daten stammen aus einer Stichprobe von briti-schen Haushalten aus dem Jahr 1980. Die Beobachtungen bein-halten die Gesamtausgaben für alle Güter und Dienstleistungenvon allen Haushalten mit einem gegeben Alter (Alter ≡ ”Alterdes Haushaltsvorstands”).

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Nichtparametrisch@LS-Kneip 4–35

Page 36: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Anpassung einer Geraden:

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Anpassung eines Modells Yi = β0 +∑2

j=1 βjXji + ϵi :

20 30 40 50 60 70

age

0.7

1.2

1.7

inco

me

Nichtparametrisch@LS-Kneip 4–36

Page 37: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Anpassung eines Modells Yi = β0 +∑4

j=1 βjXji + ϵi:

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Anpassung eines Modells Yi = β0 +∑6

j=1 βjXji + ϵi:

20 30 40 50 60 70

age

0.7

1.2

1.7

inco

me

Nichtparametrisch@LS-Kneip 4–37

Page 38: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Nichtparametrische Approximation(Anzahl Freiheitsgrade dfh=10):

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Nichtparametrisch@LS-Kneip 4–38

Page 39: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

4.1 Der Nadaraya-Watson Kernschätzer

Idee: Bildung gewichteter lokaler Mittel der Beobachtungen Yi:

mh(x) =n∑

i=1

w(x,Xi, h)Yi

• Die Gewichtsfunktion w wird derart konstruiert, dass das Ge-wicht einer Beobachtung Yi immer kleiner wird, je größer derAbstand |x − Xi| ist. Der Glättungsparameter h bestimmtdie Geschwindigkeit, mit der die Gewichte gegen Null kon-vergieren, wenn |x−Xi| wächst.

Die sogenannten ”Kernschätzer” berechnen solche Gewichte ex-plizit auf der Basis einer Kernfunktion K. Üblicherweise ist Keine symmetrische Dichtefunktion (z.B. Dichtefunktion der Stan-dardnormalverteilung).

Nadaraya-Watson Kernschätzer:

mh(x) =n∑

i=1

K(x−Xi

h )∑nj=1 K(

x−Xj

h )Yi

Der Glättungsparameter h > 0 wird auch als Bandbreite be-zeichnet.

• Für jede mögliche Bandbreite h > 0 ist die Summe der Ge-wichte

w(x,Xi, h) = K(x−Xi

h)/

n∑j=1

K(x−Xj

h)

immer gleich 1,∑

i w(x,Xi, h) = 1.

Nichtparametrisch@LS-Kneip 4–39

Page 40: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Wahl der Kernfunktion:

• Epanechnikov-Kern

K(x) =

34 (1− x2) if |x| ≤ 1

0 if |x| > 1

• Normal-Kern

K(x) =1√2π

exp(−x2/2)

• Biweight (quartic) Kern

K(x) =

1516 (1− x2)2 if |x| ≤ 1

0 if |x| > 1

Epanechnikov kernel Normal kernel Triangular kernel

Nichtparametrisch@LS-Kneip 4–40

Page 41: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Y

X

* *

**

**

x

*

• h klein ⇒ der Schätzer von m(x) beruht auf einem Mittelüber wenige Beobachtungen Yi ⇒ kleiner systematischerFehler (≡ kleiner Bias), aber große Varianz

• h groß ⇒ es wird jeweils über viele Beobachtungen Yi

gemittelt. ⇒ niedrige Varianz, aber möglicherweise großersystematischer Fehler (≡ großer Bias).

True model

Estimatedmodel

bias

Estimatedmodel

variability

Estimatedmodel

variability

Nichtparametrisch@LS-Kneip 4–41

Page 42: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Beispiel 2.1: Kernschätzer (Normal-Kernfunktion, h = 1)

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Kernschätzer (Normal-Kernfunktion, h = 4)

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Nichtparametrisch@LS-Kneip 4–42

Page 43: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Kernschätzer (Normal-Kernfunktion, h = 10)

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Kernschätzer (Normal-Kernfunktion, h = 25)

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Nichtparametrisch@LS-Kneip 4–43

Page 44: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Systematischer Fehler bei äquidistantem Design

Der Bias eines Kernschätzers hängt von der gewählten Bandbrei-te h und der Struktur der wahren Regressionsfunktion m ab.

Bias2(mh) =1

n

n∑i=1

(m(Xi)−mh(Xi))2 =

1

nmT (I−Sh)

T (I−Sh)m

mit

mh(x) = E (mh(x)) =

n∑i=1

K(x−Xi

h )∑nj=1 K(

x−Xj

h )m(Xi)

Epanechnikov-Kern: K(x−Xi

h ) = 0 ⇔ |x−Xi| ≥ h

⇒ Nur Beobachtungen Xi ∈ [x − h, x + h] beeinflussen den je-weiligen Wert von mh(x) bzw. mh(x),

n∑i=1

K(x−Xi

h )∑nj=1 K(

x−Xj

h )m(Xi) =

∑Xi∈[x−h,x+h]

K(x−Xi

h )∑nj=1 K(

x−Xj

h )m(Xi)

• Falls m lokal konstant im Punkt x, d.h. m(x) = m(x∗) füralle x∗ ∈ [x−h, x+h], so gilt m(x) = mh(x) (lokaler Bias =0).

• Allgemein: Differenz |m(x)− mh(x)| umso kleiner, je kleinerh

• ”Äquidistanter Design”: [a, b] = [0, 1] mit Xi+1 −Xi = 1/n;m zweimal stetig differenzierbar; n groß:Ist x ein Punkt im Innern von [a, b], so erhält man folgendeApproximation für den lokalen Bias:

Bias2(mh(x)) = |m(x)−mh(x)|2 ≈ 1

4h4m′′(x)2

∫K(u)u2du

Nichtparametrisch@LS-Kneip 4–44

Page 45: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Variabilität bei äquidistantem Design

Die Varianz eines Kernschätzers hängt von der gewählten Band-breite h, der Fehlervarianz σ2 und der Stichprobengröße n ab.

V ar(mh) =1

n

n∑i=1

var(mh(Xi))2 =

σ2

nspur(ST

h Sh)

=σ2

n

n∑i=1

n∑j=1

K(Xi−Xj

h )2

(∑n

k=1 K(Xi−Xk

h ))2

Allgemein: spur(STh Sh) sowie dfh = spur(Sh) sind (approxima-

tiv) proportional zu 1h . Daher ist V ar(mh) (approximativ) pro-

portional zu σ2

nh . Der genaue Wert hängt von der Verteilung der”Design-Punkte” Xi ab.

• Lokale Varianz eines Kernschätzers an einem Punkt x ∈[a, b]:

var(mh(x)) = var

(n∑

i=1

K(x−Xi

h )∑nj=1 K(

x−Xj

h )ϵi

)

= σ2n∑

j=1

K(x−Xj

h )2

(∑n

k=1 K(x−Xk

h ))2

• ”Äquidistanter Design”: [a, b] = [0, 1] mit Xi+1 −Xi = 1/n,n groß:Ist x ein Punkt im Innern von [a, b], so erhält man folgendeApproximation für die lokale Varianz:

var(mh(x)) ≈σ2

nh

∫K(u)2du

Nichtparametrisch@LS-Kneip 4–45

Page 46: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

MSE bei äquidistantem DesignZur Vereinfachung betrachte man einen sogenannten ”äquidistan-ten Design” [a, b] = [0, 1] mit Xi+1 −Xi = 1/n. Weiterhin sei xein Punkt im Innern von [a, b].

• Der lokale mittlere quadratische Fehler errechnet sich alsSummes des quadrierten Bias und der Varianz:

MSE(mh(x)) = E((m(x)− mh(x))

2)

= Bias2(mh(x)) + V ar(mh(x))

≈ 14h

4m′′(x)2∫K(u)u2dx+ σ2

nh

∫K(u)2du

• Optimale Bandbreite zum Ausgleich von Bias und Varianz:

hopt,x = n−1/5

( ∫K(u)2du

m′′(x)2∫K(u)u2du

)1/5

• Bei Benutzung der optimalen Bandbreite hopt,x sind der qua-drierte Bias und die Varianz des Kernschätzers beide pro-portional zu n−4/5. Der Fehler wird daher immer kleiner jegrößer n (Kernschätzer sind konsistente Schätzer von m)

– Allerdings konvergiert der Fehler für n → ∞ langsamergegen Null als derjenige eines (gültigen) parametrischenModell mit einer festen Zahl p von Parametern. Für einsolches parametrisches Modell ist die Varianz proportio-nal zu σ2 p

n

Nichtparametrisch@LS-Kneip 4–46

Page 47: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Genauigkeit bei Random Design

Im Falle eines Random Designs hängen Bias und Varianz desKernschätzers noch zusätzlich von der Designdichte f ab. Manerhält dann

Bias2(mh(x)) =h4

4ν2(K)2

(m′′(x) +

2m′(x)f ′(x)

f(x)

)2

und

V ar(mh(x)) =σ2

f(x)nhR(K)

mit ν2(K) =∫∞−∞ K(z)z2dz, R(K) =

∫∞−∞ K(z)2dz.

⇒ MSE(mh(x)) =h4

4ν2(K)2

(m′′(x) +

2m′(x)f ′(x)

f(x)

)2

+σ2

f(x)nhR(K)

Eine optimale lokale Bandbreite hopt,x hängt daher noch zusätz-liche von den Werten von f(x) und f ′(x) ab.

• Die Genauigkeit von Kernschätzungen sinkt, wenn man dieSchätzungen an Punkten x nahe den Rändern des Schätz-intervalls [a, b] betrachtet. Für x = a oder x = b gilt nurBias2(mh(x)) = O(h2) (und nicht Bias2(mh(x)) = O(h4)).

• Dieser Effekt kann jedoch teilweise durch geeignete Modifi-kation der Kernfunktion an den Randpunkten kompensiertwerden.

Nichtparametrisch@LS-Kneip 4–47

Page 48: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Anmerkung : In der Praxis hängt die Größenordnung einergeeigneten Bandbreite hängt von der jeweiligen Skalierung derX´-Variable ab:

{Xi}, h ⇔ {10Xi}, 10h.

In manchen statistischen Programmpaketen werden daher ”stan-dardisierte” Bandbreiten c benutzt:

h = cQn−1/5

• Q: Quartilsabstand der X-Variable

• c ∈ [0, 1]

Theorie der optimalen Kerne:

• Asymptotisch ist der Epanechnikov-Kern die bestmöglicheKernfunktion in der Klasse aller symmetrischen Dichtefunk-tionen

(Kriterium: minimaler MASE bei Verwendung der optimalenBandbreite).

• Der Normal-Kern ist fast genauso gut wie der Epanechnikov-Kern (kaum messbarer Verlust an Effizienz). Der trianguläreKern führt tendenziell auf schlechtere Schätzer.

• Literatur: Müller, H.G. (1988). Nonparametric regression ana-lysis of longitudinal data, Springer Verlag, Berlin

Nichtparametrisch@LS-Kneip 4–48

Page 49: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Anmerkung: Kernschätzer sind lineare Glättungsverfahren..Die Schätzungen m(X1), . . . , m(Xn) von m an den Beobach-tungspunkten ergeben sich durch Multiplikation einer Matrix mitden Beobachtungen Y1, . . . , Yn

m(X1)

m(X2)

...

m(Xn)

=

K(0)n∑

l=1K(

X1−Xlh

)

K(X1−X2

h)

n∑l=1

K(X1−Xl

h)

. . .K(

X1−Xnh

)n∑

l=1K(

X1−Xlh

)

K(X2−X1

h)

n∑l=1

K(X2−Xl

h)

K(0)n∑

l=1K(

X2−Xlh

). . .

K(X2−Xn

h)

n∑l=1

K(X2−Xl

h)

......

...K(

Xn−X1h

)n∑

l=1K(

Xn−Xlh

)

K(Xn−X2

h)

n∑l=1

K(Xn−Xl

h)

. . . K(0)n∑

l=1K(

Xn−Xlh

)

︸ ︷︷ ︸

Sh

·

Y1

Y2

...

Yn

Die n× n Matrix Sh wird als „Glättungsmatrix“ bezeichnet.

Es lässt sich leicht zeigen, dass

dfh := spur(Sh) =n∑

i=1

K(0)n∑

l=1

K(Xi−Xl

h )

von der Größenordnung 1h ist.

Nichtparametrisch@LS-Kneip 4–49

Page 50: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

4.2 Bandbreitenwahl

Wichtige, allgemein anwendbare Methoden zur Schätzung eineroptimalen Bandbreite sind die Kreuzvalidierung und die verallge-meinerte Kreuzvalidierung. Sie zielen darauf ab, für jede möglicheBandbreite den zugehörigen Wert des MASE aus den Daten zuschätzen und sodann die Bandbreite mit dem minimalen (apro-ximierten) MASE auszuwählen.

Erwarteter mittlerer quadratischer Fehler (MASE) anden Beobachtungspunkten:

MASE(mh) = E

(1

n

n∑i=1

(mh(Xi)−m(Xi))2

)

=1

n

n∑i=1

(E(mh(Xi)−m(Xi))2

︸ ︷︷ ︸Bias2(mh)

+1

n

n∑i=1

V ar(m(Xi))︸ ︷︷ ︸V ar(mh)

• Eine optimale Bandbreite hopt minimiert MASE(mh) überalle h > 0

• Erinnerung: Bias2(mh) wächst mit h; V ar(mh) fällt, falls h

größer wird⇒ hopt - optimaler Ausgleich zwischen Bias und Varianz

Problem: In der Praxis ist MASE(mh) natürlich nicht berechen-bar. Beobachtet werden nur Y1, . . . , Yn, Yi = m(Xi) + ϵi.

Man betrachte nun die mittleren quadratischen Residuen1n

∑ni=1(Yi − mh(Xi))

2.

Nichtparametrisch@LS-Kneip 4–50

Page 51: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Beziehung zwischen 1n

∑ni=1(Yi − mh(Xi))

2 und MASE(mh)?

1

n

n∑i=1

(Yi − mh(Xi))2

=1

n

n∑i=1

(m(Xi)− mh(Xi))2 + 2

1

n

n∑i=1

ϵi(m(Xi)− mh(Xi)) +1

n

n∑i=1

ϵ2i

⇒ E

(1

n

n∑i=1

(Yi − mh(Xi))2

)

= MASE(mh) + E

(21

n

n∑i=1

ϵi(m(Xi)− mh(Xi))

)+ σ2

• Polynomiale Regression: Yi = β0 +∑p

j=1 βjXji + ϵi für ein

p > 0:E(2 1n

∑ni=1 ϵi(m(Xi)− mh(Xi))

)= − 2σ2(p+1)

n

⇒ E

(1

n

n∑i=1

(Yi − mh(Xi))2

)= MASE(mh)−

2σ2(p+ 1)

n+ σ2

• Kernschätzer:E(2 1n

∑ni=1 ϵi(m(Xi)− mh(Xi))

)= − 2σ2·spur(Sh)

n

⇒ E

(1

n

n∑i=1

(Yi − mh(Xi))2

)= MASE(mh)−

2σ2 · spur(Sh)

n+ σ2

• dfh = spur(Sh) wird als Anzahl der Freiheitsgrade desKernschätzers mit Bandbreite h bezeichnet (dfh ist propor-tional zu 1/h). dfh ist ein Maß für die Komplexität der mögli-chen Datenanpassung und der damit einhergehenden Varia-bilität der Zufallsschwankungen; nichtparametrisches Ana-logon zur ”Anzahl der zu schätzenden Parameter” in einemparametrischen Modell.

Nichtparametrisch@LS-Kneip 4–51

Page 52: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Kreuzvalidierung (CV): Schätzung eines optimalen Glät-tungsparameters durch minimieren von

CV (h) :=n∑

i=1

(Yi − mh,−i(Xi)

)2

über alle möglichen Werte von h. Hierbei ist mh,−i jeweils derSchätzer, den man erhält, wenn nur die n − 1 Beobachtungen(Y1, X1), . . . , (Yi−1, Xi−1), (Yi+1, Xi+1), . . . , (Yn, Xn) verwendet wer-den.

• Man beachte: Da jeweils nur eine einzige Beobachtung weg-gelassen wird, werden sich mh und mh,−i i.Allg. nicht sehrstark unterscheiden, mh(x) ≈ mh,−i(x).

• mh,−i(x) ist jedoch unabhängig von ϵi ⇒ E(ϵimh,−i(Xi)) =

0.

• Insgesamt erhält man daher approximativ:

E(CV (h)) = E

(1

n

n∑i=1

(m(Xi)− mh,−i(Xi))2

)

+ E

(21

n

n∑i=1

ϵi(m(Xi)− mh,−i(Xi))

)︸ ︷︷ ︸

=0

+σ2

≈ MASE(mh) + σ2

Aus diesen Überlegungen ist zu schließen, dass bis auf einigeZufallsschwankungen:

• Eine gute Modellanpassung verlangt, dass MASE(mh) kleinist. CV (und GCV) liefern dann in einer ersten Approxima-tion eine Schätzung der Fehlervarianz σ2.

• Für verschiedene Bandbreiten h, h∗ spiegeln die Unterschiedein den Werten von CV (h) und CV (h∗) approximativ die Un-

Nichtparametrisch@LS-Kneip 4–52

Page 53: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

terschiede der mittleren quadratischen Fehler MASE(mh)

und MASE(mh∗) wider.

• Eine Minimierung von CV (h) bezüglich h liefert daher einesinnvolle Schätzung hopt von hopt.

Verallgemeinerte Kreuzvalidierung (GCV): Schät-zung hopt durch minimieren von

GCV (p) =1

n(1− dfhn )2

n∑i=1

(Yi − mh(Xi)

)2

GCV (h) verhält sich analog zu CV (h).Asymptotische Approximation: n → ∞, h → 0, nh → ∞

E

(GCV (h)

)= E

(1

(1−2dfhn +(

dfhn )2)

1n

∑ni=1(Yi − mh(Xi))

2

)= E

(1n

∑ni=1(Yi − mh(Xi))

2

)+2dfh

n E

(1n

∑ni=1(Yi − mh(Xi))

2

)+ o( 1

nh )

= E

(1n

∑ni=1(Yi − mh(Xi))

2

)+ 2dfh

n σ2 + o( 1nh )

= MASE(mh) + σ2 + o( 1nh )

• Asymptotische Theorie (unter einigen Regularitätsbedingun-gen): Für große Stichproben ist die durch GCV (oder CV )geschätze Bandbreite hopt nahe an dem Wert der optimalenBandbreite hopt, die MASE(mh) minimiert.

• Es existieren eine Reihe anderer Selektionskriterien, die asym-ptotisch zu CV und GCV äquivalent sind. Zu nennen sindbeispielsweise Mallows’ CL oder Akaike’s Informations Kri-terium.

Nichtparametrisch@LS-Kneip 4–53

Page 54: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

4.3 Vergleich mit parametrischen Methoden

Vorteile von Kernschätzern und anderen nichtparametrischenGlättungsverfahren:

• Hohe Flexibilität: Für große Stichprobenzahl sind nichtpara-metrische Kurvenschätzer in der Lage jede mögliche glatteRegressionsfunktion zu approximieren

• Sie können dazu dienen, vernünftige parametrische Modellezu spezifizieren und zu validieren

Nachteile der Benutzung von Kernschätzern und anderer nicht-parametrischer Methoden:

• Im Vergleich zu einem korrekten parametrischen Modell exi-stiert ein Verlust an Schätzgenauigkeit

• Im Allgemeinen ist es nicht möglich, die Werte von Y zueinem vorgegebenen x ∈ [a, b] zu prognostizieren. Dies würdeeine Extrapolation erfordern, die mit lokalen Verfahren nichtmöglich ist.

• Statistische Inferenz (Konstruktion von Konfidenzinterval-len, Tests, etc.) ist schwieriger als bei parametrischen Ver-fahren

Nichtparametrisch@LS-Kneip 4–54

Page 55: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

4.4 Lokal lineare Regression

• Idee: Gewichtete lokale Anpassung einer Gerade an jedemPunkt x

• Für gegebenes x bestimme β0, β1 durch Minimieren vonn∑

i=1

(Yi − β0 − β1(x−Xi)

)2K(

x−Xi

h)

Lokal linearer Schätzer von m(x):

mh(x) := β0

• K - symmetrische Kernfunktion (z.B. Epanechnikov-Kernoder Normal-Kern)

• h - Bandbreite

Berechnungsformel: Der lokal lineare Schätzer mh(x) = β0 lässtsich wiederum als gewichtetes (lokales) Mittel der Beobachtungenschreiben

mh(x) = β0 =

∑ni=1 wi(x)Yi∑ni=1 wi(x)

, wi(x) = K(x−Xi

h)(s2(x)−(Xi−x)s1(x))

mit

sr(x) =

n∑j=1

(Xj − x)rK(x−Xj

h), r = 1, 2

Nichtparametrisch@LS-Kneip 4–55

Page 56: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

• Die grundlegendenen theoretischen und praktischen Eigen-schaften von lokal linearen Schätzern stimmen mit denen vonKernschätzern überein.

• Es gibt allerdings einige praktische und theoretische Vorteilevon lokal linearen Schätzern (z.B. keine Probleme an Rand-punkten; größere Effizienz der Schätzer bei nicht-äquidistantenDesign)

• Lokal lineare Regression ist ein lineares Glättungsverfahren.

mh(X1)

mh(X2)

···

mh(Xn)

=

w1(X1) w2(X1) . . . wn(X1)

w1(X2) w2(X2) . . . wn(X2)

· · ·· · ·· · ·

w1(Xn) w2(Xn) . . . wn(Xn)

︸ ︷︷ ︸

Sh

Y1

Y2

···Yn

dfh = spur(Sh) ist proportional zu 1/h.

• Wie beim Nadaraya-Watson Kernschätzer hängt die Genau-igkeit von lokal linearen Schätzern wesentlich von der Wahlder Bandbreite ab

– h klein ⇒ kleiner systematischer Fehler (≡ kleiner Bi-as), aber große Varianz

– h groß ⇒ niedrige Varianz, aber möglicherweise großersystematischer Fehler (≡ großer Bias).

Nichtparametrisch@LS-Kneip 4–56

Page 57: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Lokal lineare Schätzer und Nadaraya-Watson Kernschätzer:

200 400 600 800 1000 1200

400

600

800

1000

1200

1400

1600

newspaper circulation

Daily circulation

Sund

ay ci

rculat

ion

local linear (h=150)Nadaraya−Watson kernel (h=150)

200 400 600 800 1000 1200

400

600

800

1000

1200

1400

1600

newspaper circulation

Daily circulation

Sund

ay ci

rculat

ion

local linear (h=400)Nadaraya−Watson kernel (h=400)

Nichtparametrisch@LS-Kneip 4–57

Page 58: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Lokal lineare Schätzer und Nadaraya-Watson Kernschätzer:

30 40 50 60 70 80

2040

6080

100

Electricitiy usage

Average daily temperature

Avera

ge da

ily us

age

local linear (h=9)Nadaraya−Watson kernel (h=9)

30 40 50 60 70 80

2040

6080

100

Electricity usage

Average daily temperature

Avera

ge da

ily us

age

local linear (h=25)Nadaraya−Watson kernel (h=25)

Nichtparametrisch@LS-Kneip 4–58

Page 59: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Die Genauigkeit lokal linearer SchätzerDie Regressionsfunktion m sei zweimal stetig differenzierbar.

Äquidistantes Design (x im Innern von [a, b] = [0, 1]):

Bias2(mh(x)) =h4

4ν2(K)2m′′(x)2

und

V ar(mh(x)) =σ2

nhR(K)

mit ν2(K) =∫∞−∞ K(z)z2dz, R(K) =

∫∞−∞ K(z)2dz.

Random Design (x im Innern von [a, b]):

Bias2(mh(x)) =h4

4ν2(K)2m′′(x)2

und

V ar(mh(x)) =σ2

f(x)nhR(K)

mit ν2(K) =∫∞−∞ K(z)z2dz, R(K) =

∫∞−∞ K(z)2dz.

Auch an den Randpunkten x = a oder x = b gilt Bias2(mh(x)) ∼O(h4) und V ar(mh(x)) ∼ O(1/(nh) (aber: die zugehörigen Kon-stanten sind nicht gleich ν2(K)2 bzw. R(K)).

Nichtparametrisch@LS-Kneip 4–59

Page 60: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

MASE

Im Folgenden wird ein äquidistanter Design vorausgesetzt: [a, b] =[0, 1] mit Xi+1 −Xi = 1/n. Weiterhin sei m zweimal stetig diffe-renzierbar

Für große Stichproben erhält man dann folgende asymptotischeApproximation:

MASE(mh) = E

(1

n

n∑i=1

(m(Xi)− mh(Xi))2

)

≈ 1

4h4

∫ 1

0

m′′(x)2dx

∫ ∞

−∞K(u)u2du︸ ︷︷ ︸

Bias2(mh)

+σ2

nh

∫ ∞

−∞K(u)2du︸ ︷︷ ︸

V ar(mh)

Der Einfluss von Randpunkten ist hier (im Gegensatz zu Kern-schätzern) bei der Berechnung des MASE asymptotisch vernach-lässigbar.

Die (asymptotisch) optimale Bandbreite, für die MASE(mh) mi-nimal wird ergibt somit durch

hopt =

(σ2∫∞−∞ K(u)2du

n∫ 1

0m′′(x)2dx

∫∞−∞ K(u)u2du

)1/5

Nichtparametrisch@LS-Kneip 4–60

Page 61: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Lokal lineare Schätzer für verschiedene Bandbreiten h:

0 10 20 30 40 50

510

1520

25vineyard data

Row

Total

numb

er of

lugs

local linear (h=3)

0 10 20 30 40 50

510

1520

25

vineyard data

Row

Total

numb

er of

lugs

local linear (h=1,5)

Nichtparametrisch@LS-Kneip 4–61

Page 62: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Schätzung einer optimalen Bandbreite

Es existieren verschiedene Methoden zur Bestimmung eines Schät-zers hopt der bestmöglichen Bandbreite hopt.

• Kreuzvalidierung (CV): Berechnung von hopt durch Mi-nimieren von

CV (h) =1

n

n∑i=1

(Yi − mh,−i(Xi)

)2

,

Hierbei ist mh,−i jeweils der lokal lineare Schätzer, den manerhält, wenn nur die n− 1 Beobachtungen(Y1, X1), . . . , (Yi−1, Xi−1), (Yi+1, Xi+1), . . . , (Yn, Xn)

zur Anpassung des Polynoms verwendet werden.n groß: E(CV (h)) ≈ σ2 +MASE(mh)

• Verallgemeinerte Kreuzvalidierung (GCV): Berechnungvon hopt durch Minimieren von

GCV (h) =1

n(1− dfhn )2

n∑i=1

(Yi − mh(Xi)

)2

n groß: E(GCV (h)) ≈ σ2 +MASE(mh)

• Plug-In Schätzer: Ein Schätzwert hopt wird aus der asym-ptotischen Formel für die opimale Bandbreite

hopt =

(σ2∫∞−∞ K(u)2du

n∫ 1

0m′′(x)2dx

∫∞−∞ K(u)u2du

)1/5

berechnet. Die unbekannten Größen∫ 1

0m′′(x)2dx und σ2

werden durch geeignete Approximationen ersetzt.

Nichtparametrisch@LS-Kneip 4–62

Page 63: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Verallgemeinerung: Lokal polynomialeRegression

• Idee: Gewichtete lokale Anpassung eines Polynoms vorgege-benen Grades q an jedem Punkt x

• Für gegebenes x bestimme β0, β1, . . . , βq durch Minimierenvon

n∑i=1

(Yi − β0 − β1(x−Xi)− · · · − βq(x−Xi)

q)2K(

x−Xi

h)

Lokal polynomialer Schätzer von m(x):

mh(x) := β0

• K - Kernfunktion (z.B. Epanechnikov-Kern oder Normal-Kern)

• h - Bandbreite

• Der Nadaraya-Watson Kernschätzer lässt sich als lokal kon-stanter Schätzer auffassen (lokale Anpassung einer Konstan-te ≡ Polynom des Grades q = 0):Minimieren von

n∑i=1

(Yi − β0

)2K(

x−Xi

h)

liefert

mh(x) := β0 =

n∑i=1

K(x−Xi

h )∑nj=1 K(

x−Xj

h )Yi

Nichtparametrisch@LS-Kneip 4–63

Page 64: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Lokal linearer Schätzer mit Bandbreite h = 3:

0 10 20 30 40 50

510

1520

25vineyard data

Row

Total

numb

er of

lugs

local linear (h=3)

Lokal kubischer Schätzer (q = 3) mit Bandbreite h = 3:

0 10 20 30 40 50

510

1520

25

vineyard data

Row

Total

numb

er of

lugs

local cubic (h=3)

Nichtparametrisch@LS-Kneip 4–64

Page 65: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

4.5 Schätzung der Fehlervarianz

Die Größe der Varianz σ2 der Fehlerterme ϵi beeinflusst die Ge-nauigkeit. Die Fehlervarianz lässt sich mit relativ einfachen Me-thoden konsistent aus den Daten schätzen. Zur Vereinfachungwird im folgenden angenommen, dass die Beobachtungen der X-Variable geordnet sind, d.h. X1 ≤ X2 ≤ · · · ≤ Xn, und dass m

eine glatte, zweimal stetig differenzierbare Funktion ist.

• Die Methode von Rice

σ2 =1

2(n− 1)

n∑i=2

(Yi − Yi−1)2

Es lässt sich zeigen, dass E(σ2) = σ2+O( 1n2 ) und V ar(σ2) =

O( 1n ).

• Die Methode von Gasser et.al.: Man berechnet ”Pseudo-Residuen”ϵi durch

ϵi =Xi+1 −Xi

Xi+1 −Xi−1Yi−1 +

Xi −Xi−1

Xi+1 −Xi−1Yi+1 − Yi

und setzt

σ2 =1

n− 2

n−1∑i=2

ϵ2i

Die Methode von Gasser et al. besitzt i.Allg. einen kleinerenBias als die Methode von Rice.

Nichtparametrisch@LS-Kneip 4–65

Page 66: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

4.6 Konfidenzintervalle

Zur Vereinfachung betrachten wir einen lokal linearen Schätzermh und setzen einen äquidistanten Design mit [a, b] = [0, 1] vor-aus.

Es sei mh(x) = E(mh(x)). Unter einigen zusätzlichen Regulari-tätsbedingungen lässt sich zeigen, dass auf Grund des zentralenGrenzwertsatzes asymptotisch (n → ∞, h → 0, nh → ∞) fürjeden Punkt x

mh(x)− mh(x)√var(mh(x))

→L N(0, 1)

gültig ist.

Erinnerung: var(mh(x)) =σ2

nhR(K)+o( 1nh ), R(K) =

∫∞−∞ K(x)2dx.

Aus dem obigen allgemeinen Resultat lässt sich daher schließen,dass für großes n approximativ

mh(x)− mh(x) ∼ AN(0,σ2

nhR(K))

gilt. Die in Abschnitt 4.5 besprochenen Methoden liefern eineApproximation σ2 der Fehlervarianz σ2. Ein approximatives 95%Konfidenzintervall für mh(x) ist daher durch

mh(x)± 1.96

√σ2

nhR(K))

gegeben.

Solche Intervalle lassen sich für jeden Punkt x berechnen ⇒ Kon-videnzband für die Funktion mh.

Man spricht von einem Konfidenzband für die ”Variabilität” (d.h.für die durch die Fehlerterme bedingten Zufallsschwnkungen) desSchätzers. Der Bias wird hierbei nicht berücksichtigt.

Nichtparametrisch@LS-Kneip 4–66

Page 67: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

4.7 Hypothesentests

In diesem Abschnitt wird zusätzlich vorausgesetzt, dass die Feh-lerterme ϵi approximativ normalverteilt sind.

1) Test auf einen ”Effekt” der X-VariableIn der Praxis ist es häufig von Interesse zu testen, ob X über-haupt einen Einfluss auf Y besitzt. Ist dies nicht der Fall, somuss Y (im Mittel) unabhängig von X jeweils den gleichen Wertannehmen, d.h. m(x) = a für all x und eines feste Konstante a.

Testproblem: H0 : m(x) = a gegen H1 : m ist eine nicht kon-stante Funktion von x.

Unter der Alternative sollten sich Abweichungen von m(x) von ei-ner Konstante durch nichparametrische Regressionschätzer quan-tifizieren lassen. Wir betrachten im Folgenden lokal polynomialeSchätzer (das Vorgehen z.B. für glättendene Splines, Kernschät-zer ist analog). Sei Y = 1

n

∑i Yi.

• Teststatistik

Lh =1

σ2n

n∑i=1

(∑nj=1 wj(Xi)(Yj − Y )∑n

j=1 wj(Xi)

)2

,

wobei die Gewichte wj(x) wie in Abschnitt 4.4 definiert sind.Zur Vereinfachung wird im Folgenden angenommen, dass dieFehlervarianz nach der Methode von Rice geschätzt wird,d.h. σ2 = 1

2(n−1)

∑ni=2(Yi − Yi−1)

2.

• Ablehnung von H0 falls Lh zu groß, d.h. Lh,beob > lh;1−α,wobei lh;1−α das 1− α-Quantil der Verteilung von Lh unterH0 ist.

Nichtparametrisch@LS-Kneip 4–67

Page 68: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Problem: Verteilung von Lh unter H0?

Es ist leicht zu sehen, dass die Verteilung von Lh nicht vomWert von σ2 abhängt. Bei normalverteilten Fehlern gilt daher,dass die Verteilung von Lh unter H0 gleich der Verteilung derZufallsvariablen

Lϵh =

2(n− 1)∑ni=2(ϵ

∗i − ϵ∗i−1)

2n

n∑i=1

(∑nj=1 wj(Xi)(ϵ

∗j − ϵ∗)∑n

j=1 wj(Xi)

)2

für unabhängige, standardnormalverteilte Fehler ϵ∗i ist.

Die Quantile der Verteilung von Lϵh lassen sich durch Monte-

Carlo-Simulationen (am Computer) approximieren.

• Mit Hilfe eines Zufallszahlengenerators werden n unabhängi-ge, standardnormalverteilte Zufallszahlen ϵ∗i erzeugt und derzugehörige Wert Lϵ

h berechnet.

• Diese Prozedur wird k mal wiederholt (k groß, z.B. k = 2000)⇒ m Werte: Lϵ

h,1, Lϵh,2, . . . , L

ϵh,k

• Das (1− α)-Quantil der empirischen Verteilung vonLϵh,1, L

ϵh,2, . . . , L

ϵh,k liefert eine Approximation von lh;1−α (um-

so genauer, je größer k)

Man beachte: Der obige Test lässt sich für alle möglichen Band-breiten h durchführen. Je nach Struktur einer möglichen Alterna-tive ist die Güte des Tests jedoch von der Wahl der Bandbreiteh abhängig.

Nichtparametrisch@LS-Kneip 4–68

Page 69: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

2) Test auf Linearität

Testproblem: H0 : m(x) = β0 + β1x gegen H1 : m ist einenichtlineare Funktion von x.

Teststatistik:

Lh =1

σ2n

n∑i=1

(∑nj=1 wj(Xi)(Yj − β0 − β1Xj)∑n

j=1 wj(Xi)

)2

,

wobei β0, β1 die Kleinste-Quadrate Schätzer von β0, β1 aus denBeobachtungen (Y1, X1), . . . , (Yn, Xn) sind. Für unabhängige, stan-dardnormalverteilte Fehler ϵ∗i lässt sich die Verteilung von Lh

durch die Verteilung von

Lϵh =

2(n − 1)

n∑i=2

(ϵ∗i

− ϵ∗i−1

)2n

n∑i=1

n∑

j=1wj(Xi)(ϵ

∗j − β∗

0 − β∗1Xi)

n∑j=1

wj(Xi)

2

,

approximieren, wobei β∗0 , β

∗1 Kleinste-Quadrate Schätzer

aus (ϵ∗1, X1), . . . , (ϵ∗n, Xn) sind.

Kritische Werte von Lϵh lassen sich durch Monte-Carlo Simula-

tionen simulieren.

Nichtparametrisch@LS-Kneip 4–69

Page 70: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

4.8 Multivariate Kernschätzer

Nichtparametrische Glättungsverfahren können auch dann zurSchätzung einer Regressionsfunktion verwendet werden, wenn dieRegression mehrere erklärende Variable Xi = (Xi1, Xi2, . . . , Xid)

beinhaltet.

Beispiel: Zeidimensionaler Nadaraya-Watson Kernschät-zer

• Sei Xi = (Xi1, Xi2)′. Wie im eindimensionalen Fall beruht

die Kernschätzung auf der Idee der Bildung gewichteter lo-kaler Mittel der Beobachtungen Yi

• Für eine zweidimensionale X-Variable ist eine BeobachtungXi nahe an einem Punkt x = (x1, x2)

′, falls sowohl |x1−Xi1|als auch |x2 −Xi2| klein sind.

Ansatz unter Verwendung von mehrdimensionalen Kernfunktio-nen K : IRd → IR (siehe Kapitel 3):

mh1,h2(x) =

∑ni=1 K(x1−Xi1

h1, x2−Xi2

h2)Yi∑n

i=1 K(x1−Xi1

h1, x2−Xi2

h2)

Die ist wiederum ein lineares Glättungsverfahren. Geeignete Band-breiten h1, h2 können durch Minimieren von GCV (h1, h2) be-stimmt werden.

Nichtparametrisch@LS-Kneip 4–70

Page 71: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Problem:

• In der Literatur spricht man vom”Curse of Dimensionality”(Fluch der Dimensionalität)

• Kernschätzer sind lokale Schätzer, und hochdimensionale Räu-me sind in einem gewissen Sinne fast leer ( sparse). Falls d

groß ist, dann werden auch für große Stichproben nur weni-ge Beobachtungen derart existieren, dass für einen gegebe-nen Punkt x die Abstände

|x1 −Xi1|, |x2 −Xi2|, . . . , |xd −Xid|bezüglich allen Koordinatenrichtungen klein sind.

• Die Schätzgenauigkeit von Kernschätzern und anderen nicht-parametrischen Kurvenschätzern nimmt mit wachsender Di-mension d sehr schnell ab

• Optimale Konvergenzrate: MSE(mh) = O(n−4/(d+4)) (beizweimal stetig differenzierbarer Regressionsfunktion m)

• Sei Xi uniform verteilt in [0, 1]d. Um ungefähr 5 Beobach-tungen im Intervall [x − 0.1, x + 0.1]d zu erhalten, werdenfolgende Stichprobengrößen benötigt:

– n = 25 Beobachtungen für d = 1

– n = 125 Beobachtungen für d = 2

– n = 625 Beobachtungen für d = 3

– n = 15625 Beobachtungen für d = 5

– n = 48828125 Beobachtungen für d = 10

Nichtparametrisch@LS-Kneip 4–71

Page 72: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

4.9 Lokal lineare Regression

• Idee: Gewichtete lokale Anpassung einer Gerade an jedemPunkt x

• Für gegebenes x bestimme β0, β1 durch Minimieren vonn∑

i=1

(Yi − β0 − β1(x−Xi)

)2K(

x−Xi

h)

Lokal linearer Schätzer von m(x):

mh(x) := β0

• K - Kernfunktion (z.B. Epanechnikov-Kern oder Normal-Kern)

• h - Bandbreite

Berechnungsformel: Der lokal lineare Schätzer mh(x) = β0 lässtsich wiederum als gewichtetes (lokales) Mittel der Beobachtungenschreiben

mh(x) = β0 =1

nh

n∑i=1

[s2(x, h)− s1(x, h)(x−Xi)]K(x−Xi

h )

s2(x, h)s0(x, h)− s1(x, h)2︸ ︷︷ ︸wi(x)

Yi

mit

sr(x, h) =1

nh

n∑j=1

(x−Xj)rK(

x−Xj

h), r = 0, 1, 2

Nichtparametrisch@LS-Kneip 4–72

Page 73: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

• Die grundlegendenen theoretischen und praktischen Eigen-schaften von lokal linearen Schätzern stimmen mit denen vonKernschätzern überein.

• Es gibt allerdings einige praktische und theoretische Vorteilevon lokal linearen Schätzern (z.B. keine Probleme an Rand-punkten; größere Effizienz der Schätzer bei nicht-äquidistantenDesign)

• Lokal lineare Regression ist ein lineares Glättungsverfahren.

mh(X1)

mh(X2)

···

mh(Xn)

=

w1(X1) w2(X1) . . . wn(X1)

w1(X2) w2(X2) . . . wn(X2)

· · ·· · ·· · ·

w1(Xn) w2(Xn) . . . wn(Xn)

︸ ︷︷ ︸

Sh

Y1

Y2

···Yn

dfh = spur(Sh) ist proportional zu nh.

• Wie beim Nadaraya-Watson Kernschätzer hängt die Genau-igkeit von lokal linearen Schätzern wesentlich von der Wahlder Bandbreite ab

– h klein ⇒ kleiner systematischer Fehler (≡ kleiner Bi-as), aber große Varianz

– h groß ⇒ niedrige Varianz, aber möglicherweise großersystematischer Fehler (≡ großer Bias).

Nichtparametrisch@LS-Kneip 4–73

Page 74: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Lokal lineare Schätzer und Nadaraya-Watson Kernschätzer:

200 400 600 800 1000 1200

400

600

800

1000

1200

1400

1600

newspaper circulation

Daily circulation

Sund

ay ci

rculat

ion

local linear (h=150)Nadaraya−Watson kernel (h=150)

200 400 600 800 1000 1200

400

600

800

1000

1200

1400

1600

newspaper circulation

Daily circulation

Sund

ay ci

rculat

ion

local linear (h=400)Nadaraya−Watson kernel (h=400)

Nichtparametrisch@LS-Kneip 4–74

Page 75: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Lokal lineare Schätzer und Nadaraya-Watson Kernschätzer:

30 40 50 60 70 80

2040

6080

100

Electricitiy usage

Average daily temperature

Avera

ge da

ily us

age

local linear (h=9)Nadaraya−Watson kernel (h=9)

30 40 50 60 70 80

2040

6080

100

Electricity usage

Average daily temperature

Avera

ge da

ily us

age

local linear (h=25)Nadaraya−Watson kernel (h=25)

Nichtparametrisch@LS-Kneip 4–75

Page 76: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

MASE

Im Folgenden wird ein äquidistanter Design vorausgesetzt: [a, b] =[0, 1] mit Xi+1 −Xi = 1/n. Weiterhin sei m zweimal stetig diffe-renzierbar

Für große Stichproben erhält man dann folgende asymptotischeApproximation:

MASE(mh) = E

(1

n

n∑i=1

(m(Xi)− mh(Xi))2

≈ 1

4h4

∫ 1

0

m′′(x)2dx

∫ ∞

−∞K(u)u2du︸ ︷︷ ︸

Bias2(mh)

+σ2

nh

∫ ∞

−∞K(u)2du︸ ︷︷ ︸

V ar(mh)

Die in Kapitel 2.3 durchgeführten Überlgegungen zur Genauig-keit eines Kernschätzers (für äquidistanten Design) übertragensich also auf lokal lineare Schätzer.

Die (asymptotisch) optimale Bandbreite, für die MASE(mh) mi-nimal wird ergibt somit durch

hopt =

(σ2∫∞−∞ K(u)2du

n∫ 1

0m′′(x)2dx

∫∞−∞ K(u)u2du

)1/5

Nichtparametrisch@LS-Kneip 4–76

Page 77: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Lokal lineare Schätzer für verschiedene Bandbreiten h:

0 10 20 30 40 50

510

1520

25vineyard data

Row

Total

numb

er of

lugs

local linear (h=3)

0 10 20 30 40 50

510

1520

25

vineyard data

Row

Total

numb

er of

lugs

local linear (h=1,5)

Nichtparametrisch@LS-Kneip 4–77

Page 78: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Schätzung einer optimalen Bandbreite

Es existieren verschiedene Methoden zur Bestimmung eines Schät-zers hopt der bestmöglichen Bandbreite hopt.

• Kreuzvalidierung (CV): Berechnung von hopt durch Mi-nimieren von

CV (h) =1

n

n∑i=1

(Yi − mh,−i(Xi)

)2

,

Hierbei ist mh,−i jeweils der lokal lineare Schätzer, den manerhält, wenn nur die n− 1 Beobachtungen(Y1, X1), . . . , (Yi−1, Xi−1), (Yi+1, Xi+1), . . . , (Yn, Xn)

zur Anpassung des Polynoms verwendet werden.n groß: E(CV (h)) ≈ σ2 +MASE(mh)

• Verallgemeinerte Kreuzvalidierung (GCV): Berechnungvon hopt durch Minimieren von

GCV (h) =1

n(1− dfhn )2

n∑i=1

(Yi − mh(Xi)

)2

n groß: E(GCV (h)) ≈ σ2 +MASE(mh)

• Plug-In Schätzer: Ein Schätzwert hopt wird aus der asym-ptotischen Formel für die opimale Bandbreite

hopt =

(σ2∫∞−∞ K(u)2du

n∫ 1

0m′′(x)2dx

∫∞−∞ K(u)u2du

)1/5

berechnet. Die unbekannten Größen∫ 1

0m′′(x)2dx und σ2

werden durch geeignete Approximationen ersetzt.

Nichtparametrisch@LS-Kneip 4–78

Page 79: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Verallgemeinerung: Lokal polynomialeRegression

• Idee: Gewichtete lokale Anpassung eines vorgegebenen Gra-des q an jedem Punkt x

• Für gegebenes x bestimme β0, β1, . . . , βq durch Minimierenvon

n∑i=1

(Yi − β0 − β1(x−Xi)− · · · − βq(x−Xi)

q)2K(

x−Xi

h)

Lokal polynomialer Schätzer von m(x):

mh(x) := β0

• K - Kernfunktion (z.B. Epanechnikov-Kern oder Normal-Kern)

• h - Bandbreite

• Der Nadaraya-Watson Kernschätzer lässt sich als lokal kon-stanter Schätzer auffassen (lokale Anpassung einer Konstan-te ≡ Polynom des Grades q = 0):Minimieren von

n∑i=1

(Yi − β0

)2K(

x−Xi

h)

liefert

mh(x) := β0 =

n∑i=1

K(x−Xi

h )∑nj=1 K(

x−Xj

h )Yi

Nichtparametrisch@LS-Kneip 4–79

Page 80: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Lokal linearer Schätzer mit Bandbreite h = 3:

0 10 20 30 40 50

510

1520

25vineyard data

Row

Total

numb

er of

lugs

local linear (h=3)

Lokal kubischer Schätzer (q = 3) mit Bandbreite h = 3:

0 10 20 30 40 50

510

1520

25

vineyard data

Row

Total

numb

er of

lugs

local cubic (h=3)

Nichtparametrisch@LS-Kneip 4–80

Page 81: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

4.10 Glättende Splines

Glättende Splines basieren auf der Idee einer Minimierung derquadratischen Abweichungen unter der Benutzung einer ”Rough-ness Penalty” (Bestrafungsfunktion für Unglattheit)

Glättende Splines: Für einen gegebenen Glättungsparameter h

minimiere

1

n

(Yi −m(Xi)

)2

+ h

∫ b

a

(m′′(x))2dx

bezüglich allen zweimal stetig differenzierbaren Funktionen m

⇒ Diejenige Funktion, die das Minimierungsproblem löst, istdann der Spline Schätzer mh

0.0 0.2 0.4 0.6 0.8 1.0

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.0 0.2 0.4 0.6 0.8 1.0

0.2

0.3

0.4

0.5

0.6

0.7

0.8

∫(m′′(x))2dx klein

∫(m′′(x))2dx groß

Der Glättungsparameter h kontrolliert die Glattheit des resultie-renden Schätzers

Nichtparametrisch@LS-Kneip 4–81

Page 82: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

• h sehr groß: Für die Funktion mh muss m′′h(x) ≈ 0 gelten

⇒ mh ≈ Gerade

• h = 0 ⇒ mh(Xi) = Yi, i = 1, . . . , n (Interpolation derDaten)

Allgemein:

• Große Werte von h liefern Kurvenschätzungen mit kleinerVarinz (Gefahr: möglicherweise großer Bias);

• Kleine Werte von h liefern unglatte, stark fluktuierende Kur-ven. Der systematische Fehler ist klein, aber die Varianz desSchätzers ist groß

Glättende Splines sind lineare Schätzer:

• Man kann zeigen, dass mh notwendigerweise eine sognanntekubische Splinefunktion ist:

– mh ist ein kubisches Polynom (p=3) zwischen je zwei auf-einanderfolgenden Datenpunkten X(i−1) < X(i)

– mh ist zweimal stetig differenzierbar an jedem Beobach-tungspunkt Xi, i = 1, . . . , n.

Nichtparametrisch@LS-Kneip 4–82

Page 83: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

• Für jeden Vektor m = (m1, . . . ,mn)′ ∈ IRn existiert eine ku-

bische Spline Funktion m, die die Werte m1, . . . ,mn an denPunkten X1, . . . , Xn interpoliert, d.h. m1 = m(X1), . . . ,mn =

m(Xn)

• Zu jedem Vektor m = (m1, . . . ,mn)′ gehört ein zugehöriger

Wert von∫ b

a(m′′(x))2dx. Es existiert eine eindeutig bestimm-

te Matrix A (natürlich abhängig von X1, . . . , Xn), so dass

m′Am =

∫ b

a

(m′′(x))2dx

• Matrix Notation: Glättende Spline-Schätzer ergeben sich durchMinimieren von

1

n∥Y −m∥2 + hm′Am

mh(X1)

···

mh(Xn)

=

(I − hA

)−1

Y =: ShY

• dfh = spur(Sh) ist proportional zu h−1/4

Nichtparametrisch@LS-Kneip 4–83

Page 84: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Glättende Splines (dfh = 3)

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Glättende Splines (dfh = 10)

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Nichtparametrisch@LS-Kneip 4–84

Page 85: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

4.11 Multivariate Kernschätzer

Nichtparametrische Glättungsverfahren können auch dann zurSchätzung einer Regressionsfunktion verwendet werden, wenn dieRegression mehrere erklärende Variable Xi = (Xi1, Xi2, . . . , Xid)

beinhaltet.

Beispiel: Zeidimensionaler Nadaraya-Watson Kernschät-zer

• Sei Xi = (Xi1, Xi2)′. Wie im eindimensionalen Fall beruht

die Kernschätzung auf der Idee der Bildung gewichteter lo-kaler Mittel der Beobachtungen Yi

• Für eine zweidimensionale X-Variable ist eine BeobachtungXi nahe an einem Punkt x = (x1, x2)

′, falls sowohl |x1−Xi1|als auch |x2 −Xi2| klein sind.

Ansatz unter Verwendung von ”Produkt-Kernen”:

mh1,h2(x) =

∑ni=1 K(x1−Xi1

h1)K(x2−Xi2

h2)Yi∑n

i=1 K(x1−Xi1

h1)K(x2−Xi2

h2)

Die ist wiederum ein lineares Glättungsverfahren. Geeignete Band-breiten h1, h2 können durch Minimieren von GCV (h1, h2) be-stimmt werden.

Nichtparametrisch@LS-Kneip 4–85

Page 86: 3 Nichtparametrische Dichteschätzung · 3 Nichtparametrische Dichteschätzung Beispiel: Analyse von Einkommnensdaten • Quelle: U.K. Family Expenditure Survey (FES) 1968-1995 •

Problem:

• In der Literatur spricht man vom”Curse of Dimensionality”(Fluch der Dimensionalität)

• Kernschätzer sind lokale Schätzer, und hochdimensionale Räu-me sind in einem gewissen Sinne fast leer ( sparse). Falls d

groß ist, dann werden auch für große Stichproben nur weni-ge Beobachtungen derart existieren, dass für einen gegebe-nen Punkt x die Abstände

|x1 −Xi1|, |x2 −Xi2|, . . . , |xd −Xid|bezüglich allen Koordinatenrichtungen klein sind.

• Die Schätzgenauigkeit von Kernschätzern und anderen nicht-parametrischen Kurvenschätzern nimmt mit wachsender Di-mension d sehr schnell ab

• Sei Xi uniform verteilt in [0, 1]d. Um ungefähr 5 Beobach-tungen im Intervall [x − 0.1, x + 0.1]d zu erhalten, werdenfolgende Stichprobengrößen benötigt:

– n = 25 Beobachtungen für d = 1

– n = 125 Beobachtungen für d = 2

– n = 625 Beobachtungen für d = 3

– n = 15625 Beobachtungen für d = 5

– n = 48828125 Beobachtungen für d = 10

Nichtparametrisch@LS-Kneip 4–86