Lineare Theorie
und
Kleinste Quadrate
Vorlesungsskript
Prof. Dr. Hermann Dinges
10 September 1998
Inhaltsverzeichnis
Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1 Covarianzen im komplexen Fall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Anhang 1 Diagonalform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Anhang 2 Ausgeglichene Zufallsvektoren . . . . . . . . . . . . . . . . . . . . . . . . . 9
2 Lineares Filtern und die Normalgleichung . . . . . . . . . . . . . . . . . . . . . . . . . 11
Anhang Projektionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3 BLUE–Schatzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
BLUE–Schatzung von Einflußfaktoren . . . . . . . . . . . . . . . . . . . . . . . 24
Modell der klassischen linearen Regression . . . . . . . . . . . . . . . . . . . . . 26
Gaußische Vektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4 Drei Charakterisierungen der Normalverteilung . . . . . . . . . . . . . . . . . . . . . . 32
5 Minima quadratischer Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.1 Bedingte gaußische Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.2 Anwendung auf Zufallsvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
6 Kleinste Quadrate und andere M–Schatzer . . . . . . . . . . . . . . . . . . . . . . . . 46
6.1 Ausgleichsrechnung im linearen und im nichtlinearen Fall . . . . . . . . . . . . 46
6.2 Geometrische Terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
6.3 Das ML–Prinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6.4 Historisches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
7 Maßtheoretische Aspekte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.1 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.2 A posteriori Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . 61
7.3 Reine und gemischte Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . 63
7.4 MAP–Verfahren fur die lineare Theorie . . . . . . . . . . . . . . . . . . . . . . 65
8 Geometrie der kleinsten Quadrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
8.1 Orthogonale Projektion und Normalgleichungen . . . . . . . . . . . . . . . . . . 69
8.2 Minimale quadratische Distanz fur affine Raume . . . . . . . . . . . . . . . . . 75
8.3 Verschiebungsvertragliche Regression . . . . . . . . . . . . . . . . . . . . . . . . 78
9 Der Bias bei der linearen Pradiktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
9.1 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
9.2 Kleine erwartungstreue Veranderungen gegenuber der Regression . . . . . . . . 83
9.3 Lineare Pradiktionen zu gaußischen Vorbewertungen . . . . . . . . . . . . . . . 84
i
INHALTSVERZEICHNIS ii
10 Fehlergesetze, Charakterisierungssatze . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
10.1 Die Herleitung der Methode der kleinsten Quadrate aus NV + ML . . . . . . . 91
10.2 Charakterisierung der Normalverteilung unter Zugrundelegung von kQ + qV . 92
Der Satz von Kagan, Linnik, Rao . . . . . . . . . . . . . . . . . . . . . . . . . . 94
10.3 Charakterisierung der Normalverteilung unter Zugrundelegung von kQ + ML . 97
Der Satz von Gauß . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
10.4 Historisches”Elementarfehler“ . . . . . . . . . . . . . . . . . . . . . . . . . . 98
11 Regression als Projektion auf Hilbertraume . . . . . . . . . . . . . . . . . . . . . . . . 102
11.1 Regression im starken Sinne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
11.2 Isometrische Hilbertraume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
12 Schwachstationare Folgen; Covarianzfolgen . . . . . . . . . . . . . . . . . . . . . . . . . 107
12.1 Anhang zur Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
Einleitung
In vielen Buchern zur Angewandten Statistik kann man sehen, daß die Techniken der linea-
ren Algebra in der Statistik angewendet werden. Stichworte sind u.a. Ausgleichsrechnung,
Methode der kleinsten Quadrate, Regressionsanalyse, lineare Zeitreihenanalyse. Es wird hier
versucht, die grundlegenden Aspekte fur mathematisch orientierte Stochastiker und stocha-
stisch interessierte Mathematiker zu entwickeln. Die Sache hat mehrere Aspekte.
Jedem Studenten fallt auf, daß der Begriff der Covarianz eine Struktur begrundet, die an
die euklidische Geometrie bzw. an die Hilbertraumgeometrie anschließt. (Man denke etwa an
die Ungleichung von Cauchy–Schwarz). Orthogonale Projektion im Hilbertraum ist irgendwie
analog zur linearen Schatzung und zur linearen Pradiktion. Dieser Aspekt wird in den Ab-
schnitten 1, 2, 3 entwickelt. Lineare Regression ist das ubergreifende Stichwort. Das Kapitel 3
(BLUE–Schatzung) ist fur den Anfanger zunachst wahrscheinlich etwas unubersichtlich. Die
Sache wird sich in Abschnitt 9 aufklaren.
Die gaußischen Vektoren schaffen eine solide stochastische Basis fur die Interpretation der
Konstruktionen im Hilbertraum, indem hier namlich Unkorreliertheit zur stochastischen Un-
abhangigkeit wird. Dies wird in den Abschnitten 4, 5 ausgefuhrt. Abschnitt 5 schließt an
Techniken der Anfangervorlesung an (”Lagrange–Multiplikatoren“); da er fur die Stochastik
marginal ist, kann er ubersprungen werden.
Die Methode der kleinsten Quadrate kann zwar rein geometrisch entwickelt werden. Wenn man
sich aber auf die Geometrie beschrankt, ubersieht man notwendigerweise die Beschrankungen
der Anwendbarkeit, und man entwickelt kein Gefuhl fur die Moglichkeiten der Verallgemeine-
rung. Wir stellen daher die”Ausgleichsrechnung“ in einen allgemeineren statistischen Rahmen
(Abschnitte 6, 7).
Die geometrischen Betrachtungen in den Abschnitten 8, 9 sind gewissermaßen dual zur Theo-
rie der linearen Regressionen, die in 1, 2, 3 entwickelt wurde. Die Idee der BLUE–Schatzung
und die Methode der kleinsten Quadrate finden dort zusammen.
Das Kapitel 10 setzt sich mit der in der elementaren Ausgleichsrechnung beliebten Annahme
auseinander, daß die”Fehler“ normalverteilt sind .
1. COVARIANZEN IM KOMPLEXEN FALL 2
Lineare Regression
1 Covarianzen im komplexen Fall
Vorbemerkung Seien S, T reellwertige Zufallsgroßen mit
var S = σ2 > 0, var T = τ 2, cov(S, T ) = ρ · σ · τ .
Man nennt die Zahl
λ := ρ · στ
=cov (S, T )
var T
den Regressionskoeffizienten fur die”Regression von S auf T“. Die lineare Gleichung
s = E S + λ(t− E T )
heißt die Gleichung der Regressionsgeraden. Die Steigung dieser Geraden ist der Regressions-
koeffizient.
In der statistischen Praxis hat man es haufig mit Zufallsgroßen (T, S) zu tun, deren gemein-
same Verteilung man nicht kennt. Wenn man Paare (t1, s1), . . . , (tN , sN ) beobachtet hat,
dann zeichnet man diese als eine Punktwolke (”Streudiagramm“) in die Zeichenebene. Man
kann nun versuchen die Regressionsgerade zu”schatzen“. Fur jede Gerade
s = α+ βt
liefern die (ti, si) gewisse Abweichungen εi in der Ordinatenrichtung; man hat
si = α+ βti + εi .
Von einer Gerade kann man sagen, daß sie gut paßt, wenn die εi klein sind z.B. im Sinne
der kleinsten Quadrate. Die Steigung β einer gut passenden Gerade kann als ein Schatzwert
fur den Regressionskoeffizienten verstanden werden. Wenn man ein Schatzverfahren festge-
legt hat, dann kann man nach verschiedenen Gesichtspunkten das Leistungsvermogen dieses
Schatzverfahrens diskutieren. Bevor wir uns solchen Fragen zuwenden, wollen wir zunachst
den Begriff des Regressionskoeffizienten auf den mehrdimensionalen Fall verallgemeinern. Wir
studieren die Regression eines Zufallsvektors W (der Lange n) auf einen Zufallsvektor
Y = MW (der Lange m). Dabei betrachten wir komplexe Zufallsvektoren und Matrizen
mit komplexen Eintragen.
Bemerke Die Regression ist eine unsymmetrische Angelegenheit. Die Unsymmetrie er-
klart sich im Beispiel daraus, daß es uns bei unserer Approximation der Punktwolke des
Streudiagramms nur auf die Abweichung in der Ordinaten–Richtung ankommen sollte. Der
Regressionskoeffizient λ von S auf T ist charakterisiert durch die Eigenschaft
var (S − λT ) = min
cov (S − λT, T ) = 0 .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
1. COVARIANZEN IM KOMPLEXEN FALL 3
Die Approximation von Punktwolken, wo die Koordinaten in symmetrischer Weise eingehen,
ist nicht unser Thema. Es geht uns um die Regression und nicht um die sog. Hauptkompo-
nentenanalyse.
Wenn man ein m–tupel von komplexwertigen Zufallsgroßen Z1, . . . , Zm als Spalte Z notiert,
dann sprechen wir von einem Zufallsvektor der Lange m. Z bezeichnet die Spalte mit den
konjugiert komplexen Eintragen
Z = X + iY , Z = X − iY mit reellen X,Y .
Der Erwartungswert ist komponentenweise definiert. E Z ist die m–Spalte mit den Eintragen
E Zj .
Wir nehmen im folgenden durchgehend an, daß die Zj endliche Varianz haben
E |Zj − E Zj|2 <∞ fur alle j .
Wenn Z ein komplexer Zufallsvektor der Lange m und W ein komplexer Zufallsvektor
der Lange n ist, dann ist ihre Covarianz cov (Z,W ) die m× n–Matrix mit den Eintragen
cjk = cov (Zj ,Wk) = E(Zj − E Zj)(W k−EW k)
= E(Zj ·W k)− (E Zj) · (EW k)
cov (W,Z) ist hier nicht die zu C = cov (Z,W ) transponierte Matrix, sondern vielmehr
die hermitisch konjugierte Matrix C∗ mit dem Eintrag cj,k in der Position (k, j). Man
konnte schreiben C∗ = C>.
Bemerke die wichtige Eigenschaft der hermitischen Konjugation (A ·B)∗ = B∗ ·A∗.
Hinweis Man schreibt manchmal
cov (Z,W ) = E(Z ·W ∗)− (E Z) · (EW )∗
Hier wird W ∗ als die zufallige n–Zeile mit den Eintragen W k aufgefaßt. Z ·W ∗ ist die
m × n–Matrix mit den zufalligen Eintragen Zj ·W k. Die Matrix E(Z ·W ∗) erhalt man,
indem man den Erwartungswert auf jeden Eintrag anwendet.
Wir werden die Notation nur in Nebenrechnungen verwenden; wenn nichts Gegenteiliges ge-
sagt wird, sind fur uns Matrizen immer nichtzufallige Matrizen; die Eintrage sind komplexe
Zahlen. Ebenso ist eine Zeile ξ fur uns eine nichtzufallige Zeile, wenn nichts anderes gesagt
ist. ξ∗ bezeichnet die Spalte mit den komplex konjugierten Eintragen.
Wenn Z ein komplexer Zufallsvektor der Lange m ist und A eine d × n–Matrix, dann
ist AZ ein Zufallsvektor der Lange d mit E(AZ) = A · E Z.
Satz Fur komplexe Zufallsgroßen mit endlicher Varianz gilt
(i) cov (AZ,BW ) = A · cov (Z,W ) · B∗
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
1. COVARIANZEN IM KOMPLEXEN FALL 4
(ii) cov (Z,W1 +W2) = cov (Z,W1) + cov (Z,W2)
(iii) cov (W,Z) = (cov (Z,W ))∗ .
Beim Beweis kann man sich auf den Fall E Z = 0, EW = 0 beschranken, weil
cov (Z,W ) = cov(Z − E Z,W − EW ) .
Hier leistet dann die erwahnte Notation gute Dienste, z.B.
cov (Z,W ) = E(Z ·W ∗) = E((W · Z∗))∗ = (cov (W,Z))∗ .
Den Beweis von (i) und (ii) uberlassen wir dem Leser.
Satz Fur jeden komplexen Zufallsvektor Z ist die Covarianzmatrix C := cov (Z,Z)
eine positiv semidefinite (hermitische) Matrix.
Bezeichnungen Eine quadratische Matrix heißt hermitisch, wenn sie mit ihrer hermi-
tisch konjuierten ubereinstimmt
C hermitisch ⇐⇒ C = C∗ ⇐⇒ ckj = ckj fur alle j, k .
Eine hermitische Matrix C heißt positiv semidefinit, wenn
ξ · C · ξ∗ ≥ 0 fur alle Zeilen ξ ;
sie heißt positiv definit, wenn
ξ · C · ξ∗ > 0 fur alle ξ 6= 0 .
Eine positiv semidefinite Matrix ist (in unserer Terminologie) immer auch hermitisch.
Beweis des Satzes Jede Linearkombination ξZ der Komponenten von Z hat eine
nichtnegative Varianz
0 ≤ var (ξZ) = E(|ξ · (Z − E Z)|2)
Andererseits gilt
var (ξZ) = cov (ξZ, ξZ) = ξ · cov(Z,Z) · ξ∗
var ξZ = 0 ⇐⇒ Z = E Z fast sicher .
Sprechweise (”Rang“) Ein Zufallsvektor Z der Lange m heißt ein Zufallsvektor
vom Rang r, wenn die Covarianzmatrix den Rang r hat. Er heißt Zufallsvektor von vollem
Rang, wenn die Covarianzmatrix nichtsingular (d.h. invertierbar) ist.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
1. COVARIANZEN IM KOMPLEXEN FALL 5
Satz Wenn Z die Lange m und den Rang r hat, dann ist
ξ : ξCξ∗ = 0 = ξ : var (ξZ) = 0
ein (m − r)–dimensionaler Vektorraum von Zeilen. Die Verteilung L(Z − E Z) ist auf den
r–dimensionalen Bildraum der Abbildung w 7−→ Cw konzentriert. (Wir nennen diesen
Bildraum den Spaltenraum der Matrix C.)
Beweis o.B.d.A. E Z = 0
1) Wir zeigen ξCξ∗ = 0 ⇐⇒ ξC = 0. Die eine Richtung ist trivial; die andere benutzt
ganz wesentlich die Semidefinitheit.
Wir mussen zeigen ξCξ∗ = 0 =⇒ ξCη∗ = 0 fur alle η.
(Bemerke: ηCξ∗ = ξCη∗).
Sei ξ so daß ξCξ∗ = 0; η ist beliebig. Es gilt fur alle λ ∈ C
0 ≤ (ξ + λη)C(ξ + λη)∗ = ξCξ∗ + |λ|2 · ηCη + ληCξ∗ + ξCη∗ · λ= |λ|2 · ηCη∗ + 2 ·R e(λ · ηCξ∗) .
Daraus folgt, daß der zweite Term verschwindet.
2) Der Rest ist einfache lineare Algebra.
K := ξ : ξC = 0 ist der Losungsraum eines linearen Gleichungssystems; er hat die
Dimension m− r. Fur eine m–Spalte z gilt
ξz = 0 fur alle ξ ∈ K ⇐⇒ ∃ w : z = Cw ,
denn der Bildraum der Abbildung w 7−→ Cw ist ein r–dimensionaler Vektorraum, der
enthalten ist in dem Vektorraum U := z : ξz = 0 fur alle ξ ∈ K, welcher ebenfalls
die Dimension r hat.
Wegen der Annahme E Z = 0 bedeutet
0 = var (ξZ) = E |ξZ|2 , daß ξZ fast sicher verschwindet ,
d.h. daß L(Z) auf z : ξz = 0 konzentriert ist.
Also ist L(Z) auf z : z = Cw konzentriert. Fur die ξ außerhalb K ist var (ξZ) echt
positiv.
Corollar Der Zufallsvektor BZ hat vollen Rang genau dann, wenn die Matrix BC
vollen Rang hat.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
1. COVARIANZEN IM KOMPLEXEN FALL 6
Beweis ξBC = 0 ⇐⇒ (ξB)C(ξB)∗ = 0 ⇐⇒ ξ · (BCB∗) · ξ∗ = 0. Im Falle, daß BZ
vollen Rang hat, ist BCB∗ positiv definit und nur fur ζ = 0 gilt ζ(BC) = 0. Das aber
bedeutet, daß BC vollen Rang hat.
Satz Sei C eine positiv semidefinite n× n–Matrix vom Rang r und B eine r× n–
Matrix, so daß BC den vollen Rang r hat.
Es existiert dann genau eine n× r–Matrix A, so daß
B ·A = Ir (Identitat) , ABC = C .
Beweis Die Gesamtheit aller ζBC ist ein r–dimensionaler Vektorraum von n–Zeilen.
Die Gesamtheit aller n–Zeilen von der Form ξC umfaßt ihn. Da er ebenfalls die Dimension
r hat, sind die beiden Vektorraume gleich. Zu jedem ξ gibt es also eine r–Zeile mit ζ mit
ζBC = ξC. Es gibt genau ein ζ, weil BC den Rang r hat und daher das inhomogene
lineare Gleichungssystem nur eine Losung hat. Die Abbildung, die jedem ξ die Losung ζ
zuordnet, ist durch eine (n× r)–Matrix A gegeben ζ = ξA.
Fur alle ξ von der Form ξ = ζB ist die Losung trivialerweise gleich ζ.
(ζB)A = ζ fur alle ζ. Das liefert BA = Ir .
Fur alle ξ haben wir (ξA)BC = ξC; also ABC = C.
Satz Sei Z ein Zufallsvektor der Lange n mit dem Rang r. Es existiert dann ein
Zufallsvektor W von der Form W = B ·(Z−E Z) vom vollen Rang r, und eine n×r–Matrix
A, so daß
Z − E Z = A ·W = AB · (Z − E Z) .
Beweis Wahle eine r × n–Matrix B so, daß B · (Z − E Z) vollen Rang r hat. Ein
solches B gibt es; es kommt nur darauf an, daß BC den Rang r hat. Wenn A zu B
und C wie oben konstruiert ist, also
BA = Ir , ABC = C ,
dann haben wir AB(v) = Cv fur alle v ∈ Cn. Da L(Z−E Z) auf den Raum Cv : v ∈ Cnkonzentriert ist, haben wir
AB(Z − E Z) = Z − E Z fast sicher .
Corollar Sei C positiv semidefinit vom Rang r.
a) Es gibt positiv semidefinite Matrizen Q mit
CQC = C .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
1. COVARIANZEN IM KOMPLEXEN FALL 7
b) Fur jedes E mit EC = 0 erfullt auch
Q+E∗E
die Bedingung in a).
c) Wenn E den Rang n− r hat und EC = 0, dann ist Q+ εE∗E positiv definit fur
jedes ε > 0.
Beweis
a) Sei B eine r × n–Matrix, so daß BCB∗ vollen Rang hat.
Q := B∗ · (BCB∗)−1 ·B
leistet das Verlangte. Sei namlich A wie oben zu C und B konstruiert
BA = Ir , ABC = C .
Es gilt dann
CQC = CB∗ · (BCB∗)−1 ·B · (CB∗A∗) = CB∗A∗ = C .
b) ist trivial
c) Sei E eine solche Matrix.
x∗(Q+E∗E)x = 0 =⇒ Ex = 0 und x∗Qx = 0 .
Jedes x mit Ex = 0 hat die Gestalt x = Cv.
0 = x∗Qx = v∗CQCv = v∗Cv =⇒ Cv = 0 =⇒ x = 0 .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
1. COVARIANZEN IM KOMPLEXEN FALL 8
Anhang 1 Diagonalform
Eine Diagonalmatrix vom Format n × n ist genau dann positiv semidefinit vom Rang r,
wenn n− r der Diagonalelemente verschwinden und die ubrigen r echt positiv sind.
Man lernt in der linearen Algebra, daß man jede hermitische Matrix H auf Diagonalgestalt
bringen kann; es existiert eine Matrix U mit
U · U∗ = I und U ·H · U ∗ = D Diagonalmatrix .
Wir wollen den Beweis diese Theorems skizzieren. Betrachte das Problem der”Eigenzeilen“.
Fur gewisse Zahlen λ ∈ λ1, . . . λn, namlich die Nullstellen des charakteristischen Polynoms
der Matrix H, gibt es Zeilen ξ mit ξH = λ · ξ.Seien ξ(1), ξ(2), . . . , ξ(n) so, daß
ξ(j) ·H = λj · ξ(j) fur j = 1, 2, . . . , n .
Wir normieren die ξ(j) so, daß ξ(j) · ξ(j)∗ = 1.
Wenn die λj paarweise verschieden sind, sind die ξ(j) damit bereits bestimmt; wenn das cha-
rakteristische Polynom Mehrfachnullstellen hat, dann ist noch eine kleine Zusatzuberlegung
anzustellen, um zu sichern, daß man die ξ(j) so wahlen kann, daß
ξ(j) · ξ(k)∗ = δjk fur alle j, k.
Wir fassen die Zeilen ξ(j) zu einer n×n–Matrix U zusammen. Wir haben dann einerseits
UU∗ = I und andererseits
U ·H =
λ1
0. . .
0
λn
U = D · U
also U ·H · U ∗ = DU · U∗ = D (Diagonalmatrix).
Die hermitische Matrix H ist genau dann eine positiv definite Matrix vom Rang r, wenn
D positivdefinit ist vom Rang r.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
1. COVARIANZEN IM KOMPLEXEN FALL 9
Anhang 2 Ausgeglichene Zufallsvektoren
Sprechweisen
a) Eine komplexwertige Zufallsgroße
Z = X + iY , X und Y reell ,
nennen wir ausgeglichen (in Real– und Imaginarteil), wenn
var X = var Y und cov (X,Y ) = 0
m.a. Worten, wenn cov (Z,Z) = 0.
b) Einen Zufallsvektor Z nennen wir ausgeglichen, wenn ξZ ausgeglichen ist fur jede
Zeile ξ, d.h wenn cov (Z,Z) = 0.
Bemerke Wenn Z ausgeglichen ist, dann auch AZ fur jede komplexe Matrix.
Satz Sei Z = X + iY ein Zufallsvektor mit der Covarianzmatrix
C = S + iT , S und T reell .
S ist symmetrisch und T antisymmetrisch. Wenn Z in Real– und Imaginarteil ausgeglichen
ist, dann gilt
cov
((X
Y
)(X
Y
))=
1
2·(S −TT S
).
Beweis
cov (Z,Z) = cov (X + iY,X + iY )
= cov (X,X) + cov (Y, Y ) + icov (Y,X) − icov (X,Y )
cov (Z,Z) = cov (X + iY,X − iY )
= cov (X,X) − cov (Y, Y ) + icov (Y,X) + icov (X,Y ) .
Wenn cov (Z,Z) = 0, dann haben wir
cov (X,X) = cov (Y, Y ) =1
2S
cov (Y,X) = −cov (X,Y ) =1
2T .
Corollar Wenn Z in Real– und Imaginarteil ausgeglichen ist und die Komponenten
von Z unkorreliert sind, dann sind auch die Real– und Imaginarteile unkorreliert.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
1. COVARIANZEN IM KOMPLEXEN FALL 10
Satz Seien Z und W komplexe Zufallsvektoren mit
cov (Z,Z) = C = cov (W,W ) .
Wenn Z und W unabhangig sind, dann ist
1√2
(Z + iW )
ausgeglichen mit der Covarianzmatrix C.
Beweis
1) Sind Z und W unkorreliert mit cov (Z,W ) = 0, dann gilt
2 · cov(
1√2
(Z + iW ),1√2
(Z + iW )
)= cov (Z,Z) + cov (W,W ) .
2) Wenn cov (Z,W ) = 0, dann gilt auch
cov (W,Z) = (cov (Z,W ))∗ = cov (Z,W ))> = 0
2 · cov(
1√2
(Z + iW ),1√2
(Z −iW )
)
= cov (Z,Z)− cov (W,W ) + icov (W,Z) + icov (Z,W )
= cov (Z,Z)− cov (W,W ) = 0
d.h. 1√2
(Z + iW ) ist ausgeglichen in Real– und Imaginarteil.
Bemerke Um die Ausgeglichenheit zu erschließen, brauchen wir nicht die Un-
abhangigkeit; es genugt zu fordern, daß
cov (W,W ) = cov (Z,Z), cov (Z,W ) = 0, cov (Z,W ) = 0 .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
2. LINEARES FILTERN UND DIE NORMALGLEICHUNG 11
2 Lineares Filtern und die Normalgleichung
Zur Problemstellung des linearen Filterns
Ein Sender sendet eine Folge von Signalen
. . . , S−1, S0, S1, S2, . . .
(Wir nehmen hier an, daß die Sj komplexwertig sind. In der Praxis werden die Sj meist
Zahlentupel sein.)
Wir modellieren die Folge der Sj als einen Zufallsvektor S mit Erwartungswert 0 und
bekannter Covarianzmatrix. Der Empfanger, der das Signal nicht storungsfrei und auch nicht
vollstandig empfangen kann, will dennoch gewisse Linearkombinationen der Komponenten
des Signals
λ · S = λ1 · S1 + λ2 · S2 + . . .+ λp · Sp
aus der Folge Z, die er empfangt, moglichst gut rekonstruieren. Stellen wir uns z.B. vor, daß
der”Ubertragungskanal“ das Signal S mit einem
”Rauschen“ R additiv uberlagert und
daß dem Empfanger der Vektor
Z = M ·(S
R
)= M ·W
zuganglich wird. (M ist eine bekannte nichtzufallige Matrix.) In der linearen Theorie, die
uns hier interessiert, soll die”Pradiktion“ von λ · S durch eine Linearkombination der
empfangenen Zj bewerkstelligt werden. Der Pradiktionsfehler λ · S − η ·Z soll durch
passende Wahl von η (im Mittel!) moglichst klein gemacht werden. Als passendes Maß
fur den Pradiktionsfehler im Mittel gilt in der linearen Theorie die mittlere quadratische
Abweichung
E |λS − η Z|2 .
Da wir es hier vorerst mit Zufallsgroßen mit Erwartungswert = 0 zu tun haben, ist hier der
mittlere quadratische Fehler gleich der Varianz.
Satz (Optimale lineare Filter) Sei Z = M ·W , wo M eine m× n–Matrix und
W ein Zufallsvektor ist mit
EW = 0 , cov (W,W ) = C.
a) Zu jeder n–Zeile ξ gibt es genau eine Zufallsgroße von der Form η Z mit
var (ξW − η Z) = min var (ξW − ηZ) .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
2. LINEARES FILTERN UND DIE NORMALGLEICHUNG 12
b) Die m–Zeile η liefert genau dann das optimale η Z, wenn
η ·MCM ∗ = ξCM∗ .
c) Es existiert eine n×m–Matrix N mit
(I −NM)CM ∗ = 0 (”Normalgleichung”’) .
Jede Losung N der Normalgleichung liefert zu jedem ξ ·W den optimalen linearen
Pradiktor (ξ N) · Z = η Z.
Beweis
1) Wenn N die Normalgleichung lost, dann heißt das, daß die Zufallsvektoren W −NZund Z unkorreliert sind; denn
cov (W −NZ,Z) = cov (W −NMW,MW )
= CM∗ −NMCM∗ = (I −NM)CM ∗ .
2) Nehmen wir an, wir hatten eine Losung der Normalgleichung. Fur beliebiges ξ, η = ξN
und beliebiges η gilt dann
var (ξW − ηZ) = var (ξW − η Z + (η − η)Z)
= var (ξW − η Z) + var ((η−η)Z) + 2 ·Re(cov (ξW − η Z, (η−η)Z)
= var (ξW − η Z) + var ((η−η)Z) ,
denn
cov (ξW − η Z, (η−η)Z) = ξ · cov (W −NZ,Z) · (η − η)∗ = 0 .
var (ξW − ηZ) ist also genau dann minimal, wenn der zweite Summand verschwindet,
d.h. wenn
(η−η)MCM ∗ · (η−η)∗ = 0
oder, aquivalent damit, wenn
(η−η)MCM ∗ = 0 .
3) Wir zeigen nun, daß die Normalgleichung mindestens eine Losung besitzt. Jede Zeile
von N ergibt sich als Losung eines inhomogenen linearen Gleichungssystems
N · (MCM ∗) = C ·M∗ .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
2. LINEARES FILTERN UND DIE NORMALGLEICHUNG 13
Die Gleichungssysteme sind losbar, wenn jede Zeile von CM ∗ als Linearkombination
der Zeilen von MCM ∗ dargestellt werden kann. Die Bedingung besagt, daß fur jede
Linearkombination der Zeilen von CM ∗, fur jede Zeile ξCM ∗ also, ein η existiert,
so daß
ηMCM∗ = ξ · CM∗ .
Die Existenz beweisen wir durch ein Rang–Argument. Das Bild der Abbildung
η 7−→ ηMCM ∗ = (ηM) · CM ∗
hat die Dimension d = Rang (MCM ∗). Dieses Bild ist andererseits im Bild der Ab-
bildung
ξ 7−→ ξCM ∗
enthalten. Wir sind fertig, wenn wir zeigen, daß auch dieses Bild die Dimension d hat,
d.h. daß CM ∗ den Rang d hat. In der Tat haben MCM ∗ und CM∗ denselben
Rang. Wir haben namlich oben gezeigt ξCξ∗ =⇒ ξC = 0.
Bemerkung Man kann das Resultat auch so ausdrucken: Jede Losung N der Nor-
malgleichung lost das Problem des linearen Filterns in optimaler Weise. Die Schatzung von
W aufgrund von Z = M ·W wird von NZ mindestens genau so gut geleistet wie von
irgendeinem anderen linearen Verfahren. Die Covarianzmatrix des Schatzfehlers W −NZ ist
kleiner oder gleich der Covarianzmatrix des Fehlers bei jedem anderen linearen Verfahren.
Sprechweise Von zwei positiv semidefiniten Matrizen C1 und C2 sagt man, C1 sei
kleiner oder gleich C2, C1 C2, wenn
ξC1ξ∗ ≤ ξC2ξ
∗ fur alle ξ ,
wenn also die Differenz C2 − C2 positiv semidefinit ist.
Bemerke Wenn Z vollen Rang hat, dann ist N eindeutig bestimmt. cov (Z,Z) =
M · C ·M∗ ist invertierbar und
N = C ·M∗ · (M · C ·M ∗)−1 = cov (W,Z) · [cov (Z,Z)]−1
ist die eindeutig bestimmte Losung der Normalgleichung. Die Formel ist eine direkte Verall-
gemeinerung der Formel fur den Regressionskoeffizienten in der Einleitung. Auch in allgemei-
neren Fallen wird man N als Regressionsmatrix deuten.
Wir diskutieren nun einen Spezialfall, den wir spater unter allgemeineren Bedingungen
wieder aufnehmen werden.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
2. LINEARES FILTERN UND DIE NORMALGLEICHUNG 14
Aufgabe (Lineare Regression)
Gegeben sei eine (m× p)–Matrix B (”Design–Matrix“);
β ist ein Zufallsvektor der Lange p;
ε ist ein Zufallsvektor der Lange m mit E ε = 0, cov (ε, ε) = Cε.
Beobachtet wird der Zufallsvektor
Y = B · β + ε = (B, Im)
(β
ε
).
In Tableau–Form geschrieben
β1 β2 . . . βp
Y1 = b11 b12 . . . b1p + ε1
Y2 = b21 b22 . . . b2p + ε2...
......
...
Ym = bm1 bm2 . . . bmp + εm
Wir nehmen an, daß β und ε unkorreliert sind. Gesucht ist eine p×m–Matrix N , so daß
die Covarianzmatrix von β −N Y minimal ist. In der Sprache von oben: Die Komponenten
βk des”Signals“ β sollen aufgrund der Beobachtungen Yj moglichst gut geschatzt werden;
das”Rauschen“ ε wollen wir hier nicht schatzen.
”Gut“ heißt hier zunachst nur, daß die
Varianz klein sein soll.
Losung Wir haben hier
C = cov
((β
ε
),
(β
ε
))und M = (B, I)
cov(Y, Y ) = (B, I)C
(B∗
I
)= BCβB
∗ + Cε .
Uns interessiert hier nicht die ganze Losung der Normalgleichung sondern nur die ersten p
Zeilen der Losung N .
NMCM∗ = CM∗ mit N =
(N
−
)
(N
−
)(B, I)
(Cβ 0
0 Cε
)(B∗
I
)=
(Cβ 0
− −
)(B∗
I
)
N(BCβB∗ + Cε) = Cβ ·B∗ .
Wenn der Beobachtungsvektor Y = Bβ+ ε vollen Rang hat, dann ist die Losung eindeutig
bestimmt
N = Cβ ·B∗ · (BCβB∗ + Cε)
−1 = cov (β, Y ) · (cov (Y, Y ))−1 .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
2. LINEARES FILTERN UND DIE NORMALGLEICHUNG 15
N berechnet sich also auch formal als die Regression von β auf Y .
Hinweis Die Bezeichnung”Design–Matrix“ kommt aus einem statistischen Kontext,
den wir am Ende des Abschnitts uber BLUE–Schatzung erlautern werden.”Schatzung von
Einflußfaktoren“.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
2. LINEARES FILTERN UND DIE NORMALGLEICHUNG 16
Anhang Projektionen
Eine lineare Abbildung eines Vektorraums V in sich heißt bekanntlich ein”Endomorphis-
mus“. Ein Endomorphismus
π : v 7−→ π(v)
heißt eine Projektion, wenn π(π(v)) = π(v) fur alle v ∈ V. Wenn π eine Projektion ist,
dann auch I − π und es gilt
(I − π)π(v) = 0 fur alle v .
Ein Endomorphismus vom Rang r ist genau dann eine Projektion, wenn er einen r–
dimensionalen Teilraum punktweise festlaßt.
Seien V0 und V1 Teilvektorraume, so daß jedes v in eindeutiger Weise zerlegt werden
kann
v = v0 + v1 mit v0 ∈ V0, v1 ∈ V1 .
Man sagt, V sei die direkte Summe von V0 und V1. Das Paar V0,V1 bildet genau dann
eine direkte Summenzerlegung, wenn der Durchschnitt nur aus dem Nullelement besteht und
die Dimensionen sich zur Dimension von V auf summieren.
Die Abbildung π : v 7−→ v0 heißt die Projektion auf V0 entlang von V1. I − π ist die
Projektion auf V1 entlang von V0.
Beispiel Sei A eine komplexe m × n–Matrix vom Rang r. Die Vektorraume
V0 := x : Ax = 0 und V1 = x : x = A∗t, t beliebig liefern eine direkte Summen-
zerlegung des Raums aller Spalten. Die Dimension von V0 ist namlich n−r, die Dimension
von V1 ist r, und der Durchschnitt besteht nur aus dem Nullelement
x = (ξA)∗, Ax = 0 =⇒ x∗x = ξA · x = 0 =⇒ x = 0 .
A liefert andererseits auch eine direkte Zerlegung des Raums aller m–Zeilen. Jede m–Zeile
η laßt sich in eindeutiger Weise schreiben als
η = η0 + η1 mit η0A = 0, η1 = (Ax)∗ .
Satz (Die Projektion zur Losung der Normalgleichung)
Sei C eine positiv semidefinite n× n–Matrix vom Rang r und M eine m× n–Matrix,
so daß MC den Rang d hat. Sei N eine Losung der Normalgleichung
(In −NM)CM ∗ = 0 .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
2. LINEARES FILTERN UND DIE NORMALGLEICHUNG 17
a) Die Abbildung
π : w 7−→ NMw
projiziert den Spaltenraum T von C auf den d–dimensionalen Spaltenraum von
CM∗ entlang dem (r − d)–dimensionalen Teilraum U = T∩w : Mw = 0. (Den
Spaltenraum von CM ∗ bezeichnen wir mit U⊥; diese Bezeichnung wird spater ihre
Erklarung finden.)
b) Sei W ein Zufallsvektor mit
EW = 0, cov (W,W ) = C .
Betrachte π(W ) = NMW und F = W − π(W ). Es gilt dann cov (π(W ), F ) = 0.
U⊥ ist der Trager von L(π(W )), U der Trager von L(F ).
Beweis
1) Die Matrizen MC und CM ∗ haben den Rang d. Die Normalgleichung zeigt, daß
auch NMCM ∗N∗ und NMC den Rang d haben. Der d–dimensionale Spaltenraum
von CM∗ wird durch π punktweise auf sich abgebildet
NMCM∗ = CM∗ .
Es handelt sich also um eine Projektion des Spaltenraums T von C auf den Spalten-
raum U⊥ von CM∗. Fur alle w mit Mw = 0 gilt π(w) = 0.
2) Fur den projizierten Zufallsvektor π(W ) und den Fehler F gilt
cov (F, π(W )) = cov (I −NM)W,NMW )
= (I −NM) · C ·M ∗N∗ = 0 .
Es gilt außerdem
NMπ(W ) = π(W ) und (I −NM)F = F fast sicher .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
3. BLUE–SCHATZER 18
3 BLUE–Schatzer
Vorbemerkung
1) Vom Problem des linearen Filterns gelangt man am einfachsten dadurch zum Problem
des linearen Schatzens, indem man die Annahme fallen laßt, daß der zugrundeliegende
Zufallsvektor X den Erwartungswert 0 hat. Der Erwartungswert ist (in einem gewissen
Rahmen) unbekannt. Fur die Qualitat eines”Pradiktors“ fur ξX ist nun nicht mehr
allein die Varianz des zufalligen Pradiktionsfehlers ξX − ηY ausschlaggebend. Man
muß das etwaige Verfehlen des Erwartungswertes, den sog. Bias, in Rechnung stellen;
denn die mittlere quadratische Abweichung ist
E |ξX − ηY |2 = var (ξX − ηY ) + | E(ξX) − E(ηY )|2 .
2) Man sagt, die Linearkombination ξX der Komponenten von X sei erwartungstreu
linear schatzbar aufgrund von Y = MX, wenn eine Zeile η existiert mit
E(η Y ) = E(ξX) .
Im allgemeinen existiert nicht zu jedem ξX ein erwartungstreuer linearer Schatzer. In
der BLUE–Theorie, die wir hier behandeln, untersucht man nur diejenigen Zufallsgroßen
ξX, die linear erwartungstreu geschatzt werden konnen; man muß sich also auf einen
Teilraum von n–Zeilen beschranken.
3) Die n–Zeilen ξ, fur welche ξX linear erwartungstreu schatzbar ist, nennen wir die
zulassigen Zeilen. Die Gesamtheit Ξ aller zulassigen Zeilen bildet einen Vektorraum.
Wie groß Ξ ist, hangt nicht nur von M ab, sondern auch von W, der Menge aller in
Betracht gezogenen Erwartungswerte von W . Ohne Beschrankung der Allgemeinheit
nehmen wir an, daß W ein Vektorraum ist, ein Vektorraum von n–Spalten. ξ ist
offenbar genau dann zulassig, wenn die Linearform x 7−→ ξx auf dem Vektorraum
N = x : Mx = 0 ∩W verschwindet
w1, w2 ∈W, Mw1 = Mw2 =⇒ ξw1 = ξw2 .
4) Wenn der Pradiktor ηMX fur ξX erwartungstreu ist, dann bedeutet das fur die
Auswertung des Pradiktors auf x ∈ T+W die Verschiebungsvertraglichkeit
ϕ(·+ w) = ϕ(·) + ξw fur alle w ∈W .
In manchen Betrachtungen in denen es nur um diese Abbildungen geht, will man Erwar-
tungswerte aus dem Spiel lassen. Die Verschiebungsvertraglichkeit bietet eine neutralere
und daher manchmal passendere Vorstellungsweise.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
3. BLUE–SCHATZER 19
Definition Die Zufallsgroße η Y heißt der BLUE zu ξX, wenn
(i) E(η Y ) = E(ξX)
(ii) var (ξX − η Y ) = min .
(BLUE = best linear unbiased estimator)
Es ist offensichtlich, daß fur jedes ξ ∈ Ξ das Minimum angenommen wird; denn die zur
Konkurrenz stehenden ηY , welche ξX erwartungstreu schatzen, bilden einen endlichdi-
mensionalen affinen Raum. Der BLUE fur ξX ist eindeutig bestimmt, wenn es auch im allg.
mehrere m–Zeilen η geben wird, die den BLUE η Y liefern. Diese Eindeutigkeit ergibt sich
aus dem Lemma.
Lemma Seien ψ1(Y ) und ψ2(Y ) erwartungstreue Schatzer fur ϕ(W ). Dann ist
ψ(Y ) = 12(ψ1(Y ) + ψ2(Y )) besser als der schlechtere der beiden. Es gilt namlich fur den
mittleren Fehler des Pradiktors ψ(Y ) : Er ist erwartungstreu und erfullt
E(|ϕ(W )− ψ(Y )|2
)=
1
2(r1 + r2)−
1
4E(|(ψ2(Y )− ψ1(Y )|2
),
wenn ri den mittleren quadratischen Fehler des Pradiktors ϕi(Y ) bezeichnet.
Der Beweis ergibt sich aus der Parallelogrammgleichung.
Wir werden sehen: wenn η1 Y der BLUE fur ξ1W ist und η2 Y der BLUE fur ξ2W , dann
ist (η1 + η2)Y der BLUE fur (ξ1 + ξ2)W .
Satz (Hauptsatz uber BLUE–Pradiktion)
Sei X ein Zufallsvektor mit cov(X,X) = C
und einem unbekannten Erwartungswert ∈W .
Sei M eine Matrix und Y = MX .
Dann gilt
a) Wenn ξ zulassig ist, wenn also ξX uberhaupt linear erwartungstreu schatzbar ist,
dann gibt es auch den BLUE η Y fur ξX.
b) Sei η Y irgendein erwartungstreuer Schatzer fur ξX. Die m–Zeile η liefert genau
den BLUE η Y , wenn
(i) (η− η) w = 0 fur alle w ∈ W = M W
(ii) Es existiert ein y ∈ W, so daß
(ξ − η M)CM ∗ = − y∗ .
c) Die m–Zeilen η MCM ∗ und y∗ sind durch ξ eindeutig bestimmt.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
3. BLUE–SCHATZER 20
Beweis
1) Sei η Y irgendein erwartungstreuer Pradiktor fur ξX. Jeder weitere erwartungstreue
Schatzer hat dann die Gestalt
(η+η0)Y mit η0 w = 0 fur alle w ∈ W .
Genau dann liefert η = η+η0 den BLUE η Y , wenn ξX − η Y unkorreliert ist mit
allen η0Y mit
η0 ∈M0 := η0 : η0 w = 0 fur alle w ∈ W .0 = cov (ξX − η Y, η0Y ) = (ξ − η M)CM ∗η∗0 fur alle η0 ∈M0 .
2) Die Zeile y∗ annulliert genau dann alle Spalten η∗0 , wenn
η0 · y = 0 fur alle η0 ∈M0, d.h., wenn also y ∈ W .
3) Wenn η1 und η2 den (bekanntlich) eindeutig bestimmten BLUE fur ξX liefern,
dann gilt
(η2− η1)Y = 0 fast sicher, also (η2− η1)MCM∗ = 0 .
Gegeben seien C, M und W.
Es ist eine Aufgabe fur die Matrizenrechnung, zu jeder zulassigen n–Zeile ξ eine m–Zeile
η zu bestimmen, die den BLUE η MX fur ξX liefert. Man kann diese Zuordnung durch
eine Matrix ausdrucken, die aber nicht eindeutig bestimmt ist. Die Konstruktionen werden
spater durchsichtig werden, wenn wir geometrische Vorstellungen mit ihnen verbinden.
Unserer ersten geometrisch–analytischen Formulierung des Hauptsatzes stellen wir nun noch
zwei weitere Formulierungen an die Seite, die das BLUE–Problem naher an die Matrizenrech-
nung heranfuhren.
Bezeichnungen
Gegeben seien C,M,W.
T sei der Spaltenraum von C, das ist der lineare Trager von L(X − E X) .
T sei der Spaltenraum von C = MCM∗ .
W sei das M–Bild von W, also der Vektorrraum der moglichen Erwartungswerte von
Y = MX .
Wir bezeichnen weiter V = W∩ T .
B sei eine m× p–Matrix mit Zeilenraum V .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
3. BLUE–SCHATZER 21
Nichtausgearteter Fall
Wir sagen, das BLUE–Proflem zu C,M,W sei nichtausgeartet, wenn das M–Bild von
W im Spaltenraum von C = MCM∗ enthalten ist, W = V. In siesem Falle haben die
Verteilungen L(Y ) zu allen moglichen Erwartungswerten E Y ∈ W denselben linearen
Trager T.
Bemerke Im ausgearteten Falo beinhaltet jeder Beobachtungsvektor y eine sichere
Inforamtion, die information namlich, daß fur den unbekannten Erwartungswert E X nur
ein echter Teilraum von W in Betracht kommt.
Hauptsatz (2. Formulierung)
Zu C,M sei N eine Losung der Normalgleichung
(I −NM)CM ∗ = 0 .
Es sei ξ zulassig fur W und η Y irgendein erwartungstreuer Schatzer fur ξX. Setze
η = ξN . Dann gilt
a) Die m–Zeile ζ liefert genau dann den BLUE (η+ ζ)Y fur ξX, wenn gilt
(i) ζ ω = (η− η) ω fur alle ω ∈ W
(ii) ζ C ∈ V∗
b) ζ C = (η− η) C ist durch ξ eindeutig bestimmt.
Beweis
a) Genau dann, wenn ζ die Bedingung (i) erfullt, gilt fur alles ω
ξω = η Mω = ηMω + (η− η)Mw = ηMω + ζ Mω = (η+ ζ)Mω .
Genau in diesem Fall liefert also η = η+ζ einen erwartungstreuen Schatzer.
b) (ξ − (η+ζ)M)CM ∗ = −ζMCM ∗ = −ζ C.
Nach (ii) in der ersten Fomulierung liefert η = η+ ζ genau dann den BLUE, wenn
ζ C ∈ V∗ .
Bemerkungen
1) Im nichtausgearteten Fall gilt es zur gegebenen m–Zeile ζ := η− η eine Zeile ζ zu
finden, so daß
(i) ζ B = ζ B = (η− η) B(ii) ζ C ∈ V∗
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
3. BLUE–SCHATZER 22
2) Im ausgearteten Fall bestimmen wir ebenfall ein solches ζ zu ζ. Dieses liefert aber
noch nicht den BLUE fur ξX. Den BLUE schreiben wir in der Form
η Y =(ζ+ζ ′
)Y .
ζ ′ ist irgendeine Linearform auf T+ W, welche auf T verschwindet und auf W
liefert
ζ ′ ω = (η− η− ζ) ω .
Da die Linearform (η− η− ζ) auf V = W∩ T verschwindet, existieren ζ ′ dieser Art.
ζ ′ C = 0.
3) Fur die”Korrektur“ (ζ +ζ ′)Y zur linearen Regression η Y haben wir also in jedem
Fall
var((ζ +ζ ′)Y ) = ζ C ζ∗ .
4) Es gilt
var(ξX − η Y ) = var(ξX − η Y ) + var(ζ Y ) ,
weil ξX − η Y mit Y unkorreliert ist
(ξ − ηM)CM ∗ = 0 .
Die Zahl ζ C ζ∗ = var(ζ Y ) nennt den Preis, der (in der Wahrung der Varianz des
Pradiktionsfehlers) zu zahlen ist, wenn der Statistiker darauf besteht, daß ξX W–
verschiebungsinvariant zu schatzen ist, was naturlich bei zulassigem ξ uberhaupt
moglich ist.
Satz (”Orthogonale Projektion“)
Gegeben sei eine positiv semidefinite m×m–Matrix C und eine m× p–Matrix B, deren
Spaltenraum V im Spaltenraum T von C enthalten ist.
a) Es existiert dann eine Projektion P auf V mit
P C = P C P ∗ = C P ∗ .
b) Fur jede m–Zeile ζ und ζ = ζ P gilt
(i) ζ B = ζ B
(ii) ζ B ∈ V∗
c) Fur eine m–Zeile ζ gilt ζ C ∈ V∗ genau dann, wenn ζ C = ζ P C.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
3. BLUE–SCHATZER 23
Beweis
1) Sei Q hermitisch mit
C Q C = C (”Pseudoinverse“) .
Fur alle y aus dem Spaltenraum von C gilt
C Q y = y ,
es gilt also auch
C Q B = B .
2) Betrachte die Matrizen
A := Q B und C := A∗ C A .
Es gilt dann
B = C A und C = A∗ C Q C A = B∗ Q B .
3) Die m× p–Matrix F ∗ sei eine Losung der Normalgleichung
(I − F ∗A∗) C A = 0 oder F ∗ C = B .
Die m× p–Matrix P := F ∗A∗ leistet dann das Verlangte. P hat einerseits hochstens
den gleichen Rang wie B, andererseits gilt P B = B wegen
0 = (I − P ) C C = (I − P ) B .
Somit ist y 7−→ P y eine Projektion auf V. Damit ergibt sich ubrigens auf der Seite
der Zeilen
ζ P = 0 ⇐⇒ ζ B = 0 .
4) (I − P ) C P ∗ = (I − P ) C A F = 0, also
C P ∗ = P C P ∗ = P C .
5) Fur jedes ζ = ζ P gilt
ζ C = ζ P C = ζF ∗A∗ C = ζF ∗B∗ ∈ V∗ .
Umgekehrt gilt ζ C ∈ V∗ =⇒ ζ C = ζ P C; denn
ζ C ∈ V∗ ⇐⇒ C ζ∗ ∈ V ⇐⇒ (I − P ) C ζ∗ = 0
⇐⇒ ζ C(I − P ∗) = 0 ⇐⇒ (I − P ) C ζ∗ = 0
⇐⇒ ζ C = ζ P C .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
3. BLUE–SCHATZER 24
Satz (Hutmatrix bei vollem Rang)
Konstruiere Q, F ∗ zu C, B wie im vorigen Satz:
C Q C = C , F ∗C = B .
Wenn B den Rang p hat, dann ist die p× p–Matrix
C =˜B Q B
∗
invertierbar und es gilt
P = F ∗B∗ Q = (B C−1B∗) Q = B(B∗ Q B)−1B∗ Q .
(Diese Matrix P heißt die Hutmatrix; sie setzt dem ζ = η− η den Hut auf ζ = ζ P .
Wir kommen zu der dualen Betrachtung.
Hauptsatz (3. Formulierung)
Sei C,M,W nichtausgeartet und
(I −NM)CM ∗ = 0 .
Sei P zu C, B konstruiert wie im Satz. Fur ein ξX mit erwartungstreuem Schatzer η Y
und η = ξN ist dann
(η+(η− η) P )Y
der BLUE fur ξX .
Es ist bereits alles bewiesen. Wir bemerken, daß man eine Losung N der ersten Normal-
gleichung sehr leicht bekommt, wenn man Q schon berechnet hat. N := CM ∗ Q lost die
Normalgleichung, denn C Q C = C impliziert
CM∗ Q C = CM∗ .
BLUE–Schatzung von Einflußfaktoren
Ein Statistiker hat in m Situationen den Wert einer Große p beobachtet. Im Hinblick auf
das, was wir hier vorhaben, nennen wir die Große y den Regressanden. Die Umstande der
Beobachtung waren nicht identisch. Die Werte gewisser”erklarender“ (oder
”prognostischer“)
Variabler waren nicht notwendigerweise dieselben; wir sprechen neutral von Regressoren und
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
3. BLUE–SCHATZER 25
wir denken dabei an p Variable, die fur jede Beobachtungssituation auf gewisse Werte
festgelegt worden sind. Im sog. allgemeinen linearen Modell geht man davon aus, daß die
Regressoren reelle (oder komplexe) Großen sind und den Regressanden in affiner Weise bis
auf einen zufalligen Fehler bestimmen. Die Werte der Regressoren sind bekannt; man faßt
sie in derDesignmatrix B (vom Format m × p) zusammen. Unbekannt sind aber die
Koeffizienten der linearen Abhangigkeit. Diese sollen geschatzt werden, und zwar in linearer
erwartungstreuer Weise. Es geht um die BLUE–Schatzung von”Einflußfaktoren“.
Zur Notation Die Design–Matrix B wird weithin mit X bezeichnet. Damit appelliert
man an die Gewohnheit, bei einer”funktionellen“ Abhangigkeit zwischen
”abhangigen“ x
und”unabhangigen“ y zu unterscheiden. Man schreibt y = f(x)+ε. In unserem Falle ware
f(·) eine affine Funktion und ε der zufallige Fehler.
In unserem Ansatz ist der Buchstabe X schon anderweitig verbraucht. X bezeichnet bei
uns einen im Hintergrund stehenden Zufallsvektor der Lange n, aus welchem der Beobach-
tungsvektor Y (der Lange m) durch eine lineare Abbildung (partielle Beobachtung des
Zufallsgeschehens) hervorgegangen ist.
Es ist ziemlich weit verbreitet, die Einflußfaktoren als eine p–Spalte zu verstehen und mit
β = (β1, . . . , βp) zu bezeichnen. Den ersten Einflußfaktor reserviert man ublicherweise fur das
konstante Glied im geforderten affinen Zusammenhang. Dies bedeutet fur die Design–Matrix
B, daß ihre erste Spalte aus lauter Einsen besteht
y = B · β + ε .
(Die Notation y = X · β + ε kommt fur uns aus den genannten Grunden nicht in Betracht.)
Im klassischen Ansatz der linearen Regressionsanalyse modelliert man den”Fehler“ ε als
einen Zufallsvektor mit
E ε = 0 , cov(ε, ε) = Cε ,
wobei Cε im wesentlichen als bekannt vorausgesetzt wird. man schreibt cov(ε, ε) = σ2 ·Cε,
wenn man einen unbekannten Parameter der Genauigkeit in Betracht ziehen will.
Die unbekannten Einflußfaktoren β modelliert man klassischerweise als unbekannte Kon-
stanten. Es wird aber (aus unserer Perspektive) ubersichtlicher, wenn man auch β als einen
Zufallsvektor begreift, wobei
E β unbekannt , cov(β, β) = Cβ unbekannt , und cov(ε, β) = 0 .
Wir haben dann also fur den Beobachtungsvektor Y
E Y = B · E β , cov(Y, Y ) = Cε +BCβB∗ =: C .
Dieses Modell fugt sich in den obigen Ansatz ein, wenn wir einen Zufallsvektor X der Lange
n = m+ p einfuhren und C,M,W wie folgt definieren.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
3. BLUE–SCHATZER 26
Modell der klassischen linearen Regression
X =
(β
ε
), M = (B, Im) , C =
Cβ 0
0 Cε
, W =
(t
0
): t ist p–Spalte
.
Beachte
1) Beobachtet wird wie gewohnt
Y = MX = Bβ + ε .
Wenn E X durch t bestimmt ist, dann gilt
E t Y = B · E t β = B · t .
Der Vektorraum W der moglichen Erwartungswerte ist der Spaltenraum V der Matrix
B.
2) Die Matrix B kommt in zweierlei Funktion vor. Sie determiniert die Matrix M der
partiellen Beobachtung und gleichzeitig den Vektorraum V. Im Vorausgehenden waren
keine Bindungen zwischen C,M und W gefordert. Insofern haben wir es mit einem
Spezialfall der obigen Uberlegungen zur BLUE–Schatzung zu tun. Der Hauptsatz nimmt
spezieller Formen an.
3) Wir wollen nicht das”Rauschen“ ε schatzen, sondern nur gewisse Linearkombinationen
der Einflußfaktoren. Die n–Zeile
ξ = (λ, o) = (λ1, . . . , λp, 0, . . . , 0)
ist genau dann zulassig, wenn λ im Zeilenraum von B liegt.
E t(ξX) = E t(η Y ) fur alle t ⇐⇒ λ = η B .
Satz Sei B eine nichtzufallige m× p–Matrix. Sei ε ein Zufallsvektor mit
E ε = 0 , cov(ε, ε) = Cε
Sei β unkorreliert zu ε mit
E β unbekannt , cov(β, β) = Cβ .
Y = Bβ + ε
Es gilt dann: η Y ist genau dann ein BLUE fur eine Linearkombination der Einflußfaktoren,
wenn eine p–Zeile λ und eine p–Spalte t existieren, so daß
η C = (λCβ + t∗)B∗ mit C = Cε +BCβB∗
η B = λ .
Es handelt sich um den BLUE fur λ · β.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
3. BLUE–SCHATZER 27
Beweis Wir stutzen uns auf die erste Formulierung des Hauptsatzes. Die Forderung (ii)
aus dem BLUE η Y fur λβ lautete
((λ, 0) − η M)CM ∗ ∈ V∗ ,
anders geschrieben: Es existiert t, so daß
(ii) η C = λCβB∗ + t∗B∗ = (λCβ + t∗)B∗ .
Die Bedingung (i) an den BLUE η Y hat die Form
(i) η B = λ .
Spezialfall Cβ = 0 .
Genau dann ist η Y der BLUE fur eine Linearkombination der Einflußfaktoren, wenn Cε · η∗im Spaltenraum B liegt.
Beispiel Es wurden Zahlenpaare
(x1, y1), (x2, y2), . . . , (xm, ym)
beobachtet. Man mochte sie als Punkte auf einer Geraden y = α+ βx verstehen, die in der
y–Koordinate”fehlerhaft“ beobachtet worden sind. Ein konstanter und ein linearer Effekt
beeinflußt die Beobachtungswerte. Die Starke dieser Effekte wird durch α bzw. β beschieben.
Diese”Faktoren“ sollen geschatzt werden. Man deutet die Ergebnisse als Realisation eines
Zufallsvektors Y der Lange M
Y1
Y2
...
Ym
=
α β
1 x1
1 x2
......
1 xm
+
ε1
ε2...
εm
Y = B ·(α
β
)+ ε mit E ε = 0, cov (ε, ε) = Cε .
Im klassischen Fall werden α and β als nichtzufallig angesehen, Cβ = 0. Außerdem
nimmt man die εi als unkorreliert an mit var εj = σ2j > 0 fur alle j. Q = C−1
ε ist die
Diagonalmatrix mit den Eintragen qj = σ−2j . Wir berechnen
B∗QB =
(b11 b12
b21 b22
).
b11 = q1 + q2 + . . .+ qm , b12 = b21 = q1x1 + q2x2 + . . .+ qmxm
b22 = x1q1x1 + x2q2x2 + . . .+ xmqmxm .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
3. BLUE–SCHATZER 28
Nehmen wir b11 = 1 an und setzen wir
x = q1x1 + . . .+ qmxm , τ2 =∑
qj(xj − x)2 = b22 − x2 .
Es ist nicht schwer, in diesem Fall zwei BLUE–Schatzer zu erraten. Betrachten wir z.B.
η1 Y := Y := q1Y1 + q2Y2 + . . .+ qmYm .
Der Erwartungswert ist
E Y = q1(α+ βx1) + . . .+ qm(α+ βxm) = α+ β x .
Also ist Y ein erwartungstreuer Schatzer fur die Linearkombination (1, x)
(α
β
)der
unbekannten Parameter.
Betrachten wir außerdem
η2 Y := (x1 − x)q1 · Y1 + (x2 − x)q2 · Y2 + . . .+ (xm − x)Ym .
Der Erwartungswert ist
E(η2 Y ) =∑
(xj − x)qj · E Yj =∑
(xj − x)qj(α+ βxj) = β · τ2 .
Also ist η2 Y ein erwartungstreuer Schatzer fur die Linearkombination (0, τ 2)
(α
β
).
Aus der obigen Bemerkung ergibt sich leicht, daß η1 Y und η2 Y in der Tat BLUE–Schatzer
sind. Wir mussen nur nachweisen, daß Cε η∗i im Spaltenraum von B liegt. Cε hat in der
Diagonalen die Eintrage σ2j = 1
qj. Daher
(η1
η2
)Cε =
(q1 q2 . . . qm
(x1 − x)q1 (x2 − x)q2 . . . (xm − x)qm
)Cε
=
(1 1 . . . 1
(x1 − x) (x2 − x) . . . (xm − x)
)
=
(1 0
−x 1
)(1 1 . . . 1
x1 x2 . . . xm
)=
(1 0
−x 1
)B∗
Die BLUE–Schatzer aller weiteren Linearkombinationen von α und β ergeben sich durch
Linearkombination der hier erratenen BLUE–Schatzer.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
3. BLUE–SCHATZER 29
Beispiel Ein Sender sendet ein periodisches Signal
S(t) = α+ β · eiωt .
Dem Empfanger des gestorten Signals ist die Kreisfrequenz ω bekannt, nicht aber der Mittel-
wert α und die komplexe Amplitude β. Der Empfanger mochte aufgrund von verrauschten
Beobachtungen zu den Zeitpunkten 1, 2, . . . ,m die Linearkombinationen von α und β
moglichst gut schatzen.
Yj = α+ βeiωj +Rj j = 1, . . . ,m
Wir nehmen an
Y1
Y2
...
Ym
=
α β
1 eiω
1 eiω2
......
1 eiωm
+
R1
R2
...
Rm
E Rj = 0 , var Rj = 1
cov (Rj , Rk) = a|j−k| fur j 6= k
Die Storungen Rj sind hier also nicht als unkorreliert angenommen, sondern (gemaß ei-
nem beliebten Modell) mit dem Abstand der Zeitpunkte geometrisch abfallend. Naheliegende
Schatzer fur den Mittelwert α und die Amplitude sind
ηY =1
m(Y1 + . . . Ym)
ζY =1
m(e−iω · Y1 + . . .+ e−iωm · Ym) .
Wenn ω = 2π · `m mit ganzzahligem ` 6= 0, dann konnen wir den Erwartungswert exakt
ausrechnen
E(ηY ) = α+ β · 1
m(eiω + eiω2 + . . .+ eiωm) = α
E(ζY ) = β + α · 1
m(e−iω + e−iω1 + . . .+ e−iωm) = β .
Unsere Schatzer sind aber nur im Fall a = 0 BLUE–Schatzer. Fur a 6= 0 sind die Zeilen
η C und ζ C jedenfalls annahernd gleich geeigneten Linearkombinationen der Zeilen von
B∗. Dies sieht man folgendermaßen:
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
3. BLUE–SCHATZER 30
Nehmen wir den Fall, wo α und β nicht als zufallig betrachtet werden, wo also
C = CR =
1 a a2 · · · am−1
a 1 a · · · am−2
a2 a 1 · · · ......
......
. . . a
am−1 am−2 · · · a 1
Die Betrage werden geometrisch klein, wenn man sich von der Diagonale entfernt. Wenn wir
die Spalten in der Mitte betrachten, dann haben wir approximativ
1
m(1, 1, . . . , 1) · CR ≈ (. . . , 1, 1, 1, . . .)
1
m(1 + 2a+ 2a2 + . . .)
1
m(e−iω, e−iω2, . . . , e−iωm) · Cr ≈ (. . . , eiωj , e−iω(j+1), . . .) · const .
Man kann sich vorstellen, daß man fur den BLUE die Beobachtungen am Rande der Serie
etwas anders gewichten muß. Eine exakte Berechnung der Korrekturen der wahren BLUEs
η Y und ζ Y gegenuber den approximativen BLUEs, ηY bzw. ζY , die wir erraten haben,
macht aber etwas Muhe.
Unser Satz, der auf der ersten Formulierung des Haupsatzes uber BLUE–Schatzung aufbaut,
gibt eine Anregung, wie man in der klassischen Situation die Gesamtheit aller BLUE–Schatzer
η Y durch die Auflosung von linearen Gleichungssystemen gewinnt.
η C = (λCβ + t∗)B∗
η B = λ .
Als λ kommt jede Linearkombination der Zeilen von B in Betracht. Aus der gegenwartigen
Perspektive haben jedoch die t, die in Betracht kommen, keine uberzeugende Interpretation.
t∗, B∗ = ζ C gewinnt erst dann eine interessante Interpretation, wenn man wie in der zweiten
Formulierung des Hauptsatzes danach fragt, was die Forderung der Erwartungstrue (in der
Wahrung der Varianz) kostet (siehe Abschnitt 9). Die einfache lineare REgression, in welcher
wir auf Erwartungstreue uberhaupt keine Rucksicht nehmen, sondern nur die die Varianz des
Pradiktionsfehlers λβ−ηY klein machen wollen, haben wir am Ende des vorigen Abschnitts
behandelt. Dort war einfach die Gleichung zu losen
η C = λCβB∗ , λ beliebig .
Man kann das BLUE–Problem naturlich auch mit Matrixinversion (bzw. mit der Bestimmung
von Pseudoinversen) angehen. Das entspricht der 3. Formulierung des Hauptsatzes.
Nehmen wir der Einfachheit halber an, daß C den Rang m und B den Rang p hat.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
3. BLUE–SCHATZER 31
Setze Q = C−1
und C = B∗ QB. Fur ein η sind dann aquivalent
1) η Y ist der BLUE fur λβ
2) η B = λ und η C = (λCβ + t∗)B∗ fur ein passendes t.
3) Es gibt ein t, so daß η C = (λCβ + t∗)B∗ und (λCβ + t∗)C = λ.
4) η C = λC−1 ·B+
5) η Y = λ · C−1B∗ Q ·Y fast sicher.
6) Fur jedes wteta mit λ = η B gilt η Y = η P Y wobei P = BC−1B∗ Q .
Bemerke P C = B · C−1 · B∗ = C P ∗ und daher
(I − P )CP ∗ = 0 sowie P P C = P C P ∗ = P C .
Die Matrix P ist die Hutmatrix. Sie projiziert den Spaltenraum von C auf einen Teilraum
und sie setzt η den Hut auf. Sie wird uns bei der Methode der kleinsten Quadrate wieder
begegnen. (Abschnitt 8)
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
4. DREI CHARAKTERISIERUNGEN DER NORMALVERTEILUNG 32
Gaußische Vektoren
4 Drei Charakterisierungen der Normalverteilung
Definition
a) Wenn die reellen Zufallsgroßen X und Y unabhangig standardnormalverteilt sind,
dann heißt
Z =1√2
(X + iY )
eine komplex–standardnormalverteilte Zufallsgroße.
b) Eine komplexwertige Zufallsgroße W heißt komplex–normalverteilt oder komplex–
gaußisch verteilt mit Erwartungswert w und Varianz σ2, wenn
Z :=1
σ(W − w)
komplex–standardnormalverteilt ist.
Bemerke Wenn Z komplex–standardnormalverteilt ist, dann gilt
E Z = 0 cov (Z,Z) = 1 cov (Z,Z) = 0 .
Die Zufallsgroße |Z|2 ist exponentiell verteilt mit dem Erwartungswert 1. Wenn
Z = |Z| · exp(iΦ) mit Φ ∈ (−π,+π] ,
dann ist Φ unabhangig von |Z|2 und in (−π,+π] gleichmaßig verteilt.
Definition (Gaußische Einheitsvektoren)
Wenn man unabhangige reelle (bzw. komplexe) standardnormalverteilte Zufallsgroßen
X1, . . . , Xn zu einem Vektor zusammenfaßt, dann erhalt man einen reellen (bzw. komple-
xen) gaußischen Einheitsvektor der Lange n.
Bemerke Wenn Z ein komplexer gaußischer Einheitsvektor der Lange n ist, dann
bilden die Real– und Imaginarteile, mit√
2 multipliziert einen reellen gaußischen Einheits-
vektor der Lange 2n.
Definition (Gaußische Vektoren)
a) Von reellen Zufallsgroßen X1, . . . , Xn sagt man, sie seien gemeinsam gaußisch ver-
teilt, wenn jede reelle Linearkombination normalverteilt ist. Den Vektor X mit den
Komponenten Xj nennt man einen gaußischen Vektor.
b) Von komplexen Zufallsgroßen Z1, . . . , Zn sagt man, sie seien gemeinsam komplex–
gaußisch verteilt, wenn jede komplexe Linearkombination komplex–gaußisch verteilt ist.
Den Vektor mit den Komponenten Zj nennt man einen komplexen gaußischen Vektor.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
4. DREI CHARAKTERISIERUNGEN DER NORMALVERTEILUNG 33
Erste Charakterisierung Die Definition findet ihre Berechtigung in der fundamentalen
Tatsache, daß (sowohl im reellen als auch im komplexen Fall) gaußische Einheitsvektoren
Z und ihre affinen Bilder AZ + w gaußische Vektoren sind im Sinne dieser Definition.
Umgekehrt werden wir sehen, daß es fur einen gaußischen Vektor W stets einen gaußischen
Einheitsvektor Z und eine Matrix A gibt, so daß
W − EW = AZ .
Ein vollstandiger Beweis dieser Tatsachen wurde hier zu weit fuhren. Ohne die Methode
der charakteristischen Funktionen ist der Beweis muhsam. Wir werden aber die wesentlichen
Tatsachen, die man fur den Beweis braucht, skizzieren.
Satz Sei X ein reeller gaußischer Einheitsvektor der Lange n. Fur jede reelle Zeile ξ
mit ‖ξ‖2 = |ξ1|2 + . . .+ |ξn|2 = 1 ist dann ξX standardnormalverteilt.
Wenn O eine orthogonale Matrix ist, OO> = In, dann ist OX ein reeller gaußischer
Einheitsvektor.
Beweisskizze Die gemeinsame Dichte der Komponenten X1, . . . , Xn hat die Form(
1√2π
)n
· exp
(−1
2x2
1
)· exp
(−1
2x2
2
)· . . . · exp
(−1
2x2
n
)dx1 . . . dxn
=
(1√2π
)n
· exp
(−1
2x> · x
)dx ;
sie ist also rotationsinvariant. Daher sind nicht nur die Marginalverteilungen L(Xj) stan-
dardnormalverteilt, sondern auch die Verteilungen L(ξX) fur jedes ξ mit ξ · ξ> = 1.
Wenn ξ(1), . . . , ξ(n) paarweise aufeinander senkrecht stehen, wenn sie also die Zeilen einer
orthogonalen Matrix O sind, dann sind
ξ(1)X, ξ(2)X, . . . , ξ(n)X
unabhangig standardnormalverteilt.
Satz Sei Z ein komplexer gaußischer Einheitsvektor der Lange n. Fur jede komplexe
Zeile ξ mit ξ · ξ∗ = 1 ist dann ξZ komplex–standardnormalverteilt.
Wenn U eine unitare Matrix ist, U · U ∗ = In, dann ist UZ ein komplexer gaußischer
Einheitsvektor. (ohne Beweis)
Satz Wenn Z ein (reeller oder komplexer) gaußischer Vektor ist und A eine (reelle
bzw. komplexe) Matrix, dann ist AZ ein (reeller bzw. komplexer) gaußischer Vektor.
Beweis Die Linearkombinationen der Komponenten von AZ sind auch Linearkombi-
nationen der Komponenten von Z.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
4. DREI CHARAKTERISIERUNGEN DER NORMALVERTEILUNG 34
Satz Sei W ein gaußischer Vektor mit
EW = 0 cov (W,W ) = C vom Rang r ,
und B eine Matrix, so daß
cov (BW,BW ) = Ir .
Dann ist BW ein gaußischer Einheitsvektor der Lange r und es existiert eine Matrix A,
so daß
A · (BW ) = W fast sicher .
Beweisskizze Im komplexen Fall existiert zur positiv semidefiniten Matrix C eine
Matrix B mit BCB∗ = Ir. BW ist ein komplexer gaußischer Vektor, dessen Komponenten
unkorreliert sind. Außerdem sind die Komponenten in Real– und Imaginarteil ausgeglichen
cov (BW,BW ) = B · cov (W,W ) ·B> = 0 .
(Vergleiche den Anhang zum Abschnitt 1.)
Die Real– und Imaginarteile bilden einen reellen gaußischen Vektor, dessen Komponenten
unkorreliert sind mit der Varianz 12 . Der komplexe Fall wird so auf den reellen Fall zuruck-
gefuhrt. Zu zeigen ist der fundamentale
Satz Wenn X1, . . . , Xn unkorrelierte gemeinsam gaußisch verteilte Zufallsgroßen sind
mit E Xj = 0, var Xj = 1 fur alle j, dann bilden die Xj einen gaußischen Einheitsvektor,
d.h. die Xj sind stochastisch unabhangig.
Der Beweis ist leicht, wenn man eine zentrale Einsicht aus der Theorie der charakteristischen
Funktionen heranzieht.
Lemma Die Verteilung L(X) eines reellen Zufallsvektors X ist eindeutig festgelegt
durch die Verteilungen der reellwertigen Zufallsgroßen ξX, wo ξ in der Menge aller reellen
n–Zeilen variiert.
Zum Beweis Man beweist die allgemeinere Aussage, daß L(X) eindeutig bestimmt ist
durch die komplexwertige Funktion
ϕX(ξ) = E exp(iξX) ,
definiert auf der Menge aller reellen n–Zeilen ξ.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
4. DREI CHARAKTERISIERUNGEN DER NORMALVERTEILUNG 35
Anwendung auf unseren Fall
Ein reeller gaußischer Einheitsvektor X ist ein Zufallsvektor mit
ϕX(ξ) = exp
(−1
2‖ξ‖2
).
Als Konsequenz erhalten wir die
Zweite Charakterisierung reeller gaußischer Vektoren
Ein reeller Zufallsvektor X ist genau dann ein gaußischer Vektor mit E X = x und
cov (X,X) = C, wenn
ϕX(ξ) = exp(iξ x) · exp
(−1
2ξCξ>
)
fur alle reellen n–Zeilen ξ.
Satz Ein komplexer Zufallsvektor Z ist genau dann ein komplexer gaußischer Vektor
der Lange n, wenn die Real– und Imaginarteile der Komponenten einen reellen gaußischen
Vektor der Lange 2n bilden und außerdem
cov (Z,Z) = 0 .
Der Beweis ergibt sich aus den Uberlegungen im Abschnitt zum Thema der in Real– und
Imaginarteil ausgeglichenen Zufallsvektoren.
Eine dritte Charakterisierung der reellen gaußischen Verteilungen ergibt sich aus der
Beschreibung ihrer Dichten auf dem linearen Trager. Wir beginnen mit dem einfachsten Fall,
dem Fall eines reellen gaußischen Vektors vom vollen Rang. Der Ubersichtlichkeit halber
konzentrieren wir uns hier und im Folgenden auf den reellen Fall.
Satz Ein reeller Zufallsvektor X vom vollen Rang n ist genau dann ein gaußischer
Vektor, wenn eine Spalte x und eine positivdefinite Matrix Q existieren, so daß
p(x) ds =
(1√2π
)n
[detQ]1/2 · exp
(−1
2(x− x)> ·Q · (x− x)
)dx1 . . . dxn
seine Dichte ist. Es gilt
x = E X , cov (X,X) = Q−1 .
Beim Beweis stutzen wir uns auf ein Lemma der elementaren Analysis.
Lemma Sei ϕ(y) eine differenzierbare Abbildung, die eine differenzierbare Umkehrab-
bildung ψ(x) besitzt. Das Bild einer Dichte q(y) dy bzgl. ϕ(·) ist dann die Dichte
p(x) dx = q(ψ(x)) · |detψ′(x)| dx .
(ψ′(x) ist die Jacobi–Matrix von ψ(·) im Punkte x.)
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
4. DREI CHARAKTERISIERUNGEN DER NORMALVERTEILUNG 36
Beweis des Satzes Mit den Matrizen A,B von oben ist
U := B(X − x)
ein reeller gaußischer Einheitsvektor, hat also die Dichte
(1√2π
)n
· exp
(−1
2u>u
)du .
Die Umkehrabbildung liefert
X = x+AU .
Die Dichte von L(X) ist also
p(x) dx =
(1√2π
)n
· exp
(−1
2(x− x)>B> · B(x− x)
)· |detB| dx
=
(1√2π
)n
· exp
(−1
2(x− x)>C−1 · (x− x)
)· [detC]−1/2 dx
weil namlich BCB> = I, also (B>B)C(B>B) = B> ·B und daher B>B = C−1.
Satz Sei X ein reeller Zufallsvektor der Lange n vom Rang r
E X = x , cov (X,X) = C .
Genau dann ist X ein gaußischer Vektor, wenn es eine symmetrische Matrix Q gibt, so daß
const · exp
(−1
2(x− x)>Q(x− x)
)dxi1 · . . . · dxir
die Dichte auf dem Trager von L(X) ist. Hierbei ist xi1 , . . . , xir ein r–tupel von Koordi-
naten, welches den Trager koordinatisiert. Es gilt CQC = C. Der Trager von L(X) ist der
affine Raum Tex := x : x = x+Cv mit v ∈ Rn.
Beweis Wir beschranken uns auf den Fall x = 0.
1) Mit Matrizen A,B wie oben
BA = Ir , ABC = C BCB> = Ir
leistet die Matrix Q = B> ·B das Verlangte. Der gaußische Einheitsvektor W = BX
hat die bekannte Dichte. Die Abbildung w 7−→ x = AW = ϕ(w) bildet den Rr
auf den r–dimensionalen Raum T0 = x : x = Cv mit v ∈ Rn ab, den wir
mit einem r–tupel xi1 , . . . , xir koordinatisieren konnen. Diese Abbildung besitzt eine
Umkehrabbildung ψ(x) mit einer konstanten Jacobi–Matrix. BAu = u fur alle u
AB(Au) = Au , ABx = x fur alle x von der Gestalt x = Aw .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
4. DREI CHARAKTERISIERUNGEN DER NORMALVERTEILUNG 37
Die Dichte der Standardnormalverteilung auf den Rn ist
const · exp
(−1
2u>u
)du .
Sie wird durch die Abbildung ϕ(w) in eine Dichte auf dem Bildraum transformiert;
die Bilddichte bzgl. dxi1 · . . . ·dxir hat in x = Au im Trager wegen u = Bx den Wert
const · exp
(−1
2(Bx)> · (Bx)
)= const · exp
(−1
2x>(B>B)x
).
2) Bei der Dichte kommt es nur auf die Einschrankung der quadratischen Funktion 12 x
>Qx
auf den r–dimensionalen Teilraum T0 an. Die Matrix B>B ist durch die Covarianz-
matrix C nicht eindeutig bestimmt. Wenn Q irgendeine Matrix ist mit
1
2x> ·Q · x =
1
2x>(B>B)x fur alle x = Cv,
dann liefert uns Q dieselbe Dichte auf dem Trager von L(X).
3) Wir zeigen
C(B>B)C = C .
Bemerke, daß jedes x = Cv eine (eindeutig bestimmte) Darstellung x = C · B>t
besitzt, weil CB> denselben Rang hat wie C. Fur v = B>t und x = Cv haben
wir
1
2x>B>Bx =
1
2(CB>t)> · B>B · (CB>t)
=1
2t>BCB>BCB> · t =
1
2t> · t
=1
2t>B>CBt =
1
2v> · Cv .
Also gilt fur alle x = Cv
1
2v>C(B>B) · Cv =
1
2v>Cv ;
dies bedeutet C · (B>B)C = C.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
5. MINIMA QUADRATISCHER FUNKTIONEN 38
5 Minima quadratischer Funktionen
Sei C eine positiv semidefinite n×n–Matrix (vom Rang r). T bezeichne den Spaltenraum,
T = x : x = Cv. Wir wahlen eine hermitische Matrix Q mit CQC = C; uber den Rang
von Q machen wir keine Annahmen. Die Willkur in der Wahl von Q wird nicht storen.
Offenbar gilt CQx = x fur alle x ∈ T.
Der negative Logarithmus der Dichte von N (x, C), betrachtet fur x ∈ x+T, hat die Gestalt
1
2(x− x)∗Q(x− x) + const .
Wir studieren hier quadratische Funktionen dieser Art.
5.1 Bedingte gaußische Dichten
Die Charakterisierung der Normalverteilungen durch ihre Dichten macht ersichtlich, daß die
bedingten Dichten auf affinen Teilraumen gaußische Dichten sind. Die Einschrankung einer
quadratischen Funktion auf einen affinen Teilraum ihres Definitionsbereichs ist namlich of-
fensichtlich eine quadratische Funktion. Da diese quadratischen Funktionen eine eindeutig
bestimmte Minimalstelle haben, sind sie der negative Logarithmus einer gaußischen Dichte.
Es gilt nun, in verschiedenen Situationen den Erwartungswert und die Covarianzmatrix sol-
cher bedingten Dichten auszurechnen. (Es sollte klar sein, daß bedingte Erwartungswerte und
bedingte Varianzen in der aktuellen Situation aus maßtheoretischer Sicht vollig unproblema-
tische Begriffe sind.)
Satz Sei Q hermitisch und W ein Vektorraum mit
w∗Qw > 0 fur alle w ∈W, w 6= 0 .
Es existiert dann genau eine hermitische Matrix C mit
CQC = C
und Spaltenraum = W.
Beweis
1) Eindeutigkeit Seien C1, C2 hermitische Matrizen der geforderten Art. Es gilt CQw =
w fur alle Spalten von C, also fur alle w ∈W.
C1QC2 = C2, C2QC1 = C1 zusammen mit der Hermitizitat liefert
C1 = C2QC1 = C1QC2 = C2 .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
5. MINIMA QUADRATISCHER FUNKTIONEN 39
2) Existenz Sei p die Dimension von W und B eine n× p–Matrix mit Spaltenraum
W. Es gilt s∗B∗QBs > 0 fur alle s 6= 0. Also ist B∗QB eine positiv definite also
invertierbare p× p–Matrix. Setze C = B · (B∗QB)−1 ·B∗.
Der Spaltenraum ist in W enthalten, der Rang ist p und CQC = C ist eine triviale
Rechnung.
3) Bemerke Wenn der Rang von Q gleich der Dimension p von W ist, dann gilt auch
QCQ = Q. In diesem Fall hat QC denselben Rang wie Q. Jedes v = Qx kann auch
als v = QCt dargestellt werden
QCv = QCQCt = QCt = v fur alle v im Spaltenraum von Q ,
also QCQ = Q.
I) Wir berechnen die (eindeutig bestimmte!) Minimalstelle von
1
2x∗Qx auf L := x : Mx = y ∩ T ,
wobei M eine beliebige m× n–Matrix ist und y ein Punkt im Spaltenraum MC. (Fur
andere y ist der Durchschnitt leer.) Wir werden sehen, daß die Minimalstelle eine lineare
Funktion von y ist: x = Ny. N ist eine beliebige Losung der Normalgleichung
(I −NM)CM ∗ = 0 .
Satz Seien C,T und Q wie oben und U ein Teilvektorraum von T, gegeben in der
Form
U = x : Mx = 0 ∩ T .
a) Wenn man jedem x ∈ T denjenigen Punkt x in x+U zuordnet, in welchem 12 x
∗Qx
minimal ist, dann erhalt man eine Projektion entlang U auf einen Raum U⊥.
b) Diese Projektion entlang U ist vor allen anderen Projektionen entlang U ausgezeichnet
durch die Eigenschaft
1
2x∗Qx =
1
2(x− x)∗Q(x− x) +
1
2x∗Qx fur alle x ∈ T .
c) Diese Projektion x 7−→ x kann durch jede Losung N der Normalgleichung
(I −NM)CM ∗ = 0
beschrieben werden. Es gilt x = NMx fur alle x ∈ T.
d) U⊥ ist der Spaltenraum von CM ∗ und es gilt
u∗QCM∗ = 0 fur alle u ∈ U .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
5. MINIMA QUADRATISCHER FUNKTIONEN 40
Vorbemerkungen
1) Die Projektion, um die es hier geht, heißt die orthogonale Projektion auf U⊥. Mit der
geometrischen Sprache beschaftigen wir uns im nachsten Abschnitt.
2) Punkte x1, x2, deren Differenz in U liegt, M(x2 − x1) = 0, werden durch jede
Projektion entlang U auf denselben Punkt x abgebildet. Sei x der Bildpunkt fur
alle x in L = x : Mx = y∩T. Wenn fur alle x ∈ L, d.h. fur alle x mit x−x ∈ U
gilt
1
2x∗Qx =
1
2(x− x)∗Q(x− x) + const ,
dann bedeutet das, daß x die (eindeutig bestimmte!) Minimalstelle der quadratischen
Funktion
1
2x∗Qx auf L
ist. Fur alle u = Cv 6= 0 gilt namlich 12 u
∗Qu = 12 v
∗Cv > 0.
3) Das klassische Verfahren zur Bestimmung von Minimalstellen mit Nebenbedingungen
ist die Methode der Lagrange–Multiplikatoren. In jeder Minimalstelle ist der Gradient
der zu minimierenden Funktion eine Linearkombination der Gradienten der Nebenbe-
dingungen. In unserem Falle gilt es, fur x = Cv ∈ T die Funktion
1
2x∗Qx =
1
2v∗Cv
mit den Nebenbedingungen MCv = y zu minimieren. Denken wir an den reellen Fall.
Wir haben
grad
(1
2v>Cv
)= v> · C
grad (MCv) = MC .
Zu jeder Minimalstelle v existiert eine m–Spalte t, so daß
v>C = t> ·MC , C v = CM> · t .
Die Gesamtheit der v, die (fur irgendein y im Spaltenraum von MC) als Minimalsstelle
in Betracht kommen, ist ein Vektorraum. Wir sind aber nicht an diesen Minimalstellen
v interessiert, sondern an den daszugehorenden x–Werten in T, insbesondere an denen
in L = x : Mx = y ∩ T. Wir suchen x mit
x = C v = CM> · t , M x = y .
Zu jedem y im Spaltenraum von MC gibt es mindestens ein t mit MCM> · t = y;
wir interessieren uns aber nicht so sehr fur t, sondern vielmehr fur x = CM> · t. Da
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
5. MINIMA QUADRATISCHER FUNKTIONEN 41
CM> und MCM> denselben Rang haben, ist x durch y eindeutig bestimmt. Die
Zuordnung y 7−→ x ist linear, kann also durch eine n ×m–Matrix N beschrieben
werden:
x = Ny fur y ∈ Spaltenraum von MC.
y = MCM> · t , Ny = x = CM> · t .
Es kommen alle m–Spalten in Betracht.
Die Matrix N leistet das Verlangte genau dann, wenn
(I −NM)C ·M> = 0 .
Wir haben also gesehen, daß man im reellen Fall die Normalgleichung durch die Me-
thode von Lagrange gewinnen kann. Es ware unbequem, den komplexen Fall auf den
reellen Fall zuruckzuspielen, um dann die ohnehin fur unseren Fall unnotig schwerfallige
Methode der Langrange–Multiplikatoren anzuwenden.
Beweis des Satzes
1) Sei N eine Losung der Normalgleichung
(I −NM)CM ∗ = 0 .
Die Abbildung x 7−→ NMx projiziert T auf den Spaltenraum U⊥ der Matrix CM ∗.
Das sieht man so: Die Spalten von CM ∗ bleiben fest
NM · CM∗ = CM∗ .
Andererseits gibt es fur jedes x = Cv ∈ T mindestens ein s mit MCv = MCM ∗s.
Es gilt also
NMx = NMCv = NMCM ∗s = CM∗s ∈ T .
Das Argument liefert auch M x = Mx also x− x ∈ U.
2) Fur u ∈ U, x ∈ U⊥ gilt u∗Qx = 0 .
Das sieht man so: Sei u0 = Cv0 mit MCv0 = 0, v∗0CM∗ = 0.
Fur jedes x = CM ∗s gilt also
u∗0Qx = v∗0C ·Q · CM ∗s = v∗0 · C ·M∗s = 0 .
3) Als Konsequenz erhalten wir wegen (x− x)∗Qx = 0
1
2x∗Qx =
1
2(x− x+x)∗Q(x− x+x)
=1
2(x− x)∗Q · (x− x) +
1
2x∗Qx
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
5. MINIMA QUADRATISCHER FUNKTIONEN 42
II) Wir berechnen die (eindeutig bestimmte!) Minimalstelle x von
1
2(x− x)∗Q(x− x) auf L = x : x = z +Bs ⊆ T ,
wo B eine n× p–Matrix ist, deren Spalten zu T gehoren.
Die Aufgabe unterscheidet sich insofern von der oben behandelten, daß der affine Raum L hier
durch eine Parametrisierung gegeben ist, wahrend er oben durch ein lineares Gleichungssystem
beschrieben war.
Die Fragestellung ist verschiebungsinvariant; hier ist es bequem z = 0 anzunehmen. Die
Tilde bei x brauchen wir nicht. Wir suchen zu jedem x ∈ T denjenigen Punkt x ∈ V =
x : x = Bs in welchem die”Abstandsfunktion“
1
2(x− x)∗Q(x− x)
minimal ist.
Satz Seien C, T und Q wie oben und V ein Teilvektorraum von T, gegeben in der
Form
V = x : x = Bs ⊆ T .
a) Wenn man jedem x ∈ T denjenigen Punkt x ∈ V zuordnet, in welchem 12(x −
x)∗Q(x− x) minimal ist, dann erhalt man eine Projektion von T auf V.
b) Der Bildpunkt x von x ∈ T ist gekennzeichnet durch das lineare Gleichungssystem
(x− x)∗QB = 0 , x ∈ V .
c) Setze A = QB. Fur jede p× n–Matrix F mit
(I − F ∗A∗)CA = 0
gilt dann x = F ∗A∗x = F ∗B∗Qx = BFQx fur alle x ∈ T.
Vorbemerkungen
1) Den Nullraum der hier beschriebenen Projektion of V heißt der Orthogonalraum von
V in T; man bezeichnet ihn mit V⊥. Wir werden sehen V⊥ = u : B∗Qu = 0 ∩T.
Der Bildpunkt x ∈ V zu x ∈ T heißt der Fußpunkt des Lots von x auf V.
2) Fur die Minimalstellenbestimmung hat man (im reellen Fall) die elementare Methode,
den Gradienten der zu minimierenden Funktion gleich Null zu setzen. Wir haben hier
− ∂
∂s
(1
2(x−Bs)>Q(x−Bs)
)= (x−Bs)>QB .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
5. MINIMA QUADRATISCHER FUNKTIONEN 43
Die Losbarkeit des Gleichungssystems
s>B>QB = x>QB
ist fur x ∈ T gesichert. Dies sieht man so: Setze A = QB. Da nach Annahme
die Spalten von B in T liegen, haben wir CQB = B, also CA = CQB = B,
B>QB = A>CA und die Gleichung wird zu einer veritablen Normalgleichung
s>A>CA = x> · CA ; (x> − s>A>)CA = 0 .
Beweis des Satzes
1) Betrachte bei festem x ∈ T auf V die Funktion
1
2(x− v)∗Q(x− v) fur v ∈ V .
Sie nimmt ihr Minimum in einem Punkt x ∈ V an
0 ≤ 1
2(x− (x+Bs))∗Q(x− (x+Bs))− 1
2(x− x)∗Q(x− x)
= 2 ·Re(x− x)∗QBs+ s∗B∗QBs fur alle s .
Der erste Term verschwindet notwendigerweise fur alle x. Der zweite Summand ist
strikt positiv, wenn Bs 6= 0; denn s∗B∗QBs = sA∗CAs und wegen der Semidefinitheit
von A∗CA ist dies nur dann 0, wenn CAs = 0.
2) Setze M = A∗ = B∗Q und betrachte eine Losung N = F ∗ der Normalgleichung
(I −NM)CM ∗ = 0 = (I − F ∗A∗)CA .
Wir haben oben gesehen, daß N eine Projektion liefert
x 7−→ NMx = x .
Der Bildraum ist der Spaltenraum von CM ∗ = CQB = B. Wir haben gezeigt
(x− x)∗Q · CM∗ = 0 fur alle x ∈ T ,
also
B∗Q · (x− x) = 0 fur alle x ∈ T .
Der Punkt x = NMx = F ∗A∗x erfullt also die Bedingungen in 1). Er ist der”Fußpunkt
des Lots“ von x auf V.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
5. MINIMA QUADRATISCHER FUNKTIONEN 44
3) Die Normalgleichung fur F ∗
(I − F ∗A∗)CA = 0
kann man auch mit B = CA und Q ausdrucken
F ∗ · B∗QB = B , B∗QB · F = B∗ .
Wir bemerken: V ist der Spaltenraum von BF ; denn BF hat denselben Rang d
wie B. Da x 7−→ F ∗A∗x auf V die Identitat ist, haben wir
BF = (F ∗A∗)BF = F ∗B∗QBF = F ∗B∗
F ∗A∗ = F ∗B∗Q = BFQ .
4) Die letztere Formel BFQ fur die Projektion x 7−→ x ist die gebrauchlichste in den
Lehrbuchern. Man sieht ihr sofort an, daß der Bildpunkt in V liegt. Man betrachtet
meistens nur nichtsingulare B, sodaß also B∗QB positiv definit ist. Man hat also
F = (B∗QB)−1 · B∗ .
Die Matrix
F ∗A∗ = BFQ = B(B∗QB)−1 ·B∗Q
heißt die Hut–Matrix; sie setzt dem x den Hut auf.
5.2 Anwendung auf Zufallsvektoren
Sei X ein Zufallsvektor der Lange n vom Rang r mit
cov(X,X) = C .
I.) Zu jeder m × n–Matrix M , fur welche MX den Rang d hat, existiert eine
Zerlegung in unkorrelierte Zufallsvektoren von der Form
X = NMX + (I −NM)X ,
wo (I −NM)X den Rang r − d hat. Die Zerlegung ist eindeutig bestimmt. Jede Losung
N der Normalgleichung
(I −NM)CM ∗ = 0
leistet das Verlangte.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
5. MINIMA QUADRATISCHER FUNKTIONEN 45
II.) Zu jedem d–dimensionalen Teilraum V ⊆ T existiert eine Zerlegung in unkorrelierte
Zufallsvektoren
X = X +(X − X)
wo L(X) auf V konzentriert ist und (X − X) den Rand r − d hat. Die Zerlegung ist
eindeutig bestimmt. Sei A eine n× p–Matrix, so daß
V = x : x = CAs
und F eine p× n–Matrix, so daß
(I − F ∗A∗)CA = 0 .
Dann gilt X = F ∗A∗X .
Bemerkung Wenn X gaußisch ist, dann sind die Komponenten X und X − X
unabhangige gaußische Vektoren; denn X und X − X sind lineare Bilder von X und als
unkorrelierte gemeinsam gaußisch verteilte Zufallsgroßen stochastisch unabhangig.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
6. KLEINSTE QUADRATE UND ANDERE M–SCHATZER 46
6 Kleinste Quadrate und andere M–Schatzer
6.1 Ausgleichsrechnung im linearen und im nichtlinearen Fall
Stellen wir uns vor: Ein Naturwissenschaftler glaubt davon ausgehen zu konnen, daß der
zeitliche Ablauf eines Geschehens durch eine Funktion y = f(t) bestimmt ist, welche zu
einer uberschaubaren Familie von Funktionen gehort
f(·) ∈ f(ϑ, ·) : ϑ ∈ Θ .
Manche Leute nennen die f(ϑ, ·) die moglichen”wahren“ Ablaufe, andere sprechen lieber
von den”nominellen“ Ablaufen, um zu betonen, daß Modellvorstellungen im Spiele sind.
Der Naturwissenschaftler hat nun Beobachtungswerte yj zu Zeitpunkten tj vorliegen
(j = 1, . . . ,m), und er erwartet, daß sie zu einem der nominellen f(·) besonders gut passen.
Um herauszufinden, welches f(·) das ist, inspiziert er fur jedes ϑ ∈ Θ das m–tupel der
Residuen
εj := yj − f(ϑ, tj) j = 1, . . . ,m .
Dasjenige ϑ, fur welches das Tupel ε minimal ist, nimmt er als Schatzwert fur das”wahre“
ϑ. (Der Skeptiker, der nicht daran glaubt, daß es so etwas wie das wahre ϑ gibt, muß sich
vorsichtiger ausdrucken. Der Mathematiker nennt den Gesichtspunkt, unter welchem er ε
minimiert hat und nennt ϑ den Schatzwert gemaß der betreffenden Methode.)
Die Methode der kleinsten Quadrate geht von einer positiv definiten m×m–Matrix Q
aus. Sie minimiert das”Fehlerquadrat“
‖ε‖2 := ε> Q ε (oder ε∗ Q ε im komplexen Fall) .
(Wir schreiben Q, weil wir die Bezeichnung Q den n× n–Matrizen von oben vorbehalten
wollen.)
Wenn beispielsweise Q eine Diagonalmatrix ist mit den Eintragen qj = 1σ2
j
in der Diagonale,
dann geht es darum,
m∑
1
1
σ2j
ε2j
zu minimieren. In knapper Notation: ϑ ist so zu bestimmen, daß
‖ε‖2 = ‖y − f(ϑ, ·‖2 = min .
Der lineare Fall
Nehmen wir an, daß die Schar der nominellen Ablaufe ein endlichdimensionaler Vektorraum
ist. Es gibt hier also ein p–Tupel von Funktionen
f1(t), f2(t), . . . , fp(t) ,
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
6. KLEINSTE QUADRATE UND ANDERE M–SCHATZER 47
so daß ihre Linearkombinationen
f(β, ·) =
m∑
j=1
βj · fj(·)
die Gesamtheit der nominellen Ablaufe ausmachen.
Man schreibt die Bausteine der Situation in Tableauform
β1 · · · βp
y1 = f1(t1) · · · fp(t1) + ε1
y2 = f1(t2) · · · fp(t2) + ε2...
......
...
ym = f1(tm) · · · fp(tm) + εm
oder in Matrizenform
y = B · β + ε .
Die Matrix B heißt die Design–Matrix.
(Der Name kommt aus einem Kontext, in welchem es nicht um zeitliche Ablaufe geht. Bei
uns hier kann die Versuchsplanung (”Design“) allenfalls darin bestehen, daß der Naturwissen-
schaftler die Zeitpunkte der Beobachtung t1, . . . , tm mehr oder weniger geschickt wahlt. In
allgemeinen Kontexten stellt man sich vor, daß das Beobachtungsergebnis y (bis auf einen
Beobachtungsfehler ε) durch eine planbare lineare Kombination der unbekannten”Einfluß-
großen“ β1, . . . , βp zustandekommt.)
Die Design Matrix B hat das Format m × p. Die Beobachtungswerte y und die Resi-
duen (wir reden nicht von Fehlern!) sind als m–Spalten notiert. Der (zunachst noch offene)
Parameterwert β ist eine p–Spalte.
Die Methode der kleinsten Quadrate kann in Aktion treten, wenn eine positiv definite m×m–
Matrix Q gegeben ist, welche die Große der Residuen mißt
‖ε‖2 := ε> Q ε .
Es gilt, β so zu bestimmen, daß
‖y −B β ‖2 = min .
Beispiel : Zu Zeitpunkten t1, . . . , tm sind reelle Werte y1, . . . , ym gemessen worden.
Es wird eine reine Sinusschwingung mit der Periode 2π gesucht, welche die Werte optimal
approximiert.
y = m+ a · sin(t− t0)
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
6. KLEINSTE QUADRATE UND ANDERE M–SCHATZER 48
Die”Mittellage“ m ∈ R, die
”Amplitude“ a ≥ 0 und die
”Phase“ t0 ∈ [0, 2π) sind gesucht.
Es handelt sich also um eine Schar mit drei reellen Parametern. Wenn man genauer hinsieht,
merkt man, daß es sich um ein lineares Problem handelt
sin(t− t0) = sin t · cos t0 − cos t · sin t0 .
Setze f0 ≡ 1, f1 = sin t, f2 = cos t. Dann gilt
m+ a · sin(t− t0) = β0 + β1 · sin t+ β2 · cos t
mit β0 = m, β1 = a cos t0, β2 = −a · sin t0 .
Der Parameter β = (β0, β1, β2) ist optimal zu bestimmen. Aus ihm ergeben sich dann
m,a, t0 ∈ [0, π).
Beispiel : Es liegt die Mischung mehrerer radioaktiver Stoffe vor; im wesentlichen sollten
es zwei Stoffe mit verschiedenen Halbwertzeiten sein. In einem Zeitabschnitt (der so kurz ist,
daß die Aktivitat im wesentlichen konstant bleibt), zu den Zeitpunkten t1, . . . , tm, ist die
Aktivitat gemessen worden mit den Ergebnissen y1, . . . , ym. Gesucht ist die Menge und die
Halbwertzeit der beiden wichtigsten Komponenten
y = m1 · exp(−λ1t) +m2 · exp(−λ2t) .
Die positiven Zahlen m1,m2, λ1, λ2 sollen geschatzt werden. Die zu erwartende Genauigkeit
der Beobachtung zum Zeitpunkt ti sei durch σi beschrieben.
Es handelt sich um ein nichtlineares Schatzproblem. Der oben beschriebene Matrizenkalkul
kann hier keine Anwendung finden.
Zum Stichwort Ausgleichsrechnung findet man in der Brockhaus Enzyklopadie die Eintra-
gung:
”Ausgleichsrechnung, ein Verfahren, mit dem man aus fehlerhaften Messungen die plausibel-
sten Werte der gesuchten Großen berechnet. Hierzu ist es notwendig, daß mehr Messungen
vorliegen als Unbekannte zu bestimmen sind und daß die Fehler (durch von Messung zu Mes-
sung unkontrollierbar veranderliche Einflusse) verursacht sind. Fur diese Fehler stellt die
Fehlertheorie nach den Grundsatzen der Wahrscheinlichkeitsrechnung das Fehlergesetz auf.“
Die hier verwendeten Begriffe werden heute von den Fachleuten mit großer Distanz und Vor-
sicht gebraucht. Die”gesuchten Großen“ konnen nach modernem Verstandnis im allgemeinen
nur Modellgroßen sein, deren Brauchbarkeit disputabel ist, wenn die Situation bereits grob
exploriert ist. Ob es”wahre“ Werte der Großen gibt, Werte also, denen man einen objek-
tiven (nicht nur die aktuelle Betrachtungsweise postulierten) Sinn zuerkennen kann, muß in
der Regel offen bleiben. Was also sollte man unter Fehlern verstehen oder unter fehlerhaften
Messungen? Uberdies ist zu fragen: Aus welchen Quellen soll oder darf sich die Plausibi-
litat der mit irgendeinem Verfahren ermittelten Werte nahren? Als Mathematiker wird man
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
6. KLEINSTE QUADRATE UND ANDERE M–SCHATZER 49
noch weiter fragen: Gibt es womoglich Grunde, den Verfahren allgemein (und nicht nur den
mit ihnen ermittelten Werten) eine besondere Plausibilitat zuzuerkennen? Gibt es da fur den
Mathematiker etwas zu erforschen? (Gauß spricht in diesem Zusammenhang von einer gewis-
sen Metaphysik, siehe unten.) Was konnen die Grundsatze der Wahrscheinlichkeitsrechnung
leisten, wenn es gilt, Fehlergesetze aufzustellen? Leider muß man sagen, daß die philoso-
phische Bedachtsamkeit von C.F. Gauß, dem Pionier der Ausgleichsrechnung, nicht in allen
Anwendungszusammenhangen eine gute Fortsetzung gefunden hat. Um problematische Asso-
ziationen unter Kontrolle zu halten, empfiehlt sich eine abstrakte
6.2 Geometrische Terminologie
Stellen wir uns einen Zufallsmechanismus vor, der einen zufalligen Punkt X in einem Raum
E realisiert. Bei E denken wir etwa an den Raum der n–Spalten; X ist dann also ein
Zufallsvektor der Lange n.
Unser Modell sei durch eine Teilmengen M von E gegeben; wir denken etwa an eine
p–dimensionale Mannigfaltigkeit, die in E eingebettet ist
M = x(ϑ) : ϑ ∈ Θ .
In E ist uns ein Abstandsbegriff vorgegeben. Dabei kommt es aber eigentlich nicht auf die
Distanz der Punkte x voneinander an, sondern nur auf die Distanz der Punkte x von den
Punkten x(ϑ) auf der Mannigfaltigkeit: d(x(ϑ), x). Wir benutzen den Abstandsbegriff auch
dazu, nun den Abstand gewisser Teilmengen von E von den Punkten x(ϑ) zu definieren.
Sei ϕ(·) eine Abbbildung ϕ : E → F . Fur die”Faser“ x : ϕ(x) = y definieren wir den
Abstand von x(ϑ):
ρ(ϑ, y) := d(x(ϑ), y) = infd(x(ϑ), x) : ϕ(x) = y .
(Wenn ϕ(·) eine surjektive Abbildung ist, dann ist ρ(ϑ, ·) wirklich auf dem ganzen Raum
F definiert.)
Sprechweise Eine Abbildung
F 3 y 7−→ T (y) ∈M
nennen wir einen Minimum–Distanz Schatzer, wenn T (y) minimale Distanz von x :
ϕ(x) = y hat fur alle y, wenn also
ρ(T (y), y) = infρ(ϑ, y) : ϑ ∈ Θ = infd(x(ϑ), x) : ϑ ∈ Θ, ϕ(x) = y
Bemerke Wenn M in einem geeigneten Sinne abgeschlossen ist, dann gibt es auf M
Punkte minimaler Distanz zur Faser x : ϕ(x) = y. E gibt aber im allgemeinen mehrere
Punkte minimaler Distanz. Wir verlangen hier, daß T (·) auswahlt, obwohl man naturlich
auch mengenwertige Schatzverfahren in Betracht ziehen konnte. Man sucht dann zu jedem y
die Menge aller Punkte x, die von M minimalen Abstand haben.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
6. KLEINSTE QUADRATE UND ANDERE M–SCHATZER 50
Verallgemeinerung
Es besteht kein triftiger Grund, das Modell als eine Teilmenge des Raumes E zu begreifen.
Es kommt darauf an, daß man eine Funktion ρ(ϑ, y) hat, ϑ ∈ Θ, y ∈ F . Funktionen
ρ(ϑ, y), die fur den Zweck geeignet erscheinen, nennt man ublicherweise Score–Funktionen.
Zu jedem nominellen ϑ und zu jedem Beobachtungspunkt y sagt ρ(ϑ, y), wie schlecht
ϑ und y zusammenpassen. Ein Schatzverfahren T (·) paßt zu ρ(·) wenn es zu jedem
Beobachtungswert y einen optimal passenden Parameterwert liefert, d.h. einen Punkt ϑ, in
welchem ρ(ϑ, y) minimal ist. (In Situationen, die nicht sehr regular sind, wird man vielleicht
mit Werten ϑε zufrieden sein, in welchen ρ(·, y) bis auf ε minimal ist.)
Definition Sei Θ eine abstrakte Menge von”Modellpunkten“ und F der Wertebereich
einer Zufallsgroße Y . Sei ρ(ϑ, y) eine nichtnegative Funktion auf Θ× F . Eine Abbildung
F 3 y 7−→ T (y) ∈ Θ
heißt ein Minimum Score–Schatzverfahren, oder kurz ein M–Schatzverfahren zu ρ(·, ·), wenn
ρ(T (y), y) = minρ(ϑ, y) : ϑ ∈ Θ fur alle y ∈ F .
Freiheiten der Konstruktion
Es gibt viele Moglichkeiten, Score–Funktionen ρ(·, ·) einzufuhren und als plausibel her-
auszustellen. Manche M–Schatzverfahren werden vor allem deshalb empfohlen, weil sich die
Berechnungen mit geringem Aufwand durchfuhren lassen. (So begrundete z.B. Legendre die
Methode der kleinsten Quadrate, siehe unten.) Manche Verfahren sind durch Eigenschaften
ausgezeichnet, die den Mathematiker erfreuen (z.B. Symmetrien), andere sind beliebt, weil
sie vielseitig variierbar sind und in analogen Fallen zu uberzeugenden Antworten gefuhrt ha-
ben. Es passiert dem Mathematiker aber immer wieder, daß Verfahren, die auf den ersten
Blick plausibel erschienen sind, nach genauerem Hinsehen fur die betreffende Problemklasse
als ungeeignet ausgeschieden werden mussen. Auf der anderen Seite ist es sehr selten, daß
man ein ganz bestimmtes Verfahren als besonders geeignet auszeichnen kann. Man kann das
durchaus begrußen; denn wenn man auf verschiedene Verfahren zuruckgreifen kann, die al-
lesamt ihre Vorzuge zu haben scheinen, kann man im konkreten Fall mit allen herumspielen
und dabei unter Umstanden auf interessante Phanomene aufmerksam werden. Exploration
ist vorzuziehen gegenuber dem dogmatischen Verfolgen von Grundsatzen, die auf Analogien
beruhen.
Auf die Fehlergesetze kommen wir spater. Man braucht sie erst fur die Analyse der Verfah-
ren. Wir brauchen hier noch nicht einmal zu diskutieren, was ein Fehlergesetz im Sinne der
Wahrscheinlichkeitsrechnung ist. Der letzte Satz in der oben zitierten Enzyklopadieeintragung
sollte nicht das verbreitete Mißverstandnis nahren, daß etwa die Wahrscheinlichkeitstheorie
aus ihren Grundsatzen objektiv gultige Fehlergesetze und objektiv gultige Schatzverfahren
ableiten konnte. Die Wahrscheinlichkeitsrechnung ist keine dogmatische Wissenschaft.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
6. KLEINSTE QUADRATE UND ANDERE M–SCHATZER 51
Beliebte heuristische Prinzipien, Score–Funktionen zu generieren, sind das sog. Maximum–
Likelihood Prinzip (ML–Prinzip) und (als eine Verallgemeinerung) das Prinzip der maximalen
a posteriori Wahrscheinlichkeit (MAP–Prinzip). Diese Prinzipien bedienen sich zwar (anders
als das viel speziellere Prinzip der kleinsten Quadrate) der wahrscheinlichkeitstheoretischen
Terminologie. Man darf sich dadurch aber nicht tauschen lassen. Die Herleitung einer Score–
Funktion und eines dazu passenden M–Schatzverfahrens durch das ML–Prinzip verbindet sich
eo ipso noch nicht mit dem, was man unter einer wahrscheinlichkeitstheoretischen Analyse der
Leistungsfahigkeit des abgeleiteten Schatzverfahrens zu verstehen hat. Mathematische Satze
uber die Leistungsfahigkeit von ML–Methoden sind durchwegs asymptotische Satze unter ma-
thematisch idealisierten Voraussetzungen. Sie konnen die Brauchbarkeit von Schatzverfahren
in konkreten Situationen nicht bestatigen.
6.3 Das ML–Prinzip
Stellen wir uns vor: Ein Wissenschaftler glaubt davon ausgehen zu konnen, daß ein Zu-
fallsvektor Y , dessen Realisierung er beobachtet, eine Verteilung besitzt, welche zu einer
uberschaubaren Familie von Wahrscheinlichkeitsbewertungen gehort.
L(Y ) ∈ Lϑ(Y ) : ϑ ∈ Θ .
Manche Leute nennen die Wahrscheinlichkeitsbewertungen Wsϑ(·) die moglichen wahren
Wahrscheinlichkeiten, andere sprechen lieber von den”nominellen“ Wahrscheinlichkeitsbe-
wertungen. Man nennt Wsϑ(·) auch die Wahrscheinlichkeitsbewertung unter der Hypothese
ϑ und Lϑ(Y ) die Verteilung von Y unter der Hypothese ϑ.
Der Wissenschaftler hat nun einen Beobachtungswert y vorliegen. Es muß keine m–Spalte
sein; sei F die Menge der moglichen Realisierungen. Der Wissenschaftler erwartet, daß
das beobachtete y zu einer der nominellen Verteilungen dµϑ(·) = Lϑ(Y ) besonders gut
paßt. Um herauszufinden, welches ϑ das ist, betrachtet er die”Likelihood–Funktion“ zu
seinem y (Definition, siehe unten) und er nimmt dasjenige ϑ als Schatzwert, in welchem
die Likelihood–Funktion `y(·) maximal ist. Dieses sog. ML–Verfahren konnte man auch als
das Verfahren zur Score–Funktion
ρ(ϑ, y) := − ln `y(ϑ), ϑ ∈ Θ, y ∈ F,
beschreiben. Und es ist in der Tat oft bequem, mit dem negativen Logarithmus der Likelihood
zu rechnen. Umgekehrt kann man in vielen Fallen zur Score–Funktion ρ(·, ·) eine Schar von
Wahrscheinlichkeitsdichten konstruieren, die auf dem Weg uber die Likelihood–Funktionen
auf die gegebene Score–Funktion fuhren
`y(ϑ) = const · exp(−ρ(ϑ, y)) fur alle y ∈ F .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
6. KLEINSTE QUADRATE UND ANDERE M–SCHATZER 52
Likelihood–Funktionen
Betrachten wir zunachst den Fall eines abzahlbaren Beobachtungsraums F . Hier ist die
Definition der Likelihood–Funktion `y(·) unproblematisch. Man definiert:
`y(ϑ) := const ·Wsϑ(Y = y) .
(Die Konstante kann man irgendwie nach Bequemlichkeit in Abhangigkeit von y wahlen;
man braucht sich nicht darauf festzulegen, sie ≡ 1 zu wahlen.)
Es ist nicht gesagt, daß jede Likelihood–Funktion `y(·) ihr Maximum in einem wohlbestimm-
ten Punkt ∈ Θ annimmt. Dies ist hier noch nicht das Thema. Es ist zunachst zu klaren,
was man in allgemeineren Fallen unter Likelihood–Funktion zu verstehen hat. Offenbar ist
die obige Definition unbrauchbar, wenn F nicht diskret ist. Man braucht analoge Konstruk-
tionen. Im Falle, daß Θ abzahlbar ist und auch in dem folgenden etwas allgemeineren Fall,
liegt die analoge Konstruktion nahe.
Nehmen wir an, daß die Familie
dµϑ(·) = Lϑ(Y ) : ϑ ∈ Θ
eine dominierte Familie von Maßen auf F ist. Es gibt hier also ein (endliches oder σ–endliches
Maß) dν(·) so , daß alle dµϑ(·) bzgl. dν(·) totalstetig sind
dµϑ(·) = p(ϑ, ·)dν(·) .
Fur jedes feste ϑ ist p(ϑ, y) eine dν(·)–fast uberall definierte Funktion. Eine Funktion `y(·),die bis auf einen Faktor mit p(·, y) ubereinstimmt, nennt man Likelihood–Funktion zum Be-
obachtungswert y. Es bereitet hier Schwierigkeiten, sauber zu fassen, daß es (in irgendeinem
Sinne) um fast alle Beobachtungspunkte geht; man muß etwas Maßtheorie betreiben um sie
zu uberwinden (siehe unten). Fur den Fall eines abzahlbaren Θ konnen wir aber schon hier
festellen, daß
`y(·) = p(·, y)
fur dν(·)–fast alle y eine wohldefinierte Funktion auf Θ ist.
Hinweis In allgemeineren Fallen braucht man Regularitatsannahmen, um Likelihood–
Funktionen fur dν(·)–fast alle y definieren zu konnen. Es lohnt sich fur uns hier nicht,
weiterzuverfolgen, welche Regularitatsannahmen hierfur ausreichen; denn wir wollen ja nicht
irgendwelche Likelihood–Funktionen, sondern solche, die sich fur die ML–Methode eignen.
Und dafur brauchen wir gewiß recht starke Regularitatsannahmen. Die technischen Uberle-
gungen verschieben wir auf den nachsten Abschnitt.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
6. KLEINSTE QUADRATE UND ANDERE M–SCHATZER 53
Beispiel (Gaußische Likelihood–Funktionen)
Unser Wissenschaftler glaubt davon ausgehen zu konnen, daß der Zufallsvektor der Lange m,
den er beobachtet, gaußisch verteilt ist
Lϑ(Y ) = N (yϑ, Cϑ) fur ϑ ∈ Θ .
Wir nehmen an, daß die Cϑ nichtsingular sind. Die Verteilungen dµϑ(·) sind dann also
totalstetig bzgl. des Lebesguemaßes im Raum der m–Spalten. Mit Qϑ = C−1ϑ gilt
dµϑ(y) = p(ϑ, y) dy
lnp(ϑ, y) = const +1
2ln |detCϑ|+
1
2(y − yϑ)>Qϑ(y − yϑ) .
Fur jede m–Spalte y ist diese Funktion von ϑ zu minimieren.
(Im Interesse der Einheitlichkeit der Notation sollten wir Cϑ und Qϑ schreiben; es handelt
sich um m × m–Matrizen. Wir wollen aber erst dann zu dieser Konvention zuruckommen,
wenn auch wieder n–Spalten ins Spiel kommen.)
Im Falle, daß die Covarianzmatrix Cϑ nicht von ϑ abhangt, reduziert sich das Problem auf
die Aufgabe, einen Punkt auf der Mannigfaltigkeit yϑ : ϑ ∈ Θ zu bestimmen, welcher von
y minimalen Abstand hat. Es handelt sich um den Abstand im Sinne von Q, d.h. im Sinne
der Methode der kleinsten Quadrate fur die Matrix Q.
Satz Die Maximum–Likelihood Methode wird im gaußischen Fall mit fester Covarianz-
matrix zur Methode der kleinsten Quadrate.
Interessant ist auch der Fall, wo die Covarianzmatrix als bis auf einen Faktor bekannt ange-
nommen wird.
Lϑ(Y ) : ϑ ∈ Θ = N (yϑ, σ2C) : yϑ ∈M, σ2 ∈ R+ .
Man kann in diesem Fall zunachst bei festem σ2 minimieren und anschließend σ2 nach der
ML–Methode schatzen. Mit
d2(y) = inf(y − yϑ)>Q(y − yϑ) : ϑ ∈ Θ
gilt es, die Minimalstelle σ2(y) der Funktion
const +m
2lnσ2 +
1
2· 1
σ2· d2(y)
zu bestimmen
d
dx
(m
2lnx+
1
2· 1xd2
)= 0 ⇐⇒ m
x− 1
x2d2 = 0 ⇐⇒ x = d2/m .
Der ML–Schatzwert fur den unbekannten Parameter σ2 ist also 1/m–mal das Quadrat des
Abstands des Punktes y von der Mannigfaltigkeit M (bzgl. Q).
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
6. KLEINSTE QUADRATE UND ANDERE M–SCHATZER 54
Hinweis Seien Y1, . . . , Ym unabhangig normalverteilt mit unbekanntem Erwartungswert
µ und unbekannter Varianz σ2. Traditionellerweise bevorzugt man die Schatzer
µ :=1
m(Y1 + . . . + Ym) fur µ
σ2 :=1
m− 1
m∑
1
(Yj − µ) fur σ2 .
Man vertraut sich also nicht der ML–Methode an. Den Faktor 1m−1 begrundet man mit
einem anderen Prinzip, welches hier in Konkurrenz steht zum ML–Prinzip.
6.4 Historisches
Die Methode der kleinsten Quadrate ist unabhangig von C.F. Gauß (1777-1855) und
A.M. Legendre (1752-1833) entdeckt (oder vorgeschlagen) worden. Legendre hat daruber 1805
publiziert. Gauß hat sie schon vorher benutzt, erwiesenermaßen vor 1803, nach Gauß’ Aussage
bereits 1795, ohne daruber zu publizieren. Es gab einen Streit zwischen den beiden als Gauß
1809 auf seine Prioritat hinwies. (Siehe bei R.L. Plackett in”Studies in the history of pro-
bability and statistics XXIX. The discovery of the method of least squares“, Biometrika 59,
(1972), 239–251). Die Prioritat von Gauß ist schon von den Zeitgenossen anerkannt worden.
Laplace hat 1820 festgestellt:”M. Legendre eut l’idee simple de considerer le somme des carres
des erreurs des observations, et de le rendre un minimum, ce qui fournit directement autant
d’equations finales, qu’il y a d’elements a corriger. Ce savant geometre est le premier qui ait
publie cette methode; mais on doit a M. Gauss la justice d’observer qu’il avait eu, plusieur
annees avant cette publication, la meme idee dont il faissait un usage habituel, et qu’il avait
communiquee a plusieurs astronomes.“ Es ist fur uns nicht wichtig, wer die Prioritat beim
Entwerfen der Methode beanspruchen kann. Wir interessieren uns fur die Begrundung der
Methode. Die Leistung von Gauß ist aus mehreren Grunden inkommensurabel mit der von
Legendre, wie wir sehen werden.
Legendre rekurriert uberhaupt nicht auf wahrscheinlichkeitstheoretische Uberlegungen bei der
Begrundung seines Vorgehens. Er schreibt:”Von allen Prinzipien, die zu diesem Zweck vor-
geschlagen werden konnen, ist m.E. keines allgemeiner, exakter und leichter anzuwenden als
dasjenige, von welchem wir in den vorausgehenden Untersuchungen Gebrauch gemacht haben
und welches darin besteht, daß man die Summe der Quadrate der Fehler zu einem Mini-
mum macht. Dadurch wird zwischen den Fehlern eine Art Gleichgewicht hergestellt, welches,
wahrend man die Extreme daran hindert, ubertriebenen Einfluß zu nehmen, sehr gut geeignet
ist, denjenigen Zustand des Systems aufzudecken, der der Wahrheit am nachsten kommt.“
(Legendre 1805)
Es war Gauß, der einen Zusammenhang mit der wahrscheinlichkeitstheoretischen Feh-
lertheorie herausgearbeit hat. Daß ein solcher Zusammenhang besteht, hatte schon 1777
D. Bernoulli, Neffe von J. Bernoulli, bemerkt:”Astronomers as a class are men of the most
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
6. KLEINSTE QUADRATE UND ANDERE M–SCHATZER 55
scrupulous sagacity; it is to them therefore that I choose to propound those doubts that I have
sometimes entertained about the universally accepted rule for handling several slightly dis-
crepant observations of the same event. By this rule the observations are added together and
the sum divided by the number of observations; the quotient is then accepted as the true value
of the required quantity, until better and more certain information is obtained.“
D. Bernoulli fuhrt dann aus, daß das Verfahren nur durch die Vorstellung von einer gleichmaßi-
gen Verteilung der Fehler gerechtfertigt sei. Was er damit gemeint hat, ist nicht so ganz klar;
wichtig ist fur uns der Hinweis auf einen Zusammenhang zwischen einer Annahme uber die
Fehlerverteilung und dem Verfahren der Mittelwertbildung.”This rule agrees with that used
in the theory of probability when all errors of observation are considered equally likely. But
is it right to hold that the several observations are of the same weight and moment, or equal-
ly prone to any and every error? “ (D. Bernoulli, 1777, zitiert aus Pearson/Kendall 1970,
S. 157–172)
D. Bernoulli macht auch auf den Unterschied zwischen”korrigierbaren“ und
”zufalligen“ Feh-
lern aufmerksam. “In astronomy, likewise, anything which admits a correction a priori is not
reckoned as an error. When all those corrections have been made which theory enjoins, any
further correction which is necessary in order to reconcile the several slightly discrepant ob-
servations which differ slightly from each other is a matter solely for the theory of probability.
What in particular happens in the course of observation ex hypothesi we scarcely know, but
this very ignorance will be the refuge to which we are forced to flee when we take our stand
on what is not the truest but most likely, not certain but most probable (non verissimum sed
verissimillimum, non certum sed probabilissimum), as the theory of probability teaches. Whe-
ther that is always and everywhere identical with the usually accepted arithmetical mean may
reasonably be doubted“ (Bernoulli, a.a.O., s. 158)
D. Bernoulli stellt funf plausible Annahmen uber die Verteilung der Wahrscheinlichkeit bei
Beobachtungsfehlern auf, die im wesentlichen konstatieren, daß die Verteilung symmetrisch
um den “wahrscheinlichsten Wert“ (”center of forces“) ist, dort ein Maximum besitzt und nach
beiden Seiten schnell abfallt. Das Beispiel, welches Bernoulli ausfuhrlich diskutiert, verdient
weiter keine Aufmerksamkeit. Die Verteilung, die ihm vom Grenzwertsatz von J. Bernoulli und
A. deMoivre (1770–71) bekannt war, hat D. Bernoulli offenbar nicht besonders interessiert.
Laplace wahlte 1774 in seiner Arbeit”Determiner le milieu que l’on doit prendre entre trois
observations donnee d’un meme phenomene“ als Wahrscheinlichkeitsverteilung die doppelt-
exponentielle Verteilung und empfahl demgemaß den Median als den”besten Schatzer“. In
einer Untersuchung von 1781 stellt Laplace mehrere mogliche”beste Schatzer“ zur Debatte,
neben dem arithmetischen Mittel und dem Median u.a. den Maximum–Likelihood–Schatzer
zur Fehlerverteilung
1
2aln
a
|x| fur − a ≤ x ≤ +a
(vgl. O.B. Sheynin:”Laplace’s Theory of Errors“ in Archive for the History of Exact Sciences,
Vol. 17, 1977a, S. 1–61)
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
6. KLEINSTE QUADRATE UND ANDERE M–SCHATZER 56
Der amerikanische Mathematiker Robert Adrain hat 1808 das Fehlergesetz e−x2aus geo-
metrisch formulierten Annahmen uber die Große der Fehler hergeleitet.”Research concerning
the probabilities of errors which happen in making observations.“ Die Arbeit hat aber keinen
Einfluß auf die Entwicklung der Fehlertheorie gehabt; sie wurde auch erst 1871 von den Wis-
senschaftshistorikern wieder entdeckt und als nicht besonders bemerkenswert eingestuft.”Dr.
Adrain’s proof, however, seems to me much inferior, both in point of rigour and conclusiven-
ess, to any of the usual investigations, . . .“ (Glaisher, 1872) (vgl. L.E. Maistrov: Probability
Theory. A historical sketch. Academic Press, New York, 1974). Man kann sicherlich nicht sa-
gen, daß R. Adrain die ausgezeichnete Stellung des heute nach Gauß benannten Fehlergesetzes
erkannt hat.
Die Arbeiten von Gauß wurden von der Naturwissenschaftlergemeinde Europas zunachst als
ein eindrucksvolles praktisches Werkzeug anerkannt. Großes Aufsehen hatte die Methode
von Gauß vor allem dadurch erregt, daß aufgrund der Berechnungen von Gauß der verloren-
gegangene Planetoide Ceres wiederentdeckt wurde. Gauß erhielt auch umgehend ein Beru-
fungsangebot als Leiter der Sternwarte an der Petersburger Akademie der Wissenschaften,
welches er allerdings ablehnte. H. Heinrich (”Uber Gauss’ Beitrage zur Numerischen Mathe-
matik“ in: Abhandlungen der Akademie der Wissenschaften der DDR, Jg. 1978 Nr. 3N, Berlin
1978, S. 108–122) beschreibt die Geschichte so:”Einer der eklatanten Erfolge des rechnen-
den Astronomen Gauß waren seine Ergebnisse, die es den Astronomen ermoglichten, am 7.
Dezember 1801 den nach nur etwa vierzigtagiger Beobachtung wieder verschwundenen, am
Neujahrstag 1801 von dem Italiener Piazzi in Palermo entdeckten ersten Planetoiden Ceres
wieder aufzufinden. Dahinter steckten als Leistungen einerseits die Entwicklung einer analy-
tischen Methode, die charakteristischen Elemente einer elliptischen Plantenbahn aus nur drei
Ortsbestimmungen zu berechnen, andererseits die Anwendung der Fehlerquadratmethode, die
es gestattete, die mehr als drei vorhandenen Beobachtungen in systematischer, von Willkur
freier Weise zu einem optimal zuverlassigen Ergebnis zu kombinieren.“
Der Laudator schießt uber das Ziel hinaus, wenn er die Freiheit von Willkur und die optimale
Zuverlassigkeit betont. Die praktisch erwiesene Wirksamkeit ist es, die hier hervorzuheben
ist. Gauß war sich der Willkur sehr wohl bewußt. Man kann sich allenfalls auf Legendre,
aber keinesfalls auf Gauß berufen, wenn man den Zusammenhang zwischen der Methode der
kleinsten Quadrate und der statistischen Fehlertheorie verschweigt.
In der Ankundigung zu seiner spater folgenden Arbeit:”Theoria Combinationis observatio-
num erroribus minimis obnoxiae“ (1821, 1823), die eine zweite Begrundung der Methode
der kleinsten Quadrate enthalt, erinnert Gauß sich an seine ersten fruhen Uberlegungen zu
diesem Problem:”Der Verfasser gegenwartiger Abhandlung, welcher im Jahr 1797 diese Auf-
gaben nach den Grundsatzen der Wahrscheinlichkeitsrechnung zuerst untersuchte, fand bald,
daß die Ausmittelung der wahrscheinlichsten Werthe der unbekannten Große unmoglich sei,
wenn nicht die Function, die die Wahrscheinlichkeit der Fehler darstellt, bekannt ist. Insofern
sie dies aber nicht ist, bleibt nichts ubrig, als hypothetisch eine solche Function anzunehmen.
Es schien ihm das naturlichste, zuerst den umgekehrten Weg einzuschlagen und die Functi-
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
6. KLEINSTE QUADRATE UND ANDERE M–SCHATZER 57
on zu suchen, die zum Grunde gelegt werden muß, wenn eine allgemein als gut anerkannte
Regel fur den einfachsten aller Falle daraus hervorgehen soll, die nemlich, daß das arith-
metische Mittel aus mehreren fur eine und dieselbe unbekannte Große durch Beobachtungen
von gleicher Zuverlassigkeit gefundenen Werthen als der wahrscheinlichste betrachtet werden
musse. Es ergab sich daraus, daß die Wahrscheinlichkeit eines Fehlers x, einer Exponential-
große von der Form e−hhxx proportional angenommen werden musse, und daß dann gerade
diejenige Methode, auf die er schon einige Jahre zuvor durch andere Betrachtungen gekom-
men war, allgemein nothwendig werde. Diese Methode, welche er nachher besonders seit 1801
bei allerlei astronomischen Rechnungen fast taglich anzuwenden Gelegenheit hatte, und auf
welche auch Legendre inzwischen gekommen war, ist jetzt unter dem Namen Methode der
kleinsten Quadrate im allgemeinen Gebrauch, und ihre Begrundung durch die Wahrschein-
lichkeitsrechnung, so wie die Bestimmung der Genauigkeit der Resultate selbst, nebst andern
damit zusammenhangenden Untersuchungen sind in der Theoria Motus Corporum Coelestium
ausfuhrlich entwickelt.“ (Gauß, Werke Bd IV, 1873, S. 98/99)
Gauß stellt sich die Frage, warum zur Bestimmung eines”besten Wertes“ die Methode der
kleinsten Quadrate geeignet ist.”Wir nehmen zuerst an, es sei bei allen Beobachtungen die
Sachlage derartig gewesen, daß kein Grund vorhanden ist, die eine fur weniger genau als die
andere zu erachten, oder daß man gleich große Fehler bei den einzelnen fur gleich wahrschein-
lich halten muß. Die Wahrscheinlichkeit, welche irgend einem Fehler ∆ beizulegen ist, wird
daher durch eine Funktion von ∆ ausgedruckt, welche wir mit ϕ(∆) bezeichnen wollen.
Wenn man nun auch diese Funktion nicht genau angeben kann, so kann man doch wenigstens
versichern, daß ihr Werth ein Maximum fur ∆ = 0 werden musse, daß er im allgemeinen fur
gleiche und entgegengesetzte Werthe von ∆ der gleiche sei, und endlich, daß er verschwinde,
wenn man fur ∆ den großten Fehler oder einen noch großeren Werth annimmt. . . .“
Gauß nimmt an, daß die Fehlerverteilung eine Dichte ϕ(x)dx besitzt und gelangt von der
a priori–Verteilung, fur die er die gleichmaßige Verteilung ansetzt, aufgrund der Annahme
der Unabhangigkeit der Beobachtungen zur a posteriori–Verteilung fur die gesuchten Großen
p, q, r, . . .. Als Fehler lassen sich die Differenzen M − V,M ′ − V ′,M ′′ − V ′′, . . . auffassen,
wenn man annimmt, in die V (i) sei ein (spater als optimal zu bestimmendes) Wertesystem
p, q, r, s, . . . eingesetzt werden. Bei Gauß (1809) in der”Theoria motus corporum coelesti-
um“ heißt es:”Deshalb wird, wenn man nur alle Beobachtungen als voneinander unabhangige
Ereignisse ansehen darf, das Produkt
ϕ(M − V )ϕ(M ′ − V ′)ϕ(M ′′ − V ′′) . . . = Ω
die Erwartung oder die Wahrscheinlichkeit ausdrucken, daß alle diese Werte gleichzeitig aus
den Beobachtungen hervorgehen werden.“
Mit einer vorsichtigen Anleihe bei modernerer Notation konnte man schreiben:
P (p ∈ (p, p+ dp), q ∈ (q, q + dq), . . . , |M = V,M ′ = V ′, . . .)
=Ωdpdq . . .∫ +∞
−∞ Ωdpdq . . .=
ϕ(ε1) . . . ϕ(εν)dpdq . . .∫ϕ(ε1) . . . ϕ(εν)dpdq . . .
.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
6. KLEINSTE QUADRATE UND ANDERE M–SCHATZER 58
”Hieraus wird man also . . . die vollig bestimmte Losung der Aufgabe ableiten konnen, sobald
nur die Natur der Funktion ϕ bekannt ist. Da diese aber a priori nicht definirt werden kann,
so wollen wir die Sache von einer anderen Seite angreifen, und nachforschen, auf welcher
stillschweigend gleichsam als Grundlage angenommenen Funktion ein landlaufiges Princip
eigentlich beruht, dessen Vortrefflichkeit allgemein anerkannt ist. Wie ein Axiom pflegt man
namlich die Hypothese zu behandeln, wenn irgend eine Große durch mehrere unmittelbare, un-
ter gleichen Umstanden und mit gleicher Sorgfalt angestellte Beobachtungen bestimmt worden
ist, daß alsdann das arithmetische Mittel zwischen allen beobachteten Werthen, wenn auch
nicht mit absoluter Strenge, so doch wenigstens sehr nahe den wahrscheinlichsten Werth ge-
be, so daß es immer das sicherste ist, an diesem festzuhalten.“ (Die Arbeit von 1809 ist in
deutscher Sprache nachgedruckt in Gauß, C.F.”Abhandlungen zur Methode der kleinsten
Quadrate“, Physika–Verlag, Wurzburg 1964)
Wir wollen Gauß’ Herleitung der Normalverteilung unten in moderner Terminologie wiederge-
ben. Gauß stellt den mathematischen Gehalt dieses Charakterisierungssatzes so dar:”Damit
das Produkt
Ω =
(h√π
)µ
exp(−h2(v2 + v′2 + · · · ))
ein Maximum werde, muß offenbar die Summe v2 + v′2 + · · · ein Minimum werden. Das
wahrscheinlichste Wertsystem der Unbekannten p, q, r, s, . . . wird daher dasjenige sein, bei
welchem die Quadrate der Differenzen zwischen den beobachteten und berechneten Werten der
Funktionen V, V ′, V ′′, . . . die kleinste Summe ergeben, wenn nur bei allen Beobachtungen der
gleiche Grad der Genauigkeit vorausgesetzt werden darf.
Dieses Prinzip, welches bei allen Anwendungen der Mathematik auf die Naturwissenschaften
sehr haufig von Nutzen ist, muß uberall mit demselben Recht als Axiom gelten, mit welchem
das arithmetische Mittel zwischen mehreren beobachteten Werten derselben Große als wahr-
scheinlichster Wert angenommen wird.“ (Gauß, 1964, S. 103)
(Kurz zuvor heißt es:”Ubrigens wird man die Constante h als das Maß fur die Genauig-
keit der Beobachtungen ansehen konnen.“ (Gauß, 1964, S. 102). Fur die Kombination von
Beobachtungen mit unterschiedlichem Genauigkeitsmaß gibt Gauß ebenfalls Regeln an.)
Die Methode der kleinsten Quadrate ist, wie schon gesagt, nach 1809 sehr schnell und all-
gemein popular worden. Es ist bemerkenswert, daß Gauß selbst seine Begrundung aus dem
Maximum–Likelihood–Prinzip in Frage gestellt hat. In einem Brief an Bessel vom 28. Fe-
bruar 1839 schreibt er, er”habe diese Metaphysik fallengelassen“. Er schreibt:
”Ich muß es
namlich in alle Wege fur weniger wichtig halten, denjenigen Werth einer unbekannten Große
zu ermitteln, dessen Wahrscheinlichkeit die großte ist, . . . als viel mehr denjenigen, an wel-
chen sich haltend man das am wenigsten nachtheilige Spiel hat.“
Gauß — und mit ihm das 19. Jahrhundert, hat die Idee des Risikos in einem Spiel nicht
weiterverfolgt. Sie taucht erst wieder im Jahre 1933 auf, in der entscheidungstheoretischen
Begrundung der modernen Statistik durch Jerzy Neyman und Egon Pearson. D.W. Muller
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
6. KLEINSTE QUADRATE UND ANDERE M–SCHATZER 59
nennt den Standpunkt, der nicht von Prinzipien ausgeht, den Standpunkt skeptischer Ent-
haltung: jeder moge nach seinem (“metaphysischen“) Prinzip ein statistisches Verfahren
konzipieren; er muß es sich gefallen lassen, daß ihm hinterher nachgerechnet wird, wie haufig
er sich bei der Anwendung seines Verfahrens tauscht. Nachgerechnet wird auf der Grundlage
von Hypothesen uber die zugrundeliegenden Wahrscheinlichkeiten, d.h. unter Modellannah-
men, die man in vielfaltiger Weise modifizieren kann. Es ist hochst bemerkenswert, daß der
entscheidungstheoretische Standpunkt mit seiner Absage an”metaphysische Prinzipien“ im
Ansatz schon bei Gauß zu finden ist. Was er fur die Begrundung der Methode der kleinsten
Quadrate leistet, geht aus dem Charakterisierungssatz von Kagan, Linnik und C.R. Rao her-
vor, den wir unten beweisen. Gauß hatte wohl eine ahnlich Idee im Sinn, als er zu Bessel uber
das am wenigsten nachteilige Spiel sprach.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
7. MASSTHEORETISCHE ASPEKTE 60
7 Maßtheoretische Aspekte
Die Begriffe Likelihood–Funktion und ML–Verfahren bergen technische und (wie sich immer
wieder zeigt, auch) begriffliche Schwierigkeiten. Wir entwickeln daher hier eine Alternative, die
sich in genugend regularen Fallen als eine durchsichtige Verallgemeinerung des ML–Prinzips
verstehen laßt. Unsere Alternative setzt voraus, daß der Parameterraum Θ ein metrischer
Raum ist. Insbesondere brauchen wir den Begriff der δ–Kugel um jeden Parameterwert:
Bδ(ϑ) = ϑ : d(ϑ, ϑ) ≤ δ , δ > 0, ϑ ∈ Θ .
Definition Fur ein endliches Maß π(dϑ) auf Θ heißt ϑ ∈ Θ ein δ–Modus, wenn
das Maß der δ–Kugel um ϑ maximal ist
π(Bδ(ϑ)) = supπ(B
δ(ϑ)) : ϑ ∈ Θ .
Hinweis Interessant ist vor allem der Fall, wo es fur genugend kleine δ > 0 genau einen
δ–Modus gibt. In der elementaren Theorie der Wahrscheinlichkeitsmaße auf R nennt man ein
Wahrscheinlichkeitsmaß mit Dichte unimodal, wenn seine Dichte von einem Maximalwert
nach beiden Seiten monoton abfallt. Fur ein unimodales Maß ist offenbar die Gesamtheit aller
δ–Modi ein Intervall, und zwar fur jedes δ > 0. Modi oder”Modalwerte“ liefern manchmal
(ahnlich wie”Medianwerte“ oder der Erwartungswert) eine brauchbare Auskunft uber die
”Lage“ der Verteilung π(dϑ).
Im gaußischen Fall stimmt der Modalwert mit dem Erwartungswert uberein, wenn d(·, ·)eine verschiebungsinvariante Metrik auf dem Rd ist, welche von einer gleichmaßig konvexen
Normkugel herruhrt. Fur eine beliebige Normalverteilung, die nicht δ–Maß ist, ist dann der
Erwartungswert der eindeutig bestimmte δ–Modus. (ohne Beweis!)
Ahnlich wie das ML–Prinzip ist das MAP–Prinzip eine Methode, um Schatzverfahren fur den
”wahren“ Parameter eines Systems zu konstruieren. Wir werden sehen, daß es im gaußischen
Fall eine Verbindung herstellt zur Methode des optimalen linearen Filterns, die wir im zweiten
Abschnitt skizziert haben. Andererseits kann die Methode der kleinsten Quadrate als ein
Spezialfall verstanden werden.
Wir holen etwas weiter aus, um das allgemeine Prinzip nicht durch unnotig spezielle Annah-
men zu verdunkeln.
7.1 Bedingte Wahrscheinlichkeiten
Seien (E,B) und (Ω,A) meßbare Raume, und sei
ϕ : (Ω,A)−→(E,B)
meßbar. Sei P (dω) ein Wahrscheinlichkeitsmaß auf (Ω,A) und P ′(dy) sein ϕ–Bild.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
7. MASSTHEORETISCHE ASPEKTE 61
Man sagt Q(y, dω) sei (eine Version der) bedingten Wahrscheinlichkeit zu P (dω) und ϕ(ω),
wenn gilt
(i) Q(y, ·) ist ein Wahrscheinlichkeitsmaß auf (Ω,A) fur jedes y ∈ E.
(ii) Q(·, A) ist B–meßbar fur jedes A ∈ A.
(iii)∫P ′(dy) · 1B(y) ·Q(y,A) = P (ω : ϕ(ω) ∈ B ∩A) fur alle B ∈ B, A ∈ A.
In der Maßtheorie erfahrt man, daß die Existenz bedingter Wahrscheinlichkeiten nicht immer
gesichert ist. Es gibt aber wichtige Falle, in denen bedingte Wahrscheinlichkeiten existieren.
Beispiel Der diskrete Fall
Nehmen wir an, daß ϕ(·) nur abzahlbar viele Werte annehmen kann; sei F die Menge aller
y, die mit positiver Wahrscheinlichkeit angenommen werden.
q(y) := P (ω : ϕ(ω) = y) > 0 fur y ∈ F .
Diese q(y) sind die Gewichte des ϕ–Bilds von P (dω); sie summieren sich zu 1 auf.
Fur y ∈ F und A ∈ A setze
Q(y,A) :=1
q(y)· P (ω : ϕ(ω) = y ∩A) .
Offenbar ist Q(y, ·) ein Wahrscheinlichkeitsmaß auf (Ω,A) und es gilt fur alle B ⊆ F ,
A ∈ A
∑
y∈B
q(y) ·Q(y,A) = P (ω : ϕ(ω) ∈ B ∩A) .
Ganz gleich, welche Wahrscheinlichkeitsmaße Q(y, ·) wir den y ∈ F\ F zuordnen, (wenn es
nur in meßbarer Weise geschieht), wir erhalten stets eine Version der bedingten Wahrschein-
lichkeit
Q(·, ·) zu P (dω) und ϕ(ω) .
7.2 A posteriori Wahrscheinlichkeiten
Seien (Θ,B) und (Ω,A) meßbare Raume und P (ϑ, dω) ein stochastischer Ubergangskern,
d.h.
(i) P (ϑ, ·) ist ein Wahrscheinlichkeitsmaß auf (Ω,A) fur jedes ϑ ∈ Θ. .
(ii) P (·, A) ist B–meßbar fur jedes A ∈ A.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
7. MASSTHEORETISCHE ASPEKTE 62
Zu jedem Wahrscheinlichkeitsmaß π(dϑ) auf (Θ,B) gibt es dann ein wohlbestimmtes
Wahrscheinlichkeitsmaß π ⊗ P auf den Produktraum Θ× Ω mit
(π ⊗ P )(B ×A) =
∫1B(ϑ)π(dϑ) · P (ϑ,A) fur alle B ∈ B, A ∈ A .
(ohne Beweis!) Bemerke, daß das Marginalmaß auf dem ersten Faktor Θ das gegebene
π(dϑ) ist. Das Marginalmaß auf dem zweiten Faktor nennt man das Bild von π(·) bzgl. des
stochastischen Kerns. Wir bezeichnen es mit (π)P∗. P (·, ·) ist eine Version der bedingten
Wahrscheinlichkeit zu π ⊗ P und der Projektion des Produktraums Θ× Ω auf den ersten
Faktor. Es stellt sich nun die Frage, ob es auch eine (Version der) bedingten Wahrscheinlichkeit
zur Projektion auf den zweiten Faktor gibt.
Hinweis Die Konstruktion einer bedingten Wahrscheinlichkeit nennt man auch die Des-
integration eines Wahrscheinlichkeitsmaßes. Man lernt in der topologischen Maßtheorie, daß
man Maße auf polnischen Raumen stets desintegrieren kann. Dieser Satz erledigt alle maßtheo-
retischen Probleme der a posteriori Wahrscheinlichkeiten im Falle, daß die Parametermenge
(Θ,B) ein polnischer Raum ist.
Definition Ein stochastischer Ubergangskern Q(ω, dϑ) heißt a posteriori Wahr-
scheinlichkeit zu π(dϑ) und P (ϑ, dω), wenn
∫1A(ω)(πP∗)(dω)Q(ω,B) = (π ⊗ P )(B ×A) fur alle B ∈ B, A ∈ A .
Beispiel Der dominierte Fall
Besonders angenehm ist der Fall, wo die Schar P (ϑ, ·) : ϑ ∈ Θ dominiert ist, wo also ein
σ–endliches Maß ν(dω) existiert, so daß
P (ϑ, dω) = p(ϑ, ω) · ν(dω)
mit einer produktmeßbaren Funktion p(·, ·) ≥ 0. In diesem Falle gilt
(π ⊗ P )(B ×A) =
∫1B×A(ϑ, ω)p(ϑ, ω)π(dϑ)ν(dω) .
Das Bildmaß (π)P∗ hat bzgl. ν(dω) die Dichte
qπ(ω) =
∫p(ϑ, ω)π(dϑ) .
Als a posteriori Wahrscheinlichkeit gewinnen wir
Q(ω, dϑ) =p(ϑ, ω)
qπ(ω)π(dϑ) .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
7. MASSTHEORETISCHE ASPEKTE 63
Bemerkung Wenn wir von ν(dω) zu einem aquivalenten Maß ubergehen, dann
verandert das Q(·, ·) nicht; p(ϑ, ω) andert sich namlich nur um einen Faktor, der nicht von
ϑ abhangt. Die Funktion c(ω) · p(·, ω) auf Θ verdient den Namen Likelihood–Funktion zu
ω. Die Formel fur Q(·, dϑ) zeigt den
Satz Die a posteriori Wahrscheinlichkeit entsteht aus der a priori Wahrscheinlichkeit
π(dϑ) durch Multiplikation mit der Likelihood–Funktion und anschließender Nominierung
auf Gesamtmasse 1.
7.3 Reine und gemischte Hypothesen
Stellen wir uns vor: Ein Wissenschaftler glaubt davon ausgehen zu konnen, daß fur das von
ihm studierte Zufallsgeschehen eine Wahrscheinlichkeitsbewertung in einer uberschaubaren
Familie maßgebend ist
Ws(·) ∈ Wsϑ(·) : ϑ ∈ Θ .
Wsϑ(·) heißt die Wahrscheinlichkeit unter der (reinen) Hypothese ϑ.
Man konstruiert nun auch noch (aus formalen mathematischen Grunden)”gemischte“ Hypo-
thesen
Wsπ(·) =
∫π(dϑ)Wsϑ(·) .
Aus technischen Grunden ist vorauszusetzen, daß die Schar in meßbarer Weise von ϑ abhangt,
daß die Schar der Hypothesen also durch einen stochastischen Kern beschrieben ist. Fur jedes
Wahrscheinlichkeitsmaß π(dϑ) ist dann Wsπ(·) eine wohldefinierte Wahrscheinlichkeitsbe-
wertung auf dem Ereignisfeld des Experiments; man nennt sie die gemischte Hypothese zur
a priori Verteilung π(dϑ).
Der Wissenschaftler hat die Realisierung einer Zufallsgroße Y beobachtet und mochte einen
dazu passenden Parameterwert feststellen. Das MAP–Prinzip empfiehlt: Wahle zuerst einmal
eine a priori–Verteilung π(dϑ); bestimme dazu die a posteriori–Verteilung Q(y, dϑ) und
wahle dazu einen Modalwert T (y) ∈ Θ.
Definition (MAP–Schatzverfahren)
Sei Lϑ(Y ) : ϑ ∈ Θ ein stochastischer Ubergangskern von (Θ,B) nach (F,C). Θ sei ein
metrischer Raum, δ > 0. Eine meßbare Abbildung
F 3 y 7−→ T (y) ∈ Θ
heißt ein MAP–Schatzer zur a priori Verteilung π(dϑ), wenn das a posteriori–Maß der
δ–Kugel um T (y) maximal ist fur fast alle y.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
7. MASSTHEORETISCHE ASPEKTE 64
Bemerkungen
1) Das MAP–Prinzip macht keine Vorschlage, wie das a priori–Maß π(dϑ) gewahlt werden
sollte. Die sog. Neobayesianische Schule stellt sich auf den Standpunkt, daß π(dϑ) das
Vorwissen des Wissenschaftlers zum Ausdruck bringen muß.
2) Es gibt Falle, in welchen man die ML–Methode als einen Spezialfall (oder Grenzfall) der
MAP–Methode auffassen kann. Es sei π(dϑ) ein σ–endliches Maß, welches in irgendei-
ner Weise ausgezeichnet ist (etwa durch Symmetrien oder Invarianzeigenschaften). Die
a posteriori Wahrscheinlichkeit zu diesem π(dϑ) entsteht daraus durch Multiplika-
tion mit der Likelihood–Funktion `y(·). Fur kleine δ liegt (in genugend regularen
Fallen) der δ–Modalwert der a posteriori–Verteilung nahe bei der Maximalstelle der
Likelihood–Funktion. Wenn die Likelihood–Funktion ein scharf ausgepragtes Maximum
hat, dann kommt es auf das a priori–Maß π(dϑ) nicht sehr an.
Bei allgemeinen M–Schatzern, wie uberhaupt bei abstrakten Schatzverfahren haben der
Beobachtungsraum und der Parameterraum Θ von vorneherein nichts miteinander zu tun.
Es geht einfach darum, daß die Schatzung
Y T (Y )
jeder Verteilung L(Y ) eine Verteilung des Schatzwertes L(T (Y )) zuordnet. Es gibt keine
endgultigen Kriterien, nach welchen man die”Gute“ eines Schatzverfahrens beurteilen konnte.
Man muß erst spezifizieren, wie man den Schatzwert T (Y ) nutzen will. Im Endeffekt geht es
darum, aufgrund des ermittelten T (Y ) gewisse Aspekte eines Zufallsgeschehens X, welches
man nur partiell betachten konnte, mit moglichst kleinem Fehler zu erschließen. Es geht um
Pradiktion in einem sehr abstrakten Sinn.
Bei den ML–Schatzern und den MAP–Schatzern haben die Elemente ϑ von Θ ei-
ne Interpretation; sie parametrisieren gewisse”nominelle“ Wahrscheinlichkeitsbewertungen
des Zufallsgeschehens X, welches partiell beobachtet wird. Diese Interpretation legt aber
immerhin nahe, wie man die a priori Verteilungen interpretieren kann und die a posteriori
Verteilungen nutzen sollte. Die Frage nach dem”wahren“ ϑ kann man dabei ohne Schaden
als kunstlich abtun. (Wir erinnern an D. Bernoullis vorsichtige Bezeichnung”non verissimum
set verisimillimum, non certum set probabilissimum“). Man kann sich der pragmatischen
Aufgabe zuwenden, aufgrund der Beobachtung y fur gewisse Aspekte des nichtbeobachteten
Zufallsgeschehenss X eine vertretbaren Pradiktion zu machen.
Pradiktion anstelle von Schatzung Bezeichne Lϑ(X|Y = y) die bedingte Vertei-
lung zu jedem festen ϑ. (Die technischen Fragen bzgl. der Wohldefiniertheit solcher bedingten
Verteilungen fur ein fixiertes y lassen wir hier beiseite.) Wenn X nach der nominellen Ver-
teilung Lϑ(X) verteilt ist, wobei ϑ bekannt ist, dann spricht alles dafur, die Pradiktion
aufgrund der Beobachtung y an dieser bedingten Verteilung zu orientieren. Ahnlich klar ist
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
7. MASSTHEORETISCHE ASPEKTE 65
die Sache, wenn ϑ das Ergebnis eines Zufallsexperiment ist, dessen Verteilung π(dϑ) bekannt
ist. Man wird sich bei der Pradiktion auf die bedingte Verteilung fur das zusammengesetzte
Experiment (”gemischte Hypothese“) beziehen. Es gilt
Lπ(X|Y = y) =
∫Q(y, dϑ) · Lϑ(X|Y = y) .
Die a posteriori Wahrscheinlichkeiten sind also nicht nur fur denjenigen interessant, der den
Modus dieser Wahrscheinlichkeitsverteilungen als MAP–Schatzer fur den wahren Parame-
ter ins Spiel bringen will. Die Schatzung des”wahren“ Parameters ist nicht der Dreh– und
Angelpunkt der Technik der a posteriori Wahrscheinlichkeiten.
7.4 MAP–Verfahren fur die lineare Theorie
In der linearen Theorie betrachtet man a priori und a posteriori Verteilungen einer sehr spezi-
ellen Gestalt. Man denkt an ein Zufallsgeschehen, welches in der Realisierung eines gaußischen
Zufallsvektors X der Lange n besteht. Ein lineares Bild Y = MX wird beobachtet, und es
geht darum fur allerlei n–Zeilen ξ die Zufallsgroße ξX durch ein ηY mit moglichst kleinem
Fehler zu erschließen. Die Unsicherheit besteht darin, daß der Erwartungswert von X nicht
bekannt ist. E X ∈W, cov(X,X) = C. Man betrachtet nun gaußische a priori–Verteilungen
auf W und gewinnt unter der Annahme, daß X gaußisch ist, a posteriori Verteilungen, die
man dann zur Pradiktion nutzen kann. Man tritt so in Konkurrenz zum BLUE–Prinzip. Die
BLUE–Schatzung macht bekanntlich einen Vorschlag fur die Pradiktion der erwartungstreu
schatzbaren ξX. Das nachfolgende Beispiel zeigt, daß die BLUE–Schatzung nicht immer
angemessen ist, ganz abgesehen davon, daß das BLUE–Prinzip keine Vorschlage macht, wie
man solche ξX”vorhersagen“ sollte, die nicht erwartungstreu schatzbar sind. (Spater werden
wir das BLUE–Prinzip gegen das MAP–Prinzip abwagen.)
Eine Anwendungssituation
Ein Sender sendet ein periodisches Signal S(t). Ein Empfanger mißt das verrauschte Signal
S(t) + ε(t) zu Zeitpunkten t1, . . . , tm. Wir nehmen an, daß die ε(tj) unabhangig und
N (0, σ2)–verteilt sind. Wir nehmen an, daß die Periode dem Empfanger bekannt ist; wir
konnen also annehmen, daß es sich um ein 2π–periodisches Signal handelt.
Wir wollen uns klar machen, daß die gewohnliche Methode der kleinsten Quadrate inadaquat
ist, eine MAP–Schatzung aber vernunftig sein kann. Zunachst stellen wir fest, daß wir hier ein
unendlichdimensionales Modell vor uns haben. Es ist naturlich ausgeschlossen, aufgrund von
nur m Beobachtungen eine vollstandige Auskunft uber S(·) zu geben. Zu jeder Ordnung
p gibt es ein trigonometrisches Polynom
S∗p(t) =
+p∑
k=−p
a(p)k · exp(ikt) ,
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
7. MASSTHEORETISCHE ASPEKTE 66
welches dem Beobachtungsvektor y (der Lange m) am nachsten kommt,
1
m
m∑
j=1
|yj − S∗p(tj)|2 = min .
Ein optimales trigonometrisches Polynom vom Grad p ist nun aber im allg. keine brauchbare
Schatzung fur das Signal S(·). Fur großes p haben wir das Phanomen der Uberanpassung.
Das nach der Methode der kleinsten Quadrate ermittelte S∗p(·) folgt allzusehr den Fehlern und
verliert dabei das vermutlich viel glattere wahre Signal aus den Augen. Eine beliebte Methode
zur Vermeidung von Uberanpassung besteht darin, daß man die Beimischung unerwunschter
Beitrage mit hoher Frequenz”bestraft“.
Das konnte etwa folgendermaßen geschehen. Als ein Maß fur die Glattheit einer periodischen
Funktion v(t) betrachten wir beispielsweise
‖v‖2 := c1
∫|v(t)|2dt+ c2
∫|v(t)|2dt .
Hierbei ist das Integral uber eine volle Periode zu erstrecken; c1 und c2 sind positive Zahlen.
Die Norm kann man offenbar auch durch die Fourierkoeffizienten ausdrucken
‖v‖2 = ‖∑
akeiωkt‖2 =
+∞∑
−∞(d1 + d2k
2)|ak|2 .
Wir behandeln dann die
Aufgabe Finde v(t), so daß
‖v‖2 +1
m
∑
j
1
σ2j
|yj − v(tj)|2 = min .
Wir ubersetzen diese Aufgabe mit Hilfe der Fourier–Transformation.
Es sei B die m × (2p + 1)–Designmatrix zu t1, . . . , tm und den Funktionen eikt; k =
0,±1,±2, . . . ,±p. Fur v(t) =∑ake
ikt gilt dann
1
m
∑ 1
σ2j
|yj − v(tj)|2 =1
m(y −Ba)∗ Q(y −Ba) ,
wo Q die m×m–Diagonalmatrix mit den Eintragen 1σ2
j
ist. Auf der anderen Seite haben
wir
‖v‖2 = a∗Q0a ,
wo Q0 die (2p+ 1)× (2p+ 1)–Diagonalmatrix ist mit den Diagonalelementen d1 + d2k2.
Die Aufgabe lautet nun:
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
7. MASSTHEORETISCHE ASPEKTE 67
Aufgabe Finde die Minimalstelle a der quadratischen Funktion
a∗Q0a+1
m(y −Ba)∗ Q(y −Ba) .
Es handelt sich um eine Aufgabe der kleinsten Quadrate. Es geht aber offenbar nicht darum,
gewisse Parameter erwartungstreu zu schatzen. Wir zeigen, daß man diese kleinste Quadrate–
Schatzung als eine MAP–Schatzung interpretieren kann.
Hinweis Das Herausfiltern von periodischen Signalen aus einer Zeitreihe S(t) : t ∈ Rist eine hochentwickelte Kunst in der
”Zeitreihenanalyse“. (siehe z.B. Brockwell & Davis:
. . . ). Unser Beispiel kann nicht den Anspruch erheben, einen Eindruck zu vermitteln von den
Modellierungen und Fragestellungen dieser Kunste. Unser Beispiel soll hier lediglich als eine
Bestatigung verstanden werden, daß es beim Filtern im allg. nicht um BLUE–Schatzung geht.
Es hat einen praktischen Sinn, wenn man nicht nur fur die Fehler ε sondern auch fur die
unbekannten Parameter eine Covarianzmatrix in Ansatz bringt, so wie wir das auch schon
oben gemacht haben. Das Stichwort in der statistischen Literatur heißt Ridge–Regression.
(siehe z.B. Draper, Smith: Applied Regression Analysis, Wiley, 2nd edition 1981).
Interpretation als MAP–Schatzung
Das Zufallsexperiment bestehe in der Realisierung eines gaußischen Vektors X mit
E X ∈W , cov(X,X) = C .
Y = MX wird beobachtet.
Wir mussen nicht voraussetzen, daß die Lw(X) dominiert sind. Wir nehmen aber an, daß
Lw(Y ) fur alle w ∈ W denselben linearen Trager T hat, dh. Mw ∈ T fur alle w ∈ W
(”nichtausgearteter Fall“).
1) Lw(Y ) hat dann die folgende Dichte bzgl. des Lebesgue–Maßes auf T
const · exp
(−1
2(y −Mw)∗ Q(Y −Mw)
).
Der negative Logarithmus der Likelihood–Funktion ist also fur jedes mogliche y ∈ T
eine quadratische Funktion von w mit Definitionsbereich W.
2) Aufgrund der Beobachtung y soll ein Schatzwert T (y) fur den wahren Parameter nach
der MAP–Methode angegeben werden. Um uberhaupt mit der Rechnung anfangen zu
konnen, mussen wir eine a priori–Verteilung auf W wahlen. Wir wahlen eine gaußische
Verteilung mit Erwartungswert w′, deren linearer Trager der ganze Raum W ist
π(dw) = const · exp
(−1
2(w − w′)∗Q0(w − w′)
)dw fur w ∈W .
Die n× n–Matrix Q0 kann als Bestrafung,”Penalty“, interpretiert werden; sie ergibt
sich in der bekannten Weise aus der Covarianzmatrix der a priori–Verteilung π(dw).
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
7. MASSTHEORETISCHE ASPEKTE 68
3) Bekanntlich entsteht die a posteriori–Verteilung durch Multiplikation der a priori–
Verteilung mit der Likelihood–Funktion zum Beobachtungswert. In unserem Falle ist
die a posteriori–Verteilung
const · exp
(−1
2(w − w′)∗Q0(w − w′)− 1
2(x−Mw)∗ Q(y −Mw)
)dw .
4) Wir denken uns W ausgestattet mit irgendeiner Norm mit strikt konvexer Einheits-
kugel. Wir konnen dann den Erwartungswert dieser a posteriori–Verteilung als ihren
Modalwert deuten. Die Suche nach dem MAP–Schatzer ist also die Suche nach dem
Erwartungswert der a posteriori–Verteilung oder die Suche nach der Minimalstelle der
quadratischen Funktion
W 3 w 7−→ 1
2(w − w′)∗Q0(w − w′) +
1
2(y −Mw)∗ · Q(y −Mw) .
Zu jedem y ∈ T ist derjenige Punkt T (y) ∈ W zu bestimmen, in welchem diese
quadratische Funktion ihr Minimum annimmt.
Bemerke Wenn Q0 klein ist, wenn also die a priori–Verteilung weit ausgestreckt ist,
dann ist TQ0(y) nahe zu einem Punkt auf dem affinen Raum ϑ : Mϑ = y. Der ML–
Schatzer entspricht dem Grenzfall Q0 → 0. Die Likelihood–Funktionen sind auf jedem affinen
Raum mit dem Tangentialraum N = z : Mz = 0 ∩W konstant. Wir werden sehen, wie
man ein wy berechnet, so daß wy + N die Gesamtheit der Minimalstellen der Likelihood–
Funktion zu y ist.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
8. GEOMETRIE DER KLEINSTEN QUADRATE 69
8 Geometrie der kleinsten Quadrate
8.1 Orthogonale Projektion und Normalgleichungen
C sei eine positiv semidefinite n× n–Matrix. Der Spaltenraum heiße T. E sei der Raum
aller n–Spalten. Wir sagen von Punkten x1, x2 ∈ E, daß sie endlichen Abstand voneinander
haben, wenn x2 − x1 ∈ T; in diesem Fall definieren wir den Abstand ‖x2 − x1‖ mit Hilfe
einer Hilbertraum–Norm auf T, wie folgt:
Definition Sei Q eine hermitische n× n–Matrix mit
CQC = C .
Fur x1, x2 ∈ T definieren wir das innere Produkt
〈x1, x2〉 := x∗1Qx2 = x∗2Qx1
und den Abstand ‖x2 − x1‖ = 〈x2 − x1, x2 − x1〉1/2.
Bemerke
1) 〈x, x〉 = 0 =⇒ x = 0 .
Fur x = Cξ∗ ∈ T gilt namlich
〈x, x〉 = x∗Qx = ξCQCξ∗ = ξCξ∗ .
Da C positiv semidefinit ist, folgt Cξ∗ = 0 aus ξCξ∗ = 0.
2) Die Definition des inneren Produkts auf T ist unabhangig von der Wahl von Q; sie
hangt nur von C ab. Fur x1 = Cξ∗1, x2 = Cξ∗2 gilt namlich
〈x1, x2〉 = x∗1Qx2 = ξ1CQCξ∗2 = ξ1Cξ
∗2 .
Sprechweisen und Notationen
a) Man sagt von Vektoren x1, x2 ∈ T, daß sie aufeinander senkrecht stehen oder, daß sie
zueinander orthogonal sind, und man notiert x1 ⊥ x2, wenn
〈x1, x2〉 = 0, d. h. x∗1Qx2 = 0 = x∗2Qx1 .
b) Man sagt von Teilmengen U1,U2 ⊆ T, daß sie zueinander orthogonal sind und notiert
U1 ⊥ U2 wenn u1 ⊥ u2 fur alle u1 ∈ U1, u2 ∈ U2 .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
8. GEOMETRIE DER KLEINSTEN QUADRATE 70
c) Zu jeder Teilmenge U ⊆ T definiert man den Orthogonalraum U⊥ ⊆ T
U⊥ := y : y ⊥ u fur alle u ∈ U ∩ T .
(Es handelt sich offenbar um einen Vektorraum.)
Satz 1 Fur jeden Teilvektorraum V von T ist
T = V+V⊥
eine direkte Zerlegung.
Beweis
1) V∩V⊥ = 0. Das einzige x ∈ T, welches auf sich selbst senkrecht steht, ist der
Nullvektor.
2) Zu jedem x ∈ T gibt es genau ein x ∈ V, welches x am nachsten liegt. Dieses x
ist gekennzeichnet durch (x− x) ⊥ V
‖x− (x+v)‖2 = (x− x+v)∗Q(x− x+v)
= (x− x)∗Q(x− x) + 2<e〈x− x, v〉 + v∗Qv .
3) x = x+(x− x) mit x ∈ V, x− x ∈ V⊥.
Sprechweise Die Projektion von T auf V entlang von V⊥ heißt die orthogonale
Projektion auf V. x− x heißt das Lot von x auf V, x heißt der Fußpunkt des Lots.
Corollar Es gilt U⊥⊥ = U fur jeden Teilvektorraum U ⊆ T. Fur jede Teilmenge U
von T ist U⊥⊥ der kleinste U umfassende Teilvektorraum von T.
Wir beschreiben jetzt orthogonale Projektionen im Matrizenkalkul. Es zeigt sich, daß die
Normalgleichungen eine zentrale Rolle spielen.
Satz 2 Sei M eine m × n–Matrix und U = x : Mx = 0 ∩ T. Die orthogonale
Projektion entlang U ist dann
x 7−→ NMx fur x ∈ T ,
wo N eine beliebige Losung der Normalgleichung ist
(I −NM)CM ∗ = 0 .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
8. GEOMETRIE DER KLEINSTEN QUADRATE 71
Beweis
1) Die Abbildungen x 7−→Mx und P : x 7−→ NMx annullieren die Elemente von U.
2) NMCM ∗ = CM∗.
Die Abbildung x 7−→ Px laßt also die Spalten von CM ∗ unverandert. Sei T der
Durchschnitt dieses Spaltenraums mit T. Wir zeigen T = U⊥.
3) Da MC und MCM ∗ denselben Rang haben, gibt es zu jedem x = Cξ∗ ∈ T ein η∗,
so daß
Mx = MCξ∗ = MCM∗η∗ .
Daraus folgt Px ∈ T fur alle x ∈ T; denn
Px = NMx = NMCξ∗ = NMCM∗η∗ = CM∗η∗ ∈ T .
P projiziert T auf T entlang von U.
4) Fur x0 = (I − P )x0 ∈ U, x1 = Px1 ∈ T sei xi = Cξ∗i . Es gilt
〈x0, x1〉 = 〈(I − P )x0, Px1〉 = x∗0(I − P )∗QPx1
= ξ0C(I − P )∗QPCξ1 .
5) T = U⊥ ist bewiesen, wenn wir die folgende Matrizengleichung nachweisen
C(I − P )∗QPC = 0 .
Die Normalgleichung liefert
(I − P )CP ∗ = 0 , CP ∗ = PCP ∗ = PC .
Daraus
C(I − P ∗)QPC = (I − P )CQCP ∗ = (I − P )CP = 0 .
Satz 3 (Umkehrung) Sei P eine Matrix, die eine orthogonale Projektion von T
in sich beschreibt, d.h.
C(I − P )∗QPC = 0 .
Dann gilt
(I − P )CP ∗ = 0 und PC = CP ∗ = PCP ∗ .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
8. GEOMETRIE DER KLEINSTEN QUADRATE 72
Beweis
1) Fur jedes x ∈ T liegt der Bildpunkt Px in T. Fur jedes Ct gibt es ein s mit
PCt = Cs. Es gibt eine lineare Abbildung t 7−→ s, die das leistet; drucken wir sie
durch die Matrix R∗ aus
PCt = CR∗t fur alle t .
2) Die Orthogonalitat von P liefert fur die Matrix R
0 = C(I − P )∗QPC = (I −R)CQCR∗ = (I −R)CR∗
CR∗ = RCR∗ = RC; PC = RC
P und R liefern dieselbe Abbildung von T.
PCP ∗ = (PC)P ∗ = (RC)P ∗ = R(CP ∗) = RCR∗
(I − P )CP ∗ = CP ∗ − PCP ∗ = (I −R)CR∗ = 0 .
Corollar Sei P eine Matrix, so daß x 7−→ Px den Raum orthogonal projiziert. Setze
ξ = ξP fur alle n–Zeilen ξ. Es gilt dann fur alle ξ1, ξ2
ξ1 ·C · ξ∗2 = ξ1 · C · ξ∗2 .
Hinweise
1) Die semidefinite Matrix C kann man auch verwenden, um auf dem Raum der n–Zeilen
ein inneres Produkt einzufuhren
〈ξ1, ξ2〉 := ξ1Cξ∗2 .
Hier gibt es aber im allg. Elemente ξ mit 〈ξ, ξ〉 = 0. Insofern liegt dieses innere Produkt
der geometrischen Anschauung ferner als das innere Produkt auf dem r–dimensionalen
Spaltenraum T, das wir durch Q definiert haben.
2) Sei Z der Raum der n–Zeilen und N = ξ0 : ξ0Cξ∗0 = 0. Wir haben dann eine
Isometrie
Z /N ←→ T vermoge ξ 7−→ x = Cξ∗ .
Fur alle x1 = Cξ∗1, x2 = Cξ∗2 gilt namlich
〈x1, x2〉 = x∗1Qx2 = ξ1CQCξ∗2 = ξ1Cξ
∗2 = 〈ξ1, ξ2〉 .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
8. GEOMETRIE DER KLEINSTEN QUADRATE 73
3) Der Stochastiker interpretiert das innere Produkt 〈ξ1, ξ2〉 als Covarianz der durch ξ1
und ξ2 gegebenen Linearkombinationen der Komponenten eines Zufallsvektors X mit
der Covarianzmatrix C
cov(ξ1X, ξ2X) = ξ1 · cov(X,X) · ξ∗2 = ξ1 · C · ξ∗2 .
4) Bemerkenswert ist nun, daß der Begriff der orthogonalen Projektion in den beiden Be-
trachtungsweisen zusammenpaßt
cov((I − P )X,PX) = 0 ⇐⇒ (I − P )CP ∗ = 0
(I − P )T ⊥ P T ⇐⇒ C(I − P )∗QPC = 0 .
Wir haben eben gesehen, daß die beiden Bedingungen an die Matrix P aquivalent
sind.
Satz 4 Der Teilvektorraum V von T sei als lineares Bild gegeben
V = v : v = Bs ⊆ T .
Sei F ∗ eine beliebige Losung der Normalgleichung
(I − F ∗A∗)CA = 0 mit A = QB .
a) Dann ist x 7−→ F ∗A∗x die orthogonale Projektion von T auf V.
b) F ∗ lost die Normalgleichung genau dann, wenn
F ∗B∗QB = B .
Beweis
1) CQC = C. Die Spalten von B liegen im Spaltenraum T von C; also gilt CQB = B,
CA = B, A∗CA = B∗QB
F ∗B∗QB = B ⇐⇒ F ∗A∗CA = CA .
2) Die Abbildung x 7−→ F ∗A∗x liefert eine orthogonale Projektion von T nach Satz 2 .
Nach Satz 3 gilt
F ∗A∗C = CAF = BF .
x = Ct wird auf BFt ∈ V projiziert. Fur x = Bs ∈ T haben wir insbesondere
F ∗A∗x = F ∗A∗Bs = F ∗A∗(CAs) = CAs = Bs .
Es handelt sich also um die orthogonale Projektion auf V.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
8. GEOMETRIE DER KLEINSTEN QUADRATE 74
3) Wir diskutieren noch den Nullraum der Projektion. F ∗A∗ ist die orthogonale Projek-
tion entlang
U = x : A∗x = 0 ∩ T
= x : B∗Qx = 0 ∩ T
= x : v∗Qx = 0 fur alle v ∈ V ∩ T = V⊥ .
Die Normalgleichung (I − F ∗A∗)CA = 0 bringt also in der Tat zum Ausdruck, daß
F ∗A∗ die orthogonale Projektion entlang von V⊥ ist.
Hinweis Die elementaren Lehrbucher beschranken sich ublicherweise auf den Fall, wo
die Spalten von B linear unabhangig sind, und daruberhinaus B∗QB vollen Rang hat. Die
Sache wird aber nicht wirklich durchsichtiger dadurch, daß man in diesem Fall die Losung
der Normalgleichung explizit hinschreiben kann
F ∗ = B(B∗QB)−1
F ∗A∗ = F ∗B∗Q = B(B∗QB)−1BQ .
Diese Matrix zur orthogonalen Projektion x 7−→ x = F ∗A∗x nennt man manchmal die
Hut–Matrix; sie setzt den Punkten x ∈ T den Hut auf.
Fazit
1) Wenn
(I −NM)CM ∗ = 0 ,
dann ist fur alle x ∈ T
(I −NM)x
das Lot von x auf U⊥, wo U = z : Mz = 0 ∩ T, U⊥ = x : x = NMCt.
2) Wenn
(I − F ∗A∗)CA = 0 ,
dann ist fur alle x ∈ T
(I − F ∗A∗)x
das Lot von x auf V, wo V = v : v = CAt .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
8. GEOMETRIE DER KLEINSTEN QUADRATE 75
3) Man vergleiche die erste Aussage mit dem Ergebnis uber lineare Regression: Sei X
ein Zufallsvektor mit
E X = 0 , cov(X,X) = C .
Der Pradiktionsfehler bei der besten linearen Pradiktion aufgrund von Y = MX ist
dann
(I −NM)X .
4) Eine entsprechende Aussage uber den Pradiktionsfehler bei der BLUE–Pradiktion soll
im Folgenden hergeleitet werden.
8.2 Minimale quadratische Distanz fur affine Raume
Gegeben sind C, M und W.
C ist eine positiv semidefinite n× n–Matrix.
M ist eine m× n–Matrix.
W ist ein Vektorraum von n–Spalten.
Weitere Bezeichnungen : Es seien
Q hermitisch mit CQC = C
T der Spaltenraum von C; D = W+T
C = MCM∗; Q hermitisch mit C Q C = C
W das M–Bild von W, W = M W
V = W∩ T, D = W + T
B sei eine m× p–Matrix mit Spaltenraum V, A = Q B
F eine Losung der Normalgleichung (I − F ∗A
∗) C A = 0
N sei eine Losung der Normalgleichung (I −NM)CM ∗ = 0.
Um die Ideen zu fixieren, wahlen wir Q zu N und Q passend, d.h. Q = N∗QN .
Hilfssatz Wenn U = x : Mx = 0 ∩ T, U′ = (x : Mx = 0 + W) ∩ T, dann gilt
U′ = U+N V.
Beweis
1) Offensichtlich gilt die Inklusion M U′ ⊆ W∩ T = V. Wir zeigen die Gleichheit M U′ =
V. Zu v ∈ V existieren w ∈ W, x ∈ T mit Mw = v = Mx. Da M(x − w) = 0
haben wir x = (x − w) + w ∈ U′ und dieses x ∈ U′ hat das gewunschte M–Bild
v = Mx.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
8. GEOMETRIE DER KLEINSTEN QUADRATE 76
2) Da U ⊆ U′ ⊆ T = U+U⊥, existiert ein Teilvektorraum V′ mit U′ = U+V′. Wir
zeigen V′ = N V. In der Tat bildet nach 1) M den Raum U auf V ab, NM
projiziert T auf U⊥ und U′ auf N V.
C definiert auf dem Raum aller n–Spalten eine verallgemeinerte Metrik; verallgemeinert ist
der Begriff der Metrik insofern, als auch die Distanz +∞ vorgesehen ist. Die Gesamtheit
der Punkte, die von W endlichen Abstand haben, ist W+T = D.
C definiert auf dem Raum aller m–Spalten eine verallgemeinerte Metrik. Die Gesamtheit
der Punkte, die von W endlichen Abstand haben, ist W+ T = D.
Fur y ∈ D nennen wir [y] = x : Mx = y die Faser zu y. In jeder solchen Faser gibt es
Punkte x, die endlichen Abstand von W haben. D kann also verstanden werden als die
Menge der Fasern, die von W endlichen Abstand haben.
Bezeichne N := z0 : Mz0 = 0 ∩W. Wenn z0 ∈ N, dann liegen x und x + z0 in
derselben Faser mit demselben Abstand zu W
dist(x+ z0,W) = dist(x,W) fur alle z0 ∈ N .
Die Gesamtheit der x in der Faser [y], die minimalen Abstand von W haben, ist ein
affiner Raum mit dem Tangentialraum N. Wir werden sehen, daß der minimale Abstand
der Faser [y] von W gleich dem Abstand von y zu W ist, d.h.
dist([y],W) = dist(y, W) .
Aufgabe der kleinsten Quadrate Finde zu allen Fasern [y] die Gesamtheit aller
nachsten Punkte auf W.
Jedes w ∈ W liefert eine Translation von D = W+T in sich. Die Faser [y] wird in die
Faser [y +Mw] verschoben. Die Gesamtheit der zu [y +Mw] nachsten Punkte geht aus
der Gesamtheit der nachsten Punkte zu [y] durch Verschiebung um W hervor. Es genugt
daher, die Fasern [y] zu y ∈ T zu untersuchen.
Satz 5 (Paare nachster Punkte)
Ein Paar von n–Spalten (x,w) heiße ein Paar nachster Punkte fur y (y ∈ D = W+ T),
wenn
M x = y , w ∈W , ‖x−w‖2 = min .
Genau dann ist (x,w) ein Paar nachster Punkte, wenn
(x−w) ⊥ U′ ; wobei wie oben U′ = U+N V .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
8. GEOMETRIE DER KLEINSTEN QUADRATE 77
Beweis
1) ‖x−w‖2 ist endlich wegen y ∈ D, also x−w ∈ T. Die Konkurrenten in (x,w) sind
zunachst alle (x+z0, w + z1) mit Mz0 = 0, z1 ∈W, z0 − z1 ∈ T
‖(x+z0)− (w + z1)‖2 − ‖x−w‖2 = 2 ·Re 〈x−w, z0 − z1〉+ ‖z0 − z1‖2 .
Wenn (x,w) ein Paar nachster Punkte ist, dann gilt
(x−w) ⊥ (z0 − z1) fur alle z0 − z1 ∈ (z : Mz = 0+ W) ∩ T .
2) Wenn (x,w) Paar nachster Punkt ist, dann ist die Gesamtheit aller weiteren Paare
nachster Punkte die Menge aller (x+z, w + z) mit z ∈ N = z : Mz = 0 ∩W .
3) (x,w) ist auch wirklich Paar nachster Punkt fur y, wenn
M x = y , w ∈W , (x−w) ⊥ U′ = U+N V .
Die letztere Bedingung formulieren wir um:
(i) x−w ∈ U⊥
(ii) (x−w)∗QN v = 0 fur alle v ∈ V.
Satz 6 Sei y ∈ T und vy = F∗A
∗y der Fußpunkt des Lots von y auf V. Sei
wy ∈W, so daß Mwy = vy.
wy + N ist dann die Gesamtheit aller Punkte in W, die minimalen Abstand zur Faser [y]
haben.
Sei x so, daß x−wy = N(y − vy).
x+N ist dann die Gesamtheit aller Punkte aus [y], welche minimalen Abstand von W
haben.
Beweis
1) Sei (x,w) ein Paar nachster Punkte fur y ∈ T. Es gilt dann Mw ∈ V, weil x−w ∈ T
und daher y −Mw ∈ T. Nach dem Kriterium im vorigen Satz haben wir
x−w ∈ U⊥ und daher x−w = NM(x−w) = N(y − v) .
2) Nach dem Kriterium haben wir
(x−w)∗QN v = 0 fur alle v ∈ V
(y − v)∗NQN v = 0 fur alle v ∈ V .
N∗QN = Q ist die fur T maßgebende Matrix
(y − v) ⊥ V , v = F∗A
∗y .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
8. GEOMETRIE DER KLEINSTEN QUADRATE 78
3) Sei andererseits fur ein y ∈ T vy = F∗A
∗y , wy ∈W mit Mwy = vy, dann ist
x = wy +N(y − vy) zusammen mit wy ein Paar nachster Punkte fur y.
Die Rolle von N haben wir bereits diskutiert.
4) Wir bemerken, daß fur den Abstand von [y] zu W gilt
(x−wy)∗Q(x−wy) = (y − vy)
∗ Q(y − vy) .
Der Abstand der M–Bildpunkte bzgl. der Metrik in T ist der Abstand der Faser [y]
von W bzgl. der Metrik in T. Das Problem der kleinsten Quadrate fur Fasern ist auf
das klassische Problem zuruckgefuhrt.
Man braucht sowohl die orthogonale Projektion NM in T als auch die orthogonale Projetion
P := F∗A
∗in T.
Wir wollen jetzt noch die Verbindung zur BLUE–Schatzung herstellen. Dazu brauchen wir
einige Vorbereitungen.
8.3 Verschiebungsvertragliche Regression
Das Ziel einer nicht notwendigerweise linearen) Regressionsberechnung kann man so beschrei-
ben. Eine Zufallsgroßen X ist realisiert worden, ϕ(X) ist beobachtet worden. Wie sieht die
bedingte Verteilung aus; wo liegt sie, wie streut sie? Wir denken an einen Zufallsvektor der
Lange n und an die Beobachtung von Y = MX. Die Frage geht nach dem bedingten Er-
wartungswert und der bedingten Covarianz in Abhangigkeit von Y ; jedenfalls im gaußischen
Fall sind Erwartungswert und Covarianzmatrix die passenden Lage– und Streuungsbeschrei-
bungen fur die bedingte Verteilung L(X|Y ).
Den Fall eines gaußischen Vektors X mit E X = 0, cov(X,X) = C haben wir oben schon
behandelt; es stellte sich heraus, daß die Antworten die sind, die wir auch im Ansatz zum
linearen Filtern gefunden haben. Im gaußischen Fall reduziert sich die Regressionsrechnung
also auf das lineare Filtern.
Wir denken nun an einen gaußischen Vektor mit unbekanntem Erwartungswert ∈ W, und
wir bemuhen uns um eine mit der Verschiebung vertraglichen Regressionsberechnung. Als
Pradiktor fur die Lage der Verteilung von X nach der Beobachtung von Y wahlen wir
denjenigen Punkt X in der Faser [Y ], der am nachsten an W dran liegt. Genauer gesagt:
Wir wahlen den affinen Raum X +N der zu W nachsten Punkte als Pradiktor fur die Lage
der bedingten Verteilung L(X|Y ). Fur eine Linearform ξ, die auf den zu N parallelen
affinen Raumen konstant ist (zulassiges ξ) wahlen wir ξ X = E(ξX|Y ) als die Vorhersage
fur die nichtbeobachtete Zufallsgroße ξX. Wir wollen das als Problem der Matrizenrechnung
formulieren und losen. Wir werden sehen, daß die Losung dem BLUE–Ansatz entspricht.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
8. GEOMETRIE DER KLEINSTEN QUADRATE 79
Vorbereitung (Das Hochheben von V )
Wir beschranken uns auf den nichtausgearteten Fall T ⊇ W = V; die Fasern [y], die
beobachtet werden, sind die zu y ∈ T. Zu jedem v ∈ V gibt es mindestens ein w ∈W mit
Mw = v. Wir wahlen eine lineare Zuordnung und drucken sie durch eine Matrix L aus
v 7−→ w = L v mit L v ∈W und ML v = v fur alle v ∈ V .
Bemerke Wenn L und L+ L0 das Verlangte leisten, dann gilt L0P C = 0 und jedes
L0 dieser Art kann zu L hinzuaddiert werden. (P ist die orthogonale Projektion von T
auf V.)
Da wir den nichtausgearteten Fall angenommen haben, ist W das L–Bild von V W = L V.
Andererseits V = M W
ML v = v fur alle v ∈ V ; LMw = w fur alle w ∈W .
Bemerke Die Abbildung ξ 7−→ η = ξL ordnet jedem zulassigen ξ eine m–Zeile η zu
mit
ξw = η Mw fur alle w ∈W .
Satz 7 (BLUE–Schatzung und verschiebungsvertragliche Regression)
Gegeben sind C,M und W mit T ⊇M W = V. Fur jedes y ∈ T sei xy +N die Menge
der Punkte in der Faser [y] = x : Mx = y, die minimale Distanz zu W haben.
Sei ξ zulassig und η der BLUE dazu. Es gilt dann
η y = ξ(Xy +N) fur alle y ∈ T .
Beweis Wie oben seien N, F∗
Losungen der betreffenden Normalgleichungen. Wir
kurzen ab P = F∗A
∗. L sei die Abbildung, die V auf W projiziert, invers zu M auf
W.
1) Wir gewinnen ein Paar nachster Punkte fur y ∈ T, wenn wir setzen
wy = LPy, xy = wy +N(y − Py) .
Es gilt namlich wy ∈W, M xy = y und
(xy −wy) ⊥ (U+N V)
xy = N(y − Py) + LPy = Ny + (L−N)Py
2) Fur den BLUE haben wir oben gezeigt
η = η− ξ Q = η−(η− η) F ∗B
∗Q = η−(η− η)P = ξN + ξ(L−N)P .
Damit haben wir
ξ(xy +N) = ξNy + ξ(L−N)Py = η y .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
8. GEOMETRIE DER KLEINSTEN QUADRATE 80
Schlußbemerkung zur Technik der kleinsten Quadrate
Unsere Darstellung der BLUE–Schatzung gehort ganz in die lineare Algebra. Alles dreht sich
um C,M,W. Aus der Sicht der reinen Mathematik sind die folgenden Einsichten zentral
1) Die positiv semidefinite Matrix C dient dazu, gewisse Vektorraume mit einem inneren
Produkt anzustatten.
Fur (Aquivalenzklassen von) n–Zeilen ξ definiert man
ξ1Cξ∗2 (= cov(ξ1X, ξ2X) aus stochastischer Sicht).
Fur n–Spalten aus dem Spaltenraum T von C definiert man
x∗1Qx2 wobei Q hermitisch mit CQC = C.
2) Man hat eine Isometrie der r–dimensionalen Hilbertraume
ξ 7−→ x = Cξ∗ ; x 7−→ ξ = x∗Q .
3) Die orthogonalen Projektionen entsprechen den Matrizen P mit
PC = CP ∗, oder (I − P (CP ∗ = 0 .
4) W ist zustandig fur die Forderung, daß gewisse affine Abbildungen eine Vertraglichkeit
gegenuber Verschiebungen aufweisen.
Alle stochastischen Begriffe kann ein reiner Mathematiker als schmuckendes Beiwerk abtun.
Aus der Sicht des angewandten Mathematikers dienen sie dazu, Anwendbarkeit und Moglich-
keiten der Verallgemeinerung nahezulegen. Die Mathematik der BLUE–Schatzung ist nicht
sonderlich attraktiv fur einen Mathematiker, der nichts wissen will von Zufallsvektoren (mit
Erwartungswerten und Covarianzmatrizen), wahren Verteilungen (insbesondere Normalver-
teilungen) oder Likelihood–Funktionen der Beobachtungswerte, die man aus den nominellen
Verteilungen gewinnt. Begriffe wie a priori Wissen und a posteriori Einsicht wird er nur als
exotische Sprechweisen gelten lassen. Begriffe wie Schatzen, Glatten, Filtern und Vorhersagen
haben fur ihn keine mathematische Verbindlichkeit. Wir gehen in unserer Darstellung einen
Mittelweg. Wir bleiben nicht in der Begriffswelt der linearen Algebra. Auf der anderen Seite
vermeiden wir aber eine Uberfrachtung mit Assoziationen, die auf spezielle Anwendungsbe-
reiche zugeschnitten sind und die meisten Darstellungen der Methode der kleinsten Quadrate
reichlich unubersichtlich machen.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
9. DER BIAS BEI DER LINEAREN PRADIKTION 81
9 Der Bias bei der linearen Pradiktion
9.1 Problemstellung
Gegeben sind C,M,W mit T ⊇ W (”nichtausgearteter Fall“). Wir setzen nicht voraus, daß
W in T enthalten ist.
Wir haben bereits zwei Extremfalle der linearen Pradiktion behandelt, die lineare Regressi-
on und die BLUE–Pradiktion. Die lineare Regression kummert sich nur um Varianzen und
uberhaupt nicht um Erwartungswerte. Die BLUE–Pradiktion kummert sich nur um die er-
wartungstreu schatzbaren Linearkombinationen. Wir wollen uns hier jetzt auch um den Bias
kummern. Zunachst erinnern wir an die Hauptresultate.
Satz (Lineare Regression)
Zu jeder n–Zeile ξ gibt es mindestens eine m–Zeile η, so daß
var(ξX − ηY ) = min .
Wenn N so ist, daß (I −NM)C;∗ = 0, dann leistet
η := ξN
das Verlangte.
Bemerke Im Falle E X = 0 kann η Y als geeigneter Pradiktor fur ξX gelten (fur alle
ξ). Im Falle E X = w ware η Y + ξ(I −NM)w der passendere Pradiktor fur ξ. Diffizil
wird die Frage nach dem geeigneten Pradiktor, wenn E X unbekannt ist.
Satz (BLUE–Pradiktion)
Zu jeder zulassigen n–Zeile ξ gibt es mindestens eine m–Zeile η mit
(i) ηMw = ξw fur alle w ∈W
(ii) E |ξX − ηY |2 = min.
Im nichtausgearteten Fall (T ⊇ W) leistet
ηL := ξN + ξ(L−N) P
fur jede Hebung L das Verlangte. Unter einer Hebung verstehen wir eine lineare Abbildung
W 3 w 7−→ w = L w mit Mw = w .
P bezeichnet die orthogonale Projektion von T auf W.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
9. DER BIAS BEI DER LINEAREN PRADIKTION 82
Bezeichnung Wir nennen
NL := N + (L−N) P = N(I − P ) + L P
die Pradiktionsabbildung zur Hebung L.
Bemerkungen
1) Fur zulassiges ξ und ηL = ξNL gilt
ηL(y +Mw) = ηL(y) + w fur alle y ∈ T und w ∈W .
(Der”ausgeartete“ Fall, M W 6⊆ T, wird hier nicht studiert.)
Fur alle ξ hat ηLY den Bias:
Ew(ξX − ηLY ) = ξ(I − LM)w fur alle w ∈W .
2) Betrachte zur Hebung L den linearen Pradiktor
NLY := NY + (L−N) P Y .
Der Pradiktionsfehler kann als Summe unkorrelierter Summanden geschrieben werden
(X −NLY ) = (I −NM)− (L−N) P Y .
Es gilt namlich
cov((I −NM)X,Y ) = 0 wegen (I −NM)CM ∗ = 0 .
3) Die Covarianzen der Summanden sind
cov((I −NM)X, (I −NM)X) = (I −NM)C = C(I −NM)∗
cov((L−N) P Y, (L−N) P Y ) = (L−N) P C P∗(L−N)∗
Fur zulassiges ξ bringt
var(ξ(L−N) P Y ) = ξ(L−N) P C P (L−N)∗ξ∗
zum Ausdruck, was es an zusatzlicher Varianz der Pradiktion von ξX kostet, wenn
man darauf besetht, ξX W–verschiebungsvertraglich zu schatzen.
Problem Fur nichtzulassiges ξ wird sowohl der Bias als auch die zusatzliche Varianz
von der Wahl der Hebung L abhangen. Es kommt bei der Wahl von L also darauf an, fur
welche nichtzulassigen ξ und welche w ∈W man den Bias und die Varianz von ηLY (als
Pradiktor von ξX) schwer nimmt.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
9. DER BIAS BEI DER LINEAREN PRADIKTION 83
9.2 Kleine erwartungstreue Veranderungen gegenuber
der Regression
Wir wollen versuchen, die Hebung L so zu wahlen, daß die Pradiktion NLY moglichst
ahnlich wird zur bereits gewahlten Regression NY .
Das soll heißen: Die der Verschiebungsvertraglichkeit geschuldete Veranderung NLY −NY =
(L−N) P Y soll nicht unnotig groß sein. Man bemerke, daß in dieser hier noch unscharfen
Forderung eine Bevorzugung des Erwartungswerts 0, E X = 0, enthalten ist; denn NY ist
auf diesen Fall zugeschnitten, wahrend NLY verschiebungsvertraglich ist.
Lotlange Gegeben sei C0 positiv semidefinit mit Spaltenraum
U := z : Mz = 0 .
Wahle dazu eine hermitische Matrix Q0 mit X0Q0C0 = C0 und setze fur z ∈ U
‖z‖20 := z∗Q0z .
Bemerke
1) Fur alle z 6= 0, z ∈ U gilt ‖z‖20 > 0. Der Wert der Norm hangt nur von C0 und
nicht von der Wahl von Q0 ab. Die Norm gestattet uns, fur zwei Hebungen L′, L′′ die
Zufallsgroßen
NL′Y −NY = (L′ −N) P Y und NL′′Y −NY = (L′′ −N) P Y
zu vergleichen.
2) Sei ` die Dimension von U und d der Rang von MX. Wenn X den Rang d+ `
hat, dann hat (I −NM)X, das Lot auf U⊥ den Rang `. In diesem Falle erfullt
C0 = (I −NM)C(I −NM)∗ , Q0 = (I −NM)∗Q0(I −NM)
die Forderungen. In diesem besonders”regularen“ Fall folgt aus dem Nichtausgeartetsein
T ⊇ W, daß T ⊇W. Wir wollen das aber nicht voraussetzen und brauchen daher C0
als zusatzliche Vorgabe, um Wortlangen ordentlich vergleichen zu konnen.
3) Sei N = z : Mz = 0 ∩W. Wir haben oben gesehen, daß Paare nachster Punkte
x ∈ x : Mx = y , w ∈W
durch Addition von z ∈ N wieder in Paare nachster Punkte ubergehen. Durch die
Norm ‖ · ‖0 wird diskrimiert.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
9. DER BIAS BEI DER LINEAREN PRADIKTION 84
4) Fur jedes wtw ∈ W existiert genau ein w = L0 w ∈W, so daß Mw = w und
‖w −N w ‖20 = min .
Es gilt namlich
w : Mw = w ∩W = L0 w+N
und L0 w ist gekennzeichnet durch das Gleichungssystem
z∗Q0(L0 −N) w = 0 fur alle z ∈ N .
Die Abbildung
W 3 w 7−→ L0mw
ist eine Projektion und es gilt
(I −NM)L0Mw = (L0 −N)Mw .
Bezeichnung (Pradiktion zu C0)
Gegeben seien C,M,W und C0 wie oben. Die eben konstruierte Abbildung
W 3 w 7−→ L0 w ∈W
nennen wir die Hebung zur C0–Norm auf U. Die dazugehorige Pradiktionsabbildung
N0 := N(I − P ) + L0 P = N + (L0 −N) P
nennen wir erwartungstreue Pradiktionsabildung zur Norm C0.
Wir zeigen jetzt, wie man diese Pradiktionsabbildung als Grenzfall gewinnen kann, wenn
man nach dem MAP–Prinzip zu gewissen a priori–Verteilungen den linearen Pradiktor kon-
struiert. Die neuen linearen Pradiktionen bestehen nicht darauf, daß die erwartungstreu
schatzbaren ξX erwartungstreu geschatzt werden mussen.
9.3 Lineare Pradiktionen zu gaußischen Vorbewertungen
Gegeben sind C,M,W, C0 mit T ⊇ W.
Fur jedes w ∈W induziert die Normalverteilung N (w,C) auf jeder Faser [y] zu y ∈ T
eine bedingte Verteilung, die gaußisch ist mit dem Erwartungswert
Ew(X|Y = y) = Ny + (I −NM)w .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
9. DER BIAS BEI DER LINEAREN PRADIKTION 85
Die Umgebung der Faser [y] wird von den Verteilungen N (w,C) mit Gewichten belegt,
die mit w variieren
p(w, y) = const · exp
(−1
2(y −Mw)∗ Q(y −Mw)
).
Die Uberlagerung der bedingten Dichten, die von der a priori–Verteilung dπ(w) erzeugt
wird, hat den Mittelwert
Ny + (I −NM)
∫w · p(w, y)dπ(w) .
Hier ist y fest und die Normierung von p(·, y), so daß∫p(w, y)dπ(w) = 1 .
Die a posteriori Verteilung ist
dπy(w) = p(w, y)dπ(w)
und der Erwartungswert der a posteriori–Verteilung gleich
w(y) :=
∫w · p(w, y)dπ(w) .
Die a priori–Verteilung dπ(w) liefert also (im gaußischen Fall!) den Pradiktor
Ny + (I −NM)w(y) .
Wir berechnen diese Pradiktoren fur spezielle a priori–Verteilungen π(τ 2, σ2, dw). Uns in-
teressieren besonders die Grenzfalle σ2 → ∞ und τ 2 → ∞. Im Grenzfall σ2 → ∞ wird
der entsprechende Pradiktor die Gestalt haben
Ny + (L0 −N) ·(
1 +1
τ2
)−1
P y .
Konstruktion Fur jedes ρ2 > 0 erhalten wir eine Hilbertraumnorm auf x : Mx ∈ T,wenn wir setzen
1
2‖x‖2ρ :=
1
2x∗(I −NM)∗Q0(I −NM)x+
1
2ρ2x∗(NM)∗Q(NM)x .
Fur σ2 > 0 und τ 2 = σ2 · ρ2 betrachten wir die Normalverteilung auf x : Mx ∈ T mit
der Dichte
const · exp
(− 1
2σ2‖x‖2ρ
).
Die bedingte Verteilung auf W sei unsere a priori–Verteilung dπ(w). Es handelt sich um
eine Normalverteilung mit Mittelwert 0.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
9. DER BIAS BEI DER LINEAREN PRADIKTION 86
Satz Der Erwartungswert der a posteriori–Verteilung hat die Gestalt
w(y) = L0 w(y) .
Dabei ist w(y) ∈ W die Minimalstelle der quadratischen Funktion
qy(w) :=1
2σ2w∗ Q0 w+
1
2τ2w∗ Q w+
1
2(w− P y)∗ Q(w− P y) , w ∈ W ,
wobei Q0 = (L0 −N)∗Q0(L0 −N) .
Beweis
1) Fur w ∈W setzen wir z = w − L0Mw und w = Mw
w = NMw + (L0 −N)Mw + z
(I −NM)w = (L0 −N)Mw + z = (L0 −N) w+z
1
2w∗(I −NM)∗Q0(I −NM)w
=1
2z∗Q0z +
1
2w∗(L0 −N)∗Q0(L0 −N) w∗
=1
2z∗Q0z +
1
2w∗ Q0 w .
2) Fur w ∈W gilt
1
2σ2‖w‖2ρ =
1
2σ2z∗Q0z +
1
2σ2w∗ Q0 w+
1
2τ2w∗ Q w .
3)1
2(Mw − y)∗ Q(Mw − y) =
1
2(w− P y)∗ Q(w− P y) + const
fur jedes feste y .
4) In der Minimalstelle w(y) von
1
2σ2‖w‖2ρ +
1
2(w− P y)∗ Q(w− P y) auf W
ist z = 0 und daher w(y) = L0 w(y) , wo w(y) die Minimalstelle von qy(w) ist.
Corollar Der lineare Pradiktor zur a priori–Verteilung dπσ2,τ2(w) ist fur jedes (σ2, τ2)
linear und von der Form
Ny + (L0 −N) w(y) ,
wo sich w(y) ∈ W durch eine lineare Transformation aus P y ergibt.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
9. DER BIAS BEI DER LINEAREN PRADIKTION 87
Satz Sei A eine m× p–Matrix mit
W = w : w = C A t
und seien P y = C A ·t(y), w(y) = C A ·s(y). Es gilt dann
s∗(y)
[(1 +
1
τ2
)A
∗C A+
1
σ2A
∗C Q0 C A
]= t∗(y) A
∗C A .
Beweis Die Minimalstelle w(y) von qy(·) ist dadurch gekennzeichnet, daß der in t
lineare Termin in der quadratischen Funktion
qy(w(y) + C A(t) qy(w(y))
verschwindet, d.h.[
1
σ2w∗ Q0 +
1
τ2w∗ Q+(w− P y)∗ Q
]C A = 0 .
Wenn man einsetzt, erhalt man die Behauptung wegen C Q C = C.
Bemerke
1) Die Gleichung hat immer eine Losung. Wenn A∗C A positiv definit ist, ist sie sogar
eindeutig. In jedem Falle die Losung so wahlen, daß sie in y linear ist.
2) Fur σ2 →∞ vereinfacht sich die Gleichung zu
w(y) =
(1 +
1
τ2
)−1
· P y
und der lineare Pradiktor gewinnt die Form
Ny + (I −NM)w(y) = Ny + (L0 −N) w(y)
= Ny + (L0 −N)
(1 +
1
τ2
)−1
· Py .
Interessanter ist aber der Grenzwert fur τ2 →∞, σ2 fest.
Beispiel (Interpolation einer speziellen Zeitreihe)
Ein Mechanismus erzeugt eine Funktion X(t) uber einem Zeitintervall (t′, t′′). (Um Anschluß
an unsere endlichdimensionale Betrachtung zu gewinnen, mussen wir uns eigentlich statt
(t′, t′′) eine endliche Teilmenge I ⊆ (t′, t′′) ausgewahlt denken.) Es wird aber nur an einigen
wenigen Zeitpunkten s1 < s2 < . . . < sm beobachtet. Yj = Y (sj) sei der Beobachtungswert
zum Zeitpunkt sj ∈ J . Wir wollen X(·) auf grund von Y (·)”interpolieren“. Wir suchen
also zu den Beobachtungswerten Y (sj) eine Funktion X(·), die in den s ∈ J mit Y (·)ubereinstimmt, und in den Zwischenraumen vernunftiges Verhalten zeigt.
Um die Aufgabe zu prazisieren, brauchen wir eine Reihe von Vorgaben.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
9. DER BIAS BEI DER LINEAREN PRADIKTION 88
I) Wir nehmen an, daß X(·) von einem stochastischen Prozeß herkommt und zwar von
einem stationaren Prozeß mit der Covarianzfunktion c(·)
cov(Xt+h, Xt) = c(h) fur alle t, t+ h ∈ I .
Ein konkretes Beispiel ware z.B.
c(h) = σ2 · exp(−α · |h|) fur h ∈ R, σ2 > 0 .
Diese”Autokorrelationsfunktion“ tritt in den verschiedensten Zusammenhangen auf.
Der gaußische Prozeß mit dieser Covarianzfunktion E X(t) = 0 heißt der Ornstein–
Uhlenbeck–Prozeß.
II) Nehmen wir zunachst an, daß X(t) den Erwartungswert 0 hat fur alle t. Eine
naheliegende Interpolation ist dann die klassische Regression: X(t) wird durch eine
Linearkombination der Y (s) so approximiert, daß der Unterschied eine moglichst kleine
Varianz hat, m.a.W.
var(X(t) −∑
j
yj(t)Yj) = min
cov(X(t) −∑
j
yj(t) · Yj , Y (s)) = 0 fur alle s ∈ J .
Statt yj(t) schreiben wir auch y(sj, t). Im konkreten Fall kann man das Gleichungs-
system explizit losen. (Wir setzen α = 1, σ2 = 1 der Einfachheit halber.) Fur jedes t
gilt es das Gleichungssystem zu losen.
exp(−|t− s|)−∑
j
y(sj , t) · exp(−|sj − s|) = 0 fur alle s ∈ J. .
In unserem Fall kann man die Regressionskoeffizienten fur alle X(t) explizit bestimmen.
Fur t ∈ J ist nichts zu berechnen. Nehmen wir ein t zwischen zwei s–Werten
s−(t) < t < s+(t)
s+ = t+ δ s− = t− ε .
Wir suchen Gewichte yj(t) mit
∑
j
yj · e−|s−sj | = e−|t−s| fur alle s ∈ J .
In unserem Fall zeigt sich, daß nur zwei Koeffizienten nicht verschwinden. Dies ist ein
Ausdruck der Tatsache, daß der Ornstein–Uhlenbeck Prozeß ein Markovscher Prozeß
ist.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
9. DER BIAS BEI DER LINEAREN PRADIKTION 89
Diese beiden Regressionskoeffizienten kann man mit dem hyperbolischen Sinus aus-
η− := η(s−(t), t) =1
sinh(δ + ε)· sinh δ
η+ := η(s+(t), t) =1
sinh(δ + ε)· sinh ε
Wir zeigen, daß das Paar η−, η+ das Verlangte leistet fur s > t; fur s < t ist die
Rechnung dieselbe. Wir haben
e−s+s+ = e−s+t−δ; e−s+s− = e−s+t−ε .
Zu zeigen ist
η− · e−ε + η+eδ = 1 .
Und es gilt in der Tat
(2 sinh δ) · e−ε + (2 sinh ε)eδ = (eδ − e−δ)e−ε + (eε − e−ε)eδ
= eε+δ − e−(ε+δ)
= 2 sinh(ε+ δ)
Bemerke
sinh(δ + ε) = sinh δ · cosh ε+ sinh ε · cosh δ .
Wir haben also η− + η+ < 1, wenn nicht ε = δ = 0. Dies hat zur Konsequenz, daß
unsere lineare Regression NY den Meßwerten Y (·) + const nicht die Interpolation
X(·) + const zuordnet. Die Regression ist nicht vertraglich mit der Verschiebung der
Nulllage.
III) Wenn wir eine Interpolationsregel suchen, die mit gewissen Verschiebungen
f1(·), . . . , fp(·) vertraglich ist, dann mussen wir an der Interpolation NY eine Kor-
rektur anbringen
NY + (L0 −N) P Y .
Dabei ist P Y der kleinste Quadrate Schatzer von Y bzgl. der Norm, die zur Co-
varianzmatrix C = cov(Y, Y ) gehort. (Wir wollen hier keine Formel fur ein Q mit
C Q C = C suchen.)
L ist irgendeine Hebung: die Funktionen P Y , die in den Zeitpunkten ∈ J durch
das kleinste Quadrate–Verfahren bestimmt worden sind, werden durch die Hebung in-
terpoliert. Hier hat man Wahlmoglichkeiten, die man am besten durch die Wahl einer
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
9. DER BIAS BEI DER LINEAREN PRADIKTION 90
Norm ‖ . . . ‖ auf der Menge aller auf J verschwindenden Funktionen beschreibt. Man
bestimmt die Hebung L0 dazu, so daß (L0 − N) auf den Linearkombinationen der
fk(·) ”klein“ ist.
IV) Wenn die kleinste Quadrate–Schatzer wenig glatt sind, dann ist Verschiebungsver-
traglichkeit des Interpolationsverfahrens nicht wunschenswert (”Uberanpassung“). Es
sollte dann eine a priori–Verteilung gewahlt werden auf dem Vektorraum W, der von
f1, . . . , fp aufgespannt wird. Der entsprechende lineare MAP–Schatzer schließt dann
einen Kompromiß zwischen der Forderung der Verschiebungsvertraglichkeit mit dem
Wunsch nach Glattheit der Interpolation.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
10. FEHLERGESETZE, CHARAKTERISIERUNGSSATZE 91
10 Fehlergesetze, Charakterisierungssatze
Die Annahme, daß die Zufallsgroßen normalverteilt sind, legt in Verbindung mit dem ML–
Prinip oder dem MAP–Prinzip sehr schnell lineare Verfahren nahe. Man kann die Sache aber
auch von der anderen Seite sehen; die linearen Verfahren finden eine theoretische Stutze,
wenn man an normalverteilte Zufallsgroßen denkt. Im Folgenden diskutieren wir diese Zu-
sammenhange noch etwas genauer in Situationen, die besonder durchsichtig erscheinen. Wir
beschaftigen uns mit den folgenden”Prinzipien“:
NV : Die”Fehler“ sind normalverteilt
kQ : Die Methode der kleinsten Quadrate
ML : Das Maximum–Likelihood–Prinzip
qV : Das Prinzip der quadratischen Verlustfunktion
Wir haben bereits ausfuhrlich diskutiert, wie die Methode der kleinsten Quadrate zu linea-
ren Schatzern fuhrt, wenn der Parameterraum ein Vektorraum ist. Die Theorie der linearen
Schatzverfahren in der Verbindung mit dem Prinzip der quadratischen Verlustfunktion war
unser Ausgangspunkt in den ersten Abschnitten. Zur Starkung der probabilistischen Anschau-
ung haben wir die lineare Theorie mit dem Prinzip der normalverteilten Fehler unterfuttert.
Das ML–Prinzip haben wir als weitergehendes heuristisches Prinzip ins Spiel gebracht; ebenso
das MAP–Prinzip.
Konkrete mathematische Zusammenhange zwischen den Prinzipien sind die folgenden:
1) NV + ML kQ
2) kQ + ML NV (Gauß)
3) kQ + qV NV ([Gauß], Kagan, Linnik, Rao)
4) (NV) + qV kQ, speziell”lineare Schatzer“.
Wir beweisen zuerst nochmals die einfache erste Aussage. Satze vom Typ 2) und 3) heißen
Charakterierungssatze: Die Normalverteilung ist die einzige Verteilung mit gewissen Eigen-
schaften. Wir beweisen zwei solche Charakterierungssatze.
10.1 Die Herleitung der Methode der kleinsten Quadrate aus NV + ML
Wir erinnern uns an die Situation der (nichtlinearen) parametrischen Regression. Wir neh-
men an, daß die Meßwerte y(i) zu den Design–Punkten t(i) durch normalverteilte Fehler
ε(i) entstellte Werte einer Funktion f(· , ϑ) sind; ϑ ∈ E.
y(i) = f(t(i), ϑ) + ε(i) fur i = 1, 2, . . . ,m .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
10. FEHLERGESETZE, CHARAKTERISIERUNGSSATZE 92
Die Beobachtung ω ist also durch einen m–Vektor Y (ω) reprasentiert. Wir nehmen an
E ε = 0, cov(ε, ε) = C (positiv definit) .
Die unbekannten Verteilungen Lϑ(Y ) sind durch das Lebesguemaß im Raum der m–Spalten
dominiert.
Wir arrangieren die f–Werte in den Designpunkten in einer m–Spalte f(t;ϑ) (ϑ fest).
Die Dichte von Y unter der Hypothese Hϑ im Punkte y ist
const · exp
(−1
2(y − f(t;ϑ))∗ · C−1 · (y − f(t, ϑ))
).
Die Likelihoodfunktion ist genau dann in ϑ maximal, wenn
(y − f(t, ϑ))∗ · C−1 ·(y − f(t, ϑ)) = min .
Der ML–Schatzer ist also die Losung des Problems der kleinsten Quadrate.
Wie wir gesehen haben, weist das ML–Prinzip uber die Methode der kleinsten Quadrate
hinaus. Wahrend bei der Methode der kleinsten Quadrate C als bekannt vorausgesetzt wird,
braucht das ML–Prinzip diese Annahme nicht. Es ist allerdings nicht ratsam, aus m Daten
y(i) die gesamte Kovarianzstruktur schatzen zu wollen.
10.2 Charakterisierung der Normalverteilung unter
Zugrundelegung von kQ + qV
Sprechweise S(x1, . . . , xn) sei eine reelle Funktion von n reellen Variablen. Die Funk-
tion S(x1, . . . , xn) heiße kovariant, wenn
S(x1 + c, x2 + c, . . . , xn + c) = S(x1, x2, . . . , xn) + c fur alle x ∈ Rn, c ∈ R .
Bemerke
1) Wenn S(·) und T (·) kovariant sind, dann ist auch λ · S(·) + (1 − λ)T (·) kovariant
fur jedes λ ∈ R. Die Menge der kovarianten Funktionen ist ein affiner Raum.
2) Wenn S(·) kovariant ist, dann ist fur jede Permutation π die Funktion
S(π)(x1, . . . , xn) = S(xπ(1), . . . , xπ(n))
kovariant. Insbesondere ist also
S∗(x1, . . . , xn) =1
n!
∑
π
S(π)(x1, . . . , xn)”Permutationsdurchschnitt“
eine kovariante Funktion, und zwar eine symmetrische kovariante Funktion.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
10. FEHLERGESETZE, CHARAKTERISIERUNGSSATZE 93
3) Beispiele fur symmetrische kovariante Funktionen sind das arithmetische Mittel und der
Median (wobei bei geradem n der Mittelpunkt des zentralen Intervalls als der Median
gelten soll).
4) Wenn S(·) kovariant ist und G(·) invariant, d.h.
G(x1, . . . , xn) = G(0, x2 − x1, x3 − x1, . . . , xn − x1) ,
dann ist auch S(·) +G(·) kovariant.
Wir wenden uns jetzt wieder den Zufallsgroßen zu:
1) Es seien X1, X2, . . . , Xn u.i.v. Zufallsgroßen mit einer unbekannten Verteilung, die in
einer einparametrigen Schar P liegt, welche aus einer einzigen Verteilung µ0 durch
Verschieben hervorgeht. Eine solche Schar P heißt Shift–Familie.
µ0 = L0(X), µϑ = L0(X + ϑ) = Lϑ(X)
2) Wir suchen kovariante Schatzer s = S(X1, . . . , Xn) von ϑ fur welche das”Risiko“
R(s) klein ist.
R(s) := Eϑ(s− ϑ)2 hangt nicht von ϑ ab; denn
Eϑ[S(X1, . . . , Xn)− ϑ]2 = E0[S(X1 + ϑ, . . . ,Xn + ϑ)− ϑ]
= E0[S(X1, . . . , Xn)]2
Wir nehmen an, daß µ0 so ist, daß fur das gegebene n mindestens ein kovari-
anter Schatzer existiert, welcher endliche Varianz hat. Es kommen nur solche s =
S(X1, . . . , Xn) in Betracht, fur welche E0 s = 0; denn
E0(s2) = var0(s) + (E0 s)
2 .
Wenn wir von einem gegebenem s die Konstante E 0 s abziehen, erhalten wir einen
besseren kovarianten Schatzer.
(Im folgenden setzen wir E(·) = E0(·). )
3) Bezeichne An die von X1, . . . , Xn erzeugte σ–Algebra. Der Zufallsvektor
Z = (0, X2 −X1, . . . , Xn −X1) erzeugt eine Teil–σ–Algebra An. Die An–meßbaren
Zufallsgroßen sind diejenigen g = G(X1, X2, . . . , Xn), fur welche
G(x1, . . . , xn) = G(0, x2 − x1, . . . , xn − x1) .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
10. FEHLERGESETZE, CHARAKTERISIERUNGSSATZE 94
Wenn s = S(X1, . . . , Xn) ein kovarianter Schatzer ist, dann ist auch S(X1, . . . , Xn)−G(X1, . . . , Xn) ein kovarianter Schatzer; insbesondere ist auch s− E(s| An) ein kova-
rianter Schatzer. Dieser hat kleineres Risiko; denn
R(s) = E(s2) = E(E(s2|Z)) = R(s−G(Z)) + E [G(Z)]2
wegen
E(s2|Z) = E([s−G(Z)]2|Z) + [G(Z)]2 .
Wir haben damit eine Verscharfung der Aussage in 2): Zu einem kovarianten Schatzer s
gibt es einen echt besseren, wenn E(s|Z) 6= 0. Bei der Suche nach optimalen Schatzern
konnen wir uns also auf solche beschranken, fur welche E(s|Z) = 0.
4) Wenn aber s = S(X1, . . . , Xn) ein kovarianter Schatzer ist mit E(s|Z) = 0, dann ist
er in der Tat optimal. Sei namlich t irgendein kovarianter Schatzer; dann ist s− t =
S(X1, . . . , Xn)− T (X1, . . . , Xn) Z–meßbar, also
t = s+G(Z), E(t2|Z) = E(s2|Z) + [G(Z)]2
R(t) = E(t2) = E(E(t2|Z)) = R(s) + E [G(Z)]2 .
Damit haben wir den Satz bewiesen:
Satz Ein kovarianter Schatzer s = S(X1, . . . , Xn) ist genau dann optimal fur die Shift–
Familie P, wenn E0(s| An) = 0.
Bemerkung Wenn Lϑ(X) = N (ϑ, 1), dann ist
X =1
n(X1 + . . .+Xn)
der beste unter allen kovarianten Schatzern.
Beweis Wir mussen nur E(X |Z) = 0 beweisen. Wir konnen hier aber sogar L(X |Z)
berechnen; denn bei (X,Z) handelt es sich um einen gaußischen Vektor. Die bedingte
Verteilung L(X |Z = z) ist eine Normalverteilung. Da X unkorreliert zu Z ist, sind X
und Z unabhangig und wir haben L(X |Z = z) = L(X) = N (0, 1n).
Satz (Charakterisierung der Normalverteilung)
(Kagan, Linnik, C.R. Rao, 1965)
Wenn fur eine Shift–Familie L(X + ϑ) : ϑ ∈ R das arithmetische Mittel
Xn =1
n(X1 + . . . Xn)
der beste kovariante Schatzer ist fur ein n ≥ 3, dann gilt
L(X + ϑ) = N (ϑ, σ2) fur ein σ2 ≥ 0 .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
10. FEHLERGESETZE, CHARAKTERISIERUNGSSATZE 95
Beweis
1) Nur dann, wenn E X = 0 und varX < ∞ kann Xn optimal sein. Es genugt, die
Aussage fur n = 3 zu beweisen. Aus der Optimalitat von Xn folgt nach dem obigen
Satz E(Xn | An) = 0. Also gilt auch
E(Xn | A3) = E(E(Xn | An)| A3) = 0 .
2) 0 = E(nXn | A3) = E(X1 +X2 +X3|(X2 −X1), (X3 −X2)).
Fur jede Funktion G(X2 −X1, X3 −X2) gilt also
E((X1 +X2 +X3) ·G(X2 −X1, X3 −X2)) = 0
insbesondere gilt das fur
G(X2 −X1, X3 −X2) = exp(is(X2 −X1)) · exp(it(X3 −X2))
mit beliebigen s, t ∈ R.
3) Mit ϕ(s) = E(eisX) haben wir 1i ϕ
′(s) = E(X · eisX).
E((X1 +X2 +X3) exp(isX1 + iwX2 + itX3))
=1
i
(∂
∂s+
∂
∂w+∂
∂t
)E(exp(isX1 + iwX2 + itX3))
=1
i
(∂
∂s+
∂
∂w+∂
∂t
)(ϕ(s) · ϕ(w) · ϕ(t))
=1
i
[ϕ′(s)ϕ(w)ϕ(t) + ϕ(s)ϕ′(w)ϕ(t) + ϕ(s)ϕ(w)ϕ′(t)
]
fur alle s, w, t.
4) Insbesondere fur w = −(s+ t)
1
i
[ϕ′(s)ϕ(−s− t)ϕ(t) + ϕ(s)ϕ′(−s− t)ϕ(t) + ϕ(s)ϕ(−s− t)ϕ′(t)
]
= E((X1 +X2 +X3) exp(isX1 − i(s+ t)X2 + itX3))
= E((X1 +X2 +X3)G(X2 −X1, X3 −X2)) = 0 nach 2).
Fur die Funktion
ψ(s) =ϕ′(s)ϕ(s)
=i E(XeisX)
E(eisX)(definiert, wenn ϕ(s) 6= 0)
haben wir also fur alle s, t mit ϕ(s) 6= 0, ϕ(t) 6= 0, ϕ(−s− t) 6= 0
0 = ψ(s) + ψ(−s− t) + ψ(t) .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
10. FEHLERGESETZE, CHARAKTERISIERUNGSSATZE 96
5) (i) ψ(·) ist stetig in einer Umgebung des Nullpunkts
(ii) ψ(0) = 0
(iii) ψ(−s) = −ψ(s) . (Setze t = 0)
Die Funktionalgleichung ψ(s + t) = ψ(s) + ψ(t) besitzt als stetige Losungen nur die
linearen Funktionen ψ(s) = cs .
d
dslnϕ(s) = cs
E(eisX) = ϕ(s) = const exp
(c · s
2
2
).
Es kommen nur c = −σ2 mit σ2 ≥ 0 in Betracht. ϕ(s) ist die charakteristische
Funktion von N (0, σ2).
L(X) = N (0, σ2) .
Der Satz ist bewiesen.
Bemerkungen
1) Die Voraussetzung n ≥ 3 ist nicht nur fur den Beweis notig. Es gibt in der Tat Shift–
Familien, fur welche bei nur zwei Beobachtungen das arithmetische Mittel der optimale
kovariante Schatzer ist. Sei z.B.
µ0 =1
2δ−1 +
1
2δ+1 .
Wenn wir zwei unabhangige Beobachtungen gemaß einem µϑ haben, dann fallen diese
entweder zusammen oder sie haben den Abstand = 2. Im zweiten Fall kennen wir
den gesuchten Parameter; es ist das arithmetische Mittel der beiden Beobachtungen.
Im ersten Fall kann der gesuchte Parameter um 1 großer oder um 1 kleiner als die zu-
sammenfallenden Beobachtungen sein. Es ist leicht zu sehen, daß der beste Schatzer die
Beobachtung selbst ist, d.h. das arithmetische Mittel der zusammenfallenden Beobach-
tungen. Das arithmetische Mittel 12 (X1 +X2) ist also der beste kovariante Schatzer.
2) Der Satz von Kagan, Linnik und Rao ist uberraschend. Fur jede nichtgaußische Shift–
Familie gibt es bei drei oder mehr unabhangigen Beobachtungen einen besseren kovari-
anten Schatzer als das arithmetische Mittel. Als Ubung bestimme man diesen, wenn 3
unabhangige Beobachtungen aus einer der Verschobenen von µ0 = 14 δ−1 + 1
2 δ0 + 14 δ+1
vorliegen.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
10. FEHLERGESETZE, CHARAKTERISIERUNGSSATZE 97
10.3 Charakterisierung der Normalverteilung unter
Zugrundelegung von kQ + ML
Satz (Gauß)
Seien X1, . . . , Xn u.i.v. mit
Lϑ(X) = L0(X + ϑ)
und differenzierbarer Likelihoodfunktion. Wenn das ML–Prinzip auf
ϑ =1
n(X1 + . . .+Xn)
fuhrt, dann ist Lϑ(X) : ϑ ∈ R eine gaußische Shift–Familie Lϑ(X) = N (ϑ, σ2) .
Beweis
1) Wir zeigen zunachst, daß fur eine gaußische Shift–Familie das ML–Prinzip auf den
Schatzer X fuhrt.
`(x1,...,xn)(ϑ) = `x1(ϑ) · . . . · `xn
(ϑ)
= const · exp
(− 1
2σ2(x1 − ϑ)2
). . . exp
(− 1
2σ2(xn − ϑ)2
).
Das Maximum wird in ϑ = X angenommen.
2) Da wir eine Shift–Familie haben, ist die Scorefunktion q(ϑ, x) eine Funktion der Dif-
ferenz
q(ϑ, x) = q(x− ϑ) .
Die Scorefunktion fur das n–tupel unabhangiger Beobachtungen ist
q(ϑ, x1) + . . .+ q(ϑ, xn) .
Sie nimmt nach Voraussetzung ihr Minimum in ϑ = 1n(x1 + . . .+ xn) an.
Lemma Es sei q(ϑ, x) = q(x− ϑ) mit q(·) stetig differenzierbar, so daß fur ein n ≥ 3
und jedes n–Tupel x1, . . . , xn
q(ϑ, x1) + . . . + q(ϑ, xn)
das Minimum in ϑ = x = 1n(x1 + . . . + xn) annimmt. Dann gilt fur ein σ2 > 0
q(ϑ, x) =1
2σ2(x− ϑ)2 + const.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
10. FEHLERGESETZE, CHARAKTERISIERUNGSSATZE 98
Beweis In ϑ = x haben wir
d
dϑ[q(ϑ, x1) + . . .+ q(ϑ, xn)] = 0
q′(x1 − x) + . . . , q′(xn − x) = 0 .
Betrachten wir z.B.
x1 = x, x2 = −x, x3 = 0, . . . , xn = 0 .
Dann ergibt sich q′(x) + q′(−x) = 0. Betrachten wir z.B.
x1, x2, x3 = −(x1 + x2), x4 = 0, . . . , xn = 0 .
Dann ergibt sich
q′(x1 + x2) = q′(x1) + q′(x2) .
Die einzigen stetigen additiven Funktionen auf R sind die linearen Funktionen q ′(z) = cz.
Also gilt
q(z) = const +1
2cz2 .
Da es um Minima geht, und nicht um Maxima, kommt nur c = 1σ2 > 0 in Betracht.
Bemerkung Es kostet etwas mehr Muhe, wenn man zeigen will, daß es auch unter den
stetigen Scorefunktionen q(·) nur die quadratischen sind, die auf das arithmetische Mittel
fuhren.
10.4 Historisches”Elementarfehler“
Hatte nun die Tatsache, daß die Methode der kleinsten Quadrate fur die Astronomie des
fruhen 19. Jahrhunderts so gute Resultate brachte, ihren Grund tatsachlich darin, daß die
Fehler normalverteilt waren? (Bessel hatte schon 1818 in zahlreichen Tests die Wirksamkeit
der Methode von Gauß bestatigt). Geben wir zunachst wieder Gauß (1821/23) das Wort zum
Begriff des Fehlers:”Beobachtungen, welche sich auf Großenbestimmungen aus der Sinnenwelt
beziehen, werden immer, so sorgfaltig man auch verfahren mag, großeren und kleineren Feh-
lern unterworfen bleiben. Die Fehler der Beobachtungen sind im allgemeinen nicht einfache,
sondern entspringen gleichzeitig mehreren Quellen, bei denen zwei Arten genau unterschieden
werden mussen. Gewisse Fehlerursachen sind namlich so beschaffen, daß ihr Einfluß auf jede
Beobachtung von veranderlichen Umstanden abhangt, die unter sich und mit der Beobach-
tung selbst in keinem wesentlichen Zusammenhang stehen; die so entstehenden Fehler werden
unregelmaßige oder zufallige genannt; und insoweit jene Umstande der Rechnung nicht un-
terworfen werden konnen, gilt dieses auch von den Fehlern selbst. Dahin gehoren die von
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
10. FEHLERGESETZE, CHARAKTERISIERUNGSSATZE 99
der Unvollkommeheit unserer Sinne herruhrenden Fehler und solche, die von unregelmaßigen
außeren Ursachen abhangen, z.B. von der durch das Wallen der Luft bewirkten Unsicherheit
beim Sehen; auch rechnen wir hierher manche, selbst den besten Instrumenten anhaftende Un-
vollkommenheiten, z.B. Ungleichformigkeiten, der inneren Wandungen der Libellen, Mangel
an absoluter Festigkeit usw. Dagegen haben andere Fehlerursachen bei samtlichen Beobach-
tungen derselben Art ihrer Natur nach entweder einen vollkommen constanten Einfluß, oder
doch einen solchen, dessen Große in gesetzmaßig bestimmter Weise allein von Umstanden
abhangt, welche mit der Beobachtung wesentlich verknupft sind. Fehler dieser Art werden
constante oder regelmaßige genannt.“ (Gauß, 1964, S.1/2)
”Die Betrachtung der regelmaßigen Fehler soll von unseren Untersuchungen ausdrucklich aus-
geschlossen bleiben. Es ist namlich Sache des Beobachters, alle Ursachen, welche constante
Fehler hervorzubringen vermogen, sorgfaltig aufzusuchen und dieselben entweder abzustellen,
oder wenigstens ihrer Wirkung und Große nach auf das genaueste zu erforschen, um ihren
Einfluß auf jede einzelne Beobachtung bestimmen und diese von jenem befreien zu konnen, so
daß ein Ergebnis erzielt wird, als ob der Fehler uberhaupt nicht vorhanden gewesen ware. Ganz
verschieden hiervon ist aber das Wesen der unregelmaßigen Fehler, welche ihrer Natur nach
der Rechnung nicht unterworfen werden konnen. Diese wird man daher in den Beobachtungen
zwar dulden, ihren Einfluß aber auf die aus den Beobachtungen abzuleitenden Großen durch
eine geschickte Combination der ersteren moglichst abschwachen mussen. Dieser wichtigen
Aufgabe ist die folgende Untersuchung gewidmet.“ (Gauß, 1964, S.2)
Fur die unregelmaßigen Fehler ist der Begriff der Unabhangigkeit wichtig.”Man kann unsere
Aufgabe auch auf den Fall ausdehnen, wo die Werte der Großen V, V ′, V ′′ etc. nicht unmit-
telbar aus den Beobachtungen gefunden, sondern irgendwie aus Combinationen der Beobach-
tungen abgeleitet werden, wenn nur die Bestimmungen der einzelnen voneinander unabhangig
sind, d.h. auf verschiedenen Beobachtungen beruhen: sobald aber diese Bedingung nicht erfullt
ist, wurde die Formel M falsch werden. Ware z.B. eine oder die andere zur Bestimmung
des Werthes von V verwendete Beobachtung auch zur Bestimmung des Werthes von V ′
benutzt worden, so wurden die Fehler e und e′ nicht mehr voneinander unabhangig, und
der mittlere Wert des Produkts ee′ deshalb auch nicht = 0 sein.“ (Gauß, 1964, S.22)
Auf die mit der Unabhangigkeit verbundenen Schwierigkeiten geht Gauß nochmals im Jah-
re 1845 ein:”Bei aller Anwendung des Kalkuls sowohl auf Gegenstande der Natur als auf
sociale Verhaltnisse, pflegen die Erfahrungsdata selten in der reinen Gestalt, wie man sie ei-
gentlich braucht, aufzutreten, sondern fast immer mehr oder weniger behaftet mit Storungen
oder Schwankungen, die in ihrem Wechsel keiner Regel gehorchen, und man sucht dann, wie
jedermann weiß, den daraus entstehenden Nachtheil wenn auch nicht aufzuheben, doch so viel
thunlich zu vermindern, daß man aus vielen einzelnen Resultaten das Mittel nimmt. Man
rechnet darauf, daß bei einer solchen Benutzung einer großen Zahl von Fallen die zufalligen
Schwankungen einander großtentheils compensiren, und legt dann dem Mittelwerthe eine de-
sto großere Zuverlassigkeit bei, je mehr partielle Resultate zugezogen sind. Dieses ist auch
im allgemeinen vollkommen richtig, und durch consequente weitere Entwicklung und umsich-
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
10. FEHLERGESETZE, CHARAKTERISIERUNGSSATZE 100
tige Ausbeutung dieses Princips sind besonders in den Naturwissenschaften nicht selten die
belohnendsten Fruchte, selbst glanzende Resultate, gewonnen. Allein die Sicherheit des Grund-
princips beruhet auf einer wesentlichen Bedingung, die, haufig genug, auch von Gelehrten vom
Fach außer Acht gelassen wird, und die darin besteht, daß die an den einzelnen Beobachtungen
oder Erfahrungen haftenden regellosen Storungen oder Schwankungen voneinander ganz un-
abhangig sein mussen. Das Urtheil, ob eine solche Unabhangigkeit vorhanden sei oder nicht,
kann zuweilen sehr schwierig und ohne tiefes Eindringen in das Sachverhaltniss unmoglich
sein, und wenn daruber Zweifel zuruckbleiben, so wird auch das den Endresultaten beizulegende
Gewicht ein precares sein.“ (Gauß, Gesammelte Werke, 1873, S.143)
Aus all dem geht hervor, daß man den Begriff des Fehlers sorgfaltig fassen muß, bevor man
sich der Frage zuwenden kann, ob die Fehler in einer bestimmten Situation womoglich wirk-
lich normalverteilt sind, was dann in der Tat die Anwendung der Methode der kleinsten
Quadrate auf die von systematischen Fehlern gereinigten Daten nahelegen wurde. Im Zuge
der Entwicklung der sog. Robusten Statistik hat man bei typischen Datensatzen aus verschie-
denen Wissenschaftsbereichen nachgeforscht, inwieweit die Annahme gerechtfertigt ist, daß
die Fehler normalverteilt sind. Es stellte sich heraus, daß es praktisch uberall sog. Ausreißer
(Outliers) gibt. Sogar bei den Astronomen, bei denen schon D. Bernoulli die Sorgfalt des Mes-
sens besonders herausgehoben hat, muß man mit einer Kontamination der Daten rechnen. Es
wird gesagt, daß man typischerweise davon ausgehen sollte, daß an die 10% der Daten nicht
ins Schema der Normalverteilungen passen. In alten Zeiten bereinigte man die Daten nach
Augenmaß. Man konnte jedem einzelnen sonderbaren Meßwert nachgehen und beim Beob-
achter nachfragen. In jungerer Zeit hat man Kunste der Ausreißerbereinigung entwickelt, die
man dem Rechner ubertragen kann. Dabei besteht naturlich die Gefahr, daß man unerwartete
Phanomene, die in der Sache liegen und wirklich das Studium verdienen, wegretuschiert. Aber
das ist eine andere Sache. Eine dieser Kunste, die ubrigens noch in Entwicklung ist, ist die
genannte Robuste Statistik. Eine Monographie daruber stammt von P.J. Huber, einem der
Pioniere.
Im 19. Jahrhundert hatte man nicht so viele Daten, daß man die Fehlerverteilungen empirisch
feststellen konnte. Das Ziel der Ausgleichsrechnung war es, aus den wenigen Daten, die man
hatte, etwas uber die Sache zu lernen; die Fehlerverteilung war der Hintergrund und nicht
das Objekt der Studien.
Eine wichtige Rolle bei der Spekulation um die wahre Fehlerverteilung spielte die”Hypothese
der Elementarfehler“. Laplace hatte in Anschluß an de Moivre gezeigt, daß fur verschie-
dene Verteilungsgesetze gilt: Wenn man eine große Anzahl von unabhangigen nach dieser
Verteilung verteilten Zufallsgroßen hat, dann ist das arithmetische Mittel annahernd normal
verteilt. Die Grundlage der Herleitung der Methode der kleinsten Quadrate bei Gauß war
aber, daß nicht nur die Mittelwerte von Fehlern, sondern die Fehler selbst normalverteilt
sind. E. Czuber hat 1897 im Jahresbericht der deutschen Mathematikervereinigung, Bd. 6,
einen Uberblick vorgelegt:”Die Entwicklung der Wahrscheinlichkeitstheorie und ihre Anwen-
dungen“. Er schreibt da:”Unter den Auffassungen dieses Gegenstands steht ohne Zweifel
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
10. FEHLERGESETZE, CHARAKTERISIERUNGSSATZE 101
wissenschaftlich am hochsten diejenige, welche von der Annahme ausgeht, jeder Beobach-
tungsfehler sei das Resultat der Vereinigung einer großen Anzahl sehr kleiner Fehler, welche
verschiedenen voneinander unabhangigen Ursachen entspringen. Diese Annahme ist aus der
Natur des Gegenstandes hergeholt; . . .“ Der Arbeit Bessels von 1838”Untersuchungen uber
die Wahrscheinlichkeit der Beobachtungsfehler“ spricht Czuber maßgebende Bedeutung zu.
Bessel gibt die Annahme auf, die Verteilungen der Elementarfehler seien identisch. Neben der
Unabhangikeit der zahlreichen Fehlerursachen fordert er nur, daß keine der einzelnen Fehler-
quellen die ubrigen derart uberragt, daß sie auf den Gesamtfehler einen vorwaltenden Einfluß
ausubt. Bessel zahlt fur die Beobachtungssituation des Astronomen zwolf Fehlerquellen auf,
deutet weitere an und sagt zur Gleichgewichtigkeit:”Es ist das Bestreben des Kunstlers, wel-
cher ein Instrument verfertigt, seine einzelnen Teile so anzuordnen, daß sie das, was sie
leisten sollen, mit gleichmaßiger Genauigkeit leisten. Es wurde unnutz sein, einem Kreise
einen großen Halbmesser und bis auf Kleinigkeiten sichere Theilungen zu geben, wenn er nur
ein kleines, wenig sichere Einstellungen gewahrendes Fernrohr tragen sollte. . . .“
Man darf zweifeln, ob die von Bessel hervorgehobene Kunst des Instrumentenbauers, die fur
eine Gleichmaßigkeit der Fehlerquellen und damit fur die Normalverteiltheit der Fehler sorgt,
in unseren modernen Zeiten vorausgesetzt werden kann. Die Verhaltnisse der extremen Ar-
beitsteilung erfordern heute wissenschaftliche Methoden fur die Uberprufung der Normalitat.
Außerdem muß man bedenken, daß die Astronomen des 19. Jahrhunderts ihre wenigen Da-
ten mit Liebe und Verstand uberpruft haben und keinesfalls blind die Methode der kleinsten
Quadrate auf die rohen Daten angewandt haben. Die Gefahr, daß die Methode Unsinniges
liefert und daß die Resultate als wissenschaftliche Wahrheit verkauft werden, ist heute großer
als vor 200 Jahren. Fazit: Man mißtraue den Leuten, die die Methode der kleinsten Quadrate
mit großem rechnerischen Aufwand in die Tat umsetzen ohne einen Gedanken auf die Natur
der Fehler zu verwenden. Die Methode muß sich in jedem konkreten Fall dadurch beweisen,
daß sie die Situation transparent macht. Erwiesenermaßen schlecht funktioniert die ohne Fin-
gerspitzengefuhl angewandte Methode der kleinsten Quadrate, wenn die Fehlerverteilungen
langschwanzig sind oder wenn Ausreißer in den Daten sind. Was Ausreißer sind und wie man
sie als solche erkennt, ist keine rein mathematische Frage.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
11. REGRESSION ALS PROJEKTION AUF HILBERTRAUME 102
11 Regression als Projektion auf Hilbertraume
In den geometrischen Uberlegungen der vorigen Abschnitte hatten wir es mit komplexen
n-Spalten und mit affinen Teilmengen des Raumes der n–Spalten zu tun. Die Punkte des
Raumes waren als die Realisierungen eines Zufallsvektors der Lange n zu interpretieren.
Wir kehren jetzt wieder zum Standpunkt der ersten Abschnitte zuruck. Die Zufallsgroßen
wurden dort als Elemente in einem abstrakten Vektorraum behandelt. Der Raum war der
von Zufallsgroßen Xn aufgespannte Vektorraum H. Die Elemente von H waren also
Linearkombinationen dieser Xn; sie waren beschrieben durch Zeilen ξ der Lange n. Wir
interessierten uns ganz besonders fur Zeilen der Form ξ = η M ; solche Zeilen lieferten uns
namlich die Linearkombinationen der beobachteten Zufallsgroßen Yj.
Der Matrizenkalkul ist nun aber unangemessen, wenn wir es mit unendlich vielen Xt und
unendlich vielen beobachteten Zufallsgroßen Ys zu tun haben. Wir wollen daher einen ab-
strakteren Zugang entwickeln.
In der modernen Wahrscheinlichkeitstheorie wird die Gesamtheit aller (komplexwertigen) Zu-
fallsgroßen zu einem Zufallsexperiment als die Gesamtheit aller meßbaren (komplexwertigen)
Funktionen auf einem meßbaren Raum (Ω,A) beschrieben. Jede Wahrscheinlichkeitsbewer-
tung des Zufallsexperiments wird durch ein Wahrscheinlichkeitsmaß P auf A reprasentiert.
Der Erwartungswert bzgl. der Wahrscheinlichkeitsbewertung entspricht dem Integral bzgl.
desentsprechenden Wahrscheinlichkeitsmaßes P . Die komplexwertigen Zufallsgroßen mit
endlicher Varianz bilden den komplexen Hilbertraum L2(Ω,A, P ).
Beachte : Welche komplexwertigen A–meßbaren Funktionen endliche Varianz haben, hangt
von der Wahrscheinlichkeitsbewertung P ab. Die zu den verschiedenen P konstruierten
Hilbertraume L2(Ω,A, P ) kann man allesamt gewinnen als Vervollstandigungen des Vek-
torraums aller beschrankten A–meßbaren Funktionen. Es hangt dann aber von P abt,
welche Funktionen als aquivalent zu betrachten sind und welche weiteren Zufallsgroßen die
Vervollstandigung erbringt.
Wir betrachten jetzt Familien von Zufallsgroßen Xt : t ∈ T und Ys : s ∈ S. Die Xt
spannen einen Hilbertraum H auf; die beobachteten Ys spannen einen Teilraum H′ auf.
In der”linearen Theorie“ geht es darum, zu wissen X ∈ H ein X ∈ H′ zu finden, so daß’
EP
(|X − X |2
)
moglichst klein ist; und das ist erwunscht fur alle in Betracht gezogenen Wahrscheinlichkeits-
bewertungen P . Nur fur sehr spezielle Scharen P von Wahrscheinlichkeitsbewertungen,
P = P (·) : P ∈ P, und fur entsprechend spezielle X ∈ H kann man hoffen, daß es ein
optimales X ∈ H′ gibt, eine Zufallsgroße X also, welche simultan fur alle P ∈ P den im
quadratischen Mittel minimalen Prognosefehler X − X liefert.
EP
(|X − X |2
)minimal fur alle P ∈ P .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
11. REGRESSION ALS PROJEKTION AUF HILBERTRAUME 103
Die Theorie der BLUE–Schatzungen beschaftigt sich mit solchen speziellen Situationen. Wir
wollen diese Linie hier nicht mehr weiterverfolgen; wir haben es im folgenden jeweils nur mit
einer einzigen Wahrscheinlichkeitsbewertung zu tun. Die Familie Xt : t ∈ T spannt einen
Teilraum H des Hilbertraums L2(Ω,A, P ) auf; die Familie Ys : s ∈ S spannt einen
Teilraum des Hilbertraums L2(Ω,A′, P ′) auf, wo A′ die von den Ys erzeugte σ–Algebra
ist und P ′ die Einschrankung von P auf die Teil–σ–Algebra A′.
11.1 Regression im starken Sinne
Man darf die Aufgabenstellung der linearen Regression nicht verwechseln mit der Regression
im starken Sinn. Die nichtlineare Regressionstheorie sucht zu gewissen X mit endlicher
Varianz eine Zufallsgroße von der Form
X ′ = ϕ(Y1, . . . , Ym) ,
wo ϕ(·) eine borelsche Funktion ist. ϕ soll so konstruiert werden, daß der quadratische
Abstand zu X minimal ist.
E(|X −X ′|2
)= min .
Man beweist in der Maßtheorie, daß es ein solches ϕ(·) gibt und daß X ′ im wesentlichen
eindeutig bestimmt ist. Man nennt ϕ(·) die Regressionsfunktion von X auf Yj : j ∈ J.In der alteren Literatur findet man die Bezeichnung ϕ(y) = E(X|Y = y).
Man sieht genauer, worum es hier geht, wenn man die Situation verallgemeinert. In der
Maßtheorie beweist man den
Satz Sei X ∈ L2(Ω,A, P ) und sei A′ eine Teil–σ–Algebra von A. Es existiert dann
eine (bis auf P–Aquivalenz eindeutig bestimmte) Zufallsgroße
X ′ ∈ L2(Ω,A′, P ) mit E(|X −X ′|2
)= min .
Bemerke Im Falle, daß A′ von endlich vielen Zufallsgroßen Yj erzeugt ist, ist jede
A′–meßbare Zufallsgroße von der Gestalt ϕ(Y1, . . . , Ym) mit borelschem ϕ(·). Der Satz
beschreibt also in der Tat eine Verallgemeinerung des eben skizzierten nichtlinearen Regres-
sionsproblems. Wenn es auch nur eine Zufallsgroße X ′ = ϕ(Y1, . . . , Ym) gibt, so daß
E(|X −X ′|2
)= min
so mag es naturlich doch viele Funktionen ϕ(·) geben. Insofern ist die”Regressionsfunktion“
ϕ(·) nicht wohlbestimmt.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
11. REGRESSION ALS PROJEKTION AUF HILBERTRAUME 104
In den Urzeiten der Regressionsanalyse dachte man an gemeinsame Verteilungen im R2, bei
welchen der bedingte Mittelwert der Ordinate gegeben die Abszisse (nicht notwendigerweise
linear!) vom Abszissenwert abhangt. Der bedingte Mittelwert hangt in der Form einer”Re-
gressionskurve“ ϕ(·) oder im hoherdimensionalen Fall in der Form einer”Regressionsflache“
von den”erklarenden Variablen“ ab. Diese Vorstellung ist aber mit Vorsicht zu gebrauchen.
Wer eine beste Parabel durch ein Streudiagramm im R2 legen will, macht lineare Regression;
die Gesamtheit der Parabeln β0 + β1x+ β2x2 ist ein Vektorraum — und darauf kommt es
an. Nur wer wirklich alle borelschen Funktion der erklarenden Variablen zur Pradiktion des
Regressanden zulaßt, betreibt wirklich nichtlineare Regression.
Der oben formulierte Satz der Maßtheorie gehort zur Theorie der bedingten Erwartungen.
Die gesuchte Zufallsgroße X ′ ist namlich die bedingte Erwartung
X ′ = E(X|A′) P–fast sicher .
Satz Die Zufallsgroße X ′ ist gekennzeichnet durch die Eigenschaften
(i) X ′ ist A′–meßbar
(ii) E((X −X ′) · 1A′) = 0 fur alle A′ ∈ A′.
Hinweise
1) Die Abbildung der”eigentlichen“ Regression
L2(Ω,A, P ) −→ L2(Ω,A′, P )
ist die orthogonale Projektion im Sinne der Hilbertraumtheorie. Der Prognosefehler
X − X ′ ist das Lot von X auf den Raum L2(Ω,A′, P ). Die Eigenschaft (ii) kann
man namlich offensichtlich verallgemeinern zu der Aussage
(ii′) cov (X −X ′, Z ′) = 0 fur alle Z ′ ∈ L2(Ω,A′, P ).
Manche Lehrbucher nahern sich dem Begriff der bedingten Erwartung uber die hier
vorgestellte orthogonale Projektion des L2(Ω,A, P ) auf den Teilraum L2(Ω,A′, P ).
Sie wollen damit denjenigen Studenten entgegenkommen, die Erfahrungen in der Funk-
tionalanalysis mitbringen. Es erfordert in der Tat nur eine kleine maßtheoretische Zu-
satzuberlegung, um den Operator der bedingten Erwartung E(·|A ′) vom L2(Ω,A, P )
auf den naturlichen Definitionsbereich L1(Ω,A′, P ) fortzusetzen.
2) Beim Begriff der starken Regression von X auf die Familie Yj : j ∈ J braucht
man keinerlei Annahmen uber die Art der Zufallsgroßen Yj; es kommt uberhaupt nur
auf die von den Yj erzeugte σ–Algebra an
A′ = Yj : j ∈ Jσ .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
11. REGRESSION ALS PROJEKTION AUF HILBERTRAUME 105
Auf der anderen Seite steht die Begriffsbildung der linearen Regression von X auf
die Familie Yj : j ∈ J voraus, daß die Yj Zufallsgroßen mit endlicher Varianz sind.
Es kommt auf den von den Yj aufgespannten Hilbertraum an. Nennen wir ihn
A′ = Yj : j ∈ J` .
Die Elemente Y von H′ sind diejenigen Zufallsgroßen, die sich im Sinne der L2–Norm
durch endliche Linearkombinationen der Yj approximieren lassen. (Es ist oft ratsam,
anzunehmen, daß die Familie die konstante Zufallsgroße ≡ 1 enthalt.) Offenbar gilt
H′ ⊆ L2(Ω, Yj : j ∈ Jσ, P ) .
Die lineare Regression auf H′ ist die orthogonale Projektion auf H′. Bei der linearen
Regression soll die Zufallsgroße X ∈ L2(Ω,A, P ) durch eine Linearkombination der Yj
approximiert werden.
Bezeichnung Wir bezeichnen den Operator der linearen Regression mit
P (·|Yj : j ∈ J) .
Satz Fur jedes X ∈ L2(Ω,A, P ) ist
X = P (X|Yj : j ∈ J)
durch die folgenden Eigenschaften charakterisiert
(i) X liegt in der linearen Hulle der Yj
(ii) X − X ist unkorreliert mit allen Yj.
Probleme der Anwendbarkeit Die Beliebtheit der linearen Regression ruhrt zum
großen Teil daher, daß diese in Situationen technisch bewaltigt werden kann, in welchen die
eigentliche Regression vor technis unlosbaren Problemen steht. Es ist diskussionsbedurftig,
was die lineare Regression in solchen Fallen fur die Anwendungen leistet. Die Anwendungs-
problematik ist dieselbe wie in der elementaren Theorie der kleinsten Quadrate. Solange man
nicht grundlich auf die Daten schaut und nur den Mechanismus der linearen Algebra in Be-
wegung setzt, bleibt offen, welche Bedeutung man den”optimalen“ Prozeduren zugestehen
kann.
Die idealen Umstande fur die Regressionstheorie bietet der Fall, wo alle auftretenden Zufalls-
großen X und Yj gemeinsam gaußisch verteilt sind. In diesem Fall liefert die lineare
Regression die wirkliche Regression. Der Prognosefehler fur die lineare Regression ist nicht
nur unkorreliert zu allen Yj; er ist sogar stochastisch unabhangig von allen Yj , und daher
gilt
cov (X − X, ψ(Yj : j ∈ J)) = 0
fur alle (beschrankten) borelschen ψ(·).
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
11. REGRESSION ALS PROJEKTION AUF HILBERTRAUME 106
11.2 Isometrische Hilbertraume
Die Techniken der linearen Regression nehmen keinen Bezug auf die gemeinsamen Verteilun-
gen. Sie benutzen nur die Hilbertraummetrik, d.h. sie benutzen nur die Covarianzstruktur.
Man ersetzt die (moglicherweise recht unubersichtlichen) Teilraume des L2(Ω,A, P ) durch
isomorphe Hilbertraume, in welchen man Techniken einsetzen kann, die man aus anderen
mathematischen Theorien kennt. Als ein besonderer Glucksfall ist es anzusehen, wenn es ge-
lingt uber die Technik auch Vorstellungsweisen aus anderen Theorien mit Vorstellungsweisen
der Stochastik zusammenzubringen; vor vorschnellen Analogien muß aber gewarnt werden.
Ein besonders wichtiges Anwendungsgebiet fur die linearen Theorie ist die Theorie der sta-
tionaren Zeitreihen. Man studiert Zeitreihen im zeitlichen Verlauf und im Frequenzbereich.
Man arbeitet parallel in zwei konkreten Hilbertraumen. Dabei erganzen sich im gunstigen Fall
Vorstellungsweisen aus der Elektrotechnik und der Akustik mit Vorstellungsweisen der Sto-
chastik. Die Parallelitaten konnen aber leider auch Verwirrung stiften. Es ist problematisch,
wenn man beliebigen Zeitreihen aus der Statistik unterstellt, daß sie sich wie schwingfahige
Systeme verhalten. Feller (Band II, Kapitel III.3) spottet insbesondere uber die (einstmalige)
Mode, in allen moglichen Zeitreihen verborgene Periodizitaten zu suchen.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
12. SCHWACHSTATIONARE FOLGEN; COVARIANZFOLGEN 107
12 Schwachstationare Folgen; Covarianzfolgen
Definition Man sagt von einer Folge komplexwertiger Zufallsgroßen Xn : n ∈ Z, sie
sei ein schwachstationarer Prozeß mit Erwartungswert = 0, Varianz = σ2 und Covarianz-
folge c(n) : n ∈ Z, wenn gilt
E Xn = 0 , var Xn = σ2 fur alle n
cov (Xk, X`) = c(k − `) .
Die Folge 1σ2 c(n) heißt die Autokorrelationsfolge des Prozesses X(n) : n ∈ Z. Von
besonderem Interesse fur die lineare Theorie sind die gaußischen stationaren Folgen. Man
spricht von einem gaußischen Prozeß (stationar oder nichtstationar), wenn je endlich viele
der Zufalllsgroßen gemeinsam gaußisch verteilt sind. (Wir denken hier an komplexe gaußische
Vektoren; es gibt aber auch den Begriff des reellen gaußischen Prozesses.)
Es ist klar, daß nicht jede Folge komplexer Zahlen als eine Autokorrelationsfolge auftreten
kann. Wir haben z.B.
|c(n)| ≤ c(0) = σ2 ; c(−n) = c(n) fur alle n .
Außerdem ist c(·) positiv semidefinit im Sinn der folgenden
Definition Eine beschrankte Folge komplexer Zahlen c(n) : n ∈ Z heißt positiv
semidefinit, wenn fur alle komplexen Tupel ξ gilt
∑
k,`
ξk · c(k − `) · ξ` ≥ 0 .
Satz Jede Autokorrelationsfolge ist positiv semidefinit.
Beweis
∑
k,`
ξk · c(k − `) · ξ` = cov
(∑
k
ξkXk,∑
`
ξ`X`
)= var
(∑ξkXk
)≥ 0 .
Hinweis Man sagt bekanntlich von einer komplexen N ×N–Matrix C, sie sei positiv
semidefinit, wenn ξCξ∗ ≥ 0 fur alle komplexe N–Zeilen ξ. Das Matrizenprodukt ξCξ∗
ist die Doppelsumme
ξCξ∗ =∑
k
ξk c(k, `) ξ` .
Wenn man zur Covarianzfolge c(n) : n ∈ Z die N × N–Matrix bildet, welche in der
Position (k, `) den Eintrag
c(k, `) = c(k − `) fur k, ` = 1, 2, . . . , N
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
12. SCHWACHSTATIONARE FOLGEN; COVARIANZFOLGEN 108
hat, dann erhalt man eine positiv semidefinite Matrix.
Damit ist die Verbindung hergestellt zwischen der Sprechweise der Matrizenrechnung und der
neuen Sprechweise, die sich auf Folgen komplexer Zahlen bezieht.
Satz Zu jeder positiv semidefiniten Folge c(n) : n ∈ N gibt es einen komplexen
gaußischen Prozeß Xn : n ∈ N mit
E Xn = 0 , var Xn = c(0) fur alle n
E(XkX`) = c(k − `) fur alle n
Beweis Wir haben oben gesehen, daß es zu jeder positiv semidefiniten N×N Matrix C
genau eine komplexe Normalverteilung N (0, C) auf dem Raum CN gibt. Wir interessieren
uns fur die Matrizen C mit den Eintragen c(k, `) = c(k−`). Es geht darum, die Verteilungen
auszudehnen zu einem Maß auf dem unendlichen Produktraum
CZ = . . .C−1×C0×C1×C2× . . .
mit der Produkt–σ–Algebra. Nach einem beruhmten Satz von Kolmogorov existiert zu je-
der vertraglichen Schar endlichdimensionaler Marginalverteilungen genau ein Maß auf dem
unendlichen Produktraum. — Diesen Satz wollen wir hier ohne Beweis akzeptieren.
Der folgende Satz (”Satz von Herglotz“) charakterisiert die positiv semidefiniten Folgen im
Sinne der Analysis.
Satz (Charakterisierung der Covarianzfolgen)
Sei c(n) : n ∈ Z eine beschranke Folge komplexer Zahlen. Die Folge ist genau dann positiv
semidefinit, wenn sie die Folge der Fourier–Koeffizienten eines Maßes ist
c(n) =
∫einxdµ(x) fur n ∈ Z .
Beweis der einfachen Teilaussage:
Jede Folge von Fourier–Koeffizienten ist positiv semidefinit; denn
∑
k,`
ξk c(k − `)ξ` =∑
ξk ·∫
ei(k−`)xdµ(x) · ξ`
=
∫ (∑
k
ξk · eikx
)(∑
`
ξ` · ei`x)dµ(x)
=
∫ ∣∣∣∑
ξk · eikx∣∣∣2dµ(x) ≥ 0 .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
12. SCHWACHSTATIONARE FOLGEN; COVARIANZFOLGEN 109
Die andere Richtung der Aussage ist wesentlich interessanter. Wir werden den Beweis in meh-
rere Schritte auflosen. Zunachst erinnern wir aber an die Begriffe der Fourier–Koeffizienten
eines Maßes und an den Begriff der charakteristischen Funktion
ϕ(t) =
∫eitxdµ(x) fur t ∈ R .
Wir wollen namlich (in einer informellen Weise) parallel zum zeitdiskreten Fall auch den
zeitkontinuierlichen Fall behandeln. Dazu dient die folgende Definition und die Formulierung
des Charakterisierungssatzes fur kontinuierliche Zeit.
Definition Eine stetige beschrankte Funktion c(t) : t ∈ R heißt eine positiv semide-
finite Funktion, wenn fur alle t1, . . . , tN ∈ R und alle ξ1, . . . , ξN ∈ C gilt
∑
k,`
ξk · c(tk − t`) · ξ` ≥ 0 .
Satz Jede positiv semidefinite Funktion c(·) mit c(0) = 1 ist die charakteristische
Funktion eines Wahrscheinlichkeitsmaßes
c(t) =
∫eiωtdµ(ω) .
Bemerkungen Sei ϕ(t) eine charakteristische Funktion.
1) Ihre Einschrankung auf Z ist eine positiv semidefinite Folge. Wir werden sehen, daß
es genau ein Wahrscheinlichkeitsmaß dµ(1)(ω) auf [0, 2π) gibt mit
ϕ(n) =
∫einωdµ(1)(ω) .
Jedes um ein Vielfaches von 2π verschobene Maß liefert aber offensichtlich dieselben
Fourierkoeffizienten.
2) Sei nun M eine feste naturliche Zahl. Die Einschrankung von ϕ(·) auf die Gruppe1M Z = n
M : z ∈ Z liefert eine positiv semidefinite Folge ϕ( nM ) : n ∈ Z. Es gibt
genau ein Wahrscheinlichkeitsmaß dµ(M)(ω) auf [0, 2πM) mit
∫exp
(in
Mω)dµ(M)(ω) = ϕ
( nM
)fur alle n ∈ Z .
Man gelangt von dµ(M)(ω) zu dµ(1)(ω) dadurch, daß man das Maß, welches µ(M) in
die Intervalle [(k − 1)2π, k · 2π), k = 1, 2, . . . ,M legt, in das Intervall [0, 2π) hinein
verschiebt.
Betrachten wir die µ(M) zu einer Folge 1 < M1 < M2 < . . ., wo Mn ein Teiler von
MN+1 ist. µ(Mn+1) entsteht aus µ(Mn) durch ein”Auffachern“.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
12. SCHWACHSTATIONARE FOLGEN; COVARIANZFOLGEN 110
3) Sei c(·) eine stetige beschrankte Funktion, so daß
c( nM
): n ∈ N
positiv semidefinit ist fur jedes M ∈ N (oder fur eine Folge 1 < M1 < M2 < . . . wie
oben). Man muß fragen, ob die schrittweise Auffacherung zu einer schwach konvergenten
Folge von Maßen dµ(M)(ω) fuhrt. In der elementaren Stochastik lernt man, daß die
Stetigkeit von c(·) im Nullpunkt das garantiert. Die Folge der Maße dµ(M) ist dann
namlich straff; es gibt eine konvergente Teilfolge. Die Konvergenz folgt schließlich aus
dem Eindeutigkeitssatz: Jedes endliche Maß ist durch seine charakteristische Funktion
eindeutig bestimmt.
Den Beweis des Satzes von Herglotz fuhren wir in mehreren Schritten.
Lemma 1 : Sei c(n) : n ∈ N eine absolut summable Folge, so daß
f(ω) :=∑
n
c(n) e−inω ≥ 0 fur alle ω .
Dann ist c(·) die Folge der Fourier–Koeffizienten eines Maßes mit stetiger Dichte auf
[0, 2π).
Beweis Wenn
dµ(x) =1
2πf(x)dx fur x ∈ [0, 2π) ,
dann gilt fur alle n ∈ N
∫einxdµ(x) =
1
2π
2π∫
0
einx
(∑
k
c(k) · e−ikω
)dx
=∑
k
c(k) · 1
2π
2π∫
0
ei(n−k)xdx = c(n) .
Wir nehmen im folgenden c(0) = 1 an, das darstellende Maß ist dann ein Wahrschein-
lichkeitsmaß.
Lemma 1∗ : Sei c(t) : t ∈ R eine stetige Funktion mit
+∞∫
−∞
|c(s)|ds <∞ , c(0) = 1
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
12. SCHWACHSTATIONARE FOLGEN; COVARIANZFOLGEN 111
und
f(ω) =
+∞∫
−∞
c(s) · e−isωds ≥ 0 fur alle ω .
Dann gilt fur das Wahrscheinlichkeitsmaß
dµ(x) =1
2πf(x)dx fur alle x ∈ R
∫eitxdµ(x) = c(t) fur alle t
(Ohne Beweis !)
Lemma 2 : Sei c(n) : n ∈ Z eine positiv semidefinite Folge. Fur jedes N ∈ N ist dann
auch
c(n) := c(n)
(1− |n|
N
)+
eine positiv semidefinite Folge.
Beweis Wir zeigen, daß c(n) die Voraussetzung von 1) erfullt. Betrachte die Zeile
ξ =1√n
(. . . , 0, 0, e−iω , e−i2ω, . . . , e−iNω, 0, 0, . . .
).
Es gilt
0 ≤∑
k,`
ξk c(k − `) ξ` =1
N
∑
k,`
e−ikω c(k − `9 · ei`ω ,
wobei in der zweiten Summe uber alle Paare k, ` mit |k − `| < N zu summieren ist.
Zu (k− `) = 0 gibt es N Summanden; zu (k− `) = ±1 gibt es N − 1 Summanden
usw. Wir haben somit
0 ≤∑
k,`
ξk c(k − `) · ξ` =∑
n
c(n) · e−iωn
(1− |n|
N
)+
.
Lemma 2∗ : Sei c(t) : t ∈ R eine positiv semidefinite Funktion. Fur jedes T > 0 ist
dann auch
c(t) = c(t)
(1− |t|
T
)+
eine positiv semidefinite Funktion.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
12. SCHWACHSTATIONARE FOLGEN; COVARIANZFOLGEN 112
Beweisskizze Fur jedes ξ(·) mit∫|ξ(s)|ds <∞ gilt
∫ξ(s) · c(s− t) · ξ(t) ds dt ≥ 0 .
(Man approximiere das Integral durch Riemannsummen zunachst fur stetige ξ(·).)Betrachte
ξ(s) =
1√Te−isω fur 0 < syT
0 sonst .
Wir lassen nun N nach ∞ gehen.
c = c(n)
(1− |n|
N
)+
ist positiv semidefinit fur jedes N . N = 1, 2, 3, . . . . Die entsprechenden Wahrscheinlich-
keitsmaße dµN (x) auf der kompakten Gruppe R /2π besitzen eine schwach konvergente
Teilfolge. Das Grenzmaß hat die Fourier–Koeffizienten
c(n) = limN→∞
c(n)
(1− |n|
N
)+
=
∫einxdµ(x) .
Das Grenzmaß ist durch die Fourier–Koeffizienten eindeutig bestimmt. Jede schwach
konvergente Teilfolge der Folge dµN konvergiert gegen dasselbe µ. Also ist (dµN )N
sogar schwach konvergent.
Beachte aber, daß das Grnzmasß nicht notwendigerweise totalstetig ist bzgl. des Lebes-
guemaßes auf R /2π. Die Funktionenfolge
fN(ω) =∑
n
c(n)
(1− |n|
N
)+
· e−inω
ist nicht notwendigerweise gleichmaßig integrabel bzgl. des Lebesgue–Maßes auf R /2π.
Hinweise
1) In der ingenieurwissenschaftlichen Literatur nennt man das Integral
1
c(0)
+∞∫
−∞
|c(s)|ds
manchmal die Korrelationsdauer des stationaren Prozesses. Wenn die Korrelationsdauer
endlich ist, dann hat das”Spektralmaß“ dµ(ω) eine Dichte. Man nennt sie die spektrale
Leistungsdichte des Prozesses
dµ(ω) =1
2πf(ω)dω =
1
2π
[∫e−isωc(s)ds
]dω .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
12. SCHWACHSTATIONARE FOLGEN; COVARIANZFOLGEN 113
2) Der Satz von Herglotz zeigt, welche Folgen c(n) (bzw. Funktionen c(t)) aus rein
mathematischer Sicht als Autokorrelationsfolgen (bzw. –funktionen) in Betracht kom-
men. Es ist eine ganz andere Frage, welche Folgen geeignet erscheinen, um praktisch
vorkommende stationare Erscheinungen zu modellieren.
Als besonders nutzlich haben sich die Covarianzfolgen zu den rational gebrochenen
Spektraldichten erwiesen
1
2πf(ω)dω =
σ2
2π
∣∣Θ(e−iω
)∣∣2
|ϕ (e−iω)|2dω fur ω(−π,+π) .
Hierbei sind
ϑ(z) = 1 + ϑ1z + . . .+ ϑq · zq
ϕ(z) = 1− ϕ1z − . . .− ϕp · zp
Polynome ohne gemeinsame Nullstellen, wobei ϕ(z) auf der Peripherie des Einheits-
kreises nicht verschwindet.
Die folgenden Kapitel werden noch einige Hinweise auf die Rolle dieser speziellen Spektral-
dichten geben.
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
12. SCHWACHSTATIONARE FOLGEN; COVARIANZFOLGEN 114
12.1 Anhang zur Statistik
Wir gingen hier immer davon aus, daß die Covarianzstruktur unseres Prozesses bekannt ist.
Das ist nicht die Situation in der Statistik; die”wahren“ Wahrscheinlichkeiten sind nicht be-
kannt. Man hat auch nicht unendlich viele Beobachtungen. Man steht vor dem Problem, eine
endliche Folge von Beobachtungen als Abschnitt einer stationaren Folge zu begreifen. Wenn
man einmal davon ausgeht, daß dem Geschehen ein stationarer stochastischer Prozeß zugrun-
deliegt, dann geht es darum, sich aufgrund des tatsachlich beobachteten endlichen Abschnitts
Vorstellungen vom Mittelwert, von der Varianz und von der Autokorrelationsfolge zu machen.
Man muß nunversuchen, diese Kenngroßen des (vermutlich) zugrundeliegenden Prozesses zu
schatzen; bei den Autokorrelationen c(n) kann man allerdings nur fur”Verzogerungen“ n,
d.h. zu n, die klein sind im Vergleich zur Lange des gegebenen Abschnitts, auf diskutable
Schatzwerte hoffen. Man kann dann Pradiktionsprobleme auf der Grundlage der geschatzten
Covarianzstruktur in Angriff nehmen. Man kann aber auch uber die Spektraltheorie an solche
Probleme herangehen.
Bei der Schatzung der Spektralmaße ist einiges zu beachten. Die Lehrbucher warnen vor
allzu naivem Herangehen. Das Stichwort, um welches sich die Mahnungen zur Vorsicht ranken,
ist das”Periodogramm“. Wir konnen hier nur einige sparliche Hinweise geben. Es ist nicht
empfehlenswert, so zu tun, als hatte man die Folge
. . . , 0, 0, Xs, Xs+1, Xs+2, . . . , Xt−2, Xt−1, Xt, 0, 0, . . .
beobachtet. Die Spezialisten empfehlen ein”Tapering“: die x–Werte an den Enden der Serie
werden langsam an die Null herangefuhrt. Man tut z.B. so, als hatte man beobachtet
. . . , 0, 0, Ys, Ys+1, Xs+2, Xs+3, . . . , Xt−3, Yt−2, Yt−1, Xt, 0, 0, . . .
mit
Ys = αXs, Yt = αXt, Ys+1 = βXs+1, Yt−1 = βXt−1
wo 0 < α < β < 1 .
Fur eine Folge dieser Art studiert man dann die”empirische Autokorrelationsfolge“ und
die”empirische Spektraldichte“. Und es besteht die Hoffnung, daß man aus ihr diskutable
Auskunfte uber den”wahren“ stationaren Prozeß (Xn)n ableiten kann.
Definition (Empirische Autokorrelation)
Gegeben sei eine Folge komplexwertiger Zufallsgroßen
. . . , Y−1, Y0, Y1, Y2, . . .
mit∑Yn = 0 und S2 :=
∑ |Yn|2 <∞ (fast sicher).
Man definiert dann die empirische Autokorrelation zur Verzogerung m
A(m) :=1
S2
∑
n
Yn+m · Yn .
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
12. SCHWACHSTATIONARE FOLGEN; COVARIANZFOLGEN 115
Bemerke
1) A(0) = 1 und∑ |A(m)| <∞ (fast sicher).
2) A(k − `) =1
S2
∑n Yn+k · Yn+` fur alle k, ` ∈ Z.
3) Die Folge A(·) ist positiv semidefinit
S2∑
k,`
ξk ·A(k − `) · ξ` =∑
k,`
ξk
(∑
n
yn+k · Yn+`
)· ξ`
=
∣∣∣∣∣∣
∑
k,n
ξk Yn+k
∣∣∣∣∣∣
2
≥ 0 .
Satz Durch die empirische Autokorrelation A(·) ist ein zufalliges Wahrscheinlichkeits-
maß auf [0, 2π) bestimmt; dieses hat eine Dichte bzgl. des Lebesgue–Maßes auf [0, 2π).
Diese Dichte heißt die normierte empirische Spektraldichte der Folge Y (n) : n ∈ Z
A(m) =1
2π
2π∫
0
eimx f(x)dx fur alle m ∈ Z .
Es gilt fur alle k, `
A(k − `) =1
2π
2π∫
0
eikx · ei`x · f(x)dx =1
S2
∑
n
Yn+k · Yn+` .
Wir mussen es einer Spezialvorlesung uber Zeitreihenanalyse uberlassen, die statistischen Ei-
genschaften der zufalligen Dichten zu untersuchen. Man kann in der Tat asymptotische Aus-
sagen beweisen, wenn man immer langere Abschnitte aus einer Zeitreihe (Xn)n herausgreift,
fur welche nicht nur (Xn)n selbst, sonder auch (X2n)n schwach stationar ist.
Wir haben oben gesehen, wie man die Spektraldichte zu einer absolut summablen positiv
semidefiniten Funktion A(·) direkt ausrechnen kann
f(x) =∑
m
A(m) e−imx ≥ 0 fur alle x ∈ [0, 2π) .
In unserem Falle konnen wir f(·) nun auch direkt aus den Beobachtungswerten
Y (n) : n ∈ Z gewinnen
S2 ·∑
m
A(m) · e−imx =∑
m
(∑
n
Yn+m · Yn
)· e−imx
=∑
m,n
(Ym+n · e−i(m+n)x
)(Yn · e−inx
)
=
∣∣∣∣∣∑
n
Yn · e−inx
∣∣∣∣∣
2
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998
12. SCHWACHSTATIONARE FOLGEN; COVARIANZFOLGEN 116
Hier ist also f(x) (bis auf eine Normierungskonstante) der Absolutbetrag der Fourier–
Rucktransformierten der Beobachtungswerte.
Wie bereits oben gesagt, ist es nicht empfehlenswert diese Fourier–Rucktransformation auf
eine brutal abgeschnittene Zeitreihe anzuwenden. Das sogenannte Periodogramm einer stati-
onaren Zeitreihe (Xn)n
IN (x) :=1
N
∣∣∣∣∣
N∑
n=1
Xn · e−inx
∣∣∣∣∣
2
hat keine guten statistischen Eigenschaften (fur N →∞).
@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998