Download pdf - Lineare Theorie und Kleinste Quadrate - math.uni-frankfurt.destoch/kleinstequadrate.pdf · Methode der kleinsten Quadrate, Regressionsanalyse, lineare Zeitreihenanalyse. Es wird hier

Lineare Theorie

und

Kleinste Quadrate

Vorlesungsskript

Prof. Dr. Hermann Dinges

10 September 1998

Inhaltsverzeichnis

Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1 Covarianzen im komplexen Fall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

Anhang 1 Diagonalform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

Anhang 2 Ausgeglichene Zufallsvektoren . . . . . . . . . . . . . . . . . . . . . . . . . 9

2 Lineares Filtern und die Normalgleichung . . . . . . . . . . . . . . . . . . . . . . . . . 11

Anhang Projektionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3 BLUE–Schatzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

BLUE–Schatzung von Einflußfaktoren . . . . . . . . . . . . . . . . . . . . . . . 24

Modell der klassischen linearen Regression . . . . . . . . . . . . . . . . . . . . . 26

Gaußische Vektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4 Drei Charakterisierungen der Normalverteilung . . . . . . . . . . . . . . . . . . . . . . 32

5 Minima quadratischer Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5.1 Bedingte gaußische Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5.2 Anwendung auf Zufallsvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

6 Kleinste Quadrate und andere M–Schatzer . . . . . . . . . . . . . . . . . . . . . . . . 46

6.1 Ausgleichsrechnung im linearen und im nichtlinearen Fall . . . . . . . . . . . . 46

6.2 Geometrische Terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

6.3 Das ML–Prinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

6.4 Historisches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

7 Maßtheoretische Aspekte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

7.1 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

7.2 A posteriori Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . 61

7.3 Reine und gemischte Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . 63

7.4 MAP–Verfahren fur die lineare Theorie . . . . . . . . . . . . . . . . . . . . . . 65

8 Geometrie der kleinsten Quadrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

8.1 Orthogonale Projektion und Normalgleichungen . . . . . . . . . . . . . . . . . . 69

8.2 Minimale quadratische Distanz fur affine Raume . . . . . . . . . . . . . . . . . 75

8.3 Verschiebungsvertragliche Regression . . . . . . . . . . . . . . . . . . . . . . . . 78

9 Der Bias bei der linearen Pradiktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

9.1 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

9.2 Kleine erwartungstreue Veranderungen gegenuber der Regression . . . . . . . . 83

9.3 Lineare Pradiktionen zu gaußischen Vorbewertungen . . . . . . . . . . . . . . . 84

i

INHALTSVERZEICHNIS ii

10 Fehlergesetze, Charakterisierungssatze . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

10.1 Die Herleitung der Methode der kleinsten Quadrate aus NV + ML . . . . . . . 91

10.2 Charakterisierung der Normalverteilung unter Zugrundelegung von kQ + qV . 92

Der Satz von Kagan, Linnik, Rao . . . . . . . . . . . . . . . . . . . . . . . . . . 94

10.3 Charakterisierung der Normalverteilung unter Zugrundelegung von kQ + ML . 97

Der Satz von Gauß . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

10.4 Historisches”Elementarfehler“ . . . . . . . . . . . . . . . . . . . . . . . . . . 98

11 Regression als Projektion auf Hilbertraume . . . . . . . . . . . . . . . . . . . . . . . . 102

11.1 Regression im starken Sinne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

11.2 Isometrische Hilbertraume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

12 Schwachstationare Folgen; Covarianzfolgen . . . . . . . . . . . . . . . . . . . . . . . . . 107

12.1 Anhang zur Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

@ Prof. Dr. H. Dinges, Kleinste Quadrate, 10. September 1998

Einleitung

In vielen Buchern zur Angewandten Statistik kann man sehen, daß die Techniken der linea-

ren Algebra in der Statistik angewendet werden. Stichworte sind u.a. Ausgleichsrechnung,

Methode der kleinsten Quadrate, Regressionsanalyse, lineare Zeitreihenanalyse. Es wird hier

versucht, die grundlegenden Aspekte fur mathematisch orientierte Stochastiker und stocha-

stisch interessierte Mathematiker zu entwickeln. Die Sache hat mehrere Aspekte.

Jedem Studenten fallt auf, daß der Begriff der Covarianz eine Struktur begrundet, die an

die euklidische Geometrie bzw. an die Hilbertraumgeometrie anschließt. (Man denke etwa an

die Ungleichung von Cauchy–Schwarz). Orthogonale Projektion im Hilbertraum ist irgendwie

analog zur linearen Schatzung und zur linearen Pradiktion. Dieser Aspekt wird in den Ab-

schnitten 1, 2, 3 entwickelt. Lineare Regression ist das ubergreifende Stichwort. Das Kapitel 3

(BLUE–Schatzung) ist fur den Anfanger zunachst wahrscheinlich etwas unubersichtlich. Die

Sache wird sich in Abschnitt 9 aufklaren.

Die gaußischen Vektoren schaffen eine solide stochastische Basis fur die Interpretation der

Konstruktionen im Hilbertraum, indem hier namlich Unkorreliertheit zur stochastischen Un-

abhangigkeit wird. Dies wird in den Abschnitten 4, 5 ausgefuhrt. Abschnitt 5 schließt an

Techniken der Anfangervorlesung an (”Lagrange–Multiplikatoren“); da er fur die Stochastik

marginal ist, kann er ubersprungen werden.

Die Methode der kleinsten Quadrate kann zwar rein geometrisch entwickelt werden. Wenn man

sich aber auf die Geometrie beschrankt, ubersieht man notwendigerweise die Beschrankungen

der Anwendbarkeit, und man entwickelt kein Gefuhl fur die Moglichkeiten der Verallgemeine-

rung. Wir stellen daher die”Ausgleichsrechnung“ in einen allgemeineren statistischen Rahmen

(Abschnitte 6, 7).

Die geometrischen Betrachtungen in den Abschnitten 8, 9 sind gewissermaßen dual zur Theo-

rie der linearen Regressionen, die in 1, 2, 3 entwickelt wurde. Die Idee der BLUE–Schatzung

und die Methode der kleinsten Quadrate finden dort zusammen.

Das Kapitel 10 setzt sich mit der in der elementaren Ausgleichsrechnung beliebten Annahme

auseinander, daß die”Fehler“ normalverteilt sind .

1. COVARIANZEN IM KOMPLEXEN FALL 2

Lineare Regression

1 Covarianzen im komplexen Fall

Vorbemerkung Seien S, T reellwertige Zufallsgroßen mit

var S = σ2 > 0, var T = τ 2, cov(S, T ) = ρ · σ · τ .

Man nennt die Zahl

λ := ρ · στ

=cov (S, T )

var T

den Regressionskoeffizienten fur die”Regression von S auf T“. Die lineare Gleichung

s = E S + λ(t− E T )

heißt die Gleichung der Regressionsgeraden. Die Steigung dieser Geraden ist der Regressions-

koeffizient.

In der statistischen Praxis hat man es haufig mit Zufallsgroßen (T, S) zu tun, deren gemein-

same Verteilung man nicht kennt. Wenn man Paare (t1, s1), . . . , (tN , sN ) beobachtet hat,

dann zeichnet man diese als eine Punktwolke (”Streudiagramm“) in die Zeichenebene. Man

kann nun versuchen die Regressionsgerade zu”schatzen“. Fur jede Gerade

s = α+ βt

liefern die (ti, si) gewisse Abweichungen εi in der Ordinatenrichtung; man hat

si = α+ βti + εi .

Von einer Gerade kann man sagen, daß sie gut paßt, wenn die εi klein sind z.B. im Sinne

der kleinsten Quadrate. Die Steigung β einer gut passenden Gerade kann als ein Schatzwert

fur den Regressionskoeffizienten verstanden werden. Wenn man ein Schatzverfahren festge-

legt hat, dann kann man nach verschiedenen Gesichtspunkten das Leistungsvermogen dieses

Schatzverfahrens diskutieren. Bevor wir uns solchen Fragen zuwenden, wollen wir zunachst

den Begriff des Regressionskoeffizienten auf den mehrdimensionalen Fall verallgemeinern. Wir

studieren die Regression eines Zufallsvektors W (der Lange n) auf einen Zufallsvektor

Y = MW (der Lange m). Dabei betrachten wir komplexe Zufallsvektoren und Matrizen

mit komplexen Eintragen.

Bemerke Die Regression ist eine unsymmetrische Angelegenheit. Die Unsymmetrie er-

klart sich im Beispiel daraus, daß es uns bei unserer Approximation der Punktwolke des

Streudiagramms nur auf die Abweichung in der Ordinaten–Richtung ankommen sollte. Der

Regressionskoeffizient λ von S auf T ist charakterisiert durch die Eigenschaft

var (S − λT ) = min

cov (S − λT, T ) = 0 .



Die Approximation von Punktwolken, wo die Koordinaten in symmetrischer Weise eingehen,

ist nicht unser Thema. Es geht uns um die Regression und nicht um die sog. Hauptkompo-

nentenanalyse.

Wenn man ein m–tupel von komplexwertigen Zufallsgroßen Z1, . . . , Zm als Spalte Z notiert,

dann sprechen wir von einem Zufallsvektor der Lange m. Z bezeichnet die Spalte mit den

konjugiert komplexen Eintragen

Z = X + iY , Z = X − iY mit reellen X,Y .

Der Erwartungswert ist komponentenweise definiert. E Z ist die m–Spalte mit den Eintragen

E Zj .

Wir nehmen im folgenden durchgehend an, daß die Zj endliche Varianz haben

E |Zj − E Zj|2 <∞ fur alle j .

Wenn Z ein komplexer Zufallsvektor der Lange m und W ein komplexer Zufallsvektor

der Lange n ist, dann ist ihre Covarianz cov (Z,W ) die m× n–Matrix mit den Eintragen

cjk = cov (Zj ,Wk) = E(Zj − E Zj)(W k−EW k)

= E(Zj ·W k)− (E Zj) · (EW k)

cov (W,Z) ist hier nicht die zu C = cov (Z,W ) transponierte Matrix, sondern vielmehr

die hermitisch konjugierte Matrix C∗ mit dem Eintrag cj,k in der Position (k, j). Man

konnte schreiben C∗ = C>.

Bemerke die wichtige Eigenschaft der hermitischen Konjugation (A ·B)∗ = B∗ ·A∗.

Hinweis Man schreibt manchmal

cov (Z,W ) = E(Z ·W ∗)− (E Z) · (EW )∗

Hier wird W ∗ als die zufallige n–Zeile mit den Eintragen W k aufgefaßt. Z ·W ∗ ist die

m × n–Matrix mit den zufalligen Eintragen Zj ·W k. Die Matrix E(Z ·W ∗) erhalt man,

indem man den Erwartungswert auf jeden Eintrag anwendet.

Wir werden die Notation nur in Nebenrechnungen verwenden; wenn nichts Gegenteiliges ge-

sagt wird, sind fur uns Matrizen immer nichtzufallige Matrizen; die Eintrage sind komplexe

Zahlen. Ebenso ist eine Zeile ξ fur uns eine nichtzufallige Zeile, wenn nichts anderes gesagt

ist. ξ∗ bezeichnet die Spalte mit den komplex konjugierten Eintragen.

Wenn Z ein komplexer Zufallsvektor der Lange m ist und A eine d × n–Matrix, dann

ist AZ ein Zufallsvektor der Lange d mit E(AZ) = A · E Z.

Satz Fur komplexe Zufallsgroßen mit endlicher Varianz gilt

(i) cov (AZ,BW ) = A · cov (Z,W ) · B∗



(ii) cov (Z,W1 +W2) = cov (Z,W1) + cov (Z,W2)

(iii) cov (W,Z) = (cov (Z,W ))∗ .

Beim Beweis kann man sich auf den Fall E Z = 0, EW = 0 beschranken, weil

cov (Z,W ) = cov(Z − E Z,W − EW ) .

Hier leistet dann die erwahnte Notation gute Dienste, z.B.

cov (Z,W ) = E(Z ·W ∗) = E((W · Z∗))∗ = (cov (W,Z))∗ .

Den Beweis von (i) und (ii) uberlassen wir dem Leser.

Satz Fur jeden komplexen Zufallsvektor Z ist die Covarianzmatrix C := cov (Z,Z)

eine positiv semidefinite (hermitische) Matrix.

Bezeichnungen Eine quadratische Matrix heißt hermitisch, wenn sie mit ihrer hermi-

tisch konjuierten ubereinstimmt

C hermitisch ⇐⇒ C = C∗ ⇐⇒ ckj = ckj fur alle j, k .

Eine hermitische Matrix C heißt positiv semidefinit, wenn

ξ · C · ξ∗ ≥ 0 fur alle Zeilen ξ ;

sie heißt positiv definit, wenn

ξ · C · ξ∗ > 0 fur alle ξ 6= 0 .

Eine positiv semidefinite Matrix ist (in unserer Terminologie) immer auch hermitisch.

Beweis des Satzes Jede Linearkombination ξZ der Komponenten von Z hat eine

nichtnegative Varianz

0 ≤ var (ξZ) = E(|ξ · (Z − E Z)|2)

Andererseits gilt

var (ξZ) = cov (ξZ, ξZ) = ξ · cov(Z,Z) · ξ∗

var ξZ = 0 ⇐⇒ Z = E Z fast sicher .

Sprechweise (”Rang“) Ein Zufallsvektor Z der Lange m heißt ein Zufallsvektor

vom Rang r, wenn die Covarianzmatrix den Rang r hat. Er heißt Zufallsvektor von vollem

Rang, wenn die Covarianzmatrix nichtsingular (d.h. invertierbar) ist.



Satz Wenn Z die Lange m und den Rang r hat, dann ist

ξ : ξCξ∗ = 0 = ξ : var (ξZ) = 0

ein (m − r)–dimensionaler Vektorraum von Zeilen. Die Verteilung L(Z − E Z) ist auf den

r–dimensionalen Bildraum der Abbildung w 7−→ Cw konzentriert. (Wir nennen diesen

Bildraum den Spaltenraum der Matrix C.)

Beweis o.B.d.A. E Z = 0

1) Wir zeigen ξCξ∗ = 0 ⇐⇒ ξC = 0. Die eine Richtung ist trivial; die andere benutzt

ganz wesentlich die Semidefinitheit.

Wir mussen zeigen ξCξ∗ = 0 =⇒ ξCη∗ = 0 fur alle η.

(Bemerke: ηCξ∗ = ξCη∗).

Sei ξ so daß ξCξ∗ = 0; η ist beliebig. Es gilt fur alle λ ∈ C

0 ≤ (ξ + λη)C(ξ + λη)∗ = ξCξ∗ + |λ|2 · ηCη + ληCξ∗ + ξCη∗ · λ= |λ|2 · ηCη∗ + 2 ·R e(λ · ηCξ∗) .

Daraus folgt, daß der zweite Term verschwindet.

2) Der Rest ist einfache lineare Algebra.

K := ξ : ξC = 0 ist der Losungsraum eines linearen Gleichungssystems; er hat die

Dimension m− r. Fur eine m–Spalte z gilt

ξz = 0 fur alle ξ ∈ K ⇐⇒ ∃ w : z = Cw ,

denn der Bildraum der Abbildung w 7−→ Cw ist ein r–dimensionaler Vektorraum, der

enthalten ist in dem Vektorraum U := z : ξz = 0 fur alle ξ ∈ K, welcher ebenfalls

die Dimension r hat.

Wegen der Annahme E Z = 0 bedeutet

0 = var (ξZ) = E |ξZ|2 , daß ξZ fast sicher verschwindet ,

d.h. daß L(Z) auf z : ξz = 0 konzentriert ist.

Also ist L(Z) auf z : z = Cw konzentriert. Fur die ξ außerhalb K ist var (ξZ) echt

positiv.

Corollar Der Zufallsvektor BZ hat vollen Rang genau dann, wenn die Matrix BC

vollen Rang hat.



Beweis ξBC = 0 ⇐⇒ (ξB)C(ξB)∗ = 0 ⇐⇒ ξ · (BCB∗) · ξ∗ = 0. Im Falle, daß BZ

vollen Rang hat, ist BCB∗ positiv definit und nur fur ζ = 0 gilt ζ(BC) = 0. Das aber

bedeutet, daß BC vollen Rang hat.

Satz Sei C eine positiv semidefinite n× n–Matrix vom Rang r und B eine r× n–

Matrix, so daß BC den vollen Rang r hat.

Es existiert dann genau eine n× r–Matrix A, so daß

B ·A = Ir (Identitat) , ABC = C .

Beweis Die Gesamtheit aller ζBC ist ein r–dimensionaler Vektorraum von n–Zeilen.

Die Gesamtheit aller n–Zeilen von der Form ξC umfaßt ihn. Da er ebenfalls die Dimension

r hat, sind die beiden Vektorraume gleich. Zu jedem ξ gibt es also eine r–Zeile mit ζ mit

ζBC = ξC. Es gibt genau ein ζ, weil BC den Rang r hat und daher das inhomogene

lineare Gleichungssystem nur eine Losung hat. Die Abbildung, die jedem ξ die Losung ζ

zuordnet, ist durch eine (n× r)–Matrix A gegeben ζ = ξA.

Fur alle ξ von der Form ξ = ζB ist die Losung trivialerweise gleich ζ.

(ζB)A = ζ fur alle ζ. Das liefert BA = Ir .

Fur alle ξ haben wir (ξA)BC = ξC; also ABC = C.

Satz Sei Z ein Zufallsvektor der Lange n mit dem Rang r. Es existiert dann ein

Zufallsvektor W von der Form W = B ·(Z−E Z) vom vollen Rang r, und eine n×r–Matrix

A, so daß

Z − E Z = A ·W = AB · (Z − E Z) .

Beweis Wahle eine r × n–Matrix B so, daß B · (Z − E Z) vollen Rang r hat. Ein

solches B gibt es; es kommt nur darauf an, daß BC den Rang r hat. Wenn A zu B

und C wie oben konstruiert ist, also

BA = Ir , ABC = C ,

dann haben wir AB(v) = Cv fur alle v ∈ Cn. Da L(Z−E Z) auf den Raum Cv : v ∈ Cnkonzentriert ist, haben wir

AB(Z − E Z) = Z − E Z fast sicher .

Corollar Sei C positiv semidefinit vom Rang r.

a) Es gibt positiv semidefinite Matrizen Q mit

CQC = C .



b) Fur jedes E mit EC = 0 erfullt auch

Q+E∗E

die Bedingung in a).

c) Wenn E den Rang n− r hat und EC = 0, dann ist Q+ εE∗E positiv definit fur

jedes ε > 0.

Beweis

a) Sei B eine r × n–Matrix, so daß BCB∗ vollen Rang hat.

Q := B∗ · (BCB∗)−1 ·B

leistet das Verlangte. Sei namlich A wie oben zu C und B konstruiert

BA = Ir , ABC = C .

Es gilt dann

CQC = CB∗ · (BCB∗)−1 ·B · (CB∗A∗) = CB∗A∗ = C .

b) ist trivial

c) Sei E eine solche Matrix.

x∗(Q+E∗E)x = 0 =⇒ Ex = 0 und x∗Qx = 0 .

Jedes x mit Ex = 0 hat die Gestalt x = Cv.

0 = x∗Qx = v∗CQCv = v∗Cv =⇒ Cv = 0 =⇒ x = 0 .



Anhang 1 Diagonalform

Eine Diagonalmatrix vom Format n × n ist genau dann positiv semidefinit vom Rang r,

wenn n− r der Diagonalelemente verschwinden und die ubrigen r echt positiv sind.

Man lernt in der linearen Algebra, daß man jede hermitische Matrix H auf Diagonalgestalt

bringen kann; es existiert eine Matrix U mit

U · U∗ = I und U ·H · U ∗ = D Diagonalmatrix .

Wir wollen den Beweis diese Theorems skizzieren. Betrachte das Problem der”Eigenzeilen“.

Fur gewisse Zahlen λ ∈ λ1, . . . λn, namlich die Nullstellen des charakteristischen Polynoms

der Matrix H, gibt es Zeilen ξ mit ξH = λ · ξ.Seien ξ(1), ξ(2), . . . , ξ(n) so, daß

ξ(j) ·H = λj · ξ(j) fur j = 1, 2, . . . , n .

Wir normieren die ξ(j) so, daß ξ(j) · ξ(j)∗ = 1.

Wenn die λj paarweise verschieden sind, sind die ξ(j) damit bereits bestimmt; wenn das cha-

rakteristische Polynom Mehrfachnullstellen hat, dann ist noch eine kleine Zusatzuberlegung

anzustellen, um zu sichern, daß man die ξ(j) so wahlen kann, daß

ξ(j) · ξ(k)∗ = δjk fur alle j, k.

Wir fassen die Zeilen ξ(j) zu einer n×n–Matrix U zusammen. Wir haben dann einerseits

UU∗ = I und andererseits

U ·H =

λ1

0. . .

0

λn

U = D · U

also U ·H · U ∗ = DU · U∗ = D (Diagonalmatrix).

Die hermitische Matrix H ist genau dann eine positiv definite Matrix vom Rang r, wenn

D positivdefinit ist vom Rang r.



Anhang 2 Ausgeglichene Zufallsvektoren

Sprechweisen

a) Eine komplexwertige Zufallsgroße

Z = X + iY , X und Y reell ,

nennen wir ausgeglichen (in Real– und Imaginarteil), wenn

var X = var Y und cov (X,Y ) = 0

m.a. Worten, wenn cov (Z,Z) = 0.

b) Einen Zufallsvektor Z nennen wir ausgeglichen, wenn ξZ ausgeglichen ist fur jede

Zeile ξ, d.h wenn cov (Z,Z) = 0.

Bemerke Wenn Z ausgeglichen ist, dann auch AZ fur jede komplexe Matrix.

Satz Sei Z = X + iY ein Zufallsvektor mit der Covarianzmatrix

C = S + iT , S und T reell .

S ist symmetrisch und T antisymmetrisch. Wenn Z in Real– und Imaginarteil ausgeglichen

ist, dann gilt

cov

((X

Y

)(X

Y

))=

1

2·(S −TT S

).

Beweis

cov (Z,Z) = cov (X + iY,X + iY )

= cov (X,X) + cov (Y, Y ) + icov (Y,X) − icov (X,Y )

cov (Z,Z) = cov (X + iY,X − iY )

= cov (X,X) − cov (Y, Y ) + icov (Y,X) + icov (X,Y ) .

Wenn cov (Z,Z) = 0, dann haben wir

cov (X,X) = cov (Y, Y ) =1

2S

cov (Y,X) = −cov (X,Y ) =1

2T .

Corollar Wenn Z in Real– und Imaginarteil ausgeglichen ist und die Komponenten

von Z unkorreliert sind, dann sind auch die Real– und Imaginarteile unkorreliert.



Satz Seien Z und W komplexe Zufallsvektoren mit

cov (Z,Z) = C = cov (W,W ) .

Wenn Z und W unabhangig sind, dann ist

1√2

(Z + iW )

ausgeglichen mit der Covarianzmatrix C.

Beweis

1) Sind Z und W unkorreliert mit cov (Z,W ) = 0, dann gilt

2 · cov(

1√2

(Z + iW ),1√2

(Z + iW )

)= cov (Z,Z) + cov (W,W ) .

2) Wenn cov (Z,W ) = 0, dann gilt auch

cov (W,Z) = (cov (Z,W ))∗ = cov (Z,W ))> = 0

2 · cov(

1√2

(Z + iW ),1√2

(Z −iW )

)

= cov (Z,Z)− cov (W,W ) + icov (W,Z) + icov (Z,W )

= cov (Z,Z)− cov (W,W ) = 0

d.h. 1√2

(Z + iW ) ist ausgeglichen in Real– und Imaginarteil.

Bemerke Um die Ausgeglichenheit zu erschließen, brauchen wir nicht die Un-

abhangigkeit; es genugt zu fordern, daß

cov (W,W ) = cov (Z,Z), cov (Z,W ) = 0, cov (Z,W ) = 0 .


2. LINEARES FILTERN UND DIE NORMALGLEICHUNG 11

2 Lineares Filtern und die Normalgleichung

Zur Problemstellung des linearen Filterns

Ein Sender sendet eine Folge von Signalen

. . . , S−1, S0, S1, S2, . . .

(Wir nehmen hier an, daß die Sj komplexwertig sind. In der Praxis werden die Sj meist

Zahlentupel sein.)

Wir modellieren die Folge der Sj als einen Zufallsvektor S mit Erwartungswert 0 und

bekannter Covarianzmatrix. Der Empfanger, der das Signal nicht storungsfrei und auch nicht

vollstandig empfangen kann, will dennoch gewisse Linearkombinationen der Komponenten

des Signals

λ · S = λ1 · S1 + λ2 · S2 + . . .+ λp · Sp

aus der Folge Z, die er empfangt, moglichst gut rekonstruieren. Stellen wir uns z.B. vor, daß

der”Ubertragungskanal“ das Signal S mit einem

”Rauschen“ R additiv uberlagert und

daß dem Empfanger der Vektor

Z = M ·(S

R

)= M ·W

zuganglich wird. (M ist eine bekannte nichtzufallige Matrix.) In der linearen Theorie, die

uns hier interessiert, soll die”Pradiktion“ von λ · S durch eine Linearkombination der

empfangenen Zj bewerkstelligt werden. Der Pradiktionsfehler λ · S − η ·Z soll durch

passende Wahl von η (im Mittel!) moglichst klein gemacht werden. Als passendes Maß

fur den Pradiktionsfehler im Mittel gilt in der linearen Theorie die mittlere quadratische

Abweichung

E |λS − η Z|2 .

Da wir es hier vorerst mit Zufallsgroßen mit Erwartungswert = 0 zu tun haben, ist hier der

mittlere quadratische Fehler gleich der Varianz.

Satz (Optimale lineare Filter) Sei Z = M ·W , wo M eine m× n–Matrix und

W ein Zufallsvektor ist mit

EW = 0 , cov (W,W ) = C.

a) Zu jeder n–Zeile ξ gibt es genau eine Zufallsgroße von der Form η Z mit

var (ξW − η Z) = min var (ξW − ηZ) .



b) Die m–Zeile η liefert genau dann das optimale η Z, wenn

η ·MCM ∗ = ξCM∗ .

c) Es existiert eine n×m–Matrix N mit

(I −NM)CM ∗ = 0 (”Normalgleichung”’) .

Jede Losung N der Normalgleichung liefert zu jedem ξ ·W den optimalen linearen

Pradiktor (ξ N) · Z = η Z.

Beweis

1) Wenn N die Normalgleichung lost, dann heißt das, daß die Zufallsvektoren W −NZund Z unkorreliert sind; denn

cov (W −NZ,Z) = cov (W −NMW,MW )

= CM∗ −NMCM∗ = (I −NM)CM ∗ .

2) Nehmen wir an, wir hatten eine Losung der Normalgleichung. Fur beliebiges ξ, η = ξN

und beliebiges η gilt dann

var (ξW − ηZ) = var (ξW − η Z + (η − η)Z)

= var (ξW − η Z) + var ((η−η)Z) + 2 ·Re(cov (ξW − η Z, (η−η)Z)

= var (ξW − η Z) + var ((η−η)Z) ,

denn

cov (ξW − η Z, (η−η)Z) = ξ · cov (W −NZ,Z) · (η − η)∗ = 0 .

var (ξW − ηZ) ist also genau dann minimal, wenn der zweite Summand verschwindet,

d.h. wenn

(η−η)MCM ∗ · (η−η)∗ = 0

oder, aquivalent damit, wenn

(η−η)MCM ∗ = 0 .

3) Wir zeigen nun, daß die Normalgleichung mindestens eine Losung besitzt. Jede Zeile

von N ergibt sich als Losung eines inhomogenen linearen Gleichungssystems

N · (MCM ∗) = C ·M∗ .



Die Gleichungssysteme sind losbar, wenn jede Zeile von CM ∗ als Linearkombination

der Zeilen von MCM ∗ dargestellt werden kann. Die Bedingung besagt, daß fur jede

Linearkombination der Zeilen von CM ∗, fur jede Zeile ξCM ∗ also, ein η existiert,

so daß

ηMCM∗ = ξ · CM∗ .

Die Existenz beweisen wir durch ein Rang–Argument. Das Bild der Abbildung

η 7−→ ηMCM ∗ = (ηM) · CM ∗

hat die Dimension d = Rang (MCM ∗). Dieses Bild ist andererseits im Bild der Ab-

bildung

ξ 7−→ ξCM ∗

enthalten. Wir sind fertig, wenn wir zeigen, daß auch dieses Bild die Dimension d hat,

d.h. daß CM ∗ den Rang d hat. In der Tat haben MCM ∗ und CM∗ denselben

Rang. Wir haben namlich oben gezeigt ξCξ∗ =⇒ ξC = 0.

Bemerkung Man kann das Resultat auch so ausdrucken: Jede Losung N der Nor-

malgleichung lost das Problem des linearen Filterns in optimaler Weise. Die Schatzung von

W aufgrund von Z = M ·W wird von NZ mindestens genau so gut geleistet wie von

irgendeinem anderen linearen Verfahren. Die Covarianzmatrix des Schatzfehlers W −NZ ist

kleiner oder gleich der Covarianzmatrix des Fehlers bei jedem anderen linearen Verfahren.

Sprechweise Von zwei positiv semidefiniten Matrizen C1 und C2 sagt man, C1 sei

kleiner oder gleich C2, C1 C2, wenn

ξC1ξ∗ ≤ ξC2ξ

∗ fur alle ξ ,

wenn also die Differenz C2 − C2 positiv semidefinit ist.

Bemerke Wenn Z vollen Rang hat, dann ist N eindeutig bestimmt. cov (Z,Z) =

M · C ·M∗ ist invertierbar und

N = C ·M∗ · (M · C ·M ∗)−1 = cov (W,Z) · [cov (Z,Z)]−1

ist die eindeutig bestimmte Losung der Normalgleichung. Die Formel ist eine direkte Verall-

gemeinerung der Formel fur den Regressionskoeffizienten in der Einleitung. Auch in allgemei-

neren Fallen wird man N als Regressionsmatrix deuten.

Wir diskutieren nun einen Spezialfall, den wir spater unter allgemeineren Bedingungen

wieder aufnehmen werden.



Aufgabe (Lineare Regression)

Gegeben sei eine (m× p)–Matrix B (”Design–Matrix“);

β ist ein Zufallsvektor der Lange p;

ε ist ein Zufallsvektor der Lange m mit E ε = 0, cov (ε, ε) = Cε.

Beobachtet wird der Zufallsvektor

Y = B · β + ε = (B, Im)

(β

ε

).

In Tableau–Form geschrieben

β1 β2 . . . βp

Y1 = b11 b12 . . . b1p + ε1

Y2 = b21 b22 . . . b2p + ε2...

......

...

Ym = bm1 bm2 . . . bmp + εm

Wir nehmen an, daß β und ε unkorreliert sind. Gesucht ist eine p×m–Matrix N , so daß

die Covarianzmatrix von β −N Y minimal ist. In der Sprache von oben: Die Komponenten

βk des”Signals“ β sollen aufgrund der Beobachtungen Yj moglichst gut geschatzt werden;

das”Rauschen“ ε wollen wir hier nicht schatzen.

”Gut“ heißt hier zunachst nur, daß die

Varianz klein sein soll.

Losung Wir haben hier

C = cov

((β

ε

),

(β

ε

))und M = (B, I)

cov(Y, Y ) = (B, I)C

(B∗

I

)= BCβB

∗ + Cε .

Uns interessiert hier nicht die ganze Losung der Normalgleichung sondern nur die ersten p

Zeilen der Losung N .

NMCM∗ = CM∗ mit N =

(N

−

)

(N

−

)(B, I)

(Cβ 0

0 Cε

)(B∗

I

)=

(Cβ 0

− −

)(B∗

I

)

N(BCβB∗ + Cε) = Cβ ·B∗ .

Wenn der Beobachtungsvektor Y = Bβ+ ε vollen Rang hat, dann ist die Losung eindeutig

bestimmt

N = Cβ ·B∗ · (BCβB∗ + Cε)

−1 = cov (β, Y ) · (cov (Y, Y ))−1 .



N berechnet sich also auch formal als die Regression von β auf Y .

Hinweis Die Bezeichnung”Design–Matrix“ kommt aus einem statistischen Kontext,

den wir am Ende des Abschnitts uber BLUE–Schatzung erlautern werden.”Schatzung von

Einflußfaktoren“.



Anhang Projektionen

Eine lineare Abbildung eines Vektorraums V in sich heißt bekanntlich ein”Endomorphis-

mus“. Ein Endomorphismus

π : v 7−→ π(v)

heißt eine Projektion, wenn π(π(v)) = π(v) fur alle v ∈ V. Wenn π eine Projektion ist,

dann auch I − π und es gilt

(I − π)π(v) = 0 fur alle v .

Ein Endomorphismus vom Rang r ist genau dann eine Projektion, wenn er einen r–

dimensionalen Teilraum punktweise festlaßt.

Seien V0 und V1 Teilvektorraume, so daß jedes v in eindeutiger Weise zerlegt werden

kann

v = v0 + v1 mit v0 ∈ V0, v1 ∈ V1 .

Man sagt, V sei die direkte Summe von V0 und V1. Das Paar V0,V1 bildet genau dann

eine direkte Summenzerlegung, wenn der Durchschnitt nur aus dem Nullelement besteht und

die Dimensionen sich zur Dimension von V auf summieren.

Die Abbildung π : v 7−→ v0 heißt die Projektion auf V0 entlang von V1. I − π ist die

Projektion auf V1 entlang von V0.

Beispiel Sei A eine komplexe m × n–Matrix vom Rang r. Die Vektorraume

V0 := x : Ax = 0 und V1 = x : x = A∗t, t beliebig liefern eine direkte Summen-

zerlegung des Raums aller Spalten. Die Dimension von V0 ist namlich n−r, die Dimension

von V1 ist r, und der Durchschnitt besteht nur aus dem Nullelement

x = (ξA)∗, Ax = 0 =⇒ x∗x = ξA · x = 0 =⇒ x = 0 .

A liefert andererseits auch eine direkte Zerlegung des Raums aller m–Zeilen. Jede m–Zeile

η laßt sich in eindeutiger Weise schreiben als

η = η0 + η1 mit η0A = 0, η1 = (Ax)∗ .

Satz (Die Projektion zur Losung der Normalgleichung)

Sei C eine positiv semidefinite n× n–Matrix vom Rang r und M eine m× n–Matrix,

so daß MC den Rang d hat. Sei N eine Losung der Normalgleichung

(In −NM)CM ∗ = 0 .



a) Die Abbildung

π : w 7−→ NMw

projiziert den Spaltenraum T von C auf den d–dimensionalen Spaltenraum von

CM∗ entlang dem (r − d)–dimensionalen Teilraum U = T∩w : Mw = 0. (Den

Spaltenraum von CM ∗ bezeichnen wir mit U⊥; diese Bezeichnung wird spater ihre

Erklarung finden.)

b) Sei W ein Zufallsvektor mit

EW = 0, cov (W,W ) = C .

Betrachte π(W ) = NMW und F = W − π(W ). Es gilt dann cov (π(W ), F ) = 0.

U⊥ ist der Trager von L(π(W )), U der Trager von L(F ).

Beweis

1) Die Matrizen MC und CM ∗ haben den Rang d. Die Normalgleichung zeigt, daß

auch NMCM ∗N∗ und NMC den Rang d haben. Der d–dimensionale Spaltenraum

von CM∗ wird durch π punktweise auf sich abgebildet

NMCM∗ = CM∗ .

Es handelt sich also um eine Projektion des Spaltenraums T von C auf den Spalten-

raum U⊥ von CM∗. Fur alle w mit Mw = 0 gilt π(w) = 0.

2) Fur den projizierten Zufallsvektor π(W ) und den Fehler F gilt

cov (F, π(W )) = cov (I −NM)W,NMW )

= (I −NM) · C ·M ∗N∗ = 0 .

Es gilt außerdem

NMπ(W ) = π(W ) und (I −NM)F = F fast sicher .


3. BLUE–SCHATZER 18

3 BLUE–Schatzer

Vorbemerkung

1) Vom Problem des linearen Filterns gelangt man am einfachsten dadurch zum Problem

des linearen Schatzens, indem man die Annahme fallen laßt, daß der zugrundeliegende

Zufallsvektor X den Erwartungswert 0 hat. Der Erwartungswert ist (in einem gewissen

Rahmen) unbekannt. Fur die Qualitat eines”Pradiktors“ fur ξX ist nun nicht mehr

allein die Varianz des zufalligen Pradiktionsfehlers ξX − ηY ausschlaggebend. Man

muß das etwaige Verfehlen des Erwartungswertes, den sog. Bias, in Rechnung stellen;

denn die mittlere quadratische Abweichung ist

E |ξX − ηY |2 = var (ξX − ηY ) + | E(ξX) − E(ηY )|2 .

2) Man sagt, die Linearkombination ξX der Komponenten von X sei erwartungstreu

linear schatzbar aufgrund von Y = MX, wenn eine Zeile η existiert mit

E(η Y ) = E(ξX) .

Im allgemeinen existiert nicht zu jedem ξX ein erwartungstreuer linearer Schatzer. In

der BLUE–Theorie, die wir hier behandeln, untersucht man nur diejenigen Zufallsgroßen

ξX, die linear erwartungstreu geschatzt werden konnen; man muß sich also auf einen

Teilraum von n–Zeilen beschranken.

3) Die n–Zeilen ξ, fur welche ξX linear erwartungstreu schatzbar ist, nennen wir die

zulassigen Zeilen. Die Gesamtheit Ξ aller zulassigen Zeilen bildet einen Vektorraum.

Wie groß Ξ ist, hangt nicht nur von M ab, sondern auch von W, der Menge aller in

Betracht gezogenen Erwartungswerte von W . Ohne Beschrankung der Allgemeinheit

nehmen wir an, daß W ein Vektorraum ist, ein Vektorraum von n–Spalten. ξ ist

offenbar genau dann zulassig, wenn die Linearform x 7−→ ξx auf dem Vektorraum

N = x : Mx = 0 ∩W verschwindet

w1, w2 ∈W, Mw1 = Mw2 =⇒ ξw1 = ξw2 .

4) Wenn der Pradiktor ηMX fur ξX erwartungstreu ist, dann bedeutet das fur die

Auswertung des Pradiktors auf x ∈ T+W die Verschiebungsvertraglichkeit

ϕ(·+ w) = ϕ(·) + ξw fur alle w ∈W .

In manchen Betrachtungen in denen es nur um diese Abbildungen geht, will man Erwar-

tungswerte aus dem Spiel lassen. Die Verschiebungsvertraglichkeit bietet eine neutralere

und daher manchmal passendere Vorstellungsweise.



Definition Die Zufallsgroße η Y heißt der BLUE zu ξX, wenn

(i) E(η Y ) = E(ξX)

(ii) var (ξX − η Y ) = min .

(BLUE = best linear unbiased estimator)

Es ist offensichtlich, daß fur jedes ξ ∈ Ξ das Minimum angenommen wird; denn die zur

Konkurrenz stehenden ηY , welche ξX erwartungstreu schatzen, bilden einen endlichdi-

mensionalen affinen Raum. Der BLUE fur ξX ist eindeutig bestimmt, wenn es auch im allg.

mehrere m–Zeilen η geben wird, die den BLUE η Y liefern. Diese Eindeutigkeit ergibt sich

aus dem Lemma.

Lemma Seien ψ1(Y ) und ψ2(Y ) erwartungstreue Schatzer fur ϕ(W ). Dann ist

ψ(Y ) = 12(ψ1(Y ) + ψ2(Y )) besser als der schlechtere der beiden. Es gilt namlich fur den

mittleren Fehler des Pradiktors ψ(Y ) : Er ist erwartungstreu und erfullt

E(|ϕ(W )− ψ(Y )|2

)=

1

2(r1 + r2)−

1

4E(|(ψ2(Y )− ψ1(Y )|2

),

wenn ri den mittleren quadratischen Fehler des Pradiktors ϕi(Y ) bezeichnet.

Der Beweis ergibt sich aus der Parallelogrammgleichung.

Wir werden sehen: wenn η1 Y der BLUE fur ξ1W ist und η2 Y der BLUE fur ξ2W , dann

ist (η1 + η2)Y der BLUE fur (ξ1 + ξ2)W .

Satz (Hauptsatz uber BLUE–Pradiktion)

Sei X ein Zufallsvektor mit cov(X,X) = C

und einem unbekannten Erwartungswert ∈W .

Sei M eine Matrix und Y = MX .

Dann gilt

a) Wenn ξ zulassig ist, wenn also ξX uberhaupt linear erwartungstreu schatzbar ist,

dann gibt es auch den BLUE η Y fur ξX.

b) Sei η Y irgendein erwartungstreuer Schatzer fur ξX. Die m–Zeile η liefert genau

den BLUE η Y , wenn

(i) (η− η) w = 0 fur alle w ∈ W = M W

(ii) Es existiert ein y ∈ W, so daß

(ξ − η M)CM ∗ = − y∗ .

c) Die m–Zeilen η MCM ∗ und y∗ sind durch ξ eindeutig bestimmt.



Beweis

1) Sei η Y irgendein erwartungstreuer Pradiktor fur ξX. Jeder weitere erwartungstreue

Schatzer hat dann die Gestalt

(η+η0)Y mit η0 w = 0 fur alle w ∈ W .

Genau dann liefert η = η+η0 den BLUE η Y , wenn ξX − η Y unkorreliert ist mit

allen η0Y mit

η0 ∈M0 := η0 : η0 w = 0 fur alle w ∈ W .0 = cov (ξX − η Y, η0Y ) = (ξ − η M)CM ∗η∗0 fur alle η0 ∈M0 .

2) Die Zeile y∗ annulliert genau dann alle Spalten η∗0 , wenn

η0 · y = 0 fur alle η0 ∈M0, d.h., wenn also y ∈ W .

3) Wenn η1 und η2 den (bekanntlich) eindeutig bestimmten BLUE fur ξX liefern,

dann gilt

(η2− η1)Y = 0 fast sicher, also (η2− η1)MCM∗ = 0 .

Gegeben seien C, M und W.

Es ist eine Aufgabe fur die Matrizenrechnung, zu jeder zulassigen n–Zeile ξ eine m–Zeile

η zu bestimmen, die den BLUE η MX fur ξX liefert. Man kann diese Zuordnung durch

eine Matrix ausdrucken, die aber nicht eindeutig bestimmt ist. Die Konstruktionen werden

spater durchsichtig werden, wenn wir geometrische Vorstellungen mit ihnen verbinden.

Unserer ersten geometrisch–analytischen Formulierung des Hauptsatzes stellen wir nun noch

zwei weitere Formulierungen an die Seite, die das BLUE–Problem naher an die Matrizenrech-

nung heranfuhren.

Bezeichnungen

Gegeben seien C,M,W.

T sei der Spaltenraum von C, das ist der lineare Trager von L(X − E X) .

T sei der Spaltenraum von C = MCM∗ .

W sei das M–Bild von W, also der Vektorrraum der moglichen Erwartungswerte von

Y = MX .

Wir bezeichnen weiter V = W∩ T .

B sei eine m× p–Matrix mit Zeilenraum V .



Nichtausgearteter Fall

Wir sagen, das BLUE–Proflem zu C,M,W sei nichtausgeartet, wenn das M–Bild von

W im Spaltenraum von C = MCM∗ enthalten ist, W = V. In siesem Falle haben die

Verteilungen L(Y ) zu allen moglichen Erwartungswerten E Y ∈ W denselben linearen

Trager T.

Bemerke Im ausgearteten Falo beinhaltet jeder Beobachtungsvektor y eine sichere

Inforamtion, die information namlich, daß fur den unbekannten Erwartungswert E X nur

ein echter Teilraum von W in Betracht kommt.

Hauptsatz (2. Formulierung)

Zu C,M sei N eine Losung der Normalgleichung

(I −NM)CM ∗ = 0 .

Es sei ξ zulassig fur W und η Y irgendein erwartungstreuer Schatzer fur ξX. Setze

η = ξN . Dann gilt

a) Die m–Zeile ζ liefert genau dann den BLUE (η+ ζ)Y fur ξX, wenn gilt

(i) ζ ω = (η− η) ω fur alle ω ∈ W

(ii) ζ C ∈ V∗

b) ζ C = (η− η) C ist durch ξ eindeutig bestimmt.

Beweis

a) Genau dann, wenn ζ die Bedingung (i) erfullt, gilt fur alles ω

ξω = η Mω = ηMω + (η− η)Mw = ηMω + ζ Mω = (η+ ζ)Mω .

Genau in diesem Fall liefert also η = η+ζ einen erwartungstreuen Schatzer.

b) (ξ − (η+ζ)M)CM ∗ = −ζMCM ∗ = −ζ C.

Nach (ii) in der ersten Fomulierung liefert η = η+ ζ genau dann den BLUE, wenn

ζ C ∈ V∗ .

Bemerkungen

1) Im nichtausgearteten Fall gilt es zur gegebenen m–Zeile ζ := η− η eine Zeile ζ zu

finden, so daß

(i) ζ B = ζ B = (η− η) B(ii) ζ C ∈ V∗



2) Im ausgearteten Fall bestimmen wir ebenfall ein solches ζ zu ζ. Dieses liefert aber

noch nicht den BLUE fur ξX. Den BLUE schreiben wir in der Form

η Y =(ζ+ζ ′

)Y .

ζ ′ ist irgendeine Linearform auf T+ W, welche auf T verschwindet und auf W

liefert

ζ ′ ω = (η− η− ζ) ω .

Da die Linearform (η− η− ζ) auf V = W∩ T verschwindet, existieren ζ ′ dieser Art.

ζ ′ C = 0.

3) Fur die”Korrektur“ (ζ +ζ ′)Y zur linearen Regression η Y haben wir also in jedem

Fall

var((ζ +ζ ′)Y ) = ζ C ζ∗ .

4) Es gilt

var(ξX − η Y ) = var(ξX − η Y ) + var(ζ Y ) ,

weil ξX − η Y mit Y unkorreliert ist

(ξ − ηM)CM ∗ = 0 .

Die Zahl ζ C ζ∗ = var(ζ Y ) nennt den Preis, der (in der Wahrung der Varianz des

Pradiktionsfehlers) zu zahlen ist, wenn der Statistiker darauf besteht, daß ξX W–

verschiebungsinvariant zu schatzen ist, was naturlich bei zulassigem ξ uberhaupt

moglich ist.

Satz (”Orthogonale Projektion“)

Gegeben sei eine positiv semidefinite m×m–Matrix C und eine m× p–Matrix B, deren

Spaltenraum V im Spaltenraum T von C enthalten ist.

a) Es existiert dann eine Projektion P auf V mit

P C = P C P ∗ = C P ∗ .

b) Fur jede m–Zeile ζ und ζ = ζ P gilt

(i) ζ B = ζ B

(ii) ζ B ∈ V∗

c) Fur eine m–Zeile ζ gilt ζ C ∈ V∗ genau dann, wenn ζ C = ζ P C.



Beweis

1) Sei Q hermitisch mit

C Q C = C (”Pseudoinverse“) .

Fur alle y aus dem Spaltenraum von C gilt

C Q y = y ,

es gilt also auch

C Q B = B .

2) Betrachte die Matrizen

A := Q B und C := A∗ C A .

Es gilt dann

B = C A und C = A∗ C Q C A = B∗ Q B .

3) Die m× p–Matrix F ∗ sei eine Losung der Normalgleichung

(I − F ∗A∗) C A = 0 oder F ∗ C = B .

Die m× p–Matrix P := F ∗A∗ leistet dann das Verlangte. P hat einerseits hochstens

den gleichen Rang wie B, andererseits gilt P B = B wegen

0 = (I − P ) C C = (I − P ) B .

Somit ist y 7−→ P y eine Projektion auf V. Damit ergibt sich ubrigens auf der Seite

der Zeilen

ζ P = 0 ⇐⇒ ζ B = 0 .

4) (I − P ) C P ∗ = (I − P ) C A F = 0, also

C P ∗ = P C P ∗ = P C .

5) Fur jedes ζ = ζ P gilt

ζ C = ζ P C = ζF ∗A∗ C = ζF ∗B∗ ∈ V∗ .

Umgekehrt gilt ζ C ∈ V∗ =⇒ ζ C = ζ P C; denn

ζ C ∈ V∗ ⇐⇒ C ζ∗ ∈ V ⇐⇒ (I − P ) C ζ∗ = 0

⇐⇒ ζ C(I − P ∗) = 0 ⇐⇒ (I − P ) C ζ∗ = 0

⇐⇒ ζ C = ζ P C .



Satz (Hutmatrix bei vollem Rang)

Konstruiere Q, F ∗ zu C, B wie im vorigen Satz:

C Q C = C , F ∗C = B .

Wenn B den Rang p hat, dann ist die p× p–Matrix

C =˜B Q B

∗

invertierbar und es gilt

P = F ∗B∗ Q = (B C−1B∗) Q = B(B∗ Q B)−1B∗ Q .

(Diese Matrix P heißt die Hutmatrix; sie setzt dem ζ = η− η den Hut auf ζ = ζ P .

Wir kommen zu der dualen Betrachtung.

Hauptsatz (3. Formulierung)

Sei C,M,W nichtausgeartet und

(I −NM)CM ∗ = 0 .

Sei P zu C, B konstruiert wie im Satz. Fur ein ξX mit erwartungstreuem Schatzer η Y

und η = ξN ist dann

(η+(η− η) P )Y

der BLUE fur ξX .

Es ist bereits alles bewiesen. Wir bemerken, daß man eine Losung N der ersten Normal-

gleichung sehr leicht bekommt, wenn man Q schon berechnet hat. N := CM ∗ Q lost die

Normalgleichung, denn C Q C = C impliziert

CM∗ Q C = CM∗ .

BLUE–Schatzung von Einflußfaktoren

Ein Statistiker hat in m Situationen den Wert einer Große p beobachtet. Im Hinblick auf

das, was wir hier vorhaben, nennen wir die Große y den Regressanden. Die Umstande der

Beobachtung waren nicht identisch. Die Werte gewisser”erklarender“ (oder

”prognostischer“)

Variabler waren nicht notwendigerweise dieselben; wir sprechen neutral von Regressoren und



wir denken dabei an p Variable, die fur jede Beobachtungssituation auf gewisse Werte

festgelegt worden sind. Im sog. allgemeinen linearen Modell geht man davon aus, daß die

Regressoren reelle (oder komplexe) Großen sind und den Regressanden in affiner Weise bis

auf einen zufalligen Fehler bestimmen. Die Werte der Regressoren sind bekannt; man faßt

sie in derDesignmatrix B (vom Format m × p) zusammen. Unbekannt sind aber die

Koeffizienten der linearen Abhangigkeit. Diese sollen geschatzt werden, und zwar in linearer

erwartungstreuer Weise. Es geht um die BLUE–Schatzung von”Einflußfaktoren“.

Zur Notation Die Design–Matrix B wird weithin mit X bezeichnet. Damit appelliert

man an die Gewohnheit, bei einer”funktionellen“ Abhangigkeit zwischen

”abhangigen“ x

und”unabhangigen“ y zu unterscheiden. Man schreibt y = f(x)+ε. In unserem Falle ware

f(·) eine affine Funktion und ε der zufallige Fehler.

In unserem Ansatz ist der Buchstabe X schon anderweitig verbraucht. X bezeichnet bei

uns einen im Hintergrund stehenden Zufallsvektor der Lange n, aus welchem der Beobach-

tungsvektor Y (der Lange m) durch eine lineare Abbildung (partielle Beobachtung des

Zufallsgeschehens) hervorgegangen ist.

Es ist ziemlich weit verbreitet, die Einflußfaktoren als eine p–Spalte zu verstehen und mit

β = (β1, . . . , βp) zu bezeichnen. Den ersten Einflußfaktor reserviert man ublicherweise fur das

konstante Glied im geforderten affinen Zusammenhang. Dies bedeutet fur die Design–Matrix

B, daß ihre erste Spalte aus lauter Einsen besteht

y = B · β + ε .

(Die Notation y = X · β + ε kommt fur uns aus den genannten Grunden nicht in Betracht.)

Im klassischen Ansatz der linearen Regressionsanalyse modelliert man den”Fehler“ ε als

einen Zufallsvektor mit

E ε = 0 , cov(ε, ε) = Cε ,

wobei Cε im wesentlichen als bekannt vorausgesetzt wird. man schreibt cov(ε, ε) = σ2 ·Cε,

wenn man einen unbekannten Parameter der Genauigkeit in Betracht ziehen will.

Die unbekannten Einflußfaktoren β modelliert man klassischerweise als unbekannte Kon-

stanten. Es wird aber (aus unserer Perspektive) ubersichtlicher, wenn man auch β als einen

Zufallsvektor begreift, wobei

E β unbekannt , cov(β, β) = Cβ unbekannt , und cov(ε, β) = 0 .

Wir haben dann also fur den Beobachtungsvektor Y

E Y = B · E β , cov(Y, Y ) = Cε +BCβB∗ =: C .

Dieses Modell fugt sich in den obigen Ansatz ein, wenn wir einen Zufallsvektor X der Lange

n = m+ p einfuhren und C,M,W wie folgt definieren.



Modell der klassischen linearen Regression

X =

(β

ε

), M = (B, Im) , C =

Cβ 0

0 Cε

, W =

(t

0

): t ist p–Spalte

.

Beachte

1) Beobachtet wird wie gewohnt

Y = MX = Bβ + ε .

Wenn E X durch t bestimmt ist, dann gilt

E t Y = B · E t β = B · t .

Der Vektorraum W der moglichen Erwartungswerte ist der Spaltenraum V der Matrix

B.

2) Die Matrix B kommt in zweierlei Funktion vor. Sie determiniert die Matrix M der

partiellen Beobachtung und gleichzeitig den Vektorraum V. Im Vorausgehenden waren

keine Bindungen zwischen C,M und W gefordert. Insofern haben wir es mit einem

Spezialfall der obigen Uberlegungen zur BLUE–Schatzung zu tun. Der Hauptsatz nimmt

spezieller Formen an.

3) Wir wollen nicht das”Rauschen“ ε schatzen, sondern nur gewisse Linearkombinationen

der Einflußfaktoren. Die n–Zeile

ξ = (λ, o) = (λ1, . . . , λp, 0, . . . , 0)

ist genau dann zulassig, wenn λ im Zeilenraum von B liegt.

E t(ξX) = E t(η Y ) fur alle t ⇐⇒ λ = η B .

Satz Sei B eine nichtzufallige m× p–Matrix. Sei ε ein Zufallsvektor mit

E ε = 0 , cov(ε, ε) = Cε

Sei β unkorreliert zu ε mit

E β unbekannt , cov(β, β) = Cβ .

Y = Bβ + ε

Es gilt dann: η Y ist genau dann ein BLUE fur eine Linearkombination der Einflußfaktoren,

wenn eine p–Zeile λ und eine p–Spalte t existieren, so daß

η C = (λCβ + t∗)B∗ mit C = Cε +BCβB∗

η B = λ .

Es handelt sich um den BLUE fur λ · β.



Beweis Wir stutzen uns auf die erste Formulierung des Hauptsatzes. Die Forderung (ii)

aus dem BLUE η Y fur λβ lautete

((λ, 0) − η M)CM ∗ ∈ V∗ ,

anders geschrieben: Es existiert t, so daß

(ii) η C = λCβB∗ + t∗B∗ = (λCβ + t∗)B∗ .

Die Bedingung (i) an den BLUE η Y hat die Form

(i) η B = λ .

Spezialfall Cβ = 0 .

Genau dann ist η Y der BLUE fur eine Linearkombination der Einflußfaktoren, wenn Cε · η∗im Spaltenraum B liegt.

Beispiel Es wurden Zahlenpaare

(x1, y1), (x2, y2), . . . , (xm, ym)

beobachtet. Man mochte sie als Punkte auf einer Geraden y = α+ βx verstehen, die in der

y–Koordinate”fehlerhaft“ beobachtet worden sind. Ein konstanter und ein linearer Effekt

beeinflußt die Beobachtungswerte. Die Starke dieser Effekte wird durch α bzw. β beschieben.

Diese”Faktoren“ sollen geschatzt werden. Man deutet die Ergebnisse als Realisation eines

Zufallsvektors Y der Lange M

Y1

Y2

...

Ym

=

α β

1 x1

1 x2

......

1 xm

+

ε1

ε2...

εm

Y = B ·(α

β

)+ ε mit E ε = 0, cov (ε, ε) = Cε .

Im klassischen Fall werden α and β als nichtzufallig angesehen, Cβ = 0. Außerdem

nimmt man die εi als unkorreliert an mit var εj = σ2j > 0 fur alle j. Q = C−1

ε ist die

Diagonalmatrix mit den Eintragen qj = σ−2j . Wir berechnen

B∗QB =

(b11 b12

b21 b22

).

b11 = q1 + q2 + . . .+ qm , b12 = b21 = q1x1 + q2x2 + . . .+ qmxm

b22 = x1q1x1 + x2q2x2 + . . .+ xmqmxm .



Nehmen wir b11 = 1 an und setzen wir

x = q1x1 + . . .+ qmxm , τ2 =∑

qj(xj − x)2 = b22 − x2 .

Es ist nicht schwer, in diesem Fall zwei BLUE–Schatzer zu erraten. Betrachten wir z.B.

η1 Y := Y := q1Y1 + q2Y2 + . . .+ qmYm .

Der Erwartungswert ist

E Y = q1(α+ βx1) + . . .+ qm(α+ βxm) = α+ β x .

Also ist Y ein erwartungstreuer Schatzer fur die Linearkombination (1, x)

(α

β

)der

unbekannten Parameter.

Betrachten wir außerdem

η2 Y := (x1 − x)q1 · Y1 + (x2 − x)q2 · Y2 + . . .+ (xm − x)Ym .

Der Erwartungswert ist

E(η2 Y ) =∑

(xj − x)qj · E Yj =∑

(xj − x)qj(α+ βxj) = β · τ2 .

Also ist η2 Y ein erwartungstreuer Schatzer fur die Linearkombination (0, τ 2)

(α

β

).

Aus der obigen Bemerkung ergibt sich leicht, daß η1 Y und η2 Y in der Tat BLUE–Schatzer

sind. Wir mussen nur nachweisen, daß Cε η∗i im Spaltenraum von B liegt. Cε hat in der

Diagonalen die Eintrage σ2j = 1

qj. Daher

(η1

η2

)Cε =

(q1 q2 . . . qm

(x1 − x)q1 (x2 − x)q2 . . . (xm − x)qm

)Cε

=

(1 1 . . . 1

(x1 − x) (x2 − x) . . . (xm − x)

)

=

(1 0

−x 1

)(1 1 . . . 1

x1 x2 . . . xm

)=

(1 0

−x 1

)B∗

Die BLUE–Schatzer aller weiteren Linearkombinationen von α und β ergeben sich durch

Linearkombination der hier erratenen BLUE–Schatzer.



Beispiel Ein Sender sendet ein periodisches Signal

S(t) = α+ β · eiωt .

Dem Empfanger des gestorten Signals ist die Kreisfrequenz ω bekannt, nicht aber der Mittel-

wert α und die komplexe Amplitude β. Der Empfanger mochte aufgrund von verrauschten

Beobachtungen zu den Zeitpunkten 1, 2, . . . ,m die Linearkombinationen von α und β

moglichst gut schatzen.

Yj = α+ βeiωj +Rj j = 1, . . . ,m

Wir nehmen an

Y1

Y2

...

Ym

=

α β

1 eiω

1 eiω2

......

1 eiωm

+

R1

R2

...

Rm

E Rj = 0 , var Rj = 1

cov (Rj , Rk) = a|j−k| fur j 6= k

Die Storungen Rj sind hier also nicht als unkorreliert angenommen, sondern (gemaß ei-

nem beliebten Modell) mit dem Abstand der Zeitpunkte geometrisch abfallend. Naheliegende

Schatzer fur den Mittelwert α und die Amplitude sind

ηY =1

m(Y1 + . . . Ym)

ζY =1

m(e−iω · Y1 + . . .+ e−iωm · Ym) .

Wenn ω = 2π · `m mit ganzzahligem ` 6= 0, dann konnen wir den Erwartungswert exakt

ausrechnen

E(ηY ) = α+ β · 1

m(eiω + eiω2 + . . .+ eiωm) = α

E(ζY ) = β + α · 1

m(e−iω + e−iω1 + . . .+ e−iωm) = β .

Unsere Schatzer sind aber nur im Fall a = 0 BLUE–Schatzer. Fur a 6= 0 sind die Zeilen

η C und ζ C jedenfalls annahernd gleich geeigneten Linearkombinationen der Zeilen von

B∗. Dies sieht man folgendermaßen:



Nehmen wir den Fall, wo α und β nicht als zufallig betrachtet werden, wo also

C = CR =

1 a a2 · · · am−1

a 1 a · · · am−2

a2 a 1 · · · ......

......

. . . a

am−1 am−2 · · · a 1

Die Betrage werden geometrisch klein, wenn man sich von der Diagonale entfernt. Wenn wir

die Spalten in der Mitte betrachten, dann haben wir approximativ

1

m(1, 1, . . . , 1) · CR ≈ (. . . , 1, 1, 1, . . .)

1

m(1 + 2a+ 2a2 + . . .)

1

m(e−iω, e−iω2, . . . , e−iωm) · Cr ≈ (. . . , eiωj , e−iω(j+1), . . .) · const .

Man kann sich vorstellen, daß man fur den BLUE die Beobachtungen am Rande der Serie

etwas anders gewichten muß. Eine exakte Berechnung der Korrekturen der wahren BLUEs

η Y und ζ Y gegenuber den approximativen BLUEs, ηY bzw. ζY , die wir erraten haben,

macht aber etwas Muhe.

Unser Satz, der auf der ersten Formulierung des Haupsatzes uber BLUE–Schatzung aufbaut,

gibt eine Anregung, wie man in der klassischen Situation die Gesamtheit aller BLUE–Schatzer

η Y durch die Auflosung von linearen Gleichungssystemen gewinnt.

η C = (λCβ + t∗)B∗

η B = λ .

Als λ kommt jede Linearkombination der Zeilen von B in Betracht. Aus der gegenwartigen

Perspektive haben jedoch die t, die in Betracht kommen, keine uberzeugende Interpretation.

t∗, B∗ = ζ C gewinnt erst dann eine interessante Interpretation, wenn man wie in der zweiten

Formulierung des Hauptsatzes danach fragt, was die Forderung der Erwartungstrue (in der

Wahrung der Varianz) kostet (siehe Abschnitt 9). Die einfache lineare REgression, in welcher

wir auf Erwartungstreue uberhaupt keine Rucksicht nehmen, sondern nur die die Varianz des

Pradiktionsfehlers λβ−ηY klein machen wollen, haben wir am Ende des vorigen Abschnitts

behandelt. Dort war einfach die Gleichung zu losen

η C = λCβB∗ , λ beliebig .

Man kann das BLUE–Problem naturlich auch mit Matrixinversion (bzw. mit der Bestimmung

von Pseudoinversen) angehen. Das entspricht der 3. Formulierung des Hauptsatzes.

Nehmen wir der Einfachheit halber an, daß C den Rang m und B den Rang p hat.



Setze Q = C−1

und C = B∗ QB. Fur ein η sind dann aquivalent

1) η Y ist der BLUE fur λβ

2) η B = λ und η C = (λCβ + t∗)B∗ fur ein passendes t.

3) Es gibt ein t, so daß η C = (λCβ + t∗)B∗ und (λCβ + t∗)C = λ.

4) η C = λC−1 ·B+

5) η Y = λ · C−1B∗ Q ·Y fast sicher.

6) Fur jedes wteta mit λ = η B gilt η Y = η P Y wobei P = BC−1B∗ Q .

Bemerke P C = B · C−1 · B∗ = C P ∗ und daher

(I − P )CP ∗ = 0 sowie P P C = P C P ∗ = P C .

Die Matrix P ist die Hutmatrix. Sie projiziert den Spaltenraum von C auf einen Teilraum

und sie setzt η den Hut auf. Sie wird uns bei der Methode der kleinsten Quadrate wieder

begegnen. (Abschnitt 8)


4. DREI CHARAKTERISIERUNGEN DER NORMALVERTEILUNG 32

Gaußische Vektoren

4 Drei Charakterisierungen der Normalverteilung

Definition

a) Wenn die reellen Zufallsgroßen X und Y unabhangig standardnormalverteilt sind,

dann heißt

Z =1√2

(X + iY )

eine komplex–standardnormalverteilte Zufallsgroße.

b) Eine komplexwertige Zufallsgroße W heißt komplex–normalverteilt oder komplex–

gaußisch verteilt mit Erwartungswert w und Varianz σ2, wenn

Z :=1

σ(W − w)

komplex–standardnormalverteilt ist.

Bemerke Wenn Z komplex–standardnormalverteilt ist, dann gilt

E Z = 0 cov (Z,Z) = 1 cov (Z,Z) = 0 .

Die Zufallsgroße |Z|2 ist exponentiell verteilt mit dem Erwartungswert 1. Wenn

Z = |Z| · exp(iΦ) mit Φ ∈ (−π,+π] ,

dann ist Φ unabhangig von |Z|2 und in (−π,+π] gleichmaßig verteilt.

Definition (Gaußische Einheitsvektoren)

Wenn man unabhangige reelle (bzw. komplexe) standardnormalverteilte Zufallsgroßen

X1, . . . , Xn zu einem Vektor zusammenfaßt, dann erhalt man einen reellen (bzw. komple-

xen) gaußischen Einheitsvektor der Lange n.

Bemerke Wenn Z ein komplexer gaußischer Einheitsvektor der Lange n ist, dann

bilden die Real– und Imaginarteile, mit√

2 multipliziert einen reellen gaußischen Einheits-

vektor der Lange 2n.

Definition (Gaußische Vektoren)

a) Von reellen Zufallsgroßen X1, . . . , Xn sagt man, sie seien gemeinsam gaußisch ver-

teilt, wenn jede reelle Linearkombination normalverteilt ist. Den Vektor X mit den

Komponenten Xj nennt man einen gaußischen Vektor.

b) Von komplexen Zufallsgroßen Z1, . . . , Zn sagt man, sie seien gemeinsam komplex–

gaußisch verteilt, wenn jede komplexe Linearkombination komplex–gaußisch verteilt ist.

Den Vektor mit den Komponenten Zj nennt man einen komplexen gaußischen Vektor.



Erste Charakterisierung Die Definition findet ihre Berechtigung in der fundamentalen

Tatsache, daß (sowohl im reellen als auch im komplexen Fall) gaußische Einheitsvektoren

Z und ihre affinen Bilder AZ + w gaußische Vektoren sind im Sinne dieser Definition.

Umgekehrt werden wir sehen, daß es fur einen gaußischen Vektor W stets einen gaußischen

Einheitsvektor Z und eine Matrix A gibt, so daß

W − EW = AZ .

Ein vollstandiger Beweis dieser Tatsachen wurde hier zu weit fuhren. Ohne die Methode

der charakteristischen Funktionen ist der Beweis muhsam. Wir werden aber die wesentlichen

Tatsachen, die man fur den Beweis braucht, skizzieren.

Satz Sei X ein reeller gaußischer Einheitsvektor der Lange n. Fur jede reelle Zeile ξ

mit ‖ξ‖2 = |ξ1|2 + . . .+ |ξn|2 = 1 ist dann ξX standardnormalverteilt.

Wenn O eine orthogonale Matrix ist, OO> = In, dann ist OX ein reeller gaußischer

Einheitsvektor.

Beweisskizze Die gemeinsame Dichte der Komponenten X1, . . . , Xn hat die Form(

1√2π

)n

· exp

(−1

2x2

1

)· exp

(−1

2x2

2

)· . . . · exp

(−1

2x2

n

)dx1 . . . dxn

=

(1√2π

)n

· exp

(−1

2x> · x

)dx ;

sie ist also rotationsinvariant. Daher sind nicht nur die Marginalverteilungen L(Xj) stan-

dardnormalverteilt, sondern auch die Verteilungen L(ξX) fur jedes ξ mit ξ · ξ> = 1.

Wenn ξ(1), . . . , ξ(n) paarweise aufeinander senkrecht stehen, wenn sie also die Zeilen einer

orthogonalen Matrix O sind, dann sind

ξ(1)X, ξ(2)X, . . . , ξ(n)X

unabhangig standardnormalverteilt.

Satz Sei Z ein komplexer gaußischer Einheitsvektor der Lange n. Fur jede komplexe

Zeile ξ mit ξ · ξ∗ = 1 ist dann ξZ komplex–standardnormalverteilt.

Wenn U eine unitare Matrix ist, U · U ∗ = In, dann ist UZ ein komplexer gaußischer

Einheitsvektor. (ohne Beweis)

Satz Wenn Z ein (reeller oder komplexer) gaußischer Vektor ist und A eine (reelle

bzw. komplexe) Matrix, dann ist AZ ein (reeller bzw. komplexer) gaußischer Vektor.

Beweis Die Linearkombinationen der Komponenten von AZ sind auch Linearkombi-

nationen der Komponenten von Z.



Satz Sei W ein gaußischer Vektor mit

EW = 0 cov (W,W ) = C vom Rang r ,

und B eine Matrix, so daß

cov (BW,BW ) = Ir .

Dann ist BW ein gaußischer Einheitsvektor der Lange r und es existiert eine Matrix A,

so daß

A · (BW ) = W fast sicher .

Beweisskizze Im komplexen Fall existiert zur positiv semidefiniten Matrix C eine

Matrix B mit BCB∗ = Ir. BW ist ein komplexer gaußischer Vektor, dessen Komponenten

unkorreliert sind. Außerdem sind die Komponenten in Real– und Imaginarteil ausgeglichen

cov (BW,BW ) = B · cov (W,W ) ·B> = 0 .

(Vergleiche den Anhang zum Abschnitt 1.)

Die Real– und Imaginarteile bilden einen reellen gaußischen Vektor, dessen Komponenten

unkorreliert sind mit der Varianz 12 . Der komplexe Fall wird so auf den reellen Fall zuruck-

gefuhrt. Zu zeigen ist der fundamentale

Satz Wenn X1, . . . , Xn unkorrelierte gemeinsam gaußisch verteilte Zufallsgroßen sind

mit E Xj = 0, var Xj = 1 fur alle j, dann bilden die Xj einen gaußischen Einheitsvektor,

d.h. die Xj sind stochastisch unabhangig.

Der Beweis ist leicht, wenn man eine zentrale Einsicht aus der Theorie der charakteristischen

Funktionen heranzieht.

Lemma Die Verteilung L(X) eines reellen Zufallsvektors X ist eindeutig festgelegt

durch die Verteilungen der reellwertigen Zufallsgroßen ξX, wo ξ in der Menge aller reellen

n–Zeilen variiert.

Zum Beweis Man beweist die allgemeinere Aussage, daß L(X) eindeutig bestimmt ist

durch die komplexwertige Funktion

ϕX(ξ) = E exp(iξX) ,

definiert auf der Menge aller reellen n–Zeilen ξ.



Anwendung auf unseren Fall

Ein reeller gaußischer Einheitsvektor X ist ein Zufallsvektor mit

ϕX(ξ) = exp

(−1

2‖ξ‖2

).

Als Konsequenz erhalten wir die

Zweite Charakterisierung reeller gaußischer Vektoren

Ein reeller Zufallsvektor X ist genau dann ein gaußischer Vektor mit E X = x und

cov (X,X) = C, wenn

ϕX(ξ) = exp(iξ x) · exp

(−1

2ξCξ>

)

fur alle reellen n–Zeilen ξ.

Satz Ein komplexer Zufallsvektor Z ist genau dann ein komplexer gaußischer Vektor

der Lange n, wenn die Real– und Imaginarteile der Komponenten einen reellen gaußischen

Vektor der Lange 2n bilden und außerdem

cov (Z,Z) = 0 .

Der Beweis ergibt sich aus den Uberlegungen im Abschnitt zum Thema der in Real– und

Imaginarteil ausgeglichenen Zufallsvektoren.

Eine dritte Charakterisierung der reellen gaußischen Verteilungen ergibt sich aus der

Beschreibung ihrer Dichten auf dem linearen Trager. Wir beginnen mit dem einfachsten Fall,

dem Fall eines reellen gaußischen Vektors vom vollen Rang. Der Ubersichtlichkeit halber

konzentrieren wir uns hier und im Folgenden auf den reellen Fall.

Satz Ein reeller Zufallsvektor X vom vollen Rang n ist genau dann ein gaußischer

Vektor, wenn eine Spalte x und eine positivdefinite Matrix Q existieren, so daß

p(x) ds =

(1√2π

)n

[detQ]1/2 · exp

(−1

2(x− x)> ·Q · (x− x)

)dx1 . . . dxn

seine Dichte ist. Es gilt

x = E X , cov (X,X) = Q−1 .

Beim Beweis stutzen wir uns auf ein Lemma der elementaren Analysis.

Lemma Sei ϕ(y) eine differenzierbare Abbildung, die eine differenzierbare Umkehrab-

bildung ψ(x) besitzt. Das Bild einer Dichte q(y) dy bzgl. ϕ(·) ist dann die Dichte

p(x) dx = q(ψ(x)) · |detψ′(x)| dx .

(ψ′(x) ist die Jacobi–Matrix von ψ(·) im Punkte x.)



Beweis des Satzes Mit den Matrizen A,B von oben ist

U := B(X − x)

ein reeller gaußischer Einheitsvektor, hat also die Dichte

(1√2π

)n

· exp

(−1

2u>u

)du .

Die Umkehrabbildung liefert

X = x+AU .

Die Dichte von L(X) ist also

p(x) dx =

(1√2π

)n

· exp

(−1

2(x− x)>B> · B(x− x)

)· |detB| dx

=

(1√2π

)n

· exp

(−1

2(x− x)>C−1 · (x− x)

)· [detC]−1/2 dx

weil namlich BCB> = I, also (B>B)C(B>B) = B> ·B und daher B>B = C−1.

Satz Sei X ein reeller Zufallsvektor der Lange n vom Rang r

E X = x , cov (X,X) = C .

Genau dann ist X ein gaußischer Vektor, wenn es eine symmetrische Matrix Q gibt, so daß

const · exp

(−1

2(x− x)>Q(x− x)

)dxi1 · . . . · dxir

die Dichte auf dem Trager von L(X) ist. Hierbei ist xi1 , . . . , xir ein r–tupel von Koordi-

naten, welches den Trager koordinatisiert. Es gilt CQC = C. Der Trager von L(X) ist der

affine Raum Tex := x : x = x+Cv mit v ∈ Rn.

Beweis Wir beschranken uns auf den Fall x = 0.

1) Mit Matrizen A,B wie oben

BA = Ir , ABC = C BCB> = Ir

leistet die Matrix Q = B> ·B das Verlangte. Der gaußische Einheitsvektor W = BX

hat die bekannte Dichte. Die Abbildung w 7−→ x = AW = ϕ(w) bildet den Rr

auf den r–dimensionalen Raum T0 = x : x = Cv mit v ∈ Rn ab, den wir

mit einem r–tupel xi1 , . . . , xir koordinatisieren konnen. Diese Abbildung besitzt eine

Umkehrabbildung ψ(x) mit einer konstanten Jacobi–Matrix. BAu = u fur alle u

AB(Au) = Au , ABx = x fur alle x von der Gestalt x = Aw .



Die Dichte der Standardnormalverteilung auf den Rn ist

const · exp

(−1

2u>u

)du .

Sie wird durch die Abbildung ϕ(w) in eine Dichte auf dem Bildraum transformiert;

die Bilddichte bzgl. dxi1 · . . . ·dxir hat in x = Au im Trager wegen u = Bx den Wert

const · exp

(−1

2(Bx)> · (Bx)

)= const · exp

(−1

2x>(B>B)x

).

2) Bei der Dichte kommt es nur auf die Einschrankung der quadratischen Funktion 12 x

>Qx

auf den r–dimensionalen Teilraum T0 an. Die Matrix B>B ist durch die Covarianz-

matrix C nicht eindeutig bestimmt. Wenn Q irgendeine Matrix ist mit

1

2x> ·Q · x =

1

2x>(B>B)x fur alle x = Cv,

dann liefert uns Q dieselbe Dichte auf dem Trager von L(X).

3) Wir zeigen

C(B>B)C = C .

Bemerke, daß jedes x = Cv eine (eindeutig bestimmte) Darstellung x = C · B>t

besitzt, weil CB> denselben Rang hat wie C. Fur v = B>t und x = Cv haben

wir

1

2x>B>Bx =

1

2(CB>t)> · B>B · (CB>t)

=1

2t>BCB>BCB> · t =

1

2t> · t

=1

2t>B>CBt =

1

2v> · Cv .

Also gilt fur alle x = Cv

1

2v>C(B>B) · Cv =

1

2v>Cv ;

dies bedeutet C · (B>B)C = C.


5. MINIMA QUADRATISCHER FUNKTIONEN 38

5 Minima quadratischer Funktionen

Sei C eine positiv semidefinite n×n–Matrix (vom Rang r). T bezeichne den Spaltenraum,

T = x : x = Cv. Wir wahlen eine hermitische Matrix Q mit CQC = C; uber den Rang

von Q machen wir keine Annahmen. Die Willkur in der Wahl von Q wird nicht storen.

Offenbar gilt CQx = x fur alle x ∈ T.

Der negative Logarithmus der Dichte von N (x, C), betrachtet fur x ∈ x+T, hat die Gestalt

1

2(x− x)∗Q(x− x) + const .

Wir studieren hier quadratische Funktionen dieser Art.

5.1 Bedingte gaußische Dichten

Die Charakterisierung der Normalverteilungen durch ihre Dichten macht ersichtlich, daß die

bedingten Dichten auf affinen Teilraumen gaußische Dichten sind. Die Einschrankung einer

quadratischen Funktion auf einen affinen Teilraum ihres Definitionsbereichs ist namlich of-

fensichtlich eine quadratische Funktion. Da diese quadratischen Funktionen eine eindeutig

bestimmte Minimalstelle haben, sind sie der negative Logarithmus einer gaußischen Dichte.

Es gilt nun, in verschiedenen Situationen den Erwartungswert und die Covarianzmatrix sol-

cher bedingten Dichten auszurechnen. (Es sollte klar sein, daß bedingte Erwartungswerte und

bedingte Varianzen in der aktuellen Situation aus maßtheoretischer Sicht vollig unproblema-

tische Begriffe sind.)

Satz Sei Q hermitisch und W ein Vektorraum mit

w∗Qw > 0 fur alle w ∈W, w 6= 0 .

Es existiert dann genau eine hermitische Matrix C mit

CQC = C

und Spaltenraum = W.

Beweis

1) Eindeutigkeit Seien C1, C2 hermitische Matrizen der geforderten Art. Es gilt CQw =

w fur alle Spalten von C, also fur alle w ∈W.

C1QC2 = C2, C2QC1 = C1 zusammen mit der Hermitizitat liefert

C1 = C2QC1 = C1QC2 = C2 .



2) Existenz Sei p die Dimension von W und B eine n× p–Matrix mit Spaltenraum

W. Es gilt s∗B∗QBs > 0 fur alle s 6= 0. Also ist B∗QB eine positiv definite also

invertierbare p× p–Matrix. Setze C = B · (B∗QB)−1 ·B∗.

Der Spaltenraum ist in W enthalten, der Rang ist p und CQC = C ist eine triviale

Rechnung.

3) Bemerke Wenn der Rang von Q gleich der Dimension p von W ist, dann gilt auch

QCQ = Q. In diesem Fall hat QC denselben Rang wie Q. Jedes v = Qx kann auch

als v = QCt dargestellt werden

QCv = QCQCt = QCt = v fur alle v im Spaltenraum von Q ,

also QCQ = Q.

I) Wir berechnen die (eindeutig bestimmte!) Minimalstelle von

1

2x∗Qx auf L := x : Mx = y ∩ T ,

wobei M eine beliebige m× n–Matrix ist und y ein Punkt im Spaltenraum MC. (Fur

andere y ist der Durchschnitt leer.) Wir werden sehen, daß die Minimalstelle eine lineare

Funktion von y ist: x = Ny. N ist eine beliebige Losung der Normalgleichung

(I −NM)CM ∗ = 0 .

Satz Seien C,T und Q wie oben und U ein Teilvektorraum von T, gegeben in der

Form

U = x : Mx = 0 ∩ T .

a) Wenn man jedem x ∈ T denjenigen Punkt x in x+U zuordnet, in welchem 12 x

∗Qx

minimal ist, dann erhalt man eine Projektion entlang U auf einen Raum U⊥.

b) Diese Projektion entlang U ist vor allen anderen Projektionen entlang U ausgezeichnet

durch die Eigenschaft

1

2x∗Qx =

1

2(x− x)∗Q(x− x) +

1

2x∗Qx fur alle x ∈ T .

c) Diese Projektion x 7−→ x kann durch jede Losung N der Normalgleichung

(I −NM)CM ∗ = 0

beschrieben werden. Es gilt x = NMx fur alle x ∈ T.

d) U⊥ ist der Spaltenraum von CM ∗ und es gilt

u∗QCM∗ = 0 fur alle u ∈ U .



Vorbemerkungen

1) Die Projektion, um die es hier geht, heißt die orthogonale Projektion auf U⊥. Mit der

geometrischen Sprache beschaftigen wir uns im nachsten Abschnitt.

2) Punkte x1, x2, deren Differenz in U liegt, M(x2 − x1) = 0, werden durch jede

Projektion entlang U auf denselben Punkt x abgebildet. Sei x der Bildpunkt fur

alle x in L = x : Mx = y∩T. Wenn fur alle x ∈ L, d.h. fur alle x mit x−x ∈ U

gilt

1

2x∗Qx =

1

2(x− x)∗Q(x− x) + const ,

dann bedeutet das, daß x die (eindeutig bestimmte!) Minimalstelle der quadratischen

Funktion

1

2x∗Qx auf L

ist. Fur alle u = Cv 6= 0 gilt namlich 12 u

∗Qu = 12 v

∗Cv > 0.

3) Das klassische Verfahren zur Bestimmung von Minimalstellen mit Nebenbedingungen

ist die Methode der Lagrange–Multiplikatoren. In jeder Minimalstelle ist der Gradient

der zu minimierenden Funktion eine Linearkombination der Gradienten der Nebenbe-

dingungen. In unserem Falle gilt es, fur x = Cv ∈ T die Funktion

1

2x∗Qx =

1

2v∗Cv

mit den Nebenbedingungen MCv = y zu minimieren. Denken wir an den reellen Fall.

Wir haben

grad

(1

2v>Cv

)= v> · C

grad (MCv) = MC .

Zu jeder Minimalstelle v existiert eine m–Spalte t, so daß

v>C = t> ·MC , C v = CM> · t .

Die Gesamtheit der v, die (fur irgendein y im Spaltenraum von MC) als Minimalsstelle

in Betracht kommen, ist ein Vektorraum. Wir sind aber nicht an diesen Minimalstellen

v interessiert, sondern an den daszugehorenden x–Werten in T, insbesondere an denen

in L = x : Mx = y ∩ T. Wir suchen x mit

x = C v = CM> · t , M x = y .

Zu jedem y im Spaltenraum von MC gibt es mindestens ein t mit MCM> · t = y;

wir interessieren uns aber nicht so sehr fur t, sondern vielmehr fur x = CM> · t. Da



CM> und MCM> denselben Rang haben, ist x durch y eindeutig bestimmt. Die

Zuordnung y 7−→ x ist linear, kann also durch eine n ×m–Matrix N beschrieben

werden:

x = Ny fur y ∈ Spaltenraum von MC.

y = MCM> · t , Ny = x = CM> · t .

Es kommen alle m–Spalten in Betracht.

Die Matrix N leistet das Verlangte genau dann, wenn

(I −NM)C ·M> = 0 .

Wir haben also gesehen, daß man im reellen Fall die Normalgleichung durch die Me-

thode von Lagrange gewinnen kann. Es ware unbequem, den komplexen Fall auf den

reellen Fall zuruckzuspielen, um dann die ohnehin fur unseren Fall unnotig schwerfallige

Methode der Langrange–Multiplikatoren anzuwenden.

Beweis des Satzes

1) Sei N eine Losung der Normalgleichung

(I −NM)CM ∗ = 0 .

Die Abbildung x 7−→ NMx projiziert T auf den Spaltenraum U⊥ der Matrix CM ∗.

Das sieht man so: Die Spalten von CM ∗ bleiben fest

NM · CM∗ = CM∗ .

Andererseits gibt es fur jedes x = Cv ∈ T mindestens ein s mit MCv = MCM ∗s.

Es gilt also

NMx = NMCv = NMCM ∗s = CM∗s ∈ T .

Das Argument liefert auch M x = Mx also x− x ∈ U.

2) Fur u ∈ U, x ∈ U⊥ gilt u∗Qx = 0 .

Das sieht man so: Sei u0 = Cv0 mit MCv0 = 0, v∗0CM∗ = 0.

Fur jedes x = CM ∗s gilt also

u∗0Qx = v∗0C ·Q · CM ∗s = v∗0 · C ·M∗s = 0 .

3) Als Konsequenz erhalten wir wegen (x− x)∗Qx = 0

1

2x∗Qx =

1

2(x− x+x)∗Q(x− x+x)

=1

2(x− x)∗Q · (x− x) +

1

2x∗Qx



II) Wir berechnen die (eindeutig bestimmte!) Minimalstelle x von

1

2(x− x)∗Q(x− x) auf L = x : x = z +Bs ⊆ T ,

wo B eine n× p–Matrix ist, deren Spalten zu T gehoren.

Die Aufgabe unterscheidet sich insofern von der oben behandelten, daß der affine Raum L hier

durch eine Parametrisierung gegeben ist, wahrend er oben durch ein lineares Gleichungssystem

beschrieben war.

Die Fragestellung ist verschiebungsinvariant; hier ist es bequem z = 0 anzunehmen. Die

Tilde bei x brauchen wir nicht. Wir suchen zu jedem x ∈ T denjenigen Punkt x ∈ V =

x : x = Bs in welchem die”Abstandsfunktion“

1

2(x− x)∗Q(x− x)

minimal ist.

Satz Seien C, T und Q wie oben und V ein Teilvektorraum von T, gegeben in der

Form

V = x : x = Bs ⊆ T .

a) Wenn man jedem x ∈ T denjenigen Punkt x ∈ V zuordnet, in welchem 12(x −

x)∗Q(x− x) minimal ist, dann erhalt man eine Projektion von T auf V.

b) Der Bildpunkt x von x ∈ T ist gekennzeichnet durch das lineare Gleichungssystem

(x− x)∗QB = 0 , x ∈ V .

c) Setze A = QB. Fur jede p× n–Matrix F mit

(I − F ∗A∗)CA = 0

gilt dann x = F ∗A∗x = F ∗B∗Qx = BFQx fur alle x ∈ T.

Vorbemerkungen

1) Den Nullraum der hier beschriebenen Projektion of V heißt der Orthogonalraum von

V in T; man bezeichnet ihn mit V⊥. Wir werden sehen V⊥ = u : B∗Qu = 0 ∩T.

Der Bildpunkt x ∈ V zu x ∈ T heißt der Fußpunkt des Lots von x auf V.

2) Fur die Minimalstellenbestimmung hat man (im reellen Fall) die elementare Methode,

den Gradienten der zu minimierenden Funktion gleich Null zu setzen. Wir haben hier

− ∂

∂s

(1

2(x−Bs)>Q(x−Bs)

)= (x−Bs)>QB .



Die Losbarkeit des Gleichungssystems

s>B>QB = x>QB

ist fur x ∈ T gesichert. Dies sieht man so: Setze A = QB. Da nach Annahme

die Spalten von B in T liegen, haben wir CQB = B, also CA = CQB = B,

B>QB = A>CA und die Gleichung wird zu einer veritablen Normalgleichung

s>A>CA = x> · CA ; (x> − s>A>)CA = 0 .

Beweis des Satzes

1) Betrachte bei festem x ∈ T auf V die Funktion

1

2(x− v)∗Q(x− v) fur v ∈ V .

Sie nimmt ihr Minimum in einem Punkt x ∈ V an

0 ≤ 1

2(x− (x+Bs))∗Q(x− (x+Bs))− 1

2(x− x)∗Q(x− x)

= 2 ·Re(x− x)∗QBs+ s∗B∗QBs fur alle s .

Der erste Term verschwindet notwendigerweise fur alle x. Der zweite Summand ist

strikt positiv, wenn Bs 6= 0; denn s∗B∗QBs = sA∗CAs und wegen der Semidefinitheit

von A∗CA ist dies nur dann 0, wenn CAs = 0.

2) Setze M = A∗ = B∗Q und betrachte eine Losung N = F ∗ der Normalgleichung

(I −NM)CM ∗ = 0 = (I − F ∗A∗)CA .

Wir haben oben gesehen, daß N eine Projektion liefert

x 7−→ NMx = x .

Der Bildraum ist der Spaltenraum von CM ∗ = CQB = B. Wir haben gezeigt

(x− x)∗Q · CM∗ = 0 fur alle x ∈ T ,

also

B∗Q · (x− x) = 0 fur alle x ∈ T .

Der Punkt x = NMx = F ∗A∗x erfullt also die Bedingungen in 1). Er ist der”Fußpunkt

des Lots“ von x auf V.



3) Die Normalgleichung fur F ∗

(I − F ∗A∗)CA = 0

kann man auch mit B = CA und Q ausdrucken

F ∗ · B∗QB = B , B∗QB · F = B∗ .

Wir bemerken: V ist der Spaltenraum von BF ; denn BF hat denselben Rang d

wie B. Da x 7−→ F ∗A∗x auf V die Identitat ist, haben wir

BF = (F ∗A∗)BF = F ∗B∗QBF = F ∗B∗

F ∗A∗ = F ∗B∗Q = BFQ .

4) Die letztere Formel BFQ fur die Projektion x 7−→ x ist die gebrauchlichste in den

Lehrbuchern. Man sieht ihr sofort an, daß der Bildpunkt in V liegt. Man betrachtet

meistens nur nichtsingulare B, sodaß also B∗QB positiv definit ist. Man hat also

F = (B∗QB)−1 · B∗ .

Die Matrix

F ∗A∗ = BFQ = B(B∗QB)−1 ·B∗Q

heißt die Hut–Matrix; sie setzt dem x den Hut auf.

5.2 Anwendung auf Zufallsvektoren

Sei X ein Zufallsvektor der Lange n vom Rang r mit

cov(X,X) = C .

I.) Zu jeder m × n–Matrix M , fur welche MX den Rang d hat, existiert eine

Zerlegung in unkorrelierte Zufallsvektoren von der Form

X = NMX + (I −NM)X ,

wo (I −NM)X den Rang r − d hat. Die Zerlegung ist eindeutig bestimmt. Jede Losung

N der Normalgleichung

(I −NM)CM ∗ = 0

leistet das Verlangte.



II.) Zu jedem d–dimensionalen Teilraum V ⊆ T existiert eine Zerlegung in unkorrelierte

Zufallsvektoren

X = X +(X − X)

wo L(X) auf V konzentriert ist und (X − X) den Rand r − d hat. Die Zerlegung ist

eindeutig bestimmt. Sei A eine n× p–Matrix, so daß

V = x : x = CAs

und F eine p× n–Matrix, so daß

(I − F ∗A∗)CA = 0 .

Dann gilt X = F ∗A∗X .

Bemerkung Wenn X gaußisch ist, dann sind die Komponenten X und X − X

unabhangige gaußische Vektoren; denn X und X − X sind lineare Bilder von X und als

unkorrelierte gemeinsam gaußisch verteilte Zufallsgroßen stochastisch unabhangig.


6. KLEINSTE QUADRATE UND ANDERE M–SCHATZER 46

6 Kleinste Quadrate und andere M–Schatzer

6.1 Ausgleichsrechnung im linearen und im nichtlinearen Fall

Stellen wir uns vor: Ein Naturwissenschaftler glaubt davon ausgehen zu konnen, daß der

zeitliche Ablauf eines Geschehens durch eine Funktion y = f(t) bestimmt ist, welche zu

einer uberschaubaren Familie von Funktionen gehort

f(·) ∈ f(ϑ, ·) : ϑ ∈ Θ .

Manche Leute nennen die f(ϑ, ·) die moglichen”wahren“ Ablaufe, andere sprechen lieber

von den”nominellen“ Ablaufen, um zu betonen, daß Modellvorstellungen im Spiele sind.

Der Naturwissenschaftler hat nun Beobachtungswerte yj zu Zeitpunkten tj vorliegen

(j = 1, . . . ,m), und er erwartet, daß sie zu einem der nominellen f(·) besonders gut passen.

Um herauszufinden, welches f(·) das ist, inspiziert er fur jedes ϑ ∈ Θ das m–tupel der

Residuen

εj := yj − f(ϑ, tj) j = 1, . . . ,m .

Dasjenige ϑ, fur welches das Tupel ε minimal ist, nimmt er als Schatzwert fur das”wahre“

ϑ. (Der Skeptiker, der nicht daran glaubt, daß es so etwas wie das wahre ϑ gibt, muß sich

vorsichtiger ausdrucken. Der Mathematiker nennt den Gesichtspunkt, unter welchem er ε

minimiert hat und nennt ϑ den Schatzwert gemaß der betreffenden Methode.)

Die Methode der kleinsten Quadrate geht von einer positiv definiten m×m–Matrix Q

aus. Sie minimiert das”Fehlerquadrat“

‖ε‖2 := ε> Q ε (oder ε∗ Q ε im komplexen Fall) .

(Wir schreiben Q, weil wir die Bezeichnung Q den n× n–Matrizen von oben vorbehalten

wollen.)

Wenn beispielsweise Q eine Diagonalmatrix ist mit den Eintragen qj = 1σ2

j

in der Diagonale,

dann geht es darum,

m∑

1

1

σ2j

ε2j

zu minimieren. In knapper Notation: ϑ ist so zu bestimmen, daß

‖ε‖2 = ‖y − f(ϑ, ·‖2 = min .

Der lineare Fall

Nehmen wir an, daß die Schar der nominellen Ablaufe ein endlichdimensionaler Vektorraum

ist. Es gibt hier also ein p–Tupel von Funktionen

f1(t), f2(t), . . . , fp(t) ,



so daß ihre Linearkombinationen

f(β, ·) =

m∑

j=1

βj · fj(·)

die Gesamtheit der nominellen Ablaufe ausmachen.

Man schreibt die Bausteine der Situation in Tableauform

β1 · · · βp

y1 = f1(t1) · · · fp(t1) + ε1

y2 = f1(t2) · · · fp(t2) + ε2...

......

...

ym = f1(tm) · · · fp(tm) + εm

oder in Matrizenform

y = B · β + ε .

Die Matrix B heißt die Design–Matrix.

(Der Name kommt aus einem Kontext, in welchem es nicht um zeitliche Ablaufe geht. Bei

uns hier kann die Versuchsplanung (”Design“) allenfalls darin bestehen, daß der Naturwissen-

schaftler die Zeitpunkte der Beobachtung t1, . . . , tm mehr oder weniger geschickt wahlt. In

allgemeinen Kontexten stellt man sich vor, daß das Beobachtungsergebnis y (bis auf einen

Beobachtungsfehler ε) durch eine planbare lineare Kombination der unbekannten”Einfluß-

großen“ β1, . . . , βp zustandekommt.)

Die Design Matrix B hat das Format m × p. Die Beobachtungswerte y und die Resi-

duen (wir reden nicht von Fehlern!) sind als m–Spalten notiert. Der (zunachst noch offene)

Parameterwert β ist eine p–Spalte.

Die Methode der kleinsten Quadrate kann in Aktion treten, wenn eine positiv definite m×m–

Matrix Q gegeben ist, welche die Große der Residuen mißt

‖ε‖2 := ε> Q ε .

Es gilt, β so zu bestimmen, daß

‖y −B β ‖2 = min .

Beispiel : Zu Zeitpunkten t1, . . . , tm sind reelle Werte y1, . . . , ym gemessen worden.

Es wird eine reine Sinusschwingung mit der Periode 2π gesucht, welche die Werte optimal

approximiert.

y = m+ a · sin(t− t0)



Die”Mittellage“ m ∈ R, die

”Amplitude“ a ≥ 0 und die

”Phase“ t0 ∈ [0, 2π) sind gesucht.

Es handelt sich also um eine Schar mit drei reellen Parametern. Wenn man genauer hinsieht,

merkt man, daß es sich um ein lineares Problem handelt

sin(t− t0) = sin t · cos t0 − cos t · sin t0 .

Setze f0 ≡ 1, f1 = sin t, f2 = cos t. Dann gilt

m+ a · sin(t− t0) = β0 + β1 · sin t+ β2 · cos t

mit β0 = m, β1 = a cos t0, β2 = −a · sin t0 .

Der Parameter β = (β0, β1, β2) ist optimal zu bestimmen. Aus ihm ergeben sich dann

m,a, t0 ∈ [0, π).

Beispiel : Es liegt die Mischung mehrerer radioaktiver Stoffe vor; im wesentlichen sollten

es zwei Stoffe mit verschiedenen Halbwertzeiten sein. In einem Zeitabschnitt (der so kurz ist,

daß die Aktivitat im wesentlichen konstant bleibt), zu den Zeitpunkten t1, . . . , tm, ist die

Aktivitat gemessen worden mit den Ergebnissen y1, . . . , ym. Gesucht ist die Menge und die

Halbwertzeit der beiden wichtigsten Komponenten

y = m1 · exp(−λ1t) +m2 · exp(−λ2t) .

Die positiven Zahlen m1,m2, λ1, λ2 sollen geschatzt werden. Die zu erwartende Genauigkeit

der Beobachtung zum Zeitpunkt ti sei durch σi beschrieben.

Es handelt sich um ein nichtlineares Schatzproblem. Der oben beschriebene Matrizenkalkul

kann hier keine Anwendung finden.

Zum Stichwort Ausgleichsrechnung findet man in der Brockhaus Enzyklopadie die Eintra-

gung:

”Ausgleichsrechnung, ein Verfahren, mit dem man aus fehlerhaften Messungen die plausibel-

sten Werte der gesuchten Großen berechnet. Hierzu ist es notwendig, daß mehr Messungen

vorliegen als Unbekannte zu bestimmen sind und daß die Fehler (durch von Messung zu Mes-

sung unkontrollierbar veranderliche Einflusse) verursacht sind. Fur diese Fehler stellt die

Fehlertheorie nach den Grundsatzen der Wahrscheinlichkeitsrechnung das Fehlergesetz auf.“

Die hier verwendeten Begriffe werden heute von den Fachleuten mit großer Distanz und Vor-

sicht gebraucht. Die”gesuchten Großen“ konnen nach modernem Verstandnis im allgemeinen

nur Modellgroßen sein, deren Brauchbarkeit disputabel ist, wenn die Situation bereits grob

exploriert ist. Ob es”wahre“ Werte der Großen gibt, Werte also, denen man einen objek-

tiven (nicht nur die aktuelle Betrachtungsweise postulierten) Sinn zuerkennen kann, muß in

der Regel offen bleiben. Was also sollte man unter Fehlern verstehen oder unter fehlerhaften

Messungen? Uberdies ist zu fragen: Aus welchen Quellen soll oder darf sich die Plausibi-

litat der mit irgendeinem Verfahren ermittelten Werte nahren? Als Mathematiker wird man



noch weiter fragen: Gibt es womoglich Grunde, den Verfahren allgemein (und nicht nur den

mit ihnen ermittelten Werten) eine besondere Plausibilitat zuzuerkennen? Gibt es da fur den

Mathematiker etwas zu erforschen? (Gauß spricht in diesem Zusammenhang von einer gewis-

sen Metaphysik, siehe unten.) Was konnen die Grundsatze der Wahrscheinlichkeitsrechnung

leisten, wenn es gilt, Fehlergesetze aufzustellen? Leider muß man sagen, daß die philoso-

phische Bedachtsamkeit von C.F. Gauß, dem Pionier der Ausgleichsrechnung, nicht in allen

Anwendungszusammenhangen eine gute Fortsetzung gefunden hat. Um problematische Asso-

ziationen unter Kontrolle zu halten, empfiehlt sich eine abstrakte

6.2 Geometrische Terminologie

Stellen wir uns einen Zufallsmechanismus vor, der einen zufalligen Punkt X in einem Raum

E realisiert. Bei E denken wir etwa an den Raum der n–Spalten; X ist dann also ein

Zufallsvektor der Lange n.

Unser Modell sei durch eine Teilmengen M von E gegeben; wir denken etwa an eine

p–dimensionale Mannigfaltigkeit, die in E eingebettet ist

M = x(ϑ) : ϑ ∈ Θ .

In E ist uns ein Abstandsbegriff vorgegeben. Dabei kommt es aber eigentlich nicht auf die

Distanz der Punkte x voneinander an, sondern nur auf die Distanz der Punkte x von den

Punkten x(ϑ) auf der Mannigfaltigkeit: d(x(ϑ), x). Wir benutzen den Abstandsbegriff auch

dazu, nun den Abstand gewisser Teilmengen von E von den Punkten x(ϑ) zu definieren.

Sei ϕ(·) eine Abbbildung ϕ : E → F . Fur die”Faser“ x : ϕ(x) = y definieren wir den

Abstand von x(ϑ):

ρ(ϑ, y) := d(x(ϑ), y) = infd(x(ϑ), x) : ϕ(x) = y .

(Wenn ϕ(·) eine surjektive Abbildung ist, dann ist ρ(ϑ, ·) wirklich auf dem ganzen Raum

F definiert.)

Sprechweise Eine Abbildung

F 3 y 7−→ T (y) ∈M

nennen wir einen Minimum–Distanz Schatzer, wenn T (y) minimale Distanz von x :

ϕ(x) = y hat fur alle y, wenn also

ρ(T (y), y) = infρ(ϑ, y) : ϑ ∈ Θ = infd(x(ϑ), x) : ϑ ∈ Θ, ϕ(x) = y

Bemerke Wenn M in einem geeigneten Sinne abgeschlossen ist, dann gibt es auf M

Punkte minimaler Distanz zur Faser x : ϕ(x) = y. E gibt aber im allgemeinen mehrere

Punkte minimaler Distanz. Wir verlangen hier, daß T (·) auswahlt, obwohl man naturlich

auch mengenwertige Schatzverfahren in Betracht ziehen konnte. Man sucht dann zu jedem y

die Menge aller Punkte x, die von M minimalen Abstand haben.



Verallgemeinerung

Es besteht kein triftiger Grund, das Modell als eine Teilmenge des Raumes E zu begreifen.

Es kommt darauf an, daß man eine Funktion ρ(ϑ, y) hat, ϑ ∈ Θ, y ∈ F . Funktionen

ρ(ϑ, y), die fur den Zweck geeignet erscheinen, nennt man ublicherweise Score–Funktionen.

Zu jedem nominellen ϑ und zu jedem Beobachtungspunkt y sagt ρ(ϑ, y), wie schlecht

ϑ und y zusammenpassen. Ein Schatzverfahren T (·) paßt zu ρ(·) wenn es zu jedem

Beobachtungswert y einen optimal passenden Parameterwert liefert, d.h. einen Punkt ϑ, in

welchem ρ(ϑ, y) minimal ist. (In Situationen, die nicht sehr regular sind, wird man vielleicht

mit Werten ϑε zufrieden sein, in welchen ρ(·, y) bis auf ε minimal ist.)

Definition Sei Θ eine abstrakte Menge von”Modellpunkten“ und F der Wertebereich

einer Zufallsgroße Y . Sei ρ(ϑ, y) eine nichtnegative Funktion auf Θ× F . Eine Abbildung

F 3 y 7−→ T (y) ∈ Θ

heißt ein Minimum Score–Schatzverfahren, oder kurz ein M–Schatzverfahren zu ρ(·, ·), wenn

ρ(T (y), y) = minρ(ϑ, y) : ϑ ∈ Θ fur alle y ∈ F .

Freiheiten der Konstruktion

Es gibt viele Moglichkeiten, Score–Funktionen ρ(·, ·) einzufuhren und als plausibel her-

auszustellen. Manche M–Schatzverfahren werden vor allem deshalb empfohlen, weil sich die

Berechnungen mit geringem Aufwand durchfuhren lassen. (So begrundete z.B. Legendre die

Methode der kleinsten Quadrate, siehe unten.) Manche Verfahren sind durch Eigenschaften

ausgezeichnet, die den Mathematiker erfreuen (z.B. Symmetrien), andere sind beliebt, weil

sie vielseitig variierbar sind und in analogen Fallen zu uberzeugenden Antworten gefuhrt ha-

ben. Es passiert dem Mathematiker aber immer wieder, daß Verfahren, die auf den ersten

Blick plausibel erschienen sind, nach genauerem Hinsehen fur die betreffende Problemklasse

als ungeeignet ausgeschieden werden mussen. Auf der anderen Seite ist es sehr selten, daß

man ein ganz bestimmtes Verfahren als besonders geeignet auszeichnen kann. Man kann das

durchaus begrußen; denn wenn man auf verschiedene Verfahren zuruckgreifen kann, die al-

lesamt ihre Vorzuge zu haben scheinen, kann man im konkreten Fall mit allen herumspielen

und dabei unter Umstanden auf interessante Phanomene aufmerksam werden. Exploration

ist vorzuziehen gegenuber dem dogmatischen Verfolgen von Grundsatzen, die auf Analogien

beruhen.

Auf die Fehlergesetze kommen wir spater. Man braucht sie erst fur die Analyse der Verfah-

ren. Wir brauchen hier noch nicht einmal zu diskutieren, was ein Fehlergesetz im Sinne der

Wahrscheinlichkeitsrechnung ist. Der letzte Satz in der oben zitierten Enzyklopadieeintragung

sollte nicht das verbreitete Mißverstandnis nahren, daß etwa die Wahrscheinlichkeitstheorie

aus ihren Grundsatzen objektiv gultige Fehlergesetze und objektiv gultige Schatzverfahren

ableiten konnte. Die Wahrscheinlichkeitsrechnung ist keine dogmatische Wissenschaft.



Beliebte heuristische Prinzipien, Score–Funktionen zu generieren, sind das sog. Maximum–

Likelihood Prinzip (ML–Prinzip) und (als eine Verallgemeinerung) das Prinzip der maximalen

a posteriori Wahrscheinlichkeit (MAP–Prinzip). Diese Prinzipien bedienen sich zwar (anders

als das viel speziellere Prinzip der kleinsten Quadrate) der wahrscheinlichkeitstheoretischen

Terminologie. Man darf sich dadurch aber nicht tauschen lassen. Die Herleitung einer Score–

Funktion und eines dazu passenden M–Schatzverfahrens durch das ML–Prinzip verbindet sich

eo ipso noch nicht mit dem, was man unter einer wahrscheinlichkeitstheoretischen Analyse der

Leistungsfahigkeit des abgeleiteten Schatzverfahrens zu verstehen hat. Mathematische Satze

uber die Leistungsfahigkeit von ML–Methoden sind durchwegs asymptotische Satze unter ma-

thematisch idealisierten Voraussetzungen. Sie konnen die Brauchbarkeit von Schatzverfahren

in konkreten Situationen nicht bestatigen.

6.3 Das ML–Prinzip

Stellen wir uns vor: Ein Wissenschaftler glaubt davon ausgehen zu konnen, daß ein Zu-

fallsvektor Y , dessen Realisierung er beobachtet, eine Verteilung besitzt, welche zu einer

uberschaubaren Familie von Wahrscheinlichkeitsbewertungen gehort.

L(Y ) ∈ Lϑ(Y ) : ϑ ∈ Θ .

Manche Leute nennen die Wahrscheinlichkeitsbewertungen Wsϑ(·) die moglichen wahren

Wahrscheinlichkeiten, andere sprechen lieber von den”nominellen“ Wahrscheinlichkeitsbe-

wertungen. Man nennt Wsϑ(·) auch die Wahrscheinlichkeitsbewertung unter der Hypothese

ϑ und Lϑ(Y ) die Verteilung von Y unter der Hypothese ϑ.

Der Wissenschaftler hat nun einen Beobachtungswert y vorliegen. Es muß keine m–Spalte

sein; sei F die Menge der moglichen Realisierungen. Der Wissenschaftler erwartet, daß

das beobachtete y zu einer der nominellen Verteilungen dµϑ(·) = Lϑ(Y ) besonders gut

paßt. Um herauszufinden, welches ϑ das ist, betrachtet er die”Likelihood–Funktion“ zu

seinem y (Definition, siehe unten) und er nimmt dasjenige ϑ als Schatzwert, in welchem

die Likelihood–Funktion `y(·) maximal ist. Dieses sog. ML–Verfahren konnte man auch als

das Verfahren zur Score–Funktion

ρ(ϑ, y) := − ln `y(ϑ), ϑ ∈ Θ, y ∈ F,

beschreiben. Und es ist in der Tat oft bequem, mit dem negativen Logarithmus der Likelihood

zu rechnen. Umgekehrt kann man in vielen Fallen zur Score–Funktion ρ(·, ·) eine Schar von

Wahrscheinlichkeitsdichten konstruieren, die auf dem Weg uber die Likelihood–Funktionen

auf die gegebene Score–Funktion fuhren

`y(ϑ) = const · exp(−ρ(ϑ, y)) fur alle y ∈ F .



Likelihood–Funktionen

Betrachten wir zunachst den Fall eines abzahlbaren Beobachtungsraums F . Hier ist die

Definition der Likelihood–Funktion `y(·) unproblematisch. Man definiert:

`y(ϑ) := const ·Wsϑ(Y = y) .

(Die Konstante kann man irgendwie nach Bequemlichkeit in Abhangigkeit von y wahlen;

man braucht sich nicht darauf festzulegen, sie ≡ 1 zu wahlen.)

Es ist nicht gesagt, daß jede Likelihood–Funktion `y(·) ihr Maximum in einem wohlbestimm-

ten Punkt ∈ Θ annimmt. Dies ist hier noch nicht das Thema. Es ist zunachst zu klaren,

was man in allgemeineren Fallen unter Likelihood–Funktion zu verstehen hat. Offenbar ist

die obige Definition unbrauchbar, wenn F nicht diskret ist. Man braucht analoge Konstruk-

tionen. Im Falle, daß Θ abzahlbar ist und auch in dem folgenden etwas allgemeineren Fall,

liegt die analoge Konstruktion nahe.

Nehmen wir an, daß die Familie

dµϑ(·) = Lϑ(Y ) : ϑ ∈ Θ

eine dominierte Familie von Maßen auf F ist. Es gibt hier also ein (endliches oder σ–endliches

Maß) dν(·) so , daß alle dµϑ(·) bzgl. dν(·) totalstetig sind

dµϑ(·) = p(ϑ, ·)dν(·) .

Fur jedes feste ϑ ist p(ϑ, y) eine dν(·)–fast uberall definierte Funktion. Eine Funktion `y(·),die bis auf einen Faktor mit p(·, y) ubereinstimmt, nennt man Likelihood–Funktion zum Be-

obachtungswert y. Es bereitet hier Schwierigkeiten, sauber zu fassen, daß es (in irgendeinem

Sinne) um fast alle Beobachtungspunkte geht; man muß etwas Maßtheorie betreiben um sie

zu uberwinden (siehe unten). Fur den Fall eines abzahlbaren Θ konnen wir aber schon hier

festellen, daß

`y(·) = p(·, y)

fur dν(·)–fast alle y eine wohldefinierte Funktion auf Θ ist.

Hinweis In allgemeineren Fallen braucht man Regularitatsannahmen, um Likelihood–

Funktionen fur dν(·)–fast alle y definieren zu konnen. Es lohnt sich fur uns hier nicht,

weiterzuverfolgen, welche Regularitatsannahmen hierfur ausreichen; denn wir wollen ja nicht

irgendwelche Likelihood–Funktionen, sondern solche, die sich fur die ML–Methode eignen.

Und dafur brauchen wir gewiß recht starke Regularitatsannahmen. Die technischen Uberle-

gungen verschieben wir auf den nachsten Abschnitt.



Beispiel (Gaußische Likelihood–Funktionen)

Unser Wissenschaftler glaubt davon ausgehen zu konnen, daß der Zufallsvektor der Lange m,

den er beobachtet, gaußisch verteilt ist

Lϑ(Y ) = N (yϑ, Cϑ) fur ϑ ∈ Θ .

Wir nehmen an, daß die Cϑ nichtsingular sind. Die Verteilungen dµϑ(·) sind dann also

totalstetig bzgl. des Lebesguemaßes im Raum der m–Spalten. Mit Qϑ = C−1ϑ gilt

dµϑ(y) = p(ϑ, y) dy

lnp(ϑ, y) = const +1

2ln |detCϑ|+

1

2(y − yϑ)>Qϑ(y − yϑ) .

Fur jede m–Spalte y ist diese Funktion von ϑ zu minimieren.

(Im Interesse der Einheitlichkeit der Notation sollten wir Cϑ und Qϑ schreiben; es handelt

sich um m × m–Matrizen. Wir wollen aber erst dann zu dieser Konvention zuruckommen,

wenn auch wieder n–Spalten ins Spiel kommen.)

Im Falle, daß die Covarianzmatrix Cϑ nicht von ϑ abhangt, reduziert sich das Problem auf

die Aufgabe, einen Punkt auf der Mannigfaltigkeit yϑ : ϑ ∈ Θ zu bestimmen, welcher von

y minimalen Abstand hat. Es handelt sich um den Abstand im Sinne von Q, d.h. im Sinne

der Methode der kleinsten Quadrate fur die Matrix Q.

Satz Die Maximum–Likelihood Methode wird im gaußischen Fall mit fester Covarianz-

matrix zur Methode der kleinsten Quadrate.

Interessant ist auch der Fall, wo die Covarianzmatrix als bis auf einen Faktor bekannt ange-

nommen wird.

Lϑ(Y ) : ϑ ∈ Θ = N (yϑ, σ2C) : yϑ ∈M, σ2 ∈ R+ .

Man kann in diesem Fall zunachst bei festem σ2 minimieren und anschließend σ2 nach der

ML–Methode schatzen. Mit

d2(y) = inf(y − yϑ)>Q(y − yϑ) : ϑ ∈ Θ

gilt es, die Minimalstelle σ2(y) der Funktion

const +m

2lnσ2 +

1

2· 1

σ2· d2(y)

zu bestimmen

d

dx

(m

2lnx+

1

2· 1xd2

)= 0 ⇐⇒ m

x− 1

x2d2 = 0 ⇐⇒ x = d2/m .

Der ML–Schatzwert fur den unbekannten Parameter σ2 ist also 1/m–mal das Quadrat des

Abstands des Punktes y von der Mannigfaltigkeit M (bzgl. Q).



Hinweis Seien Y1, . . . , Ym unabhangig normalverteilt mit unbekanntem Erwartungswert

µ und unbekannter Varianz σ2. Traditionellerweise bevorzugt man die Schatzer

µ :=1

m(Y1 + . . . + Ym) fur µ

σ2 :=1

m− 1

m∑

1

(Yj − µ) fur σ2 .

Man vertraut sich also nicht der ML–Methode an. Den Faktor 1m−1 begrundet man mit

einem anderen Prinzip, welches hier in Konkurrenz steht zum ML–Prinzip.

6.4 Historisches

Die Methode der kleinsten Quadrate ist unabhangig von C.F. Gauß (1777-1855) und

A.M. Legendre (1752-1833) entdeckt (oder vorgeschlagen) worden. Legendre hat daruber 1805

publiziert. Gauß hat sie schon vorher benutzt, erwiesenermaßen vor 1803, nach Gauß’ Aussage

bereits 1795, ohne daruber zu publizieren. Es gab einen Streit zwischen den beiden als Gauß

1809 auf seine Prioritat hinwies. (Siehe bei R.L. Plackett in”Studies in the history of pro-

bability and statistics XXIX. The discovery of the method of least squares“, Biometrika 59,

(1972), 239–251). Die Prioritat von Gauß ist schon von den Zeitgenossen anerkannt worden.

Laplace hat 1820 festgestellt:”M. Legendre eut l’idee simple de considerer le somme des carres

des erreurs des observations, et de le rendre un minimum, ce qui fournit directement autant

d’equations finales, qu’il y a d’elements a corriger. Ce savant geometre est le premier qui ait

publie cette methode; mais on doit a M. Gauss la justice d’observer qu’il avait eu, plusieur

annees avant cette publication, la meme idee dont il faissait un usage habituel, et qu’il avait

communiquee a plusieurs astronomes.“ Es ist fur uns nicht wichtig, wer die Prioritat beim

Entwerfen der Methode beanspruchen kann. Wir interessieren uns fur die Begrundung der

Methode. Die Leistung von Gauß ist aus mehreren Grunden inkommensurabel mit der von

Legendre, wie wir sehen werden.

Legendre rekurriert uberhaupt nicht auf wahrscheinlichkeitstheoretische Uberlegungen bei der

Begrundung seines Vorgehens. Er schreibt:”Von allen Prinzipien, die zu diesem Zweck vor-

geschlagen werden konnen, ist m.E. keines allgemeiner, exakter und leichter anzuwenden als

dasjenige, von welchem wir in den vorausgehenden Untersuchungen Gebrauch gemacht haben

und welches darin besteht, daß man die Summe der Quadrate der Fehler zu einem Mini-

mum macht. Dadurch wird zwischen den Fehlern eine Art Gleichgewicht hergestellt, welches,

wahrend man die Extreme daran hindert, ubertriebenen Einfluß zu nehmen, sehr gut geeignet

ist, denjenigen Zustand des Systems aufzudecken, der der Wahrheit am nachsten kommt.“

(Legendre 1805)

Es war Gauß, der einen Zusammenhang mit der wahrscheinlichkeitstheoretischen Feh-

lertheorie herausgearbeit hat. Daß ein solcher Zusammenhang besteht, hatte schon 1777

D. Bernoulli, Neffe von J. Bernoulli, bemerkt:”Astronomers as a class are men of the most



scrupulous sagacity; it is to them therefore that I choose to propound those doubts that I have

sometimes entertained about the universally accepted rule for handling several slightly dis-

crepant observations of the same event. By this rule the observations are added together and

the sum divided by the number of observations; the quotient is then accepted as the true value

of the required quantity, until better and more certain information is obtained.“

D. Bernoulli fuhrt dann aus, daß das Verfahren nur durch die Vorstellung von einer gleichmaßi-

gen Verteilung der Fehler gerechtfertigt sei. Was er damit gemeint hat, ist nicht so ganz klar;

wichtig ist fur uns der Hinweis auf einen Zusammenhang zwischen einer Annahme uber die

Fehlerverteilung und dem Verfahren der Mittelwertbildung.”This rule agrees with that used

in the theory of probability when all errors of observation are considered equally likely. But

is it right to hold that the several observations are of the same weight and moment, or equal-

ly prone to any and every error? “ (D. Bernoulli, 1777, zitiert aus Pearson/Kendall 1970,

S. 157–172)

D. Bernoulli macht auch auf den Unterschied zwischen”korrigierbaren“ und

”zufalligen“ Feh-

lern aufmerksam. “In astronomy, likewise, anything which admits a correction a priori is not

reckoned as an error. When all those corrections have been made which theory enjoins, any

further correction which is necessary in order to reconcile the several slightly discrepant ob-

servations which differ slightly from each other is a matter solely for the theory of probability.

What in particular happens in the course of observation ex hypothesi we scarcely know, but

this very ignorance will be the refuge to which we are forced to flee when we take our stand

on what is not the truest but most likely, not certain but most probable (non verissimum sed

verissimillimum, non certum sed probabilissimum), as the theory of probability teaches. Whe-

ther that is always and everywhere identical with the usually accepted arithmetical mean may

reasonably be doubted“ (Bernoulli, a.a.O., s. 158)

D. Bernoulli stellt funf plausible Annahmen uber die Verteilung der Wahrscheinlichkeit bei

Beobachtungsfehlern auf, die im wesentlichen konstatieren, daß die Verteilung symmetrisch

um den “wahrscheinlichsten Wert“ (”center of forces“) ist, dort ein Maximum besitzt und nach

beiden Seiten schnell abfallt. Das Beispiel, welches Bernoulli ausfuhrlich diskutiert, verdient

weiter keine Aufmerksamkeit. Die Verteilung, die ihm vom Grenzwertsatz von J. Bernoulli und

A. deMoivre (1770–71) bekannt war, hat D. Bernoulli offenbar nicht besonders interessiert.

Laplace wahlte 1774 in seiner Arbeit”Determiner le milieu que l’on doit prendre entre trois

observations donnee d’un meme phenomene“ als Wahrscheinlichkeitsverteilung die doppelt-

exponentielle Verteilung und empfahl demgemaß den Median als den”besten Schatzer“. In

einer Untersuchung von 1781 stellt Laplace mehrere mogliche”beste Schatzer“ zur Debatte,

neben dem arithmetischen Mittel und dem Median u.a. den Maximum–Likelihood–Schatzer

zur Fehlerverteilung

1

2aln

a

|x| fur − a ≤ x ≤ +a

(vgl. O.B. Sheynin:”Laplace’s Theory of Errors“ in Archive for the History of Exact Sciences,

Vol. 17, 1977a, S. 1–61)



Der amerikanische Mathematiker Robert Adrain hat 1808 das Fehlergesetz e−x2aus geo-

metrisch formulierten Annahmen uber die Große der Fehler hergeleitet.”Research concerning

the probabilities of errors which happen in making observations.“ Die Arbeit hat aber keinen

Einfluß auf die Entwicklung der Fehlertheorie gehabt; sie wurde auch erst 1871 von den Wis-

senschaftshistorikern wieder entdeckt und als nicht besonders bemerkenswert eingestuft.”Dr.

Adrain’s proof, however, seems to me much inferior, both in point of rigour and conclusiven-

ess, to any of the usual investigations, . . .“ (Glaisher, 1872) (vgl. L.E. Maistrov: Probability

Theory. A historical sketch. Academic Press, New York, 1974). Man kann sicherlich nicht sa-

gen, daß R. Adrain die ausgezeichnete Stellung des heute nach Gauß benannten Fehlergesetzes

erkannt hat.

Die Arbeiten von Gauß wurden von der Naturwissenschaftlergemeinde Europas zunachst als

ein eindrucksvolles praktisches Werkzeug anerkannt. Großes Aufsehen hatte die Methode

von Gauß vor allem dadurch erregt, daß aufgrund der Berechnungen von Gauß der verloren-

gegangene Planetoide Ceres wiederentdeckt wurde. Gauß erhielt auch umgehend ein Beru-

fungsangebot als Leiter der Sternwarte an der Petersburger Akademie der Wissenschaften,

welches er allerdings ablehnte. H. Heinrich (”Uber Gauss’ Beitrage zur Numerischen Mathe-

matik“ in: Abhandlungen der Akademie der Wissenschaften der DDR, Jg. 1978 Nr. 3N, Berlin

1978, S. 108–122) beschreibt die Geschichte so:”Einer der eklatanten Erfolge des rechnen-

den Astronomen Gauß waren seine Ergebnisse, die es den Astronomen ermoglichten, am 7.

Dezember 1801 den nach nur etwa vierzigtagiger Beobachtung wieder verschwundenen, am

Neujahrstag 1801 von dem Italiener Piazzi in Palermo entdeckten ersten Planetoiden Ceres

wieder aufzufinden. Dahinter steckten als Leistungen einerseits die Entwicklung einer analy-

tischen Methode, die charakteristischen Elemente einer elliptischen Plantenbahn aus nur drei

Ortsbestimmungen zu berechnen, andererseits die Anwendung der Fehlerquadratmethode, die

es gestattete, die mehr als drei vorhandenen Beobachtungen in systematischer, von Willkur

freier Weise zu einem optimal zuverlassigen Ergebnis zu kombinieren.“

Der Laudator schießt uber das Ziel hinaus, wenn er die Freiheit von Willkur und die optimale

Zuverlassigkeit betont. Die praktisch erwiesene Wirksamkeit ist es, die hier hervorzuheben

ist. Gauß war sich der Willkur sehr wohl bewußt. Man kann sich allenfalls auf Legendre,

aber keinesfalls auf Gauß berufen, wenn man den Zusammenhang zwischen der Methode der

kleinsten Quadrate und der statistischen Fehlertheorie verschweigt.

In der Ankundigung zu seiner spater folgenden Arbeit:”Theoria Combinationis observatio-

num erroribus minimis obnoxiae“ (1821, 1823), die eine zweite Begrundung der Methode

der kleinsten Quadrate enthalt, erinnert Gauß sich an seine ersten fruhen Uberlegungen zu

diesem Problem:”Der Verfasser gegenwartiger Abhandlung, welcher im Jahr 1797 diese Auf-

gaben nach den Grundsatzen der Wahrscheinlichkeitsrechnung zuerst untersuchte, fand bald,

daß die Ausmittelung der wahrscheinlichsten Werthe der unbekannten Große unmoglich sei,

wenn nicht die Function, die die Wahrscheinlichkeit der Fehler darstellt, bekannt ist. Insofern

sie dies aber nicht ist, bleibt nichts ubrig, als hypothetisch eine solche Function anzunehmen.

Es schien ihm das naturlichste, zuerst den umgekehrten Weg einzuschlagen und die Functi-



on zu suchen, die zum Grunde gelegt werden muß, wenn eine allgemein als gut anerkannte

Regel fur den einfachsten aller Falle daraus hervorgehen soll, die nemlich, daß das arith-

metische Mittel aus mehreren fur eine und dieselbe unbekannte Große durch Beobachtungen

von gleicher Zuverlassigkeit gefundenen Werthen als der wahrscheinlichste betrachtet werden

musse. Es ergab sich daraus, daß die Wahrscheinlichkeit eines Fehlers x, einer Exponential-

große von der Form e−hhxx proportional angenommen werden musse, und daß dann gerade

diejenige Methode, auf die er schon einige Jahre zuvor durch andere Betrachtungen gekom-

men war, allgemein nothwendig werde. Diese Methode, welche er nachher besonders seit 1801

bei allerlei astronomischen Rechnungen fast taglich anzuwenden Gelegenheit hatte, und auf

welche auch Legendre inzwischen gekommen war, ist jetzt unter dem Namen Methode der

kleinsten Quadrate im allgemeinen Gebrauch, und ihre Begrundung durch die Wahrschein-

lichkeitsrechnung, so wie die Bestimmung der Genauigkeit der Resultate selbst, nebst andern

damit zusammenhangenden Untersuchungen sind in der Theoria Motus Corporum Coelestium

ausfuhrlich entwickelt.“ (Gauß, Werke Bd IV, 1873, S. 98/99)

Gauß stellt sich die Frage, warum zur Bestimmung eines”besten Wertes“ die Methode der

kleinsten Quadrate geeignet ist.”Wir nehmen zuerst an, es sei bei allen Beobachtungen die

Sachlage derartig gewesen, daß kein Grund vorhanden ist, die eine fur weniger genau als die

andere zu erachten, oder daß man gleich große Fehler bei den einzelnen fur gleich wahrschein-

lich halten muß. Die Wahrscheinlichkeit, welche irgend einem Fehler ∆ beizulegen ist, wird

daher durch eine Funktion von ∆ ausgedruckt, welche wir mit ϕ(∆) bezeichnen wollen.

Wenn man nun auch diese Funktion nicht genau angeben kann, so kann man doch wenigstens

versichern, daß ihr Werth ein Maximum fur ∆ = 0 werden musse, daß er im allgemeinen fur

gleiche und entgegengesetzte Werthe von ∆ der gleiche sei, und endlich, daß er verschwinde,

wenn man fur ∆ den großten Fehler oder einen noch großeren Werth annimmt. . . .“

Gauß nimmt an, daß die Fehlerverteilung eine Dichte ϕ(x)dx besitzt und gelangt von der

a priori–Verteilung, fur die er die gleichmaßige Verteilung ansetzt, aufgrund der Annahme

der Unabhangigkeit der Beobachtungen zur a posteriori–Verteilung fur die gesuchten Großen

p, q, r, . . .. Als Fehler lassen sich die Differenzen M − V,M ′ − V ′,M ′′ − V ′′, . . . auffassen,

wenn man annimmt, in die V (i) sei ein (spater als optimal zu bestimmendes) Wertesystem

p, q, r, s, . . . eingesetzt werden. Bei Gauß (1809) in der”Theoria motus corporum coelesti-

um“ heißt es:”Deshalb wird, wenn man nur alle Beobachtungen als voneinander unabhangige

Ereignisse ansehen darf, das Produkt

ϕ(M − V )ϕ(M ′ − V ′)ϕ(M ′′ − V ′′) . . . = Ω

die Erwartung oder die Wahrscheinlichkeit ausdrucken, daß alle diese Werte gleichzeitig aus

den Beobachtungen hervorgehen werden.“

Mit einer vorsichtigen Anleihe bei modernerer Notation konnte man schreiben:

P (p ∈ (p, p+ dp), q ∈ (q, q + dq), . . . , |M = V,M ′ = V ′, . . .)

=Ωdpdq . . .∫ +∞

−∞ Ωdpdq . . .=

ϕ(ε1) . . . ϕ(εν)dpdq . . .∫ϕ(ε1) . . . ϕ(εν)dpdq . . .

.



”Hieraus wird man also . . . die vollig bestimmte Losung der Aufgabe ableiten konnen, sobald

nur die Natur der Funktion ϕ bekannt ist. Da diese aber a priori nicht definirt werden kann,

so wollen wir die Sache von einer anderen Seite angreifen, und nachforschen, auf welcher

stillschweigend gleichsam als Grundlage angenommenen Funktion ein landlaufiges Princip

eigentlich beruht, dessen Vortrefflichkeit allgemein anerkannt ist. Wie ein Axiom pflegt man

namlich die Hypothese zu behandeln, wenn irgend eine Große durch mehrere unmittelbare, un-

ter gleichen Umstanden und mit gleicher Sorgfalt angestellte Beobachtungen bestimmt worden

ist, daß alsdann das arithmetische Mittel zwischen allen beobachteten Werthen, wenn auch

nicht mit absoluter Strenge, so doch wenigstens sehr nahe den wahrscheinlichsten Werth ge-

be, so daß es immer das sicherste ist, an diesem festzuhalten.“ (Die Arbeit von 1809 ist in

deutscher Sprache nachgedruckt in Gauß, C.F.”Abhandlungen zur Methode der kleinsten

Quadrate“, Physika–Verlag, Wurzburg 1964)

Wir wollen Gauß’ Herleitung der Normalverteilung unten in moderner Terminologie wiederge-

ben. Gauß stellt den mathematischen Gehalt dieses Charakterisierungssatzes so dar:”Damit

das Produkt

Ω =

(h√π

)µ

exp(−h2(v2 + v′2 + · · · ))

ein Maximum werde, muß offenbar die Summe v2 + v′2 + · · · ein Minimum werden. Das

wahrscheinlichste Wertsystem der Unbekannten p, q, r, s, . . . wird daher dasjenige sein, bei

welchem die Quadrate der Differenzen zwischen den beobachteten und berechneten Werten der

Funktionen V, V ′, V ′′, . . . die kleinste Summe ergeben, wenn nur bei allen Beobachtungen der

gleiche Grad der Genauigkeit vorausgesetzt werden darf.

Dieses Prinzip, welches bei allen Anwendungen der Mathematik auf die Naturwissenschaften

sehr haufig von Nutzen ist, muß uberall mit demselben Recht als Axiom gelten, mit welchem

das arithmetische Mittel zwischen mehreren beobachteten Werten derselben Große als wahr-

scheinlichster Wert angenommen wird.“ (Gauß, 1964, S. 103)

(Kurz zuvor heißt es:”Ubrigens wird man die Constante h als das Maß fur die Genauig-

keit der Beobachtungen ansehen konnen.“ (Gauß, 1964, S. 102). Fur die Kombination von

Beobachtungen mit unterschiedlichem Genauigkeitsmaß gibt Gauß ebenfalls Regeln an.)

Die Methode der kleinsten Quadrate ist, wie schon gesagt, nach 1809 sehr schnell und all-

gemein popular worden. Es ist bemerkenswert, daß Gauß selbst seine Begrundung aus dem

Maximum–Likelihood–Prinzip in Frage gestellt hat. In einem Brief an Bessel vom 28. Fe-

bruar 1839 schreibt er, er”habe diese Metaphysik fallengelassen“. Er schreibt:

”Ich muß es

namlich in alle Wege fur weniger wichtig halten, denjenigen Werth einer unbekannten Große

zu ermitteln, dessen Wahrscheinlichkeit die großte ist, . . . als viel mehr denjenigen, an wel-

chen sich haltend man das am wenigsten nachtheilige Spiel hat.“

Gauß — und mit ihm das 19. Jahrhundert, hat die Idee des Risikos in einem Spiel nicht

weiterverfolgt. Sie taucht erst wieder im Jahre 1933 auf, in der entscheidungstheoretischen

Begrundung der modernen Statistik durch Jerzy Neyman und Egon Pearson. D.W. Muller



nennt den Standpunkt, der nicht von Prinzipien ausgeht, den Standpunkt skeptischer Ent-

haltung: jeder moge nach seinem (“metaphysischen“) Prinzip ein statistisches Verfahren

konzipieren; er muß es sich gefallen lassen, daß ihm hinterher nachgerechnet wird, wie haufig

er sich bei der Anwendung seines Verfahrens tauscht. Nachgerechnet wird auf der Grundlage

von Hypothesen uber die zugrundeliegenden Wahrscheinlichkeiten, d.h. unter Modellannah-

men, die man in vielfaltiger Weise modifizieren kann. Es ist hochst bemerkenswert, daß der

entscheidungstheoretische Standpunkt mit seiner Absage an”metaphysische Prinzipien“ im

Ansatz schon bei Gauß zu finden ist. Was er fur die Begrundung der Methode der kleinsten

Quadrate leistet, geht aus dem Charakterisierungssatz von Kagan, Linnik und C.R. Rao her-

vor, den wir unten beweisen. Gauß hatte wohl eine ahnlich Idee im Sinn, als er zu Bessel uber

das am wenigsten nachteilige Spiel sprach.


7. MASSTHEORETISCHE ASPEKTE 60

7 Maßtheoretische Aspekte

Die Begriffe Likelihood–Funktion und ML–Verfahren bergen technische und (wie sich immer

wieder zeigt, auch) begriffliche Schwierigkeiten. Wir entwickeln daher hier eine Alternative, die

sich in genugend regularen Fallen als eine durchsichtige Verallgemeinerung des ML–Prinzips

verstehen laßt. Unsere Alternative setzt voraus, daß der Parameterraum Θ ein metrischer

Raum ist. Insbesondere brauchen wir den Begriff der δ–Kugel um jeden Parameterwert:

Bδ(ϑ) = ϑ : d(ϑ, ϑ) ≤ δ , δ > 0, ϑ ∈ Θ .

Definition Fur ein endliches Maß π(dϑ) auf Θ heißt ϑ ∈ Θ ein δ–Modus, wenn

das Maß der δ–Kugel um ϑ maximal ist

π(Bδ(ϑ)) = supπ(B

δ(ϑ)) : ϑ ∈ Θ .

Hinweis Interessant ist vor allem der Fall, wo es fur genugend kleine δ > 0 genau einen

δ–Modus gibt. In der elementaren Theorie der Wahrscheinlichkeitsmaße auf R nennt man ein

Wahrscheinlichkeitsmaß mit Dichte unimodal, wenn seine Dichte von einem Maximalwert

nach beiden Seiten monoton abfallt. Fur ein unimodales Maß ist offenbar die Gesamtheit aller

δ–Modi ein Intervall, und zwar fur jedes δ > 0. Modi oder”Modalwerte“ liefern manchmal

(ahnlich wie”Medianwerte“ oder der Erwartungswert) eine brauchbare Auskunft uber die

”Lage“ der Verteilung π(dϑ).

Im gaußischen Fall stimmt der Modalwert mit dem Erwartungswert uberein, wenn d(·, ·)eine verschiebungsinvariante Metrik auf dem Rd ist, welche von einer gleichmaßig konvexen

Normkugel herruhrt. Fur eine beliebige Normalverteilung, die nicht δ–Maß ist, ist dann der

Erwartungswert der eindeutig bestimmte δ–Modus. (ohne Beweis!)

Ahnlich wie das ML–Prinzip ist das MAP–Prinzip eine Methode, um Schatzverfahren fur den

”wahren“ Parameter eines Systems zu konstruieren. Wir werden sehen, daß es im gaußischen

Fall eine Verbindung herstellt zur Methode des optimalen linearen Filterns, die wir im zweiten

Abschnitt skizziert haben. Andererseits kann die Methode der kleinsten Quadrate als ein

Spezialfall verstanden werden.

Wir holen etwas weiter aus, um das allgemeine Prinzip nicht durch unnotig spezielle Annah-

men zu verdunkeln.

7.1 Bedingte Wahrscheinlichkeiten

Seien (E,B) und (Ω,A) meßbare Raume, und sei

ϕ : (Ω,A)−→(E,B)

meßbar. Sei P (dω) ein Wahrscheinlichkeitsmaß auf (Ω,A) und P ′(dy) sein ϕ–Bild.



Man sagt Q(y, dω) sei (eine Version der) bedingten Wahrscheinlichkeit zu P (dω) und ϕ(ω),

wenn gilt

(i) Q(y, ·) ist ein Wahrscheinlichkeitsmaß auf (Ω,A) fur jedes y ∈ E.

(ii) Q(·, A) ist B–meßbar fur jedes A ∈ A.

(iii)∫P ′(dy) · 1B(y) ·Q(y,A) = P (ω : ϕ(ω) ∈ B ∩A) fur alle B ∈ B, A ∈ A.

In der Maßtheorie erfahrt man, daß die Existenz bedingter Wahrscheinlichkeiten nicht immer

gesichert ist. Es gibt aber wichtige Falle, in denen bedingte Wahrscheinlichkeiten existieren.

Beispiel Der diskrete Fall

Nehmen wir an, daß ϕ(·) nur abzahlbar viele Werte annehmen kann; sei F die Menge aller

y, die mit positiver Wahrscheinlichkeit angenommen werden.

q(y) := P (ω : ϕ(ω) = y) > 0 fur y ∈ F .

Diese q(y) sind die Gewichte des ϕ–Bilds von P (dω); sie summieren sich zu 1 auf.

Fur y ∈ F und A ∈ A setze

Q(y,A) :=1

q(y)· P (ω : ϕ(ω) = y ∩A) .

Offenbar ist Q(y, ·) ein Wahrscheinlichkeitsmaß auf (Ω,A) und es gilt fur alle B ⊆ F ,

A ∈ A

∑

y∈B

q(y) ·Q(y,A) = P (ω : ϕ(ω) ∈ B ∩A) .

Ganz gleich, welche Wahrscheinlichkeitsmaße Q(y, ·) wir den y ∈ F\ F zuordnen, (wenn es

nur in meßbarer Weise geschieht), wir erhalten stets eine Version der bedingten Wahrschein-

lichkeit

Q(·, ·) zu P (dω) und ϕ(ω) .

7.2 A posteriori Wahrscheinlichkeiten

Seien (Θ,B) und (Ω,A) meßbare Raume und P (ϑ, dω) ein stochastischer Ubergangskern,

d.h.

(i) P (ϑ, ·) ist ein Wahrscheinlichkeitsmaß auf (Ω,A) fur jedes ϑ ∈ Θ. .

(ii) P (·, A) ist B–meßbar fur jedes A ∈ A.



Zu jedem Wahrscheinlichkeitsmaß π(dϑ) auf (Θ,B) gibt es dann ein wohlbestimmtes

Wahrscheinlichkeitsmaß π ⊗ P auf den Produktraum Θ× Ω mit

(π ⊗ P )(B ×A) =

∫1B(ϑ)π(dϑ) · P (ϑ,A) fur alle B ∈ B, A ∈ A .

(ohne Beweis!) Bemerke, daß das Marginalmaß auf dem ersten Faktor Θ das gegebene

π(dϑ) ist. Das Marginalmaß auf dem zweiten Faktor nennt man das Bild von π(·) bzgl. des

stochastischen Kerns. Wir bezeichnen es mit (π)P∗. P (·, ·) ist eine Version der bedingten

Wahrscheinlichkeit zu π ⊗ P und der Projektion des Produktraums Θ× Ω auf den ersten

Faktor. Es stellt sich nun die Frage, ob es auch eine (Version der) bedingten Wahrscheinlichkeit

zur Projektion auf den zweiten Faktor gibt.

Hinweis Die Konstruktion einer bedingten Wahrscheinlichkeit nennt man auch die Des-

integration eines Wahrscheinlichkeitsmaßes. Man lernt in der topologischen Maßtheorie, daß

man Maße auf polnischen Raumen stets desintegrieren kann. Dieser Satz erledigt alle maßtheo-

retischen Probleme der a posteriori Wahrscheinlichkeiten im Falle, daß die Parametermenge

(Θ,B) ein polnischer Raum ist.

Definition Ein stochastischer Ubergangskern Q(ω, dϑ) heißt a posteriori Wahr-

scheinlichkeit zu π(dϑ) und P (ϑ, dω), wenn

∫1A(ω)(πP∗)(dω)Q(ω,B) = (π ⊗ P )(B ×A) fur alle B ∈ B, A ∈ A .

Beispiel Der dominierte Fall

Besonders angenehm ist der Fall, wo die Schar P (ϑ, ·) : ϑ ∈ Θ dominiert ist, wo also ein

σ–endliches Maß ν(dω) existiert, so daß

P (ϑ, dω) = p(ϑ, ω) · ν(dω)

mit einer produktmeßbaren Funktion p(·, ·) ≥ 0. In diesem Falle gilt

(π ⊗ P )(B ×A) =

∫1B×A(ϑ, ω)p(ϑ, ω)π(dϑ)ν(dω) .

Das Bildmaß (π)P∗ hat bzgl. ν(dω) die Dichte

qπ(ω) =

∫p(ϑ, ω)π(dϑ) .

Als a posteriori Wahrscheinlichkeit gewinnen wir

Q(ω, dϑ) =p(ϑ, ω)

qπ(ω)π(dϑ) .



Bemerkung Wenn wir von ν(dω) zu einem aquivalenten Maß ubergehen, dann

verandert das Q(·, ·) nicht; p(ϑ, ω) andert sich namlich nur um einen Faktor, der nicht von

ϑ abhangt. Die Funktion c(ω) · p(·, ω) auf Θ verdient den Namen Likelihood–Funktion zu

ω. Die Formel fur Q(·, dϑ) zeigt den

Satz Die a posteriori Wahrscheinlichkeit entsteht aus der a priori Wahrscheinlichkeit

π(dϑ) durch Multiplikation mit der Likelihood–Funktion und anschließender Nominierung

auf Gesamtmasse 1.

7.3 Reine und gemischte Hypothesen

Stellen wir uns vor: Ein Wissenschaftler glaubt davon ausgehen zu konnen, daß fur das von

ihm studierte Zufallsgeschehen eine Wahrscheinlichkeitsbewertung in einer uberschaubaren

Familie maßgebend ist

Ws(·) ∈ Wsϑ(·) : ϑ ∈ Θ .

Wsϑ(·) heißt die Wahrscheinlichkeit unter der (reinen) Hypothese ϑ.

Man konstruiert nun auch noch (aus formalen mathematischen Grunden)”gemischte“ Hypo-

thesen

Wsπ(·) =

∫π(dϑ)Wsϑ(·) .

Aus technischen Grunden ist vorauszusetzen, daß die Schar in meßbarer Weise von ϑ abhangt,

daß die Schar der Hypothesen also durch einen stochastischen Kern beschrieben ist. Fur jedes

Wahrscheinlichkeitsmaß π(dϑ) ist dann Wsπ(·) eine wohldefinierte Wahrscheinlichkeitsbe-

wertung auf dem Ereignisfeld des Experiments; man nennt sie die gemischte Hypothese zur

a priori Verteilung π(dϑ).

Der Wissenschaftler hat die Realisierung einer Zufallsgroße Y beobachtet und mochte einen

dazu passenden Parameterwert feststellen. Das MAP–Prinzip empfiehlt: Wahle zuerst einmal

eine a priori–Verteilung π(dϑ); bestimme dazu die a posteriori–Verteilung Q(y, dϑ) und

wahle dazu einen Modalwert T (y) ∈ Θ.

Definition (MAP–Schatzverfahren)

Sei Lϑ(Y ) : ϑ ∈ Θ ein stochastischer Ubergangskern von (Θ,B) nach (F,C). Θ sei ein

metrischer Raum, δ > 0. Eine meßbare Abbildung

F 3 y 7−→ T (y) ∈ Θ

heißt ein MAP–Schatzer zur a priori Verteilung π(dϑ), wenn das a posteriori–Maß der

δ–Kugel um T (y) maximal ist fur fast alle y.



Bemerkungen

1) Das MAP–Prinzip macht keine Vorschlage, wie das a priori–Maß π(dϑ) gewahlt werden

sollte. Die sog. Neobayesianische Schule stellt sich auf den Standpunkt, daß π(dϑ) das

Vorwissen des Wissenschaftlers zum Ausdruck bringen muß.

2) Es gibt Falle, in welchen man die ML–Methode als einen Spezialfall (oder Grenzfall) der

MAP–Methode auffassen kann. Es sei π(dϑ) ein σ–endliches Maß, welches in irgendei-

ner Weise ausgezeichnet ist (etwa durch Symmetrien oder Invarianzeigenschaften). Die

a posteriori Wahrscheinlichkeit zu diesem π(dϑ) entsteht daraus durch Multiplika-

tion mit der Likelihood–Funktion `y(·). Fur kleine δ liegt (in genugend regularen

Fallen) der δ–Modalwert der a posteriori–Verteilung nahe bei der Maximalstelle der

Likelihood–Funktion. Wenn die Likelihood–Funktion ein scharf ausgepragtes Maximum

hat, dann kommt es auf das a priori–Maß π(dϑ) nicht sehr an.

Bei allgemeinen M–Schatzern, wie uberhaupt bei abstrakten Schatzverfahren haben der

Beobachtungsraum und der Parameterraum Θ von vorneherein nichts miteinander zu tun.

Es geht einfach darum, daß die Schatzung

Y T (Y )

jeder Verteilung L(Y ) eine Verteilung des Schatzwertes L(T (Y )) zuordnet. Es gibt keine

endgultigen Kriterien, nach welchen man die”Gute“ eines Schatzverfahrens beurteilen konnte.

Man muß erst spezifizieren, wie man den Schatzwert T (Y ) nutzen will. Im Endeffekt geht es

darum, aufgrund des ermittelten T (Y ) gewisse Aspekte eines Zufallsgeschehens X, welches

man nur partiell betachten konnte, mit moglichst kleinem Fehler zu erschließen. Es geht um

Pradiktion in einem sehr abstrakten Sinn.

Bei den ML–Schatzern und den MAP–Schatzern haben die Elemente ϑ von Θ ei-

ne Interpretation; sie parametrisieren gewisse”nominelle“ Wahrscheinlichkeitsbewertungen

des Zufallsgeschehens X, welches partiell beobachtet wird. Diese Interpretation legt aber

immerhin nahe, wie man die a priori Verteilungen interpretieren kann und die a posteriori

Verteilungen nutzen sollte. Die Frage nach dem”wahren“ ϑ kann man dabei ohne Schaden

als kunstlich abtun. (Wir erinnern an D. Bernoullis vorsichtige Bezeichnung”non verissimum

set verisimillimum, non certum set probabilissimum“). Man kann sich der pragmatischen

Aufgabe zuwenden, aufgrund der Beobachtung y fur gewisse Aspekte des nichtbeobachteten

Zufallsgeschehenss X eine vertretbaren Pradiktion zu machen.

Pradiktion anstelle von Schatzung Bezeichne Lϑ(X|Y = y) die bedingte Vertei-

lung zu jedem festen ϑ. (Die technischen Fragen bzgl. der Wohldefiniertheit solcher bedingten

Verteilungen fur ein fixiertes y lassen wir hier beiseite.) Wenn X nach der nominellen Ver-

teilung Lϑ(X) verteilt ist, wobei ϑ bekannt ist, dann spricht alles dafur, die Pradiktion

aufgrund der Beobachtung y an dieser bedingten Verteilung zu orientieren. Ahnlich klar ist



die Sache, wenn ϑ das Ergebnis eines Zufallsexperiment ist, dessen Verteilung π(dϑ) bekannt

ist. Man wird sich bei der Pradiktion auf die bedingte Verteilung fur das zusammengesetzte

Experiment (”gemischte Hypothese“) beziehen. Es gilt

Lπ(X|Y = y) =

∫Q(y, dϑ) · Lϑ(X|Y = y) .

Die a posteriori Wahrscheinlichkeiten sind also nicht nur fur denjenigen interessant, der den

Modus dieser Wahrscheinlichkeitsverteilungen als MAP–Schatzer fur den wahren Parame-

ter ins Spiel bringen will. Die Schatzung des”wahren“ Parameters ist nicht der Dreh– und

Angelpunkt der Technik der a posteriori Wahrscheinlichkeiten.

7.4 MAP–Verfahren fur die lineare Theorie

In der linearen Theorie betrachtet man a priori und a posteriori Verteilungen einer sehr spezi-

ellen Gestalt. Man denkt an ein Zufallsgeschehen, welches in der Realisierung eines gaußischen

Zufallsvektors X der Lange n besteht. Ein lineares Bild Y = MX wird beobachtet, und es

geht darum fur allerlei n–Zeilen ξ die Zufallsgroße ξX durch ein ηY mit moglichst kleinem

Fehler zu erschließen. Die Unsicherheit besteht darin, daß der Erwartungswert von X nicht

bekannt ist. E X ∈W, cov(X,X) = C. Man betrachtet nun gaußische a priori–Verteilungen

auf W und gewinnt unter der Annahme, daß X gaußisch ist, a posteriori Verteilungen, die

man dann zur Pradiktion nutzen kann. Man tritt so in Konkurrenz zum BLUE–Prinzip. Die

BLUE–Schatzung macht bekanntlich einen Vorschlag fur die Pradiktion der erwartungstreu

schatzbaren ξX. Das nachfolgende Beispiel zeigt, daß die BLUE–Schatzung nicht immer

angemessen ist, ganz abgesehen davon, daß das BLUE–Prinzip keine Vorschlage macht, wie

man solche ξX”vorhersagen“ sollte, die nicht erwartungstreu schatzbar sind. (Spater werden

wir das BLUE–Prinzip gegen das MAP–Prinzip abwagen.)

Eine Anwendungssituation

Ein Sender sendet ein periodisches Signal S(t). Ein Empfanger mißt das verrauschte Signal

S(t) + ε(t) zu Zeitpunkten t1, . . . , tm. Wir nehmen an, daß die ε(tj) unabhangig und

N (0, σ2)–verteilt sind. Wir nehmen an, daß die Periode dem Empfanger bekannt ist; wir

konnen also annehmen, daß es sich um ein 2π–periodisches Signal handelt.

Wir wollen uns klar machen, daß die gewohnliche Methode der kleinsten Quadrate inadaquat

ist, eine MAP–Schatzung aber vernunftig sein kann. Zunachst stellen wir fest, daß wir hier ein

unendlichdimensionales Modell vor uns haben. Es ist naturlich ausgeschlossen, aufgrund von

nur m Beobachtungen eine vollstandige Auskunft uber S(·) zu geben. Zu jeder Ordnung

p gibt es ein trigonometrisches Polynom

S∗p(t) =

+p∑

k=−p

a(p)k · exp(ikt) ,



welches dem Beobachtungsvektor y (der Lange m) am nachsten kommt,

1

m

m∑

j=1

|yj − S∗p(tj)|2 = min .

Ein optimales trigonometrisches Polynom vom Grad p ist nun aber im allg. keine brauchbare

Schatzung fur das Signal S(·). Fur großes p haben wir das Phanomen der Uberanpassung.

Das nach der Methode der kleinsten Quadrate ermittelte S∗p(·) folgt allzusehr den Fehlern und

verliert dabei das vermutlich viel glattere wahre Signal aus den Augen. Eine beliebte Methode

zur Vermeidung von Uberanpassung besteht darin, daß man die Beimischung unerwunschter

Beitrage mit hoher Frequenz”bestraft“.

Das konnte etwa folgendermaßen geschehen. Als ein Maß fur die Glattheit einer periodischen

Funktion v(t) betrachten wir beispielsweise

‖v‖2 := c1

∫|v(t)|2dt+ c2

∫|v(t)|2dt .

Hierbei ist das Integral uber eine volle Periode zu erstrecken; c1 und c2 sind positive Zahlen.

Die Norm kann man offenbar auch durch die Fourierkoeffizienten ausdrucken

‖v‖2 = ‖∑

akeiωkt‖2 =

+∞∑

−∞(d1 + d2k

2)|ak|2 .

Wir behandeln dann die

Aufgabe Finde v(t), so daß

‖v‖2 +1

m

∑

j

1

σ2j

|yj − v(tj)|2 = min .

Wir ubersetzen diese Aufgabe mit Hilfe der Fourier–Transformation.

Es sei B die m × (2p + 1)–Designmatrix zu t1, . . . , tm und den Funktionen eikt; k =

0,±1,±2, . . . ,±p. Fur v(t) =∑ake

ikt gilt dann

1

m

∑ 1

σ2j

|yj − v(tj)|2 =1

m(y −Ba)∗ Q(y −Ba) ,

wo Q die m×m–Diagonalmatrix mit den Eintragen 1σ2

j

ist. Auf der anderen Seite haben

wir

‖v‖2 = a∗Q0a ,

wo Q0 die (2p+ 1)× (2p+ 1)–Diagonalmatrix ist mit den Diagonalelementen d1 + d2k2.

Die Aufgabe lautet nun:



Aufgabe Finde die Minimalstelle a der quadratischen Funktion

a∗Q0a+1

m(y −Ba)∗ Q(y −Ba) .

Es handelt sich um eine Aufgabe der kleinsten Quadrate. Es geht aber offenbar nicht darum,

gewisse Parameter erwartungstreu zu schatzen. Wir zeigen, daß man diese kleinste Quadrate–

Schatzung als eine MAP–Schatzung interpretieren kann.

Hinweis Das Herausfiltern von periodischen Signalen aus einer Zeitreihe S(t) : t ∈ Rist eine hochentwickelte Kunst in der

”Zeitreihenanalyse“. (siehe z.B. Brockwell & Davis:

. . . ). Unser Beispiel kann nicht den Anspruch erheben, einen Eindruck zu vermitteln von den

Modellierungen und Fragestellungen dieser Kunste. Unser Beispiel soll hier lediglich als eine

Bestatigung verstanden werden, daß es beim Filtern im allg. nicht um BLUE–Schatzung geht.

Es hat einen praktischen Sinn, wenn man nicht nur fur die Fehler ε sondern auch fur die

unbekannten Parameter eine Covarianzmatrix in Ansatz bringt, so wie wir das auch schon

oben gemacht haben. Das Stichwort in der statistischen Literatur heißt Ridge–Regression.

(siehe z.B. Draper, Smith: Applied Regression Analysis, Wiley, 2nd edition 1981).

Interpretation als MAP–Schatzung

Das Zufallsexperiment bestehe in der Realisierung eines gaußischen Vektors X mit

E X ∈W , cov(X,X) = C .

Y = MX wird beobachtet.

Wir mussen nicht voraussetzen, daß die Lw(X) dominiert sind. Wir nehmen aber an, daß

Lw(Y ) fur alle w ∈ W denselben linearen Trager T hat, dh. Mw ∈ T fur alle w ∈ W

(”nichtausgearteter Fall“).

1) Lw(Y ) hat dann die folgende Dichte bzgl. des Lebesgue–Maßes auf T

const · exp

(−1

2(y −Mw)∗ Q(Y −Mw)

).

Der negative Logarithmus der Likelihood–Funktion ist also fur jedes mogliche y ∈ T

eine quadratische Funktion von w mit Definitionsbereich W.

2) Aufgrund der Beobachtung y soll ein Schatzwert T (y) fur den wahren Parameter nach

der MAP–Methode angegeben werden. Um uberhaupt mit der Rechnung anfangen zu

konnen, mussen wir eine a priori–Verteilung auf W wahlen. Wir wahlen eine gaußische

Verteilung mit Erwartungswert w′, deren linearer Trager der ganze Raum W ist

π(dw) = const · exp

(−1

2(w − w′)∗Q0(w − w′)

)dw fur w ∈W .

Die n× n–Matrix Q0 kann als Bestrafung,”Penalty“, interpretiert werden; sie ergibt

sich in der bekannten Weise aus der Covarianzmatrix der a priori–Verteilung π(dw).



3) Bekanntlich entsteht die a posteriori–Verteilung durch Multiplikation der a priori–

Verteilung mit der Likelihood–Funktion zum Beobachtungswert. In unserem Falle ist

die a posteriori–Verteilung

const · exp

(−1

2(w − w′)∗Q0(w − w′)− 1

2(x−Mw)∗ Q(y −Mw)

)dw .

4) Wir denken uns W ausgestattet mit irgendeiner Norm mit strikt konvexer Einheits-

kugel. Wir konnen dann den Erwartungswert dieser a posteriori–Verteilung als ihren

Modalwert deuten. Die Suche nach dem MAP–Schatzer ist also die Suche nach dem

Erwartungswert der a posteriori–Verteilung oder die Suche nach der Minimalstelle der

quadratischen Funktion

W 3 w 7−→ 1

2(w − w′)∗Q0(w − w′) +

1

2(y −Mw)∗ · Q(y −Mw) .

Zu jedem y ∈ T ist derjenige Punkt T (y) ∈ W zu bestimmen, in welchem diese

quadratische Funktion ihr Minimum annimmt.

Bemerke Wenn Q0 klein ist, wenn also die a priori–Verteilung weit ausgestreckt ist,

dann ist TQ0(y) nahe zu einem Punkt auf dem affinen Raum ϑ : Mϑ = y. Der ML–

Schatzer entspricht dem Grenzfall Q0 → 0. Die Likelihood–Funktionen sind auf jedem affinen

Raum mit dem Tangentialraum N = z : Mz = 0 ∩W konstant. Wir werden sehen, wie

man ein wy berechnet, so daß wy + N die Gesamtheit der Minimalstellen der Likelihood–

Funktion zu y ist.


8. GEOMETRIE DER KLEINSTEN QUADRATE 69

8 Geometrie der kleinsten Quadrate

8.1 Orthogonale Projektion und Normalgleichungen

C sei eine positiv semidefinite n× n–Matrix. Der Spaltenraum heiße T. E sei der Raum

aller n–Spalten. Wir sagen von Punkten x1, x2 ∈ E, daß sie endlichen Abstand voneinander

haben, wenn x2 − x1 ∈ T; in diesem Fall definieren wir den Abstand ‖x2 − x1‖ mit Hilfe

einer Hilbertraum–Norm auf T, wie folgt:

Definition Sei Q eine hermitische n× n–Matrix mit

CQC = C .

Fur x1, x2 ∈ T definieren wir das innere Produkt

〈x1, x2〉 := x∗1Qx2 = x∗2Qx1

und den Abstand ‖x2 − x1‖ = 〈x2 − x1, x2 − x1〉1/2.

Bemerke

1) 〈x, x〉 = 0 =⇒ x = 0 .

Fur x = Cξ∗ ∈ T gilt namlich

〈x, x〉 = x∗Qx = ξCQCξ∗ = ξCξ∗ .

Da C positiv semidefinit ist, folgt Cξ∗ = 0 aus ξCξ∗ = 0.

2) Die Definition des inneren Produkts auf T ist unabhangig von der Wahl von Q; sie

hangt nur von C ab. Fur x1 = Cξ∗1, x2 = Cξ∗2 gilt namlich

〈x1, x2〉 = x∗1Qx2 = ξ1CQCξ∗2 = ξ1Cξ

∗2 .

Sprechweisen und Notationen

a) Man sagt von Vektoren x1, x2 ∈ T, daß sie aufeinander senkrecht stehen oder, daß sie

zueinander orthogonal sind, und man notiert x1 ⊥ x2, wenn

〈x1, x2〉 = 0, d. h. x∗1Qx2 = 0 = x∗2Qx1 .

b) Man sagt von Teilmengen U1,U2 ⊆ T, daß sie zueinander orthogonal sind und notiert

U1 ⊥ U2 wenn u1 ⊥ u2 fur alle u1 ∈ U1, u2 ∈ U2 .



c) Zu jeder Teilmenge U ⊆ T definiert man den Orthogonalraum U⊥ ⊆ T

U⊥ := y : y ⊥ u fur alle u ∈ U ∩ T .

(Es handelt sich offenbar um einen Vektorraum.)

Satz 1 Fur jeden Teilvektorraum V von T ist

T = V+V⊥

eine direkte Zerlegung.

Beweis

1) V∩V⊥ = 0. Das einzige x ∈ T, welches auf sich selbst senkrecht steht, ist der

Nullvektor.

2) Zu jedem x ∈ T gibt es genau ein x ∈ V, welches x am nachsten liegt. Dieses x

ist gekennzeichnet durch (x− x) ⊥ V

‖x− (x+v)‖2 = (x− x+v)∗Q(x− x+v)

= (x− x)∗Q(x− x) + 2<e〈x− x, v〉 + v∗Qv .

3) x = x+(x− x) mit x ∈ V, x− x ∈ V⊥.

Sprechweise Die Projektion von T auf V entlang von V⊥ heißt die orthogonale

Projektion auf V. x− x heißt das Lot von x auf V, x heißt der Fußpunkt des Lots.

Corollar Es gilt U⊥⊥ = U fur jeden Teilvektorraum U ⊆ T. Fur jede Teilmenge U

von T ist U⊥⊥ der kleinste U umfassende Teilvektorraum von T.

Wir beschreiben jetzt orthogonale Projektionen im Matrizenkalkul. Es zeigt sich, daß die

Normalgleichungen eine zentrale Rolle spielen.

Satz 2 Sei M eine m × n–Matrix und U = x : Mx = 0 ∩ T. Die orthogonale

Projektion entlang U ist dann

x 7−→ NMx fur x ∈ T ,

wo N eine beliebige Losung der Normalgleichung ist

(I −NM)CM ∗ = 0 .



Beweis

1) Die Abbildungen x 7−→Mx und P : x 7−→ NMx annullieren die Elemente von U.

2) NMCM ∗ = CM∗.

Die Abbildung x 7−→ Px laßt also die Spalten von CM ∗ unverandert. Sei T der

Durchschnitt dieses Spaltenraums mit T. Wir zeigen T = U⊥.

3) Da MC und MCM ∗ denselben Rang haben, gibt es zu jedem x = Cξ∗ ∈ T ein η∗,

so daß

Mx = MCξ∗ = MCM∗η∗ .

Daraus folgt Px ∈ T fur alle x ∈ T; denn

Px = NMx = NMCξ∗ = NMCM∗η∗ = CM∗η∗ ∈ T .

P projiziert T auf T entlang von U.

4) Fur x0 = (I − P )x0 ∈ U, x1 = Px1 ∈ T sei xi = Cξ∗i . Es gilt

〈x0, x1〉 = 〈(I − P )x0, Px1〉 = x∗0(I − P )∗QPx1

= ξ0C(I − P )∗QPCξ1 .

5) T = U⊥ ist bewiesen, wenn wir die folgende Matrizengleichung nachweisen

C(I − P )∗QPC = 0 .

Die Normalgleichung liefert

(I − P )CP ∗ = 0 , CP ∗ = PCP ∗ = PC .

Daraus

C(I − P ∗)QPC = (I − P )CQCP ∗ = (I − P )CP = 0 .

Satz 3 (Umkehrung) Sei P eine Matrix, die eine orthogonale Projektion von T

in sich beschreibt, d.h.

C(I − P )∗QPC = 0 .

Dann gilt

(I − P )CP ∗ = 0 und PC = CP ∗ = PCP ∗ .



Beweis

1) Fur jedes x ∈ T liegt der Bildpunkt Px in T. Fur jedes Ct gibt es ein s mit

PCt = Cs. Es gibt eine lineare Abbildung t 7−→ s, die das leistet; drucken wir sie

durch die Matrix R∗ aus

PCt = CR∗t fur alle t .

2) Die Orthogonalitat von P liefert fur die Matrix R

0 = C(I − P )∗QPC = (I −R)CQCR∗ = (I −R)CR∗

CR∗ = RCR∗ = RC; PC = RC

P und R liefern dieselbe Abbildung von T.

PCP ∗ = (PC)P ∗ = (RC)P ∗ = R(CP ∗) = RCR∗

(I − P )CP ∗ = CP ∗ − PCP ∗ = (I −R)CR∗ = 0 .

Corollar Sei P eine Matrix, so daß x 7−→ Px den Raum orthogonal projiziert. Setze

ξ = ξP fur alle n–Zeilen ξ. Es gilt dann fur alle ξ1, ξ2

ξ1 ·C · ξ∗2 = ξ1 · C · ξ∗2 .

Hinweise

1) Die semidefinite Matrix C kann man auch verwenden, um auf dem Raum der n–Zeilen

ein inneres Produkt einzufuhren

〈ξ1, ξ2〉 := ξ1Cξ∗2 .

Hier gibt es aber im allg. Elemente ξ mit 〈ξ, ξ〉 = 0. Insofern liegt dieses innere Produkt

der geometrischen Anschauung ferner als das innere Produkt auf dem r–dimensionalen

Spaltenraum T, das wir durch Q definiert haben.

2) Sei Z der Raum der n–Zeilen und N = ξ0 : ξ0Cξ∗0 = 0. Wir haben dann eine

Isometrie

Z /N ←→ T vermoge ξ 7−→ x = Cξ∗ .

Fur alle x1 = Cξ∗1, x2 = Cξ∗2 gilt namlich

〈x1, x2〉 = x∗1Qx2 = ξ1CQCξ∗2 = ξ1Cξ

∗2 = 〈ξ1, ξ2〉 .



3) Der Stochastiker interpretiert das innere Produkt 〈ξ1, ξ2〉 als Covarianz der durch ξ1

und ξ2 gegebenen Linearkombinationen der Komponenten eines Zufallsvektors X mit

der Covarianzmatrix C

cov(ξ1X, ξ2X) = ξ1 · cov(X,X) · ξ∗2 = ξ1 · C · ξ∗2 .

4) Bemerkenswert ist nun, daß der Begriff der orthogonalen Projektion in den beiden Be-

trachtungsweisen zusammenpaßt

cov((I − P )X,PX) = 0 ⇐⇒ (I − P )CP ∗ = 0

(I − P )T ⊥ P T ⇐⇒ C(I − P )∗QPC = 0 .

Wir haben eben gesehen, daß die beiden Bedingungen an die Matrix P aquivalent

sind.

Satz 4 Der Teilvektorraum V von T sei als lineares Bild gegeben

V = v : v = Bs ⊆ T .

Sei F ∗ eine beliebige Losung der Normalgleichung

(I − F ∗A∗)CA = 0 mit A = QB .

a) Dann ist x 7−→ F ∗A∗x die orthogonale Projektion von T auf V.

b) F ∗ lost die Normalgleichung genau dann, wenn

F ∗B∗QB = B .

Beweis

1) CQC = C. Die Spalten von B liegen im Spaltenraum T von C; also gilt CQB = B,

CA = B, A∗CA = B∗QB

F ∗B∗QB = B ⇐⇒ F ∗A∗CA = CA .

2) Die Abbildung x 7−→ F ∗A∗x liefert eine orthogonale Projektion von T nach Satz 2 .

Nach Satz 3 gilt

F ∗A∗C = CAF = BF .

x = Ct wird auf BFt ∈ V projiziert. Fur x = Bs ∈ T haben wir insbesondere

F ∗A∗x = F ∗A∗Bs = F ∗A∗(CAs) = CAs = Bs .

Es handelt sich also um die orthogonale Projektion auf V.



3) Wir diskutieren noch den Nullraum der Projektion. F ∗A∗ ist die orthogonale Projek-

tion entlang

U = x : A∗x = 0 ∩ T

= x : B∗Qx = 0 ∩ T

= x : v∗Qx = 0 fur alle v ∈ V ∩ T = V⊥ .

Die Normalgleichung (I − F ∗A∗)CA = 0 bringt also in der Tat zum Ausdruck, daß

F ∗A∗ die orthogonale Projektion entlang von V⊥ ist.

Hinweis Die elementaren Lehrbucher beschranken sich ublicherweise auf den Fall, wo

die Spalten von B linear unabhangig sind, und daruberhinaus B∗QB vollen Rang hat. Die

Sache wird aber nicht wirklich durchsichtiger dadurch, daß man in diesem Fall die Losung

der Normalgleichung explizit hinschreiben kann

F ∗ = B(B∗QB)−1

F ∗A∗ = F ∗B∗Q = B(B∗QB)−1BQ .

Diese Matrix zur orthogonalen Projektion x 7−→ x = F ∗A∗x nennt man manchmal die

Hut–Matrix; sie setzt den Punkten x ∈ T den Hut auf.

Fazit

1) Wenn

(I −NM)CM ∗ = 0 ,

dann ist fur alle x ∈ T

(I −NM)x

das Lot von x auf U⊥, wo U = z : Mz = 0 ∩ T, U⊥ = x : x = NMCt.

2) Wenn

(I − F ∗A∗)CA = 0 ,

dann ist fur alle x ∈ T

(I − F ∗A∗)x

das Lot von x auf V, wo V = v : v = CAt .



3) Man vergleiche die erste Aussage mit dem Ergebnis uber lineare Regression: Sei X

ein Zufallsvektor mit

E X = 0 , cov(X,X) = C .

Der Pradiktionsfehler bei der besten linearen Pradiktion aufgrund von Y = MX ist

dann

(I −NM)X .

4) Eine entsprechende Aussage uber den Pradiktionsfehler bei der BLUE–Pradiktion soll

im Folgenden hergeleitet werden.

8.2 Minimale quadratische Distanz fur affine Raume

Gegeben sind C, M und W.

C ist eine positiv semidefinite n× n–Matrix.

M ist eine m× n–Matrix.

W ist ein Vektorraum von n–Spalten.

Weitere Bezeichnungen : Es seien

Q hermitisch mit CQC = C

T der Spaltenraum von C; D = W+T

C = MCM∗; Q hermitisch mit C Q C = C

W das M–Bild von W, W = M W

V = W∩ T, D = W + T

B sei eine m× p–Matrix mit Spaltenraum V, A = Q B

F eine Losung der Normalgleichung (I − F ∗A

∗) C A = 0

N sei eine Losung der Normalgleichung (I −NM)CM ∗ = 0.

Um die Ideen zu fixieren, wahlen wir Q zu N und Q passend, d.h. Q = N∗QN .

Hilfssatz Wenn U = x : Mx = 0 ∩ T, U′ = (x : Mx = 0 + W) ∩ T, dann gilt

U′ = U+N V.

Beweis

1) Offensichtlich gilt die Inklusion M U′ ⊆ W∩ T = V. Wir zeigen die Gleichheit M U′ =

V. Zu v ∈ V existieren w ∈ W, x ∈ T mit Mw = v = Mx. Da M(x − w) = 0

haben wir x = (x − w) + w ∈ U′ und dieses x ∈ U′ hat das gewunschte M–Bild

v = Mx.



2) Da U ⊆ U′ ⊆ T = U+U⊥, existiert ein Teilvektorraum V′ mit U′ = U+V′. Wir

zeigen V′ = N V. In der Tat bildet nach 1) M den Raum U auf V ab, NM

projiziert T auf U⊥ und U′ auf N V.

C definiert auf dem Raum aller n–Spalten eine verallgemeinerte Metrik; verallgemeinert ist

der Begriff der Metrik insofern, als auch die Distanz +∞ vorgesehen ist. Die Gesamtheit

der Punkte, die von W endlichen Abstand haben, ist W+T = D.

C definiert auf dem Raum aller m–Spalten eine verallgemeinerte Metrik. Die Gesamtheit

der Punkte, die von W endlichen Abstand haben, ist W+ T = D.

Fur y ∈ D nennen wir [y] = x : Mx = y die Faser zu y. In jeder solchen Faser gibt es

Punkte x, die endlichen Abstand von W haben. D kann also verstanden werden als die

Menge der Fasern, die von W endlichen Abstand haben.

Bezeichne N := z0 : Mz0 = 0 ∩W. Wenn z0 ∈ N, dann liegen x und x + z0 in

derselben Faser mit demselben Abstand zu W

dist(x+ z0,W) = dist(x,W) fur alle z0 ∈ N .

Die Gesamtheit der x in der Faser [y], die minimalen Abstand von W haben, ist ein

affiner Raum mit dem Tangentialraum N. Wir werden sehen, daß der minimale Abstand

der Faser [y] von W gleich dem Abstand von y zu W ist, d.h.

dist([y],W) = dist(y, W) .

Aufgabe der kleinsten Quadrate Finde zu allen Fasern [y] die Gesamtheit aller

nachsten Punkte auf W.

Jedes w ∈ W liefert eine Translation von D = W+T in sich. Die Faser [y] wird in die

Faser [y +Mw] verschoben. Die Gesamtheit der zu [y +Mw] nachsten Punkte geht aus

der Gesamtheit der nachsten Punkte zu [y] durch Verschiebung um W hervor. Es genugt

daher, die Fasern [y] zu y ∈ T zu untersuchen.

Satz 5 (Paare nachster Punkte)

Ein Paar von n–Spalten (x,w) heiße ein Paar nachster Punkte fur y (y ∈ D = W+ T),

wenn

M x = y , w ∈W , ‖x−w‖2 = min .

Genau dann ist (x,w) ein Paar nachster Punkte, wenn

(x−w) ⊥ U′ ; wobei wie oben U′ = U+N V .



Beweis

1) ‖x−w‖2 ist endlich wegen y ∈ D, also x−w ∈ T. Die Konkurrenten in (x,w) sind

zunachst alle (x+z0, w + z1) mit Mz0 = 0, z1 ∈W, z0 − z1 ∈ T

‖(x+z0)− (w + z1)‖2 − ‖x−w‖2 = 2 ·Re 〈x−w, z0 − z1〉+ ‖z0 − z1‖2 .

Wenn (x,w) ein Paar nachster Punkte ist, dann gilt

(x−w) ⊥ (z0 − z1) fur alle z0 − z1 ∈ (z : Mz = 0+ W) ∩ T .

2) Wenn (x,w) Paar nachster Punkt ist, dann ist die Gesamtheit aller weiteren Paare

nachster Punkte die Menge aller (x+z, w + z) mit z ∈ N = z : Mz = 0 ∩W .

3) (x,w) ist auch wirklich Paar nachster Punkt fur y, wenn

M x = y , w ∈W , (x−w) ⊥ U′ = U+N V .

Die letztere Bedingung formulieren wir um:

(i) x−w ∈ U⊥

(ii) (x−w)∗QN v = 0 fur alle v ∈ V.

Satz 6 Sei y ∈ T und vy = F∗A

∗y der Fußpunkt des Lots von y auf V. Sei

wy ∈W, so daß Mwy = vy.

wy + N ist dann die Gesamtheit aller Punkte in W, die minimalen Abstand zur Faser [y]

haben.

Sei x so, daß x−wy = N(y − vy).

x+N ist dann die Gesamtheit aller Punkte aus [y], welche minimalen Abstand von W

haben.

Beweis

1) Sei (x,w) ein Paar nachster Punkte fur y ∈ T. Es gilt dann Mw ∈ V, weil x−w ∈ T

und daher y −Mw ∈ T. Nach dem Kriterium im vorigen Satz haben wir

x−w ∈ U⊥ und daher x−w = NM(x−w) = N(y − v) .

2) Nach dem Kriterium haben wir

(x−w)∗QN v = 0 fur alle v ∈ V

(y − v)∗NQN v = 0 fur alle v ∈ V .

N∗QN = Q ist die fur T maßgebende Matrix

(y − v) ⊥ V , v = F∗A

∗y .



3) Sei andererseits fur ein y ∈ T vy = F∗A

∗y , wy ∈W mit Mwy = vy, dann ist

x = wy +N(y − vy) zusammen mit wy ein Paar nachster Punkte fur y.

Die Rolle von N haben wir bereits diskutiert.

4) Wir bemerken, daß fur den Abstand von [y] zu W gilt

(x−wy)∗Q(x−wy) = (y − vy)

∗ Q(y − vy) .

Der Abstand der M–Bildpunkte bzgl. der Metrik in T ist der Abstand der Faser [y]

von W bzgl. der Metrik in T. Das Problem der kleinsten Quadrate fur Fasern ist auf

das klassische Problem zuruckgefuhrt.

Man braucht sowohl die orthogonale Projektion NM in T als auch die orthogonale Projetion

P := F∗A

∗in T.

Wir wollen jetzt noch die Verbindung zur BLUE–Schatzung herstellen. Dazu brauchen wir

einige Vorbereitungen.

8.3 Verschiebungsvertragliche Regression

Das Ziel einer nicht notwendigerweise linearen) Regressionsberechnung kann man so beschrei-

ben. Eine Zufallsgroßen X ist realisiert worden, ϕ(X) ist beobachtet worden. Wie sieht die

bedingte Verteilung aus; wo liegt sie, wie streut sie? Wir denken an einen Zufallsvektor der

Lange n und an die Beobachtung von Y = MX. Die Frage geht nach dem bedingten Er-

wartungswert und der bedingten Covarianz in Abhangigkeit von Y ; jedenfalls im gaußischen

Fall sind Erwartungswert und Covarianzmatrix die passenden Lage– und Streuungsbeschrei-

bungen fur die bedingte Verteilung L(X|Y ).

Den Fall eines gaußischen Vektors X mit E X = 0, cov(X,X) = C haben wir oben schon

behandelt; es stellte sich heraus, daß die Antworten die sind, die wir auch im Ansatz zum

linearen Filtern gefunden haben. Im gaußischen Fall reduziert sich die Regressionsrechnung

also auf das lineare Filtern.

Wir denken nun an einen gaußischen Vektor mit unbekanntem Erwartungswert ∈ W, und

wir bemuhen uns um eine mit der Verschiebung vertraglichen Regressionsberechnung. Als

Pradiktor fur die Lage der Verteilung von X nach der Beobachtung von Y wahlen wir

denjenigen Punkt X in der Faser [Y ], der am nachsten an W dran liegt. Genauer gesagt:

Wir wahlen den affinen Raum X +N der zu W nachsten Punkte als Pradiktor fur die Lage

der bedingten Verteilung L(X|Y ). Fur eine Linearform ξ, die auf den zu N parallelen

affinen Raumen konstant ist (zulassiges ξ) wahlen wir ξ X = E(ξX|Y ) als die Vorhersage

fur die nichtbeobachtete Zufallsgroße ξX. Wir wollen das als Problem der Matrizenrechnung

formulieren und losen. Wir werden sehen, daß die Losung dem BLUE–Ansatz entspricht.



Vorbereitung (Das Hochheben von V )

Wir beschranken uns auf den nichtausgearteten Fall T ⊇ W = V; die Fasern [y], die

beobachtet werden, sind die zu y ∈ T. Zu jedem v ∈ V gibt es mindestens ein w ∈W mit

Mw = v. Wir wahlen eine lineare Zuordnung und drucken sie durch eine Matrix L aus

v 7−→ w = L v mit L v ∈W und ML v = v fur alle v ∈ V .

Bemerke Wenn L und L+ L0 das Verlangte leisten, dann gilt L0P C = 0 und jedes

L0 dieser Art kann zu L hinzuaddiert werden. (P ist die orthogonale Projektion von T

auf V.)

Da wir den nichtausgearteten Fall angenommen haben, ist W das L–Bild von V W = L V.

Andererseits V = M W

ML v = v fur alle v ∈ V ; LMw = w fur alle w ∈W .

Bemerke Die Abbildung ξ 7−→ η = ξL ordnet jedem zulassigen ξ eine m–Zeile η zu

mit

ξw = η Mw fur alle w ∈W .

Satz 7 (BLUE–Schatzung und verschiebungsvertragliche Regression)

Gegeben sind C,M und W mit T ⊇M W = V. Fur jedes y ∈ T sei xy +N die Menge

der Punkte in der Faser [y] = x : Mx = y, die minimale Distanz zu W haben.

Sei ξ zulassig und η der BLUE dazu. Es gilt dann

η y = ξ(Xy +N) fur alle y ∈ T .

Beweis Wie oben seien N, F∗

Losungen der betreffenden Normalgleichungen. Wir

kurzen ab P = F∗A

∗. L sei die Abbildung, die V auf W projiziert, invers zu M auf

W.

1) Wir gewinnen ein Paar nachster Punkte fur y ∈ T, wenn wir setzen

wy = LPy, xy = wy +N(y − Py) .

Es gilt namlich wy ∈W, M xy = y und

(xy −wy) ⊥ (U+N V)

xy = N(y − Py) + LPy = Ny + (L−N)Py

2) Fur den BLUE haben wir oben gezeigt

η = η− ξ Q = η−(η− η) F ∗B

∗Q = η−(η− η)P = ξN + ξ(L−N)P .

Damit haben wir

ξ(xy +N) = ξNy + ξ(L−N)Py = η y .



Schlußbemerkung zur Technik der kleinsten Quadrate

Unsere Darstellung der BLUE–Schatzung gehort ganz in die lineare Algebra. Alles dreht sich

um C,M,W. Aus der Sicht der reinen Mathematik sind die folgenden Einsichten zentral

1) Die positiv semidefinite Matrix C dient dazu, gewisse Vektorraume mit einem inneren

Produkt anzustatten.

Fur (Aquivalenzklassen von) n–Zeilen ξ definiert man

ξ1Cξ∗2 (= cov(ξ1X, ξ2X) aus stochastischer Sicht).

Fur n–Spalten aus dem Spaltenraum T von C definiert man

x∗1Qx2 wobei Q hermitisch mit CQC = C.

2) Man hat eine Isometrie der r–dimensionalen Hilbertraume

ξ 7−→ x = Cξ∗ ; x 7−→ ξ = x∗Q .

3) Die orthogonalen Projektionen entsprechen den Matrizen P mit

PC = CP ∗, oder (I − P (CP ∗ = 0 .

4) W ist zustandig fur die Forderung, daß gewisse affine Abbildungen eine Vertraglichkeit

gegenuber Verschiebungen aufweisen.

Alle stochastischen Begriffe kann ein reiner Mathematiker als schmuckendes Beiwerk abtun.

Aus der Sicht des angewandten Mathematikers dienen sie dazu, Anwendbarkeit und Moglich-

keiten der Verallgemeinerung nahezulegen. Die Mathematik der BLUE–Schatzung ist nicht

sonderlich attraktiv fur einen Mathematiker, der nichts wissen will von Zufallsvektoren (mit

Erwartungswerten und Covarianzmatrizen), wahren Verteilungen (insbesondere Normalver-

teilungen) oder Likelihood–Funktionen der Beobachtungswerte, die man aus den nominellen

Verteilungen gewinnt. Begriffe wie a priori Wissen und a posteriori Einsicht wird er nur als

exotische Sprechweisen gelten lassen. Begriffe wie Schatzen, Glatten, Filtern und Vorhersagen

haben fur ihn keine mathematische Verbindlichkeit. Wir gehen in unserer Darstellung einen

Mittelweg. Wir bleiben nicht in der Begriffswelt der linearen Algebra. Auf der anderen Seite

vermeiden wir aber eine Uberfrachtung mit Assoziationen, die auf spezielle Anwendungsbe-

reiche zugeschnitten sind und die meisten Darstellungen der Methode der kleinsten Quadrate

reichlich unubersichtlich machen.


9. DER BIAS BEI DER LINEAREN PRADIKTION 81

9 Der Bias bei der linearen Pradiktion

9.1 Problemstellung

Gegeben sind C,M,W mit T ⊇ W (”nichtausgearteter Fall“). Wir setzen nicht voraus, daß

W in T enthalten ist.

Wir haben bereits zwei Extremfalle der linearen Pradiktion behandelt, die lineare Regressi-

on und die BLUE–Pradiktion. Die lineare Regression kummert sich nur um Varianzen und

uberhaupt nicht um Erwartungswerte. Die BLUE–Pradiktion kummert sich nur um die er-

wartungstreu schatzbaren Linearkombinationen. Wir wollen uns hier jetzt auch um den Bias

kummern. Zunachst erinnern wir an die Hauptresultate.

Satz (Lineare Regression)

Zu jeder n–Zeile ξ gibt es mindestens eine m–Zeile η, so daß

var(ξX − ηY ) = min .

Wenn N so ist, daß (I −NM)C;∗ = 0, dann leistet

η := ξN

das Verlangte.

Bemerke Im Falle E X = 0 kann η Y als geeigneter Pradiktor fur ξX gelten (fur alle

ξ). Im Falle E X = w ware η Y + ξ(I −NM)w der passendere Pradiktor fur ξ. Diffizil

wird die Frage nach dem geeigneten Pradiktor, wenn E X unbekannt ist.

Satz (BLUE–Pradiktion)

Zu jeder zulassigen n–Zeile ξ gibt es mindestens eine m–Zeile η mit

(i) ηMw = ξw fur alle w ∈W

(ii) E |ξX − ηY |2 = min.

Im nichtausgearteten Fall (T ⊇ W) leistet

ηL := ξN + ξ(L−N) P

fur jede Hebung L das Verlangte. Unter einer Hebung verstehen wir eine lineare Abbildung

W 3 w 7−→ w = L w mit Mw = w .

P bezeichnet die orthogonale Projektion von T auf W.



Bezeichnung Wir nennen

NL := N + (L−N) P = N(I − P ) + L P

die Pradiktionsabbildung zur Hebung L.

Bemerkungen

1) Fur zulassiges ξ und ηL = ξNL gilt

ηL(y +Mw) = ηL(y) + w fur alle y ∈ T und w ∈W .

(Der”ausgeartete“ Fall, M W 6⊆ T, wird hier nicht studiert.)

Fur alle ξ hat ηLY den Bias:

Ew(ξX − ηLY ) = ξ(I − LM)w fur alle w ∈W .

2) Betrachte zur Hebung L den linearen Pradiktor

NLY := NY + (L−N) P Y .

Der Pradiktionsfehler kann als Summe unkorrelierter Summanden geschrieben werden

(X −NLY ) = (I −NM)− (L−N) P Y .

Es gilt namlich

cov((I −NM)X,Y ) = 0 wegen (I −NM)CM ∗ = 0 .

3) Die Covarianzen der Summanden sind

cov((I −NM)X, (I −NM)X) = (I −NM)C = C(I −NM)∗

cov((L−N) P Y, (L−N) P Y ) = (L−N) P C P∗(L−N)∗

Fur zulassiges ξ bringt

var(ξ(L−N) P Y ) = ξ(L−N) P C P (L−N)∗ξ∗

zum Ausdruck, was es an zusatzlicher Varianz der Pradiktion von ξX kostet, wenn

man darauf besetht, ξX W–verschiebungsvertraglich zu schatzen.

Problem Fur nichtzulassiges ξ wird sowohl der Bias als auch die zusatzliche Varianz

von der Wahl der Hebung L abhangen. Es kommt bei der Wahl von L also darauf an, fur

welche nichtzulassigen ξ und welche w ∈W man den Bias und die Varianz von ηLY (als

Pradiktor von ξX) schwer nimmt.



9.2 Kleine erwartungstreue Veranderungen gegenuber

der Regression

Wir wollen versuchen, die Hebung L so zu wahlen, daß die Pradiktion NLY moglichst

ahnlich wird zur bereits gewahlten Regression NY .

Das soll heißen: Die der Verschiebungsvertraglichkeit geschuldete Veranderung NLY −NY =

(L−N) P Y soll nicht unnotig groß sein. Man bemerke, daß in dieser hier noch unscharfen

Forderung eine Bevorzugung des Erwartungswerts 0, E X = 0, enthalten ist; denn NY ist

auf diesen Fall zugeschnitten, wahrend NLY verschiebungsvertraglich ist.

Lotlange Gegeben sei C0 positiv semidefinit mit Spaltenraum

U := z : Mz = 0 .

Wahle dazu eine hermitische Matrix Q0 mit X0Q0C0 = C0 und setze fur z ∈ U

‖z‖20 := z∗Q0z .

Bemerke

1) Fur alle z 6= 0, z ∈ U gilt ‖z‖20 > 0. Der Wert der Norm hangt nur von C0 und

nicht von der Wahl von Q0 ab. Die Norm gestattet uns, fur zwei Hebungen L′, L′′ die

Zufallsgroßen

NL′Y −NY = (L′ −N) P Y und NL′′Y −NY = (L′′ −N) P Y

zu vergleichen.

2) Sei ` die Dimension von U und d der Rang von MX. Wenn X den Rang d+ `

hat, dann hat (I −NM)X, das Lot auf U⊥ den Rang `. In diesem Falle erfullt

C0 = (I −NM)C(I −NM)∗ , Q0 = (I −NM)∗Q0(I −NM)

die Forderungen. In diesem besonders”regularen“ Fall folgt aus dem Nichtausgeartetsein

T ⊇ W, daß T ⊇W. Wir wollen das aber nicht voraussetzen und brauchen daher C0

als zusatzliche Vorgabe, um Wortlangen ordentlich vergleichen zu konnen.

3) Sei N = z : Mz = 0 ∩W. Wir haben oben gesehen, daß Paare nachster Punkte

x ∈ x : Mx = y , w ∈W

durch Addition von z ∈ N wieder in Paare nachster Punkte ubergehen. Durch die

Norm ‖ · ‖0 wird diskrimiert.



4) Fur jedes wtw ∈ W existiert genau ein w = L0 w ∈W, so daß Mw = w und

‖w −N w ‖20 = min .

Es gilt namlich

w : Mw = w ∩W = L0 w+N

und L0 w ist gekennzeichnet durch das Gleichungssystem

z∗Q0(L0 −N) w = 0 fur alle z ∈ N .

Die Abbildung

W 3 w 7−→ L0mw

ist eine Projektion und es gilt

(I −NM)L0Mw = (L0 −N)Mw .

Bezeichnung (Pradiktion zu C0)

Gegeben seien C,M,W und C0 wie oben. Die eben konstruierte Abbildung

W 3 w 7−→ L0 w ∈W

nennen wir die Hebung zur C0–Norm auf U. Die dazugehorige Pradiktionsabbildung

N0 := N(I − P ) + L0 P = N + (L0 −N) P

nennen wir erwartungstreue Pradiktionsabildung zur Norm C0.

Wir zeigen jetzt, wie man diese Pradiktionsabbildung als Grenzfall gewinnen kann, wenn

man nach dem MAP–Prinzip zu gewissen a priori–Verteilungen den linearen Pradiktor kon-

struiert. Die neuen linearen Pradiktionen bestehen nicht darauf, daß die erwartungstreu

schatzbaren ξX erwartungstreu geschatzt werden mussen.

9.3 Lineare Pradiktionen zu gaußischen Vorbewertungen

Gegeben sind C,M,W, C0 mit T ⊇ W.

Fur jedes w ∈W induziert die Normalverteilung N (w,C) auf jeder Faser [y] zu y ∈ T

eine bedingte Verteilung, die gaußisch ist mit dem Erwartungswert

Ew(X|Y = y) = Ny + (I −NM)w .



Die Umgebung der Faser [y] wird von den Verteilungen N (w,C) mit Gewichten belegt,

die mit w variieren

p(w, y) = const · exp

(−1

2(y −Mw)∗ Q(y −Mw)

).

Die Uberlagerung der bedingten Dichten, die von der a priori–Verteilung dπ(w) erzeugt

wird, hat den Mittelwert

Ny + (I −NM)

∫w · p(w, y)dπ(w) .

Hier ist y fest und die Normierung von p(·, y), so daß∫p(w, y)dπ(w) = 1 .

Die a posteriori Verteilung ist

dπy(w) = p(w, y)dπ(w)

und der Erwartungswert der a posteriori–Verteilung gleich

w(y) :=

∫w · p(w, y)dπ(w) .

Die a priori–Verteilung dπ(w) liefert also (im gaußischen Fall!) den Pradiktor

Ny + (I −NM)w(y) .

Wir berechnen diese Pradiktoren fur spezielle a priori–Verteilungen π(τ 2, σ2, dw). Uns in-

teressieren besonders die Grenzfalle σ2 → ∞ und τ 2 → ∞. Im Grenzfall σ2 → ∞ wird

der entsprechende Pradiktor die Gestalt haben

Ny + (L0 −N) ·(

1 +1

τ2

)−1

P y .

Konstruktion Fur jedes ρ2 > 0 erhalten wir eine Hilbertraumnorm auf x : Mx ∈ T,wenn wir setzen

1

2‖x‖2ρ :=

1

2x∗(I −NM)∗Q0(I −NM)x+

1

2ρ2x∗(NM)∗Q(NM)x .

Fur σ2 > 0 und τ 2 = σ2 · ρ2 betrachten wir die Normalverteilung auf x : Mx ∈ T mit

der Dichte

const · exp

(− 1

2σ2‖x‖2ρ

).

Die bedingte Verteilung auf W sei unsere a priori–Verteilung dπ(w). Es handelt sich um

eine Normalverteilung mit Mittelwert 0.



Satz Der Erwartungswert der a posteriori–Verteilung hat die Gestalt

w(y) = L0 w(y) .

Dabei ist w(y) ∈ W die Minimalstelle der quadratischen Funktion

qy(w) :=1

2σ2w∗ Q0 w+

1

2τ2w∗ Q w+

1

2(w− P y)∗ Q(w− P y) , w ∈ W ,

wobei Q0 = (L0 −N)∗Q0(L0 −N) .

Beweis

1) Fur w ∈W setzen wir z = w − L0Mw und w = Mw

w = NMw + (L0 −N)Mw + z

(I −NM)w = (L0 −N)Mw + z = (L0 −N) w+z

1

2w∗(I −NM)∗Q0(I −NM)w

=1

2z∗Q0z +

1

2w∗(L0 −N)∗Q0(L0 −N) w∗

=1

2z∗Q0z +

1

2w∗ Q0 w .

2) Fur w ∈W gilt

1

2σ2‖w‖2ρ =

1

2σ2z∗Q0z +

1

2σ2w∗ Q0 w+

1

2τ2w∗ Q w .

3)1

2(Mw − y)∗ Q(Mw − y) =

1

2(w− P y)∗ Q(w− P y) + const

fur jedes feste y .

4) In der Minimalstelle w(y) von

1

2σ2‖w‖2ρ +

1

2(w− P y)∗ Q(w− P y) auf W

ist z = 0 und daher w(y) = L0 w(y) , wo w(y) die Minimalstelle von qy(w) ist.

Corollar Der lineare Pradiktor zur a priori–Verteilung dπσ2,τ2(w) ist fur jedes (σ2, τ2)

linear und von der Form

Ny + (L0 −N) w(y) ,

wo sich w(y) ∈ W durch eine lineare Transformation aus P y ergibt.



Satz Sei A eine m× p–Matrix mit

W = w : w = C A t

und seien P y = C A ·t(y), w(y) = C A ·s(y). Es gilt dann

s∗(y)

[(1 +

1

τ2

)A

∗C A+

1

σ2A

∗C Q0 C A

]= t∗(y) A

∗C A .

Beweis Die Minimalstelle w(y) von qy(·) ist dadurch gekennzeichnet, daß der in t

lineare Termin in der quadratischen Funktion

qy(w(y) + C A(t) qy(w(y))

verschwindet, d.h.[

1

σ2w∗ Q0 +

1

τ2w∗ Q+(w− P y)∗ Q

]C A = 0 .

Wenn man einsetzt, erhalt man die Behauptung wegen C Q C = C.

Bemerke

1) Die Gleichung hat immer eine Losung. Wenn A∗C A positiv definit ist, ist sie sogar

eindeutig. In jedem Falle die Losung so wahlen, daß sie in y linear ist.

2) Fur σ2 →∞ vereinfacht sich die Gleichung zu

w(y) =

(1 +

1

τ2

)−1

· P y

und der lineare Pradiktor gewinnt die Form

Ny + (I −NM)w(y) = Ny + (L0 −N) w(y)

= Ny + (L0 −N)

(1 +

1

τ2

)−1

· Py .

Interessanter ist aber der Grenzwert fur τ2 →∞, σ2 fest.

Beispiel (Interpolation einer speziellen Zeitreihe)

Ein Mechanismus erzeugt eine Funktion X(t) uber einem Zeitintervall (t′, t′′). (Um Anschluß

an unsere endlichdimensionale Betrachtung zu gewinnen, mussen wir uns eigentlich statt

(t′, t′′) eine endliche Teilmenge I ⊆ (t′, t′′) ausgewahlt denken.) Es wird aber nur an einigen

wenigen Zeitpunkten s1 < s2 < . . . < sm beobachtet. Yj = Y (sj) sei der Beobachtungswert

zum Zeitpunkt sj ∈ J . Wir wollen X(·) auf grund von Y (·)”interpolieren“. Wir suchen

also zu den Beobachtungswerten Y (sj) eine Funktion X(·), die in den s ∈ J mit Y (·)ubereinstimmt, und in den Zwischenraumen vernunftiges Verhalten zeigt.

Um die Aufgabe zu prazisieren, brauchen wir eine Reihe von Vorgaben.



I) Wir nehmen an, daß X(·) von einem stochastischen Prozeß herkommt und zwar von

einem stationaren Prozeß mit der Covarianzfunktion c(·)

cov(Xt+h, Xt) = c(h) fur alle t, t+ h ∈ I .

Ein konkretes Beispiel ware z.B.

c(h) = σ2 · exp(−α · |h|) fur h ∈ R, σ2 > 0 .

Diese”Autokorrelationsfunktion“ tritt in den verschiedensten Zusammenhangen auf.

Der gaußische Prozeß mit dieser Covarianzfunktion E X(t) = 0 heißt der Ornstein–

Uhlenbeck–Prozeß.

II) Nehmen wir zunachst an, daß X(t) den Erwartungswert 0 hat fur alle t. Eine

naheliegende Interpolation ist dann die klassische Regression: X(t) wird durch eine

Linearkombination der Y (s) so approximiert, daß der Unterschied eine moglichst kleine

Varianz hat, m.a.W.

var(X(t) −∑

j

yj(t)Yj) = min

cov(X(t) −∑

j

yj(t) · Yj , Y (s)) = 0 fur alle s ∈ J .

Statt yj(t) schreiben wir auch y(sj, t). Im konkreten Fall kann man das Gleichungs-

system explizit losen. (Wir setzen α = 1, σ2 = 1 der Einfachheit halber.) Fur jedes t

gilt es das Gleichungssystem zu losen.

exp(−|t− s|)−∑

j

y(sj , t) · exp(−|sj − s|) = 0 fur alle s ∈ J. .

In unserem Fall kann man die Regressionskoeffizienten fur alle X(t) explizit bestimmen.

Fur t ∈ J ist nichts zu berechnen. Nehmen wir ein t zwischen zwei s–Werten

s−(t) < t < s+(t)

s+ = t+ δ s− = t− ε .

Wir suchen Gewichte yj(t) mit

∑

j

yj · e−|s−sj | = e−|t−s| fur alle s ∈ J .

In unserem Fall zeigt sich, daß nur zwei Koeffizienten nicht verschwinden. Dies ist ein

Ausdruck der Tatsache, daß der Ornstein–Uhlenbeck Prozeß ein Markovscher Prozeß

ist.



Diese beiden Regressionskoeffizienten kann man mit dem hyperbolischen Sinus aus-

drucken

η− := η(s−(t), t) =1

sinh(δ + ε)· sinh δ

η+ := η(s+(t), t) =1

sinh(δ + ε)· sinh ε

Wir zeigen, daß das Paar η−, η+ das Verlangte leistet fur s > t; fur s < t ist die

Rechnung dieselbe. Wir haben

e−s+s+ = e−s+t−δ; e−s+s− = e−s+t−ε .

Zu zeigen ist

η− · e−ε + η+eδ = 1 .

Und es gilt in der Tat

(2 sinh δ) · e−ε + (2 sinh ε)eδ = (eδ − e−δ)e−ε + (eε − e−ε)eδ

= eε+δ − e−(ε+δ)

= 2 sinh(ε+ δ)

Bemerke

sinh(δ + ε) = sinh δ · cosh ε+ sinh ε · cosh δ .

Wir haben also η− + η+ < 1, wenn nicht ε = δ = 0. Dies hat zur Konsequenz, daß

unsere lineare Regression NY den Meßwerten Y (·) + const nicht die Interpolation

X(·) + const zuordnet. Die Regression ist nicht vertraglich mit der Verschiebung der

Nulllage.

III) Wenn wir eine Interpolationsregel suchen, die mit gewissen Verschiebungen

f1(·), . . . , fp(·) vertraglich ist, dann mussen wir an der Interpolation NY eine Kor-

rektur anbringen

NY + (L0 −N) P Y .

Dabei ist P Y der kleinste Quadrate Schatzer von Y bzgl. der Norm, die zur Co-

varianzmatrix C = cov(Y, Y ) gehort. (Wir wollen hier keine Formel fur ein Q mit

C Q C = C suchen.)

L ist irgendeine Hebung: die Funktionen P Y , die in den Zeitpunkten ∈ J durch

das kleinste Quadrate–Verfahren bestimmt worden sind, werden durch die Hebung in-

terpoliert. Hier hat man Wahlmoglichkeiten, die man am besten durch die Wahl einer



Norm ‖ . . . ‖ auf der Menge aller auf J verschwindenden Funktionen beschreibt. Man

bestimmt die Hebung L0 dazu, so daß (L0 − N) auf den Linearkombinationen der

fk(·) ”klein“ ist.

IV) Wenn die kleinste Quadrate–Schatzer wenig glatt sind, dann ist Verschiebungsver-

traglichkeit des Interpolationsverfahrens nicht wunschenswert (”Uberanpassung“). Es

sollte dann eine a priori–Verteilung gewahlt werden auf dem Vektorraum W, der von

f1, . . . , fp aufgespannt wird. Der entsprechende lineare MAP–Schatzer schließt dann

einen Kompromiß zwischen der Forderung der Verschiebungsvertraglichkeit mit dem

Wunsch nach Glattheit der Interpolation.


10. FEHLERGESETZE, CHARAKTERISIERUNGSSATZE 91

10 Fehlergesetze, Charakterisierungssatze

Die Annahme, daß die Zufallsgroßen normalverteilt sind, legt in Verbindung mit dem ML–

Prinip oder dem MAP–Prinzip sehr schnell lineare Verfahren nahe. Man kann die Sache aber

auch von der anderen Seite sehen; die linearen Verfahren finden eine theoretische Stutze,

wenn man an normalverteilte Zufallsgroßen denkt. Im Folgenden diskutieren wir diese Zu-

sammenhange noch etwas genauer in Situationen, die besonder durchsichtig erscheinen. Wir

beschaftigen uns mit den folgenden”Prinzipien“:

NV : Die”Fehler“ sind normalverteilt

kQ : Die Methode der kleinsten Quadrate

ML : Das Maximum–Likelihood–Prinzip

qV : Das Prinzip der quadratischen Verlustfunktion

Wir haben bereits ausfuhrlich diskutiert, wie die Methode der kleinsten Quadrate zu linea-

ren Schatzern fuhrt, wenn der Parameterraum ein Vektorraum ist. Die Theorie der linearen

Schatzverfahren in der Verbindung mit dem Prinzip der quadratischen Verlustfunktion war

unser Ausgangspunkt in den ersten Abschnitten. Zur Starkung der probabilistischen Anschau-

ung haben wir die lineare Theorie mit dem Prinzip der normalverteilten Fehler unterfuttert.

Das ML–Prinzip haben wir als weitergehendes heuristisches Prinzip ins Spiel gebracht; ebenso

das MAP–Prinzip.

Konkrete mathematische Zusammenhange zwischen den Prinzipien sind die folgenden:

1) NV + ML kQ

2) kQ + ML NV (Gauß)

3) kQ + qV NV ([Gauß], Kagan, Linnik, Rao)

4) (NV) + qV kQ, speziell”lineare Schatzer“.

Wir beweisen zuerst nochmals die einfache erste Aussage. Satze vom Typ 2) und 3) heißen

Charakterierungssatze: Die Normalverteilung ist die einzige Verteilung mit gewissen Eigen-

schaften. Wir beweisen zwei solche Charakterierungssatze.

10.1 Die Herleitung der Methode der kleinsten Quadrate aus NV + ML

Wir erinnern uns an die Situation der (nichtlinearen) parametrischen Regression. Wir neh-

men an, daß die Meßwerte y(i) zu den Design–Punkten t(i) durch normalverteilte Fehler

ε(i) entstellte Werte einer Funktion f(· , ϑ) sind; ϑ ∈ E.

y(i) = f(t(i), ϑ) + ε(i) fur i = 1, 2, . . . ,m .



Die Beobachtung ω ist also durch einen m–Vektor Y (ω) reprasentiert. Wir nehmen an

E ε = 0, cov(ε, ε) = C (positiv definit) .

Die unbekannten Verteilungen Lϑ(Y ) sind durch das Lebesguemaß im Raum der m–Spalten

dominiert.

Wir arrangieren die f–Werte in den Designpunkten in einer m–Spalte f(t;ϑ) (ϑ fest).

Die Dichte von Y unter der Hypothese Hϑ im Punkte y ist

const · exp

(−1

2(y − f(t;ϑ))∗ · C−1 · (y − f(t, ϑ))

).

Die Likelihoodfunktion ist genau dann in ϑ maximal, wenn

(y − f(t, ϑ))∗ · C−1 ·(y − f(t, ϑ)) = min .

Der ML–Schatzer ist also die Losung des Problems der kleinsten Quadrate.

Wie wir gesehen haben, weist das ML–Prinzip uber die Methode der kleinsten Quadrate

hinaus. Wahrend bei der Methode der kleinsten Quadrate C als bekannt vorausgesetzt wird,

braucht das ML–Prinzip diese Annahme nicht. Es ist allerdings nicht ratsam, aus m Daten

y(i) die gesamte Kovarianzstruktur schatzen zu wollen.

10.2 Charakterisierung der Normalverteilung unter

Zugrundelegung von kQ + qV

Sprechweise S(x1, . . . , xn) sei eine reelle Funktion von n reellen Variablen. Die Funk-

tion S(x1, . . . , xn) heiße kovariant, wenn

S(x1 + c, x2 + c, . . . , xn + c) = S(x1, x2, . . . , xn) + c fur alle x ∈ Rn, c ∈ R .

Bemerke

1) Wenn S(·) und T (·) kovariant sind, dann ist auch λ · S(·) + (1 − λ)T (·) kovariant

fur jedes λ ∈ R. Die Menge der kovarianten Funktionen ist ein affiner Raum.

2) Wenn S(·) kovariant ist, dann ist fur jede Permutation π die Funktion

S(π)(x1, . . . , xn) = S(xπ(1), . . . , xπ(n))

kovariant. Insbesondere ist also

S∗(x1, . . . , xn) =1

n!

∑

π

S(π)(x1, . . . , xn)”Permutationsdurchschnitt“

eine kovariante Funktion, und zwar eine symmetrische kovariante Funktion.



3) Beispiele fur symmetrische kovariante Funktionen sind das arithmetische Mittel und der

Median (wobei bei geradem n der Mittelpunkt des zentralen Intervalls als der Median

gelten soll).

4) Wenn S(·) kovariant ist und G(·) invariant, d.h.

G(x1, . . . , xn) = G(0, x2 − x1, x3 − x1, . . . , xn − x1) ,

dann ist auch S(·) +G(·) kovariant.

Wir wenden uns jetzt wieder den Zufallsgroßen zu:

1) Es seien X1, X2, . . . , Xn u.i.v. Zufallsgroßen mit einer unbekannten Verteilung, die in

einer einparametrigen Schar P liegt, welche aus einer einzigen Verteilung µ0 durch

Verschieben hervorgeht. Eine solche Schar P heißt Shift–Familie.

µ0 = L0(X), µϑ = L0(X + ϑ) = Lϑ(X)

2) Wir suchen kovariante Schatzer s = S(X1, . . . , Xn) von ϑ fur welche das”Risiko“

R(s) klein ist.

R(s) := Eϑ(s− ϑ)2 hangt nicht von ϑ ab; denn

Eϑ[S(X1, . . . , Xn)− ϑ]2 = E0[S(X1 + ϑ, . . . ,Xn + ϑ)− ϑ]

= E0[S(X1, . . . , Xn)]2

Wir nehmen an, daß µ0 so ist, daß fur das gegebene n mindestens ein kovari-

anter Schatzer existiert, welcher endliche Varianz hat. Es kommen nur solche s =

S(X1, . . . , Xn) in Betracht, fur welche E0 s = 0; denn

E0(s2) = var0(s) + (E0 s)

2 .

Wenn wir von einem gegebenem s die Konstante E 0 s abziehen, erhalten wir einen

besseren kovarianten Schatzer.

(Im folgenden setzen wir E(·) = E0(·). )

3) Bezeichne An die von X1, . . . , Xn erzeugte σ–Algebra. Der Zufallsvektor

Z = (0, X2 −X1, . . . , Xn −X1) erzeugt eine Teil–σ–Algebra An. Die An–meßbaren

Zufallsgroßen sind diejenigen g = G(X1, X2, . . . , Xn), fur welche

G(x1, . . . , xn) = G(0, x2 − x1, . . . , xn − x1) .



Wenn s = S(X1, . . . , Xn) ein kovarianter Schatzer ist, dann ist auch S(X1, . . . , Xn)−G(X1, . . . , Xn) ein kovarianter Schatzer; insbesondere ist auch s− E(s| An) ein kova-

rianter Schatzer. Dieser hat kleineres Risiko; denn

R(s) = E(s2) = E(E(s2|Z)) = R(s−G(Z)) + E [G(Z)]2

wegen

E(s2|Z) = E([s−G(Z)]2|Z) + [G(Z)]2 .

Wir haben damit eine Verscharfung der Aussage in 2): Zu einem kovarianten Schatzer s

gibt es einen echt besseren, wenn E(s|Z) 6= 0. Bei der Suche nach optimalen Schatzern

konnen wir uns also auf solche beschranken, fur welche E(s|Z) = 0.

4) Wenn aber s = S(X1, . . . , Xn) ein kovarianter Schatzer ist mit E(s|Z) = 0, dann ist

er in der Tat optimal. Sei namlich t irgendein kovarianter Schatzer; dann ist s− t =

S(X1, . . . , Xn)− T (X1, . . . , Xn) Z–meßbar, also

t = s+G(Z), E(t2|Z) = E(s2|Z) + [G(Z)]2

R(t) = E(t2) = E(E(t2|Z)) = R(s) + E [G(Z)]2 .

Damit haben wir den Satz bewiesen:

Satz Ein kovarianter Schatzer s = S(X1, . . . , Xn) ist genau dann optimal fur die Shift–

Familie P, wenn E0(s| An) = 0.

Bemerkung Wenn Lϑ(X) = N (ϑ, 1), dann ist

X =1

n(X1 + . . .+Xn)

der beste unter allen kovarianten Schatzern.

Beweis Wir mussen nur E(X |Z) = 0 beweisen. Wir konnen hier aber sogar L(X |Z)

berechnen; denn bei (X,Z) handelt es sich um einen gaußischen Vektor. Die bedingte

Verteilung L(X |Z = z) ist eine Normalverteilung. Da X unkorreliert zu Z ist, sind X

und Z unabhangig und wir haben L(X |Z = z) = L(X) = N (0, 1n).

Satz (Charakterisierung der Normalverteilung)

(Kagan, Linnik, C.R. Rao, 1965)

Wenn fur eine Shift–Familie L(X + ϑ) : ϑ ∈ R das arithmetische Mittel

Xn =1

n(X1 + . . . Xn)

der beste kovariante Schatzer ist fur ein n ≥ 3, dann gilt

L(X + ϑ) = N (ϑ, σ2) fur ein σ2 ≥ 0 .



Beweis

1) Nur dann, wenn E X = 0 und varX < ∞ kann Xn optimal sein. Es genugt, die

Aussage fur n = 3 zu beweisen. Aus der Optimalitat von Xn folgt nach dem obigen

Satz E(Xn | An) = 0. Also gilt auch

E(Xn | A3) = E(E(Xn | An)| A3) = 0 .

2) 0 = E(nXn | A3) = E(X1 +X2 +X3|(X2 −X1), (X3 −X2)).

Fur jede Funktion G(X2 −X1, X3 −X2) gilt also

E((X1 +X2 +X3) ·G(X2 −X1, X3 −X2)) = 0

insbesondere gilt das fur

G(X2 −X1, X3 −X2) = exp(is(X2 −X1)) · exp(it(X3 −X2))

mit beliebigen s, t ∈ R.

3) Mit ϕ(s) = E(eisX) haben wir 1i ϕ

′(s) = E(X · eisX).

E((X1 +X2 +X3) exp(isX1 + iwX2 + itX3))

=1

i

(∂

∂s+

∂

∂w+∂

∂t

)E(exp(isX1 + iwX2 + itX3))

=1

i

(∂

∂s+

∂

∂w+∂

∂t

)(ϕ(s) · ϕ(w) · ϕ(t))

=1

i

[ϕ′(s)ϕ(w)ϕ(t) + ϕ(s)ϕ′(w)ϕ(t) + ϕ(s)ϕ(w)ϕ′(t)

]

fur alle s, w, t.

4) Insbesondere fur w = −(s+ t)

1

i

[ϕ′(s)ϕ(−s− t)ϕ(t) + ϕ(s)ϕ′(−s− t)ϕ(t) + ϕ(s)ϕ(−s− t)ϕ′(t)

]

= E((X1 +X2 +X3) exp(isX1 − i(s+ t)X2 + itX3))

= E((X1 +X2 +X3)G(X2 −X1, X3 −X2)) = 0 nach 2).

Fur die Funktion

ψ(s) =ϕ′(s)ϕ(s)

=i E(XeisX)

E(eisX)(definiert, wenn ϕ(s) 6= 0)

haben wir also fur alle s, t mit ϕ(s) 6= 0, ϕ(t) 6= 0, ϕ(−s− t) 6= 0

0 = ψ(s) + ψ(−s− t) + ψ(t) .



5) (i) ψ(·) ist stetig in einer Umgebung des Nullpunkts

(ii) ψ(0) = 0

(iii) ψ(−s) = −ψ(s) . (Setze t = 0)

Die Funktionalgleichung ψ(s + t) = ψ(s) + ψ(t) besitzt als stetige Losungen nur die

linearen Funktionen ψ(s) = cs .

d

dslnϕ(s) = cs

E(eisX) = ϕ(s) = const exp

(c · s

2

2

).

Es kommen nur c = −σ2 mit σ2 ≥ 0 in Betracht. ϕ(s) ist die charakteristische

Funktion von N (0, σ2).

L(X) = N (0, σ2) .

Der Satz ist bewiesen.

Bemerkungen

1) Die Voraussetzung n ≥ 3 ist nicht nur fur den Beweis notig. Es gibt in der Tat Shift–

Familien, fur welche bei nur zwei Beobachtungen das arithmetische Mittel der optimale

kovariante Schatzer ist. Sei z.B.

µ0 =1

2δ−1 +

1

2δ+1 .

Wenn wir zwei unabhangige Beobachtungen gemaß einem µϑ haben, dann fallen diese

entweder zusammen oder sie haben den Abstand = 2. Im zweiten Fall kennen wir

den gesuchten Parameter; es ist das arithmetische Mittel der beiden Beobachtungen.

Im ersten Fall kann der gesuchte Parameter um 1 großer oder um 1 kleiner als die zu-

sammenfallenden Beobachtungen sein. Es ist leicht zu sehen, daß der beste Schatzer die

Beobachtung selbst ist, d.h. das arithmetische Mittel der zusammenfallenden Beobach-

tungen. Das arithmetische Mittel 12 (X1 +X2) ist also der beste kovariante Schatzer.

2) Der Satz von Kagan, Linnik und Rao ist uberraschend. Fur jede nichtgaußische Shift–

Familie gibt es bei drei oder mehr unabhangigen Beobachtungen einen besseren kovari-

anten Schatzer als das arithmetische Mittel. Als Ubung bestimme man diesen, wenn 3

unabhangige Beobachtungen aus einer der Verschobenen von µ0 = 14 δ−1 + 1

2 δ0 + 14 δ+1

vorliegen.



10.3 Charakterisierung der Normalverteilung unter

Zugrundelegung von kQ + ML

Satz (Gauß)

Seien X1, . . . , Xn u.i.v. mit

Lϑ(X) = L0(X + ϑ)

und differenzierbarer Likelihoodfunktion. Wenn das ML–Prinzip auf

ϑ =1

n(X1 + . . .+Xn)

fuhrt, dann ist Lϑ(X) : ϑ ∈ R eine gaußische Shift–Familie Lϑ(X) = N (ϑ, σ2) .

Beweis

1) Wir zeigen zunachst, daß fur eine gaußische Shift–Familie das ML–Prinzip auf den

Schatzer X fuhrt.

`(x1,...,xn)(ϑ) = `x1(ϑ) · . . . · `xn

(ϑ)

= const · exp

(− 1

2σ2(x1 − ϑ)2

). . . exp

(− 1

2σ2(xn − ϑ)2

).

Das Maximum wird in ϑ = X angenommen.

2) Da wir eine Shift–Familie haben, ist die Scorefunktion q(ϑ, x) eine Funktion der Dif-

ferenz

q(ϑ, x) = q(x− ϑ) .

Die Scorefunktion fur das n–tupel unabhangiger Beobachtungen ist

q(ϑ, x1) + . . .+ q(ϑ, xn) .

Sie nimmt nach Voraussetzung ihr Minimum in ϑ = 1n(x1 + . . .+ xn) an.

Lemma Es sei q(ϑ, x) = q(x− ϑ) mit q(·) stetig differenzierbar, so daß fur ein n ≥ 3

und jedes n–Tupel x1, . . . , xn

q(ϑ, x1) + . . . + q(ϑ, xn)

das Minimum in ϑ = x = 1n(x1 + . . . + xn) annimmt. Dann gilt fur ein σ2 > 0

q(ϑ, x) =1

2σ2(x− ϑ)2 + const.



Beweis In ϑ = x haben wir

d

dϑ[q(ϑ, x1) + . . .+ q(ϑ, xn)] = 0

q′(x1 − x) + . . . , q′(xn − x) = 0 .

Betrachten wir z.B.

x1 = x, x2 = −x, x3 = 0, . . . , xn = 0 .

Dann ergibt sich q′(x) + q′(−x) = 0. Betrachten wir z.B.

x1, x2, x3 = −(x1 + x2), x4 = 0, . . . , xn = 0 .

Dann ergibt sich

q′(x1 + x2) = q′(x1) + q′(x2) .

Die einzigen stetigen additiven Funktionen auf R sind die linearen Funktionen q ′(z) = cz.

Also gilt

q(z) = const +1

2cz2 .

Da es um Minima geht, und nicht um Maxima, kommt nur c = 1σ2 > 0 in Betracht.

Bemerkung Es kostet etwas mehr Muhe, wenn man zeigen will, daß es auch unter den

stetigen Scorefunktionen q(·) nur die quadratischen sind, die auf das arithmetische Mittel

fuhren.

10.4 Historisches”Elementarfehler“

Hatte nun die Tatsache, daß die Methode der kleinsten Quadrate fur die Astronomie des

fruhen 19. Jahrhunderts so gute Resultate brachte, ihren Grund tatsachlich darin, daß die

Fehler normalverteilt waren? (Bessel hatte schon 1818 in zahlreichen Tests die Wirksamkeit

der Methode von Gauß bestatigt). Geben wir zunachst wieder Gauß (1821/23) das Wort zum

Begriff des Fehlers:”Beobachtungen, welche sich auf Großenbestimmungen aus der Sinnenwelt

beziehen, werden immer, so sorgfaltig man auch verfahren mag, großeren und kleineren Feh-

lern unterworfen bleiben. Die Fehler der Beobachtungen sind im allgemeinen nicht einfache,

sondern entspringen gleichzeitig mehreren Quellen, bei denen zwei Arten genau unterschieden

werden mussen. Gewisse Fehlerursachen sind namlich so beschaffen, daß ihr Einfluß auf jede

Beobachtung von veranderlichen Umstanden abhangt, die unter sich und mit der Beobach-

tung selbst in keinem wesentlichen Zusammenhang stehen; die so entstehenden Fehler werden

unregelmaßige oder zufallige genannt; und insoweit jene Umstande der Rechnung nicht un-

terworfen werden konnen, gilt dieses auch von den Fehlern selbst. Dahin gehoren die von



der Unvollkommeheit unserer Sinne herruhrenden Fehler und solche, die von unregelmaßigen

außeren Ursachen abhangen, z.B. von der durch das Wallen der Luft bewirkten Unsicherheit

beim Sehen; auch rechnen wir hierher manche, selbst den besten Instrumenten anhaftende Un-

vollkommenheiten, z.B. Ungleichformigkeiten, der inneren Wandungen der Libellen, Mangel

an absoluter Festigkeit usw. Dagegen haben andere Fehlerursachen bei samtlichen Beobach-

tungen derselben Art ihrer Natur nach entweder einen vollkommen constanten Einfluß, oder

doch einen solchen, dessen Große in gesetzmaßig bestimmter Weise allein von Umstanden

abhangt, welche mit der Beobachtung wesentlich verknupft sind. Fehler dieser Art werden

constante oder regelmaßige genannt.“ (Gauß, 1964, S.1/2)

”Die Betrachtung der regelmaßigen Fehler soll von unseren Untersuchungen ausdrucklich aus-

geschlossen bleiben. Es ist namlich Sache des Beobachters, alle Ursachen, welche constante

Fehler hervorzubringen vermogen, sorgfaltig aufzusuchen und dieselben entweder abzustellen,

oder wenigstens ihrer Wirkung und Große nach auf das genaueste zu erforschen, um ihren

Einfluß auf jede einzelne Beobachtung bestimmen und diese von jenem befreien zu konnen, so

daß ein Ergebnis erzielt wird, als ob der Fehler uberhaupt nicht vorhanden gewesen ware. Ganz

verschieden hiervon ist aber das Wesen der unregelmaßigen Fehler, welche ihrer Natur nach

der Rechnung nicht unterworfen werden konnen. Diese wird man daher in den Beobachtungen

zwar dulden, ihren Einfluß aber auf die aus den Beobachtungen abzuleitenden Großen durch

eine geschickte Combination der ersteren moglichst abschwachen mussen. Dieser wichtigen

Aufgabe ist die folgende Untersuchung gewidmet.“ (Gauß, 1964, S.2)

Fur die unregelmaßigen Fehler ist der Begriff der Unabhangigkeit wichtig.”Man kann unsere

Aufgabe auch auf den Fall ausdehnen, wo die Werte der Großen V, V ′, V ′′ etc. nicht unmit-

telbar aus den Beobachtungen gefunden, sondern irgendwie aus Combinationen der Beobach-

tungen abgeleitet werden, wenn nur die Bestimmungen der einzelnen voneinander unabhangig

sind, d.h. auf verschiedenen Beobachtungen beruhen: sobald aber diese Bedingung nicht erfullt

ist, wurde die Formel M falsch werden. Ware z.B. eine oder die andere zur Bestimmung

des Werthes von V verwendete Beobachtung auch zur Bestimmung des Werthes von V ′

benutzt worden, so wurden die Fehler e und e′ nicht mehr voneinander unabhangig, und

der mittlere Wert des Produkts ee′ deshalb auch nicht = 0 sein.“ (Gauß, 1964, S.22)

Auf die mit der Unabhangigkeit verbundenen Schwierigkeiten geht Gauß nochmals im Jah-

re 1845 ein:”Bei aller Anwendung des Kalkuls sowohl auf Gegenstande der Natur als auf

sociale Verhaltnisse, pflegen die Erfahrungsdata selten in der reinen Gestalt, wie man sie ei-

gentlich braucht, aufzutreten, sondern fast immer mehr oder weniger behaftet mit Storungen

oder Schwankungen, die in ihrem Wechsel keiner Regel gehorchen, und man sucht dann, wie

jedermann weiß, den daraus entstehenden Nachtheil wenn auch nicht aufzuheben, doch so viel

thunlich zu vermindern, daß man aus vielen einzelnen Resultaten das Mittel nimmt. Man

rechnet darauf, daß bei einer solchen Benutzung einer großen Zahl von Fallen die zufalligen

Schwankungen einander großtentheils compensiren, und legt dann dem Mittelwerthe eine de-

sto großere Zuverlassigkeit bei, je mehr partielle Resultate zugezogen sind. Dieses ist auch

im allgemeinen vollkommen richtig, und durch consequente weitere Entwicklung und umsich-



tige Ausbeutung dieses Princips sind besonders in den Naturwissenschaften nicht selten die

belohnendsten Fruchte, selbst glanzende Resultate, gewonnen. Allein die Sicherheit des Grund-

princips beruhet auf einer wesentlichen Bedingung, die, haufig genug, auch von Gelehrten vom

Fach außer Acht gelassen wird, und die darin besteht, daß die an den einzelnen Beobachtungen

oder Erfahrungen haftenden regellosen Storungen oder Schwankungen voneinander ganz un-

abhangig sein mussen. Das Urtheil, ob eine solche Unabhangigkeit vorhanden sei oder nicht,

kann zuweilen sehr schwierig und ohne tiefes Eindringen in das Sachverhaltniss unmoglich

sein, und wenn daruber Zweifel zuruckbleiben, so wird auch das den Endresultaten beizulegende

Gewicht ein precares sein.“ (Gauß, Gesammelte Werke, 1873, S.143)

Aus all dem geht hervor, daß man den Begriff des Fehlers sorgfaltig fassen muß, bevor man

sich der Frage zuwenden kann, ob die Fehler in einer bestimmten Situation womoglich wirk-

lich normalverteilt sind, was dann in der Tat die Anwendung der Methode der kleinsten

Quadrate auf die von systematischen Fehlern gereinigten Daten nahelegen wurde. Im Zuge

der Entwicklung der sog. Robusten Statistik hat man bei typischen Datensatzen aus verschie-

denen Wissenschaftsbereichen nachgeforscht, inwieweit die Annahme gerechtfertigt ist, daß

die Fehler normalverteilt sind. Es stellte sich heraus, daß es praktisch uberall sog. Ausreißer

(Outliers) gibt. Sogar bei den Astronomen, bei denen schon D. Bernoulli die Sorgfalt des Mes-

sens besonders herausgehoben hat, muß man mit einer Kontamination der Daten rechnen. Es

wird gesagt, daß man typischerweise davon ausgehen sollte, daß an die 10% der Daten nicht

ins Schema der Normalverteilungen passen. In alten Zeiten bereinigte man die Daten nach

Augenmaß. Man konnte jedem einzelnen sonderbaren Meßwert nachgehen und beim Beob-

achter nachfragen. In jungerer Zeit hat man Kunste der Ausreißerbereinigung entwickelt, die

man dem Rechner ubertragen kann. Dabei besteht naturlich die Gefahr, daß man unerwartete

Phanomene, die in der Sache liegen und wirklich das Studium verdienen, wegretuschiert. Aber

das ist eine andere Sache. Eine dieser Kunste, die ubrigens noch in Entwicklung ist, ist die

genannte Robuste Statistik. Eine Monographie daruber stammt von P.J. Huber, einem der

Pioniere.

Im 19. Jahrhundert hatte man nicht so viele Daten, daß man die Fehlerverteilungen empirisch

feststellen konnte. Das Ziel der Ausgleichsrechnung war es, aus den wenigen Daten, die man

hatte, etwas uber die Sache zu lernen; die Fehlerverteilung war der Hintergrund und nicht

das Objekt der Studien.

Eine wichtige Rolle bei der Spekulation um die wahre Fehlerverteilung spielte die”Hypothese

der Elementarfehler“. Laplace hatte in Anschluß an de Moivre gezeigt, daß fur verschie-

dene Verteilungsgesetze gilt: Wenn man eine große Anzahl von unabhangigen nach dieser

Verteilung verteilten Zufallsgroßen hat, dann ist das arithmetische Mittel annahernd normal

verteilt. Die Grundlage der Herleitung der Methode der kleinsten Quadrate bei Gauß war

aber, daß nicht nur die Mittelwerte von Fehlern, sondern die Fehler selbst normalverteilt

sind. E. Czuber hat 1897 im Jahresbericht der deutschen Mathematikervereinigung, Bd. 6,

einen Uberblick vorgelegt:”Die Entwicklung der Wahrscheinlichkeitstheorie und ihre Anwen-

dungen“. Er schreibt da:”Unter den Auffassungen dieses Gegenstands steht ohne Zweifel



wissenschaftlich am hochsten diejenige, welche von der Annahme ausgeht, jeder Beobach-

tungsfehler sei das Resultat der Vereinigung einer großen Anzahl sehr kleiner Fehler, welche

verschiedenen voneinander unabhangigen Ursachen entspringen. Diese Annahme ist aus der

Natur des Gegenstandes hergeholt; . . .“ Der Arbeit Bessels von 1838”Untersuchungen uber

die Wahrscheinlichkeit der Beobachtungsfehler“ spricht Czuber maßgebende Bedeutung zu.

Bessel gibt die Annahme auf, die Verteilungen der Elementarfehler seien identisch. Neben der

Unabhangikeit der zahlreichen Fehlerursachen fordert er nur, daß keine der einzelnen Fehler-

quellen die ubrigen derart uberragt, daß sie auf den Gesamtfehler einen vorwaltenden Einfluß

ausubt. Bessel zahlt fur die Beobachtungssituation des Astronomen zwolf Fehlerquellen auf,

deutet weitere an und sagt zur Gleichgewichtigkeit:”Es ist das Bestreben des Kunstlers, wel-

cher ein Instrument verfertigt, seine einzelnen Teile so anzuordnen, daß sie das, was sie

leisten sollen, mit gleichmaßiger Genauigkeit leisten. Es wurde unnutz sein, einem Kreise

einen großen Halbmesser und bis auf Kleinigkeiten sichere Theilungen zu geben, wenn er nur

ein kleines, wenig sichere Einstellungen gewahrendes Fernrohr tragen sollte. . . .“

Man darf zweifeln, ob die von Bessel hervorgehobene Kunst des Instrumentenbauers, die fur

eine Gleichmaßigkeit der Fehlerquellen und damit fur die Normalverteiltheit der Fehler sorgt,

in unseren modernen Zeiten vorausgesetzt werden kann. Die Verhaltnisse der extremen Ar-

beitsteilung erfordern heute wissenschaftliche Methoden fur die Uberprufung der Normalitat.

Außerdem muß man bedenken, daß die Astronomen des 19. Jahrhunderts ihre wenigen Da-

ten mit Liebe und Verstand uberpruft haben und keinesfalls blind die Methode der kleinsten

Quadrate auf die rohen Daten angewandt haben. Die Gefahr, daß die Methode Unsinniges

liefert und daß die Resultate als wissenschaftliche Wahrheit verkauft werden, ist heute großer

als vor 200 Jahren. Fazit: Man mißtraue den Leuten, die die Methode der kleinsten Quadrate

mit großem rechnerischen Aufwand in die Tat umsetzen ohne einen Gedanken auf die Natur

der Fehler zu verwenden. Die Methode muß sich in jedem konkreten Fall dadurch beweisen,

daß sie die Situation transparent macht. Erwiesenermaßen schlecht funktioniert die ohne Fin-

gerspitzengefuhl angewandte Methode der kleinsten Quadrate, wenn die Fehlerverteilungen

langschwanzig sind oder wenn Ausreißer in den Daten sind. Was Ausreißer sind und wie man

sie als solche erkennt, ist keine rein mathematische Frage.


11. REGRESSION ALS PROJEKTION AUF HILBERTRAUME 102

11 Regression als Projektion auf Hilbertraume

In den geometrischen Uberlegungen der vorigen Abschnitte hatten wir es mit komplexen

n-Spalten und mit affinen Teilmengen des Raumes der n–Spalten zu tun. Die Punkte des

Raumes waren als die Realisierungen eines Zufallsvektors der Lange n zu interpretieren.

Wir kehren jetzt wieder zum Standpunkt der ersten Abschnitte zuruck. Die Zufallsgroßen

wurden dort als Elemente in einem abstrakten Vektorraum behandelt. Der Raum war der

von Zufallsgroßen Xn aufgespannte Vektorraum H. Die Elemente von H waren also

Linearkombinationen dieser Xn; sie waren beschrieben durch Zeilen ξ der Lange n. Wir

interessierten uns ganz besonders fur Zeilen der Form ξ = η M ; solche Zeilen lieferten uns

namlich die Linearkombinationen der beobachteten Zufallsgroßen Yj.

Der Matrizenkalkul ist nun aber unangemessen, wenn wir es mit unendlich vielen Xt und

unendlich vielen beobachteten Zufallsgroßen Ys zu tun haben. Wir wollen daher einen ab-

strakteren Zugang entwickeln.

In der modernen Wahrscheinlichkeitstheorie wird die Gesamtheit aller (komplexwertigen) Zu-

fallsgroßen zu einem Zufallsexperiment als die Gesamtheit aller meßbaren (komplexwertigen)

Funktionen auf einem meßbaren Raum (Ω,A) beschrieben. Jede Wahrscheinlichkeitsbewer-

tung des Zufallsexperiments wird durch ein Wahrscheinlichkeitsmaß P auf A reprasentiert.

Der Erwartungswert bzgl. der Wahrscheinlichkeitsbewertung entspricht dem Integral bzgl.

desentsprechenden Wahrscheinlichkeitsmaßes P . Die komplexwertigen Zufallsgroßen mit

endlicher Varianz bilden den komplexen Hilbertraum L2(Ω,A, P ).

Beachte : Welche komplexwertigen A–meßbaren Funktionen endliche Varianz haben, hangt

von der Wahrscheinlichkeitsbewertung P ab. Die zu den verschiedenen P konstruierten

Hilbertraume L2(Ω,A, P ) kann man allesamt gewinnen als Vervollstandigungen des Vek-

torraums aller beschrankten A–meßbaren Funktionen. Es hangt dann aber von P abt,

welche Funktionen als aquivalent zu betrachten sind und welche weiteren Zufallsgroßen die

Vervollstandigung erbringt.

Wir betrachten jetzt Familien von Zufallsgroßen Xt : t ∈ T und Ys : s ∈ S. Die Xt

spannen einen Hilbertraum H auf; die beobachteten Ys spannen einen Teilraum H′ auf.

In der”linearen Theorie“ geht es darum, zu wissen X ∈ H ein X ∈ H′ zu finden, so daß’

EP

(|X − X |2

)

moglichst klein ist; und das ist erwunscht fur alle in Betracht gezogenen Wahrscheinlichkeits-

bewertungen P . Nur fur sehr spezielle Scharen P von Wahrscheinlichkeitsbewertungen,

P = P (·) : P ∈ P, und fur entsprechend spezielle X ∈ H kann man hoffen, daß es ein

optimales X ∈ H′ gibt, eine Zufallsgroße X also, welche simultan fur alle P ∈ P den im

quadratischen Mittel minimalen Prognosefehler X − X liefert.

EP

(|X − X |2

)minimal fur alle P ∈ P .



Die Theorie der BLUE–Schatzungen beschaftigt sich mit solchen speziellen Situationen. Wir

wollen diese Linie hier nicht mehr weiterverfolgen; wir haben es im folgenden jeweils nur mit

einer einzigen Wahrscheinlichkeitsbewertung zu tun. Die Familie Xt : t ∈ T spannt einen

Teilraum H des Hilbertraums L2(Ω,A, P ) auf; die Familie Ys : s ∈ S spannt einen

Teilraum des Hilbertraums L2(Ω,A′, P ′) auf, wo A′ die von den Ys erzeugte σ–Algebra

ist und P ′ die Einschrankung von P auf die Teil–σ–Algebra A′.

11.1 Regression im starken Sinne

Man darf die Aufgabenstellung der linearen Regression nicht verwechseln mit der Regression

im starken Sinn. Die nichtlineare Regressionstheorie sucht zu gewissen X mit endlicher

Varianz eine Zufallsgroße von der Form

X ′ = ϕ(Y1, . . . , Ym) ,

wo ϕ(·) eine borelsche Funktion ist. ϕ soll so konstruiert werden, daß der quadratische

Abstand zu X minimal ist.

E(|X −X ′|2

)= min .

Man beweist in der Maßtheorie, daß es ein solches ϕ(·) gibt und daß X ′ im wesentlichen

eindeutig bestimmt ist. Man nennt ϕ(·) die Regressionsfunktion von X auf Yj : j ∈ J.In der alteren Literatur findet man die Bezeichnung ϕ(y) = E(X|Y = y).

Man sieht genauer, worum es hier geht, wenn man die Situation verallgemeinert. In der

Maßtheorie beweist man den

Satz Sei X ∈ L2(Ω,A, P ) und sei A′ eine Teil–σ–Algebra von A. Es existiert dann

eine (bis auf P–Aquivalenz eindeutig bestimmte) Zufallsgroße

X ′ ∈ L2(Ω,A′, P ) mit E(|X −X ′|2

)= min .

Bemerke Im Falle, daß A′ von endlich vielen Zufallsgroßen Yj erzeugt ist, ist jede

A′–meßbare Zufallsgroße von der Gestalt ϕ(Y1, . . . , Ym) mit borelschem ϕ(·). Der Satz

beschreibt also in der Tat eine Verallgemeinerung des eben skizzierten nichtlinearen Regres-

sionsproblems. Wenn es auch nur eine Zufallsgroße X ′ = ϕ(Y1, . . . , Ym) gibt, so daß

E(|X −X ′|2

)= min

so mag es naturlich doch viele Funktionen ϕ(·) geben. Insofern ist die”Regressionsfunktion“

ϕ(·) nicht wohlbestimmt.



In den Urzeiten der Regressionsanalyse dachte man an gemeinsame Verteilungen im R2, bei

welchen der bedingte Mittelwert der Ordinate gegeben die Abszisse (nicht notwendigerweise

linear!) vom Abszissenwert abhangt. Der bedingte Mittelwert hangt in der Form einer”Re-

gressionskurve“ ϕ(·) oder im hoherdimensionalen Fall in der Form einer”Regressionsflache“

von den”erklarenden Variablen“ ab. Diese Vorstellung ist aber mit Vorsicht zu gebrauchen.

Wer eine beste Parabel durch ein Streudiagramm im R2 legen will, macht lineare Regression;

die Gesamtheit der Parabeln β0 + β1x+ β2x2 ist ein Vektorraum — und darauf kommt es

an. Nur wer wirklich alle borelschen Funktion der erklarenden Variablen zur Pradiktion des

Regressanden zulaßt, betreibt wirklich nichtlineare Regression.

Der oben formulierte Satz der Maßtheorie gehort zur Theorie der bedingten Erwartungen.

Die gesuchte Zufallsgroße X ′ ist namlich die bedingte Erwartung

X ′ = E(X|A′) P–fast sicher .

Satz Die Zufallsgroße X ′ ist gekennzeichnet durch die Eigenschaften

(i) X ′ ist A′–meßbar

(ii) E((X −X ′) · 1A′) = 0 fur alle A′ ∈ A′.

Hinweise

1) Die Abbildung der”eigentlichen“ Regression

L2(Ω,A, P ) −→ L2(Ω,A′, P )

ist die orthogonale Projektion im Sinne der Hilbertraumtheorie. Der Prognosefehler

X − X ′ ist das Lot von X auf den Raum L2(Ω,A′, P ). Die Eigenschaft (ii) kann

man namlich offensichtlich verallgemeinern zu der Aussage

(ii′) cov (X −X ′, Z ′) = 0 fur alle Z ′ ∈ L2(Ω,A′, P ).

Manche Lehrbucher nahern sich dem Begriff der bedingten Erwartung uber die hier

vorgestellte orthogonale Projektion des L2(Ω,A, P ) auf den Teilraum L2(Ω,A′, P ).

Sie wollen damit denjenigen Studenten entgegenkommen, die Erfahrungen in der Funk-

tionalanalysis mitbringen. Es erfordert in der Tat nur eine kleine maßtheoretische Zu-

satzuberlegung, um den Operator der bedingten Erwartung E(·|A ′) vom L2(Ω,A, P )

auf den naturlichen Definitionsbereich L1(Ω,A′, P ) fortzusetzen.

2) Beim Begriff der starken Regression von X auf die Familie Yj : j ∈ J braucht

man keinerlei Annahmen uber die Art der Zufallsgroßen Yj; es kommt uberhaupt nur

auf die von den Yj erzeugte σ–Algebra an

A′ = Yj : j ∈ Jσ .



Auf der anderen Seite steht die Begriffsbildung der linearen Regression von X auf

die Familie Yj : j ∈ J voraus, daß die Yj Zufallsgroßen mit endlicher Varianz sind.

Es kommt auf den von den Yj aufgespannten Hilbertraum an. Nennen wir ihn

A′ = Yj : j ∈ J` .

Die Elemente Y von H′ sind diejenigen Zufallsgroßen, die sich im Sinne der L2–Norm

durch endliche Linearkombinationen der Yj approximieren lassen. (Es ist oft ratsam,

anzunehmen, daß die Familie die konstante Zufallsgroße ≡ 1 enthalt.) Offenbar gilt

H′ ⊆ L2(Ω, Yj : j ∈ Jσ, P ) .

Die lineare Regression auf H′ ist die orthogonale Projektion auf H′. Bei der linearen

Regression soll die Zufallsgroße X ∈ L2(Ω,A, P ) durch eine Linearkombination der Yj

approximiert werden.

Bezeichnung Wir bezeichnen den Operator der linearen Regression mit

P (·|Yj : j ∈ J) .

Satz Fur jedes X ∈ L2(Ω,A, P ) ist

X = P (X|Yj : j ∈ J)

durch die folgenden Eigenschaften charakterisiert

(i) X liegt in der linearen Hulle der Yj

(ii) X − X ist unkorreliert mit allen Yj.

Probleme der Anwendbarkeit Die Beliebtheit der linearen Regression ruhrt zum

großen Teil daher, daß diese in Situationen technisch bewaltigt werden kann, in welchen die

eigentliche Regression vor technis unlosbaren Problemen steht. Es ist diskussionsbedurftig,

was die lineare Regression in solchen Fallen fur die Anwendungen leistet. Die Anwendungs-

problematik ist dieselbe wie in der elementaren Theorie der kleinsten Quadrate. Solange man

nicht grundlich auf die Daten schaut und nur den Mechanismus der linearen Algebra in Be-

wegung setzt, bleibt offen, welche Bedeutung man den”optimalen“ Prozeduren zugestehen

kann.

Die idealen Umstande fur die Regressionstheorie bietet der Fall, wo alle auftretenden Zufalls-

großen X und Yj gemeinsam gaußisch verteilt sind. In diesem Fall liefert die lineare

Regression die wirkliche Regression. Der Prognosefehler fur die lineare Regression ist nicht

nur unkorreliert zu allen Yj; er ist sogar stochastisch unabhangig von allen Yj , und daher

gilt

cov (X − X, ψ(Yj : j ∈ J)) = 0

fur alle (beschrankten) borelschen ψ(·).



11.2 Isometrische Hilbertraume

Die Techniken der linearen Regression nehmen keinen Bezug auf die gemeinsamen Verteilun-

gen. Sie benutzen nur die Hilbertraummetrik, d.h. sie benutzen nur die Covarianzstruktur.

Man ersetzt die (moglicherweise recht unubersichtlichen) Teilraume des L2(Ω,A, P ) durch

isomorphe Hilbertraume, in welchen man Techniken einsetzen kann, die man aus anderen

mathematischen Theorien kennt. Als ein besonderer Glucksfall ist es anzusehen, wenn es ge-

lingt uber die Technik auch Vorstellungsweisen aus anderen Theorien mit Vorstellungsweisen

der Stochastik zusammenzubringen; vor vorschnellen Analogien muß aber gewarnt werden.

Ein besonders wichtiges Anwendungsgebiet fur die linearen Theorie ist die Theorie der sta-

tionaren Zeitreihen. Man studiert Zeitreihen im zeitlichen Verlauf und im Frequenzbereich.

Man arbeitet parallel in zwei konkreten Hilbertraumen. Dabei erganzen sich im gunstigen Fall

Vorstellungsweisen aus der Elektrotechnik und der Akustik mit Vorstellungsweisen der Sto-

chastik. Die Parallelitaten konnen aber leider auch Verwirrung stiften. Es ist problematisch,

wenn man beliebigen Zeitreihen aus der Statistik unterstellt, daß sie sich wie schwingfahige

Systeme verhalten. Feller (Band II, Kapitel III.3) spottet insbesondere uber die (einstmalige)

Mode, in allen moglichen Zeitreihen verborgene Periodizitaten zu suchen.


12. SCHWACHSTATIONARE FOLGEN; COVARIANZFOLGEN 107

12 Schwachstationare Folgen; Covarianzfolgen

Definition Man sagt von einer Folge komplexwertiger Zufallsgroßen Xn : n ∈ Z, sie

sei ein schwachstationarer Prozeß mit Erwartungswert = 0, Varianz = σ2 und Covarianz-

folge c(n) : n ∈ Z, wenn gilt

E Xn = 0 , var Xn = σ2 fur alle n

cov (Xk, X`) = c(k − `) .

Die Folge 1σ2 c(n) heißt die Autokorrelationsfolge des Prozesses X(n) : n ∈ Z. Von

besonderem Interesse fur die lineare Theorie sind die gaußischen stationaren Folgen. Man

spricht von einem gaußischen Prozeß (stationar oder nichtstationar), wenn je endlich viele

der Zufalllsgroßen gemeinsam gaußisch verteilt sind. (Wir denken hier an komplexe gaußische

Vektoren; es gibt aber auch den Begriff des reellen gaußischen Prozesses.)

Es ist klar, daß nicht jede Folge komplexer Zahlen als eine Autokorrelationsfolge auftreten

kann. Wir haben z.B.

|c(n)| ≤ c(0) = σ2 ; c(−n) = c(n) fur alle n .

Außerdem ist c(·) positiv semidefinit im Sinn der folgenden

Definition Eine beschrankte Folge komplexer Zahlen c(n) : n ∈ Z heißt positiv

semidefinit, wenn fur alle komplexen Tupel ξ gilt

∑

k,`

ξk · c(k − `) · ξ` ≥ 0 .

Satz Jede Autokorrelationsfolge ist positiv semidefinit.

Beweis

∑

k,`

ξk · c(k − `) · ξ` = cov

(∑

k

ξkXk,∑

`

ξ`X`

)= var

(∑ξkXk

)≥ 0 .

Hinweis Man sagt bekanntlich von einer komplexen N ×N–Matrix C, sie sei positiv

semidefinit, wenn ξCξ∗ ≥ 0 fur alle komplexe N–Zeilen ξ. Das Matrizenprodukt ξCξ∗

ist die Doppelsumme

ξCξ∗ =∑

k

ξk c(k, `) ξ` .

Wenn man zur Covarianzfolge c(n) : n ∈ Z die N × N–Matrix bildet, welche in der

Position (k, `) den Eintrag

c(k, `) = c(k − `) fur k, ` = 1, 2, . . . , N



hat, dann erhalt man eine positiv semidefinite Matrix.

Damit ist die Verbindung hergestellt zwischen der Sprechweise der Matrizenrechnung und der

neuen Sprechweise, die sich auf Folgen komplexer Zahlen bezieht.

Satz Zu jeder positiv semidefiniten Folge c(n) : n ∈ N gibt es einen komplexen

gaußischen Prozeß Xn : n ∈ N mit

E Xn = 0 , var Xn = c(0) fur alle n

E(XkX`) = c(k − `) fur alle n

Beweis Wir haben oben gesehen, daß es zu jeder positiv semidefiniten N×N Matrix C

genau eine komplexe Normalverteilung N (0, C) auf dem Raum CN gibt. Wir interessieren

uns fur die Matrizen C mit den Eintragen c(k, `) = c(k−`). Es geht darum, die Verteilungen

auszudehnen zu einem Maß auf dem unendlichen Produktraum

CZ = . . .C−1×C0×C1×C2× . . .

mit der Produkt–σ–Algebra. Nach einem beruhmten Satz von Kolmogorov existiert zu je-

der vertraglichen Schar endlichdimensionaler Marginalverteilungen genau ein Maß auf dem

unendlichen Produktraum. — Diesen Satz wollen wir hier ohne Beweis akzeptieren.

Der folgende Satz (”Satz von Herglotz“) charakterisiert die positiv semidefiniten Folgen im

Sinne der Analysis.

Satz (Charakterisierung der Covarianzfolgen)

Sei c(n) : n ∈ Z eine beschranke Folge komplexer Zahlen. Die Folge ist genau dann positiv

semidefinit, wenn sie die Folge der Fourier–Koeffizienten eines Maßes ist

c(n) =

∫einxdµ(x) fur n ∈ Z .

Beweis der einfachen Teilaussage:

Jede Folge von Fourier–Koeffizienten ist positiv semidefinit; denn

∑

k,`

ξk c(k − `)ξ` =∑

ξk ·∫

ei(k−`)xdµ(x) · ξ`

=

∫ (∑

k

ξk · eikx

)(∑

`

ξ` · ei`x)dµ(x)

=

∫ ∣∣∣∑

ξk · eikx∣∣∣2dµ(x) ≥ 0 .



Die andere Richtung der Aussage ist wesentlich interessanter. Wir werden den Beweis in meh-

rere Schritte auflosen. Zunachst erinnern wir aber an die Begriffe der Fourier–Koeffizienten

eines Maßes und an den Begriff der charakteristischen Funktion

ϕ(t) =

∫eitxdµ(x) fur t ∈ R .

Wir wollen namlich (in einer informellen Weise) parallel zum zeitdiskreten Fall auch den

zeitkontinuierlichen Fall behandeln. Dazu dient die folgende Definition und die Formulierung

des Charakterisierungssatzes fur kontinuierliche Zeit.

Definition Eine stetige beschrankte Funktion c(t) : t ∈ R heißt eine positiv semide-

finite Funktion, wenn fur alle t1, . . . , tN ∈ R und alle ξ1, . . . , ξN ∈ C gilt

∑

k,`

ξk · c(tk − t`) · ξ` ≥ 0 .

Satz Jede positiv semidefinite Funktion c(·) mit c(0) = 1 ist die charakteristische

Funktion eines Wahrscheinlichkeitsmaßes

c(t) =

∫eiωtdµ(ω) .

Bemerkungen Sei ϕ(t) eine charakteristische Funktion.

1) Ihre Einschrankung auf Z ist eine positiv semidefinite Folge. Wir werden sehen, daß

es genau ein Wahrscheinlichkeitsmaß dµ(1)(ω) auf [0, 2π) gibt mit

ϕ(n) =

∫einωdµ(1)(ω) .

Jedes um ein Vielfaches von 2π verschobene Maß liefert aber offensichtlich dieselben

Fourierkoeffizienten.

2) Sei nun M eine feste naturliche Zahl. Die Einschrankung von ϕ(·) auf die Gruppe1M Z = n

M : z ∈ Z liefert eine positiv semidefinite Folge ϕ( nM ) : n ∈ Z. Es gibt

genau ein Wahrscheinlichkeitsmaß dµ(M)(ω) auf [0, 2πM) mit

∫exp

(in

Mω)dµ(M)(ω) = ϕ

( nM

)fur alle n ∈ Z .

Man gelangt von dµ(M)(ω) zu dµ(1)(ω) dadurch, daß man das Maß, welches µ(M) in

die Intervalle [(k − 1)2π, k · 2π), k = 1, 2, . . . ,M legt, in das Intervall [0, 2π) hinein

verschiebt.

Betrachten wir die µ(M) zu einer Folge 1 < M1 < M2 < . . ., wo Mn ein Teiler von

MN+1 ist. µ(Mn+1) entsteht aus µ(Mn) durch ein”Auffachern“.



3) Sei c(·) eine stetige beschrankte Funktion, so daß

c( nM

): n ∈ N

positiv semidefinit ist fur jedes M ∈ N (oder fur eine Folge 1 < M1 < M2 < . . . wie

oben). Man muß fragen, ob die schrittweise Auffacherung zu einer schwach konvergenten

Folge von Maßen dµ(M)(ω) fuhrt. In der elementaren Stochastik lernt man, daß die

Stetigkeit von c(·) im Nullpunkt das garantiert. Die Folge der Maße dµ(M) ist dann

namlich straff; es gibt eine konvergente Teilfolge. Die Konvergenz folgt schließlich aus

dem Eindeutigkeitssatz: Jedes endliche Maß ist durch seine charakteristische Funktion

eindeutig bestimmt.

Den Beweis des Satzes von Herglotz fuhren wir in mehreren Schritten.

Lemma 1 : Sei c(n) : n ∈ N eine absolut summable Folge, so daß

f(ω) :=∑

n

c(n) e−inω ≥ 0 fur alle ω .

Dann ist c(·) die Folge der Fourier–Koeffizienten eines Maßes mit stetiger Dichte auf

[0, 2π).

Beweis Wenn

dµ(x) =1

2πf(x)dx fur x ∈ [0, 2π) ,

dann gilt fur alle n ∈ N

∫einxdµ(x) =

1

2π

2π∫

0

einx

(∑

k

c(k) · e−ikω

)dx

=∑

k

c(k) · 1

2π

2π∫

0

ei(n−k)xdx = c(n) .

Wir nehmen im folgenden c(0) = 1 an, das darstellende Maß ist dann ein Wahrschein-

lichkeitsmaß.

Lemma 1∗ : Sei c(t) : t ∈ R eine stetige Funktion mit

+∞∫

−∞

|c(s)|ds <∞ , c(0) = 1



und

f(ω) =

+∞∫

−∞

c(s) · e−isωds ≥ 0 fur alle ω .

Dann gilt fur das Wahrscheinlichkeitsmaß

dµ(x) =1

2πf(x)dx fur alle x ∈ R

∫eitxdµ(x) = c(t) fur alle t

(Ohne Beweis !)

Lemma 2 : Sei c(n) : n ∈ Z eine positiv semidefinite Folge. Fur jedes N ∈ N ist dann

auch

c(n) := c(n)

(1− |n|

N

)+

eine positiv semidefinite Folge.

Beweis Wir zeigen, daß c(n) die Voraussetzung von 1) erfullt. Betrachte die Zeile

ξ =1√n

(. . . , 0, 0, e−iω , e−i2ω, . . . , e−iNω, 0, 0, . . .

).

Es gilt

0 ≤∑

k,`

ξk c(k − `) ξ` =1

N

∑

k,`

e−ikω c(k − `9 · ei`ω ,

wobei in der zweiten Summe uber alle Paare k, ` mit |k − `| < N zu summieren ist.

Zu (k− `) = 0 gibt es N Summanden; zu (k− `) = ±1 gibt es N − 1 Summanden

usw. Wir haben somit

0 ≤∑

k,`

ξk c(k − `) · ξ` =∑

n

c(n) · e−iωn

(1− |n|

N

)+

.

Lemma 2∗ : Sei c(t) : t ∈ R eine positiv semidefinite Funktion. Fur jedes T > 0 ist

dann auch

c(t) = c(t)

(1− |t|

T

)+

eine positiv semidefinite Funktion.



Beweisskizze Fur jedes ξ(·) mit∫|ξ(s)|ds <∞ gilt

∫ξ(s) · c(s− t) · ξ(t) ds dt ≥ 0 .

(Man approximiere das Integral durch Riemannsummen zunachst fur stetige ξ(·).)Betrachte

ξ(s) =

1√Te−isω fur 0 < syT

0 sonst .

Wir lassen nun N nach ∞ gehen.

c = c(n)

(1− |n|

N

)+

ist positiv semidefinit fur jedes N . N = 1, 2, 3, . . . . Die entsprechenden Wahrscheinlich-

keitsmaße dµN (x) auf der kompakten Gruppe R /2π besitzen eine schwach konvergente

Teilfolge. Das Grenzmaß hat die Fourier–Koeffizienten

c(n) = limN→∞

c(n)

(1− |n|

N

)+

=

∫einxdµ(x) .

Das Grenzmaß ist durch die Fourier–Koeffizienten eindeutig bestimmt. Jede schwach

konvergente Teilfolge der Folge dµN konvergiert gegen dasselbe µ. Also ist (dµN )N

sogar schwach konvergent.

Beachte aber, daß das Grnzmasß nicht notwendigerweise totalstetig ist bzgl. des Lebes-

guemaßes auf R /2π. Die Funktionenfolge

fN(ω) =∑

n

c(n)

(1− |n|

N

)+

· e−inω

ist nicht notwendigerweise gleichmaßig integrabel bzgl. des Lebesgue–Maßes auf R /2π.

Hinweise

1) In der ingenieurwissenschaftlichen Literatur nennt man das Integral

1

c(0)

+∞∫

−∞

|c(s)|ds

manchmal die Korrelationsdauer des stationaren Prozesses. Wenn die Korrelationsdauer

endlich ist, dann hat das”Spektralmaß“ dµ(ω) eine Dichte. Man nennt sie die spektrale

Leistungsdichte des Prozesses

dµ(ω) =1

2πf(ω)dω =

1

2π

[∫e−isωc(s)ds

]dω .



2) Der Satz von Herglotz zeigt, welche Folgen c(n) (bzw. Funktionen c(t)) aus rein

mathematischer Sicht als Autokorrelationsfolgen (bzw. –funktionen) in Betracht kom-

men. Es ist eine ganz andere Frage, welche Folgen geeignet erscheinen, um praktisch

vorkommende stationare Erscheinungen zu modellieren.

Als besonders nutzlich haben sich die Covarianzfolgen zu den rational gebrochenen

Spektraldichten erwiesen

1

2πf(ω)dω =

σ2

2π

∣∣Θ(e−iω

)∣∣2

|ϕ (e−iω)|2dω fur ω(−π,+π) .

Hierbei sind

ϑ(z) = 1 + ϑ1z + . . .+ ϑq · zq

ϕ(z) = 1− ϕ1z − . . .− ϕp · zp

Polynome ohne gemeinsame Nullstellen, wobei ϕ(z) auf der Peripherie des Einheits-

kreises nicht verschwindet.

Die folgenden Kapitel werden noch einige Hinweise auf die Rolle dieser speziellen Spektral-

dichten geben.



12.1 Anhang zur Statistik

Wir gingen hier immer davon aus, daß die Covarianzstruktur unseres Prozesses bekannt ist.

Das ist nicht die Situation in der Statistik; die”wahren“ Wahrscheinlichkeiten sind nicht be-

kannt. Man hat auch nicht unendlich viele Beobachtungen. Man steht vor dem Problem, eine

endliche Folge von Beobachtungen als Abschnitt einer stationaren Folge zu begreifen. Wenn

man einmal davon ausgeht, daß dem Geschehen ein stationarer stochastischer Prozeß zugrun-

deliegt, dann geht es darum, sich aufgrund des tatsachlich beobachteten endlichen Abschnitts

Vorstellungen vom Mittelwert, von der Varianz und von der Autokorrelationsfolge zu machen.

Man muß nunversuchen, diese Kenngroßen des (vermutlich) zugrundeliegenden Prozesses zu

schatzen; bei den Autokorrelationen c(n) kann man allerdings nur fur”Verzogerungen“ n,

d.h. zu n, die klein sind im Vergleich zur Lange des gegebenen Abschnitts, auf diskutable

Schatzwerte hoffen. Man kann dann Pradiktionsprobleme auf der Grundlage der geschatzten

Covarianzstruktur in Angriff nehmen. Man kann aber auch uber die Spektraltheorie an solche

Probleme herangehen.

Bei der Schatzung der Spektralmaße ist einiges zu beachten. Die Lehrbucher warnen vor

allzu naivem Herangehen. Das Stichwort, um welches sich die Mahnungen zur Vorsicht ranken,

ist das”Periodogramm“. Wir konnen hier nur einige sparliche Hinweise geben. Es ist nicht

empfehlenswert, so zu tun, als hatte man die Folge

. . . , 0, 0, Xs, Xs+1, Xs+2, . . . , Xt−2, Xt−1, Xt, 0, 0, . . .

beobachtet. Die Spezialisten empfehlen ein”Tapering“: die x–Werte an den Enden der Serie

werden langsam an die Null herangefuhrt. Man tut z.B. so, als hatte man beobachtet

. . . , 0, 0, Ys, Ys+1, Xs+2, Xs+3, . . . , Xt−3, Yt−2, Yt−1, Xt, 0, 0, . . .

mit

Ys = αXs, Yt = αXt, Ys+1 = βXs+1, Yt−1 = βXt−1

wo 0 < α < β < 1 .

Fur eine Folge dieser Art studiert man dann die”empirische Autokorrelationsfolge“ und

die”empirische Spektraldichte“. Und es besteht die Hoffnung, daß man aus ihr diskutable

Auskunfte uber den”wahren“ stationaren Prozeß (Xn)n ableiten kann.

Definition (Empirische Autokorrelation)

Gegeben sei eine Folge komplexwertiger Zufallsgroßen

. . . , Y−1, Y0, Y1, Y2, . . .

mit∑Yn = 0 und S2 :=

∑ |Yn|2 <∞ (fast sicher).

Man definiert dann die empirische Autokorrelation zur Verzogerung m

A(m) :=1

S2

∑

n

Yn+m · Yn .



Bemerke

1) A(0) = 1 und∑ |A(m)| <∞ (fast sicher).

2) A(k − `) =1

S2

∑n Yn+k · Yn+` fur alle k, ` ∈ Z.

3) Die Folge A(·) ist positiv semidefinit

S2∑

k,`

ξk ·A(k − `) · ξ` =∑

k,`

ξk

(∑

n

yn+k · Yn+`

)· ξ`

=

∣∣∣∣∣∣

∑

k,n

ξk Yn+k

∣∣∣∣∣∣

2

≥ 0 .

Satz Durch die empirische Autokorrelation A(·) ist ein zufalliges Wahrscheinlichkeits-

maß auf [0, 2π) bestimmt; dieses hat eine Dichte bzgl. des Lebesgue–Maßes auf [0, 2π).

Diese Dichte heißt die normierte empirische Spektraldichte der Folge Y (n) : n ∈ Z

A(m) =1

2π

2π∫

0

eimx f(x)dx fur alle m ∈ Z .

Es gilt fur alle k, `

A(k − `) =1

2π

2π∫

0

eikx · ei`x · f(x)dx =1

S2

∑

n

Yn+k · Yn+` .

Wir mussen es einer Spezialvorlesung uber Zeitreihenanalyse uberlassen, die statistischen Ei-

genschaften der zufalligen Dichten zu untersuchen. Man kann in der Tat asymptotische Aus-

sagen beweisen, wenn man immer langere Abschnitte aus einer Zeitreihe (Xn)n herausgreift,

fur welche nicht nur (Xn)n selbst, sonder auch (X2n)n schwach stationar ist.

Wir haben oben gesehen, wie man die Spektraldichte zu einer absolut summablen positiv

semidefiniten Funktion A(·) direkt ausrechnen kann

f(x) =∑

m

A(m) e−imx ≥ 0 fur alle x ∈ [0, 2π) .

In unserem Falle konnen wir f(·) nun auch direkt aus den Beobachtungswerten

Y (n) : n ∈ Z gewinnen

S2 ·∑

m

A(m) · e−imx =∑

m

(∑

n

Yn+m · Yn

)· e−imx

=∑

m,n

(Ym+n · e−i(m+n)x

)(Yn · e−inx

)

=

∣∣∣∣∣∑

n

Yn · e−inx

∣∣∣∣∣

2



Hier ist also f(x) (bis auf eine Normierungskonstante) der Absolutbetrag der Fourier–

Rucktransformierten der Beobachtungswerte.

Wie bereits oben gesagt, ist es nicht empfehlenswert diese Fourier–Rucktransformation auf

eine brutal abgeschnittene Zeitreihe anzuwenden. Das sogenannte Periodogramm einer stati-

onaren Zeitreihe (Xn)n

IN (x) :=1

N

∣∣∣∣∣

N∑

n=1

Xn · e−inx

∣∣∣∣∣

2

hat keine guten statistischen Eigenschaften (fur N →∞).