265
Reihenherausgeber: Prof. Dr. Holger Dette · Prof. Dr. Wolfgang Karl Härdle

Mathematische Statistik ||

Embed Size (px)

Citation preview

Page 1: Mathematische Statistik ||

Reihenherausgeber:

Prof. Dr. Holger Dette · Prof. Dr. Wolfgang Karl Härdle

Page 2: Mathematische Statistik ||

Statistik und ihre Anwendungen

Weitere Bände dieser Reihe finden Sie unter http://www.springer.com/series/5100

Page 3: Mathematische Statistik ||

Claudia Czado · Thorsten Schmidt

Mathematische Statistik

123

Page 4: Mathematische Statistik ||

Prof. Claudia Czado, Ph.D.Technische Universität MünchenLehrstuhl für MathematischeStatistikBoltzmannstraße 385748 [email protected]

Prof. Dr. Thorsten SchmidtTechnische Universität ChemnitzFakultät für MathematikReichenhainer Straße 4109126 [email protected]

ISBN 978-3-642-17260-1 e-ISBN 978-3-642-17261-8DOI 10.1007/978-3-642-17261-8Springer Heidelberg Dordrecht London New York

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie;detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.

c© Springer-Verlag Berlin Heidelberg 2011Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die derÜbersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, derFunksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherungin Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. EineVervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzender gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9.September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig.Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes.Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werkberechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne derWarenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermannbenutzt werden dürften.

Einbandentwurf: WMXDesign GmbH, Heidelberg

Gedruckt auf säurefreiem Papier

Springer ist Teil der Fachverlagsgruppe Springer Science+Business Media (www.springer.com)

Page 5: Mathematische Statistik ||

Vorwort

Mit den wachsenden Moglichkeiten Daten zu erheben steht deren adaqua-te Auswertung und Bewertung im Mittelpunkt der Statistik. Dabei tretenviele unterschiedliche Datenstrukturen auf, die eine komplexe Modellierungerforderlich machen. In weiteren Schritten sind statistische Verfahren zumAnpassen der Modelle oder zum Untersuchen von interessanten Fragestel-lungen notwendig. Dieses Buch stellt die dafur notwendigen mathematischenGrundlagen und Konzepte der Statistik zur Verfugung. Dabei wird Wertauf die Herleitung von statistischen Fragestellungen und deren probabilisti-sche Behandlung gelegt. Um die Verstandlichkeit zu erhohen, werden vieleBeispiele ausgearbeitet und elementare Beweise ohne maßtheoretische Hilfs-mittel gezeigt. Genaue Literaturhinweise ermoglichen die weitergehende Ver-tiefung. Durch die kurze und prazise Darstellung wird daruber hinaus einschneller Einstieg in das Fachgebiet ermoglicht. Dabei folgen wir dem An-satz von Bickel und Doksum (1977, 2001) und Casella und Berger (2002).Bei der Auswahl der Themen orientieren wir uns an der Praxisrelevanz derVerfahren. Anhand einer umfangreichen Aufgabensammlung am Ende jedesKapitels kann das Verstandnis uberpruft und vertieft werden.

Dieses Buch richtet sich an Studierende der Mathematik und Statistikim zweiten oder dritten Jahr des Bachelor-Studiums oder ersten Jahr desMaster-Studiums. Fur andere Fachrichtungen ist ein starker mathematischerSchwerpunkt notwendig. Das Buch setzt Grundlagen der Wahrscheinlichkeits-theorie voraus wie sie zum Beispiel in Dehling und Haupt (2004) oder Georgii(2004) zu finden sind. Das mathematische Niveau des Buches liegt zwischenFahrmeir et. al (2004) und den englischen Standardwerken von Lehmann undCasella (1998), Lehmann und Romano (2006) und Shao (2008).

Das Buch ist aus einer vierstundigen Vorlesung ”Mathematische Statistik“,die wir an der Technischen Universitat Munchen fur Studierende in Mathe-matik mit Schwerpunkt Finanz- und Wirtschaftsmathematik gehalten haben,entstanden.

Der Inhalt des Buches gliedert sich wie folgt: Im ersten Kapitel werden diespater benotigten Konzepte der Wahrscheinlichkeitstheorie kurz vorgestellt.

v

Page 6: Mathematische Statistik ||

vi Vorwort

Der zentrale Begriff eines statistischen Modells und insbesondere die Klasseder exponentiellen Familien werden im zweiten Kapitel eingefuhrt. Nebendem klassischen statistischen Modellansatz wird auch der Bayesianische Mo-dellansatz diskutiert, welcher mit der Entwicklung von Markov Chain MonteCarlo Verfahren in jungster Zeit sehr an Bedeutung gewonnen hat.

Im dritten Kapitel wenden wir uns den Schatzverfahren zu, wobei wir dieMomentenmethode, Kleinste-Quadrate-Verfahren und Maximum-Likelihood-Schatzer (MLS) in ein- und mehrdimensionalen Modellen beschreiben. Esschließen sich das numerische Fisher-Scoring-Verfahren und Bayesianische a-posterori-Modusschatzer an.

Im vierten Kapitel werden Vergleichskriterien von Schatzverfahren ent-wickelt. Dabei folgen wir im ersten Teil der klassischen Theorie nach Lehmann-Scheffe und studieren den zentralen Begriff eines gleichformig besten Schatzers(Uniformly Minimal Variance Unbiased Estimator - kurz UMVUE). Die Be-stimmung solcher Schatzer wird anhand zahlreicher Beispiele gezeigt. Imzweiten Teil widmen wir uns der asymptotischen Theorie der Schatzfolgenund analysieren Konsistenz, asymptotische Normalitat und asymptotischeEffizienz. Im Weiteren wird die Fisher Information eingefuhrt und ihr Zu-sammenhang mit der Informationsungleichung aufgezeigt.

Zur Bestimmung der Prazision eines Schatzverfahrens wird im funften Ka-pitel der Begriff eines Intervallschatzers eingefuhrt. Dieser entspricht im klas-sischen Ansatz dem Konfidenzintervall, und im Bayesianischen Ansatz dem

”Credible Interval“. Anschließend entwickeln wir das Konzept des statisti-schen Hypothesentestes und schließen mit der Dualitat zwischen Hypothe-sentests und Konfidenzintervallen.

In Kapitel 6 wird die Optimalitatstheorie nach Neyman und Pearsonbehandelt. Es zeigt sich, dass die Anwendbarkeit dieser Konstruktion vonoptimalen Tests auf eine kleine Klasse von Testproblemen beschrankt ist,weswegen im zweiten Teil der verallgemeinerte Likelihood-Quotienten-Testeingefuhrt und an mehreren Beispielen illustriert wird. Konfidenzintervallekonnen nun mit Hilfe der oben angesprochenen Dualitat bestimmt werden.

Das abschließende Kapitel stellt lineare Modelle vor und wir zeigen, dassdie klassisch auftretenden Kleinste-Quadrate Schatzer als UMVUE-Schatzeridentifiziert werden konnen. Die Optimalitat dieser Schatzer wird mit Hilfedes Theorems von Gauß und Markov bewiesen. Hiernach leiten wir verallge-meinerte Likelihood-Quotienten-Tests her und illustrieren in der Anwendungwichtige Modellklassen wie multiple lineare Regression und Varianzanalyse(ANOVA) an Datenbeispielen.

Zu guter Letzt mochten wir uns bei den Studierenden fur die zahlrei-chen Ruckmeldungen bezuglich der ersten Skriptversionen bedanken. Insbe-sondere danken wir Stephan Haug, Aleksey Min, Jan Mai, Eike ChristianBrechmann und Jakob Stober fur ihre Korrekturhilfen und Damir Filipovicfur seinen wichtigen Hinweis. Ein ganz besonderer Dank gilt Susanne Vet-

Page 7: Mathematische Statistik ||

Vorwort vii

ter fur ihre fabelhafte und unermudliche Hilfe mit welcher sie das Skriptumum viele Quantensprunge verbessert hat. Die Zusammenarbeit mit ClemensHeine vom Springer Verlag war sehr professionell und stets hilfreich.

Munchen & Leipzig, Claudia Czado und Thorsten Schmidt22. Januar 2011

Page 8: Mathematische Statistik ||

Inhaltsverzeichnis

1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik 11.1 Grundbegriffe der Wahrscheinlichkeitstheorie . . . . . . . . . 11.2 Klassische Verteilungen der Statistik . . . . . . . . . . . . . . 9

1.2.1 Die Multivariate Normalverteilung . . . . . . . . . . . 181.3 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . 201.4 Grenzwertsatze . . . . . . . . . . . . . . . . . . . . . . . . . . 24

1.4.1 Referenzen . . . . . . . . . . . . . . . . . . . . . . . . 281.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2. Statistische Modelle 372.1 Formulierung von statistischen Modellen . . . . . . . . . . . . 392.2 Suffizienz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432.3 Exponentielle Familien . . . . . . . . . . . . . . . . . . . . . . 492.4 Bayesianische Modelle . . . . . . . . . . . . . . . . . . . . . . 57

2.4.1 Referenzen . . . . . . . . . . . . . . . . . . . . . . . . 632.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3. Schatzmethoden 713.1 Substitutionsprinzip . . . . . . . . . . . . . . . . . . . . . . . 72

3.1.1 Haufigkeitssubstitution . . . . . . . . . . . . . . . . . . 733.1.2 Momentenmethode . . . . . . . . . . . . . . . . . . . . 75

3.2 Methode der kleinsten Quadrate . . . . . . . . . . . . . . . . 773.2.1 Allgemeine und lineare Regressionsmodelle . . . . . . 783.2.2 Methode der kleinsten Quadrate . . . . . . . . . . . . 803.2.3 Gewichtete Kleinste-Quadrate-Schatzer . . . . . . . . 83

3.3 Maximum-Likelihood-Schatzung . . . . . . . . . . . . . . . . 833.3.1 Maximum-Likelihood in eindimensionalen Modellen . 863.3.2 Maximum-Likelihood in mehrdimensionalen Modellen 923.3.3 Numerische Bestimmung des Maximum-Likelihood-

Schatzers . . . . . . . . . . . . . . . . . . . . . . . . . 93

ix

Page 9: Mathematische Statistik ||

x Inhaltsverzeichnis

3.4 Vergleich der Maximum-Likelihood-Methode mit anderenSchatzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 95

3.5 Anpassungstests . . . . . . . . . . . . . . . . . . . . . . . . . 963.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

4. Vergleich von Schatzern: Optimalitatstheorie 1034.1 Schatzkriterien . . . . . . . . . . . . . . . . . . . . . . . . . . 1034.2 UMVUE-Schatzer . . . . . . . . . . . . . . . . . . . . . . . . 1084.3 Die Informationsungleichung . . . . . . . . . . . . . . . . . . 115

4.3.1 Anwendung der Informationsungleichung . . . . . . . 1184.4 Asymptotische Theorie . . . . . . . . . . . . . . . . . . . . . . 119

4.4.1 Konsistenz . . . . . . . . . . . . . . . . . . . . . . . . 1204.4.2 Asymptotische Normalitat und verwandte

Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . 1224.4.3 Asymptotische Effizienz und Optimalitat . . . . . . . 1264.4.4 Asymptotische Verteilung von Maximum-Likelihood-

Schatzern . . . . . . . . . . . . . . . . . . . . . . . . . 1284.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

5. Konfidenzintervalle und Hypothesentests 1395.1 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . 139

5.1.1 Der eindimensionale Fall . . . . . . . . . . . . . . . . . 1405.1.2 Der mehrdimensionale Fall . . . . . . . . . . . . . . . 1455.1.3 Bayesianischer Intervallschatzer . . . . . . . . . . . . . 146

5.2 Das Testen von Hypothesen . . . . . . . . . . . . . . . . . . . 1475.2.1 Fehlerwahrscheinlichkeiten und Gute . . . . . . . . . . 1495.2.2 Der p-Wert: Die Teststatistik als Evidenz . . . . . . . 1545.2.3 Gute und Stichprobengroße: Indifferenzzonen . . . . . 155

5.3 Dualitat zwischen Konfidenzintervallen und Tests . . . . . . . 1575.3.1 Aus Konfidenzintervallen konstruierte Tests . . . . . . 1585.3.2 Aus Tests konstruierte Konfidenzintervalle . . . . . . . 158

5.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

6. Optimale Tests und Konfidenzintervalle, Likelihood-Quotienten-Tests und verwandte Methoden 1636.1 Das Neyman-Pearson-Lemma . . . . . . . . . . . . . . . . . . 1636.2 Uniformly Most Powerful Tests . . . . . . . . . . . . . . . . . 171

6.2.1 Exponentielle Familien . . . . . . . . . . . . . . . . . . 1726.3 Likelihood-Quotienten-Tests . . . . . . . . . . . . . . . . . . . 177

6.3.1 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . 1796.4 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

7. Lineare Modelle - Regression und Varianzanalyse (ANOVA) 1917.1 Einfuhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191

7.1.1 Das allgemeine lineare Modell . . . . . . . . . . . . . . 1937.1.2 Die Matrixformulierung des linearen Modells . . . . . 195

Page 10: Mathematische Statistik ||

Inhaltsverzeichnis xi

7.2 Schatzung in linearen Modellen . . . . . . . . . . . . . . . . . 1977.2.1 Die kanonische Form . . . . . . . . . . . . . . . . . . . 1987.2.2 UMVUE-Schatzer . . . . . . . . . . . . . . . . . . . . 2007.2.3 Projektionen im linearen Modell . . . . . . . . . . . . 2017.2.4 Der Satz von Gauß-Markov . . . . . . . . . . . . . . . 2097.2.5 Schatzung der Fehlervarianz . . . . . . . . . . . . . . . 2107.2.6 Verteilungstheorie und Konfidenzintervalle . . . . . . . 211

7.3 Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . . 2137.3.1 Likelihood-Quotienten-Test . . . . . . . . . . . . . . . 2147.3.2 Beispiele: Anwendungen . . . . . . . . . . . . . . . . . 220

7.4 Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . 2237.4.1 ANOVA im Einfaktorenmodell . . . . . . . . . . . . . 2247.4.2 ANOVA im Mehrfaktormodell . . . . . . . . . . . . . 2277.4.3 Referenzen . . . . . . . . . . . . . . . . . . . . . . . . 231

7.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232

A Resultate uber benutzte Verteilungsfamilien 235A1 Liste der verwendeten Verteilungen . . . . . . . . . . . . . . . 235

B Tabellen 237Exponentielle Familien . . . . . . . . . . . . . . . . . . . . . . . . . 237

C Verzeichnisse 239Tabellenverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . 239Abbildungsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . 240Liste der Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . 241Liste der Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . 244

Literaturverzeichnis 249

Sachverzeichnis 251

Page 11: Mathematische Statistik ||

Kapitel 1.

Grundlagen derWahrscheinlichkeitstheorie und Statistik

Statistik ist die Wissenschaft, die Regeln und Verfahren fur die Erhebung,Beschreibung, Analyse und Interpretation von numerischen Daten entwickelt.

Der Schwerpunkt dieses Buches liegt auf der Entwicklung und Darstel-lung von statistischen Analyseverfahren. Dazu werden stochastische Modellevorgestellt, die von unbekannten Parametern abhangen. Um diese Parametermit Hilfe von erhobenen Daten bestimmen zu konnen, werden Verfahren zurSchatzung von Parametern konstruiert und verglichen. Unter gewissen An-nahmen uber die zugrundeliegenden stochastischen Modelle werden hierananschließend Verfahren zum Testen von Hypothesen entwickelt.

Die in den spateren Kapiteln behandelten Schatz- und Testverfahrenbenotigen einen wahrscheinlichkeitstheoretischen Rahmen. Dieses Kapitelgibt eine kurze Einfuhrung in die dafur notwendigen Hilfsmittel aus derWahrscheinlichkeitstheorie. Hierbei werden viele verschiedene Verteilungenvorgestellt und in den Beispielen vertieft, was fur die erfolgreiche Anpassungan verschiedene Datensatze wichtig ist. Fur eine ausgiebige Darstellung seiauf Georgii (2004), Resnick (2003) und Chung (2001) verwiesen.

1.1 Grundbegriffe der Wahrscheinlichkeitstheorie

Dieser Abschnitt beschreibt kurz den Kolmogorovschen Zugang zur Wahr-scheinlichkeitstheorie. Jedem zufalligen Ereignis wird hierbei eine Wahr-scheinlichkeit zugeordnet. Ein Ereignis ist beschrieben durch eine Menge.Das gleichzeitige Eintreten zweier Ereignisse ist der Schnitt zweier Mengen,welches wieder ein Ereignis sein sollte. Dies erfordert eine Axiomatik, wel-che im Folgenden vorgestellt wird. Grundlage bildet ein Wahrscheinlichkeits-raum (Ω,A, P), wobei Ω den Grundraum, A die zugehorige σ-Algebra undP ein Wahrscheinlichkeitsmaß bezeichnet. Die Elemente von A beschreibendie Ereignisse, welche in einem Zufallsexperiment auftreten konnen. Mit zwei

C. Czado, T. Schmidt, Mathematische Statistik, Statistik und ihre 1Anwendungen, DOI 10.1007/978-3-642-17261-8 1,c© Springer-Verlag Berlin Heidelberg 2011

Page 12: Mathematische Statistik ||

2 1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik

Ereignissen A und B aus A mochte man auch das Ereignis ”A und B ” be-trachten konnen, weswegen man von A gewisse Eigenschaften fordert. EineMenge A, dessen Elemente Teilmengen von Ω sind, heißt σ-Algebra, falls:

(i) Ω ∈ A.

(ii) Fur jedes A ∈ A gilt A := Ω\A ∈ A.

(iii) Fur Elemente A1, A2, . . . von A gilt∞⋃

n=1An ∈ A.

Weiterhin wird verlangt, dass das Wahrscheinlichkeitsmaß P die klassischenKolmogorovschen Axiome erfullt. Demnach ist die Abbildung P : A → [0, 1]ein Wahrscheinlichkeitsmaß, falls die folgenden drei Eigenschaften erfulltsind:

(i) P(Ω) = 1.(ii) 0 ≤ P(A) ≤ 1 fur alle A ∈ A.(iii) Fur Elemente A1, A2, . . . von A mit Ai ∩ Aj = ∅ fur jedes i �= j gilt:

P

( ∞∑

i=1

Ai

)=

∞∑

i=1

P(Ai).

Hat der Grundraum Ω die Form Ω = {ω1, ω2, . . .}, so nennen wir den zu-gehorigen Wahrscheinlichkeitsraum diskret. In diesem Fall zerfallt der Grund-raum in hochstens abzahlbar viele disjunkte Ereignisse, und jedes Ereignis{ωi} heißt Elementarereignis.

Bedingte Wahrscheinlichkeiten und Unabhangigkeit. Beobachtet manein Ereignis, so hat dies moglicherweise einen Einfluß auf die Einschatzungvon anderen Ereignissen. Dies wird durch die Verwendung von bedingtenWahrscheinlichkeiten formalisiert.

Seien A,B ∈ A zwei Ereignisse mit P(B) > 0. Die bedingte Wahrschein-lichkeit von A gegeben B ist definiert durch

P(A|B) :=P(A ∩ B)

P(B).

Daruber hinaus definiert P(·|B) : A → [0, 1] das bedingte Wahrscheinlich-keitsmaß gegeben B. Dieses Maß ist in der Tat ein Wahrscheinlichkeitsmaß,was in Aufgabe 1.18 bewiesen werden soll.

Ist Ω =⋃n

i=1 Bi und sind die Bi paarweise disjunkt, so schreiben wirΩ =

∑ni=1 Bi. In manchen Situationen sind die bedingten Wahrscheinlich-

keiten P(A|Bi) bekannt und man mochte P(Bi|A) bestimmen. Als Beispielbetrachten wir einen medizinischen Diagnosetest. Die Wahrscheinlichkeiten,dass ein getesteter Patient ein positives (bzw. negatives) Testergebnis erhalt,

Page 13: Mathematische Statistik ||

1.1 Grundbegriffe der Wahrscheinlichkeitstheorie 3

wenn er tatsachlich die Krankheit hat, seien bekannt. Als Patient mit po-sitivem Testergebnis ist man an der Wahrscheinlichkeit, ob die Krankheitwirklich vorliegt, interessiert. Diese kann man mit dem Satz von Bayes be-stimmen.

Satz 1.1 (Satz von Bayes). Sei Ω =n∑

i=1

Bi mit P(Bi) > 0 fur i = 1, . . . , n.

Dann gilt fur A ∈ A mit P(A) > 0, dass

P(Bi|A) =P(A|Bi)P(Bi)

n∑

j=1

P(A|Bj)P(Bj).

Diese Formel wird oft als Bayes-Formel bezeichnet. Die Erweiterung auf Zu-fallsvariablen mit einer Dichte ist Gegenstand von Aufgabe 1.27. Zwei Ereig-nisse A und B heißen unabhangig, falls

P(A ∩ B) = P(A) P(B).

Dann gilt auch P(A|B) = P(A). Fur n Ereignisse muss man die (schwachere)paarweise Unabhangigkeit von der folgenden Eigenschaft unterscheiden: DieEreignisse A1, . . . , An heißen unabhangig, falls

P(Ai1 ∩ . . . ∩ Aik) =

k∏

j=1

P(Aij) ∀ {i1, . . . , ik} ⊂ {1, . . . , n}.

Zufallsvariablen. Ein Zufallsexperiment wird durch eine Zufallsvariablemodelliert. Eine (k-dimensionale) Zufallsvariable X ist intuitiv gesprocheneine Abbildung, welche die Grundereignisse ω ∈ Ω auf Vektoren im R

k ab-bildet. Um die Wahrscheinlichkeit etwa fur das Ereignis A := {X ≤ 0}berechnen zu konnen, ist A ∈ A zu fordern. Das fuhrt zu folgendem Begriffder Meßbarkeit : Sei Bk die Borel-σ-Algebra1. Eine k-dimensionale Zufallsva-riable ist eine A−Bk meßbare Abbildung X : Ω → R

k, d.h. fur jedes B ∈ Bk

istX−1(B) := {ω ∈ Ω : X(ω) ∈ B} ∈ A.

Wir setzen in diesem Buch die Meßbarkeit der verwendeten Funktionen stetsvoraus und geben nur an wenigen Stellen Hinweise auf die zugrundeliegendenmaßtheoretischen Fragen.

Eine Zufallsvariable X heißt diskret, falls sie hochstens abzahlbar vieleWerte x1,x2, . . . annimmt. Dann heißt die Funktion pX : {x1,x2, . . . } →1 Die Borel-σ-Algebra ist die kleinste σ-Algebra, die alle offenen Rechtecke, in diesemFall (a1, b1) × · · · × (ak, bk), enthalt.

Page 14: Mathematische Statistik ||

4 1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik

[0, 1] gegeben durch

pX(xi) = P(X = xi), i = 1, 2, . . .

die Wahrscheinlichkeitsfunktion von X. Durch sie ist X vollstandig be-schrieben, denn fur jede Wertemenge B ⊂ {x1,x2, . . . } ist P(X ∈ B) =∑

xi∈B

pX(xi). Um im Folgenden eine einheitliche Schreibweise mit steti-

gen Zufallsvariablen nutzen zu konnen, setzen wir stets pX(x) := 0 furx �∈ {x1,x2, . . . }.Ist eine Zufallsvariable nicht diskret, so kann man sie oft durch ihre Dich-te beschreiben. Eine Dichte ist eine nichtnegative Funktion p auf R

k, dieLebesgue-integrierbar ist mit

Rk

p(x) dx = 1.

Gilt fur eine Zufallsvariable X, dass fur alle B ∈ Bk

P(X ∈ B) =∫

B

p(x)dx

und ist p eine Dichte, so heißt p die Dichte von X. In diesem Fall heißt Xstetige Zufallsvariable.

Unabhangig davon, ob eine Zufallsvariable diskret ist oder etwa eine Dichtebesitzt, lasst sie sich stets durch ihre Verteilungsfunktion beschreiben. DieVerteilungsfunktion einer Zufallsvariable X ist definiert durch

FX(x) = FX(x1, . . . , xk) := P(X1 ≤ x1, . . . , Xk ≤ xk).

Die Verteilungsfunktion hat, wie man leicht sieht, folgende Eigenschaften.Zur Einfachheit betrachten wir nur den eindimensionalen Fall. Dann gilt:0 ≤ F ≤ 1, F ist monoton wachsend, rechtsseitig stetig, lim

x→∞F (x) = 1 und

limx→−∞F (x) = 0. Neben der Verteilungsfunktion spricht man allgemeiner von

der Verteilung einer Zufallsvariable. Die Verteilung einer Zufallsvariable Xist ein Wahrscheinlichkeitsmaß PX , gegeben durch

PX(B) := P ({ω ∈ Ω : X(ω) ∈ B}) = P(X ∈ B), B ∈ Bk.

Die Verteilung einer Zufallsvariable ist je nach Typ der Zufallsvariable un-terschiedlich darstellbar. Ist X eine diskrete Zufallsvariable mit Wertenx1,x2, . . . und mit Wahrscheinlichkeitsfunktion p, so ist

P(X ∈ B) =∑

xi∈B

p(xi), B ∈ Bk.

Page 15: Mathematische Statistik ||

1.1 Grundbegriffe der Wahrscheinlichkeitstheorie 5

Hat X hingegen die Dichte p, so ist

P(X ∈ B) =∫

B

p(x)dx, B ∈ Bk.

Transformationssatz. Eine Transformation einer k-dimensionalen Zufalls-variable X ist eine meßbare Abbildung h : R

k → Rm, d.h. h−1(B) ∈ Bk fur

alle Mengen B aus der Borel-σ-Algebra Bm. Die Verteilung der transformier-ten Zufallsvariable h(X) ist bestimmt durch

P(h(X) ∈ B) = P(X ∈ h−1(B))

fur alle B ∈ Bm. Als Anwendung betrachten wir folgendes Beispiel.B 1.1 Mittelwert und Stichprobenvarianz : Betrachtet man eine Stichprobe gegeben

durch k reellwertige Zufallsvariablen X = (X1, . . . , Xk)� mit k ≥ 2, so ist derVektor gegeben durch den arithmetischen Mittelwert und die Stichprobenva-rianz eine Transformation von X: In diesem Fall ist h(X) = (h1(X), h2(X));der arithmetische Mittelwert ist h1(X) und die Stichprobenvarianz ist h2(X)mit

h1(X) :=1k

k∑

i=1

Xi =: X,

h2(X) :=1

k − 1

k∑

i=1

(Xi − X

)2 =: s2(X).

Die besondere Normierung mit (k − 1) sorgt dafur, dass die Stichproben-varianz erwartungstreu ist, eine Eigenschaft welche man verliert, wenn manstattdessen mit k normiert. Dies werden wir in Aufgabe 1.3 diskutieren.

Fur stetige, reellwertige Zufallsvariablen hat man folgenden wichtigenSatz:

Satz 1.2 (Transformationssatz). Sei X eine reellwertige, stetige Zufalls-variable mit Dichte pX . Die Transformation h : R → R sei bijektiv aufeiner offenen Menge B mit P(X ∈ B) = 1. Ferner sei h differenzierbarund h′(x) �= 0 ∀ x ∈ B. Dann ist Y := h(X) eine stetige Zufallsvariableund die Dichte von Y ist gegeben durch

ph(X)(y) =pX(h−1(y))|h′(h−1(y))| 1{h−1(y)∈B}, y ∈ R.

Diese Behauptung lasst sich leicht durch Differenzieren der Verteilungs-funktion von Y und Anwenden der Kettenregel zeigen.

Page 16: Mathematische Statistik ||

6 1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik

Im mehrdimensionalen Fall gilt ein analoges Resultat: Sei h : Rk → R

k,h = (h1, . . . , hk), hi : R

k → R und die Jacobi-Determinante gegeben durch

Jh(x) :=

∣∣∣∣∣∣∣

∂∂x1

h1(x) . . . ∂∂x1

hk(x)...

...∂

∂xkh1(x) . . . ∂

∂xkhk(x)

∣∣∣∣∣∣∣.

Satz 1.3 (Transformationssatz fur Zufallsvektoren). Sei h : Rk → R

k undB ⊂ R

k eine offene Menge, so dass gilt:

(i) h hat stetige erste partielle Ableitungen auf B,(ii) h ist bijektiv auf B,(iii) Jh(x) �= 0, ∀ x ∈ B

und sei X eine stetige Zufallsvariable mit P(X ∈ B) = 1. Dann ist dieDichte von Y := h(X) gegeben durch

pY (y) = pX(h−1(y)) · |Jh−1(y)|1{h−1(y)∈B}, y ∈ Rk.

Unabhangigkeit. Die Unabhangigkeit von Zufallsvariablen geht maßgeb-lich auf die Unabhangigkeit von Ereignissen zuruck. Zwei ZufallsvariablenX1 ∈ R

k und X2 ∈ Rm heißen unabhangig , falls die Ereignisse {X1 ∈ A}

und {X2 ∈ B} unabhangig fur alle A ∈ Bk und B ∈ Bm sind.Unabhangigkeit kann man dadurch charakterisieren, dass die Dichte, die

Wahrscheinlichkeitsfunktion oder die Verteilungsfunktion in Produktgestaltzerfallt:

Satz 1.4. Ist die Zufallsvariable X = (X1, . . . , Xk)� stetig mit Dichte pX

oder diskret mit Wahrscheinlichkeitsfunktion pX , so sind die folgenden dreiAussagen aquivalent:

(i) X1, . . . , Xk sind unabhangig.(ii) FX(x1, . . . , xk) = FX1(x1) · · ·FXk

(xk) fur alle x1, . . . , xk ∈ R.(iii) pX(x1, . . . , xk) = pX1(x1) · · · pXk

(xk) fur alle x1, . . . , xk ∈ R.

Wir bezeichnen Zufallsvariablen X1, . . . , Xk oder auch etwa eine gan-ze Folge X1,X2, . . . als unabhangig, falls fur jede beliebige Kombination(i1, . . . , ik1) und (j1, . . . , jk2), welche sich nicht uberschneiden, die Vektoren(Xi1 , . . . , Xik1

)� und (Xj1 , . . . , Xjk2)� unabhangig sind. Im Allgemeinen ist

dies starker als die Annahme der paarweisen Unabhangigkeit, unter welcherjedes Xi und Xj mit i �= j unabhangig sind.

Page 17: Mathematische Statistik ||

1.1 Grundbegriffe der Wahrscheinlichkeitstheorie 7

Zufallsvariablen, welche unabhangig und identisch verteilt sind, bezeichnenwir kurz als i.i.d. (independent and identically distributed). Dies ist eine inder Statistik haufig gemachte Annahme.

Momente. Wichtige Charakteristika von Zufallsvariablen konnen oftmalsdurch einfachere Funktionale als die Verteilungsfunktion beschrieben wer-den. Die Normalverteilung beispielsweise ist vollstandig durch ihr erstes undzweites Moment beschrieben. Dieser Abschnitt fuhrt zentrale Großen wieErwartungswert und Varianz und daruber hinausgehend die Momente einerZufallsvariable ein. Fur x ∈ R

k erhalt man durch |x| := |x1|+ · · ·+ |xd| eineNorm auf dem Vektorraum R

k.Der Erwartungswert einer Zufallsvariable X ist wie folgt definiert: Ist X

diskret mit Werten {x1,x2, . . .}, so ist der Erwartungswert definiert durch

E(X) :=∞∑

i=1

xiP(X = xi),

falls die Summe absolut konvergiert, wofur wir E(|X|) < ∞ schreiben. Ist Xeine stetige Zufallsvariable mit Dichte pX , so ist

E(X) :=∫

Rk

xpX(x)dx,

falls∫

Rk |x| pX(x)dx < ∞. Gilt E(|X|) < ∞, so nennen wir X integrier-bar. Der Erwartungswert einer Zufallsvariable gibt den Wert an, welchen dieZufallsvariable im Mittel annimmt. Man verifiziert leicht, dass der Erwar-tungswert ein linearer Operator ist, d.h. fur a1, . . . , an ∈ R ist

E

( n∑

i=1

aiXi

)=

n∑

i=1

aiE(Xi).

Daruber hinaus ist der Ewartungswert monoton, d.h. aus P(X ≥ Y ) = 1folgt Hierbei ist fur zwei Vektoren der komponentenweise Vergleich gemeint:a ≥ b ⇔ ai ≥ bi fur alle 1 ≤ i ≤ d.

E(X) ≥ E(Y ). (1.1)

Folgende Ungleichung wird sich als nutzlicher Begleiter erweisen. Eine Funk-tion g : R → R heißt konvex, falls g(λx + (1− λ)y) ≤ λg(x) + (1− λ)g(y) furalle λ ∈ (0, 1) und alle x, y ∈ R.

Satz 1.5 (Jensensche Ungleichung). Sei g : R → R konvex und X einereellwertige Zufallsvariable mit E(|X|) < ∞. Dann gilt

E(g(X)

) ≥ g(E(X)

). (1.2)

Gleichheit in (1.2) gilt genau dann, wenn fur jede Gerade a+bx tangentialzu g an x = E(X) gilt, dass P(g(X) = a + bX) = 1.

Page 18: Mathematische Statistik ||

8 1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik

Ein typisches Beispiel ist g(x) = x2: Fur eine Zufallsvariable X mit verschwin-denden Erwartungswert folgt bereits aus x2 ≥ 0, dass E(X2) ≥ (E(X))2 = 0.

Das k-te Moment von X ist E(Xk) und das k-te zentrierte (zentrale) Mo-ment von X ist definiert durch

μk := E

((X − E(X)

)k)

.

Das zweite zentrierte Moment spielt eine besondere Rolle: Die Varianz vonX ist definiert durch

σ2 := Var(X) = E

((X − E(X)

)2)

= E(X2) − (E(X))2

.

Die letzte Gleichheit lasst sich durch Ausmultiplizieren und Verwendung derLinearitat des Erwartungswertes leicht zeigen. Gilt E(X2) < ∞, so nennenwir X quadrat-integrierbar. Die Varianz ist ein Maß fur die Streuung einerZufallsvariable. Um die Abweichung einer Zufallsvariable von einer Normal-verteilung zu messen, nutzt man typischerweise noch ein geeignetes drittesund viertes Moment, die Schiefe (skewness): γ1 = μ3

σ3 und die Kurtosis:γ2 := μ4

σ4 − 3. Betrachtet man zwei reellwertige Zufallsvariablen X1 und X2,so kann man deren lineare Abhangigkeit durch die Kovarianz erfassen. DiesesMaß zeigt allerdings außerhalb der Normalverteilungsfamilien prekare Eigen-heiten und sollte dort nur mit Vorsicht angewendet werden, siehe Aufgabe1.2 und Schmidt (2007). Fur zwei quadrat-integrierbare Zufallsvariablen X1

und X2 definiert man die Kovarianz von X1 und X2 durch

Cov(X1,X2) := E((

X1 − E(X1)) · (X2 − E(X2)

))= E(X1X2)−E(X1)E(X2).

Die Kovarianz ist dabei abhangig von den Varianzen der einzelnen Zufalls-variablen. Ein skalenunabhangiges Maß fur die lineare Abhangigkeit ist dieKorrelation zwischen X1 und X2. Sie ist definiert durch

Corr(X1,X2) :=Cov(X1,X2)

(Var(X1)Var(X2)

)1/2;

es gilt Corr(X1,X2) ∈ [−1, 1]. Zwei Zufallsvariablen X1,X2 mit Cov(X1,X2)=0 nennt man unkorreliert. Sind die quadrat-integrierbaren Zufallsvariablen X1

und X2 unabhangig, so folgt aus E(X1X2) = E(X1)E(X2), dass

Cov(X1,X2) = Corr(X1,X2) = 0.

Die Umkehrung trifft typischerweise nicht zu, siehe Aufgabe 1.2. Weiterhingilt die so genannte Cauchy-Schwarz Ungleichung

(Cov(X,Y ))2 ≤ Var(X) · Var(Y ). (1.3)

Fur quadrat-integrierbare Zufallsvariablen X1, . . . , Xn gilt

Page 19: Mathematische Statistik ||

1.2 Klassische Verteilungen der Statistik 9

Var(X1 + · · · + Xn) =n∑

i=1

Var(Xi) + 2n∑

i,j=1,i<j

Cov(Xi,Xj).

Sind X1, . . . , Xn daruber hinaus paarweise unkorreliert (dies folgt aus derenUnabhangigkeit), so gilt die wichtige Regel von Bienayme

Var(X1 + · · · + Xn) =n∑

i=1

Var(Xi). (1.4)

Momentenerzeugende Funktion. Mitunter ist es gunstig, zur Beschrei-bung der Verteilung einer Zufallsvariable ein weiteres Hilfsmittel zur Verfugungzu haben. Ein solches ist die so genannte momentenerzeugende Funktion ΨX .Ist X eine reellwertige Zufallsvariable, so ist ΨX : R → [0,∞] definiert durch

ΨX(s) := E(esX).

Offensichtlich ist ΨX(0) = 1. Ist ΨX endlich in einer Umgebung der Null, sobestimmt ΨX(s) eindeutig die Verteilung von X. Daruber hinaus gilt dannauch, dass

dk

dskΨX(s)

∣∣∣∣s=0

= E(Xk).

ΨX wird sich fur die Beschreibung der Verteilung von Summen unabhangigerZufallsvariablen als extrem nutzlich erweisen. Denn, sind X1, . . . , Xn un-abhangig, so folgt

ΨX1+···+Xn(s) =

n∏

i=1

ΨXi(s).

In Satz 2.12 wird die momentenerzeugende Funktion fur exponentielle Fami-lien bestimmt. Weitergehende Informationen uber die momentenerzeugendeFunktion finden sich etwa in: Gut (2005), Kapitel 4.8 auf Seite 189 – 191.

Anders als die momentenerzeugende Funktion existiert die charakteristi-sche Funktion ϕX(s) := E(exp(isX)) stets fur alle s ∈ R. Auch sie charakte-risiert die Verteilung eindeutig (siehe Shao (2008), Seite 35) und die Inversionist ein klassisches Resultat (siehe dazu Gut (2005), Kapitel 4.1, Seite 157 –165 oder Billingsley (1986), Seite 395).

1.2 Klassische Verteilungen der Statistik

In diesem Abschnitt werden die klassischen Verteilungen kurz vorgestellt. Siebilden eine wesentliche Grundlage fur die spateren Aussagen. Oft ist es inder Statistik notwendig, sich auf eine bestimmte Verteilung oder eine Vertei-lungsklasse festzulegen, weswegen den angefuhrten Beispielen eine wichtigeFunktion zukommt. Diese bieten jedoch nur einen kleinen Ausschnitt der be-

Page 20: Mathematische Statistik ||

10 1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik

kannten Verteilungen, wie ein Blick in die Standardwerke: Johnson, Kotz undBalakrishnan (1994a), Johnson, Kotz und Balakrishnan (1994b), Johnson,Kotz und Kemp (1992) zeigt.

Diskrete Verteilungen. Wir betrachten eine diskrete Zufallsvariable Xmit Wahrscheinlichkeitsfunktion p.

• Binomialverteilung: Wir schreiben X ∼ Bin(n, p), falls p ∈ (0, 1) undfur jedes k ∈ {0, . . . , n}

P(X = k) =(

n

k

)

pk(1 − p)n−k.

Als Spezialfall erhalt man die Bernoulli-Verteilung Bin(1, p). Dies isteine Zufallsvariable, welche nur die Werte 0 oder 1 annimmt. Jedebinomialverteilte Zufallsvariable lasst sich als Summe von Bernoulli-Zufallsvariablen schreiben (siehe Beispiel 1.3 und Aufgabe 1.4).

• Poisson-Verteilung: Wir schreiben X ∼ Poiss(λ), falls λ > 0 und furk ∈ {0, 1, 2, . . . }

P(X = k) =e−λλk

k!. (1.5)

• Multinomialverteilung: Wir schreiben X ∼ M(n, p1, . . . , pk), fallsn ∈ N, p1, . . . , pk ∈ (0, 1) mit

∑ki=1 pi = 1, X ∈ N

k und fur beliebigeZahlen i1, . . . , ik ∈ {0, . . . , n} mit

∑kj=1 ij = n gilt, dass

P

(X = (i1, . . . , ik)�

)=

n!i1! · · · ik!

pi11 · · · pik

k .

Diese Verteilung entsteht durch die Klassifizierung von n Objekten ink Klassen und ij reprasentiert die Anzahl der Objekte in Klasse j.

Laplacesche Modelle. Betrachtet man einen endlichen Grundraum Ω ={ω1, . . . , ωn}, so erhalt man die wichtige Klasse der Laplaceschen Modelle,falls P({ωi}) = n−1 fur alle 1 ≤ i ≤ n. Alle Elementarereignisse haben dem-zufolge die gleiche Wahrscheinlichkeit. Notiert man die Anzahl der Elementein A durch |A|, so ergibt sich fur A ⊂ Ω

P(A) =∑

wi∈A

P({wi}) =∑

wi∈A

1|Ω| =

|A||Ω| ,

wonach die Wahrscheinlichkeit eines Ereignisses durch die Formel ”Gunstigedurch Mogliche“ berechnet werden kann. Dies gilt allerdings nur unter derAnnahme, dass alle Elementarereignisse die gleiche Wahrscheinlichkeit ha-ben. Das folgende Beispiel werden wir in Kapitel 2 auf der Seite 37 wiederaufgreifen.

Page 21: Mathematische Statistik ||

1.2 Klassische Verteilungen der Statistik 11

1 2 3 4 5 6 7 8 9 100

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

x

p(x)

1 2 3 4 5 6 7 8 9 100

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

x

p(x)

Abb. 1.1 Wahrscheinlichkeitsfunktion der hypergeometrischen Verteilung aus Bei-spiel 1.2 mit N = 100, n = 10 und θ = 0.1 (links) bzw. θ = 0.4 (rechts).

B 1.2 Hypergeometrische Verteilung : Man betrachtet eine Menge mit N Elementen,wobei jedes Element den Wert 0 oder 1 annehmen kann. Der Anteil derElemente mit Wert 0 sei θ ∈ (0, 1), so dass Nθ Elemente den Wert 0 haben.Es werde eine Teilmenge mit n Elementen ausgewahlt und die ZufallsvariableX bezeichne die Anzahl der Elemente in der Teilmenge, welche den Wert 0haben. Jede Kombination habe die gleiche Wahrscheinlichkeit, es handelt sichfolglich um ein Laplacesches Modell. Dann erhalt man die hypergeometrischeVerteilung

P(X = k) =

(Nθk

)(N−Nθn−k

)

(Nn

) , 0 ≤ k ≤ n

oder kurz X ∼ Hypergeo(N,n, θ) durch Abzahlen der moglichen Kombina-tionen: Insgesamt gibt es

(Nn

)Moglichkeiten aus N Teilen eine Stichprobe des

Umfangs n zu ziehen. Sollen davon k ∈ {0, . . . , n} Teile den Wert 0 haben, sogibt es zum einen

(Nθk

)Moglichkeiten, k Teile mit dem Wert 0 aus den Nθ

Teilen mit dem Wert 0 zu ziehen. Zum anderen gibt es(N−Nθn−k

)Moglichkei-

ten n− k Teile mit dem Wert 1 aus insgesamt N −Nθ Teilen mit dem Wert1 auszuwahlen. Die zugehorige Wahrscheinlichkeitsfunktion ist in Abbildung1.1 dargestellt.

Stetige Verteilungen. Wenn die beobachteten Daten keiner diskreten Wer-temenge unterliegen, arbeitet man mit stetigen Verteilungen. Zu Beginn seieneinige wichtige Beispiele von reellwertigen Zufallsvariablen mit Dichte p vor-gestellt.

• Exponentialverteilung: Wir schreiben X ∼ Exp(λ), falls λ > 0 und

p(x) = 1{x>0}λe−λx.

• Gleichverteilung: Wir schreiben X ∼ U(a, b), falls a < b und

p(x) = 1{x∈[a,b]}1

b − a.

Page 22: Mathematische Statistik ||

12 1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik

−4 −3 −2 −1 0 1 2 3 40

0.1

0.2

0.3

0.4

0.5

x

p(x)

μ=0, σ=1μ=0, σ=0.7μ=0, σ=2μ=1, σ=1

Abb. 1.2 Dichte der Normalverteilung fur verschiedene Parameterkonstellationen.

• Normalverteilung: Wir schreiben X ∼ N (μ, σ2), falls μ ∈ R, σ > 0und

p(x) =1√

2πσ2e−

(x−μ)2

2σ2 . (1.6)

Dann gilt, dass E(X) = μ und Var(X) = σ2. Die Dichte ist in Abbil-dung 1.2 dargestellt. Ist μ = 0 und σ = 1, so spricht man von einerStandardnormalverteilung.

Oft verwendet man die Bezeichnung

φ(x) :=1√2π

e−x22

fur die Dichte der Standardnormalverteilung und

Φ(x) :=∫ x

−∞φ(y)dy

fur die Verteilungsfunktion der Standardnormalverteilung. Die Normalvertei-lung ist mit Abstand die wichtigste Verteilung in der Statistik, da sie durchden zentralen Grenzwertsatz (Satz 1.31) zur Approximation der Verteilungvon einer hinreichend großen Zahl unabhangiger und identisch verteilter Zu-fallsvariablen mit existierendem zweiten Moment benutzt werden kann. DieNormalverteilung ist stabil unter Summenbildung und Skalierung (siehe Auf-gabe 1.31).

Page 23: Mathematische Statistik ||

1.2 Klassische Verteilungen der Statistik 13

Die Exponentialverteilung ist ein Spezialfall der Gamma-Verteilungwahrenddessen die Gleichverteilung ein Spezialfall der Beta-Verteilung ist,welche ab Seite 16 eingefuhrt werden.

Rund um die Normalverteilung und die Schatzung von μ und σ2 gibtes eine Familie von unerlasslichen Verteilungen, welche nun kurz vorgestelltwerden.

Die χ2, F und t-Verteilung. Die χ2-Verteilung entsteht als Summe vonquadrierten, normalverteilten Zufallsvariablen.

Lemma 1.6. (und Definition) Sind X1, . . . , Xn unabhangig und standard-normalverteilt, heißt

V :=n∑

i=1

X2i

χ2-verteilt mit n Freiheitsgraden, kurz χ2n-verteilt. Die Dichte von V ist

gegeben durch

pχ2n(x) = 1{x>0}

12n/2Γ (n

2 )x

n2 −1e−

x2 . (1.7)

Hierbei verwenden wir die Gamma-Funktion, definiert durch

Γ (a) :=∫ ∞

0

ta−1e−tdt, a > 0.

Dann ist Γ (n) = (n − 1)!, n ∈ N und Γ ( 12 ) =

√π. Weiterhin gilt E(V ) = n

und Var(V ) = 2n. Die Herleitung der Dichte ist Gegenstand von Aufgabe1.32.

Bemerkung 1.7. Die Darstellung der Dichte in (1.7) zeigt, dass die χ2n-

verteilte Zufallsvariable V fur n = 2 exponentialverteilt ist mit Parameter 12 .

Aus dem zentralen Grenzwertsatz (Satz 1.31) folgt, dass

χ2n − n√

2n

L−−−→N (0, 1).

Mochte man ein Konfidenzintervall fur den Mittelwert einer Normalver-teilung mit unbekannter Varianz bilden, so muss man diese schatzen. Dabeitaucht die Wurzel einer Summe von Normalverteilungsquadraten (mit Faktor1n ) im Nenner auf. Hieruber gelangt man zur t-Verteilung, welche oft auchals Student-Verteilung oder Studentsche t-Verteilung bezeichnet wird.

Page 24: Mathematische Statistik ||

14 1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik

Definition 1.8. Ist X standardnormalverteilt und V χ2n-verteilt und un-

abhangig von X, so heißt die Verteilung von

T :=X√

1nV

(1.8)

die t-Verteilung mit n Freiheitsgraden, kurz tn-Verteilung.

Lemma 1.9. Die Dichte der tn-Verteilung ist gegeben durch

ptn(x) =

Γ (n+12 )

Γ (n/2)Γ (1/2)√

n

(1 +

x2

n

)−n+12

fur alle x ∈ R.

Fur Vergleiche von Varianzen werden wir Quotienten der Schatzer betrach-ten und gelangen so zur F -Verteilung.

Definition 1.10. Sind V und W unabhangig und χ2n bzw. χ2

m-verteilt,so heißt die Verteilung von

F :=V/n

W/m

die F -Verteilung mit (n,m) Freiheitsgraden, kurz Fn,m-Verteilung.

Fur die Dichte sei an die Formel fur die Beta-Funktion B(a, b) erinnert: Fura, b > 0 ist

B(a, b) =∫ 1

0

ta−1(1 − t)b−1 dt. (1.9)

Dann ist B(a, b) = Γ (a)Γ (b)Γ (a+b) . Damit erhalten wir folgende Darstellung.

Lemma 1.11. Die Dichte der Fn,m-Verteilung ist

pFn,m(x) = 1{x>0}

nn/2 mm/2

B(n/2, m/2)x

n2 −1

(m + nx)(n+m)/2.

Beweis. Fur die Verteilungsfunktion an der Stelle t > 0 erhalten wir aufgrundder Unabhangigkeit von V und W

Page 25: Mathematische Statistik ||

1.2 Klassische Verteilungen der Statistik 15

P

(V/n

W/m≤ t

)

=∫

R+

R+1{ x

ymn ≤t} pχ2

n(x) pχ2

m(y) dxdy

=∫ ∞

0

pχ2m

(y)[ ∫ tyn/m

0

pχ2n(x) dx

]

dy.

Da wir die Dichte bestimmen wollen, transformieren wir das zweite Integralmittels w = mx/(ny) und erhalten, dass

P

( V/n

W/m≤ t)

=∫ ∞

0

pχ2m

(y)∫ t

0

pχ2n(w · ny/m)

ny

mdw dy

=∫ t

0

[ ∫ ∞

0

pχ2m

(y)pχ2n(w · ny/m)

ny

mdy

]

dw.

Der Ausdruck in der Klammer gibt die Dichte an. Unter Verwendung von(1.7) ergibt sich die Behauptung. ��Bemerkung 1.12. Eine Rayleigh-verteilte Zufallsvariable X ist nicht nega-tiv und hat zu dem Parameter σ > 0 die Dichte

p(x) = 1{x>0}x

σ2exp(− x2

2σ2

).

Die Rayleigh-Verteilung entsteht als Norm einer zweidimensionalen, zentrier-ten Normalverteilung: Die Zufallsvariablen Y und Z seien unabhangig undjeweils N (0, σ2)-verteilt. Dann ist

√Y 2 + Z2 Rayleigh-verteilt (siehe Aufgabe

1.36). Aufgrund dessen ist X2 gerade χ22-verteilt falls σ = 1.

Nichtzentrale t-, F - und χ2-Verteilung. In diesem Abschnitt stellen wirnichtzentrale Verteilungen vor, die im Zusammenhang mit Hypothesentests inlinearen Modellen im Abschnitt 7.3 benotigt werden. Im Unterschied zu denzentrierten Verteilungen konnen hier die zugrundeliegenden normalverteiltenZufallsvariablen einen nicht verschwindenden Erwartungswert haben.

Definition 1.13. Seien X ∼ N (θ, 1), V ∼ χ2n und X und V unabhangig.

Dann heißtT :=

X√

1nV

nichtzentral t-verteilt mit n Freiheitsgraden und Nichtzentra-litatsparameter θ, kurz tn(θ)-verteilt.

Analog definiert man die nichtzentrale χ2-Verteilung:

Page 26: Mathematische Statistik ||

16 1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik

Definition 1.14. Seien Xi ∼ N (μi, 1), i = 1, . . . , n und unabhangig.Dann heißt

V :=k∑

i=1

X2i

nichtzentral χ2-verteilt mit Nichtzentralitatsparameter θ :=∑k

i=1 μ2i , oder

kurz χ2k(θ)-verteilt.

In Aufgabe 1.33 wird gezeigt, dass die nichtzentrale χ2-Verteilung wohldefi-niert ist und die Verteilung in der Tat nicht von den einzelnen μ1, . . . , μn,sondern nur von θ abhangt. Weitere Informationen findet man in Johnson,Kotz und Balakrishnan (1994b).

Definition 1.15. Sei V ∼ χ2k(θ) und W ∼ χ2

m sowie V und W un-abhangig. Dann heißt die Zufallsvariable

Z :=V/k

W/m

nichtzentral F -verteilt mit Nichtzentralitatsparameter θ, kurz Fk,m(θ)-verteilt.

Es gibt noch zahlreiche andere Erweiterungen von Verteilungen auf ihre nicht-zentralen Analoga (siehe dazu die nichtzentrale Exponentialverteilung im Bei-spiel 3.12).

Die Beta- und die Gamma-Verteilung. In diesem Abschnitt fuhren wirdie Beta- und Gamma-Verteilungen ein. Diese beiden Verteilungsklassen be-schreiben relativ allgemeine Verteilungen, welche einige bereits bekannte Ver-teilungen als Spezialfalle enthalten. Die Gamma-Verteilung tritt als eine Ver-allgemeinerung der Exponentialverteilung auf und beschreibt deswegen stetspostive Zufallsvariablen. Die Beta-Verteilung ist eine Verallgemeinerung derGleichverteilung auf dem Einheitsintervall und beschreibt demzufolge nurZufallsvariablen mit Werten in [0, 1].

Definition 1.16. Eine Zufallsvariable X heißt Gamma-verteilt zu denParametern a, λ > 0, falls sie folgende Dichte besitzt:

pa,λ(x) = 1{x>0}λa

Γ (a)xa−1e−λx. (1.10)

Page 27: Mathematische Statistik ||

1.2 Klassische Verteilungen der Statistik 17

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

x

p(x)

a=λ=1a=2, λ=1a=2, λ=2a=0.5, λ=2

Abb. 1.3 Dichte der Gamma(a, λ)-Verteilung fur verschiedene Parameterkonstella-tionen. Fur a = 1 erhalt man eine Exponentialverteilung.

Ist X Gamma-verteilt, so schreiben wir kurz X ∼ Gamma(a, λ). Weiterhingilt: cX ∼ Gamma(a, λ/c) (siehe Aufgabe 1.9 (iii)). Aus diesem Grund nenntman λ−1 einen Skalenparameter, wahrend a ein Parameter ist, welcher dieForm der Verteilung bestimmt (vgl. Abbildung 1.3). Ist a eine naturlicheZahl, so ist Γ (a) = (a − 1)!. In diesem Fall wird die Verteilung auch eineErlang-Verteilung genannt.

Die momentenerzeugende Funktion einer Gamma-Verteilung wird in Auf-gabe 1.12 bestimmt. Daraus erhalt man die Momente: Ist X ∼ Gamma(a, λ),so gilt

E(X) =a

λ, Var(X) =

a

λ2.

Die Summe von unabhangigen Gamma(·, λ)-verteilten Variablen ist wiederGamma-verteilt: Seien X1, . . . , Xn unabhangig mit Xi ∼ Gamma(ai, λ), soist

n∑

i=1

Xi ∼ Gamma

(n∑

i=1

ai, λ

)

. (1.11)

Der Beweis kann uber die momentenerzeugende Funktion erfolgen (sieheAufgabe 1.9). Weiterhin ist eine χ2

n-verteilte Zufallsvariable Gamma(

n2 , 1

2

)-

verteilt. Als weiteren Spezialfall erhalt man die Exponentialverteilung zumParameter λ fur a = 1.

Page 28: Mathematische Statistik ||

18 1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

x

p(x)

a=b=0,5a=5, b=1a=1, b=3a=2, b=2a=2, b=5

Abb. 1.4 Dichte der Beta-Verteilung fur verschiedene Parameterkonstellationen.

Definition 1.17. Eine Zufallsvariable heißt Beta-verteilt zu den Parame-tern a, b > 0, falls sie die Dichte

pa,b(x) =1

B(a, b)xa−1(1 − x)b−11{x∈[0,1]}

hat.

Hierbei ist B(a, b) die Beta-Funktion (siehe Gleichung 1.9). Fur a = b = 1erhalt man die Gleichverteilung auf [0, 1] als Spezialfall. Der Erwartungswerteiner Beta(a, b)-Verteilung ist a/(a+b) und die Varianz betragt

ab

(1 + a + b)(a + b)2.

Bemerkung 1.18. Sind X,Y unabhangig und Gamma(a, b) bzw. Gamma(a, c)-verteilt, so ist X/(X +Y ) gerade Beta(b, c)-verteilt (siehe Aufgabe 1.9).

1.2.1 Die Multivariate Normalverteilung

Dieser Abschnitt widmet sich der mehrdimensionalen Normalverteilung. Furweitergehende Ausfuhrungen sei auf Georgii (2004), Abschnitt 9.1 verwiesen.

Page 29: Mathematische Statistik ||

1.2 Klassische Verteilungen der Statistik 19

Definition 1.19. Ein k-dimensionaler Zufallsvektor X heißt k-variat nor-malverteilt, falls ein μ ∈ R

k und ein L ∈ Rk×m existiert mit Rang(L) = m,

so dassX = LZ + μ,

wobei Z = (Z1, . . . , Zm)� und Zi i.i.d. sind mit Z1 ∼ N (0, 1).

In diesem Fall schreiben wir X ∼ Nk(μ, Σ) mit Σ = LL�. Ist k = m, sosagt man, dass Y eine nicht singulare Normalverteilung besitzt, andernfalls(k > m) hat X eine singulare Normalverteilung.

Fur eine quadratintegrierbare, k-dimensionalen Zufallsvariable X wird dieVariabilitat durch die Varianz-Kovarianz Matrix Var(X) gemessen. Sie istgegeben durch die Matrix D := Var(X) ∈ R

k×k mit den Eintragen

dij = Cov(Xi,Xj), 1 ≤ i, j ≤ k.

Es gilt, dass fur A ∈ Rk×m

Var(AX) = AVar(X)A�. (1.12)

Weiterhin ist Var(X − c) = Var(X) fur jedes c ∈ Rk.

Lemma 1.20. Ist X ∼ Nk(μ, Σ), so gilt

E(X) = μ

Var(X) = Σ.

Beweis. Nach Definition ist

E(X) = E(LZ + μ) = LE(Z) + μ = μ.

Fur die Varianz-Kovarianz Matrix nutzen wir Gleichung (1.12). Damit folgt,dass

Σ = Var(X) = Var(μ + LZ) = Var(LZ) = LL�,

da die Varianz-Kovarianz Matrix von Z gerade die Einheitsmatrix ist. ��Mit |Σ| sei die Determinante von Σ bezeichnet. Ist Rang(Σ) = k und X ∼Nk(μ, Σ), so hat X die Dichte

p(x) =1

√(2π)k|Σ| exp

(

−12(x − μ)�Σ−1(x − μ)

)

.

Page 30: Mathematische Statistik ||

20 1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik

Der Beweis wird in Aufgabe 1.37 gefuhrt. Wie man sieht, ist die Abhangigkeitvon multivariat normalverteilten Zufallsvariablen durch ihre Varianz-Kovari-anz Matrix festgelegt. Insbesondere folgt in einer multivariaten Normalver-teilung aus einer verschwindenden Kovarianz bereits die Unabhangigkeit, ge-nauer: ist X ∼ Nk(μ, Σ) und gilt Cov(Xi,Xj) = 0, so sind Xi und Xj

unabhangig. Dieser Sachverhalt soll in Aufgabe 1.39 bewiesen werden.

Bemerkung 1.21. Weiterhin gelten folgende Resultate (vgl. Georgii (2004),Abschnitt 9.1).

(i) Σ = LL� ist symmetrisch und nicht negativ definit, denn

uT Σu = u�LL�u =∣∣∣∣L�u

∣∣∣∣2 ≥ 0 ∀ u ∈ R

k.

(ii) Rang(Σ) = Rang(LL�) = Rang(L). Damit ist fur k = m die Matrix Σnicht singular, andernfalls singular.

(iii) Die Normalverteilung ist stabil unter linearen Transformationen: FallsX ∼ Nk

(μ, Σ

)und C ∈ R

n×k, so gilt

CX ∼ Nn

(Cμ, CΣC�).

(iv) Die einzelnen Komponenten einer multivariaten Normalverteilung sindnormalverteilt: Falls X ∼ Nk(μ, Σ), so ist Xi ∼ N (μi, Σii) fur i =1, . . . , k. Weiterhin folgt aus Σ = Ik, dass X1, . . . , Xk unabhangige Zu-fallsvariablen sind (vgl. Aufgabe 1.39).

1.3 Bedingte Verteilungen

Die Einfuhrung in die notwendigen Hilfsmittel wird in diesem Kapitel mit be-dingten Verteilungen und dem bedeutsamen bedingten Erwartungswert fort-gesetzt.

Bedingte Verteilungen. Bedingte Verteilungen verallgemeinern den Be-griff der bedingten Wahrscheinlichkeit wesentlich und bilden ein wichtigesHilfsmittel, zum Beispiel in der Schatztheorie.

Im diskreten Fall geht man eigentlich analog zu dem schon eingefuhrtenBegriff der bedingten Wahrscheinlichkeit vor. Seien X,Y diskrete Zufalls-variablen mit gemeinsamer Wahrscheinlichkeitsfunktion p(x, y). Y habe dieWahrscheinlichkeitsfunktion pY (·). Die bedingte Verteilung von X gegebenY = y mit P(Y = y) > 0 ist definiert durch die Wahrscheinlichkeitsfunktion

p(x|y) := P(X = x|Y = y) =P(X = x, Y = y)

P(Y = y)=

p(x, y)pY (y)

. (1.13)

Fur stetige Zufallsvariablen X,Y hat man analog folgende Situation: Ist diegemeinsame Dichte p(x, y) und die Dichte von Y gerade pY (·), so definiert

Page 31: Mathematische Statistik ||

1.3 Bedingte Verteilungen 21

man fur diejenigen y mit pY (y) > 0

p(x|y) :=p(x, y)pY (y)

. (1.14)

B 1.3 Bernoulli-Verteilung : Die Summe von unabhangigen Bernoulli-Zufallsvaria-blen ist binomialverteilt: Eine Zufallsvariable X heißt Bernoulli-verteilt, fallsX ∈ {0, 1} und P(X = 0) �= 0. Seien X1, . . . , Xn i.i.d. und Bernoulli-verteiltmit P(X1 = 1) = p, dann ist Y :=

∑ni=1 Xi gerade Bin(n, p)-verteilt (siehe

Aufgabe 1.4).

B 1.4 Fortsetzung : Setze X = (X1, . . . , Xn)�. Dann ist die Verteilung von X ge-geben Y gerade eine Gleichverteilung: Fur x ∈ {0, 1}n mit

∑ni=1 xi = y gilt

P(X = x|Y = y) =P(X = x, Y = y)

P(Y = y)=

py(1 − p)n−y

(ny

)py(1 − p)n−y

=(

n

y

)−1

.

So hat X|Y = y eine Gleichverteilung auf {x ∈ {0, 1}n :n∑

i=1

xi = y}.

Definition 1.22. Seien X und Y diskrete Zufallsvariablen, X nehme dieWerte x1, x2, . . . an und es gelte E(|X|) < ∞. Der bedingte Erwartungswertvon X gegeben Y = y ist fur jedes y mit P(Y = y) > 0 definiert durch

E(X|Y = y) :=∑

i≥1

xi p(xi|y).

Sind X,Y stetige Zufallsvariablen mit E(|X|) < ∞, so ist der bedingteErwartungswert von X gegeben Y = y mit pY (y) > 0 definiert durch

E(X|Y = y) :=∫

R

x p(x|y) dx.

Sei g(y) := E(X|Y = y), dann heißt die Zufallsvariable

E(X|Y ) := g(Y )

bedingter Erwartungswert von X gegeben Y .

Der bedingte Erwartungswert von X gegeben Y bildet im quadratischen Mit-tel die beste Vorhersage von X, falls man Y beobachtet (siehe Aufgabe 1.20).

B 1.5 Suffiziente Statistik in der Bernoulli-Verteilung : Wir setzen Beispiel 1.3 fortund betrachten X1, . . . , Xn i.i.d. Bin(1, p) sowie Y :=

∑ni=1 Xi. Dann gilt fur

y ∈ {0, . . . , n}

Page 32: Mathematische Statistik ||

22 1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik

E(X1|Y = y) = P(X1 = 1|Y = y)

=p(n−1p−1

)py−1(1 − p)(n−1)−(y−1)

(ny

)py(1 − p)n−y

=(

n − 1y − 1

)

·(

n

y

)−1

=y

n.

Damit ergibt sich E(X1|Y ) = Y n−1. Man beachte, dass dies eine Zufallsvaria-ble ist. Der Erwartungwert von X1 gegeben der Statistik Y hangt nicht mehrvom Parameter p ab. Dies steht im Zusammenhang mit dem in Definition 2.5eingefuhrten Begriff von Suffizienz.

Bemerkung 1.23. Sind X und Y unabhangig, so gibt Y keine neue Infor-mation uber X und der bedingte Erwartungswert ist gleich dem unbedingtenErwartungswert: Unter pY (y) > 0 gilt, dass

p(x|y) =p(x, y)pY (y)

=pX(x)pY (y)

pY (y)= pX(x)

und somit E(X|Y = y) = E(X) und auch E(X|Y ) = E(X).

Bedingte Erwartungswerte lassen sich analog auf mehrdimensionale Zu-fallsvariablen verallgemeinern. Betrachtet man die zwei Zufallsvariablen X =(X1, . . . , Xn)� und Y = (Y1, . . . , Ym)� und beide sind entweder diskret mitgemeinsamer Wahrscheinlichkeitsfunktion P(X = x,Y = y) = p(x,y) oderstetig mit gemeinsamer Dichte p(x,y), so definiert man analog zu (1.13) und(1.14) die bedingte Wahrscheinlichkeitsfunktion bzw. Dichte von X gegebenY = y fur alle y mit pY (y) > 0 durch

p(x|y) :=p(x,y)pY (y)

.

Ist E(|X|) < ∞, so ist der bedingte Erwartungswert von X gegeben Y = ydefiniert durch

E(X | Y = y) = (E(X1|Y = y), . . . , E(Xn|Y = y))� .

Mit g(y) := E(X|Y = y) definieren wir den bedingten Erwartungswertvon X gegeben Y durch

E(X | Y ) := g(Y ).

Page 33: Mathematische Statistik ||

1.3 Bedingte Verteilungen 23

Satz 1.24 (Substitutionssatz). Sei g : Rn × R

m → R eine messbare Ab-bildung. Gilt fur y ∈ R

m, dass pY (y) > 0 und E(|g(X,y)|) < ∞, soist

E(g(X,Y ) | Y = y

)= E(g(X,y) | Y = y

).

Ein typischer Spezialfall ist g(X,y) = r(X)h(y) mit einer beschranktenFunktion h. Hat r(X) eine endliche Erwartung, so ist

E(r(X)h(Y ) | Y = y) = E(r(X)h(y) | Y = y) = h(y) E(r(X) | Y = y).

Daraus folgt E(r(X)h(Y )|Y ) = h(Y )E(r(X)|Y ). Oft hat man die zusatzlicheAnnahme, dass X und Y unabhangig sind. Dann folgt unter den obigen An-nahmen sogar, dass

E(g(X,Y ) | Y = y

)= E(g(X,y)

). (1.15)

Der Erwartungswert der bedingten Erwartung ist gleich dem Erwartungs-wert selbst. Dies ist Inhalt des Satzes vom iterierten Erwartungswert.

Satz 1.25. Gilt E(|X|) < ∞, so ist

E(X) = E(E(X | Y )

).

Beweis. Wir beweisen den eindimensionalen Fall, der mehrdimensionale Fallfolgt analog. Zunachst seien X und Y diskrete Zufallsvariablen, mit Werten{x1, x2, . . . } bzw. {y1, y2, . . . }. mit pY (yi) > 0 fur i = 1, 2, . . . . Dann gilt

E(E(X|Y )) =∑

i≥1

pY (yi)(∑

j≥1

xjp(xj |yi))

=∑

i,j≥1

xjp(xj , yi)pY (yi)

pY (yi) =∑

i,j≥1

xj p(xj , yi)

=∑

j≥1

xj pX(xj) = E(X).

Fur den Beweis des stetigen Falles sei auf Aufgabe 1.19 verwiesen. ��Ordnet man eine Stichprobe X1, . . . , Xn der Große nach und bezeichnet

man mit X(1), . . . , X(n) die geordneten Großen, so nennt man X(1), . . . , X(n)

Ordnungsgroßen oder Ordnungsstatistiken der Stichprobe. Die kleinste Ord-nungsgroße X(1) ist das Minimum der Daten und die großte Ordnungsgroße

Page 34: Mathematische Statistik ||

24 1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik

X(n) das Maximum. Wie im folgenden Beispiel kann man die Verteilung die-ser Großen berechnen, wenn die Daten unabhangig sind.

B 1.6 Minima und Maxima von gleichverteilten Zufallsvariablen: Seien X1,X2 un-abhangig und jeweils U(0, 1)-verteilt. Setze Y := min(X1,X2) und Z :=max(X1,X2). Im Folgenden seien x, y, z stets in (0, 1). Die gemeinsame Ver-teilungsfunktion von Y und Z ist

F (y, z) = P(Y ≤ y, Z ≤ z) = 2 P(X1 < X2,X1 ≤ y,X2 ≤ z)

= 2

z∫

0

min(x2,y)∫

0

dx1 dx2 = 2 ·{

z2

2 , z < y

zy − y2

2 , z ≥ y.

Die gemeinsame Dichte erhalt man durch Ableiten der Verteilungsfunktion:

p(y, z) =∂2F (y, z)

∂y∂z= 2{

0, z < y1, z ≥ y

= 21{z≥y}.

Die Dichte von Y ist

pY (y) =

1∫

0

p(y, z)dz =

1∫

y

2dz = 2(1 − y).

Damit zeigt sich, dass das Maximum Z gegeben Y auf (y, 1) gleichverteilt ist:

p(z|Y = y) =p(y, z)pY (y)

=1

(1 − y)1{z≥y}.

1.4 Grenzwertsatze

In diesem Abschnitt stellen wir die fundamentalen Grenzwertsatze fur arith-metische Mittel vor. Der erste, das Gesetz der großen Zahl, zeigt die Kon-vergenz des arithmetischen Mittels gegen den Erwartungswert. Das zweiteGesetz, der zentrale Grenzwertsatz, bestimmt die Grenzverteilung des mit√

n skalierten arithmetischen Mittels: Die Normalverteilung. Beide Gesetzesind fur asymptotische Aussagen (Konsistenz) und zur Verteilungsapproxima-tion bei hinreichend großer Stichprobenzahl in der Statistik von unerlaßlicherBedeutung. Fur Beweise der Aussagen verweisen wir auf Georgii (2004),Kapitel 5.

Das Gesetz der großen Zahl stellen wir in seiner schwachen und starkenForm vor. In der schwachen Form konvergiert das arithmetische Mittel sto-chastisch, in der starken Form sogar mit Wahrscheinlichkeit 1.

Page 35: Mathematische Statistik ||

1.4 Grenzwertsatze 25

Wir betrachten stets einen festen Wahrscheinlichkeitsraum (Ω,A, P).

Definition 1.26. Seien X,X1,X2, . . . Zufallsvariablen. Die Folge(Xn)n≥1 konvergiert stochastisch gegen X, falls fur jedes ε > 0 gilt, dass

P(|Xn − X| > ε) −−−−→

n→∞ 0.

Die Folge (Xn)n≥1 konvergiert fast sicher gegen X, falls

P(

limn→∞Xn = X

)= 1.

Fur die beiden Konvergenzarten verwenden wir folgende kompakte Notation:Konvergiert die Folge (Xn) stochastisch gegen X, so schreiben wir

XnP−−−−→

n→∞ X.

Konvergiert sie hingegen fast sicher, so schreiben wir

Xnf.s.−−−−→

n→∞ X.

Aus der fast sicheren Konvergenz folgt stochastische Konvergenz. Die Um-kehrung gilt jedoch nicht.

Fur die Konvergenz von Zufallsvariablen unter Transformationen hat manfolgendes Continuous Mapping Theorem:

Satz 1.27. Konvergiert die Folge (Xn)n≥1 stochastisch gegen X und istdie Abbildung g stetig, so gilt

g(Xn) P−−−−→n→∞ g(X).

Sei M die Menge der Stetigkeitspunkte der Abbildung g, dann gilt derSatz auch, falls nur P(X ∈ M) = 1, wenn g somit FX -fast sicher stetig ist.Daruber hinaus gilt der Satz auch, wenn man an Stelle von stochastischerKonvergenz fast sichere oder Konvergenz in Verteilung (wie im folgendenzentralen Grenzwertsatz, Satz 1.31) schreibt. Der dazugehorige Beweis findetsich bei Serfling (1980), Abschnitt 1.7 auf S. 24.

Das schwache Gesetz der großen Zahl beweist man mit der Tschebyscheff-Ungleichung, welche sich unmittelbar aus der folgenden Markov-Ungleichungergibt. Wir setzen R

+ := {x ∈ R : x ≥ 0}.

Page 36: Mathematische Statistik ||

26 1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik

Satz 1.28 (Markov-Ungleichung). Sei f : R+ → R

+ eine monoton wach-sende Funktion und f(x) > 0 fur x > 0. Dann gilt fur alle ε > 0, dass

P(|X| ≥ ε) ≤ E (f(|X|))f(ε)

.

Als Spezialfall erhalt man mit f(x) = x2 die Tschebyscheff-Ungleichung :

P(|X − E(X)| ≥ ε) ≤ Var(X)ε2

. (1.16)

Satz 1.29 (Schwaches Gesetz der großen Zahl). Seien X1,X2, . . . paar-weise unkorreliert mit E(Xi) = E(X1) und Var(Xi) < M < ∞ fur allei ≥ 1 und ein M ∈ R. Dann gilt, dass

1n

n∑

i=1

XiP−−−−→

n→∞ E(X1).

Beweis. Betrachtet man das arithmetische Mittel X := 1n

∑ni=1 Xi, so ist

E(X) = E(X1). Mit der Regel von Bienayme, (1.4), erhalt man

Var(X) =∑n

i=1 Var(Xi)n2

≤ M

n.

Damit folgt fur jedes ε > 0 aus der Tschebyscheff-Ungleichung (1.16), dass

P(|X − E(X1)| ≥ ε) ≤ M

nε2−−−−→n→∞ 0

und somit die Behauptung. ��Die Aussage des schwachen Gesetzes der großen Zahl kann man we-

sentlich verscharfen. Wir geben eine Version mit den geringsten Integrabi-litatsbedingungen an, und setzen lediglich die Existenz der Erwartungswerteder Xi voraus. Im Gegenzug mussen wir verlangen, dass die Xi i.i.d. sind.Die Aussage des folgenden Satzes gilt aber auch unter den Voraussetzungenaus Satz 1.29, allerdings dann mit der Annahme existierender Varianzen.

Page 37: Mathematische Statistik ||

1.4 Grenzwertsatze 27

Satz 1.30 (Starkes Gesetz der großen Zahl). Seien X1,X2, . . . i.i.d. mitE(|X1|) < ∞. Dann gilt

1n

n∑

i=1

Xif.s.−−−−→

n→∞ E(X1).

Fur den Beweis sei auf Gut (2005), Kapitel 6.6 (Seite 294 – 298) verwiesen.Schließlich geben wir den zentralen Grenzwertsatz an. Sei Φ die Vertei-

lungsfunktion der Standardnormalverteilung, d.h.

Φ(z) =∫ z

0

1√2π

exp(− x2

2

)dx.

Satz 1.31 (Zentraler Grenzwertsatz). Seien X1,X2, . . . i.i.d. mitE(X1) := μ und Var(X1) := σ2 < ∞. Dann gilt

P

(1√n

n∑

i=1

Xi − μ

σ≤ z

)

−−−−→n→∞ Φ(z)

fur alle z ∈ R.

Die in dem Satz auftretende Konvergenz nennt man auch Verteilungs-konvergenz, hier gegen die Standardnormalverteilung N (0, 1). Mit C(FX) :={x ∈ R : FX(x) ist stetig an x} bezeichnen wir die Menge der Stetigkeits-punkte der Verteilungsfunktion von X, FX .

Definition 1.32. Die Folge von Zufallsvariablen (Xn)n≥1 konvergiert inVerteilung gegen X, falls fur alle x ∈ C(FX) gilt, dass

FXn(x) → FX(x), n → ∞.

Konvergiert eine Folge (Xn)n≥1 in Verteilung gegen die Standardnormal-verteilung, so schreiben wir kurz

XnL−−−−→

n→∞ N (0, 1).

Das mehrdimensionale Analogon von Satz 1.31 nennt man den multiva-riaten zentralen Grenzwertsatz. Hier gibt es eine Vielzahl von Varianten und

Page 38: Mathematische Statistik ||

28 1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik

wir zitieren die Version fur eine Folge von unabhangigen, identisch verteiltenZufallsvektoren aus Bauer (1990) (Satz 30.3, Seite 265).

Mit Φk(z;0, Σ) ist die Verteilungsfunktion einer k-dimensionalen, normal-verteilten Zufallsvariablen mit Erwartungswert 0 und Kovarianzmatrix Σbezeichnet, siehe auch Abschnitt 1.2.1.

Satz 1.33. Seien die k-dimensionalen Zufallsvariablen X1,X2, . . . i.i.d.und E(X2

ij) < ∞ fur alle 1 ≤ i ≤ k und j ≥ 1. Setze μ := E(X1) undΣ := Var(X1). Dann gilt fur alle z ∈ R

k, dass

P

(1√n

n∑

i=1

(Xi − μ) ≤ z

)

−−−−→n→∞ Φk(z;0, Σ).

Fur die aus dem Satz resultierende (multivariate) Verteilungskonvergenzschreibt man auch

1√n

n∑

i=1

(Xi − μ) L−−−−→n→∞ Nk(0, Σ).

Der folgende Satz erlaubt es die Bildung eines Grenzwertes mit dem Erwar-tungswert unter einer Zusatzbedingung, der Monotonie der zu betrachtendenFolge, zu vertauschen. Eine Alternative zu dieser Zusatzbedingung liefert derSatz der dominierten Konvergenz. Fur einen Beweis beider Aussagen sieheIrle (2005), Satz 8.15 auf Seite 114.

Satz 1.34 (Monotone Konvergenz). Sei X1,X2, . . . eine Folge von Zu-fallsvariablen. Gilt 0 ≤ X1 ≤ X2 ≤ . . . , so folgt

E

(lim

n→∞Xn

)= lim

n→∞ E(Xn).

1.4.1 Referenzen

Grenzwertsatze sind ein wichtiges Hilfsmittel in der Statistik und werden indiesem Kapitel nur knapp behandelt. Fur eine Vertiefung sei auf die vielfaltigeLiteratur verwiesen: Chung (2001), Kapitel 4 in Ganssler und Stute (1977),Kapitel 9 in Resnick (2003), Billingsley (1986) und Kapitel 15 in Klenke(2008).

Page 39: Mathematische Statistik ||

1.5 Aufgaben 29

1.5 Aufgaben

A 1.1 Die Potenzmenge ist eine σ-Algebra: Sei Ω eine Menge (etwa eine endlicheMenge). Die Potenzmenge

P(Ω) := {A : A ⊂ Ω}

ist eine σ-Algebra.

A 1.2 Unkorreliertheit impliziert nicht Unabhangigkeit : Sei X ∼ N (0, 1) eine stan-dardnormalverteilte Zufallsvariable und Y = X2. Dann ist Cov(X,Y 2) = 0,aber X und Y sind nicht unabhangig.

A 1.3 Erwartungstreue der Stichprobenvarianz : Seien X1, . . . , Xn i.i.d. mit Varianzσ2. Die Stichprobenvarianz ist definiert durch

s2(X) :=1

n − 1

n∑

i=1

(Xi − X)2.

Dann gilt E(s2(X)) = σ2, d.h. die Stichprobenvarianz ist erwartungstreu.

A 1.4 Darstellung der Binomialverteilung als Summe von unabhangigen Bernoulli–Zufallsvariablen: Seien X1, . . . , Xn i.i.d. mit Xi ∈ {0, 1} und P(Xi = 1) =p ∈ (0, 1), 1 ≤ i ≤ n. Dann ist

n∑

i=1

Xi ∼ Bin(n, p).

A 1.5 Erwartungswert und Varianz der Poisson-Verteilung : Zeigen Sie, dass fureine zum Parameter λ Poisson-verteilte Zufallsvariable X gilt, dass

E(X) = Var(X) = λ.

A 1.6 Gedachtnislosigkeit der Exponentialverteilung : Sei X exponentialverteilt mitIntensitat λ. Dann gilt fur x, h > 0

P(X > x + h |X > x) = P(X > h).

A 1.7 Gamma-Verteilung: Unabhangigkeit von bestimmten Quotienten: Seien X ∼Gamma(a, λ) und Y ∼ Gamma(b, λ) zwei unabhangige Zufallsvariablen. Zei-gen Sie, dass X

X+Y und X + Y unabhangig sind.

A 1.8 Quotienten von Gamma-verteilten Zufallsvariablen: Seien X und Y un-abhangig mit X ∼ Exp(β) und Y ∼ Gamma(a, λ) und a > 1. Zeigen Sie,dass

E

(X

Y

)

β(a − 1).

Page 40: Mathematische Statistik ||

30 1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik

A 1.9 Transformationen von Gamma-verteilten Zufallsvariablen: Seien die Zufalls-variablen X ∼ Gamma(a, λ) und Y ∼ Gamma(b, λ) unabhangig und c > 0.Dann gilt

(i) X + Y ∼ Gamma(a + b, λ),

(ii)X

X + Y∼ Beta(a, b),

(iii) cX ∼ Gamma(a,λ

c).

Momente und momentenerzeugende Funktion

A 1.10 Erwartungswert des Betrages einer Normalverteilung : Sei X ∼ N (μ, σ2) miteinem μ ∈ R und einem σ > 0. Berechnen Sie den Erwartungswert von |X|.

A 1.11 Momente der Normalverteilung : Zeigen Sie, dass fur eine standardnormal-verteilte Zufallsvariable X und n ∈ N gilt, dass

E(X2 n) =(2n)!2n · n!

.

A 1.12 Momentenerzeugende Funktion einer Gamma-Verteilung : Es gelte, dass X ∼Gamma(a, λ). Zeigen Sie, dass fur s < λ

ΨX(s) = E(esX) =λa

(λ − s)a

gilt. Bestimmen Sie damit den Erwartungswert und die Varianz von X.

A 1.13 Momente der Beta-Verteilung : Bestimmen Sie den Erwartungswert und dieVarianz einer Beta(a, b)-Verteilung.

A 1.14 Zweiseitige Exponentialverteilung : Man nehme an, dass die ZufallsvariablenX1 und X2 unabhangig und exponentialverteilt sind mit Xi ∼ Exp(λ), i =1, 2.

(i) Zeigen Sie, dass Y := X1 − X2 die Dichte

p(y) =12λe−λ|y|

besitzt. Y nennt man dann zweiseitig exponentialverteilt (allerdings mitgleichem Parameter fur die linke und rechte Halbachse).

(ii) Berechnen Sie die momenterzeugende Funktion von Y .

A 1.15 Existenz von Momenten niedrigerer Ordnung : Sei X eine (stetige) reell-wertige Zufallsvariable. Die so genannte Lp-Norm von X ist definiert durch‖ X ‖p:= (E(|X|p))1/p

. Zeigen Sie, dass fur n ∈ N

Page 41: Mathematische Statistik ||

1.5 Aufgaben 31

(‖ X ‖n)n ≤ 1 + (‖ X ‖n+1)n+1.

A 1.16 Levy-Verteilung : Sei X1, . . . , Xn i.i.d. und X1 sei Levy verteilt zu den Para-metern γ, δ > 0, d.h. X1 hat die Dichte

p(x) =√

γ

1(x − δ)3/2

e−γ

2(x−δ)1{x>δ}.

Der Parameter δ sei bekannt. Bestimmen Sie die Momenterzeugende Funktionvon

T (X) :=n∑

i=1

1Xi − δ

und geben Sie explizit deren Definitionsbereich an. Berechnen Sie E(T (X))und Var(T (X)).

A 1.17 Momentenerzeugende Funktion und Momente der Poisson-Verteilung : SeiX ∼ Poiss(λ) mit λ > 0.

(i) Zeigen Sie, dass die momentenerzeugende Funktion von X gegeben istdurch

ΨX(s) = exp (λ(es − 1)) , s ∈ R.

(ii) Verwenden Sie (i) um zu zeigen, dass

E((X − λ)4

)= λ + 3λ2.

Regeln fur bedingten Verteilungen

A 1.18 Die bedingte Verteilung ist ein Wahrscheinlichkeitsmaß : Sei B ∈ A ein Er-eignis mit P(B) > 0. Dann ist durch

μ(A) := P(A|B) : A → [0, 1]

ein Wahrscheinlichkeitsmaß definiert.

A 1.19 Erwartungswert der bedingten Erwartung : Sei X eine Zufallsvariable mitDichte pX und E(|X|) < ∞. Dann gilt fur jede Zufallsvariable Y , dass

E(X) = E(E(X|Y )).

A 1.20 Der bedingte Erwartungswert als beste Vorhersage: Im quadratischen Mittelist der bedingte Erwartungswert die beste Vorhersage der Zufallsvariablen X,wenn man Y beobachtet. Hierzu seien X und Y Zufallsvariablen mit endlicherVarianz. Zeigen Sie, dass fur alle meßbaren Funktionen g : R → R gilt:

E((X − g(Y ))2

) ≥ E((X − E(X|Y ))2

).

Page 42: Mathematische Statistik ||

32 1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik

A 1.21 Perfekte Vorhersagen: Seien X,Y reellwertige Zufallsvariablen mit endlicherVarianz. Finden Sie ein nichttriviales Beispiel fur folgenden Sachverhalt: BeiKenntnis der Realisation von Y kann die Realisation von X perfekt vorher-gesagt werden in dem Sinn, dass

E(X|Y ) = X und Var(X|Y ) = 0.

Andererseits bringt die Kenntnis der Realisation von X keine Informationuber die Realisation von Y , in dem Sinne, dass

Var(Y |X) = Var(Y ).

Ein triviales Beispiel ist wie folgt: X ist konstant und Y eine beliebige, reelleZufallsvariable mit endlicher Varianz.

A 1.22 Bedingte Dichte: Beispiele: Sei (X,Y ) ein Zufallsvektor mit der Dichte

f(x, y) =35

y (x + y)1{0<x<2, 0<y<1}.

Bestimmen Sie die bedingte Dichte fY |X=x(y), y ∈ R, x ∈ (0, 2) und zeigenSie damit, dass P(Y ≤ 1

2 |X = 1) = 15 . Zeigen Sie weiterhin, dass Cov(X +

Y,X − Y ) = 73100 .

A 1.23 Poisson-Binomial Mischung : X sei Poisson(λ)-verteilt. Bedingt auf {X = k}sei Y binomialverteilt mit Parameter (k, p):

P(Y = l |X = k) =(

k

l

)

pl(1 − p)k−l, 0 ≤ l ≤ k;

mit p ∈ (0, 1). Zeigen Sie mit Hilfe der momentenerzeugenden Funktion, dassY Poisson-verteilt zum Parameter λp ist.

A 1.24 Exponential-Exponential Mischung : Die Zufallsvariable Y sei exponentialver-teilt zum Parameter λ. Die Dichte der Zufallsvariablen X gegeben {Y = y}sei die Dichte einer Exponentialverteilung mit Parameter y, also

f(x | y) = y e−yx1{x>0}.

Bestimmen Sie die bedingte Dichte von Y gegeben X.

A 1.25 Linearitat des bedingten Erwartungswertes : Seien X1,X2 und Y reelle Zu-fallsvariablen und E(|Xi|) < ∞ fur i = 1, 2. Dann gilt fur alle a, b ∈ R,dass

E(aX1 + bX2|Y ) = aE(X1|Y ) + bE(X2|Y ).

A 1.26 Bedingte Varianz : Seien X,Y reelle Zufallsvariablen mit E(X2) < ∞. Diebedingte Varianz einer Zufallsvariablen X gegeben Y ist definiert durch

Var(X|Y ) := E((X − E(X|Y ))2|Y ).

Page 43: Mathematische Statistik ||

1.5 Aufgaben 33

Zeigen Sie, dass

Var(X) = Var (E(X|Y )) + E (Var(X|Y )) .

A 1.27 Satz von Bayes: Seien X und Y Zufallsvariablen mit endlichem Erwartungs-wert. Bezeichne q(y|x) die bedingte Dichte von Y gegeben X und p(x|y) diebedingte Dichte von X gegeben Y . Weiterhin sei pX die Dichte von X. Danngilt

p(x|y) =pX(x)q(y|x)

∫R

pX(z)q(y|z)dz.

Ebenso gilt ein analoges Resultat fur k-dimensionale Zufallsvariablen.

A 1.28 Exponentialverteilung: Diskretisierung : Z sei exponentialverteilt mit Erwar-tungswert 1 und X := [Z] die großte naturliche Zahl kleiner gleich Z. Be-stimmen Sie die Verteilung von X und berechnen Sie damit E(Z|X).

A 1.29 Erwartungswert einer zufalligen Summe: Seien Y1, Y2, . . . i.i.d. mit Yi ≥0 und E(Y1) < ∞. Weiterhin sei N eine Zufallsvariable mit Werten in0, 1, 2, . . . , unabhangig von allen Yi. Dann ist

E

(N∑

i=0

Yi

)

= E(N)E(Y1). (1.17)

Ist N Poisson-verteilt, so gilt (1.17) = λE(Y1).

Summen von Zufallsvariablen

Um die Verteilung von Summen unabhangiger Zufallsvariablen zu bestim-men, kann man zum einen mit der momentenerzeugenden Funktion oder dercharakteristischen Funktion arbeiten, zum anderen auch mit der so genanntenFaltungsformel.

A 1.30 Faltungsformel : Haben X und Y die Dichten pX und pY und beide sindunabhangig, so ist die Dichte von Z := X + Y gegeben durch

pZ(z) =∫

R

pX(x) pY (z − x) dx.

A 1.31 Die Summe von normalverteilten Zufallsvariablen ist wieder normalverteilt :Sind die Zufallsvariablen X1, . . . , Xn unabhangig und normalverteilt mit

Xi ∼ N (μi, σ2i ), so ist die Summe wieder normalverteilt:

n∑

i=1

Xi ∼ N( n∑

i=1

μi,

n∑

i=1

σ2i

)

.

Page 44: Mathematische Statistik ||

34 1. Grundlagen der Wahrscheinlichkeitstheorie und Statistik

Allgemeiner erhalt man: Ist eine Zufallsvariable multivariat normalverteilt,X ∼ Nn(μ, Σ), so gilt

a�X ∼ N (a�μ,a�Σa).

A 1.32 Dichte der χ2-Verteilung : Seien X1, . . . , Xn unabhangige und standardnor-malverteilte Zufallsvariablen. Dann folgt Y :=

∑ni=1 X2

i einer χ2-Verteilungmit n Freiheitsgraden. Zeigen Sie, dass die Dichte von Y fur x > 0 durch

p(x) =1

2n2 Γ (n

2 )e−

x2 x

n−22

gegeben ist. Verwenden Sie hierfur die Faltungsformel und die Beta-Funktionaus Gleichung (1.9).

A 1.33 Wohldefiniertheit der nichtzentralen χ2-Verteilung : Zeigen Sie, dass die Ver-teilung der χ2

k(θ)-Verteilung nur von θ =∑k

i=1 μ2i abhangt. Hierfur kann

man die charakteristische oder die momentenerzeugende Funktion von Z2

mit Z ∼ N (μ, 1) verwenden.

A 1.34 Verteilung der Stichprobenvarianz : Seien X1, . . . , Xn i.i.d., normalverteiltund Var(X1) = σ2. Fur das zentrierte empirische zweite Moment σ2(X) :=n−1

∑ni=1(Xi − X)2 gilt, dass

nσ2(X)σ2

=n∑

i=1

(Xi − X

σ

)2

∼ χ2n−1.

A 1.35 Mittelwertvergleich bei Gamma-Verteilungen: Seien X1, . . . , Xn i.i.d. undGamma(a, λ1)-verteilt, d.h. X1 hat die Dichte

p1(x) =λa

1

Γ (a)xa−1e−λ1 x1{x>0}.

Außerdem seien Y1, . . . , Yn i.i.d. und Gamma(a, λ2)-verteilt. Man nehme an,dass die Vektoren (X1, . . . , Xn) und (Y1, . . . , Yn) unabhangig sind. Das arith-metische Mittel wird wie ublich mit X bzw. Y bezeichnet. Bestimmen Sie dieVerteilung der Statistik X

Y.

A 1.36 Rayleigh-Verteilung: Momente und Zusammenhang mit der Normalvertei-lung : Seien X und Y unabhangig und N (0, σ2)-verteilt. Dann ist

Z :=√

X2 + Y 2

Rayleigh-verteilt, d.h. Z hat die Dichte xσ−2 exp(−x2/2σ2). Es gilt E(Z) =

σ√

π/2, E(Z2) = 2σ2 und Var(Z) = σ√

2 − π/2.

Page 45: Mathematische Statistik ||

1.5 Aufgaben 35

Multivariate Normalverteilung

A 1.37 Dichte der multivariaten Normalverteilung : Zeigen Sie, dass X ∼ Np(μ, Σ)folgende Dichte hat, falls Rang(Σ) = p:

p(x) =1

det(Σ)1/2(2π)p/2· exp

(

− 12(x − μ)�Σ−1(x − μ)

)

.

A 1.38 Lineare Transformationen der Normalverteilung : Sei X ∼ Np

(μ, Σ

)und

C ∈ Rn×p. Dann gilt

CX ∼ Nn

(Cμ, CΣC�).

A 1.39 Normalverteilung: Cov(X,Y ) = 0 impliziert Unabhangigkeit : Sei Z =(X,Y )� ∈ R

2 und Z ∼ N2(μ, Σ). Gilt Cov(X,Y ) = 0, so sind X und Yunabhangig.

A 1.40 Bedingte Verteilungen der multivariaten Normalverteilung : Seien Xi, i = 1, 2zwei ki-dimensionale Zufallsvariablen, so dass

(X1

X2

)

∼ Nk

((μ1

μ2

)

,

(Σ11 Σ�

12

Σ12 Σ22

))

;

hier ist k = k1 + k2, μi ∈ Rki , Σ11 ∈ R

k1×k1 , Σ12 ∈ Rk2×k1 und Σ22 ∈

Rk2×k2 . Dann ist die bedingte Verteilung von X1 gegeben X2 wieder eine

Normalverteilung:

P(X1 ≤ x1 | X2 = x2) = Φk1(x1;μ(x2), Σ(x2))

mit

μ(x2) = μ1 + Σ�11Σ

−122 (x2 − μ2)

Σ(x2) = Σ11 − Σ�12Σ

−122 Σ12.

Φk1(x;μ, Σ) bezeichnet die Verteilungsfunktion der k1-dimensionalen Nor-malverteilung mit Erwartungswert μ und Kovarianzmatrix Σ an der Stelle x.

Page 46: Mathematische Statistik ||

Kapitel 2.

Statistische Modelle

Die Formulierung von statistischen Modellen bildet die Grundlage der Sta-tistik. Hierbei werden Modelle ausgewahlt, welche der Realitat zum einenmoglichst gut entsprechen sollen, zum anderen die fur die statistische Analy-se notwendige Handhabbarkeit besitzen. Das statistische Modell beschreibtstets das Ergebnis eines Zufallsexperiments, etwa die Werte einer erhaltenenStichprobe oder gesammelte Messergebnisse eines Experiments. Somit ist dieVerteilung der Zufallsvariable das Schlusselelement. Das statistische Modellist dann eine geeignete Familie von solchen Verteilungen. Anhand von zweiBeispielen wird im Folgenden die Formulierung von statistischen Modellenillustriert.

B 2.1 Qualitatssicherung : Eine Ladung von N Teilen soll auf ihre Qualitat unter-sucht werden. Die Ladung enthalt defekte und nicht defekte Teile. Mit θ seider Anteil der defekten Teile bezeichnet, von insgesamt N Teilen sind Nθdefekt. Aus Kostengrunden wird nur eine Stichprobe von n ≤ N Teilen un-tersucht. Zur Modellierung verwenden wir keinen festen Wahrscheinlichkeits-raum, sondern lediglich einen Zustandsraum Ω und eine zugehorige σ-AlgebraA. In unserem Fall sei Ω = {0, 1, . . . , n} und A die Potenzmenge1 von Ω. DieZufallsvariable X bezeichne die Anzahl der defekten Teile in der Stichprobe.Erfolgt die Auswahl der Stichprobe zufallig, so kann man ein LaplaceschesModell (vergleiche Seite 10) rechtfertigen und erhalt eine hypergeometrischeVerteilung fur X, siehe Beispiel 1.2:

P(X = k) =

(Nθk

)(N−Nθn−k

)

(Nn

) (2.1)

fur max{0, n−N(1−θ)} ≤ k ≤ min{Nθ, n} oder kurz X ∼ Hypergeo(N,n, θ).Insgesamt kann man dieses Modell wie folgt zusammenfassen:

{(Ω,A,Hypergeo(N,Ω, θ))

: θ unbekannt}.

1 Dies ist in der Tat eine σ-Algebra, wie in Aufgabe 1.1 nachgewiesen wird.

C. Czado, T. Schmidt, Mathematische Statistik, Statistik und ihre 37Anwendungen, DOI 10.1007/978-3-642-17261-8 2,c© Springer-Verlag Berlin Heidelberg 2011

Page 47: Mathematische Statistik ||

38 2. Statistische Modelle

Dabei bezeichnet (Ω,A,Hypergeo(N,Ω, θ)) den Wahrscheinlichkeitsraum mitdem Wahrscheinlichkeitsmaß, welches einer Hypergeo(N,Ω, θ)-Verteilung ent-spricht. Dies ist der erste Prototyp eines statistischen Modells bestehend auseiner Familie von Wahrscheinlichkeitsraumen. Der wesentliche Unterschiedzu einem einfachen Wahrscheinlichkeitsraum besteht darin, dass das Wahr-scheinlichkeitsmaß nur bis auf den Parameter θ bekannt ist.

In dem folgenden Beispiel sollen Messfehler modelliert werden. Eine typi-sche Annahme hierbei ist, dass der Messfehler symmetrisch um 0 verteilt ist.

Definition 2.1. Eine Zufallsvariable X heißt symmetrisch um c verteilt,falls X − c und −(X − c) die gleiche Verteilung besitzen. Dafur schreibenwir

X − cL= −(X − c). (2.2)

Hat X die Verteilungsfunktion F und Dichte f , so ist (2.2) aquivalent zuF (c + t) = 1 − F (c − t) fur alle t > 0. Hieraus folgt, dass fur die Dichtef(c + t) = f(c − t) fur alle t ≥ 0 gilt. Ist X hingegen diskret mit der Wahr-scheinlichkeitsfunktion p, so ist die Symmetrie von X um c sogar aquivalentzu p(c + t) = p(c − t) fur alle t ≥ 0.

Insbesondere gilt, dass eine Normalverteilung N (μ, σ2) symmetrisch umihren Erwartungswert μ und eine Binomialverteilung Bin(n, 1

2 ) symmetrischum ihren Erwartungswert n

2 verteilt ist.Das zweite Beispiel beschreibt typische Ergebnisse einer Messreihe, in wel-

cher wiederholt eine Messung vorgenommen wird und die Messwerte um dengesuchten Parameter schwanken.

B 2.2 Meßmodell : Es werden n Messungen einer physikalischen Konstante μ vorge-nommen. Die Messergebnisse seien mit X1, . . . , Xn bezeichnet. Man nimmtan, dass die Messungen einem Messfehler mit stetiger Verteilung unterworfensind, der additiv um μ variiert:

Xi = μ + εi, i = 1, . . . , n.

Hierbei bezeichnet εi den Messfehler der i-ten Messung. Wir unterscheidentypische Annahmen, welche geringe, oft erfullte Annahmen an physikalischeMessungen beschreiben und weitere Annahmen, welche daruber hinaus dieBerechnungen erleichtern. Bevor man allerdings die weiteren Annahmen ver-wendet, sollte man ihre Anwendbarkeit im konkreten Fall unbedingt einerkritischen Uberprufung unterziehen.

Typische Annahmen:

(i) Die Verteilung von ε = (ε1, . . . , εn)� ist unabhangig von μ (kein syste-matischer Fehler).

Page 48: Mathematische Statistik ||

2.1 Formulierung von statistischen Modellen 39

(ii) Der Messfehler der i-ten Messung beeinflusst den Messfehler der j-tenMessung nicht, d.h. ε1, . . . , εn sind unabhangig.

(iii) Die Verteilung der einzelnen Messfehler ist gleich, d.h. ε1, . . . , εn sindidentisch verteilt.

(iv) Die Verteilung von εi ist stetig und symmetrisch um 0.

Aus diesen Annahmen folgt, dass Xi = μ + εi gilt, wobei εi nach F undsymmetrisch um 0 verteilt ist. Daruber hinaus besitzt Xi eine Dichte und Fist von μ unabhangig.

Weitere Annahmen:

(v) εi ∼ N (0, σ2).(vi) σ2 ist bekannt.

Aus der Annahme (v) folgt, dass Xi ∼ N (μ, σ2) und X1, . . . , Xn i.i.d. sind.Unter Annahme (vi) ist μ der einzige unbekannte Parameter, was die Handha-bung des Modells wesentlich erleichtert. Bei einem konkreten Messdatensatzist immer zu diskutieren, welche Annahmen realistisch fur das Experimentsind.

2.1 Formulierung von statistischen Modellen

Das Ergebnis eines Zufallsexperiments ist eine so genannte Stichprobe. Dar-unter verstehen wir einen Zufallsvektor X = (X1, . . . , Xn)�. Falls man kon-krete Daten x = (x1, . . . , xn)� beobachtet, so ist dies gleichbedeutend mitdem Ereignis {X = x}. Wir verwenden stets die Bezeichnung X fur die Zu-fallsvariable und x fur konkrete, nicht zufallige Daten. Im Folgenden ist derGrundraum Ω wie auch die zugehorige σ-Algebra A fest.

Definition 2.2. Unter einem statistischen Modell verstehen wir ganz all-gemein eine Familie P von Verteilungen. Fur ein statistisches Modell Pverwenden wir stets die Darstellung

P = {Pθ : θ ∈ Θ},

wobei Pθ fur alle θ ∈ Θ ein Wahrscheinlichkeitsmaß ist. Θ heißt Parame-terraum.

In dem Beispiel 2.1 (Qualitatssicherung) ist das statistische Modell gerade

P = {Hypergeo(N,n, θ) : θ ∈ [0, 1]}.

Page 49: Mathematische Statistik ||

40 2. Statistische Modelle

In dem Beispiel 2.2 (Messfehler) fuhren die unterschiedlichen Annahmen zujeweils unterschiedlichen statistischen Modellen: Unter den Annahmen (i)-(iv) erhalt man

{X1, . . . , Xn i.i.d. ∼ F : F ist symmetrisch um μ}.

Hierbei induziert jede um μ symmetrische Verteilung F ein Wahrscheinlich-keitsmaß PF (A) als Produktmaß der einzelnen Verteilungen F durch die i.i.d.-Annahme. Die fuhrt unmittelbar zu einer Darstellung wie in Definition 2.2gefordert. Nimmt man die Normalverteilungssannahme hinzu, erhalt manunter (i)-(v)

{X1, . . . , Xn i.i.d. ∼ N (μ, σ2) : μ ∈ R, σ2 > 0}.

Hierbei sind sowohl μ als auch σ unbekannt. Im Gegensatz zu dem interes-sierenden Parameter μ ist σ nicht primar von Interesse, muss aber ebensogeschatzt werden. Man nennt einen solchen Parameter Storparameter (Nui-sance Parameter).

Unter den Annahmen (i)-(vi) ist σ daruber hinaus bekannt und man erhaltals Modell

{X1, . . . , Xn i.i.d. ∼ N (μ, σ2) : μ ∈ R}.Es gibt zahlreiche Moglichkeiten ein Modell zu parametrisieren. Jede bijek-

tive Funktion g(θ) eignet sich zur Parametrisierung. Es sollten jedoch Para-metrisierungen gewahlt werden, die eine Interpretation zulassen. Manchmalverlieren solche Parametrisierungen ihre Eindeutigkeit, in diesem Fall sprichtman von der Nichtidentifizierbarkeit von Parametern.

Definition 2.3. Ein statistisches Modell P heißt identifizierbar, falls furalle θ1,θ2 ∈ Θ gilt, dass

θ1 �= θ2 ⇒ Pθ1 �= Pθ2 .

B 2.3 Ein nicht identifizierbares Modell : Es werden zwei Messungen erhoben, dievon gewissen Faktoren abhangen. Es gibt einen Gesamteffekt (overall effect)μ und einen Faktoreffekt αi. Das fuhrt zu folgender Modellierung: Seien X1 ∼N (μ+α1, 1) und X2 ∼ N (μ+α2, 1) unabhangig. Setzen wir θ = (μ, α1, α2)�,so erhalten wir ein statistisches Modell durch2

Pθ = {N (μ + α1, 1) ⊗N (μ + α2, 1) : μ ∈ R, αi ∈ R}.

Betrachtet man

2 Mit ⊗ bezeichnen wir die gemeinsame Verteilung von X1 und X2, die aufgrund derUnabhangigkeit durch das Produkt der Dichten bestimmt ist.

Page 50: Mathematische Statistik ||

2.1 Formulierung von statistischen Modellen 41

θ1 = (2, 0, 0)� ⇒ X1 ∼ N (2, 1),X2 ∼ N (2, 1),

θ2 = (1, 1, 1)� ⇒ X1 ∼ N (2, 1),X2 ∼ N (2, 1),

so folgt, dass Pθ1 = Pθ2 ; der Faktoreffekt vermischt sich mit dem Gesamtef-fekt. Allerdings ist θ1 �= θ2, d.h. dieses statistische Modell ist nicht identifi-zierbar. Eine weitere Einschrankung wie α1 + α2 = 0 kann zur Identifizier-barkeit genutzt werden.

Ist Θ ⊂ Rk, so spricht man von einem parametrischen Modell , ansonsten

von einem nichtparametrischen Modell. Die Zustandsraume

Θ1 = {F : F ist Verteilungsfunktion symmetrisch um μ} undΘ2 = {(μ, p) : μ ∈ R, p ist Dichte und symmetrisch um 0}

implizieren zum Beispiel nichtparametrische Modelle.In diesem Buch beschranken wir uns im Wesentlichen auf parametrische

Modelle. Kann die parametrische Annahme verifiziert werden, so ist man inder Lage, scharfere Aussagen zu treffen. Ist dies nicht der Fall, so mussennichtparametrische Methoden angewendet werden. Hierfur sei auf Gibbonsund Chakraborti (2003) sowie Sprent und Smeeton (2000) verwiesen.

Definition 2.4. Ein statistisches Modell P heißt regular, falls eine derfolgenden Bedingungen erfullt ist:

(i) Alle Pθ, θ ∈ Θ, sind stetig mit Dichte pθ(x).(ii) Alle Pθ, θ ∈ Θ, sind diskret mit Wahrscheinlichkeitsfunktion pθ(x).

Im Folgenden schreiben wir fur ein regulares Modell oft

P = {p(·,θ) : θ ∈ Θ},

wobei durch p(x,θ) := pθ(x) die entsprechende Dichte oder Wahrscheinlich-keitsfunktion gegeben ist.

B 2.4 Meßmodell : Regulare Modelle erhalt man etwa durch das Meßmodell ausBeispiel 2.2. Unter den Annahmen (i)-(iv) und der zusatzlichen Annahme,dass das Modell eine Dichte hat, ist die gemeinsame Dichte durch

p(x,θ) =n∏

i=1

fθ(xi − μ)

gegeben, wobei fθ eine von μ unabhangige und um 0 symmetrische Dichteist. Gilt daruber hinaus die Normalverteilungsannahme (v), so erhalt manmit θ = (μ, σ)�, dass

Page 51: Mathematische Statistik ||

42 2. Statistische Modelle

p(x,θ) =n∏

i=1

φ

(xi − μ

σ

)

,

wobei φ(x) = 1√2π

e−x22 die Dichte der Standardnormalverteilung ist.

Das Ziel einer statistischen Analyse ist es aus den vorliegenden Daten zuschließen, welche Verteilung Pθ wirklich vorliegt, oder anders ausgedruckt:Welcher Parameter θ den beobachteten Daten zugrunde liegt. Im Gegensatzhierzu geht man in der Wahrscheinlichkeitstheorie von einer festen VerteilungPθ aus und berechnet interessierende Wahrscheinlichkeiten eines bestimmtenEreignisses. Um die vorhandenen Daten bestmoglich auszunutzen, muss diestatistische Untersuchung fur das Problem speziell angepasst sein, weswegeneine statistische Fragestellung haufig von dem Problem selbst abhangt:

In dem Kontext der Qualitatssicherung (Beispiel 2.1) mochte man wissen,ob die Lieferung zu viele defekte Teile enthalt, d.h. gibt es einen kritischenWert θ0, so dass man die Lieferung akzeptiert, falls θ ≤ θ0 und sie ablehnt,falls θ > θ0. Unter welchen Gesichtspunkten kann man ein solches θ0 be-stimmen? Dies fuhrt zu statistischen Hypothesentests, welche im Kapitel 5vorgestellt werden.

In dem Messmodel aus Beispiel 2.2 soll der unbekannte Parameter μgeschatzt werden. Ein moglicher Punktschatzer ist durch den arithmetischenMittelwert gegeben:

X :=1n

n∑

i=1

Xi. (2.3)

Wie man einen solchen Schatzer bestimmen kann und welche Optima-litatseigenschaften bestimmte Schatzer haben wird in den Kapiteln 3 und4 untersucht.

Folgende Problemstellungen sind in der Statistik zu untersuchen:

• Wie erhebt man die Daten?• Welche Fragestellungen mochte man untersuchen?• Welches statistische Modell nimmt man an?

Diese Fragestellungen sollten als Einheit betrachtet werden und folglich nichtgetrennt voneinander untersucht werden. Wie schon beschrieben liegt derSchwerpunkt dieses Buches auf statistischen Analyseverfahren, welche voneinem gewahlten statistischen Modell ausgehen. Die Wahl eines geeignetenModells hangt von den erhobenen Daten und den interessierenden Fragestel-lungen ab. Dabei ist die Einbeziehung von Sachwissen aus dem Datenzu-sammenhang von entscheidender Bedeutung, um eine realistische statistischeModellierung zu erlangen.

Page 52: Mathematische Statistik ||

2.2 Suffizienz 43

2.2 Suffizienz

Nach der Wahl des statistischen Modells mochte man irrelevante Informa-tionen aus der Vielzahl der erhobenen Daten herausfiltern, welches zu einerDatenreduktion fuhrt, etwa wie in Gleichung (2.3) durch den Mittelwert derDaten. Formal gesehen, sind die erhobenen Daten durch den ZufallsvektorX = (X1, . . . , Xn)� charakterisiert. Dies bedeutet, dass die erhobenen Da-tenwerte als Realisationen von X angesehen werden. Unter einer Statistikversteht man eine Funktion von der Daten, etwa dargestellt durch

T := T (X).

T wird als eine Zufallsvariable auf dem Ereignisraum Ω betrachtet. Manverwendet die erhobenen Daten, um einen Schatzwert fur den gesuchten Pa-rameter zu berechnen, was man einen Punktschatzwert nennt. Der zugehorigePunktschatzer ist somit eine Zufallsvariable, die von X abhangt. Aus diesemGrund ist ein Punktschatzer auch eine Statistik.

Gilt T (x1) = T (x2) fur alle Realisierungen x1,x2 mit gleichen Charak-teristika des Experiments, so reicht es aus nur den Wert der Statistik T (x)und nicht den ganzen Datenvektor x zu kennen. Das heißt, im Vergleich zurKenntnis von X geht fur die Statistik T keine Information verloren. Dieswird in folgendem Beispiel illustriert.

B 2.5 Qualitatssicherung, siehe Beispiel 2.1 : Wir betrachten eine Stichprobe vonn Objekten einer Population. Wir definieren die Bernoulli-ZufallsvariablenX1, . . . , Xn durch Xi = 1, falls das i-te Teil der Stichprobe defekt ist, undandernfalls Xi = 0 und setzen X = (X1, . . . , Xn)�. Wir interessieren unsfur die Anzahl der defekten Teile der Stichprobe und betrachten daher dieStatistik

T (X) =n∑

i=1

Xi.

Ist n = 2 und gibt es zwei defekte Teile in der Stichprobe, so ist dies be-schrieben durch die drei moglichen Realisierungen

x1 = (1, 0, 1), x2 = (0, 1, 1), x3 = (1, 1, 0).

Es gilt T (x1) = T (x2) = T (x3). Ist man an der Anzahl der defekten Teileinteressiert, so ist diese Information vollstandig in der Statistik T (X) enthal-ten.

Ein Schatzer T (X) reduziert die in X enthaltene Information auf eineeinzelne Große. Mochte man einen Parameter schatzen, so ist es wesentlichzu wissen, ob durch diese Reduktion wichtige Information verloren geht odernicht. Ist eine Statistik suffizient fur den Parameter θ, so ist das nicht derFall. Betrachtet wird das statistische Modell P = {Pθ : θ ∈ Θ}.

Page 53: Mathematische Statistik ||

44 2. Statistische Modelle

Definition 2.5. Eine Statistik T (X) heißt suffizient fur θ, falls die be-dingte Verteilung von X gegeben T (X) = t nicht von θ abhangt.

Die Interpretation dieser Definition ist wie folgt: Falls man den Wert dersuffizienten Statistik T kennt, dann enthalt X = (X1, . . . , Xn)� keine wei-teren Informationen uber θ. Kurz schreiben wir fur die Zufallsvariable Xbedingt auf T (X) = t

X | T (X) = t.

B 2.6 Qualitatssicherung, siehe Beispiel 2.1 : Betrachtet wird die ZufallsvariableX gegeben durch X = (X1, . . . , Xn)�, wobei Xi ∈ {0, 1} ist. Xi hat denWert 1, falls das i-te Teil defekt ist und sonst 0. Wir nehmen an, dass dieXi unabhangig sind und Pθ(Xi = 0) = θ, wobei θ der unbekannte Parameterist. Sei x = (x1, . . . , xn)� ∈ {0, 1}n der Vektor der beobachteten Werte undS(x) :=

∑ni=1 xi. Das zugrundeliegende statistische Modell ist {Pθ : θ ∈

[0, 1]} mit

Pθ(X1 = x1, . . . , Xn = xn) = θS(x)(1 − θ)n−S(x).

Fur die bedingte Verteilung von X gegeben S(X) =∑n

i=1 Xi erhalt mannach Beispiel 1.3 von Seite 21:

P(X = x∣∣S(X) = t) =

(n

t

)−1

.

Dieser Ausdruck ist unabhangig von θ, also ist S(X) eine suffiziente Sta-tistik fur den Parameter θ. Damit ist auch der arithmetische MittelwertX = n−1S(X) eine suffiziente Statistik fur θ.

Bemerkung 2.6. Falls T (X) suffizient fur θ ist, dann kann man Daten x′mit der gleichen Verteilung wie X folgendermaßen erzeugen, ohne θ zu ken-nen: Ist t = T (x) fur eine Realisierung x von X, so erzeuge x′ nach derVerteilung X|T (X) = t (hangt aufgrund der Suffizienz nicht von θ ab).

Wir beweisen die Aussage fur diskrete Zufallsvariablen. Sei X ′ die Zu-fallsvariable mit Realisierung x′. Fur jedes t′ mit P(T (X) = t′) > 0 gilt,dass

P(X ′ = x′, T (X) = t′) = P(X ′ = x′|T (X) = t′) · P(T (X) = t′) (Def. von X ′)

= P(X = x′|T (X) = t′) · P(T (X) = t′)

= P(X = x′, T (X) = t′),

und somit hat X ′ die gleiche Verteilung wie X.

B 2.7 Warteschlange: Die Ankunft von Kunden an einem Schalter folgt einemPoisson-Prozess mit Intensitat θ, falls folgende Annahmen erfullt sind:Bezeichne Nt die zufallige Anzahl der Kunden, welche zum Zeitpunkt t ≥ 0

Page 54: Mathematische Statistik ||

2.2 Suffizienz 45

angekommen sind. Die Poisson-Verteilung wurde in Gleichung (1.5) auf Seite10 definiert.

(i) N0 = 0,(ii) Nt+h − Nt ist unabhangig von Ns fur alle 0 ≤ s ≤ t und alle h > 0,(iii) Nt+h − Nt ∼ Poiss(θh) fur alle t ≥ 0 und h > 0.

Insbesondere folgt aus (iii), dass Nt ∼ Poiss(θt). Eine Illustration des Poisson-Prozesses (Nt)t≥0 findet sich in Abbildung 2.1.

0

1

2

3

4

0 1 2 3 4 5 6 7X1 X2

Abb. 2.1 Realisation eines Poisson-Prozesses. Die Sprungzeitpunkte stellenAnkunfte von neuen Kunden an einer Warteschlange dar. Xi ist die verstricheneZeit zwischen der Ankunft des i-ten und des i − 1-ten Kunden.

Mit Xi sei die verstrichene Zeit zwischen der Ankunft des i-ten und desi − 1-ten Kunden bezeichnet, X1 sei die Zeit bis zur Ankunft des erstenKunden. Dann folgt aus (iii), dass P(X1 > t) = P(N(t) = 0) = exp(−θt),demzufolge ist X1 exponentialverteilt mit dem Parameter θ. Aus Aufgabe 2.1erhalt man, dass Xi ∼ Exp(θ) und die Unabhangigkeit von X1,X2, . . . .

Wir betrachten zunachst nur X1 und X2, der allgemeine Fall wird in Bei-spiel 2.8 betrachtet. Setze

T (X) := X1 + X2.

Dann ist T (X) suffizient fur θ: Wir berechnen die bedingte Dichte durch dieGleichung (1.14). Die gemeinsame Dichte ist3

pX(x1, x2, θ) = 1{x1,x2>0} θe−θx1 · θe−θx2 .

3 Wir definieren 1{x1,x2>0} :=

{1 x1, x2 > 0,

0 sonst.und analog 1A(x) =

{1 x ∈ A,

0 sonst.

Page 55: Mathematische Statistik ||

46 2. Statistische Modelle

Ziel ist es den Transformationssatz (Satz 1.3) in geschickter Weise anzuwen-den. Wir wahlen folgende Transformation g : R

+ × R+ → R

+ × [0, 1] mit

y := g(x) =(

x1 + x2,x1

x1 + x2

)�.

Damit ist g−1(y) = (y1y2, y1 − y1y2) und

∣∣Jg−1(y1, y2)

∣∣ = |

∣∣∣∣∣

∂x1∂y1

∂x2∂y1

∂x1∂y2

∂x2∂y2

∣∣∣∣∣| = |

∣∣∣∣∣

y2 1 − y2

y1 −y1

∣∣∣∣∣| = | − y1| = y1.

Die Anwendung des Transformationssatzes liefert die Dichte von Y := g(X),

pY (y) = 1{y1>0,y2∈[0,1]} θ2y1 · e−θ(y1y2+y1−y1y2)

= 1{y1>0}θ2y1e

−y1θ

Γ (2)· 1{y2∈[0,1]} (2.4)

= pY1(y1) · pY2|Y1(y2|y1).

Der Gleichung (2.4) entnimmt man, dass die Dichte von Y das Produktvon Dichten einer Gamma(2, θ) und einer U(0, 1)-Verteilung ist (vergleiche(1.10)). Weiterhin ist pY2|Y1(y2|y1) unabhangig von y1. Damit folgt, dass Y2

unabhangig von Y1 = X1 + X2 = T und daruber hinaus U(0, 1)-verteilt ist.Man erhalt nach einer Regel fur bedingte Erwartungswerte aus Gleichung(1.15), dass

P(X1 ≤ x |T = t

)= P(TY2 ≤ x |T = t

)= P(tY2 ≤ x) =

x

t,

fur x ∈ [0, t] ist. Demnach ist X1 bedingt auf T = t gleichverteilt auf [0, t].Durch X2 = T −X1 erhalt man, dass der Vektor X bedingt auf T = t verteiltist wie

(Z, t − Z),

wobei Z ∼ U(0, t). Es folgt, dass X bedingt auf T = t unabhangig von θ istund somit T suffiziente Statistik fur θ ist.

Diesem Beispiel liegt die Aussage zugrunde, dass bedingt auf Nt = ndie Zwischenankunftszeiten von N verteilt sind wie Ordnungsstatistiken vongleichverteilten Zufallsvariablen (siehe dazu: Rolski, Schmidli, Schmidt undTeugels (1999), Seite 502).

Das oben genannte Beispiel zeigt auf, wie schwierig es ist, Suffizienz imEinzelnen nachzuweisen. Mit dem folgenden Satz von Fisher, Neyman, Hal-mos und Savage kann man Suffizienz oft leichter zeigen. Fur diesen Satznehmen wir an, dass die Werte der Statistik T in Θ liegen.

Page 56: Mathematische Statistik ||

2.2 Suffizienz 47

Satz 2.7 (Faktorisierungssatz). Sei P = {p(·,θ) : θ ∈ Θ} ein regularesModell. Dann sind aquivalent:

(i) T (X) ist suffizient fur θ.(ii) Es existiert g : Θ × Θ → R und h : R

n → R, so dass fur alle x ∈ Rn

und θ ∈ Θ

p(x,θ) = g(T (x),θ) · h(x).

Beweis. Wir fuhren den Nachweis nur fur den diskreten Fall. X nehme dieWerte x1,x2, . . . an. Setze ti := T (xi). Dann ist T = T (X) eine diskreteZufallsvariable mit Werten t1, t2, . . . . Wir zeigen zunachst, dass (ii) ⇒ (i).Aus (ii) folgt, dass

Pθ(T = ti) =∑

{x:T (x)=ti}p(x,θ) =

{x:T (x)=ti}g(ti,θ) · h(x). (2.5)

Fur θ ∈ Θ mit Pθ(T = ti) > 0 gilt

Pθ(X = xj |T = ti) =Pθ(X = xj , T = ti)

Pθ(T = ti).

Dieser Ausdruck ist 0 und damit unabhangig von θ, falls T (xj) �= ti. Gilthingegen T (xj) = ti, so ist

Pθ(X = xj |T = ti) =g(ti,θ)h(xj)Pθ(T = ti)

(2.5)=

g(ti,θ)h(xj)∑

{x:T (x)=ti}g(ti,θ) · h(x)

=h(xj)∑

{x:T (x)=ti}h(x)

.

Da auch dieser Ausdruck unabhangig von θ ist, ist T (X) suffizient fur θ.

Es bleibt zu zeigen, dass (i) ⇒ (ii). Sei also T eine suffiziente Statistik fur θund setze

g(ti,θ) := Pθ(T (X) = ti) , h(x) := Pθ(X = x|T (X) = T (x)).

Dabei ist h unabhangig von θ, da T (x) suffizient ist. Es folgt, dass

p(x,θ) = Pθ(X = x, T (X) = T (x))= Pθ(X = x|T (X) = T (x)) · Pθ(T (X) = T (x))= h(x) · g(T (x),θ)

Page 57: Mathematische Statistik ||

48 2. Statistische Modelle

und somit die behauptete Faktorisierung in (ii). ��B 2.8 Warteschlange, Fortsetzung von Beispiel 2.7: Seien X = (X1, . . . , Xn)�

die ersten n Zwischenankunftszeiten eines Poisson-Prozesses. Dann sindX1, . . . , Xn unabhangig und Xi ∼ Exp(θ). Die Dichte von X ist demnach

p(x, θ) = 1{x1,...,xn≥0} θn e−θ

n∑

i=1xi

.

Die Statistik T (X) :=∑n

i=1 Xi ist suffizient fur θ: In der Tat, wahle g(t, θ) =θn exp{−θt} und h(x) = 1{x1,...,xn≥0}. Dann ist die Bedingung (ii) von Satz2.7 erfullt und somit T suffizient fur θ. Ebenso ist das arithmetische Mitteleine suffiziente Statistik fur θ.

B 2.9 Geordnete Population: Schatzen des Maximums: Betrachtet werde eine Po-pulation mit θ Mitgliedern. Dabei seien die Mitglieder geordnet und mit1, 2, . . . , θ nummeriert. Man ziehe n-mal zufallig mit Zurucklegen von derPopulation. Xi sei das Ergebnis des i-ten Zuges. Dies fuhrt zu einem Lapla-ceschen Modell: P(Xi = k) = θ−1 fur alle k ∈ {1, . . . , θ}. Daruber hinaussind die Xi unabhangig. Damit ist die gemeinsame Verteilung

p(x, θ) =n∏

i=1

p(xi, θ) = θ−n1{xi∈{1,...,θ},1≤i≤n}.

Die StatistikT (X) := max

i=1,...,nXi

ist suffizient fur θ: Durch die Wahl von g(t, θ) := θ−n · 1{t≤θ} und h(x) :=1{xi∈{1,...,θ},1≤i≤n} erhalt man dies aus dem Faktorisierungssatz, Satz 2.7.

B 2.10 Suffiziente Statistiken fur die Normalverteilung : Betrachtet man eine Stich-probe von normalverteilten Daten, so bilden das arithmetische Mittel unddie Stichprobenvarianz zusammen einen suffizienten Schatzer: Seien die Zu-fallsvariablen X1, . . . , Xn i.i.d. mit Xi ∼ N (μ, σ2). Gesucht ist der Parame-tervektor θ = (μ, σ2)�, d.h. der Erwartungswert μ und die Varianz σ2 sindunbekannt. Das arithmetische Mittel X und die Stichprobenvarianz s2(X)wurden in Beispiel 1.1 definiert. Die Dichte von X = (X1, . . . , Xn)� ist

p(x,θ) =1

(2πσ2)n/2exp

(

− 12σ2

n∑

i=1

(xi − μ

)2)

.

Zunachst betrachten wir T1(X) :=(∑n

i=1 Xi,∑n

i=1 X2i

)�. Mit h(x) := 1und

g(T1(x),θ) :=1

(2πσ2)n/2e−

nμ2

2σ2 exp

(

− 12σ2

( n∑

i=1

x2i − 2μ

n∑

i=1

xi

))

Page 58: Mathematische Statistik ||

2.3 Exponentielle Familien 49

ist p(x,θ) = g(T1(x),θ)h(x). Folglich ist T1(X) fur θ suffizient. Der zufalligeVektor T2, definiert durch

T2(X) :=(

X

s2(X)

)

ist ebenfalls suffizient, denn X = 1n

∑ni=1 Xi und s2(X) = 1

n−1

∑ni=1(X

2i −

(X)2) nach Aufgabe 2.2.

2.3 Exponentielle Familien

Wir bezeichnen mit 1{x∈A} die Indikatorfunktion mit Wert Eins falls x ∈ Aist und Null sonst. Die folgende Definition fuhrt exponentielle Familien furzunachst einen Parameter ein. K-parametrige exponentielle Familien werdenin Definition 2.14 vorgestellt.

Definition 2.8. Eine Familie von Verteilungen {Pθ : θ ∈ Θ} mit Θ ⊂R heißt eine einparametrige exponentielle Familie, falls Funktionen c, d :Θ → R und T, S : R

n → R und eine Menge A ⊂ Rn existieren, so dass die

Dichte oder Wahrscheinlichkeitsfunktion p(x, θ), x ∈ Rn von Pθ durch

p(x, θ) = 1{x∈A} · exp(c(θ) · T (x) + d(θ) + S(x)

)(2.6)

dargestellt werden kann.

Es ist wesentlich, dass A hierbei unabhangig von θ ist. Die Funktion d(θ)kann als Normierung aufgefasst werden. An dieser Stelle soll betont wer-den, dass die Verteilung einer mehrdimensionalen Zufallsvariable durchauszu einer einparametrigen exponentiellen Familie gehoren kann. Diese wirdallerdings nur von einem eindimensionalen Parameter aufgespannt.

Die Nutzlichkeit dieser Darstellung von Verteilungsklassen erschließt sichdurch folgende Beobachtung: T (X) ist stets suffiziente Statistik fur θ; diesfolgt aus dem Faktorisierungssatz 2.7 mit

g(t, θ) = exp(c(θ)t + d(θ)

)und h(x) = 1{x∈A} · exp(S(x)).

T heißt naturliche suffiziente Statistik oder kanonische Statistik. Eine Viel-zahl von Verteilungen lassen sich als exponentielle Familien schreiben. Wirstellen die Normalverteilung in verschiedenen Varianten vor, und es folgendie Binomialverteilung, die Poisson-Verteilung, die Gamma- und die Beta-Verteilung. Die Verteilung einer Stichprobe, welche aus i.i.d. Zufallsvariableneiner exponentiellen Familie entsteht, bildet erneut eine exponentielle Fa-

Page 59: Mathematische Statistik ||

50 2. Statistische Modelle

milie, wie in Bemerkung 2.10 gezeigt wird. Die beiden folgenden Beispielezeigen die Normalverteilung als einparametrige exponentielle Familie. Da dieNormalverteilung durch zwei Parameter beschrieben wird, muss jeweils einerfestgehalten werden, um eine einparametrige Familie zu erhalten. Die Nor-malverteilung als zweiparametrige exponentielle Familie wird in Beispiel 2.17vorgestellt.

Ist c(θ) = θ in Darstellung (2.6), so spricht man von einer naturlichenexponentiellen Familie. Jede exponentielle Familie hat eine Darstellung alsnaturliche exponentielle Familie, was man stets durch eine Reparametrisie-rung erreichen kann: Mit η := c(θ) erhalt man die Darstellung

p0(x, η) = 1{x∈A} exp(η · T (x) + d0(η) + S(x)

). (2.7)

Ist p0 eine Dichte, so ist die zugehorige Normierungskonstante gegeben durch

d0(η) := − ln(∫

A

exp(ηT (x) + S(x)

)dx

)

, (2.8)

was aquivalent ist zu∫

p0(x, η)dx = 1. Ist p0 hingegen eine Wahrscheinlich-keitsfunktion und nimmt X die Werte x1,x2, . . . an, so gilt

d0(η) := − ln( ∑

xi∈A

exp(ηT (xi) + S(xi)

))

. (2.9)

Bemerkung 2.9. Ist c : Θ → R eine injektive Funktion, so ist dieNormierungskonstante einfacher zu bestimmen, denn in diesem Fall folgtd0(η) = d(c−1(η)). Gilt weiterhin, dass η = c(θ) fur ein θ ∈ Θ, so folgtd0(η) = d(θ) < ∞, da p(·, θ) eine Dichte bzw. eine Wahrscheinlichkeitsfunk-tion ist.

B 2.11 Normalverteilung mit bekanntem σ: Ausgehend von dem Meßmodell aus Bei-spiel 2.2 und den dortigen Annahmen (i)-(vi) betrachten wir ein festes σ2

0

und das statistische Modell

P ={Pμ = N (μ, σ2

0) : μ ∈ R}.

Dann ist P eine einparametrige exponentielle Familie, denn die zu Pμ zu-gehorige Dichte lasst sich schreiben als

p(x, μ) =1

√2πσ2

0

exp(

− 12σ2

0

(x − μ

)2)

= exp(

μ

σ20

· x +−μ2

2σ20

−(

x2

2σ20

+ ln(√

2πσ20

)))

. (2.10)

Page 60: Mathematische Statistik ||

2.3 Exponentielle Familien 51

Mit c(μ) := μσ20, T (x) := x, d(μ) := −μ2

2σ20

und S(x) := −(

x2

2σ20

+ ln(√

2πσ20

))

sowie A := R erhalt man die Gestalt (2.6).

B 2.12 Normalverteilung mit bekanntem μ: Anders als in dem vorausgegangenenBeispiel nehmen wir nun an, dass der Erwartungswert der Normalverteilungbekannt ist, etwa μ0. Dies fuhrt zu dem statistischen Modell

P ={Pσ2 = N (μ0, σ

2) : σ > 0}.

Die zugehorige Dichte hat, analog zu Gleichung (2.10), die Gestalt

p(x, σ2) = exp(

− 12σ2

(x − μ0)2 − ln(√

2πσ2))

.

Mit der Wahl von c(σ2) := − 12σ2 , T (x) := (x − μ0)2, d(σ2) := − ln

(√2πσ2

)

und S(x) := 0, sowie A := R erhalt man eine Darstellung in der Form (2.6)und somit ist P ebenfalls eine exponentielle Familie.

B 2.13 Binomialverteilung : Nicht nur stetige Verteilungen lassen sich als exponen-tielle Familien beschreiben, sondern auch diskrete Verteilungen. Die Binomi-alverteilung ist zum Beispiel eine exponentielle Familie: Die Wahrscheinlich-keitsfunktion einer Bin(n, θ)-Verteilung ist fur k ∈ {0, . . . , n}

p(k, θ) =(

n

k

)

θk(1 − θ)n−k = exp(

k · ln( θ

1 − θ

)+ n · ln(1 − θ) + ln

(n

k

))

.

Mit der Wahl von c(θ) = ln(

θ1−θ

), T (k) = k, d(θ) = n ln(1 − θ), und S(k) =

ln(nk

), sowie A = {0, 1, . . . , n} ergibt sich die Darstellung (2.6). Die Familie

der Binomialverteilungen, gegeben durch ihre Wahrscheinlichkeitsfunktionen{p(·, θ) : θ ∈ (0, 1)}, ist demzufolge eine exponentielle Familie.

B 2.14 Die U(0, θ)-Verteilung ist keine exponentielle Familie: Als wichtiges Gegen-beispiel fur Verteilungen, welche nicht als exponentielle Familie darstellbarsind, betrachte man eine Gleichverteilung auf dem Intervall (0, θ). Die zu-gehorige Dichte ist

1{x∈(0,θ)}1θ

und somit handelt es sich nicht um eine exponentielle Familie, da die MengeA in der Darstellung (2.6) von θ abhangen musste. Das diskrete Analogonhierzu ist Beispiel 2.9.

Es sei daran erinnert, dass unabhangige und identisch verteilte Zufallsva-riablen als i.i.d. bezeichnet werden.

Bemerkung 2.10. Die i.i.d. Kombination einer exponentiellen Familie isteine exponentielle Familie. Insbesondere trifft dies auf die oben genanntenBeispiele 2.11-2.13 zu. Die Famile von Dichten oder Wahrscheinlichkeits-funktionen {p(·, θ) : θ ∈ Θ} fur n-dimensionale Zufallvektoren sei eine ein-

Page 61: Mathematische Statistik ||

52 2. Statistische Modelle

parametrige exponentielle Familie. Die m Zufallsvektoren X1, . . . ,Xm seieni.i.d., jeweils mit der Dichte oder Wahrscheinlichkeitsfunktion p(·, θ) welchedie Form (2.6) habe. Setze

X := (X�1 , . . . ,X�

m)� ∈ Rn·m.

Die Dichte bzw. Wahrscheinlichkeitsfunktion von X ist fur x = (x�1 , . . . ,x�

m)�

pX(x, θ) =m∏

i=1

p(xi, θ) =m∏

i=1

exp(c(θ)T (xi) + d(θ) + S(xi)

)· 1A(xi)

= 1Am(x1, . . . ,xm) exp(

c(θ)m∑

i=1

T (xi) + m · d(θ) +m∑

i=1

S(xi))

mit Am := {(x1, . . . ,xm) : xi ∈ A ∀ 1 ≤ i ≤ m}. Durch die Wahl dersuffizienten Statistik T ′(x) :=

∑mi=1 T (xi), sowie c′(θ) := c(θ), d′(θ) := m ·

d(θ), A′ := Am und S′(x) =∑m

i=1 S(xi) erhalt man eine Darstellung alsexponentielle Familie gemaß (2.6).

Somit gehort die Verteilung von X wieder einer einparametrigen exponen-tiellen Familie mit suffizienter Statistik T ′(x) :=

∑mi=1 T (xi) an.

B 2.15 i.i.d. Normalverteilung mit bekanntem σ: Als Beispiel zu obiger Bemer-kung 2.10 betrachten wir X = (X1, . . . , Xn)�, wobei X1, . . . , Xn i.i.d. seienmit Xi ∼ N (μ, σ2

0) und bekanntem σ0 (vergleiche Beispiel 2.11). Dann istT (X) :=

∑ni=1 Xi und somit auch das arithmetische Mittel X suffiziente

Statistik fur μ und die Verteilung von X bildet wieder eine einparametrigeexponentielle Familie.

Wir fassen diese und weitere Beispiele fur einparametrige exponentielleFamilien in der Tabelle 2.1 zusammen. Das folgende Resultat beschreibt dieVerteilung der naturlichen suffizienten Statistik einer einparametrigen expo-nentiellen Familie.

Satz 2.11. Sei {Pθ : θ ∈ Θ} eine einparametrige exponentielle Familiemit Darstellung (2.6) und sei T stetig. Hat X die Verteilung Pθ, so hatT (X) die Verteilung Qθ, wobei Qθ wieder eine einparametrige exponenti-elle Familie ist mit der Dichte bzw. Wahrscheinlichkeitsfunktion

q(t, θ) = 1{t∈A∗} exp(c(θ) · t + d(θ) + S∗(t)

);

hierbei ist A∗ := {T (x) : x ∈ A}. Handelt es sich um eine diskrete Vertei-lung, so ist

S∗(t) = ln

(∑

x∈A : T (x)=t

exp(S(x))

)

.

Page 62: Mathematische Statistik ||

2.3 Exponentielle Familien 53

Verteilungsfamilie c(θ) T (x) A

Poiss(θ) ln(θ) x {0, 1, 2, . . . }Gamma(a, λ), a bekannt −λ x R

+

Gamma(a, λ), λ bekannt a − 1 ln x R+

Invers Gamma, a bekannt −λ x−1R

+

Invers Gamma, λ bekannt −a − 1 ln x R+

Beta(r, s), r bekannt s − 1 ln(1 − x) [0, 1]

Beta(r, s), s bekannt r − 1 ln(x) [0, 1]

N (θ, σ2), σ bekannt θ/σ2 x R

N (μ, θ2), μ bekannt −1/2θ2 (x − μ)2 R

Invers Gauß, λ bekannt − λ2μ2 x R

+

Invers Gauß, μ bekannt −λ2

xμ2 + 1

xR

+

Bin(n, θ), n bekannt ln θ/1−θ x {0, 1, . . . , n}Rayleigh(θ) −1/2θ2 x2

R+

χ2θ

θ2 − 1 ln x R

+

Exp(θ) −θ x R+

X1, . . . , Xm i.i.d. exp. Familie c(θ)∑m

i=1 T (xi) Am

Tabelle 2.1 Einparametrige exponentielle Familien. c, T und A aus Darstellung(2.6) sind in der Tabelle angegeben, d ergibt sich durch Normierung. Die tθ-, Fθ1,θ2 -und die Gleichverteilung U(0, θ) sowie die Hypergeometrische Verteilung lassen sichnicht als exponentielle Familien darstellen.

Beweis. Wir beweisen den diskreten Fall, der stetige Fall ist Teil von Aufgabe2.7. Ist X eine diskrete Zufallsvariable mit der Wahrscheinlichkeitsfunktionp(x, θ), so ist T (X) ebenfalls eine diskrete Zufallsvariable und besitzt dieWahrscheinlichkeitsfunktion

q(t, θ) := Pθ(T (X) = t) =∑

x∈A : T (x)=t

p(x, θ)

=∑

x∈A : T (x)=t

exp(c(θ) · T (x) + d(θ) + S(x)

)

= 1A∗(t) · exp(c(θ)t + d(θ)

)(

x∈A : T (x)=t

eS(x)

)

.

Damit ist die Verteilung von T eine exponentielle Familie nach Darstellung(2.6). ��

Page 63: Mathematische Statistik ||

54 2. Statistische Modelle

Satz 2.12. Betrachtet man eine naturliche einparametrige exponentielleFamilie mit den Dichten oder Wahrscheinlichkeitsfunktionen p0(x, η) : η ∈Θ′ in Darstellung (2.7) und ist X ∼ p0, so gilt

Ψ(s) = E(es·T (X)

)= exp

(d0(η) − d0(η + s)

)< ∞

fur alle η, η + s ∈ H mit H := {η ∈ Θ′ : d0(η) < ∞}.

Beweis. Wir fuhren den Beweis fur den Fall, dass p0 eine Dichte ist. Derdiskrete Fall folgt analog. Mit Darstellung (2.7) erhalten wir

Ψ(s) = E(exp(s · T (X))

)

=∫

A

exp((η + s)T (x) + d0(η) + S(x)

)dx

= exp(d0(η) − d0(η + s)

)∫

A

exp((η + s)T (x) + d0(η + s) + S(x)

)dx

= exp(d0(η) − d0(η + s)

) ∫

A

p0(x, η + s) dx.

Nach Voraussetzung ist η + s ∈ H, und somit ist p0(·, η + s) eine Dichte unddas Integral in der letzten Zeile gleich 1. Weiterhin folgt aus η, η + s ∈ H,dass d0(η) − d0(η + s) endlich ist und somit Ψ(s) < ∞. ��Bemerkung 2.13. Erwartungswert und Varianz der suffizienten Statistikin exponentiellen Familien. Aus der momentenerzeugenden Funktion Ψ kannman folgendermaßen die Momente von T (X) bestimmen. Es sei daran er-innert, dass jede exponentielle Familie eine naturliche Darstellung der Form(2.7) hat. Unter dieser Darstellung ist

E(T (X)) = Ψ ′(0) = Ψ(0)(− d′0(η + s)

∣∣∣s=0

)= −d′0(η),

da Ψ(0) = 1. Weiterhin ist E(T (X)2) = (d′0(η))2 − d′′0(η) und damit

Var(T (X)) = −d′′0(η).

Die Funktion d0 kann durch (2.8) bzw. (2.9) oder mit Hilfe von Bemerkung2.9 bestimmt werden. Zusammenfassend erhalten wir:

E(T (X)) = −d′0(η),

Var(T (X)) = −d′′0(η).

Page 64: Mathematische Statistik ||

2.3 Exponentielle Familien 55

B 2.16 Momente der Rayleigh-Verteilung : Seien X1, . . . , Xn i.i.d. und Rayleigh-verteilt, d.h. Xi hat die Dichte

1{x>0}x

θ2e−

x2

2θ2

mit unbekanntem θ > 0, siehe Bemerkung 1.12. Die Rayleigh-Verteilung isteine exponentielle Familie, denn X = (X1, . . . , Xn)� hat die Dichte4

p(x, θ) = 1{x>0} exp(

−n∑

i=1

x2i

2θ2

)

·n∏

i=1

xi

θ2

= 1{x>0} exp(

− 12θ2

n∑

i=1

x2i − n ln(θ2) +

n∑

i=1

ln xi

)

,

und durch die Wahl von c(θ) := − 12θ2 , d(θ) := −n ln(θ2), A := (R+)n,

naturlicher suffizienter Statstik T (X) =n∑

i=1

X2i und S(x) :=

∑ni=1 ln xi

erhalt man die Darstellung (2.6). Die Transformation auf eine naturliche Fa-milie erfolgt mit η := c(θ) < 0. Das bedeutet

c−1(η) =√

− 12η

und d0(η) = d(c−1(η)

)= n ln(−2η).

Nach Satz 2.12 hat T (X) die momentenerzeugende Funktion Ψ(s) = exp(d0(η)−d0(η+s)). Aus Bemerkung 2.13 bestimmt sich nun leicht der Erwartungswert:

E(T (X)) = E

( n∑

i=1

X2i

)= −d′0(η) = −n

η= 2nθ2,

was mit dem Ergebnis fur Z2 unter n = 1 aus Aufgabe 1.36 ubereinstimmt.Die Berechnung der Varianz erfolgt in Aufgabe 2.20.

Definition 2.14. Eine Familie von Verteilungen {Pθ : θ ∈ Θ} mitΘ ⊂ R

K heißt K-parametrige exponentielle Familie, falls Funktionenci, d : Θ → R, Ti : R

n → R und S : Rn → R, i = 1, . . . ,K sowie eine

Menge A ⊂ Rn existieren, so dass die Dichte oder Wahrscheinlichkeits-

funktion p(x,θ) von Pθ fur alle x ∈ Rn als

p(x,θ) = 1{x∈A} exp( K∑

i=1

ci(θ)Ti(x) + d(θ) + S(x))

(2.11)

dargestellt werden kann.

4 Hierbei verwenden wir die Notation 1{x>0} := 1{x1>0,...,xn>0}.

Page 65: Mathematische Statistik ||

56 2. Statistische Modelle

In Analogie zu den einparametrigen Familien ist die Statistik

T (X) :=(T1(X), . . . , TK(X)

)�

suffizient, sie wird als naturliche suffiziente Statistik bezeichnet. Einige Bei-spiele werden in Tabelle 2.2 zusammengefasst.

Verteilungsfamilie c(θ) T (x) A

N (θ1, θ22)

c1(θ) = θ1/θ22

c2(θ) = −1/2θ22

T1(x) = xT2(x) = x2 R

M(n, θ1, . . . , θd) ci(θ) = ln θi Ti(x) = xi

{x : xi ∈ {0, . . . , n}

und∑n

i=1 xi = n}.

Tabelle 2.2 Mehrparametrige exponentielle Familien. c, T und A aus Darstellung(2.11) sind in der Tabelle angegeben, d ergibt sich durch Normierung.

B 2.17 Die Normalverteilung ist eine zweiparametrige exponentielle Familie: DieFamilie der (eindimensionalen) Normalverteilungen gegeben durch Pθ =N (μ, σ2) mit θ = (μ, σ2)� und Θ = {(μ, σ2)� : μ ∈ R, σ > 0} ist einezweiparametrige exponentielle Familie, denn ihre Dichten haben die Gestalt

p(x,θ) = exp(

μ

σ2x − x2

2σ2− 1

2

(μ2

σ2+ ln(2πσ2)

))

.

Durch die Wahl von n = 1, c1(θ) := μ/σ2, T1(x) := x, c2(θ) := −1/2σ2,T2(x) := x2, S(x) := 0, A = R und der entsprechenden Normierung d(θ) :=−1/2(μ2σ−2 + ln(2πσ2)) erhalt man die Darstellung (2.11).

B 2.18 i.i.d. Normalverteilung als exponentielle Familie: Seien X1, . . . , Xn i.i.d. undweiterhin Xi ∼ N (μ, σ2). Dann ist die Verteilung von X = (X1, . . . , Xn)�

darstellbar als zweiparametrige exponentielle Familie: Mit den Resultaten ausBemerkung 2.10 fuhrt die Darstellung der Normalverteilung aus Beispiel 2.17unmittelbar zu einer exponentiellen Familie. Damit ist

T (X) =( n∑

i=1

T1(Xi),n∑

i=1

T2(Xi))�

=( n∑

i=1

Xi,n∑

i=1

X2i

)�

suffizient fur θ = (μ, σ2)�. Dies wurde in Beispiel 2.10 bereits auf elementa-rem Weg gezeigt.

B 2.19 Lineare Regression: Bei der linearen Regression beobachtet man Paare vonDaten welche wir mit (x1, Y1), . . . , (xn, Yn) bezeichnen. Man vermutet einenlinearen Einfluss der Großen xi auf Yi und mochte diesen bestimmen. DieBeobachtungen x1, . . . , xn werden als konstant angesehen. Diese Methodik

Page 66: Mathematische Statistik ||

2.4 Bayesianische Modelle 57

wird in Kapitel 7 wesentlich vertieft und an Beispielen erprobt. Wir gehenvon folgendem Modell aus:

Yi = β1 + β2xi + εi,

fur i = 1, . . . , n. Hierbei sind β1, β2 ∈ R unbekannte Konstanten undε1, . . . , εn i.i.d. mit ε1 ∼ N (0, σ2) (vergleiche mit dem Meßmodell, Beispiel2.2). Setze Y := (Y1, . . . , Yn)� und θ := (β1, β2, σ

2)�. Die Dichte von Y ist

p(y,θ) =1

(2πσ2)n/2

n∏

i=1

exp(

− (yi − β1 − β2xi)2

2σ2

)

= exp(

− 12σ2

n∑

i=1

y2i − nβ2

1

2σ2− β2

2

2σ2

n∑

i=1

x2i

+β1

σ2

n∑

i=1

yi +β2

σ2

n∑

i=1

xiyi − β1β2

σ2

n∑

i=1

xi − n

2ln(2πσ2)

)

= exp(

− 12σ2

n∑

i=1

y2i +

β1

σ2

n∑

i=1

yi +β2

σ2

n∑

i=1

xiyi

− nβ21

2σ2− β2

2

2σ2

n∑

i=1

x2i −

β1β2

σ2

n∑

i=1

xi − n

2ln(2πσ2)

)

.

Dies ist eine dreiparametrige exponentielle Familie. In der Tat, setzt manT1(y) :=

∑ni=1 yi, T2(y) :=

∑ni=1 y2

i , T3(y) :=∑n

i=1 xiyi sowie c1(θ) :=β1/σ2, c2(θ) := −(2σ2)−1, c3(θ) := β2/σ2, so erhalt man, mit entsprechenderWahl von d und S ≡ 0, A := R × R × R

+ eine Darstellung der Form (2.11).Damit ist die Statistik

T (Y ) :=

(n∑

i=1

Yi,

n∑

i=1

Y 2i ,

n∑

i=1

xiYi

)�

suffizient fur θ = (β1, β2, σ2)�.

2.4 Bayesianische Modelle

Bis jetzt haben wir angenommen, dass keine weiteren Informationen bezuglichder Parameter außer den Daten vorliegen. In den Anwendungen gibt es Si-tuationen, in denen sich weitere Informationen beziehungsweise Annahmengewinnbringend verwenden lassen. Wir stellen zwei Beispiele vor.

B 2.20 Qualitatssicherung unter Vorinformation: Wir betrachten die Situation vonBeispiel 2.1. Allerdings nehmen wir an, dass bereits in der VergangenheitLadungen untersucht wurden, was eine Vorinformation darstellt, die genutzt

Page 67: Mathematische Statistik ||

58 2. Statistische Modelle

werden sollte. Es handele sich um K Lieferungen mit jeweils (der Einfachheithalber) N Teilen. Mit hi sei die Anzahl der Lieferungen mit i defekten Teilenbezeichnet. Definieren wir die empirischen Haufigkeiten

πi :=hi

K,

so induzieren π1, . . . , πN ein Wahrscheinlichkeitsmaß, welches die Vorinforma-tion zusammenfasst. Daher kann der Anteil θ der defekten Teile pro Ladungals zufallig betrachtet werden und die Vorinformation liefert P(θ = i

N ) = πi.Dies bezeichnet man als die a priori-Verteilung von θ .

Es kommt eine neue Lieferung vom Umfang N an, welche untersucht werdensoll. θ bezeichne den (zufalligen) Anteil der defekten Teile in der Lieferung.Wir nehmen nun an, dass θ nach π verteilt ist, das heisst P(θ = i

N ) = πi. Un-tersucht werde eine Stichprobe vom Umfang n und X bezeichne den zufalligenAnteil defekter Teile der Stichprobe. Wie in Beispiel 2.1 ist die bedingteVerteilung von X gegeben θ eine hypergeometrische Verteilung, d.h. nachGleichung (2.1) ist

P

(X = k

∣∣ θ =

i

N

)=

(ik

)(N−in−k

)

(Nn

) ,

welches eine Hypergeo(N,n, iN )-Verteilung ist. Fur die gemeinsame Vertei-

lung von (X, θ) erhalten wir

P

(X = k, θ =

i

N

)= P

(θ =

i

N

)· P(X = k

∣∣ θ =

i

N

)= πi

(ik

)(N−in−k

)

(Nn

) .

Schließlich ergibt sich fur die Wahrscheinlichkeit, dass k Teile der Stichprobedefekt sind, unter Nutzung der Vorinformation, dass

P(X = k

)=

N∑

i=1

πi

(ik

)(N−in−k

)

(Nn

) .

Dies ist eine gewichtete Form der bedingten Verteilungen von X. Wenn etwafur ein festes θ0 = i0

N gilt, dass πi0 = 1 und sonst 0, so erhalt man wieder dieungewichtete Darstellung (2.1).

Eine solche Vorgehensweise nennt man einen Bayesianischen Ansatz: Mannimmt an, dass der Wert des unbekannten Parameters eine Realisierung ei-ner Zufallsvariable mit gegebener a priori-Verteilung (prior) ist. Die a priori-Verteilung summiert die Annahmen uber den wahren Wert des Parametersbevor die Daten erhoben worden sind, etwa wenn Vorinformationen oder sub-jektive Einschatzungen (zum Beispiel von Experten, welche aufgrund ihrer

Page 68: Mathematische Statistik ||

2.4 Bayesianische Modelle 59

Erfahrung eine Einschatzung uber zu erzielende Werte treffen) vorliegen. Manspricht von subjektiver Inferenz.

Definition 2.15. Ein Bayesianisches Modell fur die Daten X und denParameter θ ist spezifiziert durch

(i) eine a priori-Verteilung π, so dass θ ∼ π,(ii) eine regulare Verteilung Pθ, so dass X|θ ∼ Pθ.

Der zentrale Punkt der Bayesianischen Statistik ist, dass man das Vorwis-sen (gegeben durch die a priori-Verteilung) nach Erhebung der Daten x andas neu gewonnene Wissen uber θ anpasst. Dies erfolgt durch Bestimmungder bedingten Verteilung von θ gegeben die Daten x. Diese Verteilung wirdals a posteriori-Verteilung bezeichnet. Sie ist durch die Dichte oder Wahr-scheinlichkeitsfunktion p(θ |x) := p(θ |X = x) gegeben und kann mit Hilfedes Satzes von Bayes (siehe Aufgabe 1.27) bestimmt werden:

p(θ |x) =π(θ) · p(x |θ)

m(x),

wobei m(x) die unbedingte Verteilung oder marginale Verteilung von X be-zeichnet. Ist θ diskret mit Werten θ1, . . . ,θT , so ist die marginale Wahr-scheinlichkeitsfunktion

m(x) =T∑

i=1

π(θi) · p(x |θi).

Ist θ hingegen eine stetige Zufallsvariable, so ist die marginale Dichte

m(x) =∫

π(θ) · p(x |θ) dθ.

Wie man sieht, ist m bereits durch π und p bestimmt. Oft beschreibt mandeswegen p(θ|x) nur bis auf Proportionalitat. Die Normierung, in diesem Fallm, bestimmt sich durch die Bedingung, dass p(θ|x) sich zu eins summiertbzw. integriert (siehe etwa Aufgabe 2.30(iii)). Wir schreiben kurz

p(θ |x) ∝ π(θ) · p(x |θ).

B 2.21 Konjugierte Familie der Bernoulli-Verteilung: Dieses Beispiel betrachtetBernoulli-Zufallsvariablen mit zufalligem Parameter θ ∈ (0, 1). Als a priori-Verteilung von θ nehmen wir eine Beta-Verteilung an. Dies fuhrt zu einerBeta-Verteilung als a posteriori-Verteilung: Seien X1, . . . , Xn i.i.d. Bernoul-li, d.h. Xi ∈ {0, 1} mit P(Xi = 1 | θ) = θ. Weiterhin sei θ ∼ π und setzes :=

∑ni=1 xi. Dann ist die a posteriori-Verteilung gegeben durch

Page 69: Mathematische Statistik ||

60 2. Statistische Modelle

p(θ |x) =π(θ) θs(1 − θ)n−s

∫ 1

0π(t) ts(1 − t)n−s dt

.

Die a posteriori-Verteilung hangt nur von dem beobachteten Wert s der suffi-zienten Statistik S ab. Wahlen wir fur die a priori-Verteilung eine Beta(a,b)-Verteilung, vorgestellt in Definition 1.17, so ist

π(θ) =1

B(a, b)θa−1(1 − θ)b−1.

Betrachten wir die Beobachtung {S = s}, so ist die a posteriori-Verteilunggerade

p(θ |x) ∝ θa+s−1(1 − θ)n−s+b−1.

Wir erhalten demnach die Dichte einer Beta(a + s, b + n − s)-Verteilung.Damit ist die a priori-Verteilung aus der gleichen Klasse wie die a posteriori-Verteilung.

Falls die a posteriori-Verteilung zur selben Klasse von Verteilungen wie diea priori-Verteilung gehort, dann spricht man von einer konjugierten Familie.Fur exponentielle Familien konnen wir leicht konjugierte Familien angeben.

Lemma 2.16. Sei x = (x1, . . . , xn)� bedingt auf θ eine i.i.d.-Stichprobeeiner K-parametrigen exponentiellen Familie mit Dichte oder Wahrschein-lichkeitsfunktion

p(x |θ) = 1{x∈An} exp

(K∑

j=1

cj(θ) ·n∑

i=1

Tj(xi) +n∑

i=1

S(xi) + nd(θ)

)

.

(2.12)Durch die (K + 1)-parametrige exponentielle a priori-Verteilung

π(θ; t1, . . . , tK+1) ∝ exp( K∑

j=1

cj(θ)tj + tK+1d(θ))

ist eine konjugierte Familie gegeben. Fur die a posteriori-Verteilung gilt

p(θ |x) ∝ π

(

θ ; t1 +n∑

i=1

T1(xi), . . . , tK +n∑

i=1

TK(xi), tK+1 + n

)

.

Beweis. Mit der gewahlten a priori-Verteilung gilt

Page 70: Mathematische Statistik ||

2.4 Bayesianische Modelle 61

p(θ|x) ∝ p(x,θ) · π(θ ; t1, . . . , tK+1)

∝ exp( K∑

j=1

cj(θ)( n∑

i=1

Tj(xi) + tj

)+(tK+1 + n

)d(θ)

)

∝ π

(

θ ; t1 +n∑

i=1

T1(xi), . . . , tK +n∑

i=1

TK(xi), tK+1 + n

)

und das ist die Behauptung. ��B 2.22 Konjugierte Familie der Normalverteilung bei bekannter Varianz : Seien

X1, . . . , Xn i.i.d. mit Xi ∼ N (μ, σ20). Die Varianz σ2

0 sei bekannt und derErwartungswert μ =: θ unbekannt. Fur die Dichte einer Normalverteilunggilt

p(x | θ) ∝ exp(

θx

σ20

− θ2

2σ20

)

.

Folglich erhalten wir mit dem Beispiel 2.11 eine einparametrige exponenti-elle Familie mit T1(x) = x, c1(θ) = θ/σ2

0 und d(θ) = −θ2/2σ2

0 wie in Glei-chung (2.12). Die konjugierte zweiparametrige exponentielle Familie erhaltman nach Lemma 2.16 durch die folgende a priori-Verteilung π(·; t1, t2) mitParameter (t1, t2)�:

π(θ; t1, t2) ∝ exp(

θ

σ20

t1 − θ2

2σ20

t2

)

.

Diese Dichte von θ kann man als eine Normalverteilungsdichte identifizieren:

π(θ; t1, t2) ∝ exp

(

− t22σ2

0

(

θ2 − 2σ20

t2

θt1σ2

0

+( t1

t2

)2))

= exp(

− t22σ2

0

(θ − t1

t2

)2)

; (2.13)

fur t2 > 0 ist dies eine N (t1/t2, σ20/t2)-Verteilung. Damit ist die Frage nach der

konjugierten Familie zunachst gelost. Ein naturlichere Darstellung geht aller-dings direkt von einer normalverteilten a priori-Verteilung aus, welche nunnoch bestimmt werden soll. Dazu sei die a priori-Verteilung π eine N (η, τ2)-Verteilung mit τ2 > 0, η ∈ R. Dies ergibt folgende Reparametrisierung:t2 = σ2

0τ2 und t1 = η σ2

τ2 . Nach Lemma 2.16 ist die a posteriori-Verteilunggegeben durch

p(θ |x) ∝ π(θ ; t1 +

n∑

i=1

T1(xi), t2 + n).

Page 71: Mathematische Statistik ||

62 2. Statistische Modelle

Unter Verwendung der suffizienten Statistik lasst sich dies wie folgt aus-drucken: Wir setzten s = s(x) :=

∑ni=1 xi. Da T1(x) = x, ist nach (2.13)

p(θ |x) ∝ φ(θ ;

t1 + s

t2 + n,

σ20

t2 + n

),

wobei φ(θ; a, b2) die Dichte einer N (a, b2)-Verteilung ist. Setzen wir die Re-parametrisierung ein, so ergibt sich fur w := n (σ2

0τ2 + n)−1

t1 + s

t2 + n= wx + (1 − w)η und

σ20

t2 + n=

σ20

σ20

τ2 + n.

Der linke Ausdruck ist die a posteriori-Erwartung, der rechte die a posteriori-Varianz. Damit stellt sich die a posteriori- Erwartung als gewichtetes Mitteldes Stichprobenmittels x und der a priori-Erwartung η dar. Daruber hinausgilt, dass w → 1 fur n → ∞; der Einfluss der a priori-Verteilung wird furzunehmende Stichprobengroßen immer geringer.

Bemerkung 2.17. Nicht-informative a priori-Verteilung. Falls man kei-ne Vorinformation uber den Parameter θ hat, dann kann man eine so ge-nannte nicht-informative a priori-Verteilung verwenden. Hierbei haben allemoglichen Parameter die gleiche Wahrscheinlichkeit (oder Dichte):

π(θ) ∝ 1. (2.14)

Ist der Parameterraum Θ = Rn und damit unbeschrankt, so gibt es keine

nicht-informative a priori-Verteilung, denn die Dichte in Gleichung (2.14) in-tegriert sich zu

∫Rn dθ = ∞. Trotzdem kann man die Gleichung (2.14) in

derartigen Fallen verwenden, falls die resultierende a posteriori-Verteilungeine wohldefinierte Dichte bleibt. Man spricht von einem improper non infor-mative prior, eine nicht wohldefinierte, nicht-informative a priori-Verteilung.Unter (2.14) gilt zunachst

p(θ |x) =p(x|θ) · π(θ)

∫p(x|θ) · π(θ)dθ

∝ p(x |θ).

Die Funktion p(x|θ) betrachtet als Funktion von θ ist die so genannteLikelihood-Funktion L(θ;x1, . . . , xn). Sie gibt an, welche Wahrscheinlich-keit (Likelihood) jeder Parameter θ unter der Beobachtung {X = x} hat.Die Likelihood-Funktion bildet die Grundlage der Maximum-Likelihood-Schatzung, welche in Kapitel 3.3 ausfuhrlich behandelt wird. Vorgreifendfuhrt obige Beobachtung bereits zu einer Reihe von interessanten Konse-quenzen:

(i) Die a posteriori-Verteilung ist proportional zur Likelihood-Funktion,falls man eine nicht-informative a priori-Verteilung wahlt.

Page 72: Mathematische Statistik ||

2.5 Aufgaben 63

(ii) Der Modus der a posteriori-Verteilung ist der Maximum-Likelihood-Schatzer (im Gegensatz zum Erwartungswert), falls man (2.14) fur πwahlt (siehe dazu Kapitel 3.3 zu Maximum-Likelihood-Schatzern).

(iii) Im nicht-informativen Fall ist die Likelihood-Funktion L : Rn → H eine

Statistik h mit Werten im Funktionenraum H := {h : Θ → R} vonFunktionen (x1, . . . , xn) �→ h(x1, . . . , xn). Weiterhin ist L suffizient furθ und eine Funktion jeder anderen suffizienten Statistik. Kennt man Lnicht, so verliert man folglich Information uber θ.

2.4.1 Referenzen

Klassische Einfuhrungen in die Bayesianische Statistik sind Berger (1985) undLee (2004). Die Bayesianische Statistik hat in den letzten Jahren eine enormeAufmerksamkeit erlangt. Dies liegt an der Entwicklung so genannter Markov-Chain-Monte Carlo Verfahren, welche es erlauben auch in komplexen stati-stischen Modellen approximativ Stichproben von der a posteriori-Verteilungzu ziehen (siehe Robert und Casella (2008)). Insbesondere ist dies haufigin solchen Modellen moglich, wo die Bestimmung von Maximum-Likelihood-Schatzern numerisch zu aufwendig ist. Die Bucher von Gamerman und Lopes(2006) sowie Marin und Robert (2007) geben eine gute Einfuhrung in diesesGebiet.

2.5 Aufgaben

A 2.1 Zwischenankunftszeiten eines Poisson-Prozesses: Sei (Nt)t≥0 ein Poisson-Prozess mit Intensitat λ und Sprungzeitpunkten τ1, τ2, . . . . Definiere die Zwi-schenankunftszeiten Xi := τi − τi−1 mit τ0 := 0. Dann sind X1,X2, . . . un-abhangig und Xi ∼ Exp(λ).

A 2.2 Stichprobenvarianz: Darstellung : Zeigen Sie, dass

1n

n∑

i=1

(xi − x

)2 =1n

n∑

i=1

x2i −(x)2

.

A 2.3 Parametrisierung und Identifizierbarkeit : Ein Insekt legt Eier und die An-zahl der gelegten Eier seien Poisson-verteilt mit unbekanntem Parameter λ.Aus jedem Ei schlupft mit Wahrscheinlichkeit p ∈ (0, 1) ein neues Insekt.Das Ausschlupfen aus einem Ei sei unabhangig vom Ausschlupfen der ande-ren Eier. Eine Biologin beobachtet N Insekten und notiert sowohl die Anzahlder gelegten Eier, als auch die der geschlupften Eier. Finden Sie eine Pa-rametrisierung, d.h. bestimmen Sie die parameterabhangige Verteilung derDaten und den Parameterraum Θ. Nun betrachtet man nur die Anzahl der

Page 73: Mathematische Statistik ||

64 2. Statistische Modelle

geschlupften Eier. Zeigen Sie, dass die obige Parametrisierung in diesem Fallnicht identifizierbar ist.

A 2.4 Identifizierbarkeit im linearen Modell : Man nehme an, dass folgendes Modellgegeben sei:

Yi =p∑

j=1

xijβj + εi, i = 1, . . . , n.

Hierbei seien x11, . . . , xnp bekannte Konstanten und ε1, . . . , εn i.i.d. mit ε1 ∼N (0, 1).

(i) Zeigen Sie, dass (β1, . . . , βp) genau dann identifizierbar ist, falls x1, . . . ,xp

linear unabhangig sind, wobei xj := (x1j , . . . , xnj)�.(ii) Begrunden Sie, warum (β1, . . . , βp) nicht identifizierbar sind, falls n < p.

A 2.5 Verschobene Gleichverteilung: Ineffizienz von X: Man betrachte die folgendeFamilie von verschobenen Gleichverteilungen mit Mittelwert θ:

P :={

U(θ − 12, θ +

12) : θ ∈ R

}.

Als mogliche Schatzer fur θ betrachten wir T1(X) = 1n

∑ni=1 Xi sowie

T2(X) = X(1)+X(n)

2 ; hierbei bezeichne X(1) = min{X1, . . . , Xn} und X(n) =max{X1, . . . , Xn} die kleinste und die großte Ordnungsstatistik der Daten.

Bestimmen Sie die Verteilungsfunktionen von X(1) und X(n) und die ge-meinsame Dichte von (X(1),X(n)). Zeigen Sie, dass sowohl T1 als auch T2

erwartungstreu sind. Zeigen Sie, dass Var(T1(X)) = 1n·12 und Var(T2(X)) =

12(n+1)(n+2) , d.h. fur genugend große n hat der Schatzer T2 eine geringereVarianz als das arithmetische Mittel T1.

A 2.6 Mehrdimensionale Verteilungen: Zeigen Sie, dass fur einen beliebigen Zu-fallsvektor X ∈ R

2 mit P(Xi ≥ 0) = 1, i = 1, 2 und E(|X1 X2|) < ∞ gilt,dass

E(X1 X2) =∫ ∞

0

∫ ∞

0

P(X1 > x1,X2 > x2) dx1 dx2. (2.15)

Nehmen Sie an, dass die Verteilungsfunktion von X gegeben ist durch

F (x1, x2) = max{x1, x2}1−α min{x1, x2}, x1, x2 ∈ [0, 1].

Zeigen Sie mit Hilfe von (2.15), dass Corr(X1,X2) = 12α4(4−α) .

Exponentielle Familien

A 2.7 Exponentielle Familie: Verteilung von T : Betrachten Sie eine reellwertigeZufallsvariable X mit Dichte und nehmen Sie an, dass die Dichte einer ex-

Page 74: Mathematische Statistik ||

2.5 Aufgaben 65

ponentielle Familie {Pθ : θ ∈ Θ} angehort. Bestimmen Sie die Verteilung dernaturlichen suffizienten Statistik T (X); siehe Satz 2.11.

A 2.8 Exponentielle Familie erzeugt durch suffiziente Statistik : Sei {pθ : θ ∈ Θ} eineFamilie von Dichten mit pθ(x) > 0 fur alle x ∈ R und alle θ ∈ Θ. Außerdemsei x �→ pθ(x) stetig in x fur alle θ ∈ Θ. Seien nun X1 und X2 unabhangigeZufallsvariablen mit der Dichte pθ. Falls X1+X2 eine suffiziente Statistik fur θist, so ist {Pθ | θ ∈ Θ} eine exponentielle Familie, wobei Pθ(B) =

∫B

pθ(x) dxfur alle Mengen B aus der Borel-σ-Algebra gilt.Hinweis: Betrachten Sie die Funktion r(x, θ) := ln(pθ(x))− ln(pθ0(x)) fur einfestes θ0, und zeigen Sie, dass man r zu r(x, θ) = x c(θ) + d(θ) faktorisierenkann.

A 2.9 Exponentielle Familie: Gegenbeispiel : Fur jedes θ ∈ R ist

pθ(x) =12

exp(−|x − θ|), x ∈ R,

eine Dichte (Laplace-Verteilung, Spezialfall der zweiseitigen Exponentialver-teilung). Sei Pθ das zur Dichte pθ gehorige Wahrscheinlichkeitsmaß. Dann ist{Pθ : θ ∈ Θ} keine exponentielle Familie.

A 2.10 Mitglieder der exponentiellen Familie: Welche der folgenden Verteilungsfa-milien gehoren zu den exponentiellen Familien? Begrunden Sie Ihre Antwort.

(i) pθ(x) = exp (−2 ln(θ) + ln(2θ))1(0,θ)(x) fur θ > 0.(ii) pθ(x) = 1

9 , fur x ∈ {0.1 + θ, . . . , 0.9 + θ} fur θ ∈ R.(iii) Die Normalverteilungsfamilie gegeben durch N (θ, θ2) mit θ > 0.(iv) pθ(x) = 2(x+θ)

1+2θ mit x ∈ (0, 1) und θ > 0.(v) pθ(x) ist die bedingte Haufigkeitsfunktion einer Bin(n, θ)-verteilten Zu-

fallsvariable X, gegeben dass X > 0.

A 2.11 Inverse Gamma-Verteilung als Exponentielle Familie: Man betrachte dieDichte einer invers Gamma-verteilten Zufallsvariablen X

pa(x) =λa

Γ (a)x−(a+1)e−

λx 1{x>0},

wobei λ bekannt und fest sei. Zeigen Sie, dass es sich um eine exponentielleFamilie handelt (ebenso fur a fest und λ unbekannt).

A 2.12 Folge von Bernoulli-Experimenten: Es sei X die Anzahl der Misserfolge vordem ersten Erfolg in einer Folge von Bernoulli-Experimenten mit Erfolgs-wahrscheinlichkeit θ. Bestimmen Sie die Verteilung von X und entscheidenSie, ob eine exponentielle Familie vorliegt. Begrunden Sie Ihre Antwort.

Page 75: Mathematische Statistik ||

66 2. Statistische Modelle

A 2.13 Dirichlet-Verteilung : Der r-dimensionale, stetige Zufallsvektor X sei Dirichlet-verteilt mit Parametern α := (α1, . . . , αr)� wobei αj > 0 fur j = 1, . . . , rgelte. Dann ist seine Dichte gegeben durch

pα(x) =Γ(∑r

j=1 αj

)

∏rj=1 Γ (αj)

r∏

j=1

xαj−1j 1{x∈(0,1)r,

∑ rj=1 xj=1}.

Zeigen Sie, dass eine r-parametrische exponentielle Familie vorliegt.

A 2.14 Inverse Gauß-Verteilung : Die Dichte der inversen Gauß-Verteilung mit Pa-rametern μ > 0, λ > 0, ist gegeben durch

p(x) =(

λ

)1/2

x−3/2 exp(−λ(x − μ)2

2μ2x

)

1{x>0}.

Uberprufen Sie, ob eine exponentielle Familie vorliegt.

Suffizienz

A 2.15 Suffizienz: Beispiele: Seien X1, . . . , Xn i.i.d. mit jeweils folgender Dichte.Finden Sie in allen drei Fallen eine reellwertige suffiziente Statistik fur θ:

(i) pθ(x) = 12θ e

−|x−μ|θ , wobei θ > 0 und μ bekannt sei.

(ii) pθ(x) = 1{x∈(−θ,θ)} 12θ , wobei θ > 0.

(iii) pθ(x) = 1{x>0}βα

Γ (α)x−(α+1) exp

(−β

x

), wobei θ := (α, β) und α, β > 0.

A 2.16 Suffizienz: Beta-Verteilung : Seien X1, . . . , Xn i.i.d. Beta(θ, 1)-verteilt mitθ > 0. Finden Sie eine suffiziente Statistik.

A 2.17 Suffizienz: Weibull- und Pareto-Verteilung : Seien X1, . . . , Xn i.i.d. mit je-weils folgender Dichte:

(i) Weibull -Verteilung: θ > 0 und pθ(x) = θaxa−1e−θxa

1{x>0}.(ii) Pareto-Verteilung: θ > 0 und pθ(x) = θaθ

xθ+11{x>a}.

Finden Sie eine reellwertige suffiziente Statistik fur θ bei bekanntem a.

A 2.18 Suffizienz: Nichtzentrale Exponentialverteilung : Seien X1, . . . , Xn i.i.d.,

pθ(x) =1σ

e−x−μ

σ 1{x≥μ}

die Dichte von X1 sowie θ := (μ, σ)� und Θ = R × R+.

(i) Zeigen Sie, dass min(X1, . . . , Xn) eine suffiziente Statistik fur μ ist, fallsσ bekannt ist.

(ii) Finden Sie eine eindimensionale, suffiziente Statistik fur σ, falls μ be-kannt ist.

(iii) Geben Sie eine zweidimensionale, suffiziente Statistik fur θ an.

Page 76: Mathematische Statistik ||

2.5 Aufgaben 67

A 2.19 Suffizienz: Poisson-Verteilung : Seien X1, . . . , Xn i.i.d. und X1 sei Poisson-verteilt mit Parameter θ > 0, d.h. X1 ∼ Poiss(θ). Zeigen Sie ohne Verwen-dung des Faktorisierungstheorems, dass

∑ni=1 Xi suffizient fur θ ist.

A 2.20 Suffizienz: Rayleigh-Verteilung : Seien X1, . . . , Xn i.i.d. und Rayleigh-verteilt,d.h. Xi besitzt die Dichte xσ−2 exp(−x2

/2σ2). Die naturliche suffiziente Statis-tik ist T (X) =

∑ni=1 X2

i . Zeigen Sie, dass E(T (X)) = 2nσ2 und Var(T (X)) =4nσ4.

A 2.21 Beispiel: Qualitatskontrolle: Es sei eine LKW-Ladung mit N Fernsehgeratengegeben, wovon Nθ defekt sind. Es werden n Fernseher (ohne Zurucklegen)uberpruft. Man definiere

Xi :=

{1, i-ter uberprufter Fernseher ist defekt,0, sonst.

(i) Zeigen Sie ohne Verwendung des Faktorisierungstheorems, dass∑n

i=1 Xi

suffizient fur θ ist.(ii) Zeigen Sie mit Hilfe des Faktorisierungstheorems, dass

∑ni=1 Xi suffizi-

ent fur θ ist.

A 2.22 Suffizienz: Beispiel : Sei θ = (θ1, θ2)� ∈ R2 mit θ1 ≤ θ2 und h eine integrier-

bare reelle Funktion, so dass

a(θ) :=

(∫ θ2

θ1

h(x)dx

)−1

stets existiert. Weiterhin seien X1, . . . Xn i.i.d. mit der Dichte

pθ(x) := a(θ)h(x)1{θ1≤x≤θ2}.

Finden Sie eine zweidimensionale suffiziente Statistik fur θ.

A 2.23 Suffizienz: Inverse Gamma-Verteilung : Eine i.i.d.-Stichprobe X1, . . . , Xn seiinvers Gamma-verteilt mit der Dichte

pα,β(x) :=βα

Γ (α)x−(α+1)exp

(

−β

x

)

1{x>0},

wobei α, β > 0. Finden Sie eine zweidimensionale suffiziente Statistik fur αund β.

A 2.24 Minimal suffiziente Statistik : Die Statistik T sei suffizient fur θ im Mo-dell P = {Pθ, θ ∈ Θ}. T heißt minimal suffizient fur θ, falls fur jede an-dere suffiziente Statistik S eine Abbildung r(·) gefunden werden kann, mitT (X) = r(S(X)). Sei P = {Pθ, θ ∈ Θ}, wobei Pθ eine diskrete Verteilung mitGrundraum X = {x1, x2, . . . } ist, und p(x, θ) = Pθ(X = x). Zeigen Sie, dass

Page 77: Mathematische Statistik ||

68 2. Statistische Modelle

Λx(·) :=p(x, ·)p(x, θ0)

, fur festes θ0 ∈ Θ,

minimal suffizient fur θ ist.

Bayesianische Statistik

A 2.25 Bayesianisches Modell: Gamma-Exponential : Die a priori-Verteilung des Pa-rameters θ sei eine Gamma-Verteilung mit festen Parametern a > 0, λ > 0,d.h. π(θ) := Gamma(θ; a, λ). Die Zufallsvariablen X1, . . . , Xn seien bedingtauf θ i.i.d. und exponentialverteilt zum Parameter θ. Bestimmen Sie die aposteriori-Verteilung π(θ|X = x) fur θ.

A 2.26 Bayesianisches Modell: Normalverteiltes Experiment : Der Ausgang einesExperiments sei normalverteilt mit bekanntem Erwartungswert μ und un-bekannter Varianz θ. Man fuhrt vorab m Versuche unabhangig voneinanderaus und erhalt so die empirische Varianz s2. Diese Parameter werden benutzt,um vor neuen Versuchen die a priori-Verteilung von θ als skalierte Inverse-χ2-Verteilung zu konstruieren: Die Dichte der so gewonnenen a priori-Verteilungist gegeben durch

p(θ) =

(s2 m

2

)m/2

Γ(

m2

) θ−(m/2+1) exp(

−ms2

)

1{θ>0}

mit Parametern m > 0 und s2 > 0. Es werden weitere n unabhangigeVersuche mit den Ergebnissen (y1, . . . , yn) durchgefuhrt. Ermitteln Sie diea posteriori-Verteilung von θ.

A 2.27 Konjugierte Familien: Beispiel : Seien X1, . . . , Xn i.i.d. mit der Dichte

p(x|θ) = θ exp (x1 − (ex1 − 1)θ)1{x>0}

und unbekanntem Parameter θ > 0.

(i) Welche der folgenden beiden Verteilungs-Familien ist eine konjugierteFamilie fur θ?

a. Die Familie der Weibull-Verteilungen mit Parametern λ, β > 0 undDichte

pW (y) = λβ yβ−1 exp(−λyβ)1{y>0}.

b. Die Familie der Gamma-Verteilungen mit Parametern a, λ > 0 undDichte

pG(y) =λa

Γ (a)ya−1 exp(−λy)1{y>0}.

(ii) Nehmen Sie als a priori-Dichte fur θ eine Dichte aus der konjugiertenFamilie fur θ aus Aufgabenteil (i). Wahlen Sie die Parameterwerte der

Page 78: Mathematische Statistik ||

2.5 Aufgaben 69

a priori-Dichte geeignet, um mit Hilfe der a priori- und a posteriori-Verteilung den Erwartungswert von

Z :=1

∑ni=1 exp(Xi)

bestimmen zu konnen. Berechnen Sie anschließend E(Z).

A 2.28 Konjugierte Familie der Bernoulli-Verteilung: Zeigen Sie, dass die Familieder Beta-Verteilungen eine konjugierte Familie fur die Erfolgswahrscheinlich-keit θ der Bernoulli-Verteilung ist.

A 2.29 Konjugierte Familie der Normalverteilung : Die Prazision einer univaria-ten Verteilung ist der Kehrwert der Varianz. Zeigen Sie, dass die Fami-lie der Normal-Gamma-Verteilungen eine konjugierte Familie fur den Er-wartungswert μ und der Prazision λ = 1/σ2 der Normalverteilung ist. DieDichte der zweidimensionalen Normal-Gamma-Verteilung mit Parameternθ := (ν, ω, α, β), ν ∈ R, ω > 0, α > 0, β > 0 ist gegeben durch

pθ(x, y) =( ω

)(1/2) βα

Γ (α)yα−1e−βye−

ω2 (x−ν)2 , x ∈ R, y > 0.

A 2.30 Konjugierte Familie der Gamma-Verteilung : Seien X1, . . . , Xn i.i.d. undX1 ∼ Gamma(2, θ) mit Dichte

pθ(x1) = θ2x1e−θx11[0,∞)(x1), θ > 0.

(i) Finden Sie eine suffiziente Statistik T (X1, . . . , Xn) fur θ.(ii) Es sei nun zusatzlich angenommen, dass θ eine Realisation einer Zu-

fallsvariablen Y ist, d.h. die bedingte Dichte von X1 gegeben Y = θlautet:

p(x1|θ) = θ2x1e−θx11[0,∞)(x1).

Finden Sie eine konjugierte Familie fur θ.(iii) Bestimmen Sie die Normierungskonstante der a posteriori-Verteilung.

A 2.31 Bayesianischer Ansatz: Gleichverteilung : Seien X1, . . . , Xn i.i.d. mit X1 ∼U(0, θ). Von dem Parameter θ nehmen wir zusatzlich an, dass er die a priori-Verteilung U(0, 1) besitze. Berechnen und skizzieren Sie die a posteriori-Dichte von θ gegeben die Beobachtung X = x.

A 2.32 Bayesianisches Wartezeitenmodell : Die Ankunft von Fahrzeugen an ei-ner Mautstelle werde durch einen Poisson-Prozess mit unbekanntem Para-meter θ > 0 modelliert. Dann sind die Zwischenankunftszeiten Y1, Y2, . . .unabhangig und exponentialverteilt zum Parameter θ. Weiterhin sei θ ∼Gamma(a, λ). Eine Datenerhebung ergibt die Messung {Y = y}. Berech-nen Sie E(θ|Y = y).

Page 79: Mathematische Statistik ||

70 2. Statistische Modelle

A 2.33 A posteriori-Verteilung fur die Exponentialverteilung : Seien X1, . . . , Xn i.i.d.mit X1 ∼ Exp(θ). Der Parameter θ habe die a priori-Verteilung Exp(1).Berechnen Sie die a posteriori-Verteilung von θ gegeben die BeobachtungX1 = x1, . . . , Xn = xn.

A 2.34 Approximation der a posteriori-Verteilung : Sei X eine reelle, stetige Zufalls-variable mit endlichem Erwartungswert und Y := (Y1, . . . , Yn)� ein Zufalls-vektor, wobei Y1, . . . , Yn i.i.d. seien. Die Verteilungen von X und Y hangenvon einem Parameter θ ∈ Θ ab. Die a priori-Verteilung π(θ) sei bekanntund die Beobachtung {Y = y} liege vor. Die Dichte p(yi|θ), i = 1, . . . , n, seiebenfalls bekannt. An Stelle der a posteriori-Verteilung π(θ|y) sei allerdingslediglich die Approximation g(θ|y) bekannt, fur welche gilt:

π(θ|y) > 0 ⇒ g(θ|y) > 0 fur alle θ ∈ Θ.

H(y) sei definiert durch

H(y) :=∫

E(X|Y = y,θ = t)π(t|y)dt.

Finden Sie eine exakte Darstellung von H(y) als Quotient zweier Integrale,wobei die Integranden lediglich E(X|Y = y,θ = t), π(θ), p(y|θ) und g(θ|y)enthalten.

Seien X,Y zwei stetige reelle Zufallsvektoren mit endlicher Varianz, de-ren Verteilungen von einem stetigen Parametervektor θ abhangen. FolgendeVerteilungen seien als bekannt vorausgesetzt:

θ ∼ π(θ),Y|θ ∼ p(y|θ).

Statt der a posteriori-Verteilung von θ bedingt auf Y sei lediglich die Ap-proximation g(θ|y) bekannt. Finden Sie eine Formel fur die Berechnung vonE(X|Y ), die nur von den bekannten Verteilungen abhangt.

Page 80: Mathematische Statistik ||

Kapitel 3.

Schatzmethoden

Fur eine Schatzung gehen wir von einem statistisches Modell P nach Defini-tion 2.2 aus, eine kurze Diskussion uber die statistische Uberprufung dieserAnnahme findet sich in Abschnitt 3.5. Dies ist eine Familie von Verteilun-gen P = {Pθ : θ ∈ Θ}, welche man als mogliche Verteilungen fur eineBeobachtung {X = x} betrachtet. Hierbei bezeichnet x den Vektor der Mes-sergebnisse oder Beobachtungen und X die zugehorige Zufallsvariable. DerParameter θ ist unbekannt und typischerweise mochte man θ selbst schatzen.Es kommt allerdings vor, dass man nicht direkt den Parameter θ schatzenmochte, sondern eine Transformation q(θ) fur eine fest vorgegebene Funktionq : Θ → R. Dies wird mit den folgenden beiden Beispielen illustriert.

B 3.1 Qualitatssicherung aus Beispiel 2.1 : Eine Ladung von N Teilen soll auf ihreQualitat untersucht werden. Die Ladung enthalt defekte und nicht defekteTeile. Mit θ sei der Anteil der defekten Teile bezeichnet. Man interessiert sichfur die Anzahl der defekten Teile und mochte aufgrund dessen

q(θ) = N · θ

schatzen.

B 3.2 Meßmodell aus Beispiel 2.2 : Es werden n Messungen einer physikalischenKonstante μ vorgenommen und die Messergebnisse x1, . . . , xn erhoben. Mannimmt an, dass fur die zugehorigen Zufallsvariablen Xi = μ + εi fur i =1, . . . , n gilt. Hierbei bezeichnet εi den Messfehler. In Beispiel 2.2 wurde eineReihe von moglichen Annahmen an die Messfehler vorgestellt.

(i) Unter den Annahmen (i)-(v) aus Beispiel 2.2 sind die Xi i.i.d. N (μ, σ2)-verteilt und θ = (μ, σ2)�. Gesucht ist die physikalische Konstante μ,weswegen man q(θ) = μ schatzen mochte.

(ii) Macht man lediglich die Annahmen (i)-(iv) aus Beispiel 2.2, so sind dieεi symmetrisch um Null verteilt und besitzen die unbekannte Dichte p,d.h. θ = (μ, p) und man ist an der Schatzung von q(θ) = μ interessiert.

C. Czado, T. Schmidt, Mathematische Statistik, Statistik und ihre 71Anwendungen, DOI 10.1007/978-3-642-17261-8 3,c© Springer-Verlag Berlin Heidelberg 2011

Page 81: Mathematische Statistik ||

72 3. Schatzmethoden

Das prinzipielle Vorgehen lasst sich folgendermaßen zusammenfassen:

Um q(θ) zu schatzen, wahlt man eine Statistik T und wertet sie an denbeobachteten Datenpunkten x = (x1, . . . , xn)� aus. Falls der wahre, un-bekannte Wert fur θ = θ0 ist, schatzt man die unbekannte Große q(θ0)durch die bekannte Große T (x), den Schatzwert. Oft verwenden wir auchdie Notation T (X) fur den zufalligen Schatzer ohne uns auf die beobach-teten Daten x festzulegen.

Anhand des wichtigen Beispiels des Meßmodells illustrieren wir die Vorge-hensweise:

B 3.3 Meßmodell aus Beispiel 3.2 : In dem Meßmodell aus Beispiel 3.2 werde {X =x} beobachtet. Dann ist ein Schatzer fur den unbekannten Parameter μ durchdas arithmetische Mittel der Daten

T (X) :=1n

n∑

i=1

Xi

gegeben, wobei T (X) eine Zufallsvariable ist. Der dazugehorige Schatzwertunter der Beobachtung {X = x} ist T (x). Daruber hinaus ist T als arithme-tisches Mittel der Daten oft eine suffiziente Statistik, wie im vorigen Kapitelgezeigt wurde.

In diesem Kapitel stellen wir vier Methoden fur die Auswahl vernunftigerSchatzer fur q(θ) vor:

• Substitutionsprinzip• Momentenmethode• Kleinste Quadrate• Maximum Likelihood

Im Folgenden werden Schatzungen immer mit einem bezeichnet: Insbe-sondere nutzen wir θ sowohl fur die Zufallsvariable θ(X) als auch fur θ(x),den Wert der Zufallsvariable falls das Ereignis {X = x} beobachtet wird.Wir sprechen auch vom Schatzer θ(X) mit Schatzwert θ(x).

3.1 Substitutionsprinzip

Die Idee des Substitutionsprinzips ist es die unbekannten Parameter in Be-ziehung zu Großen zu setzen, welche sich leicht schatzen lassen. Dieses all-gemeine Prinzip erlautern wir in zwei wichtigen Fallen: Die Schatzung vonHaufigkeiten durch relative Haufigkeiten, welche zur Haufigkeitssubstitution

Page 82: Mathematische Statistik ||

3.1 Substitutionsprinzip 73

fuhrt, sowie die Schatzung von Momenten durch empirische Momente, welchezur Momentenmethode fuhrt.

3.1.1 Haufigkeitssubstitution

In diskreten Modellen lassen sich die Wahrscheinlichkeiten der Elementarer-eignisse unter geringen Voraussetzungen durch relative Haufigkeiten schatzen.

B 3.4 Relative Haufigkeiten: Die Zufallsvariablen X1, . . . , Xn seien i.i.d. und je-weils multinomialverteilt mit Klassen ν1, . . . , νK (siehe (1.11) in Abschnitt1.2). Demnach ist Xi ∈ {ν1, . . . , νK} und es gelte pk := P(X1 = νk) fur k ∈{1, . . . , K}. Wir mochten einen Schatzer fur p1, . . . , pK unter Berucksichtigungder Eigenschaften

∑Kk=1 pk = 1 und pk ∈ [0, 1] fur alle k ∈ {1, . . . , K} bestim-

men. Ein intuitiver Schatzer fur pk ist die relative Haufigkeit pk der Klasse k.Sie ist gegeben durch die zufallige Anzahl der Beobachtungen Nk in Klassek geteilt durch die Gesamtzahl der Beobachtungen:

pk = pk(X) :=1n

n∑

i=1

1{Xi=νk} =Nk

n.

Ein Datenbeispiel illustriert die Bestimmung der Schatzwerte pk(x): Manklassifiziere Arbeitnehmer eines Betriebes in Stellenkategorien 1-5 und be-obachtet, dass {Nk = nk} Arbeitnehmer in Stellenkategorie k beschaftigtwerden:

k 1 2 3 4 5

nk 23 84 289 217 95

pk(x) 0.03 0.12 0.41 0.31 0.13

Die relativen Haufigkeiten erhalt man durch pk(x) := nk/n mit insgesamtn =

∑5k=1 nk = 708 Beobachtungen. Man beachte, dass stets pk ∈ [0, 1] gilt

und∑K

k=1 pk = 1 ist. Allgemeiner schatzt man die Funktion q(p1, . . . , pk)durch q(p1, . . . , pk), d.h. man substituiert die Wahrscheinlichkeiten p1, . . . , pK

durch ihre Schatzer p1, . . . , pK . Sind beispielsweise in Kategorie 4 und 5 Fach-arbeiter beschaftigt und in Kategorie 2 und 3 Angestellte so wird die Anteils-differenz q(p1, . . . , p5) := (p4 + p5) − (p2 + p3) zwischen Facharbeitern undAngestellten durch

q(p1, . . . , p5) = (p4 + p5) − (p2 + p3) = (0.31 + 0.13) − (0.12 + 0.41) = −0.09

geschatzt.

Das im Beispiel verwendete Prinzip kann man auch allgemeiner formulie-ren: Die empirische Verteilungsfunktion ist definiert durch

Page 83: Mathematische Statistik ||

74 3. Schatzmethoden

Fn(x) :=1n

n∑

i=1

1{Xi≤x}, x ∈ R.

Mochte man ein Funktional

q :=∫

R

f(x)dF (x)

schatzen, so ersetzt man F durch den (nichtparametrischen) Schatzer Fn underhalt als moglichen Schatzer

q :=∫

R

f(x)dFn(x) =1n

n∑

i=1

f(Xi).

Im Beispiel 3.4 ist pk =∫

R1{x=νk}dF (x) und somit pk = n−1

∑ni=1 1{Xi=νk}.

Leider ist es moglich durch die Parametrisierung Probleme mit der Ein-deutigkeit der Schatzer zu erhalten. Dies soll im Folgenden illustriert werden.Falls p1, . . . , pk nicht frei wahlbar, sondern stetige Funktionen eines r-dimen-sionalen Parameters θ = (θ1, . . . , θr)� sind, und falls

q(θ) = h(p1(θ), . . . , pk(θ))

mit stetiger Funktion h, definiert auf

Ik :={

(p1, . . . , pk) : pi ≥ 0 ∀ i,k∑

i=1

pi = 1}

,

gilt, so schatzt man q durch q = h(p1, . . . , pk). Das folgende Beispiel illustriertdies.

B 3.5 Genotypen: Als Anwendungsbeispiel von Beispiel 3.4 betrachten wir ein Genmit den beiden Auspragungen A und B. Gesucht ist die Wahrscheinlichkeitθ := P(Gen hat die Auspragung A). In dem so genannten Hardy-WeinbergGleichgewicht gibt es drei Genotypen mit den folgenden Wahrscheinlichkei-ten, wobei M die Auspragung bei der Mutter und V die Auspragung bei demVater bezeichnet:

Typ 1 Typ 2 Typ 3

Wahrscheinlichkeiten p1 = θ2 p2 = 2θ(1 − θ) p3 = (1 − θ)2

M = A M = A, V = B M = BV = A M = B, V = A V = B

Wesentlich hierbei ist, dass der Zusammenhang von p1, p2 und p3 nun durchzwei Gleichungen bestimmt ist:

(i) Durch p1 + p2 + p3 = 1 und

Page 84: Mathematische Statistik ||

3.1 Substitutionsprinzip 75

(ii) durch die gemeinsame Abhangigkeit von θ, wie oben erlautert.

Dies wird in der Schatzung wie folgt berucksichtigt: Es werde eine Stichprobevom Umfang n beobachtet und Ni sei die Anzahl der Personen mit Genotyp iin der Stichprobe. Dann ist (N1, N2, N3) multinomialverteilt, (N1, N2, N3) ∼M(n, p1, p2, p3) mit n = N1+N2+N3. Dass die Haufigkeitssubstitution nichteindeutig ist wird deutlich, wenn man die folgenden beiden Substitutionenbetrachtet: θ =

√p1 fuhrt zu dem Schatzer

θ =√

p1 =

√N1

n,

wohingegen θ = 1 −√p3 den Schatzer

θ = 1 −

√N3

n

ergibt, und man erhalt zwei unterschiedliche Schatzer.

3.1.2 Momentenmethode

Als einen Spezialfall des im vorigen Abschnittes formulierten Substitutions-prinzips erhalt man die Momentenmethode. Betrachtet sei eine Stichprobevon i.i.d. Zufallsvariablen X1, . . . , Xn mit Verteilung Pθ. Mit Eθ sei der Er-wartungswert bezuglich Pθ bezeichnet und weiterhin seien mit

mk(θ) := Eθ(Xk), k = 1, . . . , r

die ersten r Momente der generischen1 Zufallsvariable X := X1 bezeichnet.Nach dem Substitutionsprinzip schatzt man die unbekannten Momente durchdas k-te Stichprobenmoment

mk :=∫

R

xk Fn(dx) =1n

n∑

i=1

Xki .

Um eine Transformation q(θ) zu schatzen, muss man folgendermaßen einenBezug zwischen θ und den Momenten herstellen:

1 Da X1, . . . , Xn identisch verteilt sind, ist somit auch Eθ(Xki ) = mk(θ) fur i =

1, . . . , n.

Page 85: Mathematische Statistik ||

76 3. Schatzmethoden

Lasst sich q(θ) als

q(θ) = g(m1(θ), . . . , mr(θ)) (3.1)

mit einer stetigen Funktion g darstellen, so schatzt man in der Momen-tenmethode q(θ) durch

T (X) = g(m1, . . . , mr).

Wir illustrieren die Momentenmethode anhand einer Reihe von Beispielen.B 3.6 Normalverteilung : Seien X1, . . . , Xn i.i.d. mit Xi ∼ N (μ, σ2) wie in den

Beispielen 2.2 und 2.18, dann ist das erste Moment m1 = μ und somit μ =m1 = X. Weiterhin gilt σ2 = m2 − (m1)2. Man schatzt die Varianz mittelsg(m1,m2) = m2 − (m1)2 und als Schatzer von σ2 ergibt sich

σ2 :=1n

n∑

i=1

X2i −(

1n

n∑

i=1

Xi

)2

=1n

n∑

i=1

(Xi − X

)2.

Man beachte, dass der Schatzer konsistent aber nicht erwartungstreu ist2.Im Gegensatz dazu ist die Stichprobenvarianz s2(X) aus Beispiel 1.1 erwar-tungstreu (siehe Aufgabe 1.3).

Die Momentenmethode fuhrt nicht zwingend zu einem eindeutigen Schatzer,denn typischerweise gibt es viele Darstellungen der Form (3.1), wie folgendeBeispiele zeigen.

B 3.7 Bernoulli-Verteilung : Seien X1, . . . , Xn i.i.d. Bernoulli(θ)-verteilt (siehe Bei-spiel 1.3), d.h. Xi ∈ {0, 1} und P(Xi = 1) = θ. In diesem Fall istm1(θ) = P(Xi = 1) = θ und somit ist θ = X Momentenschatzer fur θ.Allerdings ist auch m2(θ) = θ und demnach m2 = m1, da Xi ∈ {0, 1}. Furdie Varianz gilt Var(X1) = θ(1−θ) und somit ist X(1−X) Momentenschatzerfur Var(Xi).

Dies muss allerdings nicht immer so sein:B 3.8 Poisson-Verteilung : Fur eine zum Parameter λ Poisson-verteilte Zufallsva-

riable X gilt nach Aufgabe 1.5, dass E(X) = Var(X) = λ. Damit erhalt manaus der Momentenmethode zwei Schatzer:

λ1 := X = m1

und

2 Ein Schatzer ist konsistent, wenn er fur n → ∞ gegen den wahren Parameterkonvergiert, siehe Abschnitt 4.4.1; er heißt erwartungstreu oder unverzerrt, wenn seinErwartungswert der wahre Parameter ist, siehe Definition 4.1.

Page 86: Mathematische Statistik ||

3.2 Methode der kleinsten Quadrate 77

λ2 := m2 − (m1)2 =1n

n∑

i=1

X2i − (X)2.

Allerdings gilt typischerweise λ1 �= λ2.

Dass die Momentenmethode nicht immer zu sinnvollen Ergebnissen fuhrt,zeigt folgendes Beispiel, welches eine diskrete Gleichverteilung verwendet.Analog kann diese Argumentation auf eine stetige Gleichverteilung ubertragenwerden.

B 3.9 Diskrete Gleichverteilung und Momentenschatzer : Man betrachtet eine Po-pulation mit θ Mitgliedern. Diese werden nummeriert mit den Nummern1, . . . , θ. Von dieser Population werde n-mal mit Wiederholung gezogen.Mit Xi werde die gezogene Nummer des i-ten Zuges bezeichnet. Dann giltP(Xi = r) = 1

θ fur r = 1, . . . , θ und i = 1, . . . , n. Ferner folgt

m1(θ) = Eθ(Xi) =θ∑

r=1

r · Pθ(Xi = r) =1θ

θ∑

r=1

r =1θ· θ(θ + 1)

2=

θ + 12

.

Schatzt man θ durch die Momentenmethode, so erhalt man mit θ = 2m1(θ)−1 einen Momentenschatzer von θ:

θ = 2X − 1.

Wird {X = x} beobachtet, so erhalt man mitunter nicht sinnvolle Schatzer:Gilt zum Beispiel max{x1, . . . , xn} > 2x − 1 = θ, so widerspricht dies dernaturlichen Bedingung θ ≥ max{x1, . . . , xn}.Bemerkung 3.1. Die wesentlichen Merkmale der Momentenmethode sollennoch einmal zusammengefasst werden:

• Der Momentenschatzer muss nicht eindeutig sein.• Substitutionsprinzipien ergeben im Allgemeinen einfach zu berech-

nende Schatzer. Aufgrund dessen werden sie haufig als erste bzw.vorlaufige Schatzung verwendet.

• Falls der Stichprobenumfang groß ist (n → ∞), dann sind dieSchatzungen nahe dem wahren Parameterwert. Diese Konsistenz wirdim Abschnitt 4.4.1 genauer vorgestellt und diskutiert.

3.2 Methode der kleinsten Quadrate

Die lineare Regression und in diesem Zusammenhang die Methode der kleins-ten Quadrate ist eine Methode, die bereits Gauß fur astronomische Messun-gen verwendete, siehe dazu Gauß (1809). Das zur Anpassung der Regressi-onsgeraden an die Daten verwendete Prinzip der Minimierung eines quadra-

Page 87: Mathematische Statistik ||

78 3. Schatzmethoden

tischen Abstandes findet in vielen unterschiedlichen Bereichen Anwendung.Die erhaltenen Formeln werden in der Numerik oft auch als verallgemeinerteInverse verwendet.

3.2.1 Allgemeine und lineare Regressionsmodelle

Regressionsprobleme untersuchen die Abhangigkeit der Zielvariablen (Re-sponse, endogene Variable) von anderen Variablen (Kovariablen, unabhagigeVariablen, exogene Variablen). Der Begriff Regression geht hierbei auf Ex-perimente zur Schatzung der Kopergroße von Sohnen basierend auf derKorpergroße ihrer Vater zuruck.

Definition 3.2. Eine allgemeine Regression ist gegeben durch einen zubestimmenden r-dimensionalen Parametervektor θ ∈ Θ und bekannte,parametrische Funktionen g1, . . . , gn : Θ → R. Das zugehorige Modell ist

Yi = gi(θ) + εi i = 1, . . . , n.

Daruber hinaus gelten in unserer Formulierung stets die folgenden (WN)-Bedingungen.

Fehler, welche die Annahme (WN) erfullen, werden als weißes Rauschen (whi-te noise) bezeichnet.

(WN) Fur die Zufallsvariablen ε1, . . . , εn gilt:

(i) E(εi) = 0 fur alle i = 1, . . . , n.(ii) Var(εi) = σ2 > 0 fur alle i = 1, . . . , n. σ2 ist unbekannt.(iii) Cov(εi, εj) = 0 fur alle 1 ≤ i �= j ≤ n.

Die Zufallsvariablen ε1, . . . , εn stellen wie in Beispiel 2.2 Abweichungenvon der systematischen Beziehung Yi = gi(θ) dar. Die Bedingung (i) ver-anschaulicht, dass die Regression keinen systematischen Fehler macht. DieBedingung (ii) verlangt eine homogene Fehlervarianz, was man als homoske-dastisch bezeichnet.

Die Bedingungen (i)-(iii) gelten, falls ε1, . . . , εn i.i.d. sind mit Erwartungs-wert 0 und Var(εi) > 0. Ein wichtiger Spezialfall ist durch die zusatzlicheNormalverteilungsannahme εi ∼ N (0, σ2) gegeben. An dieser Stelle sei nocheinmal auf die Analogie zu den Annahmen des Meßmodells aus Beispiel 2.2verwiesen.

Page 88: Mathematische Statistik ||

3.2 Methode der kleinsten Quadrate 79

B 3.10 Meßmodell aus Beispiel 2.2 : Es werden n Messungen einer physikalischenKonstante θ vorgenommen. Variiert der Messfehler additiv um θ, so erhaltman

Yi = θ + εi, i = 1, . . . , n.

In diesem Fall ist r = 1 und gi(θ) = θ. Die Messergebnisse werden stets mity1, . . . , yn bezeichnet.

B 3.11 Einfache lineare Regression: Die einfache lineare Regression wurde bereitsin Beispiel 2.19 im Kontext von exponentiellen Familien betrachtet, wel-ches wir an dieser Stelle wieder aufgreifen. Man beobachtet Paare von Daten(x1, y1), . . . , (xn, yn). Die Großen x1, . . . , xn werden als deterministisch undbekannt betrachtet und es wird folgendes statistisches Modell angenommen:

Yi = θ1 + θ2xi + εi.

Yi heißt Zielvariable mit Beobachtung yi und xi heißt Kovariable. Wir ver-wenden gi(θ1, θ2) = θ1 + θ2xi als parametrische Funktion. In Abbildung 3.1werden die Beobachtungen zusammen mit der geschatzten Regressionsgera-den x �→ θ1 + θ2x bei einer einfachen linearen Regression gezeigt.

x

y

g(x)

Abb. 3.1 Eine einfache lineare Regression wie in Beispiel 3.11. Beobachtet werdenPaare (xi, yi), i = 1, . . . , n, welche in der Abbildung durch Kreuze gekennzeichnet

sind. Die den Daten angepasste Regressionsgerade g : x → θ1 + θ2x mit geschatztenParametern θ1 und θ2 ist ebenfalls dargestellt.

Page 89: Mathematische Statistik ||

80 3. Schatzmethoden

3.2.2 Methode der kleinsten Quadrate

Bei dieser Methode schatzt man den unbekannten Parameter θ durch denSchatzwert θ = θ(y), welcher den Abstand von Eθ(Y ) und den beobach-teten Daten y = (y1, . . . , yn)� unter allen θ ∈ Θ minimiert. Der Abstandwird hierbei durch einen quadratischen Abstand Q gemessen. Das allgemeineRegressionsmodell wurde bereits in Definition 3.2 definiert.

Definition 3.3. Der quadratische Abstand Q : Θ×Rn → R

+ sei definiertdurch

Q(θ,y) :=n∑

i=1

(yi − gi(θ)

)2, y ∈ R

n. (3.2)

Gilt fur eine meßbare Funktion θ : Rn → Θ, dass

Q(θ(y),y) ≤ Q(θ,y) fur alle θ ∈ Θ und y ∈ Rn,

so heißt θ(Y ) Kleinste-Quadrate-Schatzer (KQS) von g(θ).

Ein KQS wird auch als Least Squares Estimator (LSE) bezeichnet. Sind dieFunktionen gi differenzierbar, und ist das Bild von (g1, . . . , gn) abgeschlos-sen, so ist dies eine hinreichende Bedingung dafur, dass θ wohldefiniert ist.Ist daruber hinaus Θ ⊂ R

r offen, so muss θ notwendigerweise die Normalen-gleichungen

∂θjQ(θ,y)

∣∣θ=θ(y)

= 0, j = 1, . . . , r

erfullen. Mit der Definition von Q aus (3.2) sind die Normalengleichungenaquivalent zu folgender Gleichung:

n∑

i=1

((yi − gi(θ)

) · ∂

∂θjgi(θ)

∣∣∣∣θ=θ(y)

)

= 0, j = 1, . . . , r. (3.3)

Bemerkung 3.4. In der linearen Regression sind die Funktionen gi(θ1, . . . , θr)linear in θ1, . . . , θr. In diesem Fall erhalt man ein lineares Gleichungssystem,welches man explizit losen kann.

Die Kleinste-Quadrate-Methode soll nun an den obigen Beispielen illustriertwerden.

B 3.12 Meßmodell : Gegeben sei wie in Beispiel 3.10 ein lineares Modell

Yi = θ + εi, i = 1, . . . , n.

Page 90: Mathematische Statistik ||

3.2 Methode der kleinsten Quadrate 81

Dann ist gi(θ) = θ und somit ∂∂θgi(θ) = 1 fur alle i = 1, . . . , n. Die Norma-

lengleichungen (3.3) ergeben

n∑

i=1

(yi − θ(y)) = 0.

Hieraus folgt unmittelbar, dass θ(y) = y = 1n

∑ni=1 yi ist, das arithmeti-

sche Mittel der Beobachtungen. Der durch die Momentenmethode in Bei-spiel 3.6 erhaltene Schatzer ist gleich dem Schatzer, welcher aus der Kleinste-Quadrate-Methode errechnet wird. Nach Beispiel 2.18 ist Y daruber hinauseine suffiziente Statistik fur θ.

B 3.13 Einfache lineare Regression: In Fortsetzung von Beispiel 3.11 betrachten wirein lineares Modell gegeben durch

Yi = θ1 + θ2xi + εi, i = 1, . . . , n.

In diesem Fall ist gi(θ) = θ1+θ2xi und ∂gi

∂θ1(θ) = 1, ∂gi

∂θ2(θ) = xi. Schreiben wir

kurz θi = θi(y), i = 1, 2 so erhalten die Normalengleichungen (3.3) folgendeGestalt:

n∑

i=1

(yi − θ1 − θ2 xi

) · 1 = 0 (3.4)

n∑

i=1

(yi − θ1 − θ2 xi

) · xi = 0. (3.5)

Aus Gleichung (3.4) erhalt man mit y := 1n

∑ni=1 yi und x := 1

n

∑ni=1 xi, dass

θ1 = y − θ2 x.

Setzt man dies in (3.5) ein, so ergibt sich

n∑

i=1

xiyi −(y − θ2x

) n∑

i=1

xi − θ2

n∑

i=1

x2i = 0

⇔ 1n

n∑

i=1

xiyi − y x = θ2

( 1n

n∑

i=1

x2i − x2

).

Da weiterhin∑n

i=1 x2i − n(x)2 =

∑ni=1(xi − x)2 und

∑ni=1 xiyi − nxy =∑n

i=1(xi − x)(yi − y) gilt, erhalt man folgende Aussage.

Page 91: Mathematische Statistik ||

82 3. Schatzmethoden

In der einfachen linearen Regression ist

θ2(y) =∑n

i=1

(xi − x

)(yi − y

)

∑ni=1

(xi − x

)2

θ1(y) = y − θ2x.

Die Gerade x �→ θ1(y) + θ2(y)x heißt Regressionsgerade. Sie minimiert dieSumme der quadratischen Abstande zwischen (xi, yi) und (xi, θ1 +θ2xi). DerErwartungswert von Yi, gegeben durch E(Yi) = θ1 + θ2xi wird durch

yi := θ1(y) + θ2(y)xi, i = 1, . . . , n

geschatzt. Die Regressionsgerade zusammen mit yi und yi werden in Abbil-dung 3.2 illustriert.

x

y

xi

yi

g(x)

yi

Abb. 3.2 Illustration der Regressionsgeraden g : x �→ θ1(y) + θ2(y)x und der Er-

wartung eines Datenpunktes yi = θ1(y) + θ2(y)xi (siehe Abbildung 3.1).

Page 92: Mathematische Statistik ||

3.3 Maximum-Likelihood-Schatzung 83

3.2.3 Gewichtete Kleinste-Quadrate-Schatzer

In praktischen Anwendungen kann es nutzlich sein, in allgemeinen Regres-sionsmodellen die Annahme (ii) aus Definition 3.2, Var(εi) = σ2, abzu-schwachen. Dies hatten wir als homoskedastisch bezeichnet. Ist die Varianzder Fehler abhangig von i, so heißt das Modell heteroskedastisch. Eine allge-meine Regression heißt heteroskedastisch, falls

Var(εi) = σ2 · wi

mit unterschiedlichen wi > 0, i = 1, . . . , n. Man nennt die wi auch Gewichteund nimmt an, dass sie bekannt sind. Unter dieser Annahme kann man durcheine Reparametrisierung eine homoskedastische, allgemeine Regression erhal-ten: Setze

Zi :=Yi√wi

fur i = 1, . . . , n. Mit g∗i (θ) := gi(θ)w−1/2

i und ε∗i := εiw−1/2

i erhalt man

Zi = g∗i (θ) + ε∗i .

Dies ist eine homoskedastische allgemeine Regression, denn E(ε∗i ) = 0,Cov(ε∗i , ε

∗j ) = 0 und

Var(ε∗i ) =1wi

· Var(εi) =1wi

wi σ2 = σ2.

Den Schatzer in dem heteroskedastischen Modell erhalt man aus dem gewich-teten Kleinste-Quadrate-Schatzerwert θw. Dieser minimiert

n∑

i=1

(zi − g∗i (θ)

)2 =n∑

i=1

1wi

(yi − gi(θ)

)2,

wobei wir zi := yi(wi)−1/2 gesetzt haben. Im Kontext der einfachen linearen

Regression wird θw in der Aufgabe 3.20 bestimmt.

3.3 Maximum-Likelihood-Schatzung

Die wichtigste und flexibelste Methode zur Bestimmung von Schatzern ist dieMaximum-Likelihood-Methode. Es werde ein regulares statistisches Modell Pgegeben durch eine Familie von Dichten oder Wahrscheinlichkeitsfunktionen{p(·,θ) : θ ∈ Θ

}mit Θ ⊂ R

k betrachtet.

Page 93: Mathematische Statistik ||

84 3. Schatzmethoden

Die Funktion L : Θ × Rn → R

+, gegeben durch

L(θ,x) := p(x,θ)

mit θ ∈ Θ, x ∈ Rn heißt Likelihood-Funktion des Parameters θ fur die

Beobachtung x.

Falls X eine diskrete Zufallsvariable ist, dann gibt L(θ,x) die Wahrschein-lichkeit an, die Beobachtung {X = x} unter dem Parameter θ zu erhalten.Aus diesem Grund kann man L(θ,x) als Maß dafur interpretieren, wie wahr-scheinlich (likely) der Parameter θ ist, falls x beobachtet wird. Im stetigenFall kann diese Interpretation ebenfalls erlangt werden, indem man das Er-eignis {X liegt in einer ε-Umgebung von x} betrachtet und ε gegen Nullgehen lasst.

Die Maximum-Likelihood-Methode besteht darin, den Schatzwert θ = θ(x)zu finden, unter dem die beobachteten Daten die hochste Wahrscheinlichkeiterlangen.

Definition 3.5. Gibt es in dem regularen statistischen Modell P einemeßbare Funktion θ : R

n �→ Θ, so dass

L(θ(x),x) = max{L(θ,x) : θ ∈ Θ

}fur alle x ∈ R

n,

so heißt θ(X) Maximum-Likelihood-Schatzer (MLS) von θ.

Falls der MLS θ(X) existiert, dann schatzen wir q(θ) durch q(θ(X)). Indiesem Fall heißt

q(θ(X))

der Maximum-Likelihood-Schatzer von q(θ). Dieser wird auch als MLE oderMaximum-Likelihood-Estimate von q(θ) bezeichnet.

Ist die Likelihood-Funktion differenzierbar in θ, so sind mogliche Kandi-daten fur den Maximum-Likelihood-Schatzwert durch die Bedingung

∂θiL(θ,x) = 0, i = 1, . . . , k

gegeben. Daruber hinaus ist die zweite Ableitung zu uberprufen, um fest-zustellen, ob es sich tatsachlich um ein Maximum handelt. Weitere Maximakonnten auch auf dem Rand des Parameterraums angenommen werden.

Fur die praktische Anwendung ist es außerst nutzlich den Logarithmus derLikelihood-Funktion zu betrachten. Da der Logarithmus eine streng monotonwachsende Funktion ist, bleibt die Maximalitat unter dieser Transformationerhalten.

Page 94: Mathematische Statistik ||

3.3 Maximum-Likelihood-Schatzung 85

Die Log-Likelihood-Funktion l : Θ × Rn → R ist definiert durch

l(θ,x) := lnL(θ,x).

Falls Θ offen, l differenzierbar in θ fur festes x und θ(x) existiert, so mußder Maximum-Likelihood-Schatzerwert θ(x) die Log-Likelihood-Gleichungerfullen:

∂θl(θ,x)

∣∣∣∣θ=θ(x)

= 0. (3.6)

Des Weiteren sind hinreichende Bedingungen, etwa an die zweite Ableitung,zu uberprufen um zu verifizieren, dass θ(x) auch tatsachlich eine Maximal-stelle ist.

Bemerkung 3.6. Konkavitat der Likelihood-Funktion. Nicht immer mussman die zweite Ableitung bemuhen, um Maximalitat zu zeigen: Falls L kon-kav ist, so ist eine Losung von ∂

∂θ L(θ,x) = 0 fur θ ∈ R stets Maximum-Likelihood-Schatzwert fur θ. Gleiches gilt ebenso fur l. In Abbildung 3.3wird dies an einer konkaven Funktion illustriert. Hierbei ist eine Funktion

Abb. 3.3 Ist die Funktion L konkav, so ist das Verschwinden der ersten Ableitungauch hinreichend fur ein Maximum von L.

f : R → R konkav, falls f(λx + (1 − λ)y) ≥ λf(x) + (1 − λ)f(y) fur alleλ ∈ (0, 1). Angewendet etwa auf die Log-Likelihood-Funktion l heißt das:Ist l zweimal differenzierbar in θ, so ist l konkav in θ genau dann, wenn∂2

∂θ2 l(θ,x) ≤ 0.

B 3.14 Log-Likelihood-Funktion unter Unabhangigkeit : Sind die X1, . . . , Xn un-abhangig und hat Xi die Dichte oder Wahrscheinlichkeitsfunktion pi(·,θ),so ist die Log-Likelihood-Funktion gegeben durch

Page 95: Mathematische Statistik ||

86 3. Schatzmethoden

l(θ,x) = ln

(n∏

i=1

pi(xi,θ)

)

=n∑

i=1

ln pi(xi,θ).

Bemerkung 3.7. Maximum-Likelihood-Schatzer mussen nicht notwendiger-weise existieren und sind auch nicht immer eindeutig. Des Weiteren sind MLSinvariant unter montonen Transformationen: Falls θ ein MLS fur q(θ) ist undh eine streng monotone Funktion, so ist h(θ) ein MLS fur h(q(θ)).

3.3.1 Maximum-Likelihood in eindimensionalenModellen

In diesem Abschnitt nehmen wir an, dass θ ∈ R ein eindimensionaler Para-meter ist. Wir beginnen mit zwei Beispielen.

B 3.15 Normalverteilungsfall, σ bekannt : (Siehe Beispiel 2.11). Sei X normalverteilt,X ∼ N (θ, σ2) und die Varianz σ2 sei bekannt. Mit der Dichte der Normal-verteilung, gegeben in (1.6), erhalt man die Likelihood-Funktion

L(θ, x) =1√

2πσ2exp(

− 12σ2

(θ − x

)2)

.

Diese ist in der Abbildung 3.4 dargestellt. Nach Beispiel 3.14 kann man diesleicht auf die i.i.d.-Situation ubertragen: Seien X1, . . . , Xn i.i.d. mit X1 ∼N (θ, σ2). Die Varianz σ2 sei bekannt. Dann gilt fur die Likelihood-Funktion3

L(θ,x) ∝ exp(−

n∑

i=1

(xi − θ)2

2σ2

).

Daraus erhalt man die Log-Likelihood-Funktion mit einer geeigneten Kon-stanten c ∈ R

l(θ,x) = c −n∑

i=1

(xi − θ)2

2σ2.

Die Log-Likelihood-Gleichung (3.6) ergibt direkt, dass

θ(x) = x.

Die zweite Ableitung von l nach θ ist negativ und somit ist das gefundene θMaximalstelle.

Die verschiedenen Schatzmethoden fur den Normalverteilungsfall, etwadie Momentenmethode in Beispiel 3.6 oder die Kleinste-Quadrate-Methode

3 In dieser Gleichung ist L nur bis auf multiplikative Konstanten angegeben. L(θ) ∝f(θ) bedeutet, es existiert eine von θ unabhangige Konstante c, so dass L(θ) = c·f(θ).

Page 96: Mathematische Statistik ||

3.3 Maximum-Likelihood-Schatzung 87

Abb. 3.4 Die Likelihood-Funktion L als Funktion von θ aus Beispiel 3.15. DerMaximum-Likelihood-Schatzwert θ(x) maximiert die Likelihood-Funktion L(θ, x) furein festes x.

in Beispiel 3.13, ergeben folglich den gleichen Schatzer wie die Maximum-Likelihood-Methode.

B 3.16 Gleichverteilung : (Fortsetzung von Beispiel 3.9) Es werde eine Population mitθ Mitgliedern betrachtet. Die Mitglieder seien nummeriert mit 1, . . . , θ. Vondieser Population werde n-mal mit Wiederholung gezogen. Mit Xi werdedie gezogene Nummer des i-ten Zuges bezeichnet und das Maximum derBeobachtungen durch x(n) := max{x1, . . . , xn}. Es gilt, dass P(Xi = r) =θ−11{r∈{1,...,θ}}.

Nach Beispiel 3.14 ist die Likelihood-Funktion gegeben durch

L(θ;x) =n∏

i=1

θ−11{xi∈{1,...,θ}} = θ−n 1{x(n)≤θ,x1,...,xn∈N} (3.7)

=

⎧⎪⎨

⎪⎩

0 fur θ ∈ {1, . . . , x(n) − 1}max{x1, . . . , xn}−n fur θ = x(n)

θ−n fur θ > x(n).

Damit ergibt sich θ = X(n) als Maximum-Likelihood-Schatzer. Die Likelihood-Funktion ist in Abbildung 3.5 dargestellt.

B 3.17 Genotypen: Wie in Beispiel 3.5 werde eine Population mit drei Genotypen,bezeichnet durch 1, 2, 3, betrachtet. Sei mit p(i, θ) die Wahrscheinlichkeit furGenotyp i fur gegebenes θ ∈ (0, 1). Wir hatten gezeigt, dass in dem so ge-nannten Hardy-Weinberg-Gleichgewicht

p(1, θ) = θ2, p(2, θ) = 2θ(1 − θ), p(3, θ) = (1 − θ)2

Page 97: Mathematische Statistik ||

88 3. Schatzmethoden

Abb. 3.5 Die Likelihood-Funktion als Funktion von θ fur eine Population mit θMitgliedern, wie in Gleichung (3.7) berechnet. Die Darstellung ist fur x(n) = 4.

fur ein θ ∈ (0, 1) gilt. In einer Untersuchung werden drei nicht verwandtePersonen typisiert. Xi bezeichne den Typ der i-ten Person. Die Untersuchungergebe die Beobachtung x0 = (1, 2, 1)�. Dann ist die Likelihood-Funktiongegeben durch

L(θ,x0) = p(1, θ) · p(2, θ) · p(1, θ) = 2θ5(1 − θ)

und somit ist die Log-Likelihood-Funktion

l(θ,x0) = 5 ln(θ) + ln(1 − θ) + ln(2).

Aus der notwendigen Bedingung fur eine Maximalstelle, (3.6), folgt

∂l(θ,x0)∂θ

=5θ− 1

1 − θ= 0

und somit θ(x0) = 56 . Um Maximalitat nachzuweisen, uberprufen wir die

zweite Ableitung. Da

∂2l(θ,x0)∂θ2

= − 5θ2

− 1(1 − θ)2

< 0

fur alle θ ∈ (0, 1), ist θ(x0) = 56 Maximalstelle von L(θ,x) und somit

ein Maximum-Likelihood-Schatzwert fur θ unter der Beobachtung x0 =(1, 2, 1)�. Die Situation mit n Beobachtungen wird in Beispiel 3.20 unter-sucht.

Page 98: Mathematische Statistik ||

3.3 Maximum-Likelihood-Schatzung 89

B 3.18 Warteschlange: (Siehe Beispiel 2.7) Sei X die Anzahl der Kunden, welche aneinem Schalter in n Stunden ankommen. Wir nehmen an, dass die Anzahlder ankommenden Kunden einem Poisson-Prozess folgt und bezeichnen dieIntensitat (beziehungsweise die erwartete Anzahl von Kunden pro Stunde)mit λ. Dann gilt X ∼ Poiss(nλ). Mit der Wahrscheinlichkeitsfunktion einerPoisson-Verteilung, gegeben in Gleichung (1.5), erhalt man die Likelihood-Funktion

L(λ, x) =e−λn(λn)x

x!

fur x = 0, 1, . . . . Damit ist die Log-Likelihood-Funktion

l(x, λ) = −λn + x ln(λn) − ln x!

und die Log-Likelihood-Gleichung (3.6) egibt

0 =∂l(λ, x)

∂λ

∣∣∣∣λ=λ

= −n +x · nλ · n

= 0.

Somit ist λ = λ(x) = x/n. Die zweite Ableitung ist −x/λ2, welche fur x > 0negativ ist. Somit erhalt man fur x > 0 das arithmetische Mittel

λ(x) =x

n

als den Maximum-Likelihood-Schatzwert fur λ. Gilt allerdings x = 0, soexistiert kein MLS fur λ.

In dem regularen statistischen Modell P = {p(·, θ) : θ ∈ Θ} sei Eθ(T (X))der Erwartungswert von T (X) bezuglich der Dichte oder Wahrscheinlich-keitsfunktion p(·, θ). Weiterhin sei das Bild von c durch c(Θ) := {c(θ) : θ ∈ Θ}bezeichnet.

Satz 3.8 (MLS fur eindimensionale exponentielle Familien). Betrachtetwerde das regulare statistische Modell P = {p(·, θ) : θ ∈ Θ} mit Θ ⊂ R

und

p(x, θ) = 1{x∈A} exp(c(θ)T (x) + d(θ) + S(x)

), x ∈ R

n.

Sei C das Innere von c(Θ), c injektiv und x ∈ Rn. Falls

Eθ(T (X)) = T (x)

eine Losung θ(x) besitzt mit c(θ(x)) ∈ C, dann ist θ(x) der eindeutigeMaximum-Likelihood-Schatzwert von θ.

Page 99: Mathematische Statistik ||

90 3. Schatzmethoden

Beweis. Betrachte zunachst die zugehorige naturliche exponentielle Familiein Darstellung (2.7). Sie ist gegeben durch {p0(·, η) : η ∈ H} wobei H :={η ∈ R : d0(η) < ∞} und

p(x, η) = 1{x∈A} exp(η · T (x) + d0(η) + S(x)

).

Somit ist fur einen inneren Punkt η ∈ H

∂ηl(η,x) = T (x) + d′0(η) und

∂2

∂η2l(η,x) = d′′0(η).

Dann gilt nach Bemerkung 2.13 auch, dass

Eη(T (X)) = −d′0(η),Varη(T (X)) = −d′′0(η) > 0

und d′′0(η) < 0. Daraus folgt, dass die Log-Likelihood-Funktion l striktkonkav ist und somit ist die Log-Likelihood-Gleichung (3.6) aquivalent zuEη(T (X)) = T (x). Existiert eine Losung x fur Eη(T (X)) = T (x), so mußdiese Losung der MLS sein. Eindeutigkeit folgt aus der strikten Konkavitatvon l.

Den allgemeinen Fall behandeln wir wie folgt. Sei x ∈ Rn beliebig. Fur die

moglichen Werte der Log-Likelihood-Funktion gilt, dass{l(θ,x) = c(θ)T (x)+d(θ)+S(x) : θ ∈ Θ

} ⊂ {η·T (x)+d0(η)+S(x) : η ∈ H},

(3.8)denn fur θ ∈ Θ folgt aus der Injektivitat von c, dass d0(c−1(θ)) < ∞ nachBemerkung 2.9. Falls θ(x) Losung von Eθ(T (X)) = T (x) ist, dann maximiertc(θ(x)) die Gleichung η ·T (x)+d0(η)+S(x) fur alle η ∈ H und weiterhin istη(x) = c(θ(x)). Dies folgt aus der Eindeutigkeit von η(x) und der Injektivitatvon c : Θ → R. Vergleichen wir mit (3.8), so erhalt man das Maximum derMenge {η · T (x) + d0(η) + S(x) : η ∈ H} mit l(θ(x),x). Hierbei ist θ(x) ∈ Θ

und somit maximiert θ(x) die Log-Likelihood-Funktion l(·,x). ��B 3.19 Normalverteilungsfall, σ bekannt : (Siehe Beispiel 3.15) Seien X1, . . . , Xn i.i.d.

mit X1 ∼ N (θ, σ2) und die Varianz σ2 sei bekannt. Nach Beispiel 2.18 ist dieVerteilung von X = (X1, . . . , Xn)� eine exponentielle Familie mit naturlichersuffizienter Statistik T (X) =

∑ni=1 Xi. Da

Eθ(T (X)) = nθ,

ist die Bedingung Eθ(T (X)) = T (x) aquivalent zu

θ =1n

n∑

i=1

xi.

Page 100: Mathematische Statistik ||

3.3 Maximum-Likelihood-Schatzung 91

Da c(θ) = θ/σ2 nach Beispiel 2.11 gilt, ist c injektiv und das Bild von c istR. Damit liegt θ(X) := X im Inneren des Bildes von c. Mit Satz 3.8 folgtsomit, dass θ(X) = X ein eindeutiger MLS ist.

B 3.20 Genotypen: Wir setzen Beispiel 3.17 fort. Dort wurde eine Population mit Ge-notypen 1, 2, 3 betrachtet. Fur den unbekannten Parameter θ ∈ (0, 1) folgte,dass

p(1, θ) = θ2, p(2, θ) = 2θ(1 − θ), p(3, θ) = (1 − θ)2. (3.9)

Es werde eine Stichprobe X1, . . . , Xn untersucht, wobei X1, . . . , Xn i.i.d. mitX1 ∈ {1, 2, 3} seien und X1 habe die Wahrscheinlichkeitsfunktion p(·, θ) ausder Gleichung (3.9). Mit Ni, i = 1, 2, 3 werde die zufallige Anzahl der Beob-achtungen mit Wert i bezeichnet. Dann ist

E(N1) = n · P(X1 = 1) = n · p(1, θ) = nθ2

und

E(N2) = n · p(2, θ) = 2nθ(1 − θ).

Weiterhin ist E(N1 + N2 + N3) = n. Betrachtet man eine Beobachtung x,fur welche sich n1, n2, n3 Elemente in den Gruppen 1, 2, 3 ergeben, so ist dieLikelihood-Funktion gegeben durch

L(θ,x) = θ2n1(2θ(1 − θ)

)n2(1 − θ)2n3 = 2n2θ2n1+n2(1 − θ

)n2+2n3

= 2n2

( θ

1 − θ

)2n1+n2(1 − θ

)2n.

Damit liegt eine eindimensionale exponentielle Familie mit T (X) = 2N1+N2

vor und c(θ) = ln(

θ1−θ

). Weiterhin ist

Eθ(T (X)) = Eθ(2N1 + N2) = 2nθ2 + 2nθ(1 − θ) = 2nθ.

Damit ist Eθ(T (X)) = T (x) aquivalent zu 2nθ = 2n1 + n2 und somit ist

θ(X) =2N1 + N2

2n

nach Satz 3.8 der eindeutige MLS fur θ, denn c ist injektiv und daruberhinaus liegt c(θ) im Inneren des Bildes von c.

Bemerkung 3.9. Der MLS in einer exponentiellen Familie ist auch Mo-mentenschatzer. Da nach Satz 3.8 Eθ(T (X)) = T (x) fur den eindeutigenMLS in einer eindimensionalen exponentiellen Familie gilt, ist dieser auchein Momentenschatzer.

Page 101: Mathematische Statistik ||

92 3. Schatzmethoden

3.3.2 Maximum-Likelihood in mehrdimensionalenModellen

In diesem Abschnitt wird die Verallgemeinerung der Maximum-Likelihood-Methode vorgestellt, in welcher der Parameterraum Θ k-dimensional ist. Hier-zu betrachten wir das regulare statistische Modell P gegeben durch eine Fa-milie von Dichten oder Wahrscheinlichkeitsfunktionen

{p(·,θ) : θ ∈ Θ

}mit

Θ ⊂ Rk. Das zu p(·,θ) gehorige Wahrscheinlichkeitsmaß sei mit Pθ bezeich-

net. Wir nehmen an, dass Θ offen ist. Falls die partiellen Ableitungen derLog-Likelihood-Funktion existieren und der MLS θ existiert, so lost θ(x) dieLog-Likelihood-Gleichung (3.6),

∂θl(θ,x)

∣∣∣∣θ=θ(x)

= 0.

Wieder bezeichnen wir mit Eθ(T (X)) den Erwartungswert von T (X) bezug-lich der Verteilung Pθ und das Bild von c mit c(Θ) := {c(θ) : θ ∈ Θ}.Der folgende Satz gibt Kriterien fur einen eindeutigen Maximum-Likelihood-Schatzer in K-parametrigen exponentiellen Familien.

Satz 3.10. Betrachtet werde das regulare statistische Modell P ={p(·,θ) : θ ∈ Θ} aus einer K-parametrigen exponentiellen Familie, so dassfur alle x ∈ R

n und θ ∈ Θ

p(x,θ) = 1{x∈A} exp( K∑

i=1

ci(θ)Ti(x) + d(θ) + S(x))

, θ ∈ Θ. (3.10)

Sei C das Innere von c(Θ) und c1, . . . , cK injektiv. Falls

Eθ(Ti(X)) = Ti(x), i = 1, . . . ,K

eine Losung θ(x) besitzt mit (c1(θ(x)), . . . , cK(θ(x)))� ∈ C, dann ist θ(x)der eindeutige Maximum-Likelihood-Schatzwert von θ.

Der Beweis des Satzes ist dem eindimensionalen Fall ahnlich und Gegenstandvon Aufgabe 3.23. In Verallgemeinerung von Beispiel 3.15 betrachten wir nundie Situation der MLS von normalverteilten Beobachtungen.

B 3.21 MLS fur Normalverteilung, μ und σ unbekannt : Seien X1, . . . , Xn i.i.d. mitXi ∼ N (μ, σ2) und sowohl μ als auch σ2 unbekannt. Setze θ := (μ, σ2)� undΘ := R×R

+. Nach Beispiel 2.17 fuhrt die Darstellung der Normalverteilungals exponentielle Familie gemaß Gleichung (3.10) zu c1(θ) = μ/σ2 und c2(θ) =−1/2σ2. Damit ist C = R × R

− mit R− := {x ∈ R : x < 0}. Weiterhin sind

Page 102: Mathematische Statistik ||

3.3 Maximum-Likelihood-Schatzung 93

T1(x) =n∑

i=1

xi, T2(x) =n∑

i=1

x2i .

Daraus ergeben sich die folgenden Gleichungen. Zunachst ist Eθ

(T1(X)

)=

nμ. Damit ist Eθ(T1(X)) = T1(x) aquivalent zu

nμ =n∑

i=1

xi,

woraus μ = θ1(X) = X folgt. Weiterhin ist

(T2(X)

)=

n∑

i=1

Eθ(X2i ) = n

(σ2 + μ2

).

Damit ist Eθ(T2(X)) = T2(x) aquivalent zu n(σ2 + μ2

)=∑n

i=1 x2i . Wir

erhalten

σ2 = θ2(X) =1n

n∑

i=1

X2i − X2 =

1n

n∑

i=1

(Xi − X

)2,

falls n ≥ 2. Damit erhalten wir den MLS fur die Normalverteilung mit unbe-kanntem Mittelwert und unbekannter Varianz:

Mit Satz 3.10 folgt, dass fur X1, . . . , Xn i.i.d. und X1 ∼ N (μ, σ2)

θ =(X,

1n

n∑

i=1

(Xi − X

)2)�

der eindeutige Maximum-Likelihood-Schatzer fur θ = (μ, σ2)� ist.

3.3.3 Numerische Bestimmung desMaximum-Likelihood-Schatzers

Der Maximum-Likelihood-Schatzer lasst sich nicht immer direkt ausrechnen,mitunter sind numerische Methoden notwendig, um ihn zu bestimmen, wiefolgende Beispiele zeigen.

B 3.22 Diskret beobachtete Uberlebenszeiten: Man untersucht gewisse Bauteile aufihre Lebensdauer. Nimmt man an, dass die Bauteile ermudungsfrei arbeiten,so bietet sich eine Exponentialverteilung zur Modellierung der Lebensdaueran (vergleiche dazu Aufgabe 1.6). Seien X1, . . . , Xn i.i.d. und X1 ∼ Exp(θ)die Uberlebenszeiten von n beobachteten Bauteilen. Allerdings werden dieBauteile nicht permanent untersucht, sondern nur zu den Zeitpunkten a1 <

Page 103: Mathematische Statistik ||

94 3. Schatzmethoden

a2 < · · · < ak. Setze a0 := 0 und ak+1 := ak + 1 (das Bauteil uberdauert alleInspektionen). Man beobachtet

Yi :=

{al falls al−1 < Xi ≤ al, l = 1, . . . , k

ak+1 falls Xi > ak

fur i = 1, . . . , n. Sei Nj die Anzahl der Y1, . . . , Yn, welche den Wert aj anneh-men, j = 1, . . . , k + 1. Dann ist der Vektor (N1, . . . , Nk+1)� multinomialver-teilt. Daruber hinaus ist er suffizient fur θ. Zur Berechnung der Likelihood-Funktion L setzen wir

pj(θ) := P(Y = aj) = P(aj−1 < X ≤ aj) = e−θaj−1 − e−θaj

fur j = 1, . . . , k und

pk+1(θ) := P(Y = ak+1) = P(X > ak) = e−θak .

Dann ist die Likelihood-Funktion gegeben durch

L(θ, n1, . . . , nk+1) =n!

n1! · · ·nk+1!

k+1∏

j=1

pj(θ)nj ,

fur n1, . . . , nk+1 ∈ N mit n1 + · · ·+nk+1 = n. Man erhalt die Log-Likelihood-Funktion

l(θ, n1, . . . , nk+1) =k+1∑

j=1

nj ln(pj(θ)) + c,

mit von θ unabhangigem c = c(n1, . . . , nk+1). Die Log-Likelihood-Gleichung(3.6) ergibt

0 =k+1∑

j=1

nj

∂∂θ pj(θ)pj(θ)

=k∑

j=1

njaje

−ajθ − aj−1e−aj−1θ

e−aj−1θ − e−ajθ+ nk+1

−ake−akθ

e−akθ.

(3.11)

Falls aj �= bj + d fur alle j = 1, . . . , k kann (3.11) nicht mehr explizit gelostwerden und die Bestimmung des MLS θ muss numerisch erfolgen.

Zur numerischen Bestimmung des MLS stellen wir kurz die Newton-Methode und deren Variante, die Fisher-Scoring-Methode vor. Hierbei mochteman die Log-Likelihood-Gleichung (3.6) losen. Zunachst lasst sich diese alsnichtlineares Gleichungssystem der Form

Page 104: Mathematische Statistik ||

3.4 Vergleich der Maximum-Likelihood-Methode mit anderen Schatzverfahren 95

h(θ) =

⎜⎝

h1(θ1, . . . , θk)...

hk(θ1, . . . , θk)

⎟⎠ = 0 (3.12)

schreiben. Sei θ die Losung von (3.12) und θ0 nahe bei θ. Dann gilt mit derTaylorentwicklung 1. Ordnung um θ0

0 = h(θ) ≈ h(θ0) + Dh(θ0)(θ − θ0

)

mit

Dh(θ0) =

⎜⎜⎜⎜⎝

∂h1∂θ1

∣∣∣θ=θ0

· · · ∂h1∂θk

∣∣∣θ=θ0

......

∂hk

∂θ1

∣∣∣θ=θ0

· · · ∂hk

∂θk

∣∣∣θ=θ0

⎟⎟⎟⎟⎠

.

Wir nehmen an, dass Dh(θ) fur alle θ ∈ Θ invertierbar ist. Dann wird dieGleichung h(θ0) + Dh(θ0)

(θ − θ0

)= 0 gelost von

θ = θ0 −(Dh(θ0)

)−1h(θ0).

Dies wird nun in einem iterativen Verfahren eingesetzt: Sei θ0 ein Startwertund

θi+1 := θi −(Dh(θi)

)−1h(θi).

Man iteriert diesen Algorithmus so lange bis ||θi+1 − θi|| unter eine vorgege-bene Schranke fallt und setzt dann θ := θi+1.

Allgemeine Konvergenzaussagen sind vorhanden (siehe z.B. Lange (2004)).In der Statistik wird im Allgemeinen Dh(θ) von den Daten X abhangen,d.h. man erhalt eine zufallige Matrix. In der Fisher-Scoring-Methode wirddeswegen Eθ

(Dh(θi,X)

)an Stelle von Dh(θi,X) verwendet. Die Fisher-

Scoring-Methode wurde bereits in Sektion 5g von Rao (1973) angewendet.

3.4 Vergleich der Maximum-Likelihood-Methode mitanderen Schatzverfahren

In diesem Abschnitt halten wir einige Beobachtungen fest, die den MLS inandere Schatzmethoden einordnen.

(i) Das Maximum-Likelihood-Verfahren fur diskrete Zufallsvariablen ent-spricht dem Substitutionsprinzip.

(ii) Der Kleinste-Quadrate-Schatzer einer allgemeinen Regression unter Nor-malverteilungsannahme aus Abschnitt 3.2 kann als Maximum-Likelihood-Schatzer betrachtet werden: Fur θ = (θ1, . . . , θk)� und

Page 105: Mathematische Statistik ||

96 3. Schatzmethoden

Yi = gi(θ) + εi, i = 1, . . . , n

mit i.i.d. ε1, . . . , εn und εi ∼ N (0, σ2) ist die Likelihood-Funktion gege-ben durch

L(θ,x) =1

(2πσ2

)n/2exp(

− 12σ2

n∑

i=1

(xi − gi(θ))2)

. (3.13)

Fur alle σ2 > 0 ist (3.13) genau dann maximal, wenn

n∑

i=1

(xi − gi(θ1, . . . , θr)

)2

minimal ist. Damit entspricht der Kleinste-Quadrate-Schatzer in diesemFall dem Maximum-Likelihood-Schatzer.

(iii) In einem Bayesianischen Modell mit endlichem Parameterraum Θ undder Gleichverteilung als a priori-Verteilung fur θ, ist der Maximum-Likelihood-Schatzer θ derjenige Wert von θ, der die hochste a posteriori-Wahrscheinlichkeit besitzt. Gilt Θ = [a, b] und θ ∼ U(a, b), dann ist derMaximum-Likelihood-Schatzer θ der Modus der a posteriori-Dichte.

3.5 Anpassungstests

In diesem Buch gehen wir stets von einem parametrischen Modell von derForm P = {Pθ : θ ∈ Θ} aus. Wie wir in diesem Abschnitt gesehen ha-ben, kann man unter dieser Annahme verschiedene Schatzern herleiten undin den folgenden Kapiteln werden wir deren Optimalitatseigenschaften ana-lysieren. In der praktischen Anwendung muss man die Annahme, dass dieDaten dem Modell P = {Pθ : θ ∈ Θ} entstammen mit einem geeigneten Testuberprufen. Dies fuhrt auf naturliche Weise zu so genannten nichtparametri-schen Tests, wie z.B. den χ2-Anpassungstest oder eine der vielen Variantendes Kolmogorov-Smirnov-Anpassungstests. Fur eine praktische Darstellungvon Anpassungstests verweisen wir auf Abschnitt 5.1 von Duller (2008). Ei-nige theoretische Aspekte der χ2-Tests werden bereits in Abschnitt 11.2 und11.3 von Georgii (2004) erwahnt und eine tiefere Analyse und weitere Lite-raturhinweise finden sich ab Gleichung (1.61) in Lehmann (2007).

3.6 Aufgaben

A 3.1 Absolute und quadratische Abweichung : Zeigen Sie, dass der ErwartungswertE(X) die Gleichung x �→ E((X − x)2) minimiert. Der Median von X ist eine

Page 106: Mathematische Statistik ||

3.6 Aufgaben 97

Zahl m, fur welche P(X ≥ m) = 1/2 = P(X ≤ m) gilt. Nehmen Sie nun an,dass X eine Dichte hat, und zeigen Sie, dass dann der Median von X dieFunktion x �→ E(|X − x|) minimiert.

Haufigkeitssubstitution

A 3.2 Qualitatskontrolle: Haufigkeitssubstitution: Es werde eine Ladung Bananenuntersucht, wobei die untersuchten Bananen jeweils als in Ordnung (1), leichtbeschadigt (2) oder stark beschadigt (3) klassifiziert werden. Diese Kategorienkommen jeweils mit den folgenden Wahrscheinlichkeiten vor, wobei θ ∈ (0, 1)unbekannt und α ∈ (0, 1) bekannt sei:

in Ordnung leicht beschadigt stark beschadigt

θ α(1 − θ) (1 − α)(1 − θ)

Weiterhin bezeichne Ni die Anzahl der Bananen aus Kategorie i ∈ {1, 2, 3}in einer Stichprobe der Lange n.

(i) Zeigen Sie, dass T = 1 − N2n − N3

n ein Haufigkeitssubstitutionsschatzerfur θ ist.

(ii) Finden Sie einen Haufigkeitssubstitutionsschatzer fur den Quotientenθ

1−θ .

Momentenschatzer

A 3.3 Momentenschatzer: Beispiele: Bestimmen Sie mittels der Momentenmethodeeinen Momentenschatzer fur θ bei den folgenden Verteilungen:

(i) Die Gleichverteilung mit Dichte pθ(x) = 1{x∈(−θ,θ)} 12 θ , θ > 0; der

Schatzer ist θ =√

3n

∑ni=1 X2

i .

(ii) Die geometrische Verteilung gegeben durch Pθ(X = k) = θ (1 − θ)k−1

mit θ ∈ (0, 1) und k = 1, 2, . . . ; der Schatzer ist θ = (X)−1.

(iii) Die Gamma-Verteilung mit der Dichte pθ(x) = 1{x>0}θ

θ21

Γ (θ2)xθ2−1 e−θ1 x

fur θ = (θ1, θ2) ∈ R+ × R

+; der Schatzer ist θ = (θ1, θ2) mit

θ1 =X

1n

∑ni=1 X2

i − (X)2, θ2 =

(X)21n

∑ni=1 X2

i − (X)2.

(iv) Die Binomialverteilung {Bin(θ1, θ2) | θ1 ∈ N, θ2 ∈ [0, 1]}; der Schatzerist θ = (θ1, θ2)mit

Page 107: Mathematische Statistik ||

98 3. Schatzmethoden

θ1 =X

1 + X − 1nX

∑ni=1 X2

i

, θ2 = 1 + X − 1nX

n∑

i=1

X2i .

(v) Die Beta-Verteilung Beta(θ + 1, 1) gegeben durch die Dichte pθ(x) =1{x∈(0,1)}(θ + 1)xθ; der Schatzer ist

θ =1 − 2X

X − 1.

A 3.4 Momentenschatzer: Beta-Verteilung : Die Zufallsvariablen X1, . . . , Xn sei-en i.i.d. Beta-verteilt, d.h. X1 ∼ Beta(a, b). Bestimmen Sie einen Momen-tenschatzer fur θ = (a, b)�.

A 3.5 Momentenschatzer: Laplace-Verteilung : Die Stichprobe X1, . . . , Xn sei i.i.d.und X1 sei Laplace-verteilt mit der Dichte

pθ(x) =12θe−θ|x|.

Bestimmen Sie einen Momentenschatzer fur die Wahrscheinlichkeit P(X1 > c)fur eine feste Konstante c ∈ R.

A 3.6 Momentenschatzer: Weibull-Verteilung : Seien X1, . . . , Xn i.i.d. mit Dichte

p(x) =

√2θ3

πx2 e−

θ2 x2

1{x>0},

wobei der Parameter θ > 0 unbekannt ist. Berechnen Sie den Momen-tenschatzer fur θ basierend auf dem zweiten Moment.

A 3.7 Momentenschatzer: AR(1): Die Zufallsvariablen Z1, . . . , Zn seien i.i.d. mitZ1 ∼ N (0, σ2). Die Zeitreihe (Xi)1≤i≤n heißt autoregressiv der Ordnung 1oder AR(1), falls mit X0 := μ und fur 1 ≤ i ≤ n

Xi = μ + β(Xi−1 − μ) + Zi.

(i) Verwenden Sie E(Xi), um einen Momentenschatzer fur μ zu finden.(ii) Nun seien μ = μ0 und β = β0 fix und bekannt und weiterhin

Ui :=Xi − μ0√∑i−1

j=0 β2j0

.

Verwenden Sie E(U2i ), um einen Momentenschatzer fur σ2 zu finden.

A 3.8 Momentenschatzung hat keinen Zusammenhang zur Suffizienz : BetrachtenSie dazu die Verteilungsfamilie von zweiseitigen Exponentialverteilungen ge-geben durch die Dichte

Page 108: Mathematische Statistik ||

3.6 Aufgaben 99

pθ(x) =12

e−|x−θ|, θ ∈ R.

Zeigen Sie mit dem ersten Moment, dass X ein Momentenschatzer fur θ ist.Weisen Sie nach, dass dieser nicht suffizient fur θ ist.

A 3.9 Schatzung der Kovarianz : Seien (X1, Y1), . . . , (Xn, Yn) i.i.d. mit der glei-chen Verteilung wie der Zufallsvektor (X,Y ). Ferner seien die arithmetischenMittel mit X = 1

n

∑ni=1 Xi und Y = 1

n

∑ni=1 Yi bezeichnet. Zeigen Sie, dass

T (X,Y ) :=1

n − 1

n∑

i=1

(Xi − X)(Yi − Y )

ein unverzerrter Schatzer fur Cov(X,Y ) ist (vergleiche dazu Aufgabe 4.29).

Maximum-Likelihood-Schatzer

A 3.10 Maximum-Likelihood-Schatzer einer gemischten Verteilung : Seien p1 und p2

zwei Dichten. Fur jedes θ ∈ [0, 1] ist dann die Mischung der beiden Vertei-lungen durch die Dichte

pθ(x) = θ p1(x) + (1 − θ) p2(x)

gegeben. Betrachten Sie das parametrische Modell {pθ : θ ∈ [0, 1]} undbestimmen Sie eine notwendige und hinreichende Bedingung dafur, dassdie Likelihood-Gleichung eine Losung besitzt. Weisen Sie nach, dass die-se Losung, falls sie existiert, der eindeutige Maximum-Likelihood-Schatzerfur θ ist. Was ist der Maximum-Likelihood-Schatzer, wenn die Likelihood-Gleichung keine Losung besitzt?

A 3.11 Mischung von Gleichverteilungen: Seien X1, . . . , Xn i.i.d. mit Dichte pθ undθ ∈ [0, 1]. Zeigen Sie, dass der Maximum-Likelihood-Schatzer fur

pθ(x) = θ 1{(−1,0)}(x) + (1 − θ)1{(0,1)}(x)

gerade θ = 1n

∑ni=1 1{Xi∈(−1,0)} ist.

A 3.12 Maximum-Likelihood-Schatzer: Beispiele: Bestimmen Sie bei den folgen-den Verteilungsfamilien jeweils einen Maximum-Likelihood-Schatzer fur θ.Betrachten Sie dazu X1, . . . , Xn i.i.d. mit der jeweiligen Verteilung undX := X1.

(i) Die diskrete Gleichverteilung gegeben durch Pθ(X = m) = θ−1 fur m =1, . . . , θ und mit θ ∈ N; der MLS ist θ = max{X1, . . . , Xn}.

(ii) Die Gleichverteilung U(0, θ), hierbei hat X die Dichte

1{x∈(0,θ)}1θ

Page 109: Mathematische Statistik ||

100 3. Schatzmethoden

und θ = max{X1, . . . , Xn}.(iii) Die geometrische Verteilung gegeben durch Pθ(X = m) = θ (1 − θ)m−1

fur m ∈ N und mit θ ∈ (0, 1); der MLS ist θ = (X)−1.(iv) Die nichtzentrale Exponentialverteilung mit Dichte

1θ1

e−x−θ2

θ1 1{x≥θ2}

mit θ = (θ1, θ2) ∈ R+ × R. Fur n ≥ 2 ist der MLS θ = (θ1, θ2) gegeben

durch θ1 = X − X(1) und θ2 = X(1).(v) Sei X Beta(θ+1, 1)-verteilt, d.h. X hat die Dichte pθ(x) = 1{x∈(0,1)}(θ+

1)xθ. Bestimmen Sie einen Maximum-Likelihood-Schatzer fur g(θ) :=Eθ(X2).

(vi) Ist X1 ∼ N (μ, σ2) und μ bekannt, so ist der Maximum-Likelihood-Schatzer von σ gerade

σ2(X) =1n

n∑

i=1

(Xi − μ)2.

A 3.13 Exponentialverteilung: MLS und Momentenschatzer : Seien X1, . . . , Xn Expo-nentialverteilt zum Parameter θ. Zeigen Sie, dass θ = (X)−1 der Maximum-Likelihood-Schatzer als auch ein Momentenschatzer ist.

A 3.14 Maximum-Likelihood-Schatzer: Zweidimensionale Exponentialverteilung : Be-trachtet werden i.i.d. Zufallsvariablen (Y1, Z1), . . . , (Yn, Zn). Weiterhin seienY1 und Z1 unabhangig und exponentialverteilt mit Parametern λ > 0 bzw.μ > 0. Bestimmen Sie den Maximum-Likelihood-Schatzer fur (λ, μ).

A 3.15 Verschobene Gleichverteilung : Seien X1, . . . , Xn i.i.d. mit X1 ∼ U(θ, θ + 1).Der Parameter θ sei unbekannt und X(1) = min{X1, . . . , Xn} die kleinsteOrdnungsgroße der Daten und X := n−1

∑ni=1 Xi. Betrachten Sie die beiden

Schatzer

T1(X) = X − 12

und T2(X) = X(1) − 1n + 1

.

Zeigen Sie, dass beide Schatzer erwartungstreu sind. Berechnen Sie die Vari-anz der beiden Schatzer.

A 3.16 Maximum-Likelihood-Schatzer: Weibull-Verteilung : Seien X1, . . . , Xn i.i.d.mit der Dichte

p(x) =

√2θ3

πx2 e−

θ2 x2

1{x>0},

wobei der Parameter θ > 0 unbekannt ist. Finden Sie den Maximum-Likelihood-Schatzer fur θ und klaren Sie, ob dieser eindeutig ist.

A 3.17 Zensierte Daten: In der Medizin kommt es oft vor, dass Lebensdauern in einerStudie nicht beobachtet werden konnen, etwa weil einige Patienten aus der

Page 110: Mathematische Statistik ||

3.6 Aufgaben 101

Studie aus privaten Grunden ausscheiden. In einem solchen Fall spricht manvon zensierten Daten (siehe Klein und Moeschberger (2003)). Ein moglichesModell hierfur erhalt man in der Notation von Aufgabe 3.14 wie folgt: Ange-nommen es werde nur Xi = min{Yi, Zi} mit Δi = 1{Xi=Yi} fur i = 1, . . . , nbeobachtet. Δ ist der so genannten Zensierungs-Indikator. Ist Δi = 1, sobeobachtet man die originalen Daten (Yi). Ist hingegen Δi = 0, so ist dasDatum zensiert und Yi wird nicht beobachtet. Setze D :=

∑ni=1 Δi. Dann

sind die MLS fur (λ, μ) gegeben durch

λ =(∑n

i=1 Xi

D

)−1

, μ =(∑n

i=1 Xi

n − D

)−1

.

A 3.18 Lebensdaueranalyse: Rayleigh-Verteilung : Eine Stichprobe gebe die Rest-lebensdauer von n Patienten wieder, die unter derselben Krankheit leiden.Dabei seien X1, . . . , Xn i.i.d. und Rayleigh-verteilt mit Dichte

pθ(x) = 1{x>0}2x

θe−

x2θ ,

wobei der Parameter θ > 0 unbekannt sei.Geschatzt werden soll die Wahrscheinlichkeit, dass ein Patient eine Rest-

lebensdauer von mindestens t Jahren besitzt. Der MLS von θ ist T (X) :=n−1

∑ni=1 X2

i und der MLS fur die Uberlebenswahrscheinlichkeit S(t, θ) =Pθ(X1 > t) ist exp(−t2/T (X)) fur jedes feste t > 0. Der MLS fur die HazardRate λ(t, θ) = S(t,θ)

pθ(t) ist T (X)/(2t), fur jedes feste t > 0.

A 3.19 Die Maximum-Likelihood-Methode zur Gewinnung von Schatzern hat einenZusammenhang zur Suffizienz : Sei dazu {pθ : θ ∈ Θ} ein regulares statisti-sches Modell und T (X) eine suffiziente Statistik fur θ. Weisen Sie nach, dassein Maximum-Likelihood-Schatzer fur θ eine Funktion von T (X) ist.

Lineare Regression und Kleinste-Quadrate-Schatzer

A 3.20 Gewichtete einfache lineare Regression: Finden Sie eine Formel fur denKleinste-Quadrate-Schatzer θw im Modell

Yi = θ1 + θ2xi + εi,

wobei ε1, . . . , εn unabhangig seien mit εi ∼ N (0, σ2wi).

A 3.21 Lineare Regression: Quadratische Faktoren: Seien ε1, . . . , εn i.i.d. und ε1 ∼N (0, σ2) mit bekanntem σ2. Betrachtet werde folgendes lineare Modell

Yi =θ

2X2

i + εi, 1 ≤ i ≤ n.

Page 111: Mathematische Statistik ||

102 3. Schatzmethoden

Bestimmen Sie den Kleinste-Quadrate-Schatzer θ von θ (das Konfidenzinter-vall wird in Aufgabe 5.4 bestimmt).

A 3.22 Gewichteter Kleinste-Quadrate-Schatzer: Normalverteilung : Man beobach-tet eine Realisation ((x1, y1), . . . , (xn, yn)) von ((X1, Y1), . . . , (Xn, Yn)). Eswerde angenommen, dass Y1, . . . , Yn unabhangig und normalverteilt sind,Yi ∼ N (θ0 + θ1e

Xi , wiσ2)

mit bekannten Gewichten wi > 0 fur i = 1, . . . , n.Finden Sie den gewichteten Kleinste-Quadrate-Schatzer von (θ0, θ1). WelcheZielfunktion minimiert dieser Schatzer?

A 3.23 Beweis von Satz 3.10: Beweisen Sie die Aussage von Satz 3.10.

A 3.24 Normalverteilung: Schatzung der Varianz : Seien X1,X2, . . . i.i.d. mit X1 ∼N (0, σ2) fur ein σ > 0. Seien (fur gerade Stichprobenanzahl 2n, mit n ∈ N)

T1(X) =1

2n

2 n∑

i=1

|Xi|, T2(X) =

√√√√ 1

2n

2 n∑

i=1

X2i .

Bestimmen Sie zwei Zahlenfolgen an und bn so, dass an T1(X) und bn T2(X)erwartungstreue Schatzer fur σ sind. (Hinweis: Nutzen Sie die Momente derNormalverteilung aus Aufgabe 1.11) Berechnen Sie die Varianzen der so be-stimmten Schatzer an T1(X) und bn T2(X).

A 3.25 Ausreißer : Es bezeichne φμ,σ2(x) die Dichte einer normalverteilten Zufalls-variable mit Mittelwert μ und Varianz σ2. Seien X1, . . . , Xn i.i.d. Zufallsva-riablen mit der Dichte

pε(x) = (1 − ε)φ0,σ2(x) + ε φz, σ2(x),

fur vorgegebene z > 1, σ > 0 und ein unbekanntes ε ∈ (0, 1). Wir fassenX1, . . . , Xn als Messfehler auf. Dabei seien manche Messungen ungenau undhaben daher einen anderen Mittelwert, wir kennen den Anteil ε der verzerr-tent Messungen jedoch nicht. Als Maß fur die durchschnittliche Fehlerlastig-keit der Messungen betrachten wir die beiden Statistiken

T1(X) =1n

n∑

i=1

|Xi|, und T2(X) =1n

n∑

i=1

X2i .

Berechnen Sie die Erwartungswerte von T1(X) und T2(X) und geben Sie(abhangig von den bekannten Parametern σ und z) an, fur welche Werte vonε die Statistik T1(X) und fur welche Werte von ε die Statistik T2(X) starkerauf die Ausreißer reagiert.

Page 112: Mathematische Statistik ||

Kapitel 4.

Vergleich von Schatzern:Optimalitatstheorie

Dieses Kapitel beschaftigt sich mit der Optimalitat von Schatzern. Hierfurwird der klassische Zugang der Effizienz, welche am mittlerem quadratischenAbstand von dem zu schatzenden Parameter gemessen wird, betrachtet. Esstellt sich heraus, das zusatzlich zu einem Abstandskriterium eine zweiteBedingung, die Unverzerrtheit, gefordert werden muss, um hinreichend allge-meine Aussagen treffen zu konnen. Wir erhalten das wichtige Resultat, dassunverzerrte Schatzer mit minimaler Varianz nur in exponentiellen Familienexistieren in Satz 4.16. Abschließend betrachten wir asymptotische Aussagen.

4.1 Schatzkriterien

In diesem Abschnitt betrachten wir stets das statistische Modell P = {Pθ :θ ∈ Θ}. Ziel ist es, die Qualitat eines Schatzers T = T (X) fur den Parameterq(θ) zu messen.

In einem ersten Ansatz konnte man den Schatzfehler E := |T (X)− q(θ)|,d.h. den Abstand des Schatzers zum gesuchten Parameter, betrachten. DieserAnsatz weißt jedoch folgende Schwierigkeiten auf:

1. Der Schatzfehler E hangt vom unbekannten Parameter θ ab.2. E ist zufallig und kann erst nach der Datenerhebung zur Beurteilung

herangezogen werden.

Das Ziel dieses Abschnitts wird sein, ein Kriterium zu finden, welches be-reits vor der Datenerhebung zur Beurteilung eines Schatzers genutzt werdenkann. Hierzu mißt man die Qualitat des Schatzers T (X) anhand der Streu-ung des Schatzers um das gesuchte q(θ). Dafur kommen unter anderen die

C. Czado, T. Schmidt, Mathematische Statistik, Statistik und ihre 103Anwendungen, DOI 10.1007/978-3-642-17261-8 4,c© Springer-Verlag Berlin Heidelberg 2011

Page 113: Mathematische Statistik ||

104 4. Vergleich von Schatzern: Optimalitatstheorie

im Folgenden vorgestellten Maße mittlerer quadratischer Fehler und mittlererbetraglicher Fehler in Frage.

Wir formulieren die Maße fur reellwertige Schatzer. In mehrdimensionalenSchatzproblemen mit q(θ) ∈ R

d betrachtet man den Fehler jeweils kompo-nentenweise. Mit Eθ bezeichnen wir wie bisher den Erwartungswert bezuglichdes Wahrscheinlichkeitsmaßes Pθ.

Definition 4.1. Sei T = T (X) ∈ R ein Schatzer fur q(θ) ∈ R. Dann istder mittlere quadratische Fehler (MQF) von T definiert durch

R(θ, T ) := Eθ

((T (X) − q(θ))2

).

Weiterhin heißt

b(θ, T ) := Eθ(T (X)) − q(θ)

Verzerrung von T . Gilt b(θ, T ) = 0 fur alle θ ∈ Θ, so heißt T unverzerrt.

Einen unverzerrten Schatzer nennt man erwartungstreu. Im Englischen wirdder MQF als ”mean squared error“(kurz: MSE) und die Verzerrung als ”bi-as“ bezeichnet. Als Alternative zu dem MQF kann man auch den mittlerenbetraglichen Fehler Eθ (|T (X) − q(θ)|) betrachten, was wir an dieser Stellenicht vertiefen werden. Fur den mittleren quadratischen Fehler erhalt man:

R(θ, T ) = Eθ

((T (X) − q(θ))2

)

= Eθ

([T (X) − Eθ(T (X)) + Eθ

(T (X)

)− q(θ)]2)

= Varθ(T (X)) + b2(θ, T ).

Daraus erhalten wir folgende wichtige Zerlegung des mittleren quadratischenFehlers in Varianz des Schatzers und Quadrat der Verzerrung:

R(θ, T ) = Varθ(T (X)) + b2(θ, T ). (4.1)

Man erkennt, dass der MQF sowohl von θ als auch von der Wahl des SchatzersT abhangt. Allerdings ist er nicht zufallig und kann bereits vor der Date-nerhebung zur Beurteilung herangezogen werden, mit anderen Worten: Daseingangs erwahnte Problem 2 tritt nicht mehr auf. Die Varianz Varθ(T (X))ist ein Maß der Prazision des Schatzers T (X).

B 4.1 MQF fur die Normalverteilung : Seien X1, . . . , Xn i.i.d. mit Xi ∼ N (μ, σ2).Wie bereits in Beispiel 3.21 gezeigt, ist der MLS fur θ = (μ, σ2)� gegeben

Page 114: Mathematische Statistik ||

4.1 Schatzkriterien 105

durch μ = μ(X) := X und

σ2 :=1n

n∑

i=1

(Xi − X

)2.

Ferner ist X ∼ N (μ, σ2/n). Somit folgt, dass fur q(θ) := μ

b(θ, X) = Eθ(X) − q(θ) = μ − μ = 0,

d.h. das arithmetische Mittel X ist ein unverzerrter Schatzer fur μ. Fur denmittleren quadratischen Fehler erhalten wir

R(θ, X) = Varθ(X) =σ2

n−−−−→n→∞ 0;

er verschwindet mit steigender Stichprobenzahl (n → ∞). Als nachstenSchritt betrachten wir den Schatzer σ2 = σ2(X) der Varianz und setzenhierzu q(θ) := σ2. Wir erhalten

S :=nσ2

σ2=

n∑

i=1

(Xi − X

σ

)2

∼ χ2n−1

nach Aufgabe 1.34 beziehungsweise Satz 7.14. Damit folgt Eθ(S) = n−1 undVarθ(S) = 2(n − 1) mit Bemerkung 1.7. Da wir q(θ) = σ2 schatzen, gilt furdie Verzerrung, dass

b(θ, σ2) =σ2

nEθ

(nσ2

σ2

)

− σ2 =σ2 · (n − 1)

n− σ2 = −σ2

n−−−−→n→∞ 0,

also ist σ2 nicht unverzerrt. Immerhin ist σ2 asymptotisch unverzerrt. DieVerzerrung behebt man allerdings leicht durch Verwendung der Stichproben-varianz s2(X), wie bereits in Aufgabe 1.3 besprochen. Als MQF fur σ2 erhaltman

R(θ, σ2) =(

σ2

n

)2

Varθ

(nσ2

σ2

)

+σ4

n2=

σ4(2n − 1)n2

n → ∞−−−−→ 0.

Bemerkung 4.2. Oft ist es nicht moglich, Verzerrung und mittleren quad-ratischen Fehler eines Schatzers zu berechnen und man muss sich mit Ap-proximationen behelfen. Daruber hinaus ist der Vergleich des MQF zweierSchatzer nicht einfach, da haufig die Situation entsteht, dass in verschiede-nen Teilen des Parameterraums Θ unterschiedliche Schatzer besser sind. Einesolche Situation ist in Abbildung 4.1 und in dem folgenden Beispiel darge-stellt.

B 4.2 Vergleich von Mittelwertschatzern anhand des MQF : In diesem Beispiel sollendie beiden Schatzer T1 = T1(X) := X und T2 = T2(X) := aX, mit einem

Page 115: Mathematische Statistik ||

106 4. Vergleich von Schatzern: Optimalitatstheorie

Abb. 4.1 Vergleich des mittleren quadratischen Fehlers zweier Schatzer. In den Be-reichen 1 und 3 hat Schatzer T1 einen geringeren MQF als Schatzer T2, wahrend dieUmkehrung in Bereich 2 der Fall ist.

a ∈ (0, 1) zur Schatzung des Mittelwertes im Normalverteilungsfall untersuchtwerden. Seien dazu X1, . . . , Xn i.i.d. mit Xi ∼ N (μ, σ2). Wie im Beispiel 3.21betrachten wir θ = (μ, σ2)�, d.h. Mittelwert und Varianz sind unbekannt.Wir untersuchen die Schatzung von q(θ) := μ. Dann ist b(θ, T1) = 0 sowieR(θ, T1) = σ2

/n nach Beispiel 4.1. Fur den Schatzer T2 = aX erhalten wir

b(θ, T2) = Eθ(T2(X)) − μ = aμ − μ = (a − 1)μ,

und damit ergibt sich der MQF

R(θ, T2) = Varθ(a X) +((a − 1)μ

)2 =a2σ2

n+ (a − 1)2μ2.

Ist |μ| groß genug, so folgt, dass R(θ, T1) < R(θ, T2), d.h. Schatzer T1 istbesser als Schatzer T2. Ist umgekehrt |μ| nah genug bei Null, so folgt, dassR(θ, T1) > R(θ, T2) und somit ist in diesem Fall T2 besser als T1. Damit liegtdie Situation aus Bemerkung 4.2 vor. Zur Verdeutlichung ist die konkreteSituation in Abbildung 4.2 dargestellt.

Definition 4.3. Ein Schatzer S heißt unzulassig, falls es einen SchatzerT gibt, so dass

(i) R(θ, T ) ≤ R(θ, S) fur alle θ ∈ Θ und(ii) R(θ, T ) < R(θ, S) fur mindestens ein θ ∈ Θ.

Fur einen unzulassigen Schatzer S gibt es einen weiteren Schatzer, der besserim Sinne des mittleren quadratischen Fehlers ist. In diesem Fall zieht man

Page 116: Mathematische Statistik ||

4.1 Schatzkriterien 107

Abb. 4.2 Vergleich des mittleren quadratischen Fehlers bezuglich μ fur die SchatzerT1 = X und T2 = aX bei normalverteilten Daten.

den Schatzer T mit dem kleineren MQF vor; aus diesem Grund heißt Sunzulassig.

Man ist nun versucht, zu fragen, ob es einen ,,besten” Schatzer T gibt, furwelchen

R(θ, T ) ≤ R(θ, S) (4.2)

fur alle Parameter θ ∈ Θ und fur alle Schatzer S gilt. Leider ist dies nichtder Fall, wie man leicht sieht:

B 4.3 Der perfekte Schatzer : Man wahlt ein beliebiges θ0 ∈ Θ und betrachtet denSchatzer S(X) := q(θ0). Dieser Schatzer nutzt die erhobenen Daten nicht,trifft aber den wahren Parameter perfekt, falls gerade θ = θ0. Mit diesemSchatzer gilt, dass

R(θ0, S) = Varθ0(S(X)) + (Eθ0(S(X)) − q(θ0))2 = 0.

Fur den perfekten Schatzer T musste (4.2) erfullt sein, woraus wegen R(θ0, T ) =0 folgt, dass

R(θ, T ) = 0

fur alle θ ∈ Θ ist. Dies bedeutet, dass T (X) den gesuchten q(θ) fur alle θ ∈ Θperfekt schatzen wurde, was in keinem naturlichen Modell moglich ist.

An diesem Beispiel erkennt man, dass es nicht sinnvoll ist alle moglichenSchatzer zu betrachten. Man muss die Klasse der zu betrachtenden Schatzergeeignet einschranken. Eine bereits bekannte und wunschenswerte Eigen-schaft ist die Unverzerrtheit eines Schatzers. Fur alle unverzerrten Schatzergilt nach (4.1), dass der mittlere quadratische Fehler sich darstellen lasst als

R(θ, T ) = Varθ(T (X)).

Page 117: Mathematische Statistik ||

108 4. Vergleich von Schatzern: Optimalitatstheorie

Betrachtet man nur die Klasse der unverzerrten Schatzer und beurteilt dieQualitat eines Schatzers anhand des mittleren quadratischen Fehlers, so wirdzunachst der systematische Fehler (Verzerrung) kontrolliert, bevor die Prazi-sion des Schatzers betrachtet wird.

B 4.4 Unverzerrte Schatzer : Haben X1, . . . , Xn den Erwartungswert μ, so ist dasarithmetische Mittel X ein unverzerrter Schatzer fur μ, denn

E(X) =1n

n∑

i=1

E(Xi) = μ.

Sind die Xi daruber hinaus unabhangig mit Var(Xi) = σ2 < ∞, so ist dieStichprobenvarianz s2(X) ein unverzerrter Schatzer fur σ2, wie in Aufgabe1.3 gezeigt. Der Schatzer S(X) = q(θ0) aus Beispiel 4.3 ist naturlich verzerrt,denn

b(θ, S) − q(θ) �= 0

fur alle θ ∈ Θ, welche von θ0 verschieden sind.

4.2 UMVUE-Schatzer

Erneut gehen wir von dem statistischen Modell {Pθ : θ ∈ Θ} aus. Betrach-tet man nur unverzerrte Schatzer, so kann man die Varianz des Schatzersals Maß fur die Qualitat des Schatzers heranziehen, da unter Unverzerrtheitdie Varianz des Schatzers gleich dem mittleren quadratischen Fehler ist. EinSchatzer ist in diesem Sinn besser als alle anderen unverzerrten Schatzer, fallsseine Varianz minimal ist, was zu folgender Optimalitatseigenschaft fuhrt.

Definition 4.4. Ein unverzerrter Schatzer T (X) von q(θ) heißt UMVUE-Schatzer fur q(θ), falls

Varθ(T (X)) ≤ Varθ(S(X))

fur alle unverzerrten Schatzer S(X) von q(θ) und fur alle θ ∈ Θ gilt.

UMVUE steht fur Uniformly Minimum Variance Unbiased Estimator. Fureinen unverzerrten Schatzer gilt naturlich R(θ, T ) = Varθ(T ), und somit istder UMVUE-Schatzer auch derjenige mit dem kleinsten mittleren quadrati-schen Fehler unter allen unverzerrten Schatzern. Allerdings konnen eine Reihevon Problemen mit unverzerrten Schatzern auftreten:

• Unverzerrte Schatzer mussen nicht existieren.• Ein UMVUE-Schatzer muß nicht zulassig zu sein.

Page 118: Mathematische Statistik ||

4.2 UMVUE-Schatzer 109

• Unverzerrtheit ist nicht invariant unter Transformation, d.h. θ kannunverzerrt fur θ sein, aber q(θ) ist typischerweise ein verzerrterSchatzer fur q(θ).

Diese Aussagen werden in diesem Abschnitt und in den anschließenden Auf-gaben vertieft, siehe dazu Bemerkung 4.17.

Im Folgenden soll q(θ) basierend auf X = (X1, . . . , Xn) ∼ Pθ geschatztwerden. Sei T (X) ein suffizienter Schatzer fur θ. Falls S(X) ein weitererSchatzer fur q(θ) ist, kann man einen besseren (oder zumindest nicht schlech-teren) Schatzer mit Hilfe von T (X) wie folgt konstruieren: Da T suffizient ist,hangt die Verteilung bedingt auf T (X) nicht von dem Parameter θ ab undman setzt E(S(X)|T (X)) := Eθ0(S(X)|T (X)) fur ein beliebiges θ0 ∈ Θ.Schließlich definiert man

T ∗(X) := E(S(X)

∣∣T (X)

).

Im Zusammenhang mit dem folgenden Satz sagt man auch, dass T ∗ aus Smit Hilfe von T durch Rao-Blackwellisierung erzeugt wurde.

Satz 4.5 (Rao-Blackwell). Sei T (X) ein suffizienter Schatzer fur θ undS ein Schatzer mit Eθ(|S(X)|) < ∞ fur alle θ ∈ Θ. Setze T ∗(X) :=E(S(X)|T (X)). Dann gilt fur alle θ ∈ Θ, dass

((T ∗(X) − q(θ)

)2)≤ Eθ

((S(X) − q(θ)

)2). (4.3)

Gilt daruber hinaus Varθ(S) < ∞, so erhalt man Gleichheit genau dann,wenn Pθ(T ∗(X) = S(X)) = 1 fur alle θ ∈ Θ.

Beweis. Wir schreiben kurz T fur T (X) und ebenso fur T ∗ und S. Aus derDefinition von T ∗ folgt Eθ(T ∗) = Eθ(E(S|T )) = Eθ(S) und somit

b(θ, T ∗) = Eθ(T ∗) − θ = Eθ(S) − θ = b(θ, S).

Also haben T ∗ und S die gleiche Verzerrung. Es folgt

(4.3) ⇔ Varθ(T ∗) ≤ Varθ(S)

⇔ Eθ

((E(S|T ) − Eθ(S)

)2) ≤ Eθ

((S − Eθ(S))2

)

⇔ Eθ((E(S|T ))2) ≤ Eθ(S2).

Mit der Jensenschen Ungleichung aus Satz 1.5 und der Monotonie des Er-wartungswertes, siehe Gleichung (1.1), erhalt man

Eθ((E(S|T ))2) ≤ Eθ(E(S2|T )) = Eθ(S2) .

Page 119: Mathematische Statistik ||

110 4. Vergleich von Schatzern: Optimalitatstheorie

Gleichheit gilt in der Jensenschen Ungleichung (Eθ(S|T ))2 ≤ Eθ(S2|T ) genaudann, wenn S = Eθ(S|T ) Pθ-fast sicher ist. Somit folgt der zweite Teil. ��

Um Optimalitatsaussagen machen zu konnen, braucht man das Konzeptder Vollstandigkeit nach Lehmann und Scheffe. Optimalitat wird im Rahmendes Vollstandigkeitskonzeptes so verifiziert, dass es fur eine vorgegebene suf-fiziente Statistik T (X) im Wesentlichen nur einen von T (X) abhangenden,erwartungstreuen Schatzer gibt. Das ist gleichbedeutend mit

Eθ(g1(T (X))) = Eθ(g2(T (X))) fur alle θ ∈ Θ ⇒ g1 = g2.

Dies fuhrt zu folgender Definition:

Definition 4.6. Eine Statistik T (X) heißt vollstandig, falls fur alle meß-baren reellwertigen Abbildungen g aus

Eθ(g(T (X))) = 0 fur alle θ ∈ Θ

folgt, dass Pθ(g(T (X)) = 0) = 1 fur alle θ ∈ Θ.

Eigentlich ist die Vollstandigkeit eine Eigenschaft der Familie von betrach-teten Verteilungen {Pθ : θ ∈ Θ} beziehungsweise des betrachteten statisti-schen Modells. Sie bedeutet, dass Θ hinreichend groß ist, um die Implikationin Definition 4.6 zu erzwingen.

B 4.5 Vollstandigkeit unter Poisson-Verteilung : Seien X1, . . . , Xn i.i.d. mit X1 ∼Poiss(θ) und Θ := R

+. Nach Tabelle 2.1 und Bemerkung 2.10 ist T (X) =∑ni=1 Xi suffiziente Statistik fur θ. Mit Satz 2.11 erhalt man, dass T (X) ∼

Poiss(n θ). Sei g eine Funktion, so dass Eθ(g(T (X))) = 0 fur alle θ > 0 gilt.Dies ist gleichbedeutend mit

e−n·θ∞∑

i=0

g(i)(n · θ)i

i!= 0

fur alle θ > 0. Eine Potenzreihe, die identisch mit 0 in einer Umgebung von0 ist, muß alle Koeffizienten gleich 0 haben. Somit folgt g(i) = 0 fur allei = 0, 1, 2, . . . , was bedeutet, dass T vollstandig ist.

Fur vollstandige suffiziente Statistiken haben wir folgenden wichtigen Satz.

Page 120: Mathematische Statistik ||

4.2 UMVUE-Schatzer 111

Satz 4.7 (Lehmann-Scheffe). Sei T (X) eine vollstandige suffiziente Sta-tistik und S(X) ein unverzerrter Schatzer von q(θ). Dann ist

T ∗(X) := E(S(X)|T (X))

ein UMVUE-Schatzer fur q(θ). Falls weiterhin Varθ(T ∗(X)) < ∞ fur alleθ ∈ Θ gilt, so ist T ∗(X) der eindeutige UMVUE-Schatzer von q(θ).

Beweis. Da b(θ, T ∗) = b(θ, S) = 0 folgt, dass T ∗ ein unverzerrter Schatzer furq(θ) ist. Nach dem Satz von Rao-Blackwell, Satz 4.5, gilt dann Varθ(T ∗) ≤Varθ(S). Falls Varθ(S) < ∞ gilt strikte Ungleichung, falls T ∗ �= S.

Als nachstes zeigen wir, dass T ∗ unabhangig von der Wahl von S ist:Seien S1 und S2 zwei unverzerrte Schatzer von q(θ). Dann sind T ∗

i :=E(Si|T (X))) = gi(T (X)) fur i = 1, 2 zwei unverzerrte Schatzer von q(θ),die durch Rao-Blackwellisierung erhalten wurden. Es gilt demnach

(g1(T (X)) − g2(T (X))

)= Eθ(T ∗

1 ) − Eθ(T ∗2 ) = q(θ) − q(θ) = 0

fur alle θ ∈ Θ. Da T vollstandig ist, folgt aus Eθ(g1(T (X))− g2(T (X))) = 0fur alle θ ∈ Θ, dass Pθ(g1(T (X)) = g2(T (X))) = 1 fur alle θ ∈ Θ undfolglich hangt T ∗ nicht von S ab.

Fur die Eindeutigkeit sei U(X) ein weiterer UMVUE-Schatzer fur q(θ)mit Var(U(X)) < ∞. Insbesondere ist U unverzerrt. Da T ∗(X) unabhangigvon der Wahl von S(X) ist, gilt

(T ∗(X) = Eθ(U(X)|T (X))

)= 1 (4.4)

fur alle θ ∈ Θ. Da U(X) ein UMVUE-Schatzer ist, folgt fur alle θ ∈ Θ, dassVarθ(U(X)) ≤ Varθ(T ∗(X)) und somit

Varθ(U(X)) = Varθ(T ∗(X))

fur alle θ ∈ Θ. Nach (4.4) gilt damit Gleichheit in (4.3) mit U(X) an derStelle von S(X) und somit folgt Pθ(T ∗(X) = U(X)) = 1 fur alle θ ∈ Θ. ��Bemerkung 4.8. Man kann den Satz von Lehmann-Scheffe, Satz 4.7, aufzwei Arten fur die Bestimmung von UMVUE-Schatzern verwenden:

(i) Falls man eine Statistik der Form h(T (X)) fur eine vollstandige suffi-ziente Statistik T findet mit

(h(T (X)

)= q(θ),

so ist h(T (X)) ein UMVUE-Schatzer: Da E(h(T (X))|T (X)) = h(T (X))gilt, kann man den Satz 4.7 mit S(X) = h(T (X)) anwenden.

Page 121: Mathematische Statistik ||

112 4. Vergleich von Schatzern: Optimalitatstheorie

(ii) Findet man einen unverzerrten Schatzer S(X) fur q(θ), so ist

E(S(X)|T (X))

der UMVUE-Schatzer fur q(θ), falls T (X) vollstandig und suffizient ist.

Der Nachweis von Vollstandigkeit ist oft schwierig, aber fur exponentielleFamilien hat man folgenden Satz:

Satz 4.9. Sei {Pθ : θ ∈ Θ} eine K-dimensionale exponentielle Fami-lie und c(Θ) enthalte ein offenes Rechteck in R

k. Dann ist T (X) :=(T1(X), . . . , Tk(X))� vollstandig und suffzient fur q(θ).

Beweis. Fur den Beweis im reellen Fall verweisen wir auf Lehmann und Ro-mano (2006), Theorem 4.3.1 auf Seite 142. ��

B 4.6 UMVUE-Schatzer fur die Normalverteilung : Seien X := (X1, . . . , Xn)� i.i.d.mit X1 ∼ N (μ, σ2) und θ := (μ, σ2)� unbekannt. In Beispiel 3.21 wurden dieMaximum-Likelihood-Schatzer fur dieses Modell und die Menge C = c(Θ) =R × R

− aus Satz 3.8 bestimmt. Damit enthalt C ein offenes Rechteck. InBeispiel 2.17 wurde gezeigt, dass es sich um eine exponentielle Familie mitsuffizienter Statistik

T (X) :=

(n∑

i=1

Xi,n∑

i=1

X2i

)�

handelt. Da das arithmetische Mittel X eine Funktion von T (X) und weiter-hin unverzerrt fur μ = θ1 ist, folgt mit Satz 4.7, dass X eindeutiger UMVUE-Schatzer fur μ ist. Ebenso ist die Stichprobenvarianz

s2(X) =1

n − 1

n∑

i=1

(Xi − X

)2

ein unverzerrter Schatzer fur σ2 nach Aufgabe 1.3. Weiterhin ist sie suffizient,da sie eine Funktion von T (X) ist. Damit ist die Stichprobenvarianz dereindeutige UMVUE-Schatzer fur σ2. Allerdings ist s2(X) nicht UMVUE-Schatzer fur σ2, falls der Mittelwert μ bekannt ist, siehe Aufgabe 4.6.

Dass der MLS nicht immer ein UMVUE-Schatzer ist, zeigt folgendes Bei-spiel:

B 4.7 UMVUE-Schatzer in der Exponentialverteilung : In diesem Beispiel betrachtenwir die Schatzung von

q(θ) := Pθ(X1 ≤ r) = 1 − e−θr

Page 122: Mathematische Statistik ||

4.2 UMVUE-Schatzer 113

fur einen festen zeitlichen Horizont r. Wir werden zeigen, dass der MLS keinUMVUE-Schatzer fur q(θ) ist. Es seien X1, . . . , Xn i.i.d. mit X1 ∼ Exp(θ) undΘ := R

+ (vergleiche hierzu Beispiel 2.8). Man betrachte die Schatzung vonq(θ). Eine Exponentialverteilung mit Parameter θ ist gerade Gamma(1, θ)-verteilt, siehe Definition 1.16. Aus Tabelle 2.1 entnimmt man, dass die Expo-nentialverteilung eine eindimensionale exponentielle Familie ist mit kanoni-scher Statistik T := T (X) =

∑ni=1 Xi und c(θ) = −θ. Damit ist c(Θ) = R

und enthalt ein offenes Rechteck. Nach Satz 4.9 ist T (X) suffizient undvollstandig fur θ. Betrachte

S(X1) := 1{X1≤r}.

Dann ist Eθ(S(X1)) = Pθ(X1 ≤ r) = q(θ) und somit ist S(X1) unverzerrt furq(θ). Nach dem Satz von Lehmann-Scheffe, Satz 4.7, ist T ∗ = E(S(X1)|T )ein UMVUE-Schatzer fur q(θ). Wir berechnen T ∗. Es gilt, dass

E(S(X1) |T ) = P(X1 ≤ r |T ) = P

(X1

T≤ r

T

∣∣∣T

)

.

Nun ist X1/T unabhangig von T nach Aufgabe 1.7 und damit ist

P

(X1

T≤ r

T

∣∣∣T = t

)

= P

(X1

T≤ r

t

∣∣∣T = t

)

.

Nach Bemerkung 1.18 ist X1T ∼ Beta(1, n − 1), da X1 ∼ Gamma(1, θ) und

X2+ · · ·+Xn unabhangig von X1 sind mit X2+ · · ·+Xn ∼ Gamma(n−1, λ).Somit folgt

E(S(X1) |T = t) = P

(X1

T≤ r

t

∣∣∣T = t

)

=

r/t∫

0

(n − 1)(1 − u)n−2du

= −(1 − u)n−1∣∣∣r/t

0= 1 −

(1 − r

t

)n−1

falls r ≤ t. Ist r > t, so ist S(X1) = 1. Damit erhalten wir den UMVUE-Schatzer fur q(θ) durch

T ∗ = E(S|T ) ={

1 − (1 − rT

)n−1 falls T ≥ r1 falls T < r

.

Zum Vergleich: Der Maximum-Likelihood-Schatzer und der Momentenschatzerfur θ ist θ = (X)−1, siehe Aufgabe 3.13. Damit ist der MLS von q(θ) gegebendurch

q(θ) = 1 − exp(−θr) = 1 − exp(−nr

T

).

Page 123: Mathematische Statistik ||

114 4. Vergleich von Schatzern: Optimalitatstheorie

Da T ∗ �= q(θ), ist der MLS q(θ) kein UMVUE-Schatzer fur q(θ). Allerdingsist q(θ) eine Funktion von T und damit suffizient. Demnach muss q(θ) einverzerrter Schatzer von q(θ) sein.

B 4.8 UMVUE-Schatzer fur die Gleichverteilung : In diesem Beispiel betrachtenwir den Fall einer Gleichverteilung, welche keine exponentielle Familie dar-stellt. Seien dazu X = (X1, . . . , Xn)� i.i.d. mit X1 ∼ U(0, θ) und Θ = R

+.Definiere die Ordnungsstatistiken X(1) := min{X1, . . . , Xn} und X(n) :=max{X1, . . . , Xn} sowie entsprechend fur x ∈ R

n die beiden Großen x(1) undx(n). Dann ist die Dichte von X gegeben durch

p(x, θ) =

{θ−n falls 0 ≤ x(1) ≤ x(n) ≤ θ

0 sonst.

Unter Anwendung des Faktorisierungssatzes, Satz 2.7, sieht man, dass X(n)

suffizient fur θ ist. Wir zeigen nun, dass X(n) auch vollstandig ist. Zunachstfolgt aus X1 ∼ U(0, θ), dass Pθ(X1 ≤ t) = tθ−11{0≤t≤θ} fur 0 ≤ t ≤ θ. DieseWahrscheinlichkeit betragt weiterhin 1 fur t > θ und 0 fur t < 0. Es gilt

P(X(n) ≤ t) = P(X1 ≤ t, . . . , Xn ≤ t) =(P(X1 ≤ t)

)n

und damit erhalten wir folgende Dichte von X(n):

d

dtPθ(X(n) ≤ t) = nθ−ntn−1 fur 0 < t < θ.

Fur die Anwendung von Satz 4.7 betrachten wir

Eθ(g(X(n))) = nθ−n

θ∫

0

g(t)tn−1dt = 0.

Damit folgt aus Eθ(g(X(n))) = 0, dass g(t) = 0 Lebesgue-fast sicher furalle t ≥ 0 ist. Damit ist X(n) vollstandig und suffizient. Allerdings ist X(n)

verzerrt, da

Eθ(X(n)) =n

θn

θ∫

0

tndt =nθ

n + 1�= θ.

Die StatistikM = M(X) :=

n + 1n

X(n)

ist demnach unverzerrt fur θ. Sie ist weiterhin Funktion der vollstandigenund suffizienten Statistik X(n). Wegen Var(M) < ∞ ist nach Satz 4.7 Meindeutiger UMVUE-Schatzer fur θ.

Bemerkung 4.10 (Weitere Ansatze). Es gibt eine Reihe von Alternativenzu UMVUE, um Optimalitatseigenschaften von Schatzern zu messen.

Page 124: Mathematische Statistik ||

4.3 Die Informationsungleichung 115

(i) Der Bayesianische Ansatz. Hier betrachtet man θ als zufallig mit θ ∼ πund vergleicht das Verhalten von

Eθ(R(θ, T )) =∫

Rk

R(θ, T )π(θ)dθ

fur verschieden Schatzer T . Dieser Ansatz wird beispielsweise in Berger(1985) oder in Lehmann und Casella (1998), in Kapitel 4, behandelt.

(ii) Minimax-Schatzer. Bei diesem Ansatz vergleicht man das MaximumM(T ) := maxθ∈Θ R(θ, T ) fur verschiedene Schatzer und sucht T so,dass M(T ) minimal ist. Details und Beispiele kann man in Lehmannund Casella (1998), Kapitel 5, und Berger (1985), Kapitel 5, finden.

4.3 Die Informationsungleichung

Im vorigen Abschnitt haben wir unverzerrte Schatzer mit minimaler Varianzgesucht. Im folgenden Abschnitt wird eine untere Schranke fur die Varianzentwickelt. Diese kann auch zur Suche von unverzerrten Schatzern mit mini-maler Varianz verwendet werden, jedoch ist dieser Ansatz weniger allgemein.Die untere Informationsschranke tritt weiterhin im Zusammenhang mit Op-timalitatsbetrachtungen von Schatzern und der asymptotischen Verteilungvon Maximum-Likelihood-Schatzern auf. Diese Punkte werden in spaterenAbschnitten diskutiert. Im Folgenden untersuchen wir ein eindimensionalesregulares statistisches Modell P = {p(·, θ) : θ ∈ Θ} und nehmen die folgendenBedingungen an: an:

Cramer-Rao-Regularitatsbedingungen (CR)

(i) Die Menge Θ ⊂ R ist offen.(ii) A := {x ∈ R

n : p(x, θ) > 0} hangt nicht von θ ab. Die Ableitung∂∂θ ln p(x, θ) existiert und ist endlich ∀ x ∈ A,∀θ ∈ Θ.

(iii) Hat X eine Dichte hat und ist T eine Statistik mit Eθ(|T |) < ∞ furalle θ ∈ Θ, so gilt

∂θ

Rn

T (x)p(x, θ)dx =∫

Rn

∂θp(x, θ)T (x)dx.

In den folgenden Beweisen konzentrieren wir uns auf den Fall, in welchemDichten existieren, d.h. die zu Pθ gehorige Dichte ist p(·, θ). Analog beweistman den diskreten Fall.

Bemerkung 4.11. Falls durch

p(x, θ) = 1A(x) exp(c(θ)T (x) + d(θ) + S(x)

)

Page 125: Mathematische Statistik ||

116 4. Vergleich von Schatzern: Optimalitatstheorie

eine einparametrige exponentielle Familie gegeben ist mit ∂∂θ c(θ) �= 0 fur alle

θ ∈ Θ mit Θ ⊂ R offen und stetigem c, dann ist (CR) erfullt. Dies beweistman mit Hilfe des Satzes 1.34 von der monotonen Konvergenz, siehe Aufgabe4.1.

Im Folgenden mochten wir die Information, die in Daten enthalten ist,moglichst effizient ausnutzen. Dazu benotigen wir ein Konzept fur Informa-tion.

Definition 4.12. Die Fisher-Information fur einen Parameter θ ist gege-ben durch

I(θ) := Eθ

(( ∂

∂θln p(X, θ)

)2)

. (4.5)

Hat X eine Dichte, so gilt fur die Fisher-Information

I(θ) =∫

Rn

( ∂

∂θln p(x, θ)

)2

· p(x, θ)dx =∫

Rn

1p(x, θ)

·( ∂

∂θp(x, θ)

)2

dx.

Man bezeichnet ∂∂θ ln p(x, θ) auch als Einfluss- oder Score-Funktion. Ihr

Erwartungswert verschwindet unter den obigen Regularitatsannahmen (CR),denn es gilt

(∂

∂θln p(X, θ)

)

=∫

Rn

∂θln p(x, θ) · p(x, θ)dx

=∫

Rn

∂θp(x, θ)dx

=∂

∂θ

(∫

Rn

p(x, θ)dx

)

= 0. (4.6)

Analoge Resultate erhalt man falls X diskret ist. Die Fisher-Information istdemnach gleich der Varianz der Einflussfunktion,

I(θ) = Varθ

(∂

∂θln p(X, θ)

)

.

Sind X1, . . . , Xn i.i.d. so erhalten wir mit X = (X1, . . . , Xn)�, dass dieFisher-Information der Stichprobe gerade n-mal die Fisher-Information einereinzelnen Zufallsvariable ist:

I(θ) = Eθ

(( n∑

i=1

∂θln p(Xi, θ)

)2)

= nEθ

(( ∂

∂θln p(X1, θ)

)2)

.

Page 126: Mathematische Statistik ||

4.3 Die Informationsungleichung 117

B 4.9 Fisher-Information unter Normalverteilung : Ist X normalverteilt mit unbe-kanntem Erwartungswert θ und bekannter Varianz σ2 so erhalt man fur dieFisher-Information, dass

I(θ) =1σ4

Eθ((X − θ)2) =1σ2

. (4.7)

Je kleiner die Varianz, umso hoher der Informationsgehalt, der einer einzelnenBeobachtung zuzuschreiben ist. Somit ist die Fisher-Information fur die i.i.d.Stichprobe des Umfangs n gerade nσ−2.

B 4.10 Fisher-Information fur die Poisson-Verteilung : Seien X1, . . . , Xn i.i.d. mitX1 ∼ Poiss(θ). Das heißt, die Wahrscheinlichkeitsfunktion ist p(x, θ) = e−θ θx

x!fur x ∈ {0, 1, 2, . . . }. Da

∂θln p(x, θ) = −1 +

x

θ,

folgt fur die Fisher-Information einer Stichprobe von Poisson-verteilten Zu-fallsvariablen

I(θ) = nVar( ∂

∂θln p(X1, θ)

)= nθ−2 · Var(X1) =

θ2=

n

θ.

Satz 4.13. Sei T (X) eine Statistik mit Varθ(T (X)) < ∞ fur alle θ ∈ Θund Ψ(θ) := Eθ(T (X)). Weiterhin sei (CR) erfullt und 0 < I(θ) < ∞ furalle θ ∈ Θ. Dann gilt fur alle θ ∈ Θ, dass Ψ(θ) differenzierbar ist und

Varθ(T (X)) ≥ (Ψ ′(θ))2

I(θ). (4.8)

Gleichung (4.8) nennt man die Informationsungleichung. Die Erweiterung aufden mehrdimensionalen Fall ist Gegenstand von Aufgabe 4.26.

Beweis. Wir fuhren den Beweis fur den Fall in welchem X eine Dichte hat.Zunachst ist unter (CR)

Ψ ′(θ) =∂

∂θEθ(T (X)) =

Rn

∂θ

(T (x)p(x, θ)

)dx

= Eθ

(T (X)

∂θln p(X, θ)

),

analog zu Gleichung (4.6). Damit erhalten wir

Page 127: Mathematische Statistik ||

118 4. Vergleich von Schatzern: Optimalitatstheorie

(Ψ ′(θ)

)2 =(

(T (X)

∂θln p(X, θ)

))2

(4.6)=(

Covθ

(T (X) ,

∂θln p(x, θ)

))2

≤ Varθ(T (X)) · Varθ

( ∂

∂θln p(X, θ)

)= Varθ(T (X)) · I(θ)

mit der Cauchy-Schwarz-Ungleichung aus (1.3). Da der letzte Term geradedie Fisher-Information ist, folgt die Behauptung. ��

Ist T (X) ein unverzerrter Schatzer von θ, so ist Ψ(θ) = Eθ(T (X))) = θund somit Ψ ′(θ) = 1. Damit erhalten wir folgende Aussage.

Korollar 4.14. Gelten die Bedingungen des Satzes 4.13 und ist T einunverzerrter Schatzer von θ, so erhalt man die so genannte Cramer-Rao-Schranke

Varθ(T (X)) ≥ 1I(θ)

. (4.9)

Korollar 4.15. Sei X = (X1, . . . , Xn) mit X1, . . . , Xn i.i.d. und die Be-dingungen des Satzes 4.13 seien erfullt. Dann gilt

Varθ(T (X)) ≥ (Ψ ′(θ))2

n · I1(θ).

Hierbei ist I1(θ) := E[(∂/∂θ ln p(X1, θ))2] die Information pro Beobachtung.

4.3.1 Anwendung der Informationsungleichung

Falls (CR) erfullt ist und T ∗(X) ein unverzerrter Schatzer fur Ψ(θ) =Eθ(T (X)) ist, so dass

Varθ(T ∗(X)) =(Ψ ′(θ))2

I(θ),

dann ist T ∗(X) UMVUE-Schatzer fur Ψ(θ). Uberraschenderweise ist die Be-dingung, dass die untere Schranke der Informationsungleichung angenom-men wird nur in exponentiellen Familien erfullt, wie folgender Satz zeigt. Inanderen Verteilungsklassen gibt es mitunter großere untere Schranken, dieSchranke ist dann nicht scharf.

Page 128: Mathematische Statistik ||

4.4 Asymptotische Theorie 119

Satz 4.16. Es gelte (CR) und T ∗(X) sei ein unverzerrter Schatzer vonΨ(θ), so dass

Varθ(T ∗(X)) =(Ψ ′(θ))2

I(θ)(4.10)

fur alle θ ∈ Θ. Dann ist P = {p(·, θ) : θ ∈ Θ} eine eindimensionale expo-nentielle Familie mit

p(x, θ) = 1{x∈A} exp(c(θ)T ∗(x) + d(θ) + S(x)

). (4.11)

Umgekehrt, ist {Pθ : θ ∈ Θ} eine eindimensionale exponentielle Familiemit Darstellung (4.11) und besitzt c(θ) stetige Ableitungen mit c′(θ) �=0 fur alle θ ∈ Θ, dann gilt (4.10) und T ∗(X) ist UMVUE-Schater vonEθ(T ∗(X)).

Beweis. Fur einen Beweis der ersten Aussage sei auf Bickel und Doksum(2001), Theorem 3.4.2, Seite 182 verwiesen. Die zweite Aussage des Satzesist Gegenstand von Aufgabe 4.17. ��Bemerkung 4.17.

• UMVUE-Schatzer konnen auch existieren, wenn (CR) nicht erfulltwird. Ein Beispiel dafur ist X1, . . . , Xn i.i.d. mit Xi ∼ U(0, θ), sieheBeispiel 4.8.

• Die Informationsschranke braucht nicht angenommen zu werden, auchwenn UMVUE-Schatzer existieren und (CR) erfullt ist, siehe dazuAufgabe 4.21.

4.4 Asymptotische Theorie

Die asymptotische Theorie beschaftigt sich mit dem Verhalten von Schatzern,wenn der Stichprobenumfang n immer großer wird, also n → ∞. Hierzubetrachten wir im folgenden Abschnitt X1,X2, . . . i.i.d. mit Dichten p(x,θ)und es gelte q(θ) mit θ ∈ Θ zu schatzen.

Page 129: Mathematische Statistik ||

120 4. Vergleich von Schatzern: Optimalitatstheorie

4.4.1 Konsistenz

Unter einem konsistenten Schatzer versteht man einen Schatzer, welcher mitzunehmenden Stichprobenumfang gegen den gesuchten Parameter konver-giert.

Definition 4.18. Eine Folge von Schatzern Tn(X1, . . . , Xn), n = 1, 2, . . .fur q(θ) heißt konsistent , falls

(∣∣Tn(X1, . . . , Xn) − q(θ)

∣∣ ≥ ε

)−−−−→n→∞ 0

fur alle ε > 0 und alle θ ∈ Θ.

Fur einen konsistenten Schatzer Tn = Tn(X1, . . . , Xn) gilt folglich fur jedesθ ∈ Θ, dass

TnPθ−−−−→

n→∞ q(θ).

Bemerkung 4.19 (Starke und schwache Konsistenz). Im Gegensatz zur inder Definition eingefuhrten (schwachen) Konsistenz verlangt die so genanntestarke Konsistenz sogar fast sichere Konvergenz. Ist die betrachtete stochasti-sche Konvergenz schnell genug, so erhalt man mit dem Borel-Cantelli Lemmafast sichere Konvergenz und so auch starke Konsistenz (siehe Theorem 1.8und Lemma 1.5 in Shao (2008)). Umgekehrt folgt aus fast sicherer Konver-genz stets stochastische Konvergenz. Eine nutzliche hinreichende Bedingungfur Konsistenz findet sich in Aufgabe 4.24.

UMVUE-Schatzer sind immer konsistent, Maximum-Likelihood-Schatzersind in der Regel auch konsistent; wir verweisen auf Wald (1949) fur den ein-dimensionalen i.i.d. Fall und auf die Kapitel 15 und 16 von Ferguson (1996)fur den multivariaten Fall. Im Folgenden werden einige Beispiele vorgestellt,in welchen die Konsistenz jeweils mit dem schwachen Gesetz der großen Zah-len nachgewiesen wird, ein weiteres Beispiel ist in Aufgabe 4.25 zu finden.Die beiden folgenden Beispiele illustrieren den Sachverhalt.

B 4.11 Konsistente Schatzung der Multinomialverteilung : Sei N = (N1, . . . , Nk)multinomialverteilt, N ∼ M(n, p1, . . . , pk). Dies lasst sich aquivalent dar-stellen durch i.i.d. diskret verteilte Zufallsvariablen X1, . . . , Xn mit P(X1 =i) = pi, 1 ≤ i ≤ k, wenn man Ni =

∑nj=1 1{Xj=i} setzt. Dann gilt nach dem

schwachen Gesetz der großen Zahlen (Satz 1.29), dass

Ni

n

P−−−−→n→∞ pi.

Insofern ist Ni/n konsistent fur pi fur i = 1, . . . , k. Daher ist der Schatzer Tn

gegeben durch

Page 130: Mathematische Statistik ||

4.4 Asymptotische Theorie 121

Tn := h

(N1

n, . . . ,

Nk

n

)

konsistent fur q(θ) := h(p1, . . . , pk) mit θ := (p1, . . . , pk)�, falls h eine reell-wertige, stetige Funktion ist: Denn nach dem Continuous Mapping Theoremaus Satz 1.27 folgt

TnP−→ h(p1, . . . , pk).

B 4.12 Konsistenz der Momentenschatzer : Seien X1,X2, . . . i.i.d. Wir betrachtenden Momentenschatzer

mj :=1n

n∑

i=1

Xji

fur das j-te Moment mj(θ) := Eθ(Xj1), j = 1, 2, . . . . Es gelte E(|Xj

1 |) < ∞.Nach dem starken Gesetz der großen Zahl (Satz 1.30) ist mj ein konsisten-ter Schatzer fur mj . Wie im vorigen Beispiel folgt, falls h stetig ist, dassTn := h

(m1, . . . , mr

)konsistent ist fur q(θ) := h(m1(θ), . . . , mr(θ)) aus dem

Continous Mapping Theorem (Satz 1.27). Somit ist der Momentenschatzerkonsistent fur beliebige stetige Funktionen der theoretischen Momente.

Seien X1,X2, . . . i.i.d., die Dichte von X1 sei p(·,θ0) und θ0 ∈ Θ ⊂ Rk

sei der wahre Parameterwert. Fur die starke Konsistenz von Maximum-Likelihood-Schatzern benotigt man eine Reihe von Voraussetzungen. Denfolgenden Satz findet man in Ferguson (1996), Theorem 17 auf Seite 114.Er steht in enger Verbindung zur asymptotischen Normalitat von Maximum-Likelihood-Schatzern, welche Gegenstand von Satz 4.26 ist.

Eine Funktion ist oberhalbstetig, falls sie an keinem Punkt nach obenspringt, d.h. die Funktion f : R → R heißt oberhalbstetig in x0, falls furjedes ε > 0 ein δ > 0 existiert, so dass f(y) < f(x0) + ε fur alle y ∈ R mit|y − x0| < δ. Die Funktion f heißt oberhalbstetig, falls sie oberhalbstetig inallen x ∈ R ist.

Satz 4.20. Gelten

(i) Θ ist kompakt.(ii) Die Funktion θ �→ p(x,θ) ist oberhalbstetig in θ fur alle x ∈ R.(iii) Es existiert eine Funktion K : R → R, so dass Eθ0(|K(X1)|) < ∞,

und ln(p(x,θ)) − ln(p(x,θ0)) ≤ K(x) fur alle x ∈ R und θ ∈ Θ.(iv) Fur alle θ ∈ Θ und ε > 0 ist supθ′:|θ′−θ|<ε p(x,θ′) meßbar.(v) Gilt p(x,θ) = p(x,θ0) fast sicher fur alle x ∈ R, so folgt θ = θ0.

Dann folgt fur jede Folge von Maximum-Likelihood-Schatzern θ(Xn), dass

P

(θ(Xn) −−−−→

n→∞ θ0

)= 1.

Page 131: Mathematische Statistik ||

122 4. Vergleich von Schatzern: Optimalitatstheorie

Bemerkung 4.21. Oberhalbstetigkeit der Dichte in Annahme (ii) des Sat-zes schließt die Gleichverteilung U(0, θ) mit ein, denn die Dichte p(x, θ) =θ−11[0,θ](x) ist oberhalbstetig.

4.4.2 Asymptotische Normalitat und verwandteEigenschaften

Fur Konfidenzintervalle und Hypothesentests muss man die Verteilung desverwendeten Schatzers kennen. Oft ist dies nicht in expliziter Form moglich,weswegen man sich mit asymptotischen Resultaten hilft. Ist ein Schatzerasymptotisch normal, so kann man seine Verteilung fur einen genugendgroßen Stichprobenumfang durch die Normalverteilung approximieren.

Definition 4.22. Eine Folge von Schatzern Tn(X1, . . . , Xn), n = 1, 2, . . .heißt asymptotisch normalverteilt, falls Folgen (μn(θ), σ2

n(θ))n≥1 fur alleθ ∈ Θ existieren, so dass fur alle θ ∈ Θ

Tn(X1, . . . , Xn) − μn(θ)σn(θ)

L−−−−−→n→∞ N (0, 1).

Dies bedeutet, dass der (asymptotisch) zentrierte und standardisierte Schatzer

Tn(X1, . . . , Xn) − μn(θ)σn(θ)

in Verteilung gegen eine Standardnormalverteilung konvergiert; also per De-finition

limn→∞ P

(Tn(X1, . . . , Xn) − μn(θ)

σn(θ)≤ z

)

= Φ(z), ∀z ∈ R,

wobei Φ die Verteilungsfunktion der Standardnormalverteilung ist (siehe Satz1.31). Hierbei muß μn(θ) oder σ2

n(θ) nicht unbedingt der Erwartungswertbzw. die Varianz von Tn sein, was allerdings haufig der Fall ist. AsymptotischeNormalitat wird auch wie folgt verwendet:

P(Tn(X) ≤ z) ≈ Φ

(z − μn(θ)

σn(θ)

)

fur n groß genug, (4.12)

d.h. man kann die Verteilungsfunktion von Tn(X) an der Stelle z durchΦ((z−μn(θ))/σn(θ)) fur ausreichend großes n approximieren.

Page 132: Mathematische Statistik ||

4.4 Asymptotische Theorie 123

Asymptotische Normalitat allein sagt nichts daruber aus, wie groß n seinmuß, damit (4.12) eine gute Approximation ist. In gunstigen Fallen hat man(wie beim arithmetischen Mittel) eine Konvergenzgeschwindigkeit von n−1/2,das heißt fur die asymptotisch normale Schatzfolge T1, T2, . . . mit σ2

n(θ) gilt

n · σ2n(θ) −−−−−→

n→∞ σ2(θ) > 0 fur alle θ ∈ Θ. (4.13)

Falls man eine solche Konvergenzrate hat, so ist man daruber hinaus an derfolgenden, starkeren Bedingung interessiert:

√n · (μn(θ) − q(θ)

)→ 0 fur n → ∞. (4.14)

Gelten (4.13) und (4.14), so kann man μn(θ) durch q(θ) und σ2n(θ) durch

σ2(θ)/n approximieren: Fur die Folge von Schatzern Tn(X1, . . . , Xn), n =1, 2, . . . gilt mit μn(θ) := Eθ(Tn) und σ2

n(θ) := Varθ(Tn), dass

R(θ, Tn)σ2

n(θ)=

σ2n(θ) + (μn(θ) − q(θ))2

σ2n(θ)

= 1 +n(μn(θ) − q(θ))2

nσ2n(θ)

−−−−→n→∞ 1,

d.h. asymptotisch ist die mittlere quadratische Abweichung gleich der Vari-anz des Schatzers.

Haben wir einmal einen asymptotisch normalverteilten Schatzer, so in-teressiert man sich oft fur die Verteilung einer bestimmten Funktion desSchatzers. Ist diese Funktion differenzierbar, so erhalt man mit der Taylor-Formel die folgende Aussage: Fur eine differenzierbare Funktion g : R

d → Rp

sei die totale Ableitung definiert durch

Dg(x) :=

⎜⎜⎝

∂g1(x)∂x1

· · · ∂g1(x)∂xd

......

∂gp(x)∂x1

· · · ∂gp(x)∂xd

⎟⎟⎠ .

Satz 4.23 (Multivariate Delta-Methode). Sei (Un)n∈N eine Folge vond-dimensionalen Zufallsvektoren und (an)n∈N eine Folge von reellen Kon-stanten mit an → ∞ fur n → ∞. Weiterhin gebe es eine d-dimensionaleZufallsvariable V und u ∈ R

d, so dass

an(Un − u) L−→ V fur n → ∞.

Sei g : Rd → R

p eine Abbildung mit existierender und stetiger totalerAbleitung im Punkt u. Dann gilt

an(g(Un) − g(u)) L−→ Dg(u)V fur n → ∞.

Page 133: Mathematische Statistik ||

124 4. Vergleich von Schatzern: Optimalitatstheorie

Beweis. Den Beweis findet man in Bickel und Doksum (2001), Lemma 5.3.3auf Seite 319. ��

Neben dieser Aussage uber die Verteilung des Grenzwertes kann man mitder Taylor-Formel ebenso Aussagen uber die Momente des Grenzwertes tref-fen, was mitunter auch als Delta-Methode bezeichnet wird, siehe Bickel undDoksum (2001), Abschnitt 5.3.1 auf Seite 306. Der eindimensionale Fall istGegenstand von Aufgabe 4.27.

B 4.13 Bernoulli-Verteilung: Asymptotische Normalitat : Seien X1,X2, . . . i.i.d. Ber-noulli-verteilt: X1 ∼ Bin(1, θ). Das arithmetische Mittel Xn := 1

n

∑ni=1 Xi

ist ein konsistenter Schatzer fur θ = E(X1) nach dem schwachen Gesetz dergroßen Zahl (Satz 1.29). Mit dem zentralen Grenzwertsatz (Satz 1.31), giltweiterhin

√n

Xn − θ√

θ · (1 − θ)L−−−−−→

n→∞ N (0, 1).

Aus dem Continuous Mapping Theorem (Satz 1.27) folgt, dass q(Xn) einkonsistenter Schatzer fur q(θ) ist, falls q stetig ist. Ist q stetig differenzierbar,so folgt, dass

√n(q(Xn) − q(θ)) L−→ N (0, (q′(θ))2θ · (1 − θ)

)(4.15)

aus Satz 4.23 mit an =√

n und g = q. Nach Gleichung (4.15) gilt furTn(X) := q(Xn), dass Tn(X) asymptotisch normalverteilt ist mit μn(θ) :=q(θ), σ2(θ) := (q(θ))2θ(1 − θ) und σ2

n(θ) = σ2(θ)/n. Damit sind die Bedin-gungen (4.13) und (4.14) erfullt.

Als unmittelbare Anwendung der Delta-Methode erhalten wir die folgen-den beiden Aussagen.

B 4.14 Multinomialverteilung: Asymptotische Normalitat : Wir betrachten einen Vek-tor N = (N1, . . . , Nk)�, welcher M(n, p1, . . . , pk)-verteilt ist. Setze p :=(p1, . . . , pk)� und sei h : R

k → R eine Abbildung, so dass ∂h(p)∂pi

existiere undstetig sei fur i = 1, . . . , k. Fur Tn := h

(N1n , . . . , Nk

n

)wurde in Beispiel 4.11

gezeigt, dass Tn konsistent h(p) schatzt.Die Multinomialverteilung lasst sich durch die Summe von n unabhangigen

Zufallsvariablen darstellen: Seien X1, . . . ,Xn i.i.d. mit Werten in {0, 1}k undzwar so, dass P(X1 = ej) = pj fur j = 1, . . . , k, wobei ej der j-te Einheitsvek-tor im R

d sei (der Vektor ej besteht aus einer Eins in der j-ten Komponenteund sonst Nullen). Dann ist

Sn :=n∑

i=1

Xi

Page 134: Mathematische Statistik ||

4.4 Asymptotische Theorie 125

gerade M(n, p1, . . . , pk)-verteilt. Durch Anwendung des multivariaten zentra-len Grenzwertsatzes (Satz 1.33) erhalt man nun, dass

Sn − np√n

L−−−−−→n→∞ Nk(0, Σ)

mit Σ = Cov(X1). Die Kovarianzmatrix Σ ist bestimmt durch σii = pi(1−pi)und σij = −pipj fur 1 ≤ i �= j ≤ k. Das Continuous Mapping Theorem (Satz1.27) gilt auch (wie dort kurz bemerkt) fur Konvergenz in Verteilung. Da hals stetig vorausgesetzt war, erhalten wir, dass

√n(Tn − h(p1, . . . , pk)) L−−−−−→

n→∞ N (0, σ2h)

mit

σ2h :=

k∑

i=1

pi

[∂

∂pih(p)

]2−[

k∑

i=1

pi∂

∂pih(p)

]2

.

B 4.15 Momentenschatzer: Asymptotische Normalitat : Seien Y1, Y2, . . . i.i.d. mitE(|Y1|j) < ∞. Das j-te Moment mj := E((Y1)j), j = 1, 2, . . . wird mitdem empirischen j-ten Moment

mj :=1n

n∑

i=1

(Yi)j

geschatzt. Sei g : Rr → R so, dass ∂g(m)

∂m und m := (m1, . . . ,mr)� existieren.Dann gilt fur Tn := g(m1, . . . , mr), dass

√n(Tn − g(m)) L−−−−→

n→∞ N (μ, τ2g ).

Hierbei sind

τ2g :=

2r∑

i=2

bimi −[

r∑

i=1

mi∂

∂mig(m)

]2

und

bi :=∑

j+k=i:1≤j,k≤r

∂mjg(m)

∂mkg(m).

Page 135: Mathematische Statistik ||

126 4. Vergleich von Schatzern: Optimalitatstheorie

4.4.3 Asymptotische Effizienz und Optimalitat

Da wir die Ergebnisse aus Kapitel 4.3 benutzen mochten, betrachten wir ledig-lich eindimensionale und regulare statistische Modelle P = {p(·, θ) : θ ∈ Θ}mit Θ ⊂ R. In diesem Abschnitt wird die asymptotische Varianz einer Fol-ge von Schatzern (Tn)n≥1 gegeben durch Tn = Tn(X1, . . . , Xn) untersucht.Die Zufallsvariablen X1,X2, . . . seien i.i.d. Des Weiteren sei (Tn)n≥1 asymp-totisch normalverteilt mit μn(θ) := Eθ(Tn) und σ2

n(θ) := Varθ(Tn). Fernergelte asymptotische Unverzerrtheit und (4.13) sowie (4.14) seien erfullt. Ins-besondere existiert σ2(θ) := limn→∞ nσ2

n(θ) fur alle θ ∈ Θ ⊂ R. Unter denCramer-Rao-Regularitatsbedingungen (CR) folgt mit Korollar 4.15, dass

σ2n(θ) ≥ (Ψ ′(θ))2

n · I1(θ)

fur alle n ≥ 1 und alle θ ∈ Θ. Deswegen erwartet man, dass

lim infn→∞

(σ2

n(θ)(Ψ ′(θ))2 · (n · I1(θ))−1

)

≥ 1. (4.16)

Insbesondere folgt mit (4.13), dass (4.16) aquivalent ist zu

σ2(θ) ≥ (Ψ ′(θ))2

I1(θ), fur alle θ ∈ Θ.

Dies motiviert folgende Definition.

Definition 4.24. Eine Folge von Schatzern T = (Tn)n≥1 heißt asympto-tisch effizient, falls

σ2(θ) =(Ψ ′(θ))2

I1(θ), fur alle θ ∈ Θ.

Im Allgemeinen sind Maximum-Likelihood-Schatzer und UMVUE-Schatzerasymptotisch effizient, siehe Shao (2008), Abschnitt 4.5.2 oder Bickel undDoksum (2001), Abschnitt 5.4.3 (dort jedoch nur im eindimensionale Fall).Zum Abschluss sollen nun zwei unterschiedliche Schatzfolgen T 1 = (T 1

n : n ≥1) und T 2 = (T 2

n : n ≥ 2) verglichen werden. Wiederum gelte, dass T i asym-ptotisch normalverteilt seien mit μi

n(θ) := Eθ(T in) und σ2

n,i(θ) = Varθ(T in),

i = 1, 2. Ferner gelte (4.13) und (4.14) fur σ2n,i, i = 1, 2. Demnach ist

σ2i (θ) = lim

n→∞nσ2n,i(θ)

Page 136: Mathematische Statistik ||

4.4 Asymptotische Theorie 127

fur alle θ ∈ Θ und i = 1, 2. Als Vergleichsmaß fur die beiden Schatzfolgenkann man die asymptotische Varianz nutzen.

Die asymptotische Effizienz ist durch

e(θ, T 1, T 2) :=σ2

2(θ)σ2

1(θ)

definiert. Falls e(θ, T 1, T 2) > 1 fur alle θ ∈ Θ gilt, so heißt T 1 asymptotischeffizienter als T 2.

Bemerkung 4.25. Unter den obigen Annahmen gilt, dass

limn→∞

R(θ, T 2n)

R(θ, T 1n)

= limn→∞

σ2n,2(θ)

σ2n,1(θ)

= e(θ, T 1, T 2).

B 4.16 Poisson-Verteilung: Effizienz : Seien X1, . . . , Xn i.i.d. Poisson-verteilt zumParameter θ. Die zwei konkurrierenden Schatzer T 1

n := Xn und

T 2n := σ2

n =1n

n∑

i=1

(Xi − X

)2

sollen anhand ihrer Effizienz verglichen werden. Dabei sind beide Schatzerunverzerrte Schatzer fur θ. Die Varianzen sind gegeben durch

σ2n1(θ) = Varθ(Xn) =

1n2

n∑

i=1

Varθ(Xi) =θ

n

und nach Aufgabe 1.17 (ii) gilt

σ2n2(θ) = Varθ(σ2

n) =1n

(Eθ((X1 − θ)4) − θ2

)=

1n

(θ + 3θ2 − θ2) =θ · (1 + 2θ)

n.

Die Fisher-Information ist gegeben durch

I1(θ) = Eθ

([ ∂

∂θln(e−θ θX1

X1!

)]2)

= Eθ

((X1

θ− 1)2)

=1θ2

Varθ(X1) =1θ.

Da der Schatzer T 2n unverzerrt ist, gilt wegen q′(θ) = 1, dass

q′(θ)2

n · I1(θ)=

θ

n<

θ(1 + 2θ)n

= σ2n2(θ).

Somit ist die Folge (T 2n)n≥1 nicht asymptotisch effizient. Dahingegen ist die

asymptotische Varianz von T 1n = Xn gerade

Page 137: Mathematische Statistik ||

128 4. Vergleich von Schatzern: Optimalitatstheorie

σ2n1(θ) =

θ

n=

q′(θ)2

nI1(θ).

Damit gilt (4.14) fur σ21(θ) = θ = (q′(θ))2/I1(θ); dies zeigt, dass (Xn)n≥1

asymptotisch effizient ist. Die Effizienz von Xn uber σ2n ist

e(θ, Xn, σ2n) :=

σ22n

σ21n

=θ(1+θ)

nθn

=θ(1 + θ)

θ> 1 fur alle n.

Folglich ist Xn effizienter als σ2n fur die Schatzung von θ fur alle n ≥ 1.

4.4.4 Asymptotische Verteilung vonMaximum-Likelihood-Schatzern

In diesem Abschnitt werden Resultate uber die asymptotische Verteilung vonMaximum-Likelihood-Schatzern angegeben. Wir folgen dabei der Darstellungvon Ferguson (1996), Kapitel 18. Weitere Resultate finden sich in Schervish(1995) in Abschnitt 7.3.5. und in Shao (2008), Seiten 290 – 293.

Wir betrachten die Zufallsvariablen X1,X2, . . . welche i.i.d. seien, die Dich-te von X1 sei p(·,θ0) und θ0 ∈ Θ ⊂ R

k sei der wahre Parameterwert.

Asympotische Regularitatsbedingungen (AR):

(i) Der Parameterraum Θ ist offen.(ii) Die zweiten partiellen Ableitungen der Dichte p(·,θ) bezuglich θ exis-

tieren und sind stetig fur alle x ∈ R. Weiterhin gilt

∂2

∂θ∂θ�

R

p(x,θ)dx =∫

R

∂2

∂θ∂θ� p(x,θ)dx.

(iii) Definiere A(θ, x) := ∂2

∂θ∂θ� ln p(x,θ). Dann existiert eine FunktionK : R → R

+ mit Eθ0(K(X1)) < ∞ und ein ε > 0, so dass fur alle1 ≤ i, j ≤ k

sup‖θ−θ0‖<ε

|Aij(θ, x)| < K(x).

(iv) Die Fisher-Information pro Beobachtung, gegeben durch die Matrix

I1(θ) := Eθ

((∂

∂θln pθ(X)

)(∂

∂θln pθ(X)

)�)

,

ist positiv definit.(v) Falls p(x,θ) = p(x,θ0) fast sicher fur alle x ∈ R gilt, so folgt θ = θ0.

Page 138: Mathematische Statistik ||

4.4 Asymptotische Theorie 129

Unter diesen Regularitatsbedingungen gilt folgender Satz, welcher aufCramer zuruckgeht. Fur den Beweis verweisen wir auf Ferguson (1996), Seite121. Wir schreiben Xn fur den Vektor (X1, . . . , Xn)�.

Satz 4.26. Es gelte (AR). Dann existiert eine Folge θn : Rn → Θ von

Losungen der Log-Likelihood-Gleichung (3.6), fur welche P(θn(Xn) →θ0) = 1 gilt, so dass

√n(θn(Xn) − θ0)

L−→ Nk(0, I1(θ0)−1) (4.17)

fur n → ∞.

Die Existenz einer Folge von stark konsistenten Maximum-Likelihood-Schatzern folgt hierbei aus Satz 4.20.

Bemerkung 4.27. (i) Falls der Maximum-Likelihood-Schatzer durch dieeindeutige Losung der Log-Likelihood-Gleichung charakterisiert ist unddie Regularitatsbedingungen (AR) erfullt sind, dann ist nach Satz 4.26der Maximum-Likelihood-Schatzer asymptotisch normalverteilt. Es gibtjedoch Situationen in denen es mehrere Losungen zu den Likelihood-Gleichungen gibt. In diesen Fallen sagt der Satz nur aus, dass es eineLosung gibt, die asymptotisch normalverteilt ist. Diese Losung mussjedoch nicht mit dem Maximum-Likelihood-Schatzer ubereinstimmen.Dies wird in Ferguson (1996) auf Seite 123 diskutiert und in Schervish(1995) in Abschnitt 7.3.5.

(ii) Falls die Log-Likelihood-Funktion konkav ist und eine Losung der Score-Gleichungen existiert, dann ist die Losung eindeutig und stimmt mit demMaximum-Likelihood-Schatzer uberein.

(iii) Die Gleichung (4.17) liefert die asymptotische Effizienz des Schatzersθn(Xn) aus Satz 4.26, siehe Theorem 4.17 (ii) in Shao (2008), Seite 290.

(iv) Die Bedingungen AR (ii) schließt beispielsweise den Fall X1 ∼ U(0, θ)aus, fur welchen in Aufgabe 3.12 das Maximum als MLS erhalten wurde.Das Maximum konvergiert im Sinne der klassischen Extremwerttheoriegegen eine Weibull-Verteilung, siehe Aufgabe 4.34.

(v) Falls der Maximum-Likelihood-Schatzer θn nach Satz 4.26 asymptotischnormal verteilt ist, dann kann man die Kovarianzmatrix von θn durch

1n

I1(θn)−1

fur genugend große n approximieren. Diese Approximation wird haufigzur Konstruktion von asymptotischen Hypothesentests und Konfidenz-intervallen eingesetzt. Hypothesentests und Konfidenzintervalle werdenim nachsten Kapitel besprochen.

Page 139: Mathematische Statistik ||

130 4. Vergleich von Schatzern: Optimalitatstheorie

4.5 Aufgaben

A 4.1 Die Bedingung (CR) fur einparametrige exponentielle Familien: Fur eineeinparametrige exponentielle Familie mit

p(x, θ) = 1A(x) exp(c(θ)T (x) + d(θ) + S(x)

)

und differenzierbarem c fur welches daruber hinaus ∂∂θ c(θ) �= 0 fur alle θ ∈ Θ

gilt sind die Bedingungen (CR) erfullt.

A 4.2 Minimal suffiziente und vollstandige Statistiken: Sei T eine vollstandige undsuffiziente Statistik fur θ ∈ Θ. Man nehme an, es existiert eine minimalsuffiziente (siehe Aufgabe 2.24) Statistik S fur θ. Zeigen Sie, dass T minimalsuffizient ist und S vollstandig.

UMVUE-Schatzer

A 4.3 Bernoulli-Verteilung: UMVUE : Seien X1, . . . , Xn i.i.d. und X1 Bernoulli(θ)-verteilt. Zeigen Sie, dass der MLS X ein UMVUE-Schatzer von θ ist.

A 4.4 Vollstandigkeit und UMVUE : Seien X1, . . . , Xn i.i.d., wobei X1 eine diskreteZufallsvariable mit Wahrscheinlichkeitsfunktion

pθ(x) = Pθ(X1 = x) =(θ

2

)|x|(1 − θ)1−|x|, x ∈ {−1, 0, 1},

und unbekanntem Parameter θ ∈ (0, 1) sei. Untersuchen Sie die beidenSchatzer T1(X) = X1 und T2(X) = |X1| auf Vollstandigkeit. BestimmenSie einen UMVUE-Schatzer fur θ.

A 4.5 Normalverteilung: UMVUE-Schatzer fur μ: Seien X1, . . . , Xn i.i.d. mit Xi ∼N (μ, σ2). Zeigen Sie, dass X ein UMVUE-Schatzer fur μ ist, falls σ bekanntist.

A 4.6 Normalverteilung, μ bekannt: UMVUE fur σ2: Seien X1, . . . , Xn i.i.d. mitXi ∼ N (μ0, σ

2) und μ0 ∈ R sei bekannt. Zeigen Sie, dass

σ2(X) =1n

n∑

i=1

(Xi − μ0)2

UMVUE-Schatzer fur σ2 ist.

A 4.7 Normalverteilung, μ unbekannt: UMVUE fur σ2: Seien X1, . . . , Xn i.i.d. mitXi ∼ N (μ, σ2) mit μ ∈ R und σ > 0. Dann ist die Stichprobenvarianz

s2(X) =1

n − 1

n∑

i=1

(Xi − X)2

Page 140: Mathematische Statistik ||

4.5 Aufgaben 131

ein UMVUE-Schatzer fur σ, falls μ unbekannt ist. Ist μ hingegen bekannt, soist s2(X) kein UMVUE-Schatzer von σ.

A 4.8 Normalverteilung, UMVUE fur P(X > 0): Sei X1, . . . , Xn eine i.i.d. Stich-probe mit X1 ∼ N(μ, 1). Finden Sie den UMVUE fur

Pμ(X1 > 0).

Hinweis: Betrachten Sie die gemeinsame Verteilung von (X1, X).

A 4.9 Binomialverteilung: UMVUE : Sei X ∼ Bin(n, θ). Betrachten Sie denSchatzer T (X) := X(n−X)

n(n−1) und prufen Sie, ob es sich um einen UMVUE-Schatzer handelt.

A 4.10 Diskrete Gleichverteilung: UMVUE : Ziel ist es, ausgehend von einer Stich-probe mit Umfang n, einen UMVUE-Schatzer fur die diskrete Gleichver-teilung auf der Menge {1, 2, . . . , θ} zu bestimmen. Zeigen Sie zunachst,dass der (eindeutige) Maximum Likelihood Schatzer fur θ, θ = X(n) =max{X1, . . . , Xn}, vollstandig und suffizient, jedoch verzerrt ist. BestimmenSie nun mit der Momentenschatzmethode einen Schatzer fur θ, welcher un-verzerrt ist. Konstruieren Sie daraus folgenden UMVUE-Schatzer fur θ:

θ =Xn+1

(n) − (X(n) − 1)n+1

Xn(n) − (X(n) − 1)n

.

A 4.11 UMVUE: Rayleigh-Verteilung (1): Seien X1, . . . , Xn i.i.d. Rayleigh-verteilt,

d.h. mit Dichte pθ(x) = xθ2 e−

x2

2θ2 und θ > 0. Zeigen Sie, dass E(X21 ) = θ−1 und

finden Sie einen UMVUE-Schatzer fur θ−1. Klaren Sie, ob er eindeutig ist.Zeigen Sie, dass er die untere Schranke der Informationsungleichung annimmtund berechnen Sie E(X4

1 ) mit Hilfe der Informationsungleichung.

A 4.12 UMVUE: Rayleigh-Verteilung (2): Seien X1, . . . , Xn i.i.d. Rayleigh-verteilt,

d.h. mit Dichte pθ(x) = xθ2 e−

x2

2θ2 und θ > 0. Finden Sie mit Hilfe der Infor-mationsungleichung einen UMVUE-Schatzer fur θ2.

A 4.13 UMVUE: Trunkierte Erlang-Verteilung : Betrachtet werden X1, . . . , Xn i.i.d.,wobei X1 die Dichte

pθ(x) =α + 1θα+1

xα 1(0,θ)(x),

mit bekanntem α und unbekanntem θ besitze. Dies ist ein abgeschnitteErlang-Verteilung mit Parameter λ = 0, siehe Tabelle A1. Zeigen Sie, dass

θ =(α + 1)n + 1

(α + 1)nX(n)

ein UMVUE-Schatzer fur θ ist.

Page 141: Mathematische Statistik ||

132 4. Vergleich von Schatzern: Optimalitatstheorie

A 4.14 UMVUE: Trunkierte Binomialverteilung : Die Zufallsvariable X sei trunkiertBinomialverteilt, d.h. fur θ ∈ (0, 1) ist

Pθ(X = k) =

(nk

)θk(1 − θ)n−k

1 − (1 − θ)n, k ∈ {1, . . . , n}.

(i) Zeigen Sie, dass X eine vollstandige und suffiziente Statistik ist.(ii) Berechnen Sie den Erwartungswert von X und zeigen Sie, dass n−1X

ein UMVUE-Schatzer fur q(θ) = θ1−(1−θ)n ist.

A 4.15 Exponentialverteilung: UMVUE : Sei X ∼ Exp(θ) exponentialverteilt. FindenSie einen UMVUE-Schatzer fur q(θ) = 1

θ2 . Zeigen Sie, dass dieser die untereSchranke der Informationsungleichung nicht annimmt.

A 4.16 UMVUE: Gamma-Verteilung : Eine Stichprobe X1, . . . , Xn sei i.i.d. undGamma-verteilt mit bekanntem Parameter a > 0 und unbekanntem Para-meter λ > 0, d.h. X1 hat die Dichte

pλ(x) =λa

Γ (a)xa−1e−λx1{x>0}.

Finden Sie mit Hilfe der Informationsungleichung einen UMVUE-Schatzerfur q(λ) := 1

λ .

A 4.17 Exponentielle Familien: UMVUE : Beweisen Sie folgende Aussage aus Satz4.16: Ist {Pθ, θ ∈ Θ} eine eindimensionale exponentielle Familie und besitztc(θ) stetige Ableitungen mit c′(θ) �= 0 fur alle θ ∈ Θ, dann nimmt T (X) dieInformationsschranke an und ist daher UMVUE von Eθ(T (X)).Hinweis: Fuhren Sie eine Reparametrisierung durch, um eine Darstellungvon {Pθ} als naturliche exponentielle Familie zu erhalten. Zeigen Sie dann,dass die unteren Informationsschranken bei beiden Parametrisierungen gleichsind.

A 4.18 Ein nicht effizienter Momentenschatzer : Seien X1, . . . , Xn i.i.d. mit X1 ∼Beta(θ, 1) mit θ > 0, d.h. X1 hat die Dichte

pθ(x) = θ(θ + 1)xθ−1(1 − x)1{x∈(0,1)}.

(i) Zeigen Sie, dass Tn = 2X1−X

ein Momentenschatzer fur θ ist.(ii) Beweisen Sie weiterhin, dass

√n(Tn − μn(θ))

σn

L−−−−−→n→∞ N (0, 1),

und geben Sie μn(θ) und σn(θ) explizit an.(iii) Zeigen Sie, dass Tn nicht effizient ist (Kleiner Hinweis: Verwenden Sie

I(θ) = −E( ∂2

∂2θ ln pθ(X))).

Page 142: Mathematische Statistik ||

4.5 Aufgaben 133

Rao-Blackwell und Cramer-Rao

A 4.19 Rao-Blackwell : Seien X1, . . . , Xn i.i.d. mit Dichte pθ fur ein unbekanntesθ ∈ R. Es gelte zusatzlich Eθ(|X1|2) < ∞ fur alle θ ∈ R. Berechnen SieEθ(X1 |

∑ni=1 Xi). Angenommen die Statistik

∑ni=1 Xi ist suffizient fur θ und

es gebe reelle Zahlen a1, . . . , an ∈ R, so dass∑n

i=1 ai Xi erwartungstreu ist.Zeigen Sie, dass es dann eine Zahl c ∈ R gibt, so dass die Statistik c

∑ni=1 Xi

erwartungstreu ist und geringere (oder schlimmstenfalls) gleiche Varianz wie∑ni=1 ai Xi hat.

A 4.20 Die Cramer-Rao-Schranke und die Gleichverteilung : Seien X1, . . . , Xn i.i.d.und X1 ∼ U(0, θ) mit unbekanntem θ > 0. Es bezeichne I(θ) die Fisher-Information, siehe (4.5). Weisen Sie nach, dass T (X) = n+1

n X(n) ein erwar-tungstreuer Schatzer fur θ ist und

Varθ(T (X)) <1

I(θ), fur alle θ > 0.

Klaren Sie, wieso dies nicht im Widerspruch zur Ungleichung (4.9) (derCramer-Rao-Schranke) steht.

A 4.21 Die Cramer-Rao-Schranke ist nicht scharf : Es ist durchaus moglich, dass einUMVUE eine großere Varianz als die untere Schranke in (4.9) hat: Betrachtetwerden dazu X1, . . . , Xn i.i.d. mit X1 ∼ Poiss(θ) fur unbekanntes θ > 0.Zeigen Sie, dass

T (X) =(

1 − 1n

)∑ni=1 Xi

ein UMVUE-Schatzer fur g(θ) = e−θ ist. Zeigen Sie weiterhin, dass die Vari-anz von T (X) die Schranke in der Informationsungleichung (4.8) fur kein θannimmt.

A 4.22 UMVUE: Laplace-Verteilung : Die Zufallsvariable X sei Laplace-verteilt mitunbekanntem Parameter θ > 0, d.h. X hat die Dichte pθ(x) = (2θ)−1e−|x|/θ.Finden Sie die UMVUE-Schatzer fur θ und θ2. Uberprufen Sie jeweils, ob dieuntere Schranke der Informationsungleichung angenommen wird.

A 4.23 Marshall-Olkin-Copula: Gegeben seien i.i.d. Zufallsvariablen X1, . . . ,Xn mitXi ∈ R

2. Die Verteilungsfunktion von X1 an der Stelle (x, y) sei

F (x, y) = max{x, y}1−α min{x, y}, x, y ∈ [0, 1].

Der Parameter α ∈ [0, 1] sei unbekannt. Ziel ist es, α mit Hilfe der Beob-achtungen X1 = x1, . . . ,Xn = xn zu schatzen. Ermitteln Sie mit Hilfe der

T (X1, . . . ,Xn) fur α, welcher fur n → ∞ fast sicher gegen α konvergiert.

Korrelation der Komponenten des Vektors X1 = (X1,1,X1,2)� (siehe Auf-gabe 2.6) den Erwartungswert E(X1). Bestimmen Sie damit einen Schatzer

Page 143: Mathematische Statistik ||

134 4. Vergleich von Schatzern: Optimalitatstheorie

A 4.24 Hinreichende Bedingungen fur Konsistenz : Seien X1, . . . , Xn i.i.d. mit Ver-teilung Pθ und θ ∈ Θ ⊂ R. Fur jedes n ∈ N sei Tn := T (X1, . . . , Xn) einSchatzer fur θ mit folgenden Eigenschaften:

(i) Eθ(T 2n) < ∞ fur alle θ ∈ Θ und alle n ∈ N.

(ii) limn→∞ Eθ(Tn) = θ fur alle θ ∈ Θ.(iii) limn→∞ Varθ(Tn) = 0 fur alle θ ∈ Θ.

Dann ist der Schatzer Tn schwach konsistent, d.h. TnP−→ θ fur n → ∞.

A 4.25 Verschobene Gleichverteilung: Konsistenz : (Fortsetzung von Aufgabe 3.15)Die Zufallsvariablen X1, . . . , Xn seien i.i.d. mit X1 ∼ U(θ, θ+1). Der Parame-ter θ sei unbekannt und X(1) = min{X1, . . . , Xn} die kleinste Ordnungsgroßeder Daten und X := n−1

∑ni=1 Xi. Betrachten Sie die beiden Schatzer

T1(X) = X − 12

und T2(X) = X(1) − 1n + 1

.

Zeigen Sie, dass Varθ(T1(X)) = 112·n und Varθ(T2(X)) = n

(n+1)2(n+2) .Uberprufen Sie die beiden Schatzer auf schwache Konsistenz.

A 4.26 Mehrdimensionale Informationsungleichung : Beweisen Sie die Informati-onsungleichung fur eine Verteilung mit k-dimensionalem Parameter θ: SeiX1, . . . , Xn i.i.d. mit der Dichte pθ, θ ∈ Θ ⊂ R

k. Man nehme an, T (X) ∈ R

sei eine Statistik mit Eθ(T (X)) = Ψ(θ) und Varθ(T (X)) < ∞, wobei Ψ einedifferenzierbare Funktion ist. Wir setzen

∂θΨ(θ) :=

(∂

∂θ1Ψ(θ), . . . ,

∂θkΨ(θ)

)�.

Ferner gelten die Regularitatsbedingungen (CR) analog zum einparametri-schen Fall. Dann gilt

Varθ(T (X)) ≥(

∂θΨ(θ)

)�I(θ)−1 ∂

∂θΨ(θ) ,

wobei

I(θ) := Eθ

(∂

∂θln pθ(X)

(∂

∂θln pθ(X)

)�)

positiv definit fur alle θ ∈ Θ sei.Hinweis: Beweisen Sie zuerst folgende Ungleichung:

E(ξ2) ≥ E(ξβ�)(E(ββ�))−1E(ξβ)

fur eine Zufallsvariable ξ mit E(ξ2) < ∞ und einen Zufallsvektor β ∈ Rk,

mit E(β2j ) < ∞, j = 1, . . . , k. Verwenden Sie hierzu 0 ≤ E(ξ − zβ)(ξ − zβ)�

und wahlen Sie den Vektor z ∈ R1×k geeignet.

Page 144: Mathematische Statistik ||

4.5 Aufgaben 135

Delta-Methode

A 4.27 Delta-Methode: Beweisen Sie folgende Aussage: Sei Z eine Zufallsvariable,{Xn} eine Folge reeller Zufallsvariablen und {σn} eine Folge reeller Konstan-ten mit σn → ∞ fur n → ∞. Außerdem gelte:

(i) σn(Xn − μ) L−−−−−→n→∞ Z fur eine Konstante μ.

(ii) g : R → R ist differenzierbar an der Stelle μ mit Ableitung g′(μ).

Dann gilt:σn(g(Xn) − g(μ)) L−−−−−→

n→∞ g′(μ)Z.

Hinweis: Aus (i) folgt Xn − μP−→ 0. Zeigen Sie dies zuerst und beweisen Sie

damit (g(Xn)− g(μ)− g′(μ)(Xn − μ))(Xn − μ)−1 P−→ 0. Folgern Sie hierausdie Richtigkeit der Behauptung.

A 4.28 Delta-Methode: Transformation von X: Seien X1, . . . , Xn i.i.d. mit E(X21 ) <

∞ und Tn := g(Xn). Weiterhin sei g differenzierbar an der Stelle E(X1).Beweisen Sie, dass

√n(Tn − g(E(X1)))

L−→ N (0, τ2g )

mit

τ2g = (g′(E(X1))2E(X2

1 ) − (E(X1)g′(E(X1))2 =(g′(E(X1))

)2 Var(X1)

gilt.

A 4.29 Delta-Methode: Schatzung der Kovarianz : Seien (X1, Y1), . . . , (Xn, Yn) i.i.d.Ferner sei X = 1

n

∑ni=1 Xi und Y = 1

n

∑ni=1 Yi. Der Momentenschatzer fur

Cov(X1, Y1) ist gegeben durch

Tn = T (X,Y ) :=1n

n∑

i=1

(Xi − X)(Yi − Y ).

Zeigen Sie, dass√

n (Tn − Cov(X1, Y1)) asymptotisch N (0, γ2) normalverteiltist falls nur E(X4

1 ) < ∞ und E(Y 41 ) < ∞. Drucken Sie die asymptotische

Varianz γ2 explizit durch Momente von (X1, Y1) aus.Hinweis: Verwenden Sie die Substitutionen Ui = Xi − E(X1), Vi = Yi −

E(Y1) fur i = 1, . . . , n, die multivariate Delta-Methode und den multivariatenzentralen Grenzwertsatz, Satz 1.33 (vergleiche Aufgabe 3.9).

Das zugehorige Konfidenzintervall wird in Aufgabe 5.7 bestimmt.

Page 145: Mathematische Statistik ||

136 4. Vergleich von Schatzern: Optimalitatstheorie

Asymptotische Aussagen

A 4.30 Asymptotik: Log-Normalverteilung : Seien X1, . . . , Xn i.i.d. und log-normal-verteilt, d.h. ln(X1) ∼ N (μ, σ2). Wir nehmen an, dass μ = σ2 =: θ > 0 undder Parameter θ unbekannt ist. Bestimmen Sie den Maximum-Likelihood-Schatzer θ fur θ und entscheiden Sie, ob dieser eindeutig ist. Berechnen Siedie asymptotische Verteilung von θ.

A 4.31 Asymptotische Effizienz: Beispiel : Seien X1, . . . , Xn i.i.d. mit E(X1) = μ �=0, Var(X1) = 1 und E(X4

1 ) < ∞. Der Erwartungswert μ sei unbekannt.Ferner seien

T1 = n−1n∑

i=1

(X2i − 1) und T2 = X2 − n−1

zwei Schatzer fur μ2, wobei X der arithmetische Mittelwert ist. Zeigen Sie,dass T1 und T2 asymptotisch normalverteilt sind und berechnen Sie derenasymptotische Erwartung und Varianz. Berechnen Sie die asymptotische Ef-fizienz von T1 zu T2. Zeigen Sie, dass die asymptotische Effizienz von T1 zuT2 nicht großer ist als 1, falls die Verteilung von X1 − μ um 0 symmetrischist.

A 4.32 Beispiele: Finden Sie den Maximum-Likelihood-Schatzer und seine asymp-totische Verteilung, wenn X1, . . . , Xn i.i.d. sind und

(i) X1 die Dichte p(x, θ) = 1{x∈(0,1)}θxθ−1 fur θ > 0 hat,(ii) X1 die Wahrscheinlichkeitsfunktion p(x, θ) = 1{x∈N}(1 − θ)θx fur θ ∈

(0, 1) hat. Hier ist N = {1, 2, . . . }.A 4.33 Doppelt-Exponentialverteilung: Asymptotik : Seien X1, . . . , Xn i.i.d. und die

Dichte von X1 sei gegeben durch

p(x, θ1, θ2) =1

θ1 + θ2

{e−

xθ1 , falls x > 0,

e−x

θ2 , falls x ≤ 0.

(i) Beschreiben Sie die Likelihood-Funktion mit Hilfe der suffizienten Sta-tistiken S1(X) :=

∑ni=1 Xi1{Xi>0} und S2(X) := −∑n

i=1 Xi1{Xi<0}.(ii) Finden Sie die Maximum-Likelihood-Schatzer θ1 und θ2 als Losungen

der Score-Gleichungen.(iii) Bestimmen Sie die Fisher-Informationsmatrix und damit die gemeinsa-

me asymptotische Verteilung von θ1 und θ2.

A 4.34 Gleichverteilung: Asymptotik des MLS : Seien X1,X2, . . . i.i.d. und Mn :=max{X1, . . . , Xn}. Kann man Folgen (cn) und (dn) reeller Zahlen finden mitcn > 0, n ∈ N, so dass

P

(Mn − dn

cn≤ x

)

−−−−→n→∞ H(x), (4.18)

Page 146: Mathematische Statistik ||

4.5 Aufgaben 137

fur alle x ∈ R und einer Verteilungsfunktion H, so sagt man, dass die Vertei-lung von X1 in der ”Maximum Domain of Attraction“ von H liegt. Nach demFisher-Tipett Theorem kommt hierfur nur die verallgemeinerte Extremwert-verteilung (GEV - Generalized Extreme Value Distribution) definiert durch

Hξ(x) :=

{exp(−(1 + ξx)−1/ξ

)ξ �= 0 ,

exp (−e−x) ξ = 0,

mit 1 + ξx > 0 in Frage. Ist ξ = 0, so handelt es sich um eine Gumbel-Verteilung, fur ξ > 0 um eine Frechet-Verteilung und fur ξ < 0 um eineWeibull-Verteilung.

1. Zeigen Sie, dass der MLS von θ fur X1 ∼ U(0, θ) durch Mn gegeben ist(Dies ist kein UMVUE-Schatzer nach Beispiel 4.8).

2. Zeigen Sie, dass Mn in diesem Fall in der Maximum Domain of Attrac-tion der Weibull-Verteilung liegt, d.h. bestimmen Sie Folgen (cn) und(dn), so dass (4.18) mit einem ξ < 0 gilt.

Page 147: Mathematische Statistik ||

Kapitel 5.

Konfidenzintervalle und Hypothesentests

Dieses Kapitel stellt zunachst Konfidenzintervalle im ein- und mehrdimensio-nalen Fall vor und behandelt danach Hypothesentests nach dem Ansatz vonNeyman und Pearson. Abschließend wird die Dualitat zwischen den beidenBegriffen erlautert.

5.1 Konfidenzintervalle

Schatzt man einen Parameter aus Daten, so erhalt man als Ergebnis einesSchatzverfahrens einen Schatzwert. Es ist allerdings unerlaßlich, neben ei-nem Schatzwert stets eine Angabe uber seine Qualitat oder seine Prazisionzu machen. So kann man beispielsweise mit einigen wenigen Beobachtungeneinen Schatzwert ausrechnen und diesen angeben, dieser hat aufgrund sei-ner großen Varianz eine geringe Aussagekraft. Erst durch eine ausreichendhohe Stichprobenzahl kann eine hinreichende Prazision garantiert werden.Naturlich hangt die Prazision immer mit dem gewahlten Modell und derAufgabenstellung zusammen, so dass allein die Anzahl der Stichproben auchkein zuverlassiges Qualitatsmerkmal darstellt. Ein zuverlaßliches und allge-meines Merkmal fur die Qualtitat eines Schatzers ist ein Konfidenzintervall.Dies ist ein zufalliges Intervall, welches mit festgelegter Wahrscheinlichkeit(das Konfidenzniveau, beispielsweise 95%) den wahren Parameter uberdeckt.Als Ergebnis einer Schatzung sollte stets Schatzwert und Konfidenzintervallmit zugehorigem Konfidenzniveau angegeben werden.

Zunachst werden eindimensionale, danach mehrdimensionale Konfidenzin-tervalle behandelt und schließlich Bayesianische Intervallschatzer betrachtet.

C. Czado, T. Schmidt, Mathematische Statistik, Statistik und ihre 139Anwendungen, DOI 10.1007/978-3-642-17261-8 5,c© Springer-Verlag Berlin Heidelberg 2011

Page 148: Mathematische Statistik ||

140 5. Konfidenzintervalle und Hypothesentests

5.1.1 Der eindimensionale Fall

Sei T (X) ein Schatzer von q(θ) ∈ R. Fur eine vernunftige Schatzung istes essenziell, neben dem Schatzwert auch ein Maß fur die Prazision desSchatzverfahrens anzugeben. Ziel dieses Abschnittes ist, die Prazision oderden Fehler von T zu bestimmen. Dabei gehen wir folgendem Ansatz nach:Wir suchen zufallige Grenzen T (X) ≤ q(θ) ≤ T (X), so dass die Wahrschein-lichkeit, dass q(θ) von [T (X), T (X)] uberdeckt wird, ausreichend hoch ist.Ein solches zufalliges Intervall nennen wir Zufallsintervall. Fixiert man einkleines Toleranzniveau α, so interessiert man sich fur Statistiken T und Tmit der folgenden Eigenschaft.

Definition 5.1. Ein durch T (X) ≤ T (X) gegebenes Zufallsintervall[T (X), T (X)] fur welches fur alle θ ∈ Θ gilt, dass

(q(θ) ∈ [T (X), T (X)]

) ≥ 1 − α, (5.1)

heißt (1 − α)-Konfidenzintervall fur q(θ) zum Konfidenzniveau 1 − α ∈[0, 1].

Hierbei verwenden wir folgenden Sprachgebrauch: Ein (1−α)-Konfidenzin-tervall bedeutet ein (1 − α) · 100 %-Konfidenzintervall; ist etwa α = 0.05, soverwenden wir synonym die Bezeichnung 0.95-Konfidenzintervall und 95%-Konfidenzintervall. Fur ein gegebenes Konfidenzintervall ist ein Intervall, wel-ches dieses einschließt wieder ein Konfidenzintervall (auch zum gleichen Kon-fidenzniveau). Allerdings sind wir typischerweise daran interessiert, fur einvorgegebenes Konfidenzniveau das kleinste Intervall zu finden, welches dieUberdeckungseigenschaft (5.1) erfullt. Ist dies der Fall, so erwartet man ap-proximativ, dass in n Beobachtungen x1, . . . ,xn von i.i.d. Zufallsvariablenmit der gleichen Verteilung wie X in (1−α)n Fallen [T (xi), T (xi)] den wah-ren Parameter q(θ) enthalt.

Handelt es sich um ein symmetrisches Intervall, so nutzen wir die Schreib-weise

a ± b := [a − b, a + b].

B 5.1 Normalverteilung, σ bekannt: Konfidenzintervall : Seien X1, . . . , Xn i.i.d. ∼N (θ, σ2) und σ2 sei bekannt. Als Schatzer fur θ verwenden wir den UMVUE-Schatzer X, vergleiche Aufgabe 4.5. Da die N (θ, σ2)-Verteilung symmetrischum θ ist, liegt es nahe als Konfidenzintervall ein symmetrisches Intervall umX zu betrachten. Fur c > 0 gilt

(

X − cσ√n≤ θ ≤ X + c

σ√n

)

= Pθ

(∣∣∣∣X − θ

σ/√

n

∣∣∣∣ ≤ c

)

.

Page 149: Mathematische Statistik ||

5.1 Konfidenzintervalle 141

x

φ(x)

Abb. 5.1 Dichte der Standardnormalverteilung mit den α/2 und 1−α/2-Quantilen.

Da X−θσ/

√n∼ N (0, 1), folgt

(∣∣∣∣X − θ

σ/√

n

∣∣∣∣ ≤ c

)

= Φ(c) − Φ(−c) = 2Φ(c) − 1.

Da wir das kleinste Konfidenzintervall suchen, welches die Uberdeckungsei-genschaft (5.1) erfullt, suchen wird ein c > 0 so, dass 2Φ(c) − 1 = 1 − α gilt.Mit

za := Φ−1(a)

sei das a-Quantil der Standardnormalverteilung bezeichnet. Dann ist dassymmetrische Intervall

X ± z1−α/2σ√n

ein (1−α)-Konfidenzintervall fur θ; siehe Abbildung 5.1. Da z0.975 = 1.96 gilt,ist in einer Stichprobe mit x = 5, σ = 1, n = 100 das 95%-Konfidenzintervallfur θ gegeben durch 5 ± 0.196.

Man ist daran interessiert, dass Eθ

(T (X) − T (X)

)so klein wie moglich

ist. Deshalb betrachtet man den Konfidenzkoeffizient fur [T (X), T (X)],definiert durch

infθ

Pθ[T (X) ≤ q(θ) ≤ T (X)].

Oft ist Pθ

(T (X) ≤ q(θ) ≤ T (X)

)unabhangig von θ (siehe dazu Beispiel 5.1).

Diese Methodik stellt ein wichtiges Hilfsmittel zur Bestimmung von Konfi-denzintervallen dar.

Page 150: Mathematische Statistik ||

142 5. Konfidenzintervalle und Hypothesentests

Definition 5.2. Eine Zufallsvariable, gegeben als Funktion von X und θ,dessen Verteilung unabhangig von θ ist, heißt Pivot.

B 5.2 Pivot (Fortsetzung von Beispiel 5.1): Betrachten wir wie in Beispiel 5.1 X =(X1, . . . , Xn)� und sind X1, . . . , Xn i.i.d.∼ N (θ, σ2), so ist die Zufallsvariable

G := g(X, θ) :=√

n(X − θ)σ

∼ N (0, 1).

Damit ist die Verteilung von G unabhangig von θ und somit ist G = g(X, θ)ein Pivot.

Kleinste Konfidenzintervalle. Naturlich ist man daran interessiert, diekleinstmoglichen Konfidenzintervalle anzugeben. Die Herausforderung be-steht im Finden solcher Konfidenzintervalle. Die Situation ist ahnlich wieim vorigen Kapitel uber optimale Schatzer: Im Allgemeinen existieren keinekleinsten Konfidenzintervalle. Eine Einschrankung auf unverzerrte Konfiden-zintervalle ist hierzu notwendig.

Definition 5.3. Ein (1 − α)-Konfidenzintervall [T , T ] fur q(θ) heißt un-verzerrt , falls fur alle θ, θ′ ∈ Θ gilt, dass

(T ≤ q(θ) ≤ T

) ≥ Pθ

(T ≤ q(θ′) ≤ T

).

Ein unverzerrtes Konfidenzintervall uberdeckt demnach den wahren Wertq(θ) zumindest ebenso gut wie jeden anderen Wert q(θ′).

B 5.3 Unverzerrtes Konfidenzintervall (Fortsetzung von Beispiel 5.1): Das Konfi-denzintervall aus Beispiel 5.1 ist unverzerrt, denn

(θ′ ∈ X ± σ√

nz1−α/2

)= Pθ

(θ′ − θ

σ/√

n− z1−α/2 ≤ X − θ

σ/√

n≤ θ′ − θ

σ/√

n+ z1−α/2

)

= Φ

(θ′ − θ

σ/√

n+ z1−α/2

)

− Φ

(θ′ − θ

σ/√

n− z1−α/2

)

.

Der letzte Ausdruck ist maximal fur θ′ = θ, da die Funktion f(x) := Φ(x +c) − Φ(x − c) an der Stelle x = 0 maximal ist, falls c > 0: In der Tat istf ′(0) = φ(c) − φ(−c) = 0, da die Dichte φ der Standardnormalverteilungsymmetrisch um 0 ist und weiterhin f ′′(0) = −2cφ(c) < 0 da c > 0. DasKonfidenzintervall ist somit unverzerrt.

B 5.4 Normalverteilung, μ und σ unbekannt: Konfidenzintervall : Die Zufallsvari-ablen X1, . . . , Xn seien i.i.d. mit X1 ∼ N (μ, σ2). Gesucht ist ein Konfidenzin-tervall fur den Mittelwert μ, aber auch σ ist unbekannt. Wie bisher bezeichne

Page 151: Mathematische Statistik ||

5.1 Konfidenzintervalle 143

p(x)

x0 χ2n,α/2 χ2

n,1−α/2

Abb. 5.2 Dichte der χ2n-Verteilung mit den α/2 und (1 − α/2)-Quantilen.

s2n = s2

n(X) =1

n − 1

n∑

i=1

(Xi − X

)2

die Stichprobenvarianz und weiterhin sei c := tn−1,1−α/2 das (1−α/2)-Quantilder t-Verteilung mit n−1 Freiheitsgraden. Man erhalt mit θ := (μ, σ2)�, dass

(

X − csn√n

≤ μ ≤ X +csn√

n

)

= Pθ

(∣∣∣∣X − μ

sn/√

n

∣∣∣∣ ≤ c

)

.

Nach Satz 7.14 folgt, dass X von s2n(X) unabhangig ist und (n − 1) s2

n(X)σ2 ∼

χ2n−1. Wir erhalten nach Definition 1.8, dass

Tn−1(X) :=√

n(X − μ)sn(X)

=

√n(X−μ)

σ√1

n−1(n−1)s2

n(X)σ2

tn−1-verteilt ist. Da diese Verteilung unabhangig von θ ist, ist Tn−1 ein Pivot.Somit ergibt sich folgendes Konfidenzintervall fur μ:

X ± sn√n

tn−1,1−α/2.

B 5.5 Normalverteilung, μ bekannt: Konfidenzintervall fur σ2: Seien X1, . . . , Xn

i.i.d. mit X1 ∼ N (μ, σ2). Der Mittelwert μ sei nun bekannt. In diesem Fallist

σ2(X) :=1n

n∑

i=1

(Xi − μ)2

der Maximum-Likelihood- und UMVUE-Schatzer fur σ2 (vergleiche Aufgabe4.5). Ein Pivot ist leicht gefunden, da

Page 152: Mathematische Statistik ||

144 5. Konfidenzintervalle und Hypothesentests

nσ2(X)σ2

=n∑

i=1

(Xi − μ

σ

)2

∼ χ2n.

Sei χ2n,a das a-Quantil der χ2

n-Verteilung (siehe Abbildung 5.2 zur Illustrationvon χ2

n,α/2und χ2

n,1−α/2). Durch die Beobachtung, dass

P

(

χ2n,α/2 ≤ nσ2(X)

σ2≤ χ2

n,1−α/2

)

= 1 − α

erhalt man ein (1 − α)-Konfidenzintervall fur σ2 gegeben durch[

nσ2(X)χ2

n,1−α/2

,nσ2(X)χ2

n,α/2

]

.

Allerdings handelt es sich hier nicht um ein unverzerrtes Konfidenzintervall.Weiterhin ist es nicht symmetrisch um σ2(X).

B 5.6 Approximative Konfidenzgrenzen fur die Erfolgswahrscheinlichkeit in Bernoul-li-Experimenten: Seien X1, . . . , Xn i.i.d. Bernoulli(θ)-verteilt. Dann ist XMaximum-Likelihood-Schatzer und UMVUE-Schatzer fur θ (vergleiche Auf-gabe 4.3). Mit za := Φ−1(a) sei wieder das Quantil der Normalverteilungbezeichnet. Nach dem zentralen Grenzwertsatz, Satz 1.31, gilt, dass

√n

(X − θ

√θ(1 − θ)

)L−−−−→

n→∞ N (0, 1),

was fur ein hinreichend großes n folgende Approximation rechtfertigt:

1 − α ≈ Pθ

(∣∣∣∣∣

√n(X − θ)√

θ(1 − θ)

∣∣∣∣∣≤ z1−α/2

)

= Pθ

(n(X − θ)2 ≤ z2

1−α/2 · θ(1 − θ))

= Pθ

(nX2 − θ(2Xn + z2

1−α/2) + θ2(n + z21−α/2) ≤ 0

)

= Pθ

(A(X, θ) ≤ 0

).

Hierbei ist A(X, θ) := θ2(n + z21−α/2)− θ(2Xn + z2

1−α/2) + nX2. Da A(X, θ)quadratisch in θ ist, findet man Grenzen θ(X) und θ(X), so dass

{θ : A(X, θ) ≤ 0

}={θ ∈ [θ(X), θ(X)]

}

Page 153: Mathematische Statistik ||

5.1 Konfidenzintervalle 145

gilt. Damit ist das approximative (1 − α)-Konfidenzintervall fur θ durch[θ(X), θ(X)] gegeben. Als Faustregel1 sollte

nθ und n(1 − θ) ≥ 5

gelten, um diese Approximation sinnvoll zu verwenden. Als Alternative findetman in der Literatur auch folgende Approximation:

1 − α ≈ Pθ

(∣∣∣∣∣

√n(X − θ)√

θ(1 − θ)

∣∣∣∣∣≤ z1−α/2

)

≈ Pθ

(∣∣∣∣∣

√n(X − θ)

√X(1 − X)

∣∣∣∣∣≤ z1−α/2

)

und somit ist X±z1−α/2

√X(1−X)

n approximatives (1−α)-Konfidenzintervallfur θ. Diese Approximation ist allerdings weniger gut und sollte nur fur großesn verwendet werden.

Bemerkung 5.4 (Faustregel). Die Faustregel geht einher mit einem zu to-lerierenden Fehler. Die genaue Fehlerabschatzung findet man bei Georgii(2004), Seite 143; sie wird mit dem Satz von Berry-Esseen bestimmt. Dortwird auch die Approximation durch eine Poisson-Verteilung diskutiert.

5.1.2 Der mehrdimensionale Fall

In diesem Abschnitt betrachten wir den mehrdimensionalen Fall, in wel-chem ein Konfidenzintervall fur die vektorwertige Transformation q(θ) =(q1(θ), . . . , qn(θ))� bestimmt werden soll. Analog zum eindimensionalen Falldefinieren wir:

Definition 5.5. Das durch Tj(X) ≤ Tj(X), 1 ≤ j ≤ n gegebene Zufalls-rechteck

I(X) :={

x ∈ Rn : T j(X) ≤ xj ≤ T j(X), j = 1, . . . , n

}

heißt (1 − α)-Konfidenzbereich fur q(θ), falls fur alle θ ∈ Θ

(q(θ) ∈ I(X)

) ≥ 1 − α.

Man kann die fur den eindimensionalen Fall erhaltenen Konfidenzintervalleunter gewissen Umstanden auf den n-dimensionalen Fall ubertragen. Aller-dings erhalt man dann ein anderes, deutlich schlechteres Konfidenzniveau.

1 Siehe Bemerkung 5.4.

Page 154: Mathematische Statistik ||

146 5. Konfidenzintervalle und Hypothesentests

(i) Falls Ij(X) :=[T j(X), T j(X)

]jeweils (1 − αj)-Konfidenzintervall fur

qj(θ) ist und falls (T 1, T 1),. . . , (Tn, Tn) unabhangig sind, so ist

I(X) := I1(X) × · · · × Ir(X)

einn∏

j=1

(1−αj)-Konfidenzbereich fur q(θ). Mit αj = n√

1 − α erhalt man

so einen (1 − α)-Konfidenzbereich.(ii) Falls die Ij nicht unabhangig sind, so kann man die Bonferroni Unglei-

chung2 verwenden, und erhalt daraus fur jedes Intervall Ij , welches dasKonfidenzniveau αj einhalt

Pθ(q(θ) ∈ I(X)) ≥ 1 −n∑

j=1

Pθ(qj(θ) /∈ Ij(X)) ≥ 1 −n∑

j=1

αj . (5.2)

Dann ist I(X) ein (1−α)-Konfidenzbereich, falls man αj = α/n wahlt.

B 5.7 Normalverteilungsfall: Konfidenzbereich fur (μ, σ2): Wir ubertragen die ein-dimensionalen Konfidenzintervalle aus dem Beispiel 5.4 wobei wir das Kon-fidenzintervall fur σ2 mit dem Faktor n − 1 statt n multiplizieren um Un-verzerrtheit zu erhalten: Seien X1, . . . , Xn i.i.d. mit X1 ∼ N (μ, σ2). Dannist

I1(X) := X ± s(X)√n

tn−1,1−α/4

ein (1 − α/2)-Konfidenzintervall fur μ, wenn σ2 unbekannt ist und

I2(X) :=

[(n − 1)s2(X)χ2

n−1,1−α/4

,(n − 1)s2(X)

χ2n−1,α/4

]

ein (1−α/2)-Konfidenzintervall fur σ2, wenn μ unbekannt ist. Nach (5.2) erhaltman den gemeinsamen Konfidenzbereich fur (μ, σ2) durch I1(X)×I2(X) mitKonfidenzniveau 1 − (α

2 + α2

)= 1 − α.

5.1.3 Bayesianischer Intervallschatzer

Da in einem Bayesianischen Ansatz θ als zufallig betrachtet wird, basiertdie Inferenz fur θ auf der a posteriori-Verteilung θ|X = x ∼ p(θ|x). Damitkann man ein Intervall [T1(x), T2(x)] finden, so dass θ unter der a posteriori-Verteilung mit Wahrscheinlichkeit 1− α in diesem Intervall liegt; ein solches

2 Die Bonferroni Ungleichung lautet P(A∩B) ≥ 1− (P(A)+P(B)) fur alle A, B ∈ A.

Page 155: Mathematische Statistik ||

5.2 Das Testen von Hypothesen 147

p(θ x)

T1(x) T2(x)

α 2α 2

Abb. 5.3 Illustration eines (1−α)-credible Intervalls gegeben durch [T1(x), T2(x)].

Intervall nennt man Credible Interval oder Bayesianischen Intervallschatzerund definiert es wie folgt.

Definition 5.6. Ein Bayesianischer Intervallschatzer fur θ zum Konfi-denzniveau (1 − α) ist ein zufalliges Intervall [T1(X), T2(X)] mit

P(θ ∈ [T1(X), T2(X)]

∣∣X = x

)= 1 − α. (5.3)

Nun ist θ zufallig und man bestimmt das zufallige Intervall so, dass diea posteriori-Wahrscheinlichkeit, dass θ in diesem Intervall liegt gerade gleich(oder großer) 1 − α ist. Im klassischen Ansatz eines Konfidenzintervalls hin-gegen macht (5.3) keinen Sinn, denn bedingt auf T (X) = x ist diese Wahr-scheinlichkeit entweder Null oder Eins. Eine ausfuhrliche Behandlung vonBayesianischen Intervallschatzern findet man im Kapitel 9 von Casella undBerger (2002).

5.2 Das Testen von Hypothesen

Bisher haben wir Schatzverfahren betrachtet und entwickelt, welche man bei-spielsweise nutzen kann, um aus den Daten die Wirksamkeit einer Therapie zuschatzen. Allerdings ist man oft nicht direkt an dem Schatzwert interessiert,sondern man mochte entscheiden, ob diese Therapie hilft oder nicht. Hierfurwird man wegen der Zufalligkeit des Problems keine absolute Entscheidungtreffen konnen, sondern zu jeder Zeit muss man eine gewisse Wahrscheinlich-keit fur eine Fehlentscheidung akzeptieren, ahnlich wie bei den Konfidenzin-tervallen.

Page 156: Mathematische Statistik ||

148 5. Konfidenzintervalle und Hypothesentests

Im Folgenden fuhren wir das Konzept des statistischen Tests zur Uberpru-fung von Hypothesen auf Basis einer Stichprobe ein. Stets gehen wir von ei-nem statistischen Modell {Pθ : θ ∈ Θ} mit X ∼ Pθ aus. Allerdings zerlegtdie betrachtete Fragestellung den Parameterraum disjunkt in die zwei Hypo-thesen Θ0 und Θ1 mit Θ = Θ0⊕Θ1, was gleichbedeutend ist mit Θ0∩Θ1 = ∅und Θ0 ∪ Θ1 = Θ. Die beiden Parameterbereiche Θ0 und Θ1 stehen fur un-terschiedliche Hypothesen. Im obigen Beispiel wurde man Θ0 als den Bereichwahlen, in welchem die Therapie nicht hilft; in dem Bereich Θ1 hilft hingegendie Therapie. Wir verwenden die folgenden Bezeichnungen:

H0 = {θ ∈ Θ0} heißt Null-Hypothese und

H1 = {θ ∈ Θ1} heißt Alternative.

Oft schreiben wir hierfur H0 : θ ∈ Θ0 gegen H1 : θ ∈ Θ1. Die Bezeich-nung Null-Hypothese stammt vom englischen Begriff to nullify = entkraften,widerlegen. Wie wir spater sehen werden, ist die Hypothese, die widerlegtwerden soll, stets als Null-Hypothese zu wahlen.

Besteht Θ0 aus einem einzigen Element, Θ0 = {θ0}, so spricht man von ei-ner einfachen Hypothese, ansonsten handelt es sich um eine zusammengesetz-te Hypothese. Ist Θ ⊂ R und die Alternative von der Form Θ1 = {θ : θ �= θ0},so nennt man sie zweiseitig ; ist sie von der Form Θ1 = {θ : θ > θ0}, so heißtsie einseitig.

Um eine Entscheidung zwischen den beiden Hypothesen H0 und H1 treffenzu konnen, stellt man eine Entscheidungsregel auf, welche wir Test nennen.

Definition 5.7. Ein Test δ ist eine messbare Funktion der Daten X mitWerten in [0, 1]. Dabei bedeutet

• δ(X) = 0: Die Null-Hypothese wird akzeptiert.• δ(X) = 1: Die Null-Hypothese wird verworfen.

Der Bereich {x : δ(x) = 1} heißt der kritische Bereich oder Verwerfungs-bereich des Tests. Ist T (X) eine Statistik und gilt δ(X) = 1{T (X)≥c}, soheißt c kritischer Wert des Tests.

Bemerkung 5.8. Dem aufmerksamen Leser ist sicher nicht entgangen, dassein Test einen beliebigen Wert in dem Intervall [0, 1] annehmen darf, wahrendwir aber nur fur die Werte 0 und 1 klare Entscheidungsregeln angeben. Ob-wohl wir uns auf den Fall δ ∈ {0, 1} konzentrieren, kann es sinnvoll seinδ(X) = p ∈ (0, 1) zuzulassen. Dann trifft man eine Entscheidung wie folgt:Sei Y ∼ Bernoulli(p) unabhangig von X. Man entscheidet sich fur H0, fallsY = 0, ansonsten fur H1. Dies nennt man einen randomisierten Test, da die

Page 157: Mathematische Statistik ||

5.2 Das Testen von Hypothesen 149

Entscheidung nicht nur von den Daten, sondern auch von dem zusatzlichenBernoulli-Experiment abhangt.

B 5.8 Test fur Bernoulli-Experiment : Ein neues Medikament soll getestet werden,welches die Gesundungsrate einer Krankheit erhohen soll. Die Null-Hypotheseist, dass das Medikament keine Wirkung hat. Aus Erfahrung weiß man, dassein Anteil θ0 = 0.2 von Probanden ohne Behandlung gesundet. Es werdenn Patienten getestet und deren Gesundungsrate beobachtet. Als statistischesModell betrachten wir X1, . . . , Xn i.i.d. mit X1 ∼ Bernoulli(θ). Interessiertsind wir an der Entscheidung, ob H0 : θ = θ0 oder H1 : θ > θ0 vorliegt.Letztere, einseitige Hypothese verdeutlicht, dass wir nachweisen wollen, dassdas Medikament nicht schadlich ist, sondern eine Verbesserung der Gesun-dungsrate bewirkt. Als Teststatistik verwenden wir den UMVUE-SchatzerX, siehe Aufgabe 4.3. Ist X deutlich großer als θ0, so spricht dies fur H1

und gegen H0. Fur ein noch zu bestimmendes Niveau wird man sich fur H1

entscheiden, falls X uber diesem Niveau liegt, und sonst fur H0. Die Vertei-lung von nX =

∑ni=1 Xi lasst sich leichter handhaben als die von X. Folglich

verwenden wir die Tests δk mit

δk(X) :=

{1,

∑ni=1 Xi ≥ k

0, sonst.(5.4)

Die Wahl eines geeigneten k hangt von einer Fehlerwahrscheinlichkeit ab, diewir im folgenden Abschnitt einfuhren.

5.2.1 Fehlerwahrscheinlichkeiten und Gute

In unseren statistischen Tests betrachten wir stets zwei Hypothesen. Bei derEntscheidung fur eine jede kann man einen Fehler machen. Diese beiden Feh-ler konnen eine unterschiedliche Wahrscheinlichkeit haben und aus diesemGrund mussen wir stets beide Fehlerquellen im Auge behalten. Man erhaltfolgende Falle: Ist H0 wahr und ergibt der Test ,,H0 wird akzeptiert”, somacht man keinen Fehler; ebenso falls H1 wahr ist und der Test ergibt ,,H0

wird verworfen”. Ist allerdings H0 wahr und der Test ergibt ,,H0 wird ver-worfen”, so macht man den so genannten Fehler 1. Art. Andererseits, ist H1

wahr, und ergibt der Test ,,H0 wird akzeptiert”, so macht man den Fehler 2.Art. Wir fassen dies in der folgenden Tabelle zusammen.

H0 wahr H1 wahr

H0 wird akzeptiert kein Fehler Fehler 2.Art

H0 wird verworfen Fehler 1. Art kein Fehler

Page 158: Mathematische Statistik ||

150 5. Konfidenzintervalle und Hypothesentests

Man geht wie folgt vor: Die Hypothese H0 ist so gewahlt, dass man sieablehnen will. Somit ist der Fehler 1. Art fur die Fragestellung wichtiger alsder Fehler 2. Art. Man gibt sich ein Niveau α vor und wahlt den Test so,dass der Fehler 1. Art hochstens α ist. Unterschiedliche Tests werden anhandihres Fehlers 2. Art (Gute) verglichen.

Definition 5.9. Fur einen Test δ ist die Gutefunktion Gδ : Θ → [0, 1]definiert durch

Gδ(θ) = Eθ(δ(X)).

Ist δ ∈ {0, 1}, so ist die Gute eines Tests fur vorgegebenes θ gerade dieWahrscheinlichkeit, sich fur die Alternative H1 zu entscheiden. Ist θ ∈ Θ0,so ist das gerade die Wahrscheinlichkeit fur einen Fehler 1. Art. Damit erhaltman folgende Interpretation von Gδ(θ):{

Gute des Tests gegen die Alternative, θ ∈ Θ1

Wahrscheinlichkeit des Fehlers 1. Art fur den wahren Wert θ, θ ∈ Θ0.

Gilt fur einen Test δ, dass

supθ∈Θ0

Gδ(θ) ≤ α

sagt man, der Test hat das Signifikanzniveau α. Gilt fur δ

supθ∈Θ0

Gδ(θ) = α,

so nennen wir den Test δ einen Level-α-Test. Bei einem Test mit Signifikanz-niveau α konnte man moglicherweise auch ein kleineres Niveau α wahlen; beieinem Level-α-Test ist das nicht der Fall, siehe Beispiel 5.9.

B 5.9 Test mit Signifikanzniveau α und Level-α-Test : Ist X ∼ N (μ, 1), so ist δ(X) =1{X>c} ein Test fur H0 : μ = 0 gegen H1 : μ > 0. Fur ein vorgegebenesα ∈ (0, 1) erhalt man fur jedes c ≥ Φ−1(1 − α) einen Fehler 1. Art miteiner Wahrscheinlichkeit kleiner als α. Diese Tests sind somit alle Tests mitSignifikanzniveau α. Aber nur fur c = Φ−1(1 − α) erhalt man einen Level-α-Test.

B 5.10 Fortfuhrung von Beispiel 5.8 : Fur das Testproblem H0 : θ = θ0 gegen H1 :θ > θ0 sollen die Tests δk aus Gleichung (5.4) verwendet werden. Wir setzenS := nX =

∑ni=1 Xi und erinnern daran, dass S nach Aufgabe 1.4 gerade

Bin(n, θ)-verteilt ist. Die Wahrscheinlichkeit, einen Fehler 1. Art zu begehenist demnach

Pθ0 (δk(X) = 1) = Pθ0(S ≥ k) =n∑

j=k

(n

j

)

θj0(1 − θ0)n−j .

Page 159: Mathematische Statistik ||

5.2 Das Testen von Hypothesen 151

Abb. 5.4 Illustration der Fehlerwahrscheinlichkeiten und der Gutefunktion einesTests δ fur das Testproblem H0 : θ = θ0 gegen H1 : θ > θ0 im ParameterraumΘ = {θ : 0 ≤ θ0 ≤ θ ≤ 1}. Hierbei ist der Fehler 2. Art an einem festen θ′ ∈ H1dargestellt.

Die Wahrscheinlichkeit einen Fehler 2. Art zu begehen hingegen hangt vondem unbekannten Wert θ ∈ Θ1 ab. Fur den Fehler 2. Art gilt θ ∈ Θ1 und wirerhalten folgende Wahrscheinlichkeit fur einen Fehler 2. Art:

Pθ (δk(X) = 0) = Pθ(S < k) =k−1∑

j=0

(n

j

)

θj(1 − θ)n−j .

Schließlich ergibt sich folgende Gutefunktion

Gδk(θ) = Pθ(S ≥ k) =

n∑

j=k

(n

j

)

θj(1 − θ)n−j , θ ∈ Θ.

Die zugehorigen Fehlerwahrscheinlichkeiten und die Gutefunktion sind in Ab-bildung 5.4 illustriert.

B 5.11 Tests: Anwendungsbeispiele: Zur Illustration von statistischen Tests stellenwir zwei Beispiele aus der Anwendung vor.

1. Eine Medizinerin mochte die Wirkung eines neuen Medikaments testen.Dabei erwartet sie, dass das neue Medikament wirksam ist. Aus die-sem Grund verwendet sie die Hypothesen H0: Medikament hat keineWirkung gegen H1: Medikament hat Wirkung. Ihr Ziel ist es, H0 abzu-lehnen; falls H0 aber nicht abgelehnt werden kann, dann wird sie nichtsvermelden und an Verbesserungen arbeiten.

2. Ein Verbraucherberater untersucht Kindersitze fur Autos. Er mochtenachweisen, dass die mittlere Kraft μ, welche benotigt wird bis der Kin-dersitz zerbricht, bei einer bestimmten Marke niedriger ist als die ent-sprechende Kraft μ0 fur andere Marken. Das heißt, er mochte H0: μ ≥ μ0

Fehler 2. Art

Fehler 1. Art

1

θ

θ0H1

0

1

Gδ(θ)

Page 160: Mathematische Statistik ||

152 5. Konfidenzintervalle und Hypothesentests

gegen H1: μ < μ0 testen. Falls H0 nicht abgelehnt werden kann, dannwird er nichts vermelden, da in diesem Fall eine Warnung vor diesemTyp von Kindersitzen nicht berechtigt ware.

Generell kann man Folgendes formulieren: Falls die Null-Hypothese H0

abgelehnt wird, dann wird ein Fehler (Fehler 1. Art) hochstens mit der Wahr-scheinlichkeit α gemacht. Falls H0 jedoch nicht abgelehnt werden kann, dannist der Fehler (in diesem Fall der Fehler 2. Art) nicht kontrolliert, d.h. dieWahrscheinlichkeit fur einen Fehler 2. Art kann in bestimmten Situationenbeliebig nahe an 1 sein. Daher sagt man, dass ”H0 nicht verworfen werdenkann“ oder ”es gibt nicht genugend Evidenz fur einen signifikanten Effekt“.

B 5.12 Fortsetzung von Beispiel 5.8 : Fur das Testproblem H0 : θ = θ0 gegen H1 :θ > θ0 sollen die Tests δk aus Gleichung (5.4) verwendet werden. Hierbei istwieder

S = S(X) =n∑

i=1

Xi ∼ Bin(n, θ).

Man wahlt k0 = k(θ0, α) so, dass die Wahrscheinlichkeit fur einen Fehler 1.Art kleiner oder gleich α ist, also

Pθ0(S ≥ k0) ≤ α (5.5)

gilt. Ein solches k0 existiert, da

Pθ0(S ≥ k) =n∑

j=k

(n

j

)

θj0(1 − θ0)n−j

monoton fallend in k ist. Fur genugend großes n mit min(nθ0, n(1− θ0)) ≥ 5(siehe Bemerkung 5.4) kann man auch folgende Approximation durch dieNormalverteilung verwenden:

Pθ(S ≥ k) ≈ Pθ

(√n(X − θ)√

θ(1 − θ)≥ k − nθ − 0.5√

nθ(1 − θ)

)

≈ 1 − Φ

(k − nθ − 0.5√

nθ(1 − θ)

)

.

Hierbei ist der Term 0.5 im Zahler die so genannte Stetigkeitskorrektur , diedie Approximation verbessert. Dann gilt

Pθ0(S ≥ k) ≈ 1 − Φ

(k − nθ0 − 0.5√

nθ0(1 − θ0)

)

≤ α.

Demnach ist (5.5) (approximativ) gleichbedeutend mit

k0 ≥ x0 mit x0 = nθ0 + 0.5 + z1−α

√nθ0(1 − θ0), (5.6)

wobei z1−α das (1 − α)-Quantil der Standardnormalverteilung ist (siehe

Page 161: Mathematische Statistik ||

5.2 Das Testen von Hypothesen 153

x

p(x)

α

z1−α0

Abb. 5.5 Das (1 − α)-Quantil der Normalverteilung z1−α.

Abbildung 5.5). Somit ist der Test

δk0(X) := 1{S(X)>k0} = 1{nX>k0}

ein Test mit (approximativem) Signifikanzniveau α fur H0 gegen H1, falls(5.6) (und damit (5.5), ebenfalls approximativ) gilt.

B 5.13 Normalverteilung: Einseitiger Gauß-Test fur μ: In diesem Beispiel wird eineinseitiger Test fur den Erwartungswert einer Normalverteilung mit bekann-ter Varianz vorgestellt. Seien dazu X1, . . . , Xn i.i.d. mit X1 ∼ N (μ, σ2) undσ2 sei bekannt. Fur das Testproblem H0 : μ ≤ 0 gegen H1 : μ > 0 verwendenwir den UMVUE-Schatzer T (X) := X (siehe Aufgabe 4.5). Ist X zu groß, sospricht das fur H1 und gegen H0. Somit erhalten wir einen sinnvollen Testdurch δc(X) := 1{X≥c}. Dieser Test wird auch als einseitiger Gauß-Testbezeichnet. Er hat die Gutefunktion

Gc(μ) = Pμ(δc(X) = 1) = Pμ

(X − μ

σ/√

n≥ c − μ

σ/√

n

)

= 1 − Φ

(c − μ

σ/√

n

)

. (5.7)

Demnach ist Gc monoton wachsend in μ. Da

supμ∈Θ0

Gc(μ) = 1 − Φ( c

σ/√

n

)≤ α

gelten muss, erhalt man das kleinste c, welches das Signifikanzniveau α einhaltdurch cα := σ/

√n · z1−α. Der Test

δ(X) := 1{X≥σz1−α√n

} (5.8)

Page 162: Mathematische Statistik ||

154 5. Konfidenzintervalle und Hypothesentests

0 0,1 0.3 0.40

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

μH1

H0

α

Gδ(μ)

Abb. 5.6 Gutefunktion des Tests δ(X) = 1{X≥σz1−α/√

n} fur H0 : μ ≤ 0 gegen

H1 : μ > 0. Hierbei ist X normalverteilt mit bekannter Varianz σ2. In der Darstellungwurde σ = 0.5 (gestrichelt) und σ = 0.1 (durchgezogene Linie) gewahlt.

ist somit der gesuchte Level-α-Test fur das betrachtete Testproblem. Dieentsprechende Gutefunktion ist in Abbildung 5.6 illustriert.

5.2.2 Der p-Wert: Die Teststatistik als Evidenz

Zur Durchfuhrung eines Tests gehort immer die Wahl eines Signifikanznive-aus α. Diese Wahl hangt jedoch von der Problemstellung ab. Beim Testeneines Prazisionsinstrumentes wird man α sehr klein wahlen, wahrend bei sta-tistischen Testproblemen die etwa auf einer Umfrage basieren ein großeres αsinnvoll ist. Um diese problemspezifische Wahl dem Anwender zu uberlassen,fuhrt man den p-Wert ein. Fur die feste Beobachtung {X = x} definiertman den p-Wert als kleinstes Signifikanzniveau, an welchem der Test dieNull-Hypothese H0 verwirft. Damit kann man H0 stets verwerfen, falls manα gleich dem p-Wert wahlt. Ein kleiner p-Wert kann als starke Evidenz gegendie Null-Hypothese interpretiert werden.

B 5.14 Fortsetzung von Beispiel 5.13: p-Wert : Das kleinste α, an welchem der Testunter der Beobachtung {X = x} verwirft, erhalt man wie folgt: Zunachst istδ(x) = 1 nach Gleichung (5.8) aquivalent zu

Page 163: Mathematische Statistik ||

5.2 Das Testen von Hypothesen 155

x ≥ σ√n

z1−α =σ√n

Φ−1(1 − α).

Lost man diese Gleichung nach α auf, so erhalt man

p-Wert(x) = 1 − Φ( x

σ/√

n

).

Offensichtlich ubernimmt hier x die Rolle des vorherigen c.

Allgemeiner als in diesem Beispiel gilt falls X eine stetige Zufallsvariableist:

Ist der Test von der Form δc(X) = 1{T (X)≥c}, so ist

γ(c) := supθ∈Θ0

(T (X) ≥ c

)

die Wahrscheinlichkeit fur einen Fehler 1. Art. Der großte Wert c, furwelchen man H0 verwerfen kann, wenn {X = x} beobachtet wurde, istT (x) und somit

p-Wert(x) = γ(T (x)).

Ist X diskret, so kann man mitunter ein großeres c finden, fur welches H0

verworfen werden kann, siehe Aufgabe 5.9 und Satz 6.6 (ii).

5.2.3 Gute und Stichprobengroße: Indifferenzzonen

In diesem Abschnitt wird vorgestellt, wie gleichzeitig die Fehler 1. und 2.Art kontrolliert werden konnen. Es wird sich herausstellen, dass dies fur be-stimmte Bereiche von Parametern nicht moglich ist. Einen solchen Bereichnennt man Indifferenzzone.

Die Vorgehensweise soll als Fortsetzung von Beispiel 5.13 illustriert wer-den. Die Gutefunktion des Tests δ(X) = 1{X≥σz1−α/

√n} wurde bereits in

Gleichung (5.7) berechnet und hat folgende Gestalt:

Gδ(μ) = 1 − Φ

(

z1−α − μ√

n

σ

)

= Φ

(μ√

n

σ− z1−α

)

. (5.9)

Fur ein kleines σ2 kann die Fehlerwahrscheinlichkeit 2. Art, 1 − Gδ(μ), sehrnah an 1−α sein, falls μ > 0 in der Nahe von Null ist (siehe Abbildung 5.6). Istman daran interessiert H0 zu akzeptieren und H1 zu verwerfen, so muss manauch den Fehler 2. Art kontrollieren. Gibt man sich ein Fehlerniveau β vor,mit welcher Wahrscheinlichkeit ein Fehler 2. Art hochstens auftreten darf, soerhalt man Folgendes: Das kleinste μ = Δ, fur welches die Wahrscheinlichkeit

Page 164: Mathematische Statistik ||

156 5. Konfidenzintervalle und Hypothesentests

Δ

α

1 − β

Gδ(μ)

Abb. 5.7 Gutefunktion des Tests δ(X) = 1{X>z1−ασ/√

n} fur H0 : μ ≤ 0 gegenHΔ : μ > Δ.

fur einen Fehler 2. Art gleich β ist, erfullt

β = Φ(z1−α − Δ

σ/√

n

).

Dies ist gleichbedeutend mit

Δ =σ√n

(z1−α − zβ).

In dem Intervall (0,Δ) kann man den Fehler 2. Art nicht kontrollieren, d.h.in diesem Bereich muss man eine geringere Gute akzeptieren. Dieser Bereichist daher eine Indifferenzzone. Man kann aber H0 gegen HΔ : μ > Δ testenund hat hier einen Fehler 2. Art kleiner als β. Ausgedruckt uber die minimaleGute G0(Δ) := 1−β erhalt man die in Abbildung 5.7 dargestellte Situation.

Bestimmung des Stichprobenumfangs. Eine typische Fragestellung ist,wie hoch bei vorgegebenem α und β der Stichprobenumfang n zu wahlen ist,so dass Gδ(μ) ≥ 1 − β fur alle μ ≥ Δ gilt. Die Antwort darauf erhalt manunmittelbar aus der Gestalt der Gutefunktion in (5.9). Denn aus

β ≥ 1 − Gδ(μ) = Φ

(

z1−α − μ√

n

σ

)

Page 165: Mathematische Statistik ||

5.3 Dualitat zwischen Konfidenzintervallen und Tests 157

erhalt man durch μ ≥ Δ, dass

n ≥ σ2(z1−α + z1−β)2

Δ2. (5.10)

5.3 Dualitat zwischen Konfidenzintervallen und Tests

Ein Konfidenzintervall ist ein zufalliger Bereich, der mit mindestens einervorgegebenen Wahrscheinlichkeit den wahren Parameter uberdeckt. Bei ei-nem Test hingegen wird uberpruft ob ein Wert von Interesse unter Einbezugeiner gewissen Fehlerwahrscheinlichkeit mit den Daten in Einklang gebrachtwerden kann. Liegt etwa der Wert von Interesse in einem Konfidenzintervall,so wurde man dies bejahen und man erhalt aus einem Konfidenzintervalleinen Test. Dies funktioniert auch umgekehrt und fuhrt zu einer nutzlichenDualitat zwischen Konfidenzintervallen und Tests, welche wir in Kapitel 6.3.1nutzen werden. Wir beginnen mit einem Beispiel.

B 5.15 Normalverteilung: Zweiseitiger Gauß-Test uber den Erwartungswert : Wirbetrachten den Fall, dass eine Wissenschaftlerin eine physikalische Theorieuntersucht. Bisher wurde angenommen, dass eine physikalische Konstanteden Wert θ0 hat. Die Wissenschaftlerin glaubt, dass diese These falsch istund mochte sie widerlegen. Dazu untersucht sie das zweiseitige TestproblemH0 : θ = θ0 gegen H1 : θ �= θ0. Sie macht die (zu uberprufende) Annahme,dass X1, . . . , Xn i.i.d. sind mit X1 ∼ N (θ, σ2). Weiterhin sei σ2 bekannt. EinKonfidenzintervall fur θ wurde in Beispiel 5.1 bestimmt: X ± z1−α/2σ/

√n.

Einen Test mit Signifikanzniveau α erhalt man folgendermaßen aus diesemKonfidenzintervall: Die Annahme der Null-Hypothese θ = θ0 sei gleichbedeu-tend damit, dass θ0 in dem Konfidenzintervall liegt, also

θ0 ∈[X − z1−α/2

σ√n

, X + z1−α/2σ√n

]. (5.11)

Mit T (X) :=√

n(X−θ0)/σ ist (5.11) gleichbedeutend mit |T (X)| ≥ z1−α/2, undman erhalt folgenden Test fur H0 : θ = θ0 gegen H1 : θ �= θ0:

δ(X, θ0) = 1{ |√n(X−θ0)|σ ≥z1−α/2

} .

Dies ist in der Tat ein Test mit Signifikanzniveau α fur jedes θ0 ∈ Θ, denn

Pθ0(δ(X) = 1) = 1 − Pθ0

(

X − z1−α/2

σ√n≤ θ0 ≤ X + z1−α/2

σ√n

)

= α

da (5.11) ein (1 − α)-Konfidenzintervall war. Der durch δ gegebene Test istein zweiseitiger Test , weil er sowohl fur kleine (und negative) als auch furgroße (und positive) Werte von T verwirft.

Page 166: Mathematische Statistik ||

158 5. Konfidenzintervalle und Hypothesentests

5.3.1 Aus Konfidenzintervallen konstruierte Tests

Motiviert durch das Beispiel 5.15 erhalt man folgende allgemeine Vorgehens-weise:

Ist[θ(X), θ(X)

]ein (1 − α)- Konfidenzintervall fur θ, so ist

δ(X, θ0) := 1{θ0 /∈[ θ(X), θ(X) ]}ein Test mit Signifikanzniveau α fur H0 : θ = θ0 gegen H1 : θ �= θ0.

Dieser Test halt das Signifikanzniveau α ein, da wie in Beispiel 5.15 gilt, dass

Pθ0(δ(X, θ0) = 1) = 1 − Pθ0

(θ(X) ≤ θ0 ≤ θ(X)

) ≤ α.

5.3.2 Aus Tests konstruierte Konfidenzintervalle

Sei X der Datenraum, d.h. X(Ω) ⊂ X und {δ(X, θ) : θ ∈ Θ} sei eine Familievon Tests, so dass δ(X, θ0) ein Test mit Signifikanzniveau α fur

H0 : θ = θ0 gegen H1 : θ �= θ0

fur alle θ0 ∈ Θ ⊂ R ist. Fur die Beobachtung {X = x} definieren wir denAnnahmebereich der Testfamilie durch

C(x) :={θ ∈ Θ : δ(x, θ) = 0

}.

Gilt weiterhin, dass

C(x) = (a(x), b(x)) ∩ Θ fur alle x ∈ X ,

dann ist [a(X), b(X)] ein (1 − α)-Konfidenzintervall fur θ.

Das Intervall [a(X), b(X)] ist in der Tat ein (1−α)-Konfidenzintervall fur θ,denn es gilt

(a(X) ≤ θ ≤ b(X)

)= Pθ

(δ(X, θ) = 0

)= 1 − Pθ

(δ(X, θ) = 1

) ≥ 1 − α.

In Abbildung 5.8 stellen wir das (1−α)- Konfidenzintervall C(X) := {θ ∈Θ : δ(X, θ) = 0} und den zugehorigen Annahmebereich A(θ0) = {x ∈ X :δ(x, θ0) = 0} des Tests fur H0 : θ = θ0 gegen H1 : θ �= θ0 im BereichC := {(x, θ) : δ(x, θ) = 0} ⊂ X × Θ dar.

Page 167: Mathematische Statistik ||

5.4 Aufgaben 159

Xx

C(x)

b(x)

θ0

θ

A(θ0)

a(x)

Abb. 5.8 Illustration der Zusammenhange zwischen Konfidenzintervall und zweisei-tigen Tests. Der schraffierte Bereich entspricht C =

{(x, θ) : δ(x, θ) = 0

}.

5.4 Aufgaben

Konfidenzintervalle

A 5.1 Konfidenzintervall fur σ2 bei Normalverteilung : Seien X1, . . . , Xn i.i.d. mitX1 ∼ N (μ, σ2), wobei sowohl μ als auch σ unbekannt seien. Zeigen Sie, dass

[n − 1

χ2n−1,1−α/2

s2(X),n − 1

χ2n−1,α/2

s2(X)

]

ein (1 − α)-Konfidenzintervall fur σ2 ist, wobei

s2(X) :=1

n − 1

n∑

i=1

(Xi − X)2,

die Stichprobenvarianz mit dem arithmetischen Mittel X := n−1∑n

i=1 Xi

und χ2n,a das a-Quantil der χ2

n-Verteilung ist.

A 5.2 Konfidenzintervall bei diskreter Gleichverteilung U(0, θ): Es seien X1, . . . , Xn

i.i.d. mit X1 ∼ U(0, θ) mit einem unbekannten θ ∈ N. Es bezeichne X(n) =max{X1, . . . , Xn} das Maximum der Daten. Weisen Sie nach, dass X(n)/θein Pivot fur θ ist und verwenden Sie diese Eigenschaft, um zu zeigen, dass

Page 168: Mathematische Statistik ||

160 5. Konfidenzintervalle und Hypothesentests

[X(n)

(1 − α/2)1/n,

X(n)

(α/2)1/n

]

ein (1 − α)-Konfidenzintervall fur θ ist.

A 5.3 Exponentialverteilung: Konfidenzintervall : Seien X1, . . . , Xn i.i.d. mit X1 ∼Exp(θ) und θ sei der unbekannte zu schatzende Parameter. Das heißt, Xi hatdie Dichte pθ(x) = θe−θx1{x>0}. Weiterhin sei X(1) := min{X1, . . . , Xn} dasMinimum der Daten. Zeigen Sie, dass

[− ln(1 − α/2)nX(1)

,− ln(α/2)nX(1)

]

ein (1 − α)-Konfidenzintervall fur θ ist.

A 5.4 Lineare Regression: Quadratische Faktoren: Seien ε1, . . . , εn i.i.d. und ε1 ∼N (0, σ2) mit bekanntem σ2. Betrachtet werde folgendes lineare Modell

Yi =θ

2X2

i + εi, 1 ≤ i ≤ n.

In Aufgabe 3.21 wurde bereits der Kleinste-Quadrate-Schatzer von θ be-stimmt. Berechnen Sie nun ein (1 − α)-Konfidenzintervall fur θ.

Tests

A 5.5 Mittelwertvergleich unter Normalverteilung : Seien X1, . . . , Xn, Y1, . . . , Yn un-abhangig und normalverteilt, mit Xi ∼ N (μX , σ2

X) und Yi ∼ N (μY , σ2Y ),

i = 1, . . . , n. Dabei seien die Parameter σ2X > 0 und σ2

Y > 0 bekannt und dieMittelwerte unbekannt.

(i) Zeigen Sie, dass

X − Y ±√

σ2X + σ2

Y

nz1−α/2

ein (1−α)-Konfidenzintervall fur die Differenz der Mittelwerte μX −μY

ist.(ii) Konstruieren Sie einen Test zu dem Signifikanzniveau von 95% fur die

Hypothese H0 : μX = μY gegen die Alternative H1 : μX �= μY .(iii) Drucken Sie die Gutefunktion zu dem Test aus Teil (ii) in Abhangigkeit

von Δ = μX − μY aus und skizzieren Sie die Gutefunktion.

A 5.6 Varianzvergleich bei Normalverteilung : Seien X1, . . . , Xn, Y1, . . . , Yn un-abhangig und normalverteilt, mit Xi ∼ N (0, σ2

X) und Yi ∼ N (0, σ2Y ),

i = 1, . . . , n. Dabei seien die Parameter σ2X > 0, σ2

Y > 0 unbekannt. Zei-gen Sie, dass mit S2

X :=∑n

i=1 X2i und S2

Y :=∑n

i=1 Y 2i

Page 169: Mathematische Statistik ||

5.4 Aufgaben 161

[

F−1n,n(α/2)

S2Y

S2X

, F−1n,n(1 − α/2)

S2Y

S2X

]

ein (1−α)-Konfidenzintervall fur den Quotienten σ2Y /σ2

X ist. Fn,n bezeichnethierbei die Verteilungsfunktion der Fn,n-Verteilung.

A 5.7 Delta-Methode: Schatzung der Kovarianz : (Fortsetzung von Aufgabe 4.29)Wir betrachten (X1, Y1), . . . , (Xn, Yn) i.i.d. Ferner sei X = 1

n

∑ni=1 Xi und

Y = 1n

∑ni=1 Yi. Der Momentenschatzer fur Cov(X1, Y1) ist gegeben durch

Tn = T (X,Y ) :=1n

n∑

i=1

(Xi − X)(Yi − Y ).

In Aufgabe 4.29 wurde gezeigt, dass dass√

n (Tn − Cov(X1, Y1)) asympto-tisch N (0, γ2) normalverteilt ist falls nur E(X4

1 ) < ∞ und E(Y 41 ) < ∞ und

ein Ausdruck fur die asymptotische Varianz γ2 durch Momente von (X1, Y1)gefunden.

Konstruieren Sie nun ein approximatives asymptotisches 99% Konfidenz-intervall fur Cov(X1, Y1) mit Hilfe des Momentenschatzers γ2 von γ2.

A 5.8 Exponentialverteilung: Mittelwertvergleich: Seien X1 und X2 unabhangigeZufallsvariablen mit Dichten pi(x) := λie

−λix1{x>0}, i = 1, 2. Die Parameterλ1 > 0 und λ2 > 0 sind unbekannt. Setze θ := λ1/λ2. Zeigen Sie, dass θX1/X2

ein Pivot fur θ ist und konstruieren Sie ein (1 − α)-Konfidenzintervall fur θ.Seien Xi1, . . . , Xin, i = 1, 2 zwei Stichproben von moglicherweise verschie-

denen Exponentialverteilungen. Alle Zufallsvariablen seien unabhangig undXi1 ∼ pi, i = 1, 2. Wir schreiben Xi· :=

∑nj=1 Xij fur i = 1, 2. Zeigen Sie,

dass [X2·X1·

F−1n,n(α/2),

X2·X1·

F−1n,n(1 − α/2)

]

ein (1−α)-Konfidenzintervall fur θ ist und konstruieren Sie damit einen Testmit Signifikanzniveau α fur

H0 : θ = 1 gegen H1 : θ �= 1 .

A 5.9 Poisson-Verteilung: Test : Seien X1, . . . , Xn i.i.d. Poisson-verteilt mit unbe-kanntem Parameter λ > 0.

(i) Verwenden Sie die naturliche suffiziente Statistik, um einen Test mitSignifikanzniveau α fur die Hypothese H0 : λ ≤ λ0 gegen die AlternativeH1 : λ > λ0 zu finden. Konstruieren Sie dazu zunachst einen Test fur dieHypothese λ = λ0 und zeigen Sie, dass die Gutefunktion streng monotonwachsend in λ ist. Benutzen Sie den zentralen Grenzwertsatz, um eineApproximation fur den kritischen Wert zu finden.

(ii) Seien α = 0, 05, n = 200,∑200

i=1 Xi = 2085 und λ0 = 10. Klaren Sie,ob die Hypothese H0 : λ ≤ λ0 verworfen wird und bestimmen Sie denp-Wert.

Page 170: Mathematische Statistik ||

162 5. Konfidenzintervalle und Hypothesentests

A 5.10 Mittelwertvergleich bei Normalverteilung: Gutefunktion: Seien Xi1, . . . , Xini,

i = 1, 2 zwei Stichproben. Alle Zufallsvariablen seien unabhangig und Xij ∼N (μi, σ

2i ), i = 1, 2 und j = 1, . . . , ni. Weiterhin seien μ1, μ2 unbekannt und

σ21 , σ

22 bekannt. Konstruieren Sie einen Test mit Signifikanzniveau α fur

H0 : μ1 = μ2 gegen H1 : μ1 �= μ2 .

Verwenden Sie dazu ein (1 − α)-Konfidenzintervall fur μ1 − μ2. Ist z1−α/2

das (1 − α/2)-Quantil der Standardnormalverteilung, so ist die Gutefunktiongegeben durch

1 − Φ

⎝z1−α/2 − Δ√

σ21

n1+ σ2

2n2

⎠+ 1 − Φ

⎝z1−α/2 +Δ

√σ21

n1+ σ2

2n2

⎠ ,

wobei Δ = μ1 − μ2.

Gute von Tests

A 5.11 Gutefunktionen bei der Gleichverteilung : Seien X1,X2 i.i.d. mit X1 ∼U [θ, θ + 1]. Untersucht werden soll die Hypothese H0 : θ = 0 gegen dieAlternative H1 : θ > 0 mit Hilfe der beiden Tests

T1(X) := 1{X1>0.95}T2(X) := 1{X1+X2>c}

mit c ∈ R.

(i) Bestimmen Sie die Konstante c so, dass beide Tests Level-α-Tests zudem gleichen Niveau α sind.

(ii) Berechnen Sie die Gutefunktion der beiden Tests.(iii) Stellen Sie die Gutefunktionen graphisch dar und erlautern Sie damit,

welcher der beiden Tests an welcher Stelle die bessere Gute besitzt.

Bayesianischer Intervallschatzer

A 5.12 Bayesianischer Intervallschatzer : Eine Population sei normalverteilt mitMittelwert μ und Varianz 100. Der Parameter μ wird als Realisation der Zu-fallsvariablen M ∼ N (175, 60) interpretiert. Eine i.i.d.-Stichprobe der Langen = 100 aus der Population habe das arithmetische Mittel x = 178. Berech-nen Sie die 95%-Intervallschatzer fur μ:

(i) Nur unter Benutzung der Verteilung von M (a priori),(ii) nur unter Benutzung von x (klassisch),(iii) unter Benutzung von M und x (a posteriori).

Page 171: Mathematische Statistik ||

Kapitel 6.

Optimale Tests und Konfidenzintervalle,Likelihood-Quotienten-Tests undverwandte Methoden

In diesem Kapitel studieren wir die Optimalitat von Tests. Zu Beginn wer-den die zentralen Resultate von Neyman und Pearson vorgestellt, welcheeine Klasse von optimalen Tests basierend auf Likelihood-Quotienten be-handeln. Diese Optimalitat gilt zunachst nur unter ganz einfachen Hypo-thesen θ = θ0 gegen θ = θ1. Allerdings lassen sich diese Ergebnisse auch aufeinseitige Hypothesen ubertragen. Schließlich erhalt man optimale Tests furden zweiseitigen Fall unter einer weiteren Einschrankung auf symmetrischeoder unverzerrte Tests. Abschließend werden als Erweiterung verallgemei-nerte Likelihood-Quotienten-Tests behandelt, welche auch fur allgemeinereHypothesen anwendbar sind.

6.1 Das Neyman-Pearson-Lemma

Fur einen statistischen Test δ wurde die Gutefunktion Gδ in Definition 5.9definiert.

Definition 6.1. Ein Test δ∗ mit Signifikanzniveau α heißt uniformly mostpowerful (UMP) fur das Testproblem H0 : θ ∈ Θ0 gegen H1 : θ ∈ Θ1, fallsfur jeden weiteren Test δ mit Signifikanzniveau α gilt, dass

Gδ(θ) ≤ Gδ∗(θ) fur alle θ ∈ Θ1. (6.1)

Ein UMP-Test hat somit eine bessere Gute auf der Alternative H1 als jederandere Test, welcher das vorgegebene Signifikanzniveau α einhalt. Wir werdenim Folgenden zeigen, dass die in Kapitel 5.2 vorgestellten Tests UMP-Testssind. In diesen Beispielen ist die Familie der UMP-Tests zu dem Signifikanz-niveau α von einer Statistik T (X) erzeugt, d.h. der Verwerfungsbereich hat

C. Czado, T. Schmidt, Mathematische Statistik, Statistik und ihre 163Anwendungen, DOI 10.1007/978-3-642-17261-8 6,c© Springer-Verlag Berlin Heidelberg 2011

Page 172: Mathematische Statistik ||

164 6. Optimale Tests und verwandte Methoden

die Form {x ∈ Rn : T (x) ≥ c}. Eine Statistik, die einen UMP-Test erzeugt,

heißt optimale Statistik.Zunachst losen wir den einfachsten Fall: H0 : θ = θ0 gegen H1 : θ = θ1.

Hat X die Dichte oder Wahrscheinlichkeitsfunktion p, so definiert man dieLikelihood-Quotienten-Statistik fur die Beobachtung {X = x} durch

L(x, θ0, θ1) :=p(x, θ1)p(x, θ0)

; (6.2)

wobei L(x, θ0, θ1) := 0 gesetzt wird, falls p(x, θ0) = p(x, θ1) = 0. L nimmtWerte in [0,∞] an. Große Werte von L sprechen hierbei fur die Alterna-tive H1, kleine Werte fur die Null-Hypothese H0. Das Besondere an derLikelihood-Quotienten-Statistik ist, dass sie einen UMP-Test fur H0 : θ = θ0

gegen H1 : θ = θ1 erzeugt:

Satz 6.2 (Neyman-Pearson-Lemma). Betrachte das Testproblem H0 : θ =θ0 gegen H1 : θ = θ1 mit θ0 �= θ1 und den Test δk(X) := 1{L(X,θ0,θ1)≥k}mit k ∈ R

+ ∪ {∞}. Ist δ ein weiterer Test und gilt Gδ(θ0) ≤ Gδk(θ0), so

folgt

Gδ(θ1) ≤ Gδk(θ1).

Beweis. Wir betrachten die n-dimensionale Zufallsvariable X und zeigen all-gemeiner folgende Aussage: Sei Ψ : R

n → [0, 1] eine messbare Funktion undgelte

Eθ0

(Ψ(X)

) ≤ Eθ0

(δk(X)

), (6.3)

so folgt

Eθ1

(Ψ(X)

) ≤ Eθ1

(δk(X)

). (6.4)

Wir nehmen zunachst an, dass k < ∞. Dann ist δk(X)=1{p(X,θ1)−kp(X,θ0)≥0}.Der Schlussel zu dem Beweis ist folgende Beobachtung:

Ψ(x)[p(x, θ1) − kp(x, θ0)] ≤ δk(x)[p(x, θ1) − kp(x, θ0)]. (6.5)

In der Tat, auf A := {p(x, θ1) − kp(x, θ0) ≥ 0} folgt (6.5) aus Ψ(x) ≤ 1; aufA gilt dies wegen Ψ(x)[p(x, θ1)−kp(x, θ0)] ≤ 0. Hat X eine Dichte, so erhaltman die Aussage (6.4) durch Integrieren von (6.5): Aus (6.5) folgt

Rn

Ψ(x)[p(x, θ1) − kp(x, θ0)]dx ≤∫

Rn

δk(x)[p(x, θ1) − kp(x, θ0)]dx

und damit

Page 173: Mathematische Statistik ||

6.1 Das Neyman-Pearson-Lemma 165

Eθ1(Ψ(X)) − Eθ1(δk(X)) ≤ k(Eθ0(Ψ(X)) − Eθ0(δk(X))

).

Dies folgt analog auch, falls X diskret ist. Nach Voraussetzung (6.3) ist dierechte Seite kleiner oder gleich Null und somit folgt Behauptung (6.4).

Da weiterhin Eθi(δk(X)) = Gδk

(θi) fur i = 0, 1 gilt, folgt das Neyman-Pearson-Lemma. Der Fall k = ∞ wird in Aufgabe 6.1 gelost. ��

B 6.1 Likelihood-Quotienten-Tests: In diesem Beispiel klassifizieren wir alle mogli-chen Likelihood-Quotienten-Tests in einem einfachen Fall. Sei X eine diskreteZufallsvariable mit Werten in der Menge {0, 1, 2}. Die Verteilung von X istin der folgenden Tabelle 6.1 spezifiziert.

x p(x, θ) L(x, 0, 1)

θ = 0 θ = 1

0 0.9 0 01 0 0.9 ∞2 0.1 0.1 1

Tabelle 6.1 Die Verteilung der Zufallsvariablen X aus Beispiel 6.1: So ist beispiels-weise Pθ(X = 0) gerade 0.9 fur θ = 0 und 0 fur θ = 1. In der rechten Spalte ist dieLikelihood-Quotienten-Statistik aus Gleichung (6.2) dargestellt.

Es soll H0 : θ = 0 gegen H1 : θ = 1 getestet werden. Dann existieren nur zweiTests zum Signifikanzniveau α < 1: Der erste Test verwirft H0 genau dann,wenn der Likelihood-Quotient ∞ ist, er ist gegeben durch

δ1(X) = 1{L(X,0,1)=∞} = 1{X=1}

zu dem Signifikanzniveau

α = Pθ=0(δ1(X) = 1) = Pθ=0(L(X, 0, 1) = ∞) = Pθ=0(X = 1) = 0.

Der zweite Test verwirft H0 genau dann, wenn der Likelihood-Quotientengroßer oder gleich eins ist. Er ist

δ2(X) = 1{L(X,0,1)≥1} = 1{X∈{1,2}}.

Damit ist δ2 ein Test mit Signifikanzniveau

α = Pθ=0(δ2(X) = 1) = Pθ=0(L(X, 0, 1) ≥ 1) = Pθ=0(X ≥ 1) = 0+0.1 = 0.1 .

Beide Tests sind UMP-Tests bezuglich ihres Signifikanzniveaus α: Fur δ1 istdie Gutefunktion auf H1 gegeben durch

Page 174: Mathematische Statistik ||

166 6. Optimale Tests und verwandte Methoden

Gδ1(1) = Pθ=1(δ1(X) = 1) = Pθ=1(L(X, 0, 1) = ∞)= Pθ=1(X = 1) = 0.9.

δ1 ist UMP-Test, denn fur einen beliebigen Test δ mit Signifikanzniveau 0 istPθ=0(δ(X) = 1) = 0. Dies ist unter θ = 0 nur fur X = 1 moglich und somitist {δ(X) = 1} = {X = 1} und damit δ = δ1. Somit ist δ1 UMP-Test furH0 : θ = 0 gegen H1 : θ = 1 zum Signifikanzniveau 0.

Fur δ2 ist die Gutefunktion auf H1 gerade

Gδ2(1) = Pθ=1(δ2(X) = 1) = Pθ=1(L(X, 0.1) ≥ 1)= Pθ=1(X = 1) + Pθ=1(X = 2) = 0.9 + 0.1 = 1 .

δ2 ist ein UMP-Test fur H0 : θ = 0 gegen H1 : θ = 1 zum Signifikanzniveau0.1. Dies folgt, da der einzige Test mit dem Signifikanzniveau 0.1 gerade{δ(X) = 1} = {X = 2} ist; dieser hat jedoch die Gute Gδ = 0.9. Die erfolgtenBetrachtungen zeigen daruber hinaus, dass der Likelihood-Quotient L eineoptimale Statistik ist.

B 6.2 Normalverteilungstest fur H0 : μ = 0 gegen H1 : μ = ν: Um einen Satellitenzu uberprufen wird ein starkes Signal von der Erde ausgesandt. Der Satellitantwortet durch die Sendung eines Signals von der Intensitat ν > 0 fur nSekunden, falls er funktioniert. Falls er nicht funktioniert, wird nichts gesen-det. Die auf der Erde empfangenen Signale variieren zufallig durch zusatzlicheStorungen des Signals. Die Durchschnittsspannung des Signals Xi in der i-tenSekunde werde fur die Dauer von n Sekunden gemessen. Es wird angenom-men, dass X1, . . . , Xn i.i.d. sind mit X1 ∼ N (μ, σ2) (eine zu uberprufendeAnnahme), dabei sei σ bekannt. Getestet werden soll, ob der Satellit nochfunktioniert, d.h. es soll H0 : μ = 0 gegen H1 : μ = ν getestet werden. DieLikelihood-Quotienten-Statistik fur X = (X1, . . . , Xn)� erhalt man aus derGleichung (6.2),

L(X, 0, ν) =(2πσ2)−n/2 exp

(− 1

2σ2

∑ni=1(Xi − ν)2

)

(2πσ2)−n/2 exp(− 1

2σ2

∑ni=1 X2

i

)

= exp

σ2

n∑

i=1

Xi − nν2

2σ2

)

.

Nach dem Neyman-Pearson-Lemma 6.2 ist L eine optimale Statistik. Jedestrikt monoton wachsende Funktion einer optimalen Statistik ist wieder op-timal, da beide Statistiken denselben Verwerfungsbereich erzeugen. Da

T (X) :=√

nX

σ=

σ

ν√

n

(

ln L(X, 0, ν) +nν2

2σ2

)

Page 175: Mathematische Statistik ||

6.1 Das Neyman-Pearson-Lemma 167

gilt, ist T (X) eine optimale Statistik. Weiterhin ist unter H0 die StatistikT (X) standardnormalverteilt. Somit folgt, dass der Test

δ(X) = 1{T (X)≥z1−α} = 1{X≥ σ√n

z1−α}

ein UMP-Test mit Signifikanzniveau α ist, denn die Wahrscheinlichkeit furden Fehler 1. Art ist gerade Pμ=0(T (X) ≥ z1−α) = 1 − Φ(z1−α) = α. DieWahrscheinlichkeit fur den Fehler 2. Art errechnet sich zu

Pμ=ν(T (X) < z1−α) = Pμ=ν

(√n(X − ν)

σ≤ z1−α −

√nν

σ

)

= Φ

(

z1−α −√

σ

)

.

Nach dem Neyman-Pearson-Lemma ist dies die kleinste Fehlerwahrscheinlich-keit 2. Art. Um die Wahrscheinlichkeit fur die Fehler 1. und 2. Art gleichzeitigunterhalb des Niveaus α zu erhalten, muss folgende Bedingung erfullt sein:

Pμ=0(T (X) ≥ z1−α) ≤ α und Pμ=ν(T (X) ≤ z1−α) ≤ α.

Analog zur Gleichung (5.10) erhalt man, dass man hierfur mindestens einenStichprobenumfang n von

n ≥ σ2

ν2

(z1−α + z1−α

)2 =4σ2 z2

1−α

ν2

benotigt.

Nach diesen einfuhrenden Beispielen kehren wir zur Analyse des Neyman-Pearson-Lemmas zuruck. Als Schlusselstelle erweist sich Gleichung (6.5):

Ψ(x)[p(x, θ1) − kp(x, θ0)] ≤ δk(x)[p(x, θ1) − kp(x, θ0)].

Wir hatten lediglich genutzt, dass Ψ ∈ [0, 1] und δk = 1 auf {x : L(x, θ0, θ1) ≥k} = {p(x, θ1) − kp(x, θ0) ≥ 0} und sonst 0 ist. Allerdings ist dies auf{x : L(x, θ0, θ1) = k} nicht notig. Dort kann δk sogar einen beliebigen Wertannehmen und bleibt nach wie vor optimal. Dies motiviert folgende Definitionund den darauffolgenden Satz:

Definition 6.3. Ein Test δ∗k mit k ∈ R+ ∪ {∞} fur H0 : θ = θ0 gegen

H1 : θ = θ1 heißt Neyman-Pearson-Test, falls

δ∗k(x) = 1{L(x,θ0,θ1)≥k} (6.6)

fur alle x in {x ∈ Rn : L(x, θ0, θ1) �= k}.

Wir nennen einen Neyman-Pearson-Test auch kurz NP-Test. Sei δk der Testaus Satz 6.2. Man beachte, dass (6.6) gerade δ∗k = δk auf der Menge {x :

Page 176: Mathematische Statistik ||

168 6. Optimale Tests und verwandte Methoden

L(x, θ0, θ1) �= k} fordert. Auf der Menge {x : L(x, θ0, θ1) = k} hingegenkann der Neyman-Pearson-Test δ∗k beliebig gewahlt werden.

Satz 6.4. Sei 0 ≤ k < ∞ und sei δ∗k ein Neyman-Pearson-Test fur H0 :θ = θ0 gegen H1 : θ = θ1. Dann ist δ∗k UMP-Test fur H0 gegen H1 mitSignifikanzniveau

Pθ0(δ∗k(X) = 1).

Beweis. Der Beweis erfolgt wie in Satz 6.2, da fur {x : L(x, θ0, θ1) = k} dieGleichung (6.5) aquivalent ist zu 0 ≤ 0. ��

Die fur einen Neyman-Pearson-Test zusatzlich gewonnene Freiheit, denTest auf der Menge {x ∈ R

n : L(x, θ0, θ1) = k} beliebig variieren zu konnen,kann mitunter sehr nutzlich sein, wie folgendes Beispiel belegt.

B 6.3 Diskrete Gleichverteilung: NP-Test : Seien X1, . . . , Xn i.i.d. und diskret gleich-verteilt mit Werten in {1, . . . , θ} und 0 < θ ∈ N, d.h die Wahrscheinlichkeits-funktion von X1 ist

p(x, θ) =1θ1{x∈{1,...,θ}}.

Wir verwenden die Ordnungsgroße x(n) := max{x1, . . . , xn}. Die Likelihood-Quotienten-Statistik fur den Test H0 : θ = θ0 gegen H1 : θ = θ1 mit ganz-zahligem θ1 > θ0 ist

L(x, θ1, θ0) =n∏

i=1

p(xi, θ1)p(xi, θ0)

=

{(θ0θ1

)n 1 ≤ x(n) ≤ θ0

∞ θ0 < x(n) ≤ θ1

.

Wahlt man nunδk(X) := 1{L(X,θ0,θ1)≥k}, (6.7)

so erhalt man fur k = ∞ oder k >(θ0/θ1

)n, dass

Pθ0(δk(X) = 1) = Pθ0(θ0 < X(n) ≤ θ1) = 0

und δk(X) ist ein Test zum Signifikanzniveau 0. Andererseits gilt fur k ≤(θ0/θ1

)n, dass

Pθ0(δk(X) = 1) = Pθ0(1 ≤ X(n) ≤ θ0) = 1.

Nun verwirft der Test permanent und man macht mit Wahrscheinlichkeit 1einen Fehler 1. Art. Das Neyman-Pearson-Konzept ist somit in diesem Szena-rio nicht direkt anwendbar. Ein naturlicher Test ware, anhand des Maximumsder Daten direkt fur H0 oder H1 zu entscheiden. Mit der neu gewonnenenFreiheit durch Satz 6.4 ist gerade dies moglich.

Wir zeigen nun, dass der Test δ∗j (X) := 1{X(n)≥j}, welcher H0 verwirft,falls das Maximum X(n) der Beobachtungen großer oder gleich j ist, ein NP-

Page 177: Mathematische Statistik ||

6.1 Das Neyman-Pearson-Lemma 169

Test ist, falls nur j ≤ θ0. Dazu wahlen wir k =(θ0/θ1

)n in dem Test δk ausGleichung (6.7). Auf der Menge

Ak := {x ∈ Rn : L(x, θ0, θ1) = k}

konnen wir den Test frei wahlen und setzen fur x ∈ Ak

δ∗j (x) := 1{j≤x(n)≤θ0}

und fur x �∈ Ak gerade δ∗j (x) = δk(x). Nach Satz 6.4 ist δ∗j ein UMP-Testmit dem Signifikanzniveau

Pθ0(δ∗j (X) = 1) = Pθ0(X(n) ≥ j)

= 1 − Pθ0(X(n) ≤ j − 1)= 1 − Pθ0(X1 ≤ j − 1, . . . , Xn ≤ j − 1)

= 1 −(

j − 1θ0

)n

.

Wenn j von 1 bis θ0 variiert, erhalt man θ0 verschiedene Signifikanzniveaus.

Der Neyman-Pearson-Test fur H0 : θ = θ0 gegen H1 : θ = θ1 ist imfolgendem Sinn auf der Menge {x : L(x, θ0, θ1) �= k} eindeutig.

Satz 6.5. Sei 0 < k < ∞ und δ ein Test fur H0 : θ = θ0 gegen H1 : θ = θ1.Die Wahrscheinlichkeiten fur einen Fehler 1. und 2. Art unter δ seiennicht großer als die von δk(x) = 1{L(x,θ0,θ1)≥k}. Dann ist δ ein Neyman-Pearson-Test mit δ = δk auf der Menge {x ∈ R

n : L(x, θ0, θ1) �= k}.

Der Beweis dieses Resultats ist Gegenstand der Aufgabe 6.2. In den beidenvorherigen Beispielen ist die Teststatistik optimal gegen jedes Mitglied einerKlasse von einfachen Alternativen. Normalerweise hangen Neyman-Pearson-Tests stark von der Alternative ab, wie das folgende Beispiel zeigt.

B 6.4 Multinomialverteilung: NP-Test : Sei N = (N1, . . . , Nk)� ∼ M(n,θ) mitθ = (θ1, . . . , θk)� ∈ Θ = {θ ∈ R

k+ :

∑ki=1 θi = 1}, d.h. N hat die Wahr-

scheinlichkeitsfunktion an der Stelle n = (n1, . . . , nk)� fur θ ∈ Θ

p(n,θ) =n!

n1!, . . . , nk!θn11 · · · θnk

k 1{ni∈N0,∑k

i=1 ni=n};

hierbei ist N0 = {0, 1, 2, . . . }. Betrachtet werde ein Test fur H0 : θ = θ0

gegen H1 : θ = θ1. Fur θj ∈ Θ schreiben wir θj = (θ1,j , . . . , θk,j), j ∈ {0, 1}.Dann ist die Likelihood-Quotienten-Statistik

Page 178: Mathematische Statistik ||

170 6. Optimale Tests und verwandte Methoden

L(N ,θ0,θ1) =p(N ,θ1)p(N ,θ0)

=k∏

i=1

(θi,1

θi,0

)Ni

;

falls N ∈ Nk0 mit

∑ki=1 Ni = n und 0 sonst. Die Verteilung von L ist im

Allgemeinen fur großes n nicht mehr berechenbar. Spezialfalle sind einfacher:Sei θj,0 > 0 fur alle 1 ≤ j ≤ k. Wahle 0 < ε < 1 und fur l ganzzahlig fest mit1 ≤ l ≤ k und definiere die Alternative θ1 wie folgt:

θl,1 := ε · θl,0

θj,1 = ρ · θj,0 fur alle j �= l mit ρ :=1 − εθl,0

1 − θl,0.

Unter dieser Alternative ist Typ l weniger haufig als unter H0 und die be-dingten Wahrscheinlichkeiten der anderen Typen gegeben, dass Typ l nichtaufgetreten ist, sind unter H0 und H1 gleich. Fur diese Wahl der Alternativegilt, dass

L(N ,θ0,θ1) =k∏

i=1

(θi1

θi0

)Ni

= ρn−Nl · εNl = ρn

ρ

)Nl

.

Der Neyman-Pearson-Test fur H0 : θ = θ0 gegen H1 : θ = θ1 verwirft H0

genau dann, wenn

ρn

ρ

)Nl

≥ k.

Dies ist wegen ε/ρ < 1 aquivalent zu

Nl ≤ ln(k) − ln(ρn)ln(ε) − ln(ρ)

=: cθ1 .

Sei k(α, θ, n) das in Beispiel 5.12 bestimmte (1 − α)-Quantil der Binomi-alverteilung Bin(n, θ). Da Nl ∼ Bin(n, θl,0) unter der Null-Hypothese H0 ist,erhalt man durch den Test

δl(N) = 1{Nl≤k(α,θl,0,n)}

ein Neyman-Pearson-Test mit Signifikanzniveau α, da Pθl,0(Nl ≤ k(α, θl,0, n))≤ α. Da l beliebig gewahlt wurde, erhalt man unterschiedliche Neyman-Pearson-Tests.

Page 179: Mathematische Statistik ||

6.2 Uniformly Most Powerful Tests 171

6.2 Uniformly Most Powerful Tests

Im Allgemeinen ist man neben dem einfachen Fall H0 : θ = θ0 gegenH1 : θ = θ1 nur fur H0 : θ ≤ θ0 gegen H1 : θ > θ0 in der Lage UMP-Testsanzugeben. Man geht hierbei in drei Schritten vor. Zunachst betrachtet mannur H0 : θ = 0. Man kennt dann die Neyman-Pearson-Tests fur jede Alterna-tive Hν : θ = θν , θν > 0 und kann mit dem Neyman-Pearson-Lemma (Satz6.2) auf Optimalitat gegen H1 : θ > 0 schließen. Es folgt, dass diese Tests dasSignifikanzniveau auch fur H0 : θ ≤ 0 einhalten. Schließlich erhalt man durchTranslation den allgemeinen Fall. Wir beginnen mit einem Beispiel, welchesdiese Schritte illustriert.

B 6.5 Normalverteilung: UMP-Test fur μ ≤ μ0 gegen μ > μ0: Wie bereits erwahnt,gehen wir in drei Schritten vor. Seien X1, . . . , Xn i.i.d. mit X1 ∼ N (μ, σ2)und μ ≥ 0. Die Varianz σ2 sei bekannt. Wir betrachten zunachst einen Testfur

H0 : μ = 0 gegen H1 : μ > 0 (6.8)

und zeigen, dass T (X) =√

nX/σ hierfur die optimale Teststatistik ist. Nachdem Neyman-Pearson-Lemma (Satz 6.2) ist T (X) die optimale Teststatistikfur

H0 : μ = 0 gegen Hν : μ = ν (6.9)

fur jedes feste ν > 0. Mit dem Neyman-Pearson-Lemma und Satz 6.5 folgt:Ein Test δ mit Signifikanzniveau α ist UMP-Test fur das Testproblem (6.8)genau dann, wenn die folgenden beiden Bedingungen gelten:

(i) Pμ=0

(δ(X) = 1

)= α

(ii) δ ist NP-Test fur H0 : μ = 0 gegen Hν : μ = ν fur alle ν > 0.

Der Test δ∗(X) = 1{T (X)≥z1−α} erfullt die Bedingungen (i) und (ii), dennder kritische Wert z1−α ist unabhangig von ν.

Fur den zweiten Schritt betrachten wir

H≤ : μ ≤ 0 gegen H> : μ > 0. (6.10)

Der Test δ∗ ist immer noch UMP-Test fur dieses Problem, da −√nμ/σ ≥ 0

fur alle μ ≤ 0 gilt und damit

Pμ(δ∗(X) = 1) = Pμ

(T (X) ≥ z1−α

)= 1 − Φ

(

z1−α − μ√

n

σ

)

≤ α.

Also ist δ∗ auch ein Test mit Signifikanzniveau α fur das Testproblem (6.10).Weiterhin gilt fur jeden Test δ mit Signifikanzniveau α fur (6.10), dassGδ(0) ≤ α. Damit muss Gδ(μ) ≤ Gδ∗(μ) gelten, da δ∗ ein UMP-Test furH0 : μ = 0 gegen H1 : μ > 0 ist. Schließlich folgt, dass der Test

Page 180: Mathematische Statistik ||

172 6. Optimale Tests und verwandte Methoden

δ(X) = 1{√n(X−μ0)

σ ≥z1−α

}

ein UMP-Test fur das Testproblem H0 : μ ≤ μ0 gegen H1 : μ > μ0 mitSignifikanzniveau α ist.

6.2.1 Exponentielle Familien

Fur einparametrige exponentielle Familien erhalt man folgendes Resultat.

Satz 6.6. Sei Θ = R und {p(·, θ) : θ ∈ Θ} eine einparametrige exponen-tielle Familie mit der Dichte oder Wahrscheinlichkeitsfunktion

p(x, θ) = 1{x∈A} · exp(c(θ) · T (x) + d(θ) + S(x)

).

c sei streng monoton wachsend und X ∼ p(·, θ). Dann gilt fur jedes θ0 ∈ Θ:

(i) T (X) ist eine optimale Teststatistik fur H0 : θ ≤ θ0 gegen H1 : θ >θ0.

(ii) Der NP-Test hat die Form 1{T (X)≥c}. Der kritische Wert c ist ge-geben durch F−1

θ0(1 − α), falls Fθ0(t) := Pθ0(T (X) ≤ t) stetig ist.

Andernfalls ist

c ∈ {t : Pθ0(T (X) ≥ t) = α}. (6.11)

Ist die Menge in (6.11) leer, so existiert kein UMP-Test mit Signifi-kanzniveau α fur H0 gegen H1.

(iii) Die Gutefunktion des UMP-Tests mit Signifikanzniveau α ist mono-ton wachsend in θ.

Beweis. Wir geben den Beweis nur fur stetiges Fθ0 . Zunachst zeigen wir, dassunter den folgenden beiden Bedingungen die Aussage des Satzes gilt:

(a) Fur alle t ∈ R und jedes θ1 > θ0 ist der Test δ∗t (X) := 1{T (x)≥t} einNP-Test fur H0 : θ = θ0 gegen H1 : θ = θ1.

(b) Die Gutefunktion von δ∗t ist monoton wachsend in θ.

Nehmen wir an, dass (a) gilt. Sei t so gewahlt, dass Pθ0(T (X) ≥ t) = α gilt(wie in (ii) verlangt). Dann gilt nach (b), dass

Gδ∗t(θ) ≤ Gδ∗

t(θ0) = Pθ0(T (X) ≥ t) = α

fur alle θ ≤ θ0. Nach dem Neyman-Pearson-Lemma, Satz 6.2, ist δ∗t ein UMP-Test mit Signifikanzniveau α fur H≤ : θ ≤ θ0 gegen H1 : θ = θ1. Damit ist

Page 181: Mathematische Statistik ||

6.2 Uniformly Most Powerful Tests 173

δ∗t auch ein Test zu dem Signifikanzniveau α fur H≤ gegen H∗ : θ = θ∗

fur alle θ∗ > θ0. Wie in Beispiel 6.5 folgt nun, dass δ∗t ein UMP-Test mitSignifikanzniveau α fur H≤ : θ ≤ θ0 gegen H> : θ > θ0 ist.

Da die Bedingung (iii) gleichbedeutend mit (b) ist, erhalten wir, dass diebeiden Bedingungen (a) und (b) aquivalent sind zu den Bedingungen (i)-(iii)des Satzes. Es bleibt folglich noch die Gultigkeit der Bedingungen (a) und(b) zu zeigen. Zunachst betrachten wir (a). Sei x ∈ A und θ0 < θ1. Dannist die Likelihood-Quotienten-Statistik in der exponentiellen Familie gegebendurch

L(x, θ0, θ1) :=p(x, θ1)p(x, θ0)

= exp((

c(θ1) − c(θ0)) · T (x) + d(θ1) − d(θ0)

).

Nach Voraussetzung ist c monoton wachsend, d.h. c(θ1) − c(θ0) > 0 undsomit ist L streng monoton wachsend bezuglich T (x). Daher erzeugt T (X)die gleiche Familie von Verwerfungsbereichen wie L(X, θ0, θ1). Nach demNeyman-Pearson-Lemma (Satz 6.2) ist T (X) eine optimale Teststatistik furH0 : θ = θ0 gegen H1 : θ = θ1, falls nur θ1 > θ0. Damit gilt also (a). DerBeweis von (b) wird in Aufgabe 6.3 gefuhrt. ��Bemerkung 6.7. Die Folgerungen des Satzes gelten auch fur die Klasse dermonotonen Likelihood-Quotienten-Familien, siehe auch Aufgabe 6.15.

B 6.6 Normalverteilung: UMP-Test fur H0 : μ ≤ μ0 gegen H1 : μ > μ0: In diesemBeispiel konstruieren wir den UMP-Test aus Beispiel 6.5 direkt aus Satz 6.6.Wir betrachten dazu das Testproblem H0 : μ ≤ μ0 gegen H1 : μ > μ0.Seien X1, . . . , Xn i.i.d. mit X1 ∼ N (μ, σ2). Die Varianz σ2 sei bekannt. Diesist eine exponentielle Familie nach Beispiel 2.11 und Bemerkung 2.10. Wirleiten allerdings eine fur unsere Zwecke gunstigere Darstellung als diejenigein Bemerkung 2.10 her. Sei T (x) := x

√n/σ. Dann gilt

ln p(x, μ) = − 12σ2

n∑

i=1

(xi − μ)2 − n

2ln(2πσ2)

= − 12σ2

n∑

i=1

x2i +

nxμ

σ2− nμ2

2σ2− n

2ln(2πσ2)

=√

σ· T (x) − n

2

(μ2

σ2+ ln(2πσ2)

)− 1

2σ2

n∑

i=1

x2i .

Demnach ist dies eine exponentielle Familie mit c(μ) =√

nμσ . Da c monoton

wachsend in μ ist, kann man Satz 6.6 anwenden und es folgt, dass T (X) eineoptimale Teststatistik fur H0 : μ ≤ μ0 gegen H1 : μ > μ0 ist. Daruber hinausist der Test

δ(X) = 1{ √n(X−μ0)

σ ≥z1−α

}

UMP-Test mit Signifikanzniveau α fur dieses Testproblem.

Page 182: Mathematische Statistik ||

174 6. Optimale Tests und verwandte Methoden

B 6.7 Bernoulli-Zufallsvariablen: UMP-Test fur H0 : θ ≤ θ0 gegen H1 : θ > θ0:Seien X1, . . . , Xn i.i.d. mit Xi ∼ Bin(1, θ) mit θ ∈ Θ = [0, 1], das heißt

Xi ist eine Bernoulli-Zufallsvariable und Pθ(Xi = 1) = θ. Nach Bemerkung2.10 und Beispiel 2.13 ist dies eine exponentielle Familie mit T (x) =

∑ni=1 xi

und c(θ) = ln( θ1−θ ). c ist monoton wachsend in θ und somit ist Satz 6.6

anwendbar. Demzufolge ist T (X) eine optimale Statistik fur das TestproblemH0 : θ ≤ θ0 gegen H1 : θ > θ0. Nach Aufgabe 1.4 ist T (X) binomialverteiltzu den Parametern n und θ. Gilt fur ein k ∈ N0, dass

α =n∑

j=k

(n

j

)

θj(1 − θ)n−j ,

so istδ(X) = 1{T (X)≥k}

ein UMP-Test mit Signifikanzniveau α fur dieses Testproblem nach Satz 6.6.

B 6.8 Normalverteilung mit bekanntem Erwartungswert: Beziehung zur Gamma–Verteilung : Seien X1, . . . , Xn i.i.d. mit X1 ∼ N (μ, σ2). Der Erwartungs-wert μ sei bekannt und die Varianz σ2 unbekannt. Die fur σ2 suffizien-te Teststatistik basiert auf Wi := (Xi − μ)2, 1 ≤ i ≤ n (siehe Bei-spiel 2.17). Da Wi/σ2 ∼ χ2

1-verteilt ist, folgt nach Aufgabe 1.9 (iii), dassWi ∼ Gamma

(12 , 1

2σ2

). Mochte man

H0 : σ2 ≥ σ20 gegen H1 : σ2 < σ2

0

testen, so kann man die Resultate des folgenden Beispiels (Testproblem b)verwenden.

B 6.9 Tests fur den Skalenparameter der Gamma-Verteilung : Seien X1, . . . , Xn i.i.d.mit X1 ∼ Gamma

(p, 1

θ

). Hierbeit sei p bekannt und θ > 0 unbekannt. Es

sollen UMP-Tests fur die beiden Testprobleme

(a) H0 : θ ≤ θ0 gegen H1 : θ > θ0

(b) H0 : θ ≥ θ0 gegen H1 : θ < θ0

konstruiert werden. Wieder liegt nach Bemerkung 2.10 eine exponentielleFamilie vor, mit T (x) =

∑ni=1 xi. Aus Tabelle 2.1 liest man c(θ) = − 1

θ ab.Durch die hier getroffene Wahl der Parametrisierung der Gamma-Verteilungist c streng monoton wachsend in θ und somit Satz 6.6 anwendbar. Demnachist T (X) eine optimale Teststatistik fur H0 : θ ≤ θ0 gegen H1 : θ > θ0. DerTest δ(X) = 1{T (X)≥c} mit einem c so, dass

Pθ0(T (X) ≥ c) = α

gilt, ist UMP-Test mit Signifikanzniveau α fur das Testproblem (a). Da nachGleichung (1.11) und Aufgabe 1.9 (iii) gilt, dass 1

θ

∑ni=1 Xi ∼Gamma(np, 1),

ist c = θ0 · gnp,1,1−α zu wahlen, wobei gp,1/θ,1−α das (1 − α)-Quantil der

Page 183: Mathematische Statistik ||

6.2 Uniformly Most Powerful Tests 175

Gamma(p, 1/θ)-Verteilung bezeichnet. Die Gutefunktion von δ ist gegebendurch

Gδ(θ) = Pθ

( n∑

i=1

Xi ≥ c

)

= Pθ

(1θ

n∑

i=1

Xi ≥ c

θ

)

.

Nun ist 1θ

∑ni=1 Xi gerade Gamma(np, 1)-verteilt. Sei Fnp,1 die Verteilungs-

funktion der Gamma(np, 1)-Verteilung. Dann ist die Gutefunktion gegebendurch

Gδ(θ) = 1 − Fnp,1

(θ0 gnp,1,1−α

θ

)

.

Sie ist monoton wachsend in θ.Fur das Testproblem (b) betrachten wir T (x) := −∑n

i=1 xi und setzenη := 1

θ . Damit erhalten wir eine geeignete Darstellung als exponentielle Fa-milie mit c(η) = η. In dieser Darstellung ist c monoton wachsend in η. AusSatz 6.6 erhalten wir den UMP-Test

δ(X) = 1{T (X)≥−d} = 1{T (X)≤d}.

Wahlen wir analog d = θ0 · gnp,1,α, so halt δ das Signifikanzniveau α ein. DieGutefunktion von δ ist gegeben durch

Gδ(θ) = Pθ

( n∑

i=1

Xi ≤ d

)

= Fnp,1

(θ0 gnp,1,α

θ

)

.

Diese ist monoton fallend in θ, aber monoton wachsend in η.

Uberraschenderweise ist der zweiseitige Gauß-Test kein UMP-Test, fallsman alle Tests zulasst, wie folgendes Beispiel zeigt. Schrankt man sich hinge-gen auf symmetrische oder unverzerrte Tests ein, so erhalt man einen UMP-Test, was auch im folgendem Beispiel gezeigt wird.

B 6.10 Normalverteilung: zweiseitiger Gauß-TestTest fur μ: Seien X1, . . . , Xn i.i.d.mit X1 ∼ N (μ, σ2). Hierbei sei die Varianz σ2 bekannt. Wir interessieren unsfur das Testproblem

H0 : μ = μ0 gegen H1 : μ �= μ0. (6.12)

Sei T (X) :=√

n(X−μ0)σ und za := Φ−1(a). Der zweiseitige Gauß-Test

δα(x) = 1{|T (x)|≥z1−α/2} ist kein UMP-Test zu dem Signifikanzniveau α furdas Testproblem (6.12): Da der Test nicht mit dem Neyman-Pearson-Test furμ = μ0 gegen μ = μ1 fur μ1 > μ0 ubereinstimmt, verstieße dies gegen dieEindeutigkeit des NP-Tests aus Satz 6.2.

Man kann den Test jedoch folgendermaßen rechtfertigen: T (X) ist suffi-zient fur μ, daher kann man sich auf Tests welche auf T (X) basieren be-schranken. Mit Δ :=

√n(μ−μ0)

σ gilt, dass T (X) ∼ N (Δ, 1). Somit ist das

Page 184: Mathematische Statistik ||

176 6. Optimale Tests und verwandte Methoden

Testproblem H0 : μ = μ0 gegen H1 : μ �= μ0 aquivalent zu dem TestproblemH0 : Δ = 0 gegen H1 : Δ �= 0. Da dies ein symmetrisches Testproblem ist unddie zugehorige suffiziente Statistik symmetrisch verteilt ist, ist es vernunftigsich auf Tests, die nur von |T | abhangen, zu beschranken. Unter dieser Be-schrankung ist δα ein UMP-Test mit Signifikanzniveau α, was man wie folgtsieht. Wir bestimmen die Dichte p(·,Δ) von |T |. Sie ist gegeben durch

p(z,Δ) =∂

∂zPΔ

(∣∣T (X)

∣∣ ≤ z

)

=∂

∂z

(PΔ

(− z ≤ T (X) ≤ z))

=∂

∂z

(Φ(z − Δ) − Φ(−z − Δ)

)

= φ(z − Δ) + φ(−z − Δ)

=1√2π

(e−

(z−Δ)2

2 + e−(−z−Δ)2

2

).

Damit ist der Likelihood-Quotient gegeben durch

p(z,Δ1)p(z, 0)

= e−Δ2

12

(eΔ1z + e−Δ1z

2

)

,

dieser ist monoton wachsend in z. Wenn man nur |T (X)| beobachtet, so istδα(X) ein NP-Test fur H0 : Δ = 0 gegen H1 : Δ = Δ1 fur alle Δ1 �= 0.Insbesondere gilt, dass δα ein UMP-Test mit Signifikanzniveau α fur H0 :μ = μ0 gegen H1 : μ �= μ0 ist, falls man nur |T (X)| beobachtet. DieseArgumentation zeigt eine Reduktion durch Symmetrie auf. Daruber hinausgibt es noch eine weitere Rechtfertigung den Test δα anzuwenden: Denn furseine Gutefunktion gilt

Gδα(μ) = 1 − Pμ

(∣∣T (X)

∣∣ ≤ z1−α/2

)= 1 − Pμ

(− z1−α/2 ≤ T (X) ≤ z1−α/2

)

= 1 −(Φ(z1−α/2 − Δ) − Φ(−z1−α/2 − Δ)

).

Damit ist der Verwerfungsbereich am kleinsten, wenn Δ = 0. Dies bedeutet,dass δα unverzerrt ist. Es folgt, dass δα ein UMP-Test mit Signifikanzniveauα fur H0 : μ = μ0 gegen H1 : μ �= μ0 unter allen unverzerrten Tests ist.

B 6.11 Cauchy-Verteilung: Nichtexistenz von UMP-Tests: Seien ε1, . . . , εn i.i.d. mitε1 Cauchy-verteilt und Xi := Δ + εi fur 1 ≤ i ≤ n. Wir interessieren uns furden Test

H0 : Δ = 0 gegen H1 : Δ > 0.

Dann gilt, dass die Dichte von Xi gegeben ist durch

p(x,Δ) =1πn

n∏

i=1

1(1 + (xi − Δ)2

)

Page 185: Mathematische Statistik ||

6.3 Likelihood-Quotienten-Tests 177

und man erhalt den Likelihood-Quotienten

L(x, 0,Δ) =n∏

i=1

(1 + x2i )

(1 + (xi − Δ)2).

Verwerfungsbereiche, die von L erzeugt werden, hangen von Δ ab, denn furn = 1 gilt

L(x, 0,Δ) =(1 + x2)

(1 + (x − Δ)2).

Waren Verwerfungsbereiche, welche von L(x, 0,Δ1) und L(x, 0,Δ2) erzeugtwurden, identisch, so musste ln L(x, 0,Δ1) eine streng monoton wachsendeFunktion von lnL(x, 0,Δ2) sein. Aber

d ln L(x, 0,Δ1)d ln L(x, 0,Δ2)

=d ln L(x, 0,Δ1)/dx

d ln L(x, 0,Δ2)/dx

und

d ln L(x, 0,Δ)dx

=2x

1 + x2− 2(x − Δ)

1 + (x − Δ)2=

2xΔ(Δ − x)(1 + x2)(1 + (x − Δ)2)

.

Diese Funktion wechselt allerdings das Vorzeichen, wenn x variiert. Die Ver-werfungsbereiche hangen folglich von Δ ab, und es kann daher keinen UMP-Test fur das Testproblem H0 : Δ = 0 gegen H1 : Δ > 0 geben, da NP-Testsfur H0 : Δ = 0 gegen H1 : Δ = Δ1 eindeutig sind.

Bemerkung 6.8. Wir fassen die Beobachtung der letzten Beispiele zu-sammen:

• Auch fur exponentielle Familien gibt es nicht notwendigerweiseeinen UMP-Test fur Parametervektoren, siehe Beispiel 6.4.

• In dem eindimensionalen Fall mussen wir uns auf den einseitigenFall beschranken.

• Aber auch im einseitigen Fall muss es nicht notwendigerweise einenUMP-Test geben, siehe Beispiel 6.11.

6.3 Likelihood-Quotienten-Tests

Wie im vorigen Abschnitt erlautert wurde, existieren UMP-Tests nicht im-mer. In diesem Abschnitt wird ein Ausweg hieraus behandelt, indem man dieNeyman-Pearson-Statistik L(x, θ0, θ1) fur das Testproblem H0 : θ = θ0 gegen

Page 186: Mathematische Statistik ||

178 6. Optimale Tests und verwandte Methoden

H1 : θ = θ1 auf beliebige Testprobleme erweitert. Wir fuhren hierzu den sogenannten verallgemeinerten Likelihood-Quotienten-Test ein.

Die Beobachtung werde durch eine n-dimensionale Zufallsvariable X mitDichte oder Wahrscheinlichkeitsfunktion p(·,θ), θ ∈ Θ beschrieben. Wir neh-men an, dass p stetig in θ ist. Weiterhin sei Θ = Θ0 ∪Θ1 mit disjunktem Θ0

und Θ1. Wir untersuchen das Testproblem

H0 : θ ∈ Θ0 gegen H1 : θ ∈ Θ1.

Definition 6.9. Sei {p(·,θ ∈ Θ} ein regulares Modell und Θ = Θ0 + Θ1.Die verallgemeinerte Likelihood-Quotienten-Statistik ist

L(X) :=supθ∈Θ1

p(X,θ)supθ∈Θ0

p(X,θ)

und der zugehorige verallgemeinerten Likelihood-Quotienten-Test

δ(X) := 1{L(X)≥c}

mit c ∈ R+ ∪ {∞}.

Durch die folgenden Schritte kann man einen solchen Test in der Praxiskonstruieren:

(i) Berechne den Maximum-Likelihood-Schatzer θ von θ unter θ ∈ Θ.(ii) Berechne den Maximum-Likelihood-Schatzer θ0 von θ unter θ ∈ Θ0.(iii) Bestimme

λ(x) :=p(x, θ)

p(x, θ0)=

supθ∈Θ p(x,θ)supθ∈Θ0

p(x,θ). (6.13)

(iv) Finde eine Funktion h, die strikt monoton wachsend auf dem Bild vonλ ist, so dass h(λ(x)) eine einfache Form hat und deren Verteilung un-ter H0 bekannt und berechenbar ist. Der verallgemeinerte Likelihood-Quotienten-Test ist dann gegeben durch

δ(X) = 1{h(λ(X))≥h1−α},

wobei h1−α das (1 − α)-Quantil der Verteilung von h(λ(X)) unter H0

ist.

Bei diesem Verfahren stutzt man sich auf die Berechnung von λ an Stelleder direkten Berechnung von L, da λ typischerweise leichter zu berechnen ist.Man beachte, dass

λ(x) = max{

L(x),supθ∈Θ0

p(x,θ)supθ∈Θ0

p(x,θ)

}

= max{L(x), 1}

Page 187: Mathematische Statistik ||

6.3 Likelihood-Quotienten-Tests 179

und folglich monoton wachsend in L(x) ist.

6.3.1 Konfidenzintervalle

Konfidenzintervalle oder Konfidenzbereiche basierend auf verallgemeinertenLikelihood-Quotienten kann man mit Hilfe der Dualitat zwischen Tests undKonfidenzintervallen bestimmen (siehe Abschnitt 5.3.2). Wir betrachten eind-dimensionales Problem, Θ ⊂ R

d und das Testproblem

H0 : θ = θ0 gegen H1 : θ �= θ0.

Zur Bestimmung des Konfidenzbereichs geht man wie folgt vor: Definierec(θ0) durch

α = Pθ0

(supθ∈Θ p(X,θ)

p(X,θ0)≥ c(θ0)

)

= Pθ0(λ(X) ≥ c(θ0))

mit λ(x) aus der Gleichung 6.13. Der zugehorige Likelihood-Quotienten-Testist δ(X) = 1{λ(X)≥c(θ0)}. Mit dem zuvor bestimmten c(θ0) halt er das Sig-nifikanzniveau α ein. Der Annahmebereich des Tests ist gegeben durch

C(x) :={

θ ∈ Θ : p(x,θ) >supθ∈Θ p(x,θ)

c(θ0)

}

.

Hat der Annahmebereich fur alle x im Werteraum die Gestalt

C(x) =[C1(x), C1(x)

]× · · · × [Cd(x), Cd(x)],

so ist C(X) ein (1 − α)-Konfidenzbereich fur θ.B 6.12 Matched Pair Experiments: Zweiseitiger t-Test : Mochte man den Effekt einer

Behandlung bei einer Patientengruppe bestimmen, die sehr inhomogen ist,da sich die Patienten etwa bezuglich des Alters, der Ernahrung oder ande-ren Faktoren unterscheiden, so kann man die Methode der Matched Pairsheranziehen. Hierbei versucht man Patienten, die ahnliche Faktoren aufwei-sen zu Paaren zusammenzufassen. Die Zusammenfassung zu Paaren nenntman ,,matching”. Nach dem Matching wird ein Patient jedes Paares zufalligausgewahlt (mit Wahrscheinlichkeit 1/2) und behandelt, wahrend der anderePatient als Kontrolle dient und ein Placebo erhalt. Das Behandlungsergebniswird bei beiden Patienten gemessen (beispielsweise der Blutdruck nach derBehandlung) und Differenzen gebildet. Wir nehmen an, dass die Differen-zen X1, . . . , Xn unabhangig und identisch verteilt sind mit X1 ∼ N (μ, σ2).Mochte man testen, ob ein systematischer Unterschied zwischen den Patien-tenpaaren besteht, betrachtet man folgendes Testproblem mit μ0 = 0:

Page 188: Mathematische Statistik ||

180 6. Optimale Tests und verwandte Methoden

H0 : μ = μ0 gegen H1 : μ �= μ0. (6.14)

In zwei Schritten bestimmen wir den Test und danach die zugehorigeGutefunktion:

(i) Wir verwenden Θ0 = {(μ, σ2)� ∈ R × R+ : μ = μ0} und Θ = R × R

+.Die zugehorige Dichte von X ist

p(x,θ) =1

(2πσ2)n/2exp

(

− 12σ2

n∑

i=1

(Xi − μ)2)

.

Als nachstes berechnen wir λ aus (6.13). Aus Beispiel 3.21 erhalten wir,dass

supθ∈Θ

p(x,θ) = p(x, θ),

wobei θ der Maximum-Likelihood-Schatzer von θ ist: θ = (X, σ2)� mitσ2 = σ2(X) = 1

n

∑ni=1(Xi − X)2. Fur den Nenner von λ benotigt man

den Maximum-Likelihood-Schatzer σ20 von σ2, wenn der Mittelwert be-

kannt ist und μ = μ0. Dies ist Gegenstand von Aufgabe 3.12(vi), es giltσ2

0 = σ20(X) = 1

n

∑ni=1(Xi − μ0)2. In diesem Beispiel ist es gunstig den

Logarithmus von λ(x) zu betrachten. Setze θ0 := (μ0, σ20)�. Dann ist

lnλ(x) = ln p(x, θ) − ln p(x, θ0)

= − 12σ2

n∑

i=1

(xi − x)2 − n

2ln(2πσ2) +

12σ2

0

n∑

i=1

(xi − μ0)2 +n

2ln(2πσ2

0)

= −n

2− n

2ln(2πσ2) +

n

2+

n

2ln(2πσ2

0)

=n

2ln(

σ20

σ2

)

. (6.15)

Da der Logarithmus eine monoton wachsende Funktion ist, ist der ver-allgemeinerte Likelihood-Quotienten-Test gegeben durch

δ(X) = 1{ σ20(X)

σ2(X)>c

}

fur ein geeignet gewahltes c. Zur Bestimmung von c muss man die Ver-teilung des Quotienten kennen. Wir werden ihn auf bekannte Großenund damit auf eine t-Verteilung zuruckfuhren: Zunachst ist σ2

0 = σ2 +(X − μ0)2 und damit

σ20

σ2= 1 +

(X − μ0)2

σ2.

Mit der Stichprobenvarianz

Page 189: Mathematische Statistik ||

6.3 Likelihood-Quotienten-Tests 181

s2(X) =1

n − 1

n∑

i=1

(Xi − X)2 =n

n − 1σ2(X)

erhalt manσ2

0(X)σ2(X)

= 1 +(X − μ0)2

s2(X) n−1n

.

Mit Tn(X) :=√

n(X−μ0)s(X) ist dies eine monoton wachsende Funktion von

|Tn(X)|. Demnach ist der verallgemeinerte Likelihood-Quotienten-Testaquivalent zu

δ(X) = 1{ |T (X)|>c}

mit geeignetem c. Nach Bemerkung 7.16 ist Tn unter H0 tn−1-verteilt.Somit erhalten wir schließlich den Likelihood-Quotienten-Test zum Sig-nifikanzniveau α durch

δ(X) = 1{ |Tn(X)|>tn−1,1−α/2},

wobei tm,a das a-Quantil einer tm-Verteilung bezeichnet. Dieser Testwird auch als Studentscher t-Test bezeichnet.

(ii) Die Gutefunktion des Tests δ(X) ist gegeben durch

Gδ(θ) = Pθ

(|Tn(X)| > tn−1,1−α/2

).

Um sie zu berechnen, verwendet man, dass fur beliebiges θ ∈ Θ

Tn(X) =√

n(X − μ0)s(X)

∼ tn−1(Δ(θ))

nichtzentral tn−1-verteilt ist (siehe Abschnitt 1.2) mit Nichtzentra-litatsparameter

Δ = Δ(θ) :=√

n(μ − μ0)σ

.

Aus diesem Grund hangt die Gutefunktion von θ nur durch Δ ab. Wei-terhin ist sie symmetrisch um Δ = 0 und monoton wachsend in |Δ|.

(iii) Wir bestimmen einen Konfidenzbereich mit Hilfe der Dualitat von Testsund Konfidenzbereichen (siehe Abschnitt 5.3.2). Fur das TestproblemH0 : μ = μ0 gegen H1 : μ �= μ0 hatten wir den Likelihood-Quotienten-Test δ(X) = 1{|Tn(X)|>tn−1,1−α/2} erhalten. Fur den Annahmebereicherhalten wir

Page 190: Mathematische Statistik ||

182 6. Optimale Tests und verwandte Methoden

C(x) ={μ ∈ R :

∣∣Tn(X)

∣∣ ≤ tn−1,1−α/2

}

={

μ ∈ R :∣∣∣∣√

n(X − μ)

s

∣∣∣∣ ≤ tn−1,1−α/2

}

={

μ ∈ R : −tn−1,1−α/2 ≤ √n

(X − μ)s

≤ tn−1,1−α/2

}

.

Schließlich erhalten wir als (1 − α)-Konfidenzintervall fur μ

X ± s(X)√n

tn−1,1−α/2.

B 6.13 Matched Pair Experiments: Einseitiger Test : In Fortsetzung von Beispiel 6.12betrachten wir nun das einseitige Testproblem

H0 : μ ≤ μ0 gegen H1 : μ > μ0.

Der Likelihood-Quotienten-Test fur dieses Testproblem ist

δ(X) = 1{Tn(X)≥ tn−1,1−α}.

Dieser Test halt das Signifikanzniveau α ein und weiterhin hangt Pθ(Tn(X) ≥tn−1,1−α) von θ nur durch Δ ab und ist daruber hinaus monoton wachsendin Δ.

B 6.14 Differenz zweier Normalverteilungen mit homogener Varianz : Wir betrachtendas folgende Zweistichprobenproblem (siehe auch Beispiel 7.2): Die Zufallsva-riablen X1, . . . , Xn1 , Y1, . . . , Yn2 seien unabhangig und Xi ∼ F := N (μ1, σ

2),i = 1, . . . , n1 und Yi ∼ G := N (μ2, σ

2), i = 1, . . . , n2. Dies ist ein Zweistich-probenproblem mit homogenen Varianzen. Interessiert sind wir an einem Testfur F = G, also an dem Testproblem

H0 : μ1 = μ2 gegen H1 : μ1 �= μ2. (6.16)

Den unbekannten Parameter bezeichnen wir mit θ = (μ1, μ2, σ2)� ∈ Θ :=

R2 × R

+. Dem Testproblem entsprechend setzen wir Θ0 :={θ ∈ Θ : μ1 =

μ2

}, Θ1 :=

{θ ∈ Θ : μ1 �= μ2

}und n := n1 + n2. Fur die Dichte des

Experiments gilt:

ln p(x,y,θ) = −n

2ln(2πσ2) − 1

2σ2

⎝n1∑

i=1

(xi − μ1)2 +n2∑

j=1

(yj − μ2)2

⎠ .

Wir schreiben Z := (X�,Y �)� und entsprechend z ∈ Rn so dass der

Maximum-Likelihood-Schatzer von θ, ahnlich wie in Beispiel 6.12, gegebenist durch θ(Z) = (X, Y , σ2)� mit

Page 191: Mathematische Statistik ||

6.3 Likelihood-Quotienten-Tests 183

σ2(Z) :=1n

( n1∑

i=1

(Xi − X)2 +n2∑

j=1

(Yj − Y )2).

Unter der Null-Hypothese μ1 = μ2 ist der Maximum-Likelihood-Schatzer vonθ0 = (μ1, μ1, σ

2)� gerade θ0(Z) = (μ, μ, σ20)� mit

μ = μ(Z) :=1n

⎝n1∑

i=1

Xi +n2∑

j=1

Yj

und

σ20 = σ2

0(Z) :=1n

⎝n1∑

i=1

(Xi − μ)2 +n2∑

j=1

(Yj − μ)2

⎠ .

Analog zu Gleichung (6.15) ist

λ(z) =p(x,y, θ(z))

p(x,y, θ0(z))=(

σ0(z)σ(z)

)n/2

.

Wie man leicht uberpruft, gilt

n1∑

i=1

(xi − μ(z))2 =n1∑

i=1

(xi − x)2 + n1(x − μ(z))2,

und ein ahnlicher Ausdruck fur yi, so dass

λ(z)2/n = 1 +n1(x − μ)2 + n2(y − μ)2

∑n1i=1(xi − x)2 +

∑n2i=1(yi − y)2

.

Folglich ist der Likelihood-Quotienten-Test gegeben durch

δ(Z) = 1{ |T (Z)| ≥c},

wobei wir

T (Z) :=√

n1 · n2

n

(Y − X

s2(Z)

)

und

s22(Z) :=

n

n − 2σ2(Z) =

1n − 2

⎝n1∑

i=1

(Xi − X)2 +n2∑

j=1

(Yj − Y )2

setzen. Unter H0 : μ1 = μ2 ist T (Z) ∼ tn−2, da unter H0

Page 192: Mathematische Statistik ||

184 6. Optimale Tests und verwandte Methoden

Y − X ∼ N(

0,σ2

n1+

σ2

n2

)

und der hiervon unabhangige Nenner auf eine χ2-Verteilung zuruckzufuhrenist:

(n − 2)s22(Z)

σ2∼ χ2

n1+n2−2;

analog zu Bemerkung 7.16. Aus diesen Uberlegungen ergibt sich der verall-gemeinerte Likelihood-Quotienten-Test zu dem Testproblem (6.16) und demSignifikanzniveau α zu:

δ(Z) = 1{ |T (Z)| ≥tn−2,1−α/2}.

Schließlich bestimmen wir noch die Gutefunktion. Hierzu beachte man,dass T (Z) nicht-zentral t-verteilt ist mit n−2 Freiheitsgraden und Nichtzen-tralitatsparameter

Δ = Δ(θ) =√

n1 · n2

n

(μ2 − μ1

σ

).

Die Gutefunktion ist demnach Gδ(θ) = Pθ(|T (Z)| ≥ tn−2,1−α/2). Erneuthangt sie von θ nur uber Δ ab. Weiterhin ist das (1 − α)-Konfidenzintervallfur μ2 − μ1

Y − X ± tn−2,1−α/2 · s2(Z)√

n

n1 · n2.

B 6.15 Zweistichprobenproblem mit ungleicher Varianz: Behrens-Fischer Problem:Dieses Beispiel behandelt das Zweistichprobenproblem aus Beispiel 6.14, nurmit ungleichen Varianzen. Seien dazu X1, . . . , Xn1 , Y1, . . . , Yn2 unabhangigund Xi ∼ N (μ1, σ

21) fur i = 1, . . . , n1 sowie Yi ∼ N (μ2, σ

22) fur i = 1, . . . , n2.

Wieder bezeichnen wir Z := (X�,Y �)�. Die vollstandige und suffizienteStatistik fur θ = (μ1, μ2, σ

21 , σ2

2)� ist (X, Y , s21, s

22)

� mit

s21 = s2

1(Z) =1

n1 − 1

n1∑

i=1

(Xi − X)2 und s22 = s2

2(Z) =1

n2 − 1

n2∑

j=1

(Yj − Y )2.

Demnach ist der Maximum-Likelihood und UMVUE-Schatzer von Δ := μ2−μ1 gerade Δ(Z) := Y − X. Seine Varianz ist aufgrund der Unabhangigkeitvon X und Y

σ2Δ := Var(Δ) = Var(X) + Var(Y ) =

σ21

n1+

σ22

n2.

Weiterhin istΔ(Z)σΔ

∼ N (0, 1).

Page 193: Mathematische Statistik ||

6.4 Aufgaben 185

Die unbekannte Varianz σ2Δ schatzen wir mit

s2Δ(Z) :=

s21

n1+

s22

n2.

Allerdings hangt die Verteilung des normierten Quotienten Δ(Z)−ΔsΔ(Z) von σ2

1σ22

ab und dieser Quotient ist unbekannt. Aus diesem Grund kann man die Ver-teilung des Quotienten nur schwer explizit bestimmen. Man kann allerdingsmit dem zentralen Grenzwertsatz (Satz 1.31) die Verteilung approximieren:Nach dem zentralen Grenzwertsatz gilt mit n = n1 + n2, dass

Δ(Z) − Δ

sΔ(Z)L−−−−→

n→∞ N (0, 1).

Wir erhalten fur das Testproblem

H0 : Δ = 0 gegen H1 : Δ �= 0

folgenden Likelihood-Quotienten-Test, welcher asymptotisch das Signifikanz-niveau α einhalt:

δ(Z) = 1{ |Δ(Z)|sΔ(Z) >z1−α/2

} .

Ist in der Anwendung die Stichprobenzahl nicht groß genug, kann man eineApproximation durch die t-Verteilung verwenden, die Welch-Approximation:

Δ(Z) − Δ

sΔ(Z)≈ tk − verteilt,

wobei k = c2

n1−1/ (1−c)2

n2−1 und c = s21

ns2Δ

. Wir verweisen auf Welch (1949) furdie Approximation und auf Wang (1971) fur eine numerische Beurteilung desApproximationsfehlers.

6.4 Aufgaben

Das Neyman-Pearson-Lemma

A 6.1 Neyman-Pearson-Lemma: k = ∞: Beweisen Sie das Neyman-Pearson-Lemma, Satz (6.2), fur den Fall, dass k = ∞.

A 6.2 Eindeutigkeit des Neyman-Pearson-Tests: Beweisen Sie den Satz 6.5.

A 6.3 Beweis von Satz 6.6, Teil (b): Beweisen Sie, dass unter den Voraussetzungenvon Satz 6.6 die Aussage (b) in dessen Beweis folgt.

Page 194: Mathematische Statistik ||

186 6. Optimale Tests und verwandte Methoden

Optimale Tests

A 6.4 Exponentialverteilung: Test uber Mittelwert : Seien X1, . . . , Xn i.i.d. und ex-ponentialverteilt zum Parameter θ. Der Mittelwert werde mit μ = θ−1 be-zeichnet. Man interessiert sich fur den Test H0 : μ ≤ μ0 gegen die AlternativeH1 : μ > μ0.

(i) Sei c1−α das (1 − α)-Quantil der χ22n-Verteilung. Zeigen Sie, dass ein

Test mit Verwerfungsbereich{

X ≥ μ0c1−α

2n

}

ein Test mit Signifikanzniveau α ist.(ii) Bestimmen Sie die Gute des Tests aus (i) an der Stelle μ.(iii) Zeigen Sie, dass Φ

(μ0zα

μ +√

nμ−μ0μ

)eine Approximation der Gute des

Tests aus (i) an der Stelle μ ist, wobei Φ die Verteilungsfunktion und zα

das α-Quantil der Standardnormalverteilung bezeichnen.(iv) Gegeben sei folgende Stichprobe:

3, 150, 40, 34, 32, 37, 34, 2, 31, 6, 5, 14, 150, 27, 4, 6, 27, 10, 30, 37.

Berechnen Sie den p-Wert zum Test aus (i) und interpretieren Sie diesenfur gegebenes μ0 = 25.

A 6.5 Trunkierte Binomialverteilung: Optimale Teststatistik : Die abgeschnitteneBinomialverteilung ist fur θ ∈ (0, 1) durch folgende Wahrscheinlichkeitsfunk-tion definiert:

pθ(x) =

(nx

)θx(1 − θ)n−x

1 − (1 − θ)n, x ∈ {1, . . . , n}.

Seien X1, . . . , Xn i.i.d. und verteilt nach der abgeschnittenen Binomialvertei-lung. Finden Sie fur festes θ0 ∈ (0, 1) eine optimale Teststatistik fur

H0 : θ ≤ θ0 gegen H1 : θ > θ0, θ ∈ (0, 1).

A 6.6 UMP-Test: Binomialverteilung : Seien X und Y unabhangige Zufallsvariablenmit X ∼ Bin(n, p1), Y ∼ Bin(m, p2). Es soll ein UMP-Test fur die HypotheseH0 : p1 ≤ p2 gegen die Alternative H1 : p1 > p2 bestimmt werden.

(i) Zeigen Sie, dass sich die gemeinsame Verteilung von X und Y in folgen-der Form darstellen lasst:

P(X = x, Y = y) = exp(θ1T1(x, y) + θ2T2(x, y) + d(θ1, θ2)

)k(x, y).

Dabeiist H0 aquivalent zu H0 : θ1 ≤ 0.

Page 195: Mathematische Statistik ||

6.4 Aufgaben 187

(ii) Sei θ := (θ1, θ2)�. Zeigen Sie, dass die bedingte Verteilung

Pθ(T1 = k1 |T2 = k2)

unabhangig von θ2 ist. Berechnen Sie insbesondere P(0,θ2)(T1 = k1|T2 =k2).

(iii) Konstruieren Sie mit (i) und (ii) einen UMP-Test fur H0 : p1 ≤ p2 gegendie Alternative H1 : p1 > p2 zum Signifikanzniveau α = 0.05.

(iv) Klaren Sie, wie der Test entscheiden wurde, falls n = 8, X = 7 undm = 7, Y = 2 beobachtet wird.

A 6.7 Rayleigh-Verteilung: UMP-Test : Seien X1, . . . , Xn i.i.d. und Rayleigh-verteiltzum unbekannten Parameter θ > 0, d.h. X1 hat die Dichte

pθ(x) =x

θ2e−

x2

2θ2 1{x>0}.

(i) Finden Sie eine optimale Teststatistik Tn fur

H0 : θ ≤ 1 gegen H1 : θ > 1.

(ii) Konstruieren Sie unter Benutzung von Tn einen UMP-Test mit Signi-fikanzniveau α, wobei der kritische Wert c approximativ mit Hilfe deszentralen Grenzwertsatzes bestimmt werden soll.

A 6.8 Weibull-Verteilung: UMP-Test : Seien X1, . . . , Xn i.i.d. und Weibull-verteilt.Hierbei sei der Parameter β > 0 bekannt und der Parameter λ > 0 unbekannt,d.h. X1 hat die Dichte

pλ(x) = λβxβ−1e−λxβ

1{x>0}.

(i) Zeigen Sie, dass T (X) :=∑n

i=1 Xβi eine optimale Teststatistik ist fur

den TestH0 :

1λ≤ 1

λ0gegen H1 :

>1λ0

.

(ii) Sei nun β = 1 gewahlt. Zeigen Sie, dass der kritische Wert c fur einenLevel-α-Test mit Verwerfungsbereich {T (X) ≥ c} gleich q/2λ0 ist, wobeiq das (1− α)-Quantil der χ2

2n-Verteilung ist. Zeigen Sie weiter, dass dieGutefunktion des UMP α-Level Tests gegeben ist durch

1 − F2n(λq/λ0),

wobei F2n die Verteilungsfunktion der χ22n-Verteilung bezeichnet.

(iii) Sei 1/λ0 = 12. Bestimmen Sie eine Stichprobengroße, so dass der 0.01-Level-Test eine Gute von mindestens 0.95 an der Stelle 1/λ1 = 15 besitzt.Approximieren Sie die Verwerfungswahrscheinlichkeit mit Hilfe der Nor-malverteilung.

Page 196: Mathematische Statistik ||

188 6. Optimale Tests und verwandte Methoden

A 6.9 Pareto-Verteilung: Optimaler Test : Eine Zufallsvariable heißt Pareto-verteiltzu den Parametern k, a > 0, falls sie die Dichte

p(x) = akax−a−11{x>k}

besitzt. X := (X1, . . . , Xn)� seien i.i.d. Pareto(k, a)-verteilt. k = 1 sei be-kannt. Zeigen Sie, dass T (X) :=

∑ni=1 ln(Xi) eine optimale Teststatistik fur

H0 :1a≤ 1

a0gegen H1 :

1a

>1a0

ist.

Likelihood-Quotienten

A 6.10 Exponentialverteilung: Zweiseitiger Test : Seien X1, . . . , Xn i.i.d. und ex-ponentialverteilt zum unbekannten Parameter θ. Man ist an dem Test furH0 : θ = 1 gegen H1 : θ �= 1 interessiert.

(i) Bestimmen Sie den Likelihood-Quotienten und den dazugehorigen Testauf Basis einer Stichprobe {X = x}.

(ii) Zeigen Sie, dass der Ablehnungsbereich G von H0 auf Basis desLikelihood-Quotienten die Form

G = G1 ∪ G2, mit G1 = {x ∈ Rn+ : x ≤ c1}, G2 = {x ∈ R

n+ : x ≥ c2}

hat. Dabei ist c1 < c2.

A 6.11 Likelihood-Quotienten-Statistiken und Suffizienz : T (X) sei eine suffizien-te Statistik fur θ. λ∗(T (X)) und λ(X) seien die Likelihood-Quotienten-Statistiken basierend auf T (X) und X. Dann gilt

λ∗(T (x)) = λ(x)

fur alle x aus dem Zustandsraum.

A 6.12 Likelihood-Quotienten-Test: Exponentialverteilung : Es seien zwei unabhangi-ge und jeweils i.i.d.-Stichproben X1, . . . , Xn und Y1, . . . , Ym gegeben. Weiter-hin sei X1 ∼ Exp(θ) und Y1 ∼ Exp(μ) mit θ, μ > 0.

(i) Bestimmen Sie die Likelihood-Quotienten-Statistik fur

H0 : θ = μ gegen H1 : θ �= μ.

(ii) Zeigen Sie, dass die Teststatistik aus (i) aquivalent ist zu dem Test∑n

i=1 Xi∑ni=1 Xi +

∑mi=1 Yi

≥ k∗.

Page 197: Mathematische Statistik ||

6.4 Aufgaben 189

A 6.13 Likelihood-Quotienten-Test: Nichtzentrale Exponentialverteilung : Die Zu-fallsvariablen X1, . . . , Xn seien i.i.d. mit der Dichte

pa,β(x) = β−1 e−x−a

β 1{x>a},

wobei der Parameter β > 0 bekannt und der Parameter a unbekannt sei.Konstruieren Sie einen Likelihood-Quotienten-Test mit Signifikanzniveau αfur das Testproblem H0 : a ≤ a0 gegen H1 : a > a0.

A 6.14 AR(1): Likelihood-Quotienten-Test : Die Zufallsvariablen Z1, . . . , Zn seieni.i.d. mit Z1 ∼ N (0, σ2) und die Varianz σ2 sei bekannt. Gegeben sei eineStichprobe X1, . . . , Xn eines autoregressiven Prozesses der Ordnung 1 (sieheAufgabe 3.7), das heißt

Xi = θXi−1 + Zi

fur 1 ≤ i ≤ n, θ ∈ (−1, 1) und X0 = 0.

(i) Zeigen Sie, dass die Dichte von X := (X1, . . . , Xn)� gegeben ist durch

pθ(x) =1

√(2πσ2)n

exp(

−∑n

i=1(xi − θxi−1)2

2σ2

)

,

mit x ∈ Rn und x0 = 0.

(ii) Zeigen Sie nun, dass der Likelihood-Quotienten-Test fur H0 : θ =0 gegen H1 : θ �= 0 aquivalent ist zu:

Verwerfe H0 ⇐⇒ (∑n

i=2 XiXi−1)2∑n−1

i=1 X2i

≥ k∗.

A 6.15 Monotone Likelihood-Quotienten: Eine Familie von Verteilungen {Pθ : θ ∈Θ} mit Dichte oder Wahrscheinlichkeitsfunktion pθ(x) wird Verteilungsfami-lie mit monotonem Likelihood-Quotienten bezuglich T (X) genannt, falls eineStatistik T (X) existiert, so dass fur alle θ0 < θ1 Pθ0 und Pθ1 verschieden sindund pθ1 (x)/pθ0 (x) eine nicht fallende Funktion von T (x) ist.

Beweisen Sie folgende Aussage: Sei X = (X1, . . . , Xn)� eine i.i.d.-Stich-probe aus einer Verteilungsfamilie mit monotonem Likelihood-Quotientenbezuglich T (X). Dann gilt fur jedes θ0, dass T (X) eine optimale Teststa-tistik fur H0 : θ ≤ θ0 gegen H1 : θ > θ0 ist (siehe auch Bemerkung 6.7).

Anwendungsbeispiele

A 6.16 Likelihood-Quotienten-Test: Beispiel : Auf zwei Maschinen A und B wirdTee abgepackt. Es werde angenommen, dass die Fullgewichte der beidenMaschinen normalverteilt mit gleicher aber unbekannter Varianz σ2 seien.Eine Stichprobe vom Umfang nA = 10 aus der Produktion der Maschi-ne A liefert ein durchschittliches Fullgewicht von XA = 140 g und einer

Page 198: Mathematische Statistik ||

190 6. Optimale Tests und verwandte Methoden

Stichprobenvarianz s2A = 1

nA−1

∑nA

i=1(Xi,A − XA)2 = 25 g2. Eine Stichpro-be aus der Produktion der Maschine B vom Umfang nB = 8 ergibt eindurchschittliches Fullgewicht von XB = 132 g und einer Stichprobenvarianzs2

B = 20.25 g2. Testen Sie mit dem Likelihood-Quotienten-Test, ob die Ma-schine A mit einem großeren durchschnittlichen Fullgewicht arbeitet als dieMaschine B. Verwenden Sie hierzu das Signifikanzniveau α = 0.05.

A 6.17 Zweistichproben-Modell: Beispiel : Folgende Daten beziehen sich auf ein Ex-periment bezuglich der Auswirkung einer Dungungsmethode auf das Pflan-zenwachstum. Die Kontrollgruppe (A) erhielt keine Dungung, wohingegendie Behandlungsgruppe (B) gedungt wurde. Das Pflanzenwachstum wurdein pounds per acre (1 lb/acre = 112.1 kg/km2) erhoben und ergab folgendeMesswerte:

Gruppe A: xi = 794 1800 576 411 897

Gruppe B: yi = 2012 2477 3498 2092 1808.

Verwenden Sie das Zweistichproben-Modell und nehmen Sie an, dass beideStichproben normalverteilt mit gleicher Varianz seien; Erwartungswerte alsauch Varianz sind unbekannt.

(i) Finden Sie ein 95%-Konfidenzintervall fur μ1 − μ2.(ii) Es soll zum Signifikanzniveau α = 0.05 getestet werden, ob die Dungungs-

methode den Ertrag tatsachlich verbessert. Geben Sie den Likelihood-Quotienten-Test und die zugehorige Entscheidung fur das Signifikanzni-veau α = 0.05 an.

Page 199: Mathematische Statistik ||

Kapitel 7.

Lineare Modelle - Regression undVarianzanalyse (ANOVA)

7.1 Einfuhrung

Ziel von linearen Modellen ist es, Abhangigkeiten zwischen einer Zielvariablenund beobachteten Einflussgroßen zu studieren. Die Zielvariable Y wird auchals abhangige oder endogene Variable bezeichnet, im Englischen wird der Be-griff Response verwendet. Die bekannten Einflussgroßen x1, . . . , xk werden alsKovariablen, unabhangige oder exogene Variablen bezeichnet. In den line-aren Modellen wird die Zielvariable Y nicht nur einmal, sondern n-mal, etwaan verschiedenen Patienten mit jeweils unterschiedlichen Kovariablen beob-achtet. Wir nehmen an, dass die n Zielvariablen Y1, . . . , Yn unabhangig sindund bezeichnen ihre beobachteten Werte mit y1, . . . , yn. Fur jede Beobach-tungseinheit Yi konnen die Kovariablen unterschiedlich sein, und wir ordnendie Werte xi1, . . . , xik der Beobachtungseinheit Yi zu. Diese Modellierungwird zunachst durch einige Beispiele illustriert.

B 7.1 Einfache lineare Regression: In einem Unternehmen werden verschiedene Pro-dukte hergestellt. Es soll der Einfluss der Ausgaben fur Werbung auf denJahresumsatz eines jeden Produktes analysiert werden. Mit Yi sei der Jah-resumsatz von Produkt i bezeichnet und durch xi die Ausgaben pro Jahr,i = 1, . . . , n. Den Zusammenhang zwischen Yi und xi modelliert man in einereinfachen linearen Regression wie folgt:

Yi = β0 + β1xi + εi,

fur i = 1, . . . , n. Die zufalligen Fehler ε1, . . . , εn seien i.i.d. und ε1 ∼ N (0, σ2).Die Fehlervarianz σ2 > 0 und die Regressionsparameter β0, β1 ∈ R sindunbekannt und die Aufgabe der statistischen Analyse wird es sein, diese zuschatzen.

B 7.2 Zweistichprobenproblem: Oft hat man verschiedene Gruppen, deren Eigen-schaften verglichen werden sollen. In diesem Beispiel zeigen wir, wie diesesZweistichprobenproblem als einfache lineare Regression dargestellt werden

C. Czado, T. Schmidt, Mathematische Statistik, Statistik und ihre 191Anwendungen, DOI 10.1007/978-3-642-17261-8 7,c© Springer-Verlag Berlin Heidelberg 2011

Page 200: Mathematische Statistik ||

192 7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)

kann. Beginnend mit dem Beispiel 7.1 wurde Produkt 1 im Gegensatz zuProdukt 2 nicht beworben und man mochte die Steigerung des Jahresumsat-zes durch die Werbung untersuchen. Hierfur sollen die Umsatze verschiedenerHandler herangezogen werden. Beobachtet werden Y11, . . . , Y1n1 Umsatze desProduktes 1 und Y21, . . . , Y2n2 Umsatze des Produktes 2. Im Zweistichpro-benproblem nimmt man an, dass die Darstellung

Y1i = μ1 + ε1i, i = 1, . . . , n1

Y2i = μ2 + ε2i, i = 1, . . . , n2

(7.1)

mit ε11, . . . , ε1n1 , ε21, . . . , ε2n2 i.i.d. und ε11 ∼ N (0, σ2) gilt. Es liegen demnachnormalverteilte Fehler mit homogenen Varianzen vor, d.h. die Varianz inder ersten Gruppe ist gleich der Varianz in der zweiten Gruppe (siehe dazuBeispiel 6.15). Man kann das Modell aus (7.1) auch noch anders darstellen:Definiere

Yi :=

{Y1i, falls i = 1, . . . , n1

Y2(i−n1), falls i = n1 + 1, . . . , n1 + n2.

Nun fuhren wir eine Indikatorvariable (eine so genannte Dummy-Variable)als qualitative Kovariable ein: xi := 1{1≤i≤n1} fur i = 1, . . . , n1 + n2. Damitkann das Modell (7.1) als einfache lineare Regression dargestellt werden:

Yi = β0 + β1xi + εi, (7.2)

mit β0 := μ2 und β1 := μ1 − μ2 und den entsprechend nummeriertenε1, . . . , εn1+n2 .

B 7.3 Bivariate Regression: Mochte man zwei Einflussfaktoren wie beispielsweiseWerbekosten (x1i) und Preis (x2i) in die Analyse einschließen, so kann manfolgendes lineares Modell verwenden:

Yi = β0 + β1x1i + β2x2i + εi, i = 1, . . . , n.

B 7.4 Einstichprobenproblem: Die Beobachtung von i.i.d. und normalverteilten Da-ten fallt ebenfalls in diese Modellklasse: Durch

Yi = μ + εi, i = 1, . . . , n

mit ε1, . . . , εn i.i.d. und ε1 ∼ N (0, σ2) erhalten wir eine einfache lineare Re-gression wie in Gleichung (7.2) mit β0 = μ, β1 = 1 und x1 = · · · = xn = 0.

Page 201: Mathematische Statistik ||

7.1 Einfuhrung 193

7.1.1 Das allgemeine lineare Modell

Motiviert durch die oben dargestellten Beispiele stellen wir nun das allgemei-ne lineare Modell vor. Der Zusammenhang zwischen der Zielvariablen Y undden Kovariablen xi1, . . . , xik wird wie folgt modelliert.

Definition 7.1. Ein Modell heißt allgemeines lineares Modell, falls:

(i) Fur i = 1, . . . , n gilt, dass

Yi = β0 + β1xi1 + · · · + βkxik + εi. (7.3)

(ii) Die Fehler ε1, . . . , εn sind i.i.d. mit ε1 ∼ N (0, σ2) und σ > 0.

Hierbei nennen wir β := (β0, . . . , βk)� die Regressionsparameter . Der Para-meter β0 wird als Interzeptparameter bezeichnet, er legt ein mittleres Niveaufest. Es konnen aber auch Modelle mit festem β0 = 0 betrachtet werden. βund σ sind die unbekannten und zu schatzenden Parameter des Modells.

Lineare Modelle lassen sich auch ohne die Normalverteilungsannahme in(ii) untersuchen. Die in diesem Kapitel vorgestellten Optimalitatsaussagenund die daruber hinaus gewonnenen Verteilungsaussagen und damit kon-struierten Tests gelten allerdings in dieser Form nur unter (ii). Auch dieVarianzhomogenitat lasst sich abschwachen (siehe Bemerkung 7.2(ii)). Fallsfur den Fehlervektor ε := (ε1, . . . , εn)� die Bedingung (ii) gilt, schreiben wirkurz

ε ∼ Nn(0, σ2In),

wobei In ∈ Rn×n die Einheitsmatrix ist.

Sind die Kovariablen xi1, . . . , xik quantitativer Natur, so spricht man vonmultipler Regression. Sind die Kovariablen alle qualitativer Natur (wie zumBeispiel blau/schwarz), so bezeichnet man das entsprechende lineare Modellals ein Model zugehorig zur Varianzanalyse (siehe dazu Kapitel 7.4). Dafurwird auch der Begriff Analysis of Variance oder kurz ANOVA verwendet. Be-obachtet man sowohl qualitative als auch quantitative Kovariablen, so sprichtman von Kovarianzanalyse.

B 7.5 p-Stichprobenproblem: Als Beispiel eines p-Stichprobenproblems sollen p ≥ 2Behandlungsmethoden verglichen werden. Dafur erhalten nk Patienten dieBehandlung k fur k = 1, . . . , p. Sei n := n1 + · · · + np der Gesamtstichpro-benumfang und bezeichne Ykl das Behandlungsergebnis des l-ten Patientenin der Gruppe mit Behandlungsmethode k. Im p-Stichprobenproblem wirdfolgendes Modell untersucht:

Ykl = βk + εkl, k = 1, . . . , p, l = 1, . . . , nk.

Page 202: Mathematische Statistik ||

194 7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)

Man kann dieses Modell als allgemeines lineares Modell mit qualitativen Ko-variablen ohne Interzept aufschreiben:

Y =

⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

Y11

...Y1n1

Y21

...Y2n2

Y31

...Y(p−1)np−1

Yp1

...Ypnp

⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

=

⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

1...10...00...00...0

⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

·β1+

⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

0...01...10...00...0

⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

·β2+· · ·+

⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

0...00...00...01...1

⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

·βp+

⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

ε11...ε1n1

ε21...ε2n2

ε31...ε(p−1)np−1

εp1

...εpnp

⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

.

Das p-Stichprobenproblem wird auch als One-Way-Layout bezeichnet.

Bemerkung 7.2. Zu der Definition des linearen Modells (Definition 7.1) istFolgendes zu bemerken:

(i) Das Modell (7.3) wird als lineares Modell bezeichnet, da es linear in denParametern β0, β1, . . . , βk ist. Man beachte, dass das Modell

Yi = β0 + β1xi + β2x2i + εi

ebenso linear in β0 und β1 ist. Man kann lineare Modelle leicht auf dieForm

Yi = β0 + β1g1(xi1, . . . , xik) + · · · + βpgp(xi1, . . . , xik) + εi

erweitern, wobei g1, . . . , gp bekannte, deterministische Funktionen sind.Im Gegensatz dazu ist

Yi = eβ0+β1xi + εi

nicht linear in β0 und β1. Derartige nicht-lineare Fragestellungen findetman oft in der Anwendung. Wir stellen exemplarisch ein Experiment ausder Chemie in Aufgabe 7.5 vor. Eine detaillierte Behandlung von nicht-linearen Regressionsmodellen findet man in Seber und Wild (2003).

(ii) Im Punkt (ii) der Definition 7.1 haben wir fur die Fehlervariablen εi an-genommen, dass sie i.i.d. und normalverteilt mit Varianz σ2 sind. Diesimpliziert die Varianzhomogenitat der Fehler, Var(εi) = σ2. Fur dieSchatzung von β und σ2 genugt allerdings die Annahme von unkorrelier-ten Fehlern vollig, und zwar: E(εi) = 0, Var(εi) = σ2 und Cov(εi, εj) = 0fur alle 1 ≤ i �= j ≤ n. Diese Annahme ist allerdings unzureichend, wenn

Page 203: Mathematische Statistik ||

7.1 Einfuhrung 195

man statistische Hypothesentests durchfuhren und Konfidenzaussagentreffen will.

7.1.2 Die Matrixformulierung des linearen Modells

In diesem Abschnitt entwickeln wir eine kompakte Schreibweise fur lineareModelle. Setze

ξi := β0 + β1xi1 + · · · + βkxik

fur i = 1, . . . , n. Mit der Zielvariable Y = (Y1, . . . , Yn)� und dem Erwar-tungswertvektor ξ := (ξ1, . . . , ξn)� kann man das lineare Modell (7.3) als

Y = ξ + ε (7.4)

mit ε ∼ Nn(0, σ2In) schreiben. Bezeichnet weiterhin

X :=

⎜⎝

1 x11 · · · x1k

......

. . ....

1 xn1 · · · xnk

⎟⎠

die Designmatrix , so ist ξ = Xβ. Die Zeilen von X seien mit xi :=(1, xi1, . . . , xik)� ∈ R

p, p := k + 1 bezeichnet. Dann gilt

ξi = x�i β

fur i = 1, . . . , n. Fur die Spalten der Designmatrix X verwenden wir dieNotation xj = (x1j , . . . , xnj)� ∈ R

n fur j = 1, . . . , k. Dann ist

ξ = β01n + β1x1 + · · · + βkxk

mit 1n := (1, . . . , 1)� ∈ Rn. Sei r ≤ p der Rang der Matrix X. Der r-

dimensionale, lineare Unterraum

WX :={a01n + a1x

1 + · · · + akxk : a1, . . . , ak ∈ R}

(7.5)

wird von den Spalten der Designmatrix X aufgespannt.

Wir nennen

Y = Xβ + ε (7.6)

die koordinatengebundene Darstellung von (7.3).

In der koordinatengebundenen Darstellung gilt ξ = Xβ und ξ ∈ WX

und die Parameter (β, σ2)� ∈ Θ := Rp × R

+ sind zu schatzen. Die fol-

Page 204: Mathematische Statistik ||

196 7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)

gende, koordinatenfreie Darstellung erlaubt eine einfachere Formulierung invielen Fallen. Hierbei geht man von Gleichung (7.4) aus, ohne direkten Bezugzu X.

Sei W ein beliebiger, linearer, r-dimensionaler Unterraum von Rn. Dann

heißt

Y = ζ + ε (7.7)

mit ζ ∈ W die koordinatenfreie Darstellung des linearen Modells.

In dieser Darstellung ist (ζ, σ2) ∈ Θ := W×R+ zu schatzen. Aus Gleichung

(7.6) erhalt man stets eine koordinatenfreie Darstellung durch W := WX ,wobei r = Rang(X). Hat X vollen Rang, so gelingt auch der Ruckweg (sieheSatz 7.8). In beiden Fallen gilt nach Definition 7.1 die Normalverteilung derFehler, ε ∼ Nn(0, σ2In).

B 7.6 Beispiele fur die Matrixformulierung des linearen Modells: Wir stellen eineReihe von Beispielen vor, welche die obige Notation illustrieren.

(i) Das Einstichprobenproblem Yi = μ + εi wird mit

X =

⎜⎝

1...1

⎟⎠

und p = 1 = r dargestellt, d.h. k = 0 und β0 = μ.(ii) Die einfache lineare Regression aus Beispiel 7.1, Yi = β0+β1xi +εi, lasst

sich darstellen durch

X =

⎜⎝

1 x1

......

1 xn

⎟⎠ , (7.8)

falls nicht alle xi gleich sind, mit p = r = 2.(iii) Das p-Stichprobenproblem

Ykl = βk + εkl (7.9)

mit k = 1, . . . , p, l = 1, . . . , nk kann durch

X =

⎜⎜⎜⎜⎝

1n1 0 · · · 0

0 1n2

......

. . ....

0 0 0 1np

⎟⎟⎟⎟⎠

, (7.10)

Page 205: Mathematische Statistik ||

7.2 Schatzung in linearen Modellen 197

mit n =∑p

j=1 nj dargestellt werden. X hat vollen Rang p. Wir stellennoch eine alternative Parametrisierung des p-Stichprobenproblems dar,welche sich besser interpretieren lasst: Definiere den Gesamtmittelwert(auch Overall Mean genannt) durch

μ :=1p

p∑

j=1

βj

und die Abweichung der j-ten Gruppe von μ durch

αj := βj − μ, fur j = 1, . . . , p.

Dann gilt βj = αj + μ fur alle j = 1, . . . , p und∑p

j=1 αj = 0. Damitlasst sich (7.9) in Matrixform darstellen als

Y = X∗β∗ + ε

mit

β∗ =

⎜⎜⎜⎝

μα1

...αp

⎟⎟⎟⎠

∈ Rp+1

und

X∗ =

⎜⎜⎜⎜⎝

1n1 1n1 0 · · · 0... 0 1n2

......

.... . .

...1np

0 0 0 1np

⎟⎟⎟⎟⎠

=(1n X

) ∈ Rn×(p+1).

Somit gilt Rang(X∗) = p �= Anzahl der Spalten von X∗. Man erhalteine Parametrisierung, welche keinen vollen Rang hat, allerdings lassensich die Parameter besser interpretieren.

7.2 Schatzung in linearen Modellen

In diesem Abschnitt sollen die Parameter in linearen Modellen geschatzt wer-den, d.h. im linearen Modell mit koordinatengebundener Darstellung (7.6) dieParameter (β, σ2) und im linearen Modell in koordinatenfreier Darstellung(7.7) die Parameter (ζ, σ2). Wie wir im p-Stichprobenmodell in Beispiel 7.6(iii) gesehen haben, ist es mitunter sinnvoll βi − βj zu schatzen. Demnachmussen in manchen Fallen auch Funktionen von β geschatzt werden. Das

Page 206: Mathematische Statistik ||

198 7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)

Ziel ist es, hierfur UMVUE-Schatzer zu bestimmen. Wir beginnen mit einergeeigneten Darstellung.

7.2.1 Die kanonische Form

Um UMVUE-Schatzer fur ζ in dem koordinatenfreien linearen Modell aus(7.7) zu erhalten, beginnen wir mit einer geeigneten Parametrisierung desr-dimensionalen linearen Unterraums W , mit r ≤ n. Dazu nutzen wireine Transformation welche zu unabhangigen Zufallsvariablen fuhrt. Mit demGram-Schmidt-Verfahren (siehe Fischer (1978) auf Seite 193) findet maneine orthonormale Basis von R

n gegeben durch v1, . . . ,vn ∈ Rn, so dass

die ersten r Vektoren v1, . . . ,vr den linearen Unterraum W aufspannen.Mit 〈u,v〉 :=

∑ni=1 uivi sei das Skalarprodukt und mit ‖u‖:= √〈u,u〉 die

zugehorige Norm bezeichnet. Die Orthonormalitat der Vektoren v1, . . . ,vn

ist gleichbedeutend mit

〈vi,vj〉 ={

1 fur i = j,0 sonst und ‖ vi ‖2= 1, (7.11)

fur alle 1 ≤ i, j ≤ n. Da {v1, . . . ,vn} eine Basis des Rn bildet, lasst sich jeder

Vektor t ∈ Rn darstellen als

t =n∑

i=1

〈t,vi〉vi. (7.12)

Aufgrund der Orthonormalitat (7.11) erhalt man fur die Norm

‖ t ‖2=n∑

i=1

t2i =n∑

i=1

〈t,vi〉2.

Gilt tW ∈ W , so erhalt man die Darstellung durch die ersten r Basiselemente:

tW =r∑

i=1

〈tW ,vi〉vi, (7.13)

da 〈tW ,vi〉 = 0 fur i > r. Die Koordinaten des Vektors vi seien mitv1i, . . . , vni bezeichnet. Definiere

Zi := 〈Y ,vi〉 und ηi := 〈ζ,vi〉. (7.14)

Mit der linearen Transformation gegeben durch

A :=(v1, . . . ,vn

)� ∈ Rn×n (7.15)

Page 207: Mathematische Statistik ||

7.2 Schatzung in linearen Modellen 199

erhalten wir die Darstellung

Z = AY und η = A ζ. (7.16)

Aus (7.12) folgt, dass

Y =n∑

i=1

〈Y ,vi〉vi =n∑

i=1

Zivi (7.17)

nach Definition von Zi aus Gleichung (7.14). Fur ein ζ ∈ W gilt nach Glei-chung (7.13) die Darstellung

ζ =r∑

i=1

〈ζ,vi〉vi =r∑

i=1

ηivi (7.18)

und daruber hinaus

ηi = 〈ζ,vi〉 = 0 fur i > r. (7.19)

Die Transformation von Y = ζ + ε auf Z = AY = η + Aε fuhrt zu un-abhangigen Komponenten von Z, wie folgender Satz zeigt.

Satz 7.3. Sei in einem allgemeinen linearen Modell Z = (Z1, . . . , Zn)� :=AY . Dann gilt:

(i) Die Zufallsvariablen Z1, . . . , Zn sind unabhangig.(ii) Zi ∼ N (ηi, σ

2) fur i = 1, . . . , n.

Beweis. Wir verwenden die obige orthonormale Basis {v1, . . . ,vn} von Rn,

deren ersten r Vektoren den linearen Unterraum W aufspannen, und die ko-ordinatenfreie Darstellung aus (7.7). Die Aussage des Satzes gilt unabhangigvon der Darstellung. Nach (7.7) und Lemma 1.20 ist Y ∼ Nn(ζ, σ2In), wobeiIn die n-dimensionale Einheitsmatrix ist. Mit Gleichung (7.16) folgt ebenso,dass

Z = AY ∼ N (A ζ, σ2AIn A�) = N (η, σ2 AA�).

Wegen der Orthonormalitat der vi (siehe Gleichung (7.11)) folgt, dass

AA� =

⎜⎝

v�1

...v�

n

⎟⎠ · (v1, . . . ,vn) =

⎜⎜⎜⎝

〈v1,v1〉 〈v1,v2〉 · · · · · ·〈v2,v1〉 〈v2,v2〉...

. . .〈vn,v1〉 〈vn,vn〉

⎟⎟⎟⎠

= In.

Page 208: Mathematische Statistik ||

200 7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)

Somit erhalt man, dass Z ∼ Nn(η, σ2In) und Zi ∼ N (ηi, σ2) fur i = 1, . . . , n.

Die Kovarianz Cov(Zi, Zj) = 0 verschwindet und deswegen sind Z1, . . . , Zn

unabhangig nach Aufgabe 1.39. ��Fur Y = ζ + ε folgt durch Multiplikation mit A auf beiden Seiten, dass

Z = AY = Aζ + Aε = η + ε∗,

wobei wir ε∗ := Aε setzen. Durch diese Darstellung bezuglich der Basis{v1, . . . ,vn} werden wir die geometrischen Eigenschaften des linearen Mo-dells nutzen konnen.

Bemerkung 7.4. Wie in (7.19) gezeigt, verschwinden die Koordinatenηr+1, . . . , ηn von η und es folgt

η = (η1, . . . , ηr, 0, . . . , 0)�.

Demnach sind Z1, . . . , Zn unabhangig und Zi ∼ N (ηi, σ2) nach Satz 7.3, also

Zr+1, . . . , Zn i.i.d. ∼ N (0, σ2).

Definition 7.5. Sei {v1, . . . ,vn} eine orthonormale Basis von Rn so, dass

v1, . . . ,vr den linearen Unterraum W aufspannen und A :=(v1, . . . ,vn

)�.Dann heißt

Z := AY = η + ε∗ (7.20)

die kanonische Form des allgemeinen linearen Modells.

Gilt die koordinatengebundene Darstellung (7.6), so hat man in der kano-nischen Form η = Xβ und es gilt den Parametervektor θ := (η�, σ2)� zuschatzen. Wahrend hierbei ζ ∈ W variiert, erhalten wir nach Bemerkung 7.4ηr+1, . . . , ηn = 0. Der zu (ζ�, σ2)� gehorige Parameterraum W × R

+ fuhrtdemzufolge zu dem zu (η�, σ2)� gehorigen Parameterraum R

r × R+.

7.2.2 UMVUE-Schatzer

Die Dichte von Z im kanonischen Modell mit Parameter θ = (η�, σ2)� ∈Θ := R

r × R+ ist nach Satz 7.3 gegeben durch

pZ(z,θ) = exp(

− 12σ2

n∑

i=1

(zi − ηi)2 − n

2ln(2πσ2)

)

= exp(

− 12σ2

n∑

i=1

z2i +

1σ2

r∑

i=1

ziηi −r∑

i=1

η2i

2σ2− n

2ln(2πσ2)

)

,

Page 209: Mathematische Statistik ||

7.2 Schatzung in linearen Modellen 201

fur z ∈ Rn. So ist {pZ(·,θ) : θ ∈ Θ} eine (r + 1)-dimensionale exponentielle

Familie mit naturlicher suffizienter Statistik T (Z) :=(Z1, . . . , Zr,

∑ni=1 Z2

i

)�.Diese ist vollstandig und man kann den Satz von Lehman-Scheffe (Satz 4.7)verwenden, um UMVUE-Schatzer zu finden. Dies basiert im Wesentlichenauf der Normalverteilungsannahme von ε. Im Satz von Gauß und Markov(Satz 7.12) wird gezeigt, dass man die Normalverteilungsannahme fur dieParameterschatzung unter zusatzlichen Annahmen fallen lassen kann.

Satz 7.6. In einem allgemeinen linearen Modell in kanonischer FormZ = η + ε∗ ist

ζ(Y ) :=r∑

i=1

Zi vi (7.21)

ein UMVUE-Schatzer fur ζ aus der koordinatenfreien Darstellung Y =ζ + ε.

Der wesentliche Grund hierfur ist die Darstellung aus Gleichung (7.18), ζ =∑ri=1 ηivi.

Beweis. Nach Satz 7.3 gilt, dass E(Zi) = ηi fur i = 1, . . . , r. Damit ist Zr :=(Z1, . . . , Zr)� ein unverzerrter Schatzer fur ηr = (η1, . . . , ηr)�. Nach Satz4.7 und Satz 4.9 ist Zr ein UMVUE-Schatzer fur ηr. Ferner folgt auch, dass∑r

i=1 diZi ein UMVUE-Schatzer fur∑r

i=1 diηi ist, wobei d1, . . . , dr beliebiggewahlt sein konnen. Verwendet man dies komponentenweise, so folgt, dassζ ein UMVUE-Schatzer fur ζ =

∑ri=1 ηivi ∈ W ist. ��

In Aufgabe 7.1 wird gezeigt, dass ζj Maximum-Likelihood-Schatzer fur ζj

ist. Ziel des nachsten Abschnittes ist es, Schatzer auf der Basis der Beob-achtungen Y zu bestimmen. Des Weiteren sollen UMVUE-Schatzer fur βhergeleitet werden.

7.2.3 Projektionen im linearen Modell

Im Folgenden gehen wir von der Beobachtung {Y = y} aus. Kleinste-Quadrate-Schatzer minimieren den Abstand zur Zielvariable (siehe Definition3.3). Im koordinatengebundenen Modell minimieren wir

‖ y − Xβ ‖2

uber alle β ∈ Rp, wahrend im koordinatenfreien Modell

‖ y − ζ ‖2

Page 210: Mathematische Statistik ||

202 7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)

y

y0

0

W

w

Abb. 7.1 Projektionen im linearen Modell. y ist der Vektor der beobachteten Datenund W der durch X aufgespannte lineare Unterraum. y0 ist die Projektion von y aufW . Jeder andere Vektor w ∈ W hat einen großeren Abstand zu y.

uber alle ζ ∈ W minimiert wird. Wie bereits erwahnt, erhalten wir aus einemModell in koordinatengebundener Darstellung durch W := WX die koordi-natenfreie Darstellung, von welcher wir zunachst ausgehen. Wir bezeichnenmit PW y die Projektion von y auf W , d.h. PW y ist das y0 ∈ R

n fur welches

‖ y − y0 ‖2= minw∈W

‖ y − w ‖2

gilt. Hinreichend und notwendig fur Minimalitat ist die Orthogonalitat

y − y0 ⊥ W, (7.22)

d. h. 〈y − y0,w〉 = 0 fur alle w ∈ W . In der Tat, ware 〈y − y0,w〉 = δ �= 0mit (ohne Beschrankung der Allgemeinheit) einem w so, dass ‖ w ‖= 1, soware durch y := y0 + δw ein besserer Vektor gefunden:

‖ y − y ‖2=‖ y − y0 ‖2 +δ2 − 2〈y − y0, δw〉 <‖ y − y0 ‖2 .

Dieser Sachverhalt wird in Abbildung 7.1 illustriert.

Page 211: Mathematische Statistik ||

7.2 Schatzung in linearen Modellen 203

Definition 7.7. In einem allgemeinen linearen Modell gelte fur eine meß-bare Funktion β : R

n �→ Rp, dass

‖ y − Xβ(y) ‖2= minβ∈Rp

‖ y − Xβ ‖2

fur alle y ∈ Rn. Dann heißt β(Y ) Kleinste-Quadrate-Schatzer (KQS) von

β im allgemeinen linearen Modell.

Fur die Definition eines Kleinste-Quadrate Schatzers benotigt man nur dieForderung (i) aus der Definition 7.1 eines allgemeinen linearen Modells. Furdie Fehler werden typischerweise die (WN)-Bedingungen (siehe Seite 78) ge-fordert. Sie bedeuten, dass die Fehler ε1, . . . , εn zentriert und unkorreliertsind. Sind die Varianzen der Fehler nicht homogen, so verwendet man ge-wichtete Kleinste-Quadrate-Schatzer (siehe Abschnitt 3.2.3). Fur die im Fol-genden gezeigte Optimalitat des KQS benotigt man hingegen Eigenschaft (ii)aus Definition 7.1.

Der folgende Satz illustriert, dass der UMVUE-Schatzer ζ aus Satz 7.6 ineinem engen Zusammenhang zu dem Kleinste-Quadrate-Schatzer β = β(Y )von β steht.

Satz 7.8. Sei β ein Kleinste-Quadrate-Schatzer von β und ζ derUMVUE-Schatzer aus (7.21) im koordinatenfreien Modell mit W = WX .

(i) Dann gilt ζ = PW Y und ζ = Xβ.(ii) Ist Rang(X) = p, dann ist der Kleinste-Quadrate-Schatzer von β

eindeutig und es gilt

β =(X�X

)−1X�Y . (7.23)

Weiterhin ist β =(X�X

)−1X�ζ.

Beweis. Zunachst ist ζ = ζ(Y ) =∑r

i=1 Zivi ∈ W nach (7.21) mit Z =Z(Y ) := AY . Nach (7.17) gilt Y =

∑ni=1 Zivi. Wir setzen z := Z(y) und

erhalten

y − ζ(y) =n∑

i=r+1

zivi.

Dieser Vektor ist orthogonal zu W , denn W wird per Definition von {v1, . . . ,vr}aufgespannt. Daraus folgt, dass PW y = ζ(y) (vergleiche (7.22)). Nach Defi-nition des Kleinste-Quadrate-Schatzers β = β(Y ) gilt

Page 212: Mathematische Statistik ||

204 7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)

‖ y − Xβ(y) ‖2= minβ∈Rp

‖ y − Xβ ‖2= minζ∈WX

‖ y − ζ ‖2=‖ y − ζ(y) ‖2

fur alle y ∈ Rn. Da Xβ(y) ∈ W , gilt Xβ(y) = PW y = ζ(y) und Aussage (i)

folgt.Zum Beweis von (ii) sei dim(W ) = Rang(X) = p. Dann ist X�X invertier-

bar: Ware umgekehrt der Kern von X�X verschieden von 0, dann existiert0 �= c ∈ R

p, so dass X�Xc = 0. Damit ware auch c�X�Xc =‖ Xc ‖2 undsomit Xc = 0. Dies ist aber ein Widerspruch zu Rang(X) = p.

Als Nachstes definieren wir die Funktion β : Rn �→ R

p durch β(y) :=(X�X)−1X�y und zeigen, dass PW y = Xβ(y) fur alle y ∈ R

n gilt: Seiy ∈ R

n beliebig. Sicher ist Xβ(y) ∈ W . Es reicht also y − Xβ(y)⊥W zuzeigen. Zunachst ist

X�(y − Xβ(y)) = X�y − X�X(X�X)−1X�y = 0. (7.24)

Nach Definition von W gibt es zu jedem w ∈ W ein b ∈ Rp, so dass w = Xb.

Damit ist

(y − Xβ(y))�w = b�X�(y − Xβ(y)) = 0

nach (7.24). Damit ist durch β(Y ) ein Kleinste-Quadrate-Schatzer gegeben.Nach (i) muss jeder KQS β(Y ) die Projektionseigenschaft β(y) = PW y furalle y ∈ R

n erfullen und somit ist β(y) = β(y) und der KQS ist eindeutig.Schließlich gilt nach (i), dass ζ = Xβ(Y ), und somit auch

(X�X

)−1X�ζ = β(Y ).

��Hat X vollen Rang (Rang(X) = p), so ist der Schatzwert des Kleinste-

Quadrate-Schatzers fur eine Beobachtung Y = y gegeben durch β(y) :=(X�X)−1Xy. Wir bezeichnen ζ(y) := Xβ(y) als geschatzten Erwartungs-wertvektor ; im Englischen ”fitted values” und y − ζ(y) als Residuenvektor(vergleiche Abbildung 7.2).

Bemerkung 7.9 (Projektionen). Nach Satz 7.8 ist die Projektion von y aufW , bezeichnet durch PW y, gerade ζ(y) mit der Funktion ζ aus (7.21). IstRang(X) = p, so gilt daruber hinaus

ζ(y) = PW y = Xβ(y) = X(X�X)−1 X�y. (7.25)

Insbesondere ist PW = X(X�X)−1 X�. Da PW eine Projektion ist, giltPW PW = PW . Eine solche Abbildung heißt idempotent. Aus Y ∼ Nn(ζ, σ2In)folgt

ζ(Y ) ∼ Nn(ζ, σ2PW ).

Page 213: Mathematische Statistik ||

7.2 Schatzung in linearen Modellen 205

y

ζ(y)

y − ζ(y)

0

W

Abb. 7.2 Geometrie des linearen Modells. Hierbei ist y der Vektor der beobachtetenDaten und W der durch X aufgespannte lineare Unterraum. Der Schatzer ζ(y) ist

die Projektion von y auf W . Der gestrichelte Pfeil stellt den Residuenvektor y− ζ(y)dar.

Wie zu Beginn des Kapitels motiviert, sind oft lineare Funktionen der Pa-rameter zu schatzen. Wir erhalten aus dem Satz 7.8 unmittelbar die UMVUE-Schatzer fur diesen Fall:

Bemerkung 7.10 (UMVUE-Schatzer fur lineare Funktionale). Lineare Funk-tionen von ζ erben Optimalitatseigenschaften von ζ: Sei Ψ(ζ) eine linearereellwertige Funktion von ζ, d.h.

Ψ(ζ) =n∑

j=1

wj · ζj ,

dann ist Ψ(ζ) =∑n

j=1 wj · ζj ein unverzerrter Schatzer fur Ψ(ζ). Da ζj =∑r

i=1 vji · Zi hangt Ψ(ζ) nur von Z1, . . . , Zr ab. Daher ist Ψ(ζ) UMVUE-Schatzer von Ψ(ζ) nach dem Satz von Lehmann-Scheffe (Satz 4.7).

B 7.7 Fortsetzung von Beispiel 7.5: UMVUE-Schatzer im p-Stichprobenproblem:Betrachte das p-Stichprobenproblem mit Yij = ζi + εij , i = 1, . . . , p, j =1, . . . , ni und n :=

∑pi=1 ni. Wir setzen

Page 214: Mathematische Statistik ||

206 7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)

μ :=1p

p∑

i=1

ζi =: Ψ1

(ζ),

αk := ζk − μ = ζk − 1p

p∑

i=1

ζi =: Ψk

(ζ).

Ist ζ aus Satz 7.6 der UMVUE-Schatzer von ζ, so sind nach Bemerkung 7.10die Schatzer

μ := Ψ1

(ζ)

=1p

p∑

i=1

ζi,

αk := Ψk

(ζ)

= ζk − 1p

p∑

i=1

ζi = ζk − μ

die entsprechenden UMVUE-Schatzer fur μ und αk, k = 1, . . . , p.

Satz 7.11. Sei β = (β1, . . . , βp)� der Kleinste-Quadrate-Schatzer im all-gemeinen linearen Modell und Rang(X) = p. Dann gilt:

(i) β1, . . . , βp sind UMVUE-Schatzer fur β1, . . . , βp.(ii) Fur jedes α ∈ R

p ist∑p

j=1 αj βj UMVUE-Schatzer fur∑p

j=1 αjβj.

Beweis. Durch die Wahl von ζ := Xβ erhalten wir eine koordinatenfreieDarstellung. Dann ist β =

(X�X

)−1X�ζ und somit die j-te Koordinate

von β, βj , eine lineare Funktion von ζ gegeben durch((X�X)−1X�ζ

)j.

Nach Bemerkung 7.10 ist

UMVUE-Schatzer von βj . Die Aussage (ii) folgt mit (i) erneut aus Bemerkung7.10. ��

Wir haben nun zwei Methoden um UMVUE-Schatzer fur β zu berechnen,welche in den folgenden beiden Beispielen illustriert werden sollen. Zum einenkann man die in Kapitel 3.2 vorgestellten Normalengleichungen (3.3) losen,zum anderen auch die hier vorgestellten Projektionsargumente nutzen.

B 7.8 Einfache lineare Regression: UMVUE-Schatzer (1) : In diesem Beispiel leitenwir die Schatzer fur die einfache lineare Regression aus Beispiel 7.1 uberdie Normalengleichungen (3.3) her. In der einfachen linearen Regression ist

βj(Y ) := βj(ζ) = ((X�X)−1X�ζ)j = βj

Page 215: Mathematische Statistik ||

7.2 Schatzung in linearen Modellen 207

Yi = β0 + β1xi + εi fur i = 1, . . . , n und ε ∼ Nn(0, σ2In). Nach Aufgabe 7.2sind

β1(y) :=∑n

i=1(xi − x) yi∑ni=1(xi − x)2

und β0(y) := y − β1(y)x (7.26)

die Losungen der Normalengleichungen (3.3) und somit sind dann β1(Y ) undβ2(Y ) Kleinste-Quadrate-Schatzer von β1 und β2. Falls nicht alle xi gleichsind, gilt Rang(X) = p = r = 2. Nach Satz 7.11 sind dann β0 und β1

UMVUE-Schatzer von β0 und β1. Weiterhin ist ζi := β0 + β1xi UMVUE-Schatzer fur ζi = β0 + β1xi = E(Yi|Xi = xi).

B 7.9 Einfache lineare Regression: UMVUE-Schatzer (2) : Dieses Beispiel nutzt dieDarstellung uber das kanonische Modell, um die Kleinste-Quadrate-Schatzerzu bestimmen. In der einfachen linearen Regression aus Beispiel 7.1 istYi = β0 + β1xi + εi fur i = 1, . . . , n und ε ∼ Nn(0, σ2In). Wir suchen eineorthonormale Basis fur W = WX . Dabei wird W von den beiden Vektoren1 und x = (x1, . . . , xn)� aufgespannt und wir nehmen an, dass nicht alle xi

gleich sind. Somit bilden {v1,v2} mit

v1 :=1√n· 1n

und v2 gegeben durch seine Komponenten

vi2 :=xi − x

√∑nj=1(xj − x)2

, j = 1, . . . , n

die gesuchte orthonormale Basis von W , d.h. 〈v1,v2〉 = 0 und ‖v1‖=‖v2‖= 1sowie

W ={β01n + β1x : β0, β1 ∈ R

}={β01n + β1(x − 1n x) : β0, β1 ∈ R

}.

(7.27)

Seien v3, . . . ,vn so gewahlt, dass {v1, . . . ,vn} eine orthonormale Basis furR

n bildet. Nach Definition in Gleichung (7.14) ist

Z1 = 〈Y ,v1〉 =1√n

n∑

i=1

Yi,

Z2 = 〈Y ,v2〉 =1

√∑ni=1(xi − x)2

n∑

i=1

(xi − x)Yi.

Damit folgt, dass

Page 216: Mathematische Statistik ||

208 7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)

ζ = Z1v1 + Z2v2

=1√n

n∑

i=1

Yi1√n· 1n +

1√∑n

i=1(xi − x)2·

n∑

i=1

(xi − x)Yi · v2

und insbesondere

ζk = Y +∑n

i=1(xi − x)Yi√∑n

i=1(xi − x)2· (xk − x)√∑n

i=1(xi − x)2

fur k = 1, . . . , n. Die Schatzer β0 und β1 konnen nun uber ζ berechnet werden:Aus ζ1 = β0 + β1x1 und ζ2 = β0 + β1x2 folgt unmittelbar, dass

β1 =

(ζ2 − ζ1

)

(x2 − x1

) , β0 = ζ1 − β1x1.

Nach Bemerkung 7.10 gilt

β1 =

(ζ2 − ζ1

)

(x2 − x1

) =∑n

i=1(xi − x)Yi∑ni=1(xi − x)2

·(x2 − x

)− (x1 − x)

(x2 − x1

)

=∑n

i=1(xi − x)Yi∑ni=1(xi − x)2

und β0 = ζ1 − β1x1 = Y − β1x.

B 7.10 p-Stichprobenproblem: UMVUE-Schatzer : Das in Beispiel 7.5 vorgestelltep-Stichprobenproblem hat folgende Darstellung: Ykl = βk + εkl mit εkl ∼N (0, σ2), k = 1, . . . , p, l = 1, . . . , nk i.i.d. Die zugehorige Log-Likelihood-Funktion ist bis auf additive Konstanten (unabhangig von β) gegeben durch:

l(β,y) := − 12σ2

p∑

k=1

nk∑

l=1

(ykl − βk

)2.

Das Maximum erfullt die folgenden Normalengleichungen:

∂βil(β,y)

=ni∑

l=1

yil − βi

σ2= 0, i = 1, . . . , p.

Man erhalt∑ni

l=1 Yil = ni · βi(Y ) und somit

βi(Y ) =1ni

ni∑

l=1

Yil =: Yi•

fur alle i = 1, . . . , p. Die zweite Ableitung ist negativ und so ist dies in derTat ein Maximum. Definiere n :=

∑pk=1 nk und

Page 217: Mathematische Statistik ||

7.2 Schatzung in linearen Modellen 209

Y•• :=1n

p∑

k=1

nk∑

l=1

Ykl.

Dann ist μ := β• = 1p

∑pk=1 βk ein lineares Funktional von β und somit ist

nach Bemerkung 7.10

μ(Y ) :=1p

p∑

k=1

βk(Y )

ein UMVUE-Schatzer von μ. Dabei ist μ(Y ) �= Y••. Weiterhin ist ebensoαk(Y ) := Yk• − μ(Y ) ein UMVUE-Schatzer fur αk = βk − μ.

7.2.4 Der Satz von Gauß-Markov

Unter einem linearen Schatzer verstehen wir einen Schatzer T (Y ) ∈ R, wel-cher linear in Y ist, d.h. es existiert ein b ∈ R

n, so dass

T (Y ) = 〈b,Y 〉.

Satz 7.12 (Gauß-Markov). Sei W ein linearer Unterraum von Rn mit

dim(W ) = r. Es gelte, dass Y = ζ +ε mit ζ ∈ W und weiterhin Var(εi) =σ2, Cov(εi, εj) = 0 fur alle 1 ≤ i �= j ≤ n. Fur beliebiges a ∈ R

n sei

Ψa(ζ) := 〈a, ζ〉.

Dann ist Ψa(ζ) unverzerrt und hat gleichmassig kleinste Varianz unterallen linearen, unverzerrten Schatzern von Ψa(ζ).

Man nennt einen solchen Schatzer auch BLUE (best linear unbiased estima-te).

Beweis. Sei T (Y ) = 〈b,Y 〉 =∑n

i=1 biYi ein beliebiger linearer Schatzer furΨa(ζ), so gilt

E(T (Y )) = b�E(Y ) = 〈b, ζ〉,

Var(T (Y )) =n∑

i=1

b2i Var(Yi) + 2

0≤i<j≤n

bibjCov(Yi, Yj) = σ2n∑

i=1

b2i .

Falls T (Y ) ein unverzerrter Schatzer von Ψa

(ζ)

im Modell Y = ζ + ε mitE(εi) = 0, Var(εi) = σ2 und Cov(εi, εj) = 0 ∀ i �= j sein soll, dann ist T (Y )auch ein unverzerrter Schatzer, wenn εi ∼ N (0, σ2) i.i.d.; denn Erwartungs-wert und Varianz sind in beiden Modellen gleich.

Page 218: Mathematische Statistik ||

210 7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)

Wir schließen mit folgender Beobachtung: Der Schatzer Ψa(ζ) ist ein linea-rer Schatzer von Ψa(ζ), und hat die kleinste Varianz unter allen unverzerrten,linearen Schatzern von Ψa(ζ) nach Bemerkung 7.10, wenn ε ∼ Nn(0, σ2In)gilt. Dann muss Ψa

(ζ)

auch die kleinste Varianz unter allen unverzerrten, li-nearen Schatzern unter der schwacheren Voraussetzung E(εi) = 0, Var(εi) =σ2 und Cov(εi, εj) = 0 ∀ i �= j haben. ��

7.2.5 Schatzung der Fehlervarianz

In diesem Abschnitt soll die Varianz σ2 der Fehler geschatzt werden. Hat maneine Darstellung des linearen Modells in der kanonischen Form mit Z wie inGleichung (7.16), so nutzt man zur Schatzung der Fehlervarianz folgendenSchatzer:

s2 = s2(Y ) :=1

n − r

n∑

i=r+1

Z2i .

Dieser Schatzer ist erwartungstreu, da E(Z2i ) = σ2. Zr+1, . . . , Zn unabhangig

nach Satz 7.3 sind. Ferner istn∑

i=r+1

Z2i =

n∑

i=1

Z2i −

r∑

i=1

Z2i .

Aus diesem Grund ist s2 eine Funktion der vollstandigen, suffizienten Sta-tistik

(Z1, . . . , Zr,

∑ni=1 Z2

i

)� im kanonischen Modell. Nach dem Satz vonLehmann-Scheffe (Satz 4.7) ist s2 ein UMVUE-Schatzer fur σ2. Ublicherweisestellt man s2 bezuglich Y dar. Da

Y − ζ =n∑

i=1

Zivi −r∑

i=1

Zivi =n∑

i=r+1

Zivi (7.28)

ist, gilt

‖ Y − ζ ‖2=n∑

i=r+1

Z2i

und somit hat s2 folgende Darstellung

s2 =1

n − r‖ Y − ζ ‖2 . (7.29)

Den Ausdruck

‖ Y − ζ ‖2=n∑

i=1

(Yi − ζi

)2

nennt man Residuenquadratsumme oder Residual sum of squares (RSS).

Page 219: Mathematische Statistik ||

7.2 Schatzung in linearen Modellen 211

7.2.6 Verteilungstheorie und Konfidenzintervalle

In diesem Abschnitt leiten wir die Verteilungen der verwendeten Schatzerund entsprechende Konfidenzintervalle her. Dafur werden einige Verteilungenwichtiger Großen bestimmt. Zentral hierfur ist die Normalverteilungsannah-me aus Definition 7.1 (ii) an ε. Fur die Verteilung von β(Y ) gilt folgenderSatz:

Satz 7.13. Im allgemeinen linearen Modell gilt

β(Y ) ∼ Np(β, σ2(X�X)−1). (7.30)

Beweis. Nach Definition 7.1(ii) ist ε ∼ Nn(0, σ2In). Mit Y = Xβ + ε folgthieraus Y ∼ Nn(Xβ, σ2In). Weiterhin ist β(Y ) = (X�X)−1X�Y und da-mit eine lineare Funktion von Y . Setze C := (X�X)−1X�. Nach Bemerkung1.21 (iii) ist

β(Y ) = CY ∼ Np(μ, Σ)

mit

μ = CXβ = (X�X)−1X�Xβ = β,

Σ = Cσ2InC� = σ2 (X�X)−1X�X(X�X)−1 = σ2(X�X)−1,

und die Behauptung des Satzes folgt. ��Mit s2(Y ) aus der Gleichung (7.29) erhalten wir folgende Aussage.

Satz 7.14. Sei ζ(Y ) := Xβ(Y ) und s2(Y ) := 1n−r ‖ Y − ζ ‖2. Dann gilt

im allgemeinen linearen Modell:

(i) ζ und Y − ζ sind unabhangig.

(ii) (n − r)s2(Y )

σ2∼ χ2

n−r und ist unabhangig von ζ.

Beweis. Zunachst ist nach Definition (7.21) ζ =∑r

i=1 Zivi. Mit (7.28) folgt,dass

Y − ζ =n∑

i=r+1

Zivi.

Da Z1, . . . , Zn nach Satz 7.3 unabhangig sind folgt Behauptung (i).Somit ist auch (n − r)s2 =

∑ni=r+1 Z2

i unabhangig von ζ. Die Zufallsva-riablen Zr+1, . . . , Zn sind i.i.d. mit Zi ∼ N (0, σ2) fur i = r + 1, . . . , n nachBemerkung 7.4 und somit gilt, dass

Page 220: Mathematische Statistik ||

212 7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)

(n − r)s2

σ2=

n∑

i=r+1

(Zi

σ

)2

∼ χ2n−r.

��Korollar 7.15. Ist p = r, so sind β(Y ) und s2(Y ) unabhangig.

Beweis. Nach Satz 7.8 (ii) ist β =(X�X

)−1X�ζ. Nach Satz 7.14 sind ζ

und s2 unabhangig und die Behauptung folgt. ��Konfidenzintervalle In diesem Abschnitt bestimmen wir ein Konfidenzin-tervall fur eine lineare Transformation Ψ(ζ) = 〈b, ζ〉 von ζ. In Bemerkung7.9 hatten wir gesehen, dass ζ = PW Y und ζ ∼ Nn(ζ, σ2PW ). Es folgt, dass

Ψ(ζ) ∼ N (b�ζ, σ2b�PW b

)

und durch Standardisierung

Ψ(ζ) − Ψ(ζ)

σ√

b�PW b∼ N (0, 1).

Weiterhin sind ζ und s2 unabhangig nach Satz 7.14 und (n−r)s2(Y )σ2 ∼ χ2

n−r.Damit erhalten wir

Ψ(ζ)− Ψ

(ζ)

s(Y )√

b�PW b=

Ψ(ζ)−Ψ(ζ)

σ√

b�PW b√

(n−r)s2(Y )σ2 /(n−r)

∼ tn−r.

Aus diesen Uberlegungen ergibt sich folgendes Konfidenzintervall, wobei wirwieder ζ := Xβ(Y ) und s2(Y ) := 1

n−r ‖ Y −ζ ‖2 verwenden. tm,a bezeichnetdas a-Quantil der tm-Verteilung.

Das zufallige Intervall

Ψ(ζ)± tn−r,1−α/2 s(Y )

√b�PW b (7.31)

ist ein (1 − α)-Konfidenzintervall fur Ψ(ζ)

= 〈b, ζ〉.

Bemerkung 7.16 (t-Statistik). Angewendet auf das Einstichprobenpro-blem aus Beispiel 7.4 erhalten wir Folgendes: Sind Y1, . . . , Yn i.i.d. mitY1 ∼ N (μ, σ2), so folgt aus Beispiel 7.10, dass Y ein UMVUE-Schatzer fur μist. Aus Gleichung 7.29 berechnet man den Schatzer s2(Y ) fur die Fehlerva-rianz und erhalt s2(Y ) = 1

n−1

∑ni=1(Yi − Y )2, die Stichprobenvarianz (siehe

Beispiel 4.1). Mit Korollar 7.15 und Satz 7.14 (ii) erhalt man, dass

Page 221: Mathematische Statistik ||

7.3 Hypothesentests 213

√n(Y − μ)√

s2(Y )∼ tn−1.

7.3 Hypothesentests

In diesem Kapitel werden Tests in linearen Modellen behandelt. Zunachstwerden die theoretischen Konzepte vorgestellt und optimale Tests basierendauf Likelihood-Quotienten abgeleitet. Daran schließt sich der wichtige Spezi-alfall eines p-Stichprobenmodells an, in welchem die erhaltenen Tests Vari-anzanalyse oder ANOVA heißen. Die Testverfahren werden jeweils mit ver-schiedenen Anwendungen und Beispielen illustriert.

Wir gehen von einem allgemeinen linearen Modell in koordinatenfreierDarstellung wie in (7.7) aus. Weiterhin betrachten wir eine Null-Hypothese,die als linearer Unterraum W0 von W gegeben ist. Zunachst soll ein optimalerTest fur das Testproblem

H0 : ζ ∈ W0 gegen H1 : ζ ∈ W\W0 (7.32)

gefunden werden. Dabei ist W\W0 = W ∩ W⊥0 , wobei W⊥

0 := {w ∈ W :w�w0 = 0 ∀ w0 ∈ W0} das orthogonale Komplement von W0 ist. Wirsetzen q := dim(W0). Die folgenden Beispiele zeigen, dass sich typische Null-Hypothesen tatsachlich durch einen linearen Unterraum W0 darstellen.

B 7.11 Einfache lineare Regression: W0: Seien wie in Beispiel 7.1 vorgestellt Yi =β0 + β1xi + εi fur i = 1, . . . , n und ε ∼ Nn(0, σ2In). Um nachzuweisen, dassdie Kovariable x einen linearen Einfluss auf die Zielvariable hat, untersuchtman das Testproblem

H0 : β1 = 0 gegen H1 : β1 �= 0.

Verwirft man die Null-Hypothese, so hat man den linearen Einfluss zu demgegebenen Signifikanzniveau nachweisen konnen. Fur diesen Test betrachtenwir den unter der Null-Hypothese von X aufgespannten linearen Unterraum

W0 :={β01n : β0 ∈ R

n} = {ζ ∈ Rn : ζ1 = · · · = ζn}

von W = {β01n +β1x : β0, β1 ∈ R} aus Gleichung (7.27). Fur ein ζ ∈ W0 istζ1 = · · · = ζn = β0.

Mochte man dagegen den Interzeptparameter betrachten, so untersuchtman das Testproblem

H0 : β0 = 0 gegen H1 : β0 �= 0.

Hierfur verwendet man

Page 222: Mathematische Statistik ||

214 7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)

W0 ={ζ ∈ R

n : ζ1 = β1x1, . . . , ζn = β1xn, β1 ∈ R}.

Fur ein ζ ∈ W0 gilt, dass ein β1 ∈ R existiert, so dass ζi = β1xi fur alle1 ≤ i ≤ n.

B 7.12 p-Stichprobenproblem: W0: In dem p-Stichprobenproblem aus Beispiel 7.5 ist

Ykl = βk + εkl

mit i.i.d. εkl ∼ N (0, σ2), k = 1, . . . , p, l = 1, . . . , nk. Mochte man das Test-problem

H0 : β1 = · · ·=βp gegen H1 : zumindest ein βi ist nicht gleich einem anderen

untersuchen, so verwendet man hierfur den linearen Unterraum

W0 :={ζ ∈ R

n : ζ1 = · · · = ζn

},

von W mit n :=∑p

k=1 nk .

7.3.1 Likelihood-Quotienten-Test

Als ersten Schritt bestimmen wir den verallgemeinerten Likelihood-Quotienten-Test fur das Testproblem H0 : ζ ∈ W0 gegen H1 : ζ ∈ W\W0

in einem koordinatenfreien linearen Modell. Unter der Normalverteilungsan-nahme (ii) in der Definition 7.1 ist Y ∼ Nn(ζ, σ2In) und die Dichte von Yist mit θ = (ζ, σ2)�

p(y,θ) :=1

(2πσ2)n/2exp(

− 12σ2

n∑

i=1

(yi − ζi

)2)

=1

(2πσ2)n/2exp(− 1

2σ2‖ y − ζ ‖2

), y ∈ R

n.

Unter allen ζ ∈ W0 ist das Maximum in der Likelihood-Funktion durch dasζ0(y) erreicht, welches den geringsten Abstand von y hat. Da W0 ein linearerUnterraum ist, erhalten wir ζ0(y) durch die Projektion ζ0(y) = PW0y undso gilt

maxσ2>0

maxζ∈W0

p(y,θ) = maxσ2>0

1(2πσ2)n/2

exp(

− 12σ2

‖ y − ζ0(y) ‖2

)

fur alle y ∈ Rn. Wir bestimmen das Maximum dieser Funktion bezuglich

σ2. Notwendig hierfur ist, dass die erste Ableitung verschwindet. Man erhalt,dass der Maximum-Likelihood-Schatzer fur θ = (ζ, σ2)� unter H0 : ζ ∈ W0

mit

Page 223: Mathematische Statistik ||

7.3 Hypothesentests 215

σ20(y) :=

1n‖ y − ζ0 ‖2

durchθ0(Y ) := (ζ0(Y ), σ2

0(Y ))�

gegeben ist. Analog gilt, dass θ(Y ) := (ζ(Y ), σ2(Y ))� mit

σ2(y) :=1n‖ y − ζ(y) ‖2

der Maximum-Likelihood-Schatzer von θ (unter ζ ∈ W ) ist. Folglich ist

n =‖ y − ζ0(y) ‖2

σ20(y)

=‖ y − ζ(y) ‖2

σ2(y).

Nach Abschnitt 6.3 wird der verallgemeinerte Likelihood-Quotienten-Test be-stimmt mit Hilfe von λ(y) aus Gleichung 6.13:

λ(y) =p(y, θ)

p(y, θ0)=(

σ20(y)

σ2(y)

)n/2

=

(‖ y − ζ0(y) ‖2

‖ y − ζ(y) ‖2

)n/2

, y ∈ Rn. (7.33)

Der Likelihood-Quotienten-Test verwirft die Null-Hypothese H0 : ζ ∈ W0,falls λ(y) groß ist. Aus der Darstellung (7.33) liest man ab, dass λ groß ist,falls die Anpassung an die Daten unter H0, gemessen durch ‖ y − ζ0 ‖2,schlechter ist als die Anpassung an die Daten unter ζ ∈ W (dies ist gerade‖ y − ζ ‖2). Zur Bestimmung der kritischen Werte wird es einfacher sein, anStelle von λ(y) mit

Vn(y) :=n − r

r − q

‖ y − ζ0(y) ‖2 − ‖ y − ζ(y) ‖‖ y − ζ(y) ‖2

=n − r

r − q

‖ ζ0(y) − ζ(y) ‖2

‖ y − ζ(y) ‖2,

(7.34)wobei die zweite Gleichheit in (7.37) gezeigt wird, zu arbeiten. Da

Vn(y) =n − r

r − q

((λ(y)

)2/n − 1),

ist Vn(Y ) eine monotone Transformation von λ(Y ). Somit ist der auf Vn(Y )basierende Test aquivalent zu dem auf λ(Y ) basierenden Test und folglich

δ(Y ) := 1{Vn(Y )>c}

der gesuchte Likelihood-Quotienten-Test.Fur die Bestimmung des kritischen Niveaus c verwenden wir folgenden

Satz. Wir benotigen nichtzentrale χ2- und F -Verteilungen, welche bereits aufSeite 15 vorgestellt wurden und betrachten das Testproblem aus 7.32, worindie Null-Hypothese durch den linearen Unterraum W0 ⊂ W gegeben ist.

Page 224: Mathematische Statistik ||

216 7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)

Satz 7.17. Sei ζ0 := PW0ζ, r := dim(W ) und q := dim(W0) mit r > q.Dann ist in einem koordinatenfreien linearen Modell Vn(Y ) aus (7.34)nichtzentral Fr−q,n−r(δ2)-verteilt mit

δ2 :=

∣∣∣∣ζ − ζ0

∣∣∣∣2

σ2.

Insbesondere gilt unter H0 : ζ ∈ W0, dass Vn ∼ Fr−q,n−r.

Die wesentliche Bedeutung dieses Satzes liegt in seiner Anwendung imfolgenden Test mit der Teststatistik Vn(Y ) aus (7.34). Mit F1−α,r−q,n−r be-zeichnen wir das (1 − α)-Quantil der Fr−q,n−r-Verteilung.

Nach Satz 7.17 ist

δ(Y ) := 1{Vn(Y )≥F1−α,r−q,n−r} (7.35)

ein Level-α-Test fur H0 : ζ ∈ W0 gegen H1 : ζ �∈ W0. Dieser Test heißtF-Test.

Beweis. Sei v1, . . . ,vn eine orthonormale Basis fur Rn, welche so geordnet

ist, dass die Menge {v1, . . . ,vq} eine Basis fur W0 ist, und {v1, . . . ,vq,vq+1,. . . ,vr} eine Basis fur W . Sei A� = (v1, . . . ,vn). Dann ist AA� = In undwir erhalten durch A die Darstellung als kanonisches Modell uber Z = AY .

Ist ζ ∈ W, so gilt ηi = 0 fur alle i = r + 1, . . . , n. Ist ζ ∈ W0, so giltdaruber hinaus, dass ηi = 0 fur i = q + 1, . . . , r. Aus Satz 7.6 folgt, dass

ζ0 = ζ0(Y ) :=q∑

i=1

Zivi (7.36)

ein UMVUE-Schatzer fur ζ unter H0 : ζ ∈ W0 ist. Nach (7.17) ist Y =∑ni=1 Zivi und wir erhalten

∣∣∣∣Y − ζ0(Y )

∣∣∣∣2 =

n∑

i=q+1

Z2i .

Mit ζ :=∑r

i=1 Zivi erhalten wir die Darstellung

Vn(Y ) =(n − r)(r − q)

∣∣∣∣Y − ζ0

∣∣∣∣2 − ∣∣∣∣Y − ζ

∣∣∣∣2

∣∣∣∣Y − ζ

∣∣∣∣2

=(n − r) ·∑r

i=q+1 Z2i /σ2

(r − q) ·∑ni=r+1 Z2

i /σ2.

Page 225: Mathematische Statistik ||

7.3 Hypothesentests 217

Dabei ist∑r

i=q+1 Z2i /σ2 nichtzentral χ2

r−q(δ2)-verteilt und

∑ni=r+1 Z2

i /σ2

analog χ2n−r-verteilt. Ferner sind sie unabhangig. Fur den Nichtzentralitatspa-

rameter δ gilt, dass

δ2 =1σ2

r∑

i=q+1

E(Zi)2 =r∑

i=q+1

η2i

σ2,

und

‖ ζ − ζ0 ‖2=∣∣∣∣

∣∣∣∣

r∑

i=1

ηivi −q∑

i=1

ηivi

∣∣∣∣

∣∣∣∣

2

=∣∣∣∣

∣∣∣∣

r∑

i=q+1

ηivi

∣∣∣∣

∣∣∣∣

2

=r∑

i=q+1

η2i .

Somit ist Vn ein Quotient aus unabhangigen χ2-verteilten Zufallsvariablenund damit F -verteilt mit den entsprechenden Freiheitsgraden. Ist ζ ∈ W0, soist ηi = 0 fur i > q und δ2 = 0, woraus die Verteilungsaussagen folgen. ��

Aus dem Beweis ergibt sich fur dieses Modell folgende geometrische Inter-pretation: Mit ζ0(Y ) aus (7.36) ist

‖ ζ − ζ0 ‖2 =r∑

i=q+1

Z2i

‖ Y − ζ0 ‖2 =n∑

i=q+1

Z2i

‖ Y − ζ ‖2 =n∑

i=r+1

Z2i

und wir erhalten folgende, orthogonale Zerlegung:

‖ Y − ζ0 ‖2=‖ ζ − ζ0 ‖2 + ‖ Y − ζ ‖2, (7.37)

welche in Abbildung 7.3 illustriert wird.Schließlich bestimmen wir noch den Zusammenhang mit dem Schatzer fur

β unter H0. Da W0 ein linearer Unterraum ist, gilt ζ ∈ W0 ⇔ ζ = X0β∗0 fur

X0 ∈ Rn×q; mit Rang(X0) = q und β∗

0 ∈ Rq. Damit folgt, dass ζ0 = X0β

∗0 ,

wobei β∗0 der Kleinste-Quadrate-Schatzer in dem Modell Y = X0β

∗0 + ε ist,

also

β∗0 =

(X�

0 X0

)−1X�

0 Y .

B 7.13 Einfache lineare Regression: t- und F-Test : In diesem Beispiel werden die t-und F -Tests in der einfachen linearen Regression aus den allgemeinen Be-trachtungen abgeleitet. Seien wie in Beispiel 7.1 Yi = β0 + β1xi + εi furi = 1, . . . , n und ε ∼ Nn(0, σ2In). Mit obiger Notation ist r = dim(W ) = 2und W wird von {1n,x} aufgespannt. Es soll das Testproblem

Page 226: Mathematische Statistik ||

218 7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)

Abb. 7.3 Geometrische Illustration der Gleichung (7.37). Nach dem Satz von Py-

thagoras gilt ‖ y − ζ0(y) ‖2=‖ ζ(y) − ζ0(y) ‖2 + ‖ y − ζ(y) ‖2.

H0 : β1 = 0 gegen H1 : β1 �= 0 (7.38)

untersucht werden. Demnach ist der von H0 generierte lineare UnterraumW0 von 1n erzeugt und hat die Dimension q = 1. Zunachst erhalt man durcheinfaches Ausrechnen, dass

X =

⎜⎝

1 x1

......

1 xn

⎟⎠ , X�X =

⎝n nx

nxn∑

i=1

x2i

⎠ ,

und

(X�X)−1 =1

n∑

i=1

(xi − x)2

⎝1n

n∑

i=1

x2i −x

−x 1

⎠ .

Die gesuchten Schatzer sind:

β0 = Y − β1x

β1 =

n∑

i=1

(Yi − Y )(xi − x)

n∑

i=1

(xi − x)2=

n∑

i=1

Yi (xi − x)

n∑

i=1

(xi − x)2,

y

ζ(y)

ζ0(y)

0

W W0

Page 227: Mathematische Statistik ||

7.3 Hypothesentests 219

wie in Beispiel 7.8 bereits uber die Normalengleichungen bestimmt. Das Mo-dell unter H0 ist aquivalent zu folgendem Einstichprobenproblem: Yi = μ+εi,i = 1, . . . , n. Nach Bemerkung 7.16 ist μ := Y ein UMVUE-Schatzer fur μ.Wir nutzen (7.34) und erhalten als Teststatistik

Vn(Y ) :=(n − r)(r − q)

∣∣∣∣ζ − ζ0

∣∣∣∣2

∣∣∣∣Y − ζ

∣∣∣∣2

=(n − 2)(2 − 1)

∑ni=1

(β0 + β1xi − μ

)2

∑ni=1

(Yi − β0 − β1xi

)2 .

Nach Satz 7.17 ist Vn(Y ) ∼ F1,n−2. Somit verwirft man H0 : β1 = 0 gegenβ1 �= 0, falls Vn(Y ) > F1−α,1,n−2 und der F-Test in der einfachen linearenRegression ist gegeben durch

δF (Y ) := 1{Vn(Y )>F1−α,1,n−2}

Der F -Test hat folgenden Zusammenhang mit dem t-Test: Da nach Satz7.13 (

β0

β1

)

∼ N((

β0

β1

)

, σ2(X�X)−1

)

,

folgtβ1 ∼ N (β1, σ

2(X�X)−122

).

Mit ss−1xx := (X�X)−1

22 =(∑n

i=1(xi − x)2)−1 erhalt man den t-Test fur das

Testproblem (7.38) in der einfachen linearen Regression:

δt(Y ) := 1{|Tn(Y )|≥tn−2,1−α/2}, (7.39)

wobei Tn(Y ) := β1s(Y )/

√ssxx

,

s2(Y ) =1

n − 2‖ Y − ζ ‖2=

1n − 2

n∑

i=1

(Yi − β0 − β1xi

)2

und tm,a das a-Quantil der t-Verteilung mit m Freiheitsgraden ist. Wir er-halten, dass

Tn(Y ) =β1

√ssxx

s(Y )=

((n − 2)β2

1

∑ni=1(xi − x)2

∑ni=1(Yi − β0 − β1xi)2

)1/2

und mitn∑

i=1

(β0 + β1xi− μ

)2 =n∑

i=1

(Y − β1x+ β1xi− Y

)2 = β21

n∑

i=1

(xi− x

)2 = β1ssxx

ergibt sich schließlich Vn(Y ) = T 2n(Y ).

Page 228: Mathematische Statistik ||

220 7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)

B 7.14 Multiple lineare Regression: t-Test : Fur die multiple lineare Regression

Yi = β1x1i + · · ·βpxpi + εi,

i = 1, . . . , n und ε ∼ Nn(0, σ2In) sollen folgende Testprobleme untersuchtwerden:

Hj0 : βj = 0 gegen Hj

1 : βj �= 0, j = 1, . . . , p.

Analog zu dem t-Test aus Gleichung (7.39) erhalt man fur j ∈ {1, . . . , p}folgenden t-Test:

Verwerfe Hj0 , falls

|βj |s(Y )

√(X�X)−1

jj

≥ tn−2,1−α/2,

da Var(βj

)= σ2

(X�X

)−1

jj.

7.3.2 Beispiele: Anwendungen

In diesem Abschnitt werden zwei praktische Anwendungen vorgestellt, welchedie Anwendungen der linearen Regression in der Praxis illustrieren.

B 7.15 Einfache lineare Regression: Beispiel : Eine Anwendung der linearen Regres-sion ist die Erntevorhersage bei Weinernten (Casella und Berger (2002) - S.540). Im Juli bilden die Weinreben bereits kleine Traubenkluster und zahltman diese, so ist eine Vorhersage der Ernte moglich. Ein gemessener Daten-satz ist in Tabelle 7.1 zu finden. Hierbei ist Y in Tonnen pro Morgen (Acre)gemessen und X die Anzahl der kleinen Traubenkluster dividiert durch 100.

Jahr Ertrag (y) Traubenkluster/100 (x)

1971 5.6 116.371973 3.2 82.771974 4.5 110.681975 4.2 97.501976 5.2 115.881977 2.7 80.191978 4.8 125.241979 4.9 116.151980 4.7 117.361981 4.1 93.311982 4.4 107.461983 5.4 122.30

Tabelle 7.1 Der untersuchte Datensatz. Fur verschiedene Jahre werden die Ertrageam Ende des Jahres (y) im Zusammenhang mit der im Juli gezahlten Traubenklus-ter/100 gestellt (x).

Page 229: Mathematische Statistik ||

7.3 Hypothesentests 221

Wir verwenden die einfache lineare Regression (siehe Beispiel 7.8) underhalten die geschatzte Gleichung

y = 0.05x − 1.02;

die Schatzwerte sind gerade β0(y) = −1.02 und β1(y) = 0.05. Insbesonderesind dann die Roh-Residuen ei := yi − yi mit yi = 0.05xi − 1.02 . Mit

β =(

β0

β1

)

∼ N2(β, σ2(X�X)−1)

folgt, dass

Var(Yi) = Var

((1xi

)�β

)

= σ2(1 xi

)(X�X)−1

(1xi

)

=: σ2hii,

wobei hii = (1 xi)(X�X)−1(1 xi)�. Da die hii typischerweise unterschiedlichsind, bedeutet dies, dass die Residuen keine homogene Varianz besitzen. Umdie Große fur verschiedene Beobachtungen i zu vergleichen, betrachtet mandaher standardisierte Residuen

ri :=Yi − Yi

s√

1 − hii

.

Wie in Aufgabe 7.4 gezeigt, ist ri ∼ tn−2. Somit erhalt man punktweise(1 − α)-Konfidenzintervalle fur ri durch

[−t1−α/2,n−2, t1−α/2,n−2].

Die Großen sind in Abbildung 7.4 illustriert. Hiermit ist eine Vorhersageaufgrund der jahrlichen Anzahl der Traubenkluster moglich.

B 7.16 Multiple lineare Regression: Beispiel : Etwas anspruchsvoller ist naturlichdie Bestimmung einer multiplen linearen Regression. Hierzu untersuchen wireinen klinischen Datensatz (aus Rice (1995), Kapitel 4.5). Bei Kindern miteiner bestimmten Herzkrankheit muss ein Katheter ins Herz gelegt werden.Hierzu sticht der Operateur den Katheter eine gewisse Lange in die Haupt-vene oder Hauptarterie. Untersucht werden soll nun, ob man die notwendigeEinstichtiefe anhand von bestimmten Messgroßen, namlich Große und Ge-wicht des Kindes, gut vorhersagen kann. Dazu misst man den Abstand zwi-schen Einstich und Katheterende. Die erhaltenen Messwerte findet man inTabelle 7.2.

Wendet man die multiple lineare Regression an, so erhalt man folgendeSchatzwerte:

Abstand = 21 + 0.196 · Große + 0.191 · Gewicht.

Page 230: Mathematische Statistik ||

222 7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)

y

r

x

x

y(x) = −1.02 + 0.05x

Abb. 7.4 Die einfache lineare Regression zur Schatzung der Traubenernte. Die obereGrafik zeigt die Daten (xi, yi) zusammen mit der geschatzten Regressionsgleichung;die untere Grafik die standardisierten Residuen ri zusammen mit punktweisen 95%-Konfidenzgrenzen.

Die Grafiken in Abbildung 7.5 zeigen Histogramme fur die Variablen aufder Diagonale und xy-Plots fur alle Variablenpaare. Man sieht, dass der Ab-stand sowohl mit Große als auch mit Gewicht linear wachst. Daneben sinddie Kovariablen Große und Gewicht stark korreliert. In einem ersten Ansatzpassen wir das Modell

Abstandi = β0 + β1 Großei + β2 Gewichti + εi

an und erhalten die Schatzwerte β0 = 21, β1 = 0.196 und β2 = 0.191. DerF -Test aus der Gleichung (7.35) des Testproblems

H0 : β1 = β2 = 0 gegen H1 : β1 oder β2 �= 0

liefert Vn = 18.62 und damit einen p-Wert von 0.0006. Dies zeigt, dass bei-de Variablen einen signifikanten Einfluss auf die Zielvariable ausuben. Dadie beiden Variablen Große und Gewicht aber stark korreliert sind, untersu-

Page 231: Mathematische Statistik ||

7.4 Varianzanalyse 223

Große (inch) Gewicht (lb) Abstand

42.8 40.0 37.063.5 93.5 49.537.5 35.5 34.539.5 30.0 36.045.5 52.0 43.038.5 17.0 28.043.0 38.5 37.022.5 8.5 20.037.0 33.0 33.523.5 9.5 30.533.0 21.0 38.558.0 79.0 47.0

Tabelle 7.2 Der betrachtete klinische Datensatz. Der Abstand (Einstichtiefe - y)soll mit Hilfe der Kovariablen Große und Gewicht (x1, x2) vorhergesagt werden.

chen wir nun die beiden einfachen linearen Regression mit jeweils nur einerKovariablen und erhalten die Ergebnisse, die in Tabelle 7.3 aufgefuhrt sind.Hierbei ist

R2(y) := 1 − ‖ y − Xβ(y) ‖2

‖ y − 1ny ‖2

der Anteil an der totalen Variabilitat ‖ y − 1ny ‖2, welche durch dasgeschatzte Regressionsmodell erklart wird.

Regressionsgleichung R2

Abstand=21.0 + 0.196 Große + 0.191 Gewicht 0.805

Abstand=12.1 + 0.597 Große 0.777

Abstand=25.6 + 0.277 Gewicht 0.799

Tabelle 7.3 Angepasste Regressionsgleichungen mit zugehorigem R2 fur den klini-schen Datensatz.

7.4 Varianzanalyse

Als Erweiterung des Zweistichprobenmodells erhalt man das der Varianzana-lyse zugrundeliegende Modell. Dieses Modell ist ebenso ein Spezialfall deslinearen Modells und wird sehr haufig in Anwendungen benutzt. Die verwen-deten Teststatistiken werden wie im vorigen Abschnitt auf den verschiede-nen Residuenquadratsummen basieren. Die Varianzanalyse untersucht Mit-

Page 232: Mathematische Statistik ||

224 7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)

20 30 40 500 50 10020 40 60 80

20

25

30

35

40

45

50

0

20

40

60

80

100

20

30

40

50

60

70

80

Größe Gewicht Abstand

Größe

Gewicht

Abstand

Abb. 7.5 Explorative Datenanalyse des Katheterabstands.

telwertunterschiede in einzelnen Populationen und nutzt dafur die durch daslineare Modell vorgegebene Zerlegung der Varianz, was wir spater noch ge-nauer analysieren. Im Allgemeinen ist die Varianzanalyse die Analyse vonlinearen Modellen, in welchen alle Kovariablen qualitativ sind.

7.4.1 ANOVA im Einfaktorenmodell

Dieser Abschnitt behandelt die so genannte einfaktorielle Varianzanalyse.Das konnte beispielsweise die Analyse des Einflusses von Dunger auf denErtrag sein. Hierzu bringt man verschiedene Dungersorten zur Anwendungund nimmt fur jede Dungersorte eine gewisse Anzahl Messungen. Die Mes-sungen, die zu einer Dungersorte gehoren, bezeichnen wir im Folgenden alsPopulation.

Zugrunde liegt folgendes Modell: Wir betrachten p Populationen, wobeivon jeder einzelnen Population k eine Stichprobe der Lange nk gezogen wird.

Page 233: Mathematische Statistik ||

7.4 Varianzanalyse 225

Des Weiteren nehmen wir an, dass alle Messungen unabhangig voneinanderund normalverteilt mit gleicher Varianz σ2 sind. Die Mittelwerte der Popu-lation sind allerdings unterschiedlich; Population k habe den Mittelwert βk,1 ≤ k ≤ p. Formal gesehen betrachten wir

Population k : Yk1, . . . , Yk nk∼ N (βk, σ2), unabhangig 1 ≤ k ≤ p.

(7.40)

In der Sprache des linearen Modells erhalten wir:⎛

⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

Y11

...Y1 n1

Y21

...Y2 n2

...

Yp1

...Yp np

⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

=

⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝

1 0 . . . 0...

......

1 0 . . . 0

0 1 0 . . . 0...

......

...0 1 0 . . . 0

.... . .

...

0 . . . 1...

...0 . . . 1

⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠

⎜⎜⎜⎜⎜⎝

β1

...

βp

⎟⎟⎟⎟⎟⎠

+ ε

mit Rang(X) = p und n =∑p

k=1 nk. Diese Darstellung zeigt, dass es sichum ein p-Stichprobenproblem nach Beispiel 7.5 handelt. Untersucht werdensoll

H0 : β1 = · · · = βp gegen H1 : mindestens ein βi �= βj .

Unter der Null-Hypothese H0 gilt, dass Ykj ∼ N (β1, σ2) fur alle k = 1, . . . , p

und j = 1, . . . , nk. Wir setzen

Yk• :=1nk

nk∑

l=1

Ykl und Y•• :=1p

p∑

l=1

Yl•

fur k = 1, . . . , p. Wir erhalten unmittelbar, dass βk = Yk• Kleinste-Quadrate-Schatzer von βk in Modell (7.40) sind. Der Schatzer von β1 im Modell derNull-Hypothese ist β1 = Y••. Fur die Berechnung von Vn beachte man, dass

∣∣∣∣ζ − ζ0

∣∣∣∣2 =

p∑

k=1

nk∑

l=1

(Yk• − Y••)2 =p∑

k=1

nk · (Yk• − Y••)2

und somit nach (7.34)

Page 234: Mathematische Statistik ||

226 7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)

Vn =(n − r)(r − q)

∣∣∣∣ζ − ζ0

∣∣∣∣2

∣∣∣∣Y − ζ

∣∣∣∣2

=n − p

p − 1·∑p

k=1 nk · (Yk• − Y••)2∑p

k=1

∑nk

l=1(Ykl − Yk•)2

gilt. Unter H0 ist Vn ∼ Fn−p,p−1. Nach Gleichung (7.37) gilt folgende Zerle-gung:

SST = SSW + SSB ,

wobei

SST :=‖ Y − ζ0 ‖2=p∑

k=1

nk∑

l=1

(Ykl − Y••)2

SSW :=‖ Y − ζ ‖2=p∑

k=1

nk∑

l=1

(Ykl − Yk•)2

SSB :=‖ ζ − ζ0 ‖2=p∑

k=1

nk · (Yk• − Y••)2 .

Hierbei bezeichnet SST die Variabilitat in der Gesamtstichprobe, SSW dieVariabilitat innerhalb der Stichprobe1 auch ”Error Sum of Squares” genanntund SSB die Variabilitat zwischen den p Gruppen, die auch als ”(Treatment)Sum of Squares” bezeichnet wird. Diese Großen werden in einer so genanntenANOVA-Tabelle wie in Tabelle 7.4 zusammengefasst. Man beachte, dass Vn =MSB/MSW (welche in Tabelle 7.4 definiert sind) und

δ(Y ) = 1{Vn(Y )>F1−α,n−p,p−1}

der F -Test von H0 : β1 = · · · = βo gegen H1 : mindestens ein βi �= βj ist.

Fehlerquelle SS df MSE = SS/df F

between samples SSB p − 1 MSB := SSB/(p − 1) MSB/MSW

within samples SSW n − p MSW := SSW /(n − p)

total SST n − 1

Tabelle 7.4 ANOVA-Tabelle fur das Einfaktormodell (df=degrees of freedom bzw.Freiheitsgrade).

1 W bezeichnet ,,within groups” und B steht fur ,,between groups”.

Page 235: Mathematische Statistik ||

7.4 Varianzanalyse 227

7.4.2 ANOVA im Mehrfaktormodell

Im Gegensatz zum Einfaktormodell gibt es im Mehrfaktormodell mehrereEinflussgroßen. In der vorigen Dunger-Ertragsuntersuchung konnte es ebensovon Interesse sein, den Saatzeitpunkt zu berucksichtigen, wie auch moglicheBodeneigenschaften. Der Einfachheit halber wird im Folgenden nur ein zwei-faktorielles Modell mit gleich großen Gruppen betrachtet. Die Erweiterungauf n ungleiche Gruppen folgt analog. Das betrachtete lineare Modell ist nun

Yijk = μij + εijk, 1 ≤ i ≤ I, 1 ≤ j ≤ J, 1 ≤ k ≤ K, (7.41)

mit εijk i.i.d. N (0, σ2). In Matrixform erhalten wir wieder Y = Xβ + εmit entsprechendem X ∈ R

n×p. Hierbei ist n = IJK, p = IJ und β =(μ11, . . . , μIJ )� ∈ R

IJ .Im Vergleich zu dem Einfaktormodell entstehen durch die Produktstruktur

neue Hypothesen, welche im Folgenden naher betrachtet werden. Man hatnun nicht nur den Einfluss eines Faktors zu untersuchen, sondern neben derUberlagerung der Einflusse auch mogliche Wechselwirkungen. Um dies zuverdeutlichen, betrachten wir Tabelle 7.5, welche die Effekte der Faktoren(im Mittel) auflistet.

Faktor B

μ11 · · · μ1J μ1•

Fakto

rA

.... . .

......

μi1 · · · μIJ μJ•

μ•1 . . . μ•J

Tabelle 7.5 Tabelle der Mittelwerte im zweifaktoriellen Modell (7.41).

Dafur setzen wir μ := μ•• = 1/IJ

I∑

i=1

J∑

j=1

μij sowie

αi := μi• − μ•• =1J

J∑

j=1

μij − μ••,

λj := μ•j − μ•• =1I

I∑

i=1

μij − μ••.

Die Große αi beschreibt den Zeileneffekt, also den Einfluss des Faktors A,wenn er sich im Zustand i befindet. Die Große λj beschreibt hingegen denSpalteneffekt, den Einfluss des Faktors B, wenn er sich im Zustand j befindet.Daruber hinaus konnen Faktor A und B auch gegenseitige Wechselwirkun-

Page 236: Mathematische Statistik ||

228 7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)

gen haben (welche sich von einer simplen additiven Uberlagerung der Effektunterscheiden), was durch die Große

γij := μij − μ•• − αi − λj = μij − μi• − μ•j + μ••

beschrieben wird. In der Tat ist dies die Wechselwirkung, welche uber diesimple additive Uberlagerung hinaus geht. Insgesamt entsteht der mittlereEffekt einer Zelle (i, j) aus Uberlagerung der einzelnen Effekte:

μij = μ + αi + λi + γij . (7.42)

Es ist zu beachten, dass bei der Zerlegung (7.42) folgende Bedingungen geltenmussen:

I∑

i=1

αi = 0 =J∑

j=1

λj

I∑

i=1

γij = 0 fur alle j = 1, . . . , J

J∑

j=1

γij = 0 fur alle i = 1, . . . , I.

Durch die Zerlegung (7.42) sind wir nun in der Lage, neue Hypothesen zuformulieren:

• Kein Einfluss von Faktor A: Hα : α1 = · · · = αI = 0 im Modellμij = μ + αi + λj .

• Kein Einfluss von Faktor B: Hλ : λ1 = · · · = λJ = 0 im Modellμij = μ + αi + λj .

• Keine Wechselwirkung zwischen Faktor A und B: Hγ : γij = 0, 1 ≤i ≤ I, 1 ≤ j ≤ J im Modell μij = μ + αi + λj + γij .

Fur die Schatzung von β im Modell (7.41) erhalten wir analog zum Ein-faktormodell, dass

μij = Yij• =1K

K∑

k=1

Yijk

fur alle 1 ≤ i ≤ I und 1 ≤ j ≤ J gilt. Insbesondere folgt, dass

RSS :=‖ Y − Xβ ‖2=I∑

i=1

J∑

j=1

K∑

k=1

(Yijk − Yij•)2.

Wir betrachten nun den F -Test zu einer allgemein Hypothese

H : ζH = XHβH ∈ WH

Page 237: Mathematische Statistik ||

7.4 Varianzanalyse 229

im Modell Y = ζ + ε mit ζ = Xβ ∈ W . Hierbei soll WH ⊂ W gelten.Sei βH der ML-Schatzer von βH . Wegen Y − Xβ⊥Xβ − XH βH lasst sichRSSH :=‖ Y − XβH ‖2 wie folgt darstellen:

RSSH =‖ Y − XβH ‖2

=‖ Y − Xβ ‖2 + ‖ Xβ − XH βH ‖2

= RSS+ ‖ Xβ − XH βH ‖2 .

Damit konnen wir direkt RSSH−RSS ausrechnen. Wir wenden dies zunachstauf die Hypothese Hγ an. Hierbei ist βγ := (μ, α1, . . . , αI , λ1, . . . , λJ )� undζγ = Xγβγ mit Xγ ∈ R

n×d und d := I +J +1. Ferner gilt, dass Rang(Xγ) =d − 2, da folgende Identifikationsbedingungen gelten:

I∑

i=1

αi = 0,J∑

j=1

λj = 0. (7.43)

Mit (7.43) kann man das zugehorige Kleinste-Quadrate-Minimierungsproblem,

minimiere Q(βγ) =I∑

i=1

J∑

j=1

K∑

k=1

(yijk − μ − αi − λj)2 (7.44)

uber alle βγ ∈ Rd, eindeutig losen. Insbesondere gilt fur die Schatzer

μ := Y•••, αi := Yi•• − Y••• und λj := Y•j• − Y•••,

dass die zugehorigen Schatzwerte die Normalengleichungen zum Problem(7.44) erfullen. Ferner gelten auch die Identifikationsbedingungen (7.43) furdie Schatzer μ, αi und λj . Damit gilt fur

βγ = (μ, α1, . . . , αI , γ1, . . . , γJ )�,

dass

‖ Xβ − Xγ γ ‖2 =I∑

i=1

J∑

j=1

K∑

k=1

(Yij• − μ − αi − λj)2

= KI∑

i=1

J∑

j=1

(Yij• − Yi•• − Y•j• + Y•••)2.

Fur die Hypothesen Hα und Hλ ist zu beachten, dass wir hierarchisch vorge-hen. Zunachst wird Hγ getestet. Falls Hγ angenommen wird, testet man aufHα bzw. Hλ. Dies bedeutet, dass man γij = 0 fur alle i, j annimmt. Somiterhalten wir analog die Ergebnisse in Tabelle 7.6.

Page 238: Mathematische Statistik ||

230 7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)

Hypothese H dfH RSSH −RSS

Hα I − 1 JK∑I

i=1(Yi•• − Y•••

)2

Hλ J − 1 IK∑J

j=1(Y•i• − Y•••

)2

Hγ (I − 1)(J − 1) K∑I,J

i=1,j=1

(Yij• − Yi•• − Y•j• + Y•••

)2

Tabelle 7.6 Verallgemeinerte Varianzanalyse-Tabelle.

Bezeichne dfH die Freiheitsgrade zugehorig zur Hypothese H. Dann giltinsbesondere, dass die Hypothese H verworfen wird, falls

VH :=(RSSH − RSS)/dfH

RSS/(n − IJ)> F1−α,dfH ,n−IJ .

Im Folgenden diskutieren wir ein weiteres Beispiel (siehe Georgii (2004),Bsp. 12.35).

B 7.17 Wechselwirkung von Medikamenten und Alkohol : Eine Untersuchung sollklaren, inwiefern ein Medikament in Wechselwirkung mit Alkohol die Reak-tionsfahigkeit beeinflusst. Hierzu werden die Reaktionszeiten von 6 Gruppenmit jeweils 4 Personen untersucht (I = 2, J = 3): Gemaß der Varianzanalyse

Promille

Tablette 0.0 0.5 1.0

ohne 23, 21, 20, 19 22, 25, 24, 25 24, 25, 22, 26

mit 22, 19, 18, 20 23, 21, 24, 28 25, 28, 32, 29

Tabelle 7.7 Gemessene Reaktionszeiten (in Hundertelsekunden) der behandeltenPatientengruppen.

erstellt man eine Tabelle mit den einzelnen Gruppen-Mittelwerten und denjeweiligen Zeilen- bzw. Spaltenmittelwerten. Diese Tabelle lasst erste Trendserkennen, aber naturlich noch keinen signifikanten Schluss zu. Die Fragestel-lungen von Interesse sind:

1. Beeintrachtigt die Tabletteneinnahme die Reaktionsfahigkeit?2. Inwiefern besteht eine Wechselwirkung mit Alkohol, beziehungsweise

verandert die zusatzliche Einnahme von Alkohol den Medikamenten-effekt?

Die Zunahme der beobachteten mittleren Reaktionszeit der Personen ohneTabletteneinnahme im Vergleich zu den Personen mit Tabletteneinnahme

Page 239: Mathematische Statistik ||

7.4 Varianzanalyse 231

Promille

Tablette 0.0 0.5 1.0 Yi••

ohne 20.75 24 24.25 23.0

mit 19.75 24 28.5 24.08

Y•j• 20.25 24 26.38 Y••• = 23.54

Tabelle 7.8 Mittelwerte der Tabelle 7.7.

(23.0 – 24.08) scheint darauf hinzudeuten, dass die Tabletteneinnahme dieReaktionszeit verschlechtert. Die schlechteste beobachtete mittlere Reakti-onszeit ist in der Gruppe mit dem hochsten Alkoholgehalt und Tabletten-einnahme zu verzeichnen. Vermutlich ist eine Wechselwirkung vorhanden.Welche der Unterschiede sind nun signifikant?

Hierzu stellt man eine verallgemeinerte Varianzanalyse-Tabelle auf. DieSchatzwerte sind in Tabelle 7.9 aufgelistet. Hier ist der Schatzwert fur

Hypothese H dfH RSSH − RSS VH = (RSSH−RSS)/dfH

RSS/(n−IJ) p-Wert

Hα 1 7.04 1.52 0.233

Hλ 2 152.58 16.50 0.000

Hγ 2 31.08 3.36 0.057

Tabelle 7.9 Die Ergebnisse der verallgemeinerten Varianzanalyse-Tabelle.Zusatzlich errechnet sich RSS=83.25.

RSS=83.25. Der Tabelle entnehmen wir, dass die Wechselwirkung (knapp)nicht signifikant, der Effekt des Alkohols allerdings hochst signifikant im Mo-dell ohne Wechselwirkung ist.

7.4.3 Referenzen

Da lineare Modelle in vielen unterschiedlichen Gebieten angewendet wer-den, gibt es eine Vielzahl an Literatur fur einzelne Anwendungsbereiche. DieBucher von Myers (1990) und Milton und Myers (1998) sind mathematischaufgebaut und bieten eine gelungene Einfuhrung in die Thematik. Die Buchervon Weisberg (2005) und Chatterjee (2006) enthalten viele Anwendungen.Moderne Einfuhrungen mit einer Behandlung geeigneter Software sind Ryan

Page 240: Mathematische Statistik ||

232 7. Lineare Modelle - Regression und Varianzanalyse (ANOVA)

(2008) und Fox (2008). Das Buch von Fahrmeir, Kneib und Lang (2009)behandelt neueste Verfahren im Bereich der Regressionsanalyse.

7.5 Aufgaben

A 7.1 Der KQS ist auch MLS im Normalverteilungsfall : Zeigen Sie, dass derKleinste-Quadrate-Schatzer β auch Maximum-Likelihood-Schatzer im allge-meinen linearen Modell ist, falls ε ∼ N (0, σ2In).

A 7.2 Einfache lineare Regression: Betrachten Sie die einfache lineare Regressionaus Beispiel 7.1. Zeigen Sie, dass

β1(y) :=∑n

i=1(xi − x)yi∑ni=1(xi − x)2

und β0(y) := y − β1x

die Normalengleichungen (3.3) losen und somit β0(y) und β1(y) Kleinste-Quadrate-Schatzer von β0 und β1 sind.

A 7.3 Einfache lineare Regression: Konfidenzintervalle: Konstruieren Sie (1 − α)-Konfidenzintervalle fur β0 und β1 im einfachen linearen Regressionsmodell

Yi = β0 + β1xi + εi

fur i = 1, . . . , n und ε1, . . . , εn i.i.d. mit ε1 ∼ N (0, σ2).

A 7.4 Einfache lineare Regression: Standardisierte Residuen: Betrachtet werde dieeinfache lineare Regression aus Beispiel 7.1. Zeigen Sie, dass ri, i = 1, . . . , ngegeben durch

ri :=Yi − Yi

s√

1 − hii

mit hii = (1 xi)(X�X)−1(1 xi)� gerade tn−2-verteilt ist.

A 7.5 Nichtlineare Regression: Arrhenius-Gesetz : In der Chemie werden haufigso genannte Reaktionsgeschwindigkeitskonstanten Ki, i = 1, . . . , n, bei un-terschiedlichen Messtemperaturen Ti gemessen. Die Messungen unterliegeneinem multiplikativen Messfehler. Es kann allerdings angenommen werden,dass die Ki unabhangig sind. Bestimmen Sie mit Hilfe des Arrhenius-Gesetzes

Ki = A · exp(

− E

R · Ti

)

, i = 1, . . . , n,

ein lineares Regressionsmodell und berechnen Sie damit die Kleinste-Quadrate-Schatzer A und E. Die allgemeine Gaskonstante R kann als gegeben voraus-gesetzt werden.

Page 241: Mathematische Statistik ||

7.5 Aufgaben 233

A 7.6 Einfache lineare Regression: Body-Mass-Index : In einer Studie zur Unter-suchung von Herzkreislauferkrankungen wurde bei sechs Mannern der Body-Mass-Index (kurz BMI), welcher den Quotienten aus Gewicht in kg geteiltdurch das Quadrat der Korpergroße in m darstellt, erhoben. Zusatzlich wurdederen systolischer Blutdruck gemessen, da vermutet wurde, dass UbergewichtBluthochdruck hervorruft. Bezeichne X den BMI und Y den Blutdruck. Fureine Stichprobe von sechs Mannern erhielt man folgende Werte:

xi 26 23 27 28 24 25

yi 179 150 160 175 155 150

(i) Berechnen Sie die Kleinste-Quadrate-Schatzer fur β0 und β1 der einfa-chen linearen Regression Yi = β0 + β1xi + εi.

(ii) Testen Sie H0 : β1 = 0 zum Signifikanzniveau α = 0.05. InterpretierenSie Ihr Ergebnis.

(iii) Veranschaulichen Sie die Daten und die Regressionsgerade graphisch.

Page 242: Mathematische Statistik ||

Anhang A

Resultate uber benutzteVerteilungsfamilien

A1 Liste der verwendeten Verteilungen

C. Czado, T. Schmidt, Mathematische Statistik, Statistik und ihre 235Anwendungen, DOI 10.1007/978-3-642-17261-8,c© Springer-Verlag Berlin Heidelberg 2011

Page 243: Mathematische Statistik ||

236 A Resultate uber benutzte Verteilungsfamilien

Verteilungsfamilie Dichte (Wahrscheinlichkeitsfunktion) Parameter Seite

Bernoulli(p) P(X = k) = pk(1 − p)1−k k ∈ {0, 1} p ∈ (0, 1) 10

Bin(n, p) P(X = k) =(

nk

)pk(1 − p)n−k k ∈ {0, . . . , n} p ∈ (0, 1), n ∈ N 10

M(n, p1, . . . , pd) P(X = k) = n!k1!···kd!

pk11 · · · pkq

d k ∈ {0, . . . , n}d, pi ∈ (0, 1) 10∑d

i=1 ki = n∑d

i=1 pi = 1

Geometrische P(X = k) = p (1 − p)k−1 k = 1, 2, . . . p ∈ (0, 1) 97

Hypergeo(N, n, θ) P(X = k) =(Nθ

k)(N−Nθ

n−k)

(N

n)

k ∈ {0, . . . , n} n ∈ {1, . . . , N}, 11

Nθ ∈ N, θ ∈ [0, 1]

Poiss(θ) P(X = k) = e−λ λk

k! k = 0, 1, 2, . . . λ > 0 10

diskrete Gleichvert. P(X = k) = N−1 k = 1, . . . , N N ∈ N 77

U(a, b) (b − a)−1 x ∈ [a, b] a < b ∈ R 12

Exp(λ) λe−λx x > 0 λ > 0 12

Gamma(a, λ) λa

Γ (a) xa−1e−λx x > 0 a, λ > 0 16

Invers Gamma(a, λ) λa

Γ (a)x−a−1e−λ

x x > 0 a, λ > 0 67

Beta(a, b) 1B(a,b)xa−1(1 − x)b−1 x ∈ [0, 1] a, b > 0 18

N (μ, σ2) 1√2πσ2 e−

(x−μ)2

2σ2 x ∈ R μ ∈ R, σ > 0 12

Nd(μ, Σ) 1√2π|Σ|e

− 12(x−μ)�Σ−1(x−μ) x ∈ R

d μ ∈ Rd 18

Σ ∈ Rd×d p.d.

Rayleigh(θ) xσ2 exp

(− x

2σ2

)x > 0 σ > 0 34

χ2n

12n/2Γ ( n

2) x

n

2−1e−

x

2 x > 0 n ∈ N 13

tnΓ ( n+1

2)

Γ (n/2)Γ (1/2)√

n

(1 + x2

n

)− n+12 x ∈ R n ∈ N 14

Fn,mn

n/2 mm/2

B(n/2,m/2)x

n2 −1

(m+nx)n+m/2 x > 0 n, m ∈ N 14

Weibull(λ, β) λβxβ−1e−λxβ

x > 0 β, λ > 0 187

Pareto(a, b) babx−a−1 x > a a, b > 0 66

DirichletΓ(∑r

j=1 αj)∏r

j=1 Γ (αj)

∏rj=1 x

αj−1j x ∈ (0, 1)r αi > 0, r ∈ N 66

∑rj=1 xj = 1

Invers Gauß(

λ2π

)1/2x−3/2e

−λ(x−μ)2

2μ2x x > 0 μ, λ > 0 66

Tabelle A1 Eine Auflistung der verwendeten Verteilungen. N = {1, 2, . . . } und p.d. steht furpositiv definit, d.h. a�Σa > 0 fur alle a ∈ R

d.

Page 244: Mathematische Statistik ||

Anhang B

Tabellen

B1 Exponentielle Familien

Wir wiederholen die Tabellen 2.1 (Seite 53) und 2.2 (Seite 56).

Verteilungsfamilie c(θ) T (x) A

Poiss(θ) ln(θ) x {0, 1, 2, . . . }Gamma(a, λ), a bekannt −λ x R

+

Gamma(a, λ), λ bekannt a − 1 ln x R+

Invers Gamma, a bekannt −λ x−1R

+

Invers Gamma, λ bekannt −a − 1 ln x R+

Beta(r, s), r bekannt s − 1 ln(1 − x) [0, 1]

Beta(r, s), s bekannt r − 1 ln(x) [0, 1]

N (θ, σ2), σ bekannt θ/σ2 x R

N (μ, θ2), μ bekannt −1/2θ2 (x − μ)2 R

Invers Gauß, λ bekannt − λ2μ2 x R

+

Invers Gauß, μ bekannt −λ2

xμ2 + 1

xR

+

Bin(n, θ), n bekannt ln θ/1−θ x {0, 1, . . . , n}Rayleigh(θ) −1/2θ2 x2

R+

χ2θ

θ2 − 1 ln x R

+

Exp(θ) −θ x R+

X1, . . . , Xm i.i.d. exp. Familie c(θ)∑m

i=1 T (xi) Am

Tabelle B1 Einparametrige exponentielle Familien. c, T und A aus Darstellung (2.6)sind in der Tabelle angegeben, d ergibt sich durch Normierung. Weitere Verteilungen,welche exponentielle Familien sind: Die Dirichlet-Verteilung (Seite 66) und die InverseGauß-Verteilung (Seite 66). Die tθ-, Fθ1,θ2 - und die Gleichverteilung U(0, θ) sowie dieHypergeometrische Verteilung lassen sich nicht als exponentielle Familien darstellen.

237

Page 245: Mathematische Statistik ||

238 B Tabellen

Verteilungsfamilie c(θ) T (x) A

N (θ1, θ22)

c1(θ) = θ1/θ22

c2(θ) = −1/2θ22

T1(x) = xT2(x) = x2 R

M(n, θ1, . . . , θd) ci(θ) = ln θi Ti(x) = xi

{x : xi ∈ {0, . . . , n}

und∑n

i=1 xi = n}.

Tabelle B2 Mehrparametrige exponentielle Familien. c, T und A aus Darstellung(2.11) sind in der Tabelle angegeben, d ergibt sich durch Normierung.

Page 246: Mathematische Statistik ||

Anhang C

Verzeichnisse

Tabellenverzeichnis

2.1 Einparametrige exponentielle Familien . . . . . . . . . . . . . . . . . . . . . . 532.2 Mehrparametrige exponentielle Familien . . . . . . . . . . . . . . . . . . . . 56

6.1 Die Verteilung der Zufallsvariablen X aus Beispiel 6.1 . . . . . . . . 165

7.1 Einfache lineare Regression: Anwendungsbeispiel . . . . . . . . . . . . . 2207.2 Multiple Lineare Regression: Anwendungsbeispiel . . . . . . . . . . . . 2237.3 Regressionsgleichungen zur multiplen linearen Regression . . . . . 2237.4 ANOVA-Tabelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2267.5 Tabelle der Mittelwerte im zweifaktoriellen Modell (7.41) . . . . . 2277.6 Varianzanalyse-Tabelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2307.7 Wechselwirkung v. Medikamenten und Alkohol . . . . . . . . . . . . . . 2307.8 Mittelwerte der Tabelle 7.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2317.9 Varianzanalyse-Tabelle: Datenbeispiel . . . . . . . . . . . . . . . . . . . . . . 231

A1 Die verwendeten Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236

B1 Einparametrige exponentielle Familien . . . . . . . . . . . . . . . . . . . . . . 237B2 Mehrparametrige exponentielle Familien . . . . . . . . . . . . . . . . . . . . 238

239

Page 247: Mathematische Statistik ||

Abbildungsverzeichnis

1.1 Verteilung der Hypergeometrischen Verteilung . . . . . . . . . . . . . . . 111.2 Dichte der Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.3 Dichte der Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.4 Dichte der Beta-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.1 Poisson-Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.1 Einfache lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 793.2 Einfache lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 823.3 Konkave Funktionen und Maxima . . . . . . . . . . . . . . . . . . . . . . . . . . 853.4 Likelihood-Funktion fur Normalverteilung . . . . . . . . . . . . . . . . . . . 873.5 Likelihood-Funktion einer diskreten Gleichverteilung. . . . . . . . . . 88

4.1 Nichtidentifizierbarkeit eines besten Schatzers . . . . . . . . . . . . . . . 1064.2 Vergleich von Mittelwertschatzern anhand des MQF . . . . . . . . . . 107

5.1 Dichte der Normalverteilung mit Quantilen . . . . . . . . . . . . . . . . . . 1415.2 Dichte p(x) der χ2

n-Verteilung mit Quantilen . . . . . . . . . . . . . . . . 1435.3 Illustration eines (1 − α)-credible Intervalls . . . . . . . . . . . . . . . . . . 1475.4 Fehlerwahrscheinlichkeiten und Gutefunktion . . . . . . . . . . . . . . . . 1515.5 Das (1 − α)-Quantil der Normalverteilung, z1−α . . . . . . . . . . . . . 1535.6 Gutefunktion des Tests δ(X) = 1{X≥σz1−α/

√n} . . . . . . . . . . . . . . 154

5.7 Gutefunktion des Tests δ(X) = 1{X>z1−ασ/√

n} . . . . . . . . . . . . . . 1565.8 Konfidenzintervalle und Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

7.1 Projektion im linearen Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2027.2 Erwartungswertvektor und Residuenvektor . . . . . . . . . . . . . . . . . . 2057.3 Geometrische Illustration der Gleichung (7.37) . . . . . . . . . . . . . . . 2187.4 Einfache lineare Regression: Traubenernte . . . . . . . . . . . . . . . . . . . 2227.5 Explorative Datenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224

240

Page 248: Mathematische Statistik ||

Liste der Beispiele

1.1 Mittelwert und Stichprobenvarianz . . . . . . . . . . . . . . . . . 51.2 Hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . 111.3 Bernoulli-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 211.4 Fortsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211.5 Suffiziente Statistik in der Bernoulli-Verteilung . . . . . . . . . . 211.6 Minima und Maxima von gleichverteilten Zufallsvariablen . . . . 242.1 Qualitatssicherung . . . . . . . . . . . . . . . . . . . . . . . . . . 372.2 Meßmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382.3 Ein nicht identifizierbares Modell . . . . . . . . . . . . . . . . . . 402.4 Meßmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412.5 Qualitatssicherung, siehe Beispiel 2.1 . . . . . . . . . . . . . . . 432.6 Qualitatssicherung, siehe Beispiel 2.1 . . . . . . . . . . . . . . . 442.7 Warteschlange . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442.8 Warteschlange, Fortsetzung von Beispiel 2.7 . . . . . . . . . . . . 482.9 Geordnete Population: Schatzen des Maximums . . . . . . . . . 482.10 Suffiziente Statistiken fur die Normalverteilung . . . . . . . . . . 482.11 Normalverteilung mit bekanntem σ . . . . . . . . . . . . . . . . 502.12 Normalverteilung mit bekanntem μ . . . . . . . . . . . . . . . . 512.13 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 512.14 Die U(0, θ)-Verteilung ist keine exponentielle Familie . . . . . . . 512.15 i.i.d. Normalverteilung mit bekanntem σ . . . . . . . . . . . . . 522.16 Momente der Rayleigh-Verteilung . . . . . . . . . . . . . . . . . 552.17 Die Normalverteilung ist eine zweiparametrige exponentielle

Familie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 562.18 i.i.d. Normalverteilung als exponentielle Familie . . . . . . . . . 562.19 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . 562.20 Qualitatssicherung unter Vorinformation . . . . . . . . . . . . . 572.21 Konjugierte Familie der Bernoulli-Verteilung . . . . . . . . . . . 592.22 Konjugierte Familie der Normalverteilung bei bekannter Varianz 613.1 Qualitatssicherung aus Beispiel 2.1 . . . . . . . . . . . . . . . . 713.2 Meßmodell aus Beispiel 2.2 . . . . . . . . . . . . . . . . . . . . . 713.3 Meßmodell aus Beispiel 3.2 . . . . . . . . . . . . . . . . . . . . . 72

241

Page 249: Mathematische Statistik ||

242 Liste der Beispiele

3.4 Relative Haufigkeiten . . . . . . . . . . . . . . . . . . . . . . . . 733.5 Genotypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 743.6 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 763.7 Bernoulli-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 763.8 Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 763.9 Diskrete Gleichverteilung und Momentenschatzer . . . . . . . . . 773.10 Meßmodell aus Beispiel 2.2 . . . . . . . . . . . . . . . . . . . . . 793.11 Einfache lineare Regression . . . . . . . . . . . . . . . . . . . . . 793.12 Meßmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 803.13 Einfache lineare Regression . . . . . . . . . . . . . . . . . . . . . 813.14 Log-Likelihood-Funktion unter Unabhangigkeit . . . . . . . . . . 853.15 Normalverteilungsfall, σ bekannt . . . . . . . . . . . . . . . . . . 863.16 Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 873.17 Genotypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 873.18 Warteschlange . . . . . . . . . . . . . . . . . . . . . . . . . . . . 893.19 Normalverteilungsfall, σ bekannt . . . . . . . . . . . . . . . . . . 903.20 Genotypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 913.21 MLS fur Normalverteilung, μ und σ unbekannt . . . . . . . . . . 923.22 Diskret beobachtete Uberlebenszeiten . . . . . . . . . . . . . . . 934.1 MQF fur die Normalverteilung . . . . . . . . . . . . . . . . . . . 1044.2 Vergleich von Mittelwertschatzern anhand des MQF . . . . . . . 1054.3 Der perfekte Schatzer . . . . . . . . . . . . . . . . . . . . . . . . 1074.4 Unverzerrte Schatzer . . . . . . . . . . . . . . . . . . . . . . . . . 1084.5 Vollstandigkeit unter Poisson-Verteilung . . . . . . . . . . . . . . 1104.6 UMVUE-Schatzer fur die Normalverteilung . . . . . . . . . . . . 1124.7 UMVUE-Schatzer in der Exponentialverteilung . . . . . . . . . . 1124.8 UMVUE-Schatzer fur die Gleichverteilung . . . . . . . . . . . . . 1144.9 Fisher-Information unter Normalverteilung . . . . . . . . . . . . 1174.10 Fisher-Information fur die Poisson-Verteilung . . . . . . . . . . . 1174.11 Konsistente Schatzung der Multinomialverteilung . . . . . . . . 1204.12 Konsistenz der Momentenschatzer . . . . . . . . . . . . . . . . . 1214.13 Bernoulli-Verteilung: Asymptotische Normalitat . . . . . . . . . 1244.14 Multinomialverteilung: Asymptotische Normalitat . . . . . . . . 1244.15 Momentenschatzer: Asymptotische Normalitat . . . . . . . . . . 1254.16 Poisson-Verteilung: Effizienz . . . . . . . . . . . . . . . . . . . . 1275.1 Normalverteilung, σ bekannt: Konfidenzintervall . . . . . . . . . 1405.2 Pivot (Fortsetzung von Beispiel 5.1) . . . . . . . . . . . . . . . . 1425.3 Unverzerrtes Konfidenzintervall (Fortsetzung von Beispiel 5.1) . 1425.4 Normalverteilung, μ und σ unbekannt: Konfidenzintervall . . . . 1425.5 Normalverteilung, μ bekannt: Konfidenzintervall fur σ2 . . . . . 1435.6 Approximative Konfidenzgrenzen fur die

Erfolgswahrscheinlichkeit in Bernoulli-Experimenten . . . . . . . 1445.7 Normalverteilungsfall: Konfidenzbereich fur (μ, σ2) . . . . . . . . 1465.8 Test fur Bernoulli-Experiment . . . . . . . . . . . . . . . . . . . 1495.9 Test mit Signifikanzniveau α und Level-α-Test . . . . . . . . . . 150

Page 250: Mathematische Statistik ||

Liste der Beispiele 243

5.10 Fortfuhrung von Beispiel 5.8 . . . . . . . . . . . . . . . . . . . . 1505.11 Tests: Anwendungsbeispiele . . . . . . . . . . . . . . . . . . . . . 1515.12 Fortsetzung von Beispiel 5.8 . . . . . . . . . . . . . . . . . . . . 1525.13 Normalverteilung: Einseitiger Gauß-Test fur μ . . . . . . . . . . 1535.14 Fortsetzung von Beispiel 5.13: p-Wert . . . . . . . . . . . . . . . 1545.15 Normalverteilung: Zweiseitiger Gauß-Test uber den

Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1576.1 Likelihood-Quotienten-Tests . . . . . . . . . . . . . . . . . . . . 1656.2 Normalverteilungstest fur H0 : μ = 0 gegen H1 : μ = ν . . . . . . 1666.3 Diskrete Gleichverteilung: NP-Test . . . . . . . . . . . . . . . . . 1686.4 Multinomialverteilung: NP-Test . . . . . . . . . . . . . . . . . . 1696.5 Normalverteilung: UMP-Test fur μ ≤ μ0 gegen μ > μ0 . . . . . . 1716.6 Normalverteilung: UMP-Test fur H0 : μ ≤ μ0 gegen H1 : μ > μ0 1736.7 Bernoulli-Zufallsvariablen: UMP-Test fur H0 : θ ≤ θ0 gegen

H1 : θ > θ0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1746.8 Normalverteilung mit bekanntem Erwartungswert: Beziehung

zur Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . 1746.9 Tests fur den Skalenparameter der Gamma-Verteilung . . . . . . 1746.10 Normalverteilung: zweiseitiger Gauß-TestTest fur μ . . . . . . . 1756.11 Cauchy-Verteilung: Nichtexistenz von UMP-Tests . . . . . . . . 1766.12 Matched Pair Experiments: Zweiseitiger t-Test . . . . . . . . . . 1796.13 Matched Pair Experiments: Einseitiger Test . . . . . . . . . . . . 1826.14 Differenz zweier Normalverteilungen mit homogener Varianz . . 1826.15 Zweistichprobenproblem mit ungleicher Varianz:

Behrens-Fischer Problem . . . . . . . . . . . . . . . . . . . . . . 1847.1 Einfache lineare Regression . . . . . . . . . . . . . . . . . . . . . 1917.2 Zweistichprobenproblem . . . . . . . . . . . . . . . . . . . . . . . 1917.3 Bivariate Regression . . . . . . . . . . . . . . . . . . . . . . . . . 1927.4 Einstichprobenproblem . . . . . . . . . . . . . . . . . . . . . . . 1927.5 p-Stichprobenproblem . . . . . . . . . . . . . . . . . . . . . . . . 1937.6 Beispiele fur die Matrixformulierung des linearen Modells . . . . 1967.7 Fortsetzung von Beispiel 7.5: UMVUE-Schatzer im

p-Stichprobenproblem . . . . . . . . . . . . . . . . . . . . . . . . 2057.8 Einfache lineare Regression: UMVUE-Schatzer (1) . . . . . . . . 2067.9 Einfache lineare Regression: UMVUE-Schatzer (2) . . . . . . . . 2077.10 p-Stichprobenproblem: UMVUE-Schatzer . . . . . . . . . . . . . 2087.11 Einfache lineare Regression: W0 . . . . . . . . . . . . . . . . . . 2137.12 p-Stichprobenproblem: W0 . . . . . . . . . . . . . . . . . . . . . 2147.13 Einfache lineare Regression: t- und F-Test . . . . . . . . . . . . . 2177.14 Multiple lineare Regression: t-Test . . . . . . . . . . . . . . . . . 2207.15 Einfache lineare Regression: Beispiel . . . . . . . . . . . . . . . . 2207.16 Multiple lineare Regression: Beispiel . . . . . . . . . . . . . . . . 2217.17 Wechselwirkung von Medikamenten und Alkohol . . . . . . . . . 230

Page 251: Mathematische Statistik ||

Liste der Aufgaben

1.1 Die Potenzmenge ist eine σ-Algebra . . . . . . . . . . . . . . . . 291.2 Unkorreliertheit impliziert nicht Unabhangigkeit . . . . . . . . . 291.3 Erwartungstreue der Stichprobenvarianz . . . . . . . . . . . . . . 291.4 Darstellung der Binomialverteilung als Summe von

unabhangigen Bernoulli-Zufallsvariablen . . . . . . . . . . . . . . 291.5 Erwartungswert und Varianz der Poisson-Verteilung . . . . . . . 291.6 Gedachtnislosigkeit der Exponentialverteilung . . . . . . . . . . 291.7 Gamma-Verteilung: Unabhangigkeit von bestimmten Quotienten 291.8 Quotienten von Gamma-verteilten Zufallsvariablen . . . . . . . . 291.9 Transformationen von Gamma-verteilten Zufallsvariablen . . . . 301.10 Erwartungswert des Betrages einer Normalverteilung . . . . . . 301.11 Momente der Normalverteilung . . . . . . . . . . . . . . . . . . . 301.12 Momentenerzeugende Funktion einer Gamma-Verteilung . . . . 301.13 Momente der Beta-Verteilung . . . . . . . . . . . . . . . . . . . . 301.14 Zweiseitige Exponentialverteilung . . . . . . . . . . . . . . . . . 301.15 Existenz von Momenten niedrigerer Ordnung . . . . . . . . . . . 301.16 Levy-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 311.17 Momentenerzeugende Funktion und Momente der

Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 311.18 Die bedingte Verteilung ist ein Wahrscheinlichkeitsmaß . . . . . 311.19 Erwartungswert der bedingten Erwartung . . . . . . . . . . . . . 311.20 Der bedingte Erwartungswert als beste Vorhersage . . . . . . . . 311.21 Perfekte Vorhersagen . . . . . . . . . . . . . . . . . . . . . . . . 321.22 Bedingte Dichte: Beispiele . . . . . . . . . . . . . . . . . . . . . . 321.23 Poisson-Binomial Mischung . . . . . . . . . . . . . . . . . . . . . 321.24 Exponential-Exponential Mischung . . . . . . . . . . . . . . . . . 321.25 Linearitat des bedingten Erwartungswertes . . . . . . . . . . . . 321.26 Bedingte Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . 321.27 Satz von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331.28 Exponentialverteilung: Diskretisierung . . . . . . . . . . . . . . . 331.29 Erwartungswert einer zufalligen Summe . . . . . . . . . . . . . . 331.30 Faltungsformel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

244

Page 252: Mathematische Statistik ||

Liste der Aufgaben 245

1.31 Die Summe von normalverteilten Zufallsvariablen ist wiedernormalverteilt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

1.32 Dichte der χ2-Verteilung . . . . . . . . . . . . . . . . . . . . . . 341.33 Wohldefiniertheit der nichtzentralen χ2-Verteilung . . . . . . . . 341.34 Verteilung der Stichprobenvarianz . . . . . . . . . . . . . . . . . 341.35 Mittelwertvergleich bei Gamma-Verteilungen . . . . . . . . . . . 341.36 Rayleigh-Verteilung: Momente und Zusammenhang mit der

Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 341.37 Dichte der multivariaten Normalverteilung . . . . . . . . . . . . 351.38 Lineare Transformationen der Normalverteilung . . . . . . . . . 351.39 Normalverteilung: Cov(X,Y ) = 0 impliziert Unabhangigkeit . . 351.40 Bedingte Verteilungen der multivariaten Normalverteilung . . . 352.1 Zwischenankunftszeiten eines Poisson-Prozesses . . . . . . . . . . 632.2 Stichprobenvarianz: Darstellung . . . . . . . . . . . . . . . . . . 632.3 Parametrisierung und Identifizierbarkeit . . . . . . . . . . . . . . 632.4 Identifizierbarkeit im linearen Modell . . . . . . . . . . . . . . . 642.5 Verschobene Gleichverteilung: Ineffizienz von X . . . . . . . . . 642.6 Mehrdimensionale Verteilungen . . . . . . . . . . . . . . . . . . . 642.7 Exponentielle Familie: Verteilung von T . . . . . . . . . . . . . . 642.8 Exponentielle Familie erzeugt durch suffiziente Statistik . . . . . 652.9 Exponentielle Familie: Gegenbeispiel . . . . . . . . . . . . . . . . 652.10 Mitglieder der exponentiellen Familie . . . . . . . . . . . . . . . 652.11 Inverse Gamma-Verteilung als Exponentielle Familie . . . . . . . 652.12 Folge von Bernoulli-Experimenten . . . . . . . . . . . . . . . . . 652.13 Dirichlet-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 662.14 Inverse Gauß-Verteilung . . . . . . . . . . . . . . . . . . . . . . . 662.15 Suffizienz: Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . 662.16 Suffizienz: Beta-Verteilung . . . . . . . . . . . . . . . . . . . . . 662.17 Suffizienz: Weibull- und Pareto-Verteilung . . . . . . . . . . . . . 662.18 Suffizienz: Nichtzentrale Exponentialverteilung . . . . . . . . . . 662.19 Suffizienz: Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . 672.20 Suffizienz: Rayleigh-Verteilung . . . . . . . . . . . . . . . . . . . 672.21 Beispiel: Qualitatskontrolle . . . . . . . . . . . . . . . . . . . . . 672.22 Suffizienz: Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . 672.23 Suffizienz: Inverse Gamma-Verteilung . . . . . . . . . . . . . . . 672.24 Minimal suffiziente Statistik . . . . . . . . . . . . . . . . . . . . 672.25 Bayesianisches Modell: Gamma-Exponential . . . . . . . . . . . 682.26 Bayesianisches Modell: Normalverteiltes Experiment . . . . . . . 682.27 Konjugierte Familien: Beispiel . . . . . . . . . . . . . . . . . . . 682.28 Konjugierte Familie der Bernoulli-Verteilung . . . . . . . . . . . 692.29 Konjugierte Familie der Normalverteilung . . . . . . . . . . . . . 692.30 Konjugierte Familie der Gamma-Verteilung . . . . . . . . . . . . 692.31 Bayesianischer Ansatz: Gleichverteilung . . . . . . . . . . . . . . 692.32 Bayesianisches Wartezeitenmodell . . . . . . . . . . . . . . . . . 692.33 A posteriori-Verteilung fur die Exponentialverteilung . . . . . . 70

Page 253: Mathematische Statistik ||

246 Liste der Aufgaben

2.34 Approximation der a posteriori-Verteilung . . . . . . . . . . . . . 703.1 Absolute und quadratische Abweichung . . . . . . . . . . . . . . 963.2 Qualitatskontrolle: Haufigkeitssubstitution . . . . . . . . . . . . 973.3 Momentenschatzer: Beispiele . . . . . . . . . . . . . . . . . . . . 973.4 Momentenschatzer: Beta-Verteilung . . . . . . . . . . . . . . . . 983.5 Momentenschatzer: Laplace-Verteilung . . . . . . . . . . . . . . . 983.6 Momentenschatzer: Weibull-Verteilung . . . . . . . . . . . . . . . 983.7 Momentenschatzer: AR(1) . . . . . . . . . . . . . . . . . . . . . 983.8 Momentenschatzung hat keinen Zusammenhang zur Suffizienz . 983.9 Schatzung der Kovarianz . . . . . . . . . . . . . . . . . . . . . . 993.10 Maximum-Likelihood-Schatzer einer gemischten Verteilung . . . 993.11 Mischung von Gleichverteilungen . . . . . . . . . . . . . . . . . . 993.12 Maximum-Likelihood-Schatzer: Beispiele . . . . . . . . . . . . . 993.13 Exponentialverteilung: MLS und Momentenschatzer . . . . . . . 1003.14 Maximum-Likelihood-Schatzer: Zweidimensionale

Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . 1003.15 Verschobene Gleichverteilung . . . . . . . . . . . . . . . . . . . . 1003.16 Maximum-Likelihood-Schatzer: Weibull-Verteilung . . . . . . . . 1003.17 Zensierte Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . 1003.18 Lebensdaueranalyse: Rayleigh-Verteilung . . . . . . . . . . . . . 1013.19 Die Maximum-Likelihood-Methode zur Gewinnung von

Schatzern hat einen Zusammenhang zur Suffizienz . . . . . . . . 1013.20 Gewichtete einfache lineare Regression . . . . . . . . . . . . . . . 1013.21 Lineare Regression: Quadratische Faktoren . . . . . . . . . . . . 1013.22 Gewichteter Kleinste-Quadrate-Schatzer: Normalverteilung . . . 1023.23 Beweis von Satz 3.10 . . . . . . . . . . . . . . . . . . . . . . . . 1023.24 Normalverteilung: Schatzung der Varianz . . . . . . . . . . . . . 1023.25 Ausreißer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1024.1 Die Bedingung (CR) fur einparametrige exponentielle Familien . 1304.2 Minimal suffiziente und vollstandige Statistiken . . . . . . . . . . 1304.3 Bernoulli-Verteilung: UMVUE . . . . . . . . . . . . . . . . . . . 1304.4 Vollstandigkeit und UMVUE . . . . . . . . . . . . . . . . . . . . 1304.5 Normalverteilung: UMVUE-Schatzer fur μ . . . . . . . . . . . . 1304.6 Normalverteilung, μ bekannt: UMVUE fur σ2 . . . . . . . . . . . 1304.7 Normalverteilung, μ unbekannt: UMVUE fur σ2 . . . . . . . . . 1304.8 Normalverteilung, UMVUE fur P(X > 0) . . . . . . . . . . . . . 1314.9 Binomialverteilung: UMVUE . . . . . . . . . . . . . . . . . . . . 1314.10 Diskrete Gleichverteilung: UMVUE . . . . . . . . . . . . . . . . 1314.11 UMVUE: Rayleigh-Verteilung (1) . . . . . . . . . . . . . . . . . 1314.12 UMVUE: Rayleigh-Verteilung (2) . . . . . . . . . . . . . . . . . 1314.13 UMVUE: Trunkierte Erlang-Verteilung . . . . . . . . . . . . . . 1314.14 UMVUE: Trunkierte Binomialverteilung . . . . . . . . . . . . . . 1324.15 Exponentialverteilung: UMVUE . . . . . . . . . . . . . . . . . . 1324.16 UMVUE: Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . 1324.17 Exponentielle Familien: UMVUE . . . . . . . . . . . . . . . . . . 132

Page 254: Mathematische Statistik ||

Liste der Aufgaben 247

4.18 Ein nicht effizienter Momentenschatzer . . . . . . . . . . . . . . 1324.19 Rao-Blackwell . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1334.20 Die Cramer-Rao-Schranke und die Gleichverteilung . . . . . . . 1334.21 Die Cramer-Rao-Schranke ist nicht scharf . . . . . . . . . . . . . 1334.22 UMVUE: Laplace-Verteilung . . . . . . . . . . . . . . . . . . . . 1334.23 Marshall-Olkin-Copula . . . . . . . . . . . . . . . . . . . . . . . 1334.24 Hinreichende Bedingungen fur Konsistenz . . . . . . . . . . . . . 1344.25 Verschobene Gleichverteilung: Konsistenz . . . . . . . . . . . . . 1344.26 Mehrdimensionale Informationsungleichung . . . . . . . . . . . . 1344.27 Delta-Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1354.28 Delta-Methode: Transformation von X . . . . . . . . . . . . . . 1354.29 Delta-Methode: Schatzung der Kovarianz . . . . . . . . . . . . . 1354.30 Asymptotik: Log-Normalverteilung . . . . . . . . . . . . . . . . . 1364.31 Asymptotische Effizienz: Beispiel . . . . . . . . . . . . . . . . . . 1364.32 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1364.33 Doppelt-Exponentialverteilung: Asymptotik . . . . . . . . . . . . 1364.34 Gleichverteilung: Asymptotik des MLS . . . . . . . . . . . . . . 1365.1 Konfidenzintervall fur σ2 bei Normalverteilung . . . . . . . . . . 1595.2 Konfidenzintervall bei diskreter Gleichverteilung U(0, θ) . . . . . 1595.3 Exponentialverteilung: Konfidenzintervall . . . . . . . . . . . . . 1605.4 Lineare Regression: Quadratische Faktoren . . . . . . . . . . . . 1605.5 Mittelwertvergleich unter Normalverteilung . . . . . . . . . . . . 1605.6 Varianzvergleich bei Normalverteilung . . . . . . . . . . . . . . . 1605.7 Delta-Methode: Schatzung der Kovarianz . . . . . . . . . . . . . 1615.8 Exponentialverteilung: Mittelwertvergleich . . . . . . . . . . . . 1615.9 Poisson-Verteilung: Test . . . . . . . . . . . . . . . . . . . . . . . 1615.10 Mittelwertvergleich bei Normalverteilung: Gutefunktion . . . . . 1625.11 Gutefunktionen bei der Gleichverteilung . . . . . . . . . . . . . . 1625.12 Bayesianischer Intervallschatzer . . . . . . . . . . . . . . . . . . 1626.1 Neyman-Pearson-Lemma: k = ∞ . . . . . . . . . . . . . . . . . . 1856.2 Eindeutigkeit des Neyman-Pearson-Tests . . . . . . . . . . . . . 1856.3 Beweis von Satz 6.6, Teil (b) . . . . . . . . . . . . . . . . . . . . 1856.4 Exponentialverteilung: Test uber Mittelwert . . . . . . . . . . . 1866.5 Trunkierte Binomialverteilung: Optimale Teststatistik . . . . . . 1866.6 UMP-Test: Binomialverteilung . . . . . . . . . . . . . . . . . . . 1866.7 Rayleigh-Verteilung: UMP-Test . . . . . . . . . . . . . . . . . . . 1876.8 Weibull-Verteilung: UMP-Test . . . . . . . . . . . . . . . . . . . 1876.9 Pareto-Verteilung: Optimaler Test . . . . . . . . . . . . . . . . . 1886.10 Exponentialverteilung: Zweiseitiger Test . . . . . . . . . . . . . . 1886.11 Likelihood-Quotienten-Statistiken und Suffizienz . . . . . . . . . 1886.12 Likelihood-Quotienten-Test: Exponentialverteilung . . . . . . . . 1886.13 Likelihood-Quotienten-Test: Nichtzentrale Exponentialverteilung 1896.14 AR(1): Likelihood-Quotienten-Test . . . . . . . . . . . . . . . . . 1896.15 Monotone Likelihood-Quotienten . . . . . . . . . . . . . . . . . . 1896.16 Likelihood-Quotienten-Test: Beispiel . . . . . . . . . . . . . . . . 189

Page 255: Mathematische Statistik ||

248 Liste der Aufgaben

6.17 Zweistichproben-Modell: Beispiel . . . . . . . . . . . . . . . . . . 1907.1 Der KQS ist auch MLS im Normalverteilungsfall . . . . . . . . . 2327.2 Einfache lineare Regression . . . . . . . . . . . . . . . . . . . . . 2327.3 Einfache lineare Regression: Konfidenzintervalle . . . . . . . . . 2327.4 Einfache lineare Regression: Standardisierte Residuen . . . . . . 2327.5 Nichtlineare Regression: Arrhenius-Gesetz . . . . . . . . . . . . . 2327.6 Einfache lineare Regression: Body-Mass-Index . . . . . . . . . . 233

Page 256: Mathematische Statistik ||

Literaturverzeichnis

Bauer, H. (1990). Wahrscheinlichkeitstheorie. Walter de Gruyter, Berlin.Berger, J. O. (1985). Statistical Decision Theory and Bayesian Analysis (2nd ed.).

Springer Verlag. Berlin Heidelberg New York.Bickel, P. J. und K. A. Doksum (2001). Mathematical Statistics: Basic Ideas and

Selected Topics Vol. I (2nd ed.). Prentice Hall.Billingsley, P. (1986). Probability and Measure (2nd ed.). John Wiley & Sons. New

York.Casella, G. und R. L. Berger (2002). Statistical Inference (2nd ed.). Duxbury. Pacific

Grove.Chatterjee, S. (2006). Regression Analysis by Example (4th ed.). John Wiley & Sons.

New York.Chung, K. L. (2001). A Course in Probability Theory. Academic Press.Duller, C. (2008). Einfuhrung in die nichtparametrische Statistik mit SAS und R.

Physica-Verlag Heidelberg.Fahrmeir, L., T. Kneib und S. Lang (2009). Regression: Modelle, Methoden und

Anwendungen (2nd ed.). Springer Verlag. Berlin Heidelberg New York.Ferguson, T. S. (1996). A Course in Large Sample Theory. Chapman and Hall.Fischer, G. (1978). Lineare Algebra. Vieweg Mathematik, Hamburg.Fox, J. (2008). Applied Regression Analysis and Generalized Linear Models (2nd ed.).

Sage, London.Gamerman, D. und H. F. Lopes (2006). Stochastic Simulation for Bayesian Inference

(2nd ed.). Chapman & Hall/ CRC, London.Ganssler, P. und W. Stute (1977). Wahrscheinlichkeitstheorie. Springer Verlag. Berlin

Heidelberg New York.Gauß, C. F. (1809). Theoria Motus Corporum Coelestium in sectionibus conicis so-

lem ambientium. Volume 2.Georgii, H.-O. (2004). Stochastik (2nd ed.). Walter de Gruyter. Berlin.Gibbons, J. D. und S. Chakraborti (2003). Nonparametric Statistical Inference (4th

ed.). Dekker.Gut, A. (2005). Probability: A Graduate Course. Springer Verlag. Berlin Heidelberg

New York.Irle, A. (2005). Wahrscheinlichkeitstheorie und Statistik. B. G. Teubner Verlag.Johnson, N. L., S. Kotz und N. Balakrishnan (1994a). Continuous Univariate Dis-

tributions (2nd ed.), Volume 1. John Wiley & Sons. New York.Johnson, N. L., S. Kotz und N. Balakrishnan (1994b). Continuous Univariate Dis-

tributions (2nd ed.), Volume 2. John Wiley & Sons. New York.Johnson, N. L., S. Kotz und A. W. Kemp (1992). Univariate Discrete Distributions

(2nd ed.). John Wiley & Sons. New York.

249

Page 257: Mathematische Statistik ||

250 Literaturverzeichnis

Klein, J. P. und M. L. Moeschberger (2003). Survival Analysis: Techniques for Cen-sored and Truncated Data (2nd ed.). Springer Verlag. Berlin Heidelberg NewYork.

Klenke, A. (2008). Wahrscheinlichkeitstheorie (2nd ed.). Springer Verlag. Berlin Hei-delberg New York.

Lange, K. (2004). Optimization. Springer Verlag. Berlin Heidelberg New York.Lee, P. M. (2004). Bayesian Statistics: An Introduction (3rd ed.). Arnold, London.Lehmann, E. L. (2007). Nonparametrics: Statistical Methods Based on Ranks. Sprin-

ger Verlag. Berlin Heidelberg New York.Lehmann, E. L. und G. Casella (1998). Theory of Point Estimation (2nd ed.). Sprin-

ger Verlag. Berlin Heidelberg New York.Lehmann, E. L. und J. P. Romano (2006). Testing Statistical Hypotheses (corr. 2nd

printing ed.). Springer, New York.Marin, J.-M. und C. P. Robert (2007). Bayesian Core: A Practical Approach to

Computational Bayesian Statistics. Springer Verlag. Berlin Heidelberg New York.Milton, J. S. und R. H. Myers (1998). Linear Statistical Models (2nd ed.). Mc Graw

Hill. New York.Myers, R. H. (1990). Classical and Modern Regression with Applications (2nd ed.).

Duxbury/Thomson Learning, Boston.Rao, C. R. (1973). Linear Statistical Inference and its Applications (2nd ed.). John

Wiley & Sons. New York.Resnick, S. (2003). A Probability Path (3rd ed.). Kluwer Academic Publ.Rice, J. A. (1995). Mathematical Statistics and Data Analysis (2nd ed.). Duxbury

Press.Robert, C. P. und G. Casella (2008). A history of Markov chain Monte Carlo –

subjective recollections form incomplete data. Technical Report, University ofFlorida.

Rolski, T., H. Schmidli, V. Schmidt und J. Teugels (1999). Stochastic Processes forInsurance and Finance. John Wiley & Sons. New York.

Ryan, T. P. (2008). Modern Regression Methods (2nd ed.). John Wiley & Sons. NewYork.

Schervish, M. (1995). Theory of Statistics. Springer Verlag. Berlin Heidelberg NewYork.

Schmidt, T. (2007). Coping with copulas. In J. Rank (Ed.), Copulas: from theory toapplications in finance, pp. 1 – 31. Risk Books.

Seber, G. A. F. und C. J. Wild (2003). Nonlinear Regression. John Wiley & Sons.New York.

Serfling, R. J. (1980). Approximation Theorems of Mathematical Statistics. JohnWiley & Sons. New York.

Shao, J. (2008). Mathematical Statistics. Springer Verlag. Berlin Heidelberg NewYork.

Sprent, P. und N. C. Smeeton (2000). Applied Nonparametric Statistical Methods.Chapman & Hall/CRC, London.

Wald, A. (1949). Note on the consistency of the maximum likelihood estimate. Annalsof Mathematical Statistics 29, 595 – 601.

Wang, Y. Y. (1971). Probabilities of type I errors of the Welch tests for the Behrens-Fisher problem. Journal of the American Statistical Association 66, 605 – 608.

Weisberg, S. (2005). Applied Linear Regression (3rd ed.). John Wiley & Sons. NewYork.

Welch, B. (1949). Further note on Mrs Aspin’s tables and on certain approximationsto the tabled function. Biometrika 36, 293 – 296.

Page 258: Mathematische Statistik ||

Sachverzeichnis

Symbols

Am 52B(a, b) 14Fn 73Fk,m(θ) 16In 193, 199M(n, p1, . . . , pk) 10Q(θ) 80R(θ, T ) 104R2 223W⊥

0 213X(i) 23Bin(n, p) 10E(X | Y ) 21E(X) 7E(X | Y ) 22E(| X |) < ∞ 7Γ (a) 131 49N 236N0 170Φ(x) 12Poiss(λ) 10ΨX(s) 9R

+ 26R

− 92Var(X) 19A 2X 5, 421n 195Nk(μ, Σ) 19χ2-Anpassungstest 96χ2-Verteilung 13

nichtzentrale 15Quantil 144

χ2k(θ) 16

χ2n 13

χ2n,a 144

〈u, v〉 198

| · | 7

‖ u ‖ 198

φ(x) 12

∝ 86

σ-Algebra 2

Hypergeo(N, n, θ) 11

Gamma(a, λ) 17

σ2(X) 34

pk 73

θ(x) 72P−−−−→

n→∞ 25

L−−−−→n→∞ 27

f.s.−−−−→n→∞ 25

a ± b 140

b(θ, T ) 104

c(Θ) 89

p(·, θ) 41

p(x | y) 20

pθ 41

s2(X) 5, 29

t-Verteilung

nichtzentrale 15

tn 14

tn(θ) 15

tn,α 143

za 141

1A 45

(AR) 128

(CR) 115

(WN) weißes Rauschen 78

251

Page 259: Mathematische Statistik ||

252 Sachverzeichnis

A

a posteriori-Verteilung 59Exponentialverteilung 70

a priori-Verteilung 59nicht wohldefiniert 62nicht-informativ 62

abhangige Variable 191absolute Abweichung 96Abweichung

absolute 96quadratische 96

allgemeines lineares Modell 193Alternative 148

ein-, zweiseitig 148Analysis of Variance 193, 224Annahmebereich 158ANOVA 193, 224

Tabelle 226Anpassungstest

χ2- 96Kolmogorov-Smirnov 96

ApproximationWelch- 185

AR(1)Likelihood-Quotiententest 189Momentenschatzer 98

arithmetischer Mittelwert 5Arrhenius-Gesetz 232asymptotisch effizient 126asymptotisch normalverteilt 122asymptotisch unverzerrt 105asymptotische Effizienz 127asymptotische Normalitat 122Asymptotische Verteilung

MLS 128Ausreißer 102autoregressiv 98

B

Bayes-Formel 3Bayesianische Schatzer 115Bayesianischer Intervallschatzer 146Bayesianisches Modell 59bedingte Dichte von Zufallsvektoren

22bedingte Varianz 32bedingte Verteilung 21bedingte Wahrscheinlichkeit 2bedingter Erwartungswert 21

Regeln 31Bernoulli-Verteilung 10, 21, 124

suffiziente Statistik 21

UMVUE 130Beta-Funktion 14, 34Beta-Verteilung 18

MLS 99Momentenschatzer 97, 98Suffizienz 66

bias (Verzerrung) 104Bienayme 9Bild einer Statistik 46Binomialverteilung 10

Beispiel 51Momentenschatzer 97trunkierte 186UMVUE 131

BLUE 209Bonferroni-Ungleichung 146

C

Cauchy-Schwarz Ungleichung 8charakteristische Funktion 9Continuous Mapping Theorem 25Cramer-Rao

Regularitatsbedingungen (CR) 115Cramer-Rao-Schranke 118Credible Interval 146

D

Darstellungkoordinatenfreie 196koordinatengebundene 195

Delta-Methode 123Designmatrix 195Dichte 4Dirichlet-Verteilung 66diskrete Zufallsvariable 3diskreter Wahrscheinlichkeitsraum 2Dummy Variable 192

E

effizientasymptotisch 126

Effizienz 128asymptotische 126, 127

einfache lineare Regression 191Beispiel 81

Einfluss-Funktion 116einparametrige exponentielle Familie

49einseitige Alternative 148Elementarereignis 2empirische Verteilungsfunktion 73

Page 260: Mathematische Statistik ||

Sachverzeichnis 253

empirisches Moment 125endogene Variable 78, 191Erlang-Verteilung 17erwartungstreu 104Erwartungswert 7

bedingter 21Regeln fur den bedingten 31Satz vom iterierten 23

Erwartungswertvektor 204exogene Variable 78, 191explorative Datenanalyse 224Exponentialverteilung 11, 48

a posteriori-Verteilung 70Gedachtnislosigkeit 29Konfidenzintervall 160Mittelwertvergleich 161MLS 99, 100Momentenschatzer 98, 100nichtzentrale 100Test 186UMVUE-Schatzer 112zweidimensionale 100zweiseitige 30, 65, 98zweiseitiger Test 188

exponentielle Familie 49, 55, 116, 172K-parametrige 55einparametrige 49Gegenbeispiel 51i.i.d. Kombination 51naturliche 50NP-Test 172optimale Teststatistik 172tabellarische Auflistung 237UMP-Test 172

exponentielle FamilienMLS 89, 92Vollstandigkeit 112

Extremwertverteilung 136

F

F-Test 216, 219F-Verteilung 14

nichtzentral 16Faktorisierungssatz 46Faltungsformel 33Familie

exponentielle 49, 55, 116konjugierte 60

fast sichere Konvergenz 25Fehler 1. und 2. Art 149Fischer-Scoring-Methode 94Fisher-Information 116, 127Form

kanonische 200Frechet-Verteilung 137Funktion

Einfluss- 116Indikator- 45, 49Likelihood- 84Score- 116

G

Gutefunktion 150, 162Bernoulli 151

Gamma-Funktion 13Gamma-Verteilung 16

inverse 67Momentenschatzer 97Test fur den Skalenparameter λ 174UMVUE 132

Gaußinverse Gauß-Verteilung 66

Gauß-Testeinseitiger 153zweiseitiger 157, 175

Gedachtnislosigkeit 29geometrische Verteilung 97

MLS 99Momentenschatzer 97

Gesamtmittelwert 197geschatzter Erwartungswertvektor 204Gesetz der großen Zahl 26, 27GEV

Generalized Extreme Value Distribu-tion 136

gewichtete Kleinste-Quadrate-Schatzer83

GleichungenNormalen 80

Gleichverteilung 11, 64, 77Asymptotik des MLS 136Beispiel 51diskrete 77, 99Konfidenzintervall 159MLS 99Momentenschatzer 97UMVUE 131UMVUE-Schatzer 114verschobene 64

GrenzwertsatzZentraler 27

Grundraum 1Gumbel-Verteilung 137

H

Haufigkeit

Page 261: Mathematische Statistik ||

254 Sachverzeichnis

relativ 73Hardy-Weinberg Gleichgewicht 74Hazard-Rate 101heteroskedastisch 83homogene Varianzen 182homoskedastisch 78hypergeometrische Verteilung 11, 37Hypothese

einfache 148zusammengesetzte 148

I

i.i.d. 7, 51idempotent 204Identifizierbarkeit 40improper non informative prior 62Indifferenzzone 155, 156Indikatorfunktion 45, 49Information

Fisher- 116Informationsungleichung 117inhomogene Varianzen 184integrierbar 7

quadrat- 8Intervallschatzer

Bayesianischer 146Interzeptparameter 193inverse Gamma-Verteilung 67inverse Gauß-Verteilung 66iterierter Erwartungswert 23

J

Jensensche Ungleichung 7

K

kanonische Form 200kanonische Statistik 49Kleinste-Quadrate-Methode 80Kleinste-Quadrate-Schatzer 80, 203

gewichtete 83lineares Modell 203

Kolmogorov-Smirnov-Anpassungstest96

Konfidenzbereich 145Konfidenzintervall 140Konfidenzkoeffizient 141Konfidenzniveau 140konjugierte Familie 60konsistent 120, 121

MLS 121Konvergenz

fast sichere 25in Verteilung 27Monotone 28stochastische 25

koordinatenfreie Darstellung 196koordinatengebundene Darstellung

195Korrelation 8, 29Kovariable 78, 79, 191

qualitative 192, 224Kovarianz 8Kovarianzanalyse 193KQS (Kleinste-Quadrate-Schatzer) 80,

203kritischer Bereich 148kritischer Wert 148Kurtosis 8

L

Levy-Verteilung 31Laplace-Verteilung 65

Momentenschatzer 98Laplacesche Modelle 10Least Squares Estimator 80Lebensdaueranalyse 100, 101Lehmann-Scheffe 110Lemma

Neyman-Pearson 164Level-α-Test 150Likelihood-Funktion 84Likelihood-Quotienten

montone 189Likelihood-Quotienten-Statistik 164

verallgemeinerte 178Likelihood-Quotiententest

AR(1) 189Likelihood-Ratio-Statistik 164Likelihoodfunktion 62lineare Abhangigkeit 8lineare Modelle

Einfuhrung 191lineare Regression 56

einfache 191multiple 220

lineares Modell 193koordinatenfreie Darstellung 196allgemeines 193

Log-Likelihood-Funktion 85Log-Likelihood-Gleichung 85Log-Normalverteilung 136LSE 80

Page 262: Mathematische Statistik ||

Sachverzeichnis 255

M

marginale Verteilung 59Markov-Ungleichung 26Matched Pair Experiments 179Matrix

Design- 195nicht negativ definit 20

Maximavon i.i.d. Stichproben 136

Maximum 24Maximum Likelihood Methode 84Maximum-Likelihood-Schatzer 84, 99

N (μ, σ2), μ, σ unbekannt 93Asymptotik 128Beta-Verteilung 99Exponentialverteilung 99f. K-dim. exponentielle Familien 92f. exponentielle Familien 89geometrische Verteilung 99Gleichverteilung 99, 136Invarianz unter Transformation 86Konsistenz 121Normalverteilung 99Numerische Bestimmung 93

meßbar 3Meßbarkeit 3Meßmodell 38, 41, 50, 71, 72, 78Mean Squared Error 104Median 96Methode

der kleinsten Quadrate 80Maximum-Likelihood- 84

minimal suffizient 67Minimax-Schatzer 115Minimum 24Mischung 99Mittelwert 5, 112

Gesamt- 197mittlerer betraglicher Fehler 104mittlerer quadratischer Fehler 104MLE (Maximum-Likelihood-Estimate)

84MLS (Maximum-Likelihood-Schatzer)

84Modell

Bayesianisches 59Identifizierbarkeit 40nichtparametrisches 41parametrisches 41regulares 41statistisches 1, 39

Moment 7, 8, 75, 125empirisches 125

Stichproben- 75momentenerzeugende Funktion 9, 30,

54Momentenmethode 75, 76Momentenschatzer 97, 121

AR(1) 98Konsistenz 121

Monotone KonvergenzSatz von der 28

monotone Likelihood-Quotienten 189MQF (mittlerer quadratischer Fehler)

104MSE 104Multinomialverteilung 10, 94, 169

Asymptotische Normalitat 124Konsistenz 120

multiple lineare Regression 220multiple Regresion 193multivariate Normalverteilung 18

N

naturliche suffiziente Statistik 49, 56Newton-Methode 94Neyman-Pearson-Lemma 164Neyman-Pearson-Test 167nicht negativ definit 20Nichtidentifizierbarkeit 40nichtlineare Regression 232nichtparametrische Statistik 96nichtzentale F -Verteilung 16nichtzentrale χ2-Verteilung 15nichtzentrale t-Verteilung 15Nichtzentralitatsparameter 16Normal-Gamma-Verteilung 69Normalengleichungen 80, 207, 208, 232Normalitat

asymptotische 122normalverteilt

asymptotisch 122Normalverteilung 12

E(| X |) 30k-variat 19Beispiel 50–52, 56Fisher-Information 116Konfidenzintervall 142, 159Mittelwertvergleich 159, 162MLS 99MLS, μ, σ unbekannt 93Momente 30MQF 104multivariate 18multivariate Dichte 19singulare 19

Page 263: Mathematische Statistik ||

256 Sachverzeichnis

suffiziente Statistik 48UMVUE-Schatzer 112, 130Varianzvergleich 160zweiparametrige exponentielle Familie

56Normierungskonstante 50NP-Test 167Nuisance Parameter 40Null-Hypothese 148, 149Numerische Bestimmung des MLS 93

O

oberhalbstetig 121One-Way-Layout 194optimale Statistik 164, 166Ordnungsgroßen 23Ordnungsstatistiken 23, 64Overall Mean 197

P

p-Stichprobenproblem 193, 214alternative Parametrisierung 197

p-Wert 154p.d. 236Parameterraum 39parametrische Statistik 96Pareto-Verteilung 187

Suffizienz 66Pivot 141Poisson-Prozess 44, 48Poisson-Verteilung 10, 76

Effizienz 127Fisher-Information 117Momente 31Momentenerzeugende Funktion 31Vollstandigkeit 110

Prazision 69Projektion 204

Q

quadrat-integrierbar 8quadratische Abweichung 96Qualitatssicherung 37, 39, 43, 44, 57

Bayesianisch 57qualitative Kovariablen 224Quantil 141

χ2-Verteilung 144

R

randomisierter Test 148

Rao-BlackwellSatz von 109

Rayleigh-Verteilung 15, 55Momente 34UMVUE 131

Regression 78einfache, lineare 191allgemeine 78lineare 56multiple 193multiple lineare 220nichtlineare 232

Regressionsgerade 82Regressionsparamter 193regulares Modell 41relative Haufigkeit 73Residuen

standardisierte 221Residuenquadratsumme 210Residuenvektor 204Response 78, 191RSS 210

S

SatzRao-Blackwell 109von Bayes 3Faktorisierungs- 46Gauß-Markov 209Gesetz der großen Zahl 26, 27Lehmann-Scheffe 110Monotone Konvergenz 28Neyman-Pearson-Lemma 164Stetigkeits- 25Substitutions- 23vom iterierten Erwartungswert 23

Schatzer 72asymptotisch effizient 126Bayesianische 115erwartungstreu 104konsistenter 120Maximum-Likelihood 84UMVUE 108, 120unverzerrt 104, 107, 112, 118unzulassig 106

Schatzwert 72Schiefe 8Schranke

Cramer-Rao 118schwaches Gesetz der großen Zahl 26,

27Score-Funktion 116Signifikanzniveau 150

Page 264: Mathematische Statistik ||

Sachverzeichnis 257

Smirnov-Anpassungstest 96Storparameter 40standardisierte Residuen 221Standardnormalverteilung 12Statistik

Definition 43kanonische 49naturliche suffiziente 49, 56nichtparametrische 96optimale 164suffiziente: Beispiele 48vollstandige 110

statistisches Modell 39stetige Zufallsvariable 4Stetigkeitskorrektur 152Stetigkkeitssatz 25Stichprobe 37, 39Stichprobenmoment 75Stichprobenproblem

p- 193Stichprobenvarianz 5, 29, 34, 63, 105,

108, 112, 142stochastische Konvergenz 25Studentscher t-Test 181Substitutionssatz 23suffizient 44suffiziente Statistik

naturliche 49, 56Suffizienz

Beispiele 66Beta-Verteilung 66minimal suffizient 67Pareto-Verteilung 66Weibull-Verteilung 66

symmetrisch verteilt 38

T

t-Test 181, 219zweiseitiger 179

t-Verteilung 14Test 148

Exponentialverteilung 186, 188F- 216Gauß 153, 157, 175Level-α- 150randomisiert 148t- 179, 181, 219UMP- 163unverzerrter 176verallgemeinerter Likelihood-

Quotienten- 178zweiseitig 157

totale Ableitung 123

Transformationssatz 5trunkierte Binomialverteilung 186Tschebyscheff-Ungleichung 26

U

UMP-Test 163UMVUE

Binomialverteilung 131Gleichverteilung 131Rayleigh-Verteilung 131

UMVUE-Schatzer 108ist nicht MLS: Exponentialverteilung

112unabhangig 6unabhangige Variable 78, 191Unabhangigkeit 3

von Zufallsvariablen 6Ungleichung

Bonferroni- 146Cauchy-Schwarz 8Informations- 117Jensen 7Markov- 26Tschebyscheff- 26

uniformly most powerful 163unkorreliert 8unverzerrt 109, 142

asymptotisch 105unverzerrter Schatzer 104unverzerrter Test 176unzulassiger Schatzer 106

V

Variableendogene 78, 191exogene 78, 191Ko- 78, 191unabhangige 78, 191

Variablenqualtitative Ko- 224

Varianz 8bedingte 32homogene 192

Varianz-Kovarianz Matrix 19Varianzanalyse 193, 224Varianzanalyse-Tabelle 230Varianzen

homogene 182inhomogene 184

verallgemeinerte Likelihood-Quotienten-Statistik 178

Page 265: Mathematische Statistik ||

258 Sachverzeichnis

verallgemeinerter Likelihood-Quotienten-Test 178

Verteilung 4χ2 13k-variate Normal- 19a posteriori- 59a priori- 58, 59bedingte 21Bernoulli 10, 21, 124Beta- 18Binomial- 10Dirichlet- 66Erlang- 17Exponential- 11Extremwert- 137F- 14Frechet 137Gamma- 16geometrische 97GEV 137Gleich- 11Gumbel 137hypergeometrische 11, 37inverse Gauß- 66Konvergenz in 27Levy- 31Laplace 65Log-Normal- 136marginale 59Mischung 99Multinomial- 10nichtzentrale χ2- 15nichtzentrale F - 16nichtzentrale t- 15Normal- 12Normal-Gamma- 69Pareto- 66, 187Poisson- 10Rayleigh- 15, 34, 55t- 14Weibull 137Weibull- 66

Verteilungsfunktion 4empirische 73

Verteilungskonvergenz 27Verwerfungsbereich 148verzerrt 109

Verzerrung 104vollstandig 110Vollstandigkeit

exponentielle Familien 112

W

Wahrscheinlichkeitbedingte 2

Wahrscheinlichkeitsfunktion 4Wahrscheinlichkeitsmaß 2Wahrscheinlichkeitsraum 1Wahrseinlichkeitsraum

diskret 2Waldsche Identitat: Gleichung (1.17)

33Warteschlange 44, 48weißes Rauschen 78Weibull-Verteilung 137

MLS 100Momentenschatzer 98Suffizienz 66

Welch-Approximation 185white noise 78

Z

zensierte Daten 100Zentraler Grenzwertsatz 27zentriertes Moment 8Zielvariable 78, 79, 191Zufallsvariable 3

diskret 3integrierbar 7quadrat-integrierbar 8stetig 4

Zufallsvariablenunabhangig 6unkorreliert 8

zweiseitige Alternative 148zweiseitige Exponentialverteilung 65zweiseitiger t-Test 179zweiseitiger Test

Exponentialverteilung 188Zweistichprobenproblem 182, 190–192

homogene Varianzen 182ungleiche Varianzen 184