73
1 Einf¨ uhrung 1.1 Philosophisches Beginnen wir ganz naiv. 1.1.1 Was ist Statistik Als Sch¨ uler, frisch aufs Gymnasium gekommen, lernte ich Chemie und Physik kennen. Dazu nahm der Lehrer ein Streichholz und knickte es durch. Das war Physik. Dann rieb er das Streichholz an der Streichholzschachtel und es brannte. Das war Chemie. Halten wir das Streichholz hoch und lassen es dann los, so f¨ allt es auf den Boden. Heben wir es auf und lassen es los, so f¨ allt es wieder auf den Boden. Nach einem dritten Versuch sind wir ¨ uberzeugt, das Streichholz f¨ allt immer auf den Boden. Das ist Statistik. Vielleicht ¨ uberzeugt uns ein dreimaliger Versuch nicht. Also wiederholen wir den Ver- such, halten das Streichholz hoch, lassen es los, und es f¨ allt zu Boden. Nach einer Weile wird dies langweilig. Wir ’lernen’, einlosgelassenes Streichholz (Gegenstand) f¨ allt herunter. Wir ersetzen das Streichholz durch einen Stein, eine M¨ unze, ein Blatt Papier, usw. Im- mer passiert dasselbe. Diese Beobachtung erheben wir zum Naturgesetz, jeder losgelassene Gegenstand f¨ allt auf den Boden. Wir wissen nicht weshalb dies so ist, es ist eben so. Als Beweis f¨ uhren wir, wissenschaftlich korrekt, obige Versuche an. Abstrakter ausgedr¨ uckt: Wir haben die Gravitation entdeckt. Massen ziehen sich an. Anstelle des Streichholz neh- men wir nun einen mit heißer luftgef¨ ullten Ballon, und er steigt nach oben. Oder ein Modellflugzeug, schwerer als Luft, mit laufendem Motor. Lassen wir es los, so f¨ allt es nicht herunter, jedenfalls nicht sofort. Um diese Ph¨ anomene zu erkl¨ aren, m¨ ussen wir unsere Be- hauptung pr¨ azisieren. Alle diese Effekte k¨ onnen wir erkl¨ aren, durch Erweiterung unseres physikalischen Weltbildes. 1.1.2 Statistische Aussagen Millionenfache Wiederholung des Streichholzexperiments zeigt, das Streichholz f¨ allt her- unter. Ich w¨ urde jeden Betrag darauf wetten, daß das n¨ achste hoch- und dann losgelassene Streichholz herunterf¨ allt und nicht steigt. Aber kann ich auch sicher sein? Die Antwort ist nein. Im besten Falle sagt die millionenhafte Wiederholung des Experiments etwas ¨ uber die Wahrscheinlichkeit eines Versuchausganges aus. In diesem Fall ist diese Wahrschein- lichkeit sehr, sehr nahe bei 1 und ein Steigen des Steins noch nie beobachtet worden. Aber es w¨ are dennoch m¨ oglich. Dies widerspricht nicht unserem physikalischem Wissen, sondern ist vollkommen damit vertr¨ aglich. Gehen wir vom derzeitigen Wissenstand aus, so wird der Stein durch die Gravitation (Gravitons) angezogen. Diese Kraft, sofern keine Gegenkraft vorhanden ist, bewirkt eine Bewegung des Steines zum Erdmittelpunkt. An- dere Kr¨ afte treten z.B. durch das Auftreffen umgebender Luftmolek¨ ule auf. Es ist eine Konstellation der umgebenden Luftmolek¨ ule denkbar, so daß der Stein sich erhebt. Dies ersieht man aus der Tatsache, daß (fast) alle physikalischen Gesetze zeitinvertierbar sind, und wir k¨ onnen uns den Vorgang des Fallens zeitinvertiert vorstellen. Fast. Zumindest ist 1

1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

1 Einfuhrung

1.1 Philosophisches

Beginnen wir ganz naiv.

1.1.1 Was ist Statistik

Als Schuler, frisch aufs Gymnasium gekommen, lernte ich Chemie und Physik kennen.Dazu nahm der Lehrer ein Streichholz und knickte es durch. Das war Physik. Dann rieb erdas Streichholz an der Streichholzschachtel und es brannte. Das war Chemie. Halten wirdas Streichholz hoch und lassen es dann los, so fallt es auf den Boden. Heben wir es aufund lassen es los, so fallt es wieder auf den Boden. Nach einem dritten Versuch sind wiruberzeugt, das Streichholz fallt immer auf den Boden. Das ist Statistik.

Vielleicht uberzeugt uns ein dreimaliger Versuch nicht. Also wiederholen wir den Ver-such, halten das Streichholz hoch, lassen es los, und es fallt zu Boden. Nach einer Weilewird dies langweilig. Wir ’lernen’, einlosgelassenes Streichholz (Gegenstand) fallt herunter.Wir ersetzen das Streichholz durch einen Stein, eine Munze, ein Blatt Papier, usw. Im-mer passiert dasselbe. Diese Beobachtung erheben wir zum Naturgesetz, jeder losgelasseneGegenstand fallt auf den Boden. Wir wissen nicht weshalb dies so ist, es ist eben so. AlsBeweis fuhren wir, wissenschaftlich korrekt, obige Versuche an. Abstrakter ausgedruckt:Wir haben die Gravitation entdeckt. Massen ziehen sich an. Anstelle des Streichholz neh-men wir nun einen mit heißer luftgefullten Ballon, und er steigt nach oben. Oder einModellflugzeug, schwerer als Luft, mit laufendem Motor. Lassen wir es los, so fallt es nichtherunter, jedenfalls nicht sofort. Um diese Phanomene zu erklaren, mussen wir unsere Be-hauptung prazisieren. Alle diese Effekte konnen wir erklaren, durch Erweiterung unseresphysikalischen Weltbildes.

1.1.2 Statistische Aussagen

Millionenfache Wiederholung des Streichholzexperiments zeigt, das Streichholz fallt her-unter. Ich wurde jeden Betrag darauf wetten, daß das nachste hoch- und dann losgelasseneStreichholz herunterfallt und nicht steigt. Aber kann ich auch sicher sein? Die Antwort istnein. Im besten Falle sagt die millionenhafte Wiederholung des Experiments etwas uberdie Wahrscheinlichkeit eines Versuchausganges aus. In diesem Fall ist diese Wahrschein-lichkeit sehr, sehr nahe bei 1 und ein Steigen des Steins noch nie beobachtet worden.Aber es ware dennoch moglich. Dies widerspricht nicht unserem physikalischem Wissen,sondern ist vollkommen damit vertraglich. Gehen wir vom derzeitigen Wissenstand aus,so wird der Stein durch die Gravitation (Gravitons) angezogen. Diese Kraft, sofern keineGegenkraft vorhanden ist, bewirkt eine Bewegung des Steines zum Erdmittelpunkt. An-dere Krafte treten z.B. durch das Auftreffen umgebender Luftmolekule auf. Es ist eineKonstellation der umgebenden Luftmolekule denkbar, so daß der Stein sich erhebt. Diesersieht man aus der Tatsache, daß (fast) alle physikalischen Gesetze zeitinvertierbar sind,und wir konnen uns den Vorgang des Fallens zeitinvertiert vorstellen. Fast. Zumindest ist

1

Page 2: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

derzeit kein physikalisches Gesetz bekannt, welches das Steigen des Steines verbietet. DieWahrscheinlichkeit jedoch fur solch ein Ereignis ist nach heutigem Wissen so unvorstellbarklein, das es wohl noch nie eingetreten ist. Aber sicher ausschließen konnen wir es ausprinzipiellen Grunden nicht. Große Illusionisten lassen selbst Guterzuge hochfliegen. Diesist eine großartige kunstlerische Leistung. Wer wurde aber Levitation, obwohl prinzipiellmoglich, als ’Wirklichkeit’ ernsthaft erwagen.

Statistik kann keine absolute Gewißheit liefern.

1.1.3 Modellbildung und Kausalitat

Der Erkenntnisphilosoph Feuerbach sieht den Menschen in einem abgeschlossenen Zim-mer. Die reale Welt außerhalb des Zimmers, was immer dies ist, konnen wir nur mit un-seren Sinnen und entsprechenden physikalischen Hilfsmitteln erfassen, z.B. Blick durchdas vergitterte Fenster oder Radarmessungen. Im Laufe der Zeit werden wir uns von derAußenwelt gewisse geistige Vorstellungen machen, um die einfallende Informationsflut zutrennen, zu ordnen und zu verarbeiten. Diese Modellvorstellung soll moglichst einfach seinund doch die erhaltenen Daten ’gut’ erklaren. Die physikalischen Daten und die menschli-chen Modellvorstellungen sind zwei verschiedene Bereiche. Es ist prinzipiell unmoglich, dieWahrheit gewisser Modelle nachzuweisen. Aber Statistik kann einige Modelle als gut undandere als weniger gut unterscheiden. Genau dies ist Aufgabe der analytischen Statistik,dem vielleicht schwierigsten Bereich der Statistik.

Prinzipiell laßt sich kein Modell durch Statistik als wahr beweisen. Das gleiche gilt furgewisse andere, menschliche Konzepte wie Kausalitat.

Statistik kann keine kausalen Zusammenhange beweisen.

1.1.4 Statistische Versuche

Oben haben wir umgangssprachlich den Begriff ’Versuch’ verwendet: Das Streichholz wirdhochgehalten und dann losgelassen. Das Versuchsergebnis ist das Fallen des Streichholzes.Jeder hat eine ungefahre Vorstellung davon und konnte diesen Versuch selbst durchfuhren.Oder nicht? Ich habe keine genauen Versuchsvorschriften angegeben, wo er stattfindet,auf der Erde oder dem Mond, aus einem steigenden oder fallenden Flugzeug heraus, aneinem Hang mit starkem Aufwind oder Abwind, usw. All diese Angaben gehoren zu einerexakten Beschreibung eines Experiments und haben eventuell Einfluß auf das Versuchser-gebnis. Meistens werden die ’wesentlichen’ Versuchsbedingungen angegeben. Andere Ver-suchsbedingungen werden stillschweigend vorausgesetzt und von anderen Menschen ebensostillschweigend verstanden oder interpretiert. Die restlichen Versuchbedingungen sind (hof-fentlich) fur den Ausgang des Experiments ohne wesentliche Bedeutung.

Es ist aus prinzipiellen Grunden unmoglich, ein Experiment vollstandig zu beschreiben.Bis in den atomaren Bereich mußten dazu alle Koordinaten, Geschwindigkeiten, Krafte,Energien, Spins, usw. innerhalb eines temporare Einflußkegels angegeben werden. Abge-sehen von der ungeheuren, nicht mehr zu verarbeitenden Datensatzgroße stoßt dies auf

2

Page 3: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

prinzipielle Schwierigkeiten. Die Heisenbergsche Unscharferelation besagt eine Veranderungdieser Daten durch die Messung selbst und damit die Unmoglichkeit der Datenerfassung.Aber selbst wenn dies moglich ware, ist eine identische Wiederholung des Experiments ausprinzipiellen Erwagungen unmoglich, z.B. wegen des Zeitfaktors oder der Wahl des Be-zugspunktes. Wir mussen uns bei der Beschreibung eines Experiments auf die wesentlichenEinflußgroßen beschranken. Welches diese sind oder wir dafur halten, basiert auf unserermenschlichen Erfahrung, unserem wissenschaftlichem Abstraktionvermogen und unsererIntuition. Spater ersetzen wir die reale, schmutzige Welt durch eine ideelle, mathemati-sche Vorstellung auf sicherer Grundlage. Die Interpretation und Transferleistung zwischenbeiden ist unerlaßlich und außerst schwierig.

1.1.5 Einteilung der Statistik

Es gibt keine allgemein anerkannte Definition von Statistik. Vielleicht laßt sich Statistikbeschreiben als Aufarbeitung und Auswertung von Daten im weitesten Sinne. Sie umfaßtdie Erhebung von Daten, ihre geordnete und ubersichtliche Darstellung, ihre Analyse undSchlußfolgerungen daraus.

Wir unterscheiden zwischen beschreibender oder deskriptiver Statistik und schließen-der oder analytischer Statistik. Die beschreibende Statistik beschaftigt sich mit der Er-hebung und gefalligen Darstellung der Daten, z.B. Diagramme der abgegebenen Stimmenbei Wahlen. Die schließende Statistik versucht, aus dem Zahlenmaterial Ruckschlusse zuziehen, z.B. uber das Wahlverhalten bestimmter Gruppen.

Ich verwende hier bewußt ’versucht’, denn die Analyse ist ein schwieriges Unterfangen,sehr viele Gesichtspunkte und Bewertungen mussen berucksichtigt werden. Viele Menschenfuhlen sich zu Ruckschlussen berufen, aber nur wenige sind zur Analyse fahig. Mit nichtslaßt sich ’wissenschaftlich fundiert’ besser lugen als mit Statistiken. Oder noch pointierter:’There are lies, damned lies and statistics.’

Die analytische Statistik mochte ich in die inhaltliche und in die mathematische Sta-tistik untergliedern. Die inhaltliche Analyse berucksichtigt und verwendet stark die in-haltliche Bedeutung der Daten aus dem Zusammenhang, gemischt mit viel Verstandnisund ’Lebenserfahrung’. Die mathematische Statistik ist eine formale Methodenlehre zurErlangung wissenschaftlich abgesicherter Erkenntnisse. Zwischen beiden und von beidenbeeinflußt befindet sich die Modellbildung. Nur das Zusammenspiel zwischen mathema-tisch korrekter Schlußweise (Mathematiker) und der inhaltlichen Bedeutung (Anwender)kann zu gesicherten Ruckschlussen (innerhalb des Modells) und einer sinnvollen Interpre-tation fuhren.

1.1.6 Statistik und Wahrscheinlichkeitstheorie

Die mathematische Eingliederung der mathematischen Statistik ersieht man im Vergleichmit der Wahrscheinlichkeitstheorie. Letztere folgert aus einem gegebenen Modell, welchesZufalligkeiten beinhaltet, mathematische Resultate. Diese bestehen in Verteilungsaussagenfur gewisse Zufallsgroßen. Die Statistik hat die umgekehrte Schlußrichtung im Auge. Fur

3

Page 4: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

beobachtete Werte von Zufallsgroßen wird ein angemessenes Modell gesucht, welches mitden Daten gut vertraglich ist. Was hierbei ’angemessen’ und was ’gut vertraglich’ bedeutet,muß in einer inhaltlichen Auseinandersetzung und mit menschlichen Maßstaben vorgege-ben werden. Dieser inhaltliche Anspruch und die Anpassung machen Statistik zu einemschwierigen und facettenreichen Fach.

Ziel dieser Vorlesung ist die formale Methodenlehre der mathematischen Statistik in Be-zug auf ein angepaßtes Verstandnis der Daten. Die Vermittlung von Zusammenhangen istebenso wichtig wie die konkrete praktische Ausfuhrung mittels ’Kochrezepten’. Wahrendletztere in zahllosen Buchern wohlgeordnet aufgelistet sind, lassen sich ubergeordnete Zu-sammenhange nur schwer lehren und vermitteln. Ein interessanter Beitrag ist BreimansBuch uber ’Statistics’.

1.1.7 Statistisches Experiment

Die Grundlage jeder statistischen Analyse sind Daten. Diese Daten kann eine einzelne Zahlsein, ein Symbol, ein Vektor, eine Funktion usw. Wir bezeichnen eine Date eines Versuchsstets mit d. Die Menge aller moglichen Daten dieses Versuchs ist D. D wird versehen miteiner σ-Algebra D. Weiterhin sei W eine Menge von W-maßen auf dem meßbaren Raum(D,D). Jede Menge laßt sich parametrisieren, d.h. es gibt eine Bijektion von W in eineParametermenge Θ. Aus historischen Grunden verwenden wir die Familie Wθ, θ ∈ Θ furW .

Weiterhin gibt es eine Zg X auf einem abstrakten W-raum (Ω,A) mit Werten in Dund einer Verteilung Wθ ∈ calW auf D fur ein unbekanntes θ ∈ Θ.

Die n-fache Wiederholung eines Experiments liefert uns n Daten. Wir interpretierendies als Ergebnis eines Gesamtexperiments und sprechen von einer Date d, hier das n-Tupel d = (d1, d2, ..., dn) der einzelnen Realisierungen.

Ein reales Experiment, im physikalischen, statistischen oder wissenschaftlichen Sinne,ist eine Vorschrift zur Datenerhebung bis zum Erhalt der Daten, einschließlich Durchfuhrungs-anweisungen. Im mathematisch statistischen Sinne ist ein Experiment eine Realisierungeiner Zufallsgroße X auf einem abstrakten W-raum mit Werten im Datenraum.

Die Verteilung L(X) dieser Zufallsgroße X ist unbekannt. Haufig ist Vorinformationuber die wahre (=real existierende) Verteilung aufgrund des Versuchsaufbaus vorhanden.Zum Beispiel ein Experiment, bestehend in der n-fachen unabhangige Wiederholung einesEinzelexperiments, sollte als wahre Verteilung ein Produktmaß haben. Harte Vorinforma-tion ist schwer von geglaubtem Wissen oder irrationalen Annahmen zu unterscheiden. Ma-thematisch gesehen unternehmen wir erst garnicht den Versuch der Unterscheidung. Wirsprechen von apriori Annahmen an die wahre Verteilung. Diese wird formalisiert durchdie Bedingung, daß die wahre Verteilung sich in einer gewissen Menge W von Verteilun-gen befinden sollte. Ob sie es wirklich ist, bleibt offen. Diese Menge von W-Maßen aufdem Datenraum wird gerne in parametrischer Darstellung Wθ | θ ∈ Θ angegeben. (JedeMenge ist parametrisierbar.) Hat diese Parametrisierung weitere ’schone’ (noch zu spezi-fizierende) Eigenschaften, so sprechen wir von einer parametrischen Statistik, anderenfallsvon nichtparametrischer Statistik.

4

Page 5: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Genaugenommen muß die wahre Verteilung nicht aus der Familie Wθ sein. Jedes Wθ

entspricht einem Modell zur Erklarung der erlangten Daten, einer menschlichen Vorstel-lung. Was die Natur macht, wissen wir prinzipiell nicht. Wir versuchen unser Modell nurmoglichst gut den Daten anzupassen. Die statistische Aufgabe ist es, die wahre Verteilungmoglist gut durch ein W-Maß der Familie zu approximieren. Aus prinzipiellen Erwagungenkonnen wir nie den ’wahren Mechanismus’ der Natur finden.

Ein statistisches Experiment ist ein Tripel (D,D, (Wθ, θ ∈ Θ)) wie oben erklart. Die ZgX und der abstrakte W-raum spielen keine Rolle.

Damit ist ein Experiment mathematisch genau definiert und stimmt - hoffentlich - mitunserer Intuition eines Experiments uberein. In einem deterministischen Experiment ist dieVerteilung konzentriert auf einen Punkt. Insofern erscheint eine Unterscheidung in deter-ministische und stochastische Experimente mehr philosophischer Art. Ebenso Meßfehler,Datenerhebungsfehler und ahnliches sind im stochastischen Anteil enthalten.

1.1.8 Statistische Fragestellung

Ein statistisches Experiment soll uns eine interessierende Fragestellung beantworten. AlsEndergebnis des Experiments erwarten wir eine Beantwortung. Nicht nur als ja-nein Ant-wort, sondern reichhaltiger als Entscheidung fur die naechste Handlund.

Sei E die Menge der Antworten versehen mit einer σ−Algebra. Wenn Wθ die wahreVerteilung ist, so ware die Antwort ψ(θ) bekannt. ψ heißt Zielfunktion. Da die zugrunde-liegende Verteilung Wθ uns nicht bekannt ist, kann unser Endergebnis nur von der Dated abhangen. Jede Prozedur um von der Date d eine Antwort e zu erhalten, laßt sich in-terpretieren als eine Abbildung g von D in den Raum der W-maße uber E. Dabei wirdEndergebnis e die Realisation eines unabhangigen Zufallsexperiments mit der Verteilungg(d).

Je mehr Antworten zugelassen werden, desto aufwendiger wird das statische Experi-ment. Die Obergrenze ist der Fall E = Θ, die Frage nach der wahren Verteilung. Auf-gabe einer mathematischen statistischen Analyse ist die Angabe eines guten Schatzersg : D → M(E) fur die Zielfunktion ψ. ‘Gut‘ bezieht sich hierbei auf den Kontext desstatistischen Problems und auf die Effizienz und Machbarkeit. Auch hier ist eine Zusam-menarbeit des Anwenders mit dem Statistiker dringend erforderlich.

Ein statistisches Problem besteht aus einem statistischen Experiment (D,D, (Wθ, θ ∈Θ)), der Angabe von (E, E , ψ) und einem formalisierbaren Begriff von gut.

1.1.9 Mathematische Umsetzung

Ein Experiment beschreiben wir durch ein Tupel (D,D, (Wθ, θ ∈ Θ)) und die Fragestellungdurch einen Entscheidungsraum einschließlich einer Zielfunktion und einer Bewertung ‘gut‘.

Der Wahrscheinlichkeitstheoretiker oder Statistiker zieht die Beschreibung eines Expe-riment durch ein Tupel (X, (Ω,A, (Pθ, θ ∈ Θ)), (D,D) vor. Hierbei ist (Ω,A, Pθ, θ ∈ Θ) einabstrakter W-raum, der Datenraum (D,D) wie vorher. Die Zufallsgroße X : Ω → D liefertdie Date, das Ergebnis des (unspezifizierten) physikalischen Versuchs. Eventuell macht der

5

Page 6: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Stastiker den Datenbereich großer, etwa durch Durchfuhrung eines zusatzlichen unabhangi-gen Experiments.

Jeder Schatzer oder Test ist eine Abbildung ψ : Ω → E, die X meßbar sein muß. Einmathematischer Satz liefert dann eine meßbare Abbildung ϕ : D → E mit ψ = ϕ X. DerKern g ergibt sich aus

g(d,A) = E(11ϕ∈A | X = d)

als bedingte Erwartung unter X = d.Wir unterscheiden nicht die beiden gleichwertigen Beschreibungen und benutzen beide.

Als Maßtheoretiker vornehmlich die erste, als Statistiker und W-theoretiker die zweite.

1.1.10 Geschichtliche Anmerkungen

Obwohl statistische Betrachtungsweisen dem Menschen gelaufig und in verschiedenen For-men bereits mehrere Jahrhunderte benutzt worden sind, konnten fundierte Grundlagen erstnach einer axiomatischen Etablierung der Wahrscheinlichkeitstheorie (Kolmogoroff 1933)gelegt werden. Als Willy Feller in den dreißiger Jahren von Kiel nach Skandinavien wechsel-te, erregte ihn die Glaubigkeit in vermeintlich exakte statistische Schlußweisen. Provokativzeigte er mit gangigen statistischen Argumenten eine hohe Korrelation der Anzahl derStorche und der Geburten in Schweden auf und ’bewies’ den Biologen so die altherge-brachte Klapperstorch-Kind-Vermutung. Er hatte diese Kindergeschichte gewahlt, um dieUnzulanglichkeiten der damals allgemein akzeptierten Argumentationslinien bloßzustellen.(Fur dieses und andere Beispiele siehe How to lie with statistics von D. Huff). Damals bliebder wissenschaftliche Aufschrei und die Forderung nach soliden statistischen Fundamentenaus. Auch heute noch mißbrauchen viele Naturforscher die Statistik als wissenschaftlichesFeigenblatt.

Vorangetrieben wurde die Entwicklung statistischer Methoden durch ganz handfeste In-teressen, bedingt z.B. durch den II. Weltkrieg. Die Kriegfuhrunger forderte neue Methodender Logistik, der Heerfuhrung und der Datenanalyse. Dazu wurden Analytiker mit statisti-schem und innovativem Sachverstand benotigt. Z.B. errechneten alliierte Mathematiker ausden Todesanzeigen in deutschen Lokalzeitungen die globalen feindlichen Verluste. Die imII. Weltkrieg erworbene statistische Vormachtstellung der angelsachsischen Lander scheintungebrochen. Die statistischen Einsatzfelder haben sich gewandelt zur Qualitatskontrol-le, Demoskopie, Arzneimittelprufung, Versicherung und vieles andere mehr. Ein weitererDurchbruch ist die Zulassung statistischer Aussagen und Methoden in der angelsachsichesJustiz (genetische Fingerprints). Die derzeit treibende Kraft ist die elektronische Daten-verarbeitung in Verbindung mit dem Internet.

6

Page 7: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

1.2 Wahrscheinlichkeitstheoretische Grundlagen

Der Gebrauch wahrscheinlichkeitstheoretischer Aussagen in der mathematischen Statistikist (fast) naturgegeben. Nur wer das datenmaßige Verhalten stochastischer Modelle kennt,kann aus beobachteten Daten auf das Vorliegen stochastischer Modelle zuruckschließen.Hier eine Zusammenfassung des w-theoretischen Uberbaus.

1.2.1 Wahrscheinlichkeitstheoretisches Setup

Die w-theoretischen Objekte sind die W-Raume (Ω,A, P ), die Morphismen sind die Zu-fallsgroßen. Die Grundmenge Ω ist eine beliebige, nicht leere Menge. A ist eine σ-Algebra,d.h. eine Teilmenge A der Potenzmenge P(Ω) := A ⊂ Ω, die nicht leer ist und ab-geschlossen ist bzgl. der Komplementbildung und der abzahlbaren Vereinigung. Ein Ele-ment einer σ-Algebra heißt meßbare Menge oder auch Ereignis. Ein Tupel (Ω,A) wie obenheißt meßbarer Raum. Ein Maß µ ist eine positive, (∀A ∈ A : µ(A) ≥ 0), σ-additive(µ(∪nAn) =

n µ(An) fur alle paarweise disjunkten Mengen An ∈ A, n ∈ IN,⋃ nAn ∈ A)

Mengenfunktion µ : A 7→ IR mit µ(∅) = 0 auf einem meßbaren Raum (Ω,A). Ein diskretesMaß ist ein Maß mit µ(A) =

ω∈A µ(ω). Ein Wahrscheinlichkeitsmaß ist ein Maß P mitGesamtmasse 1 = P (Ω). Eine Abbildung X : Ω 7→ Ω′ von einem meßbaren Raum (Ω,A)in einem anderen meßbaren Raum (Ω′,A′) heißt meßbar, falls das Urbild jeder meßbarenMenge meßbar ist. Eine Zufallsgroße (Zg.) oder auch Zufallsvariable X ist eine meßbareAbbildung auf einem W-Raum. Die Verteilung L(X) einer Zufallsgroße X ist das trans-portierte W-Maß P (X−1 ∈ .) auf (Ω′,A′).Notation: Wir benutzen die Notation ω ∈ Ω | X(ω) ∈ A = X ∈ A und sinngemaßeSpielarten. Ferner X ∼ µ fur X hat Verteilung µ. Wir benutzen auch PX . Der Wert X(ω)heißt Realisierung. Die einzig beobachtbaren Objekte in der Natur sind Realisierungen vonZufallsgroßen.

1.2.2 Die reellen Zahlen

Die reellen Zahlen IR sind mit der Euklidischen Metrik d(x, y) = |x − y| versehen. DieBorel σ-Algebra B ist die kleinste, von allen offenen Intervallen erzeugte σ-Algebra. DasLebesguemaß ist dasjenige Maß auf der Borel σ-Algebra, welches jedem Intervall als Maß dieLange zuordnet. Falls nicht weiter spezifiziert sind Zufallsgroßen reellwertig und die reellenZahlen mit der Borel σ-Algebra versehen. Eine Verteilungsfunktion F ist eine rechtsstetige(limy↓x F (y) =: F (x+) = F (x), x ∈ IR), monoton steigende Funktion F : IR 7→ IR mitGrenzwerten F (−∞+) = 0, F (∞−) = 1.

Es gibt eine Bijektion zwischen Verteilungsfunktionen Fund W-Maßen µ auf den reellen Zahlen.

Diese wird gegeben durch µ((−∞, x]) = F (x), x ∈ IR. Die Verteilungsfunktion F einerZufallsgroße X ist die Funktion F (x) = P (X ≤ x). Die Verteilung L(X) einer ZufallsgroßeX ist das zur Verteilungsfunktion zugehorige W-maß. Ist F differenzierbar, so heißt dieAbleitung f = F ′ die Dichtefunktion oder Dichte. Wir benutzen Dichte in diesem Sinne

7

Page 8: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

auch fur Verteilungen und Zgn. Die Standardnormalverteilung hat die VerteilungsfunktionΦ(x) =

∫ x−∞ ϕ(y)dy und die Dichte ϕ(y) = 1√

2πexp(−y2/2).

1.2.3 Integrale und Erwartungswerte

Der benutzte Integralbegriff des Lebesgueintegrals ist sehr allgemein. Jeder andere demLeser bekannte Integralbegriff, zum Beispiel die Summe fur diskrete Maße, ist fur dasVerstandnis ausreichend. Sei F = F(Ω, IR) die Menge aller meßbarer Funktionen f : Ω 7→IR. Ein endliches Maß µ impliziert eine reellwertige Abbildung

via 11A 7→ µ(A) auf Indi-katorfunktionen von Ereignissen. Diese Abbildung

wird linear und skalar fortgesetzt aufden positiven, konvexen Kegel erzeugt von den Indikatorfunktionen. Die bzgl. punktweiserOrdnung isotone Abbildung

wird σ-stetig von unten (fn ↑ f ⇒ ∫

fn →n

f) fortgesetztzum Integral

: F+ 7→ IR = IR ∪ +∞,−∞,∫

f =:∫

fdµ =:∫

f(ω)µ(dω).

Das Integral ist ein linearer, positiver und σ-stetiger Operator mit einem endlichen Wertfur konstante Funktionen. Dies scharakterisiert das Integral. Sei B ein separabler Banach-raum mit Norm ‖.‖. Ein endliches Maß µ impliziert eine banachraumwertige Abbildung∫

via b11A 7→ bµ(A) auf banachraumwertigen Indikatorfunktionen von Ereignissen. DieAbbildung

wird linear fortgesetzt auf den kleinsten Vektorraum V erzeugt von diesenIndikatorfunktionen. Der Abschluß V des Vektorraumes bzgl. der Norm ‖f‖ =

f ist(wird mit einer bijektiven, strukturerhaltenden Einlagerung) ein Teilraum aller meßbarenbanachraumwertigen Funktionen F(Ω,B). Die stetige Fortsetzung von

auf den AbschlußV heißt Integral. Der Definitionsbereich von

ist L1 := f : Ω 7→ IR | ∫ ‖f‖dµ < ∞.Der Gebrauch des Integrals setzt Wohldefiniertheit voraus. Fur eine banachraumwertigeZg X auf einem W-Raum (Ω,A, P ) und Verteilung µ = PX−1 ist der ErwartungswertE(X) := EX :=

XdP =∫

X(ω)P (dω) =∫

xµ(dx). Fur diskrete W-Maße ist das In-tegral eine Summe E(X) =

ω∈ΩX(ω)P (ω) = ∑

x∈B xµ(x). Hat das W-Maß P eineDichte f, so gilt

g(x)P (dx) =∫

g(x)f(x)dx.

1.2.4 Unabhangigkeit

Mengensysteme Ai ⊂ A, i ∈ I, heißen unabhangig, falls fur jede endliche Auswahl Aj ∈Aj, j ∈ J, J ⊂ I, |J | <∞, gilt

P (∩j∈JAj) =∏

j∈JP (Aj).

Zufallsgroßen Xi : Ω 7→ Ωi, i ∈ I, auf demselben W-Raum heißen unabhangig, falls fur jedeendliche Teilmenge J ⊂ I und Ereignisse Aj ∈ Aj, j ∈ J, gilt

P (Xj ∈ Aj, j ∈ J) =∏

j∈JP (Xj ∈ Aj).

Sind Xi unabhangige Zgn und fi : Ωi 7→ . meßbare Funktionen, so sind fi(Xi), i ∈ I,unabhangige Zgn.

8

Page 9: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Fur unabhangige Zgn X, Y gilt E(XY ) = E(X)E(Y ).

1.2.5 W-theoretische Aussagen

Satz (Gesetz der Großen Zahl) Seien X1, X2, ... unabhangig, identisch verteilte Zg. mitendlichem ersten absoluten Moment. Dann konvergiert Sn =

∑ni=1Xi fast sicher gegen den

Erwartungswert EX1,Sn

n

f.s.→n EX1.

Die Standardnormierung einer Zg X ist

X∗ :=X − EX√

VarX.

Eine Folge von W-Maßen µn konvergiert schwach gegen ein W-Maß µ,(µnw→n µ), falls fur

alle stetigen, beschrankten Funktionen f gilt∫

fdµn →n

fdµ. Analog sprechen wir vonschwacher Konvergenz fur Zgn bzw. benutzen Mischformen.

Satz (Zentraler Grenzwertsatz) Seien X1, X2, ... unabhangig identisch verteilte Zgnmit endlicher, strikt positiver Varianz. Dann konvergiert S∗

n schwach gegen die Standard-normalverteilung,

S∗n

w→n N(0, 1).

Die empirische Verteilungsfunktion von n Zgn X1, ..., Xn ist die Abbildung Fn des Grund-

raumes in die Verteilungsfunktionen,

Fn(ω)(x) =1

n

n∑

i=1

11Xi(ω)≤x.

Wir unterdrucken das ω. Aus dem (starken) Gesetz der Großen Zahl (GGZ) folgt:Satz (Glivenko-Cantelli) Die empirische Verteilungsfunktion von unabhangig, iden-

tisch verteilten Zgn konvergiert fast sicher in Supremumsnorm gegen die Verteilungsfunk-tion,

supx∈IR

|Fn(x)− F (x)| →n 0.

1.2.6 Weshalb ist Statistik moglich?

Heuristik Aufgabe der mathematischen Statistik ist es Information uber die wahre Ver-teilung µ zu erhalten. Dazu mussen wir µ(A) fur alle A ∈ A bestimmen. Halten wir einEreignis A fest. Wir wiederholen unabhangig den gleichen Versuch und notieren die Ergeb-nisse Xn als 1 oder 0, jenachdem ob im n-ten Versuch das Ereignis A eintritt oder nicht.Die relative Haufigkeit Sn

n:= 1

n

∑ni=1Xi konvergiert nach dem Gesetz der großen Zahl gegen

den Wert µ(A). Dies konnen wir fur alle Ereignisse machen.

9

Page 10: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Das Gesetz der Großen Zahl ermoglicht Statistik.

Wir mochten die Information uber die wahre Verteilung mit moglichst wenigen Versuchenerhalten. Der zentrale Grenzwertsatz liefert die genaue Konvergenzgeschwindigkeit (undeinen genaueren Grenzwertbegriff) obiger Konvergenz. Damit erhalten wir eine Aussage,wie ’schnell wir Information’ uber µ(A) erhalten. Diese Aussage beinhaltet eine obereGrenze, hochstens so schnell wie ..., und auch eine untere, im besten Fall so schnell wie....

Der zentrale Grenzwertsatz ermoglicht Optimalitatsaussagen.

In der obigen Merkregel steht der Zentrale Grenzwertsatz (ZGS) stellvertretend fur demVersuch angepaßte asymptotische Konvergenzresultate.

10

Page 11: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

2 Methoden

Hier noch einmal die beiden Hauptmethoden angewandt auf einige Beispiele. Gegeben istein statistisches Experiment (D,D,W).

Die Begriffe Radon-Nikodym und Kern entnehme dem Anhang.

2.1 Maximum-Likelihood

M-L Verfahrensvorschrift Sei die Familie W = Wθ | θ ∈ Θ von W-Maßen auf demDatenraum D absolut stetig bzgl. einem σ-endlichem Maß λ. Wir wahlen eine Version derRadon-Nikodym Ableitung wθ =

dWθ

dλ. Diese Maximum-Likelihood-Funktion L : Θ×D →

IR+ heißt Likelihoodfunktion. Nach Moglichkeit wahlen wir die Radon-Nikodym Versionmoglichst glatt, oft auch stetig bzw. differenzierbar.

Die Maximum-Likelihood Methode nimmt als Schatzer θ : D → Θ ein θ, welches dieLikelihoodfunktion θ 7→ wθ(d) fur gegebenes d in θ maximiert. Praktisch verwendet mangerne die Loglikelihoodfunktion lnL(θ) = lnwθ(d). Die Nullstellen der Ableitung liefern allemoglichen Extrema und auf Basis der zweiten Ableitung entscheiden wir uber das Vorliegeneines Maximums.

Im allgemeinen muß das Maximum und damit der Schatzer weder existieren noch ein-deutig sein. In der Regel liefert die ML-Methode jedoch gute Schatzer.

Normalverteilung: SeienX1, ..., Xn unabhangige Zg derselben NormalverteilungN(m,σ2).Das Gesamtexperiment ist X = (X1, ..., Xn). Der Datenraum ist der n-dimensionale Vek-torraum IRn versehen mit der Borel σ-Algebra. Der Parameterraum ist Θ = (m,σ2) |m ∈ IR, 0 < σ2 < ∞. Die Wahrscheinlichkeitsmaße fur das Gesamtexperiment sindWθ(A) =

A

∏ni=1 ϕθ(xi) dx1...dxn mit

ϕθ(y) =1√2πσ2

exp(−(y −m)2

2σ2)

die Dichte der Normalverteilung. Die Familie Wθ, θ ∈ Θ von W-maßen ist dominiert durchdas n-dimensionale Lebesguemaß. Die Radon-Nikodym Dichte ist

dWθ

dλ(x) =

n∏

i=1

ϕθ(xi)

x = (x1, . . . , xn) die Date. Wir haben die stetige Version der Radon-Nikodym Dichtegewahlt, die eindeutig ist.

Die Maximum-Likelihood-Funktion L(θ, x) =∏n

i=1 ϕθ(xi) ist zu maximieren in θ beifester Date x. Dies ist aquivalent zu maximieren

lnL(θ, x) =n∑

i=1

lnϕθ(xi) =n∑

i=1

(−(xi −m)2

2σ2− ln(2πσ2))

11

Page 12: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Nehme die Ableitungen nach m und σ2, setze diese 0 und zeige mit der zweiten Ableitungein Maximum. Es ergibt sich der Maximum-Likelihood Schatzer

(m, σ2) = (1

n

i

Xi,1

n− 1

i

(Xi − m)2)

Dies ist ein erwartungstreuer Schatzer.

2.2 Substitutionsmethode

Mathematisch betrachten wir eine Abbildung h mit gewissen Stetigkeitseigenschaften voneiner Menge von W-Maßen auf dem Datenraum in den Entscheidungsraum (E, E). Wirersetzen (substituieren) die ’wahre’ Verteilung durch die empirischen Verteilung 1

n

∑ni=1 δdi ,

δx das Punktmaß in x, fur die beobachtete Date. Unser Schatzer fur die Entscheidung isth( 1

n

∑ni=1 δdi). Dieser Wert sollte dicht bei der wahren Verteilung liegen, da Wθ dicht bei

der empirischen Verteilung liegt.Viele W-keitsverteilungen auf IR werden uber Momente parametrisiert, Normalvertei-

lung, Poisson, geometrische, usw. Eine gern genommene Wahl von h sind diese Momente(Momentenmethode E = Θ).

Normalverteilung: Wir betrachten obiges Beispiel von unabhangigen N(m,σ2) Nor-malverteilungen und wollen die Parameter schatzen. Als Abbildung h von Maßen µ auf IRwahlen wir das erste und zweite Moment

h(µ) = (∫

xµ(dx),∫

x2µ(dx))

die Existenz vorausgesetzt. Fur Maße µ auf IRn wahlen wir

h(µ) = (∫ n∑

i=1

xiµ(dx),∫∑

i=1

nx2iµ(dx))

Der Entscheidungsraum ist hier der Parameterraum selbst.Die Substitutionsmethode, setze die empirische Verteilung W = 1

n

∑ni=1 δXi

ein, liefertals Schatzer

h(W ) = (1

n

i

Xi,1

n

i

X2i )

fur die ersten beiden Momente. Mit der Formel Var(Y ) = E(Y 2)−E2(Y ) erhalten wir denSchatzer

(m, σ2) = (1

n

i

Xi,1

n

i

(Xi − m)2)

Dieser ist nicht erwartungstreu.

In vielen Fallen liefern die Maximum-Likelihoodmethode und die Substitutionsmethodedieselben und gute Schatzer. Das folgende Beispiel ist eher eine Ausnahme.

Rechteckverteilung: Die Zg X = (X1, . . . , Xn) : IRn → IRn sei ein Vektor von nunabhangig identisch verteilten Zgn. Die Zgn Xi haben eine gleichformige Verteilung auf

12

Page 13: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

dem Intervall [0, θ], θ ∈ (0,∞). Die Radon-Nikodym Dichte der Verteilungen WXi

θ bzgl.dem Lebesguemaß ist x 7→ 11[0,θ](x)

1θfast sicher.

Der Parameterraum Θ ist (0,∞). Als Dichte (bzgl. dem Lebesguemaß auf IRn) der ZgX wahlen wir die spezielle Version

wθ(x) = 110≤maxi xi≤θ(1

θ)n.

Diese Funktion wird maximiert in θ fur gegebene Date x durch θ(x) = maxi xi. DerMaximum-Likehood Schatzer ist die Zg θ = θ(X). Diese unterschatzt stets das wahreθ, da unter θ fur alle Zgn Xi < θ fast sicher gilt.

Der Substitutionsschatzer fur θ durch die Funktion h(W ) = 2∫ ∑n

i=1 xiW (dx) ist θ(x) =2n

i xi. Der Schatzer θ(X) fur θ ist erwartungstreu und hat z.B. eine kleinere Varianz

Eθ(θ − θ)2 als der M-L Schatzer.

Bisher konnten wir auf dem W-raum (Ω,A) = (D,D) arbeiten. Ab jetzt werden wirstets auf den abstrakten W-raumen (Ω,A, Pθ). Ein Schatzer ist eine Zg θ : Ω → E. ObigenBeispiele gaben einen Schatzer θ = θ(X).

In dem folgenden Beipiel benotigen wir zusatzliche unabhangige Zgn und damit einengroßeren W-raum.

2.3 Munchhausen

Dies ist eine Abart der Simulationsmethode.Wir betrachten ein Experiment X mit moglichen Verteilungen Wθ, θ ∈ Θ. Wir wissen

aus Vorinformation, daß X entsteht durch eine Zg Y und ein Verrauschen dieser. Dies kannan den technisch moglichen Meßmethoden liegen, die (prinzipiell) ungenau sind.

Mathematisch wird dies beschrieben durch ein Familie W ′θ von Verteilungen von Y auf

D und einem W-Kern Kθ : D × A 7→ IR mit Wθ(·) =∫

K(x, ·)W ′θ(dx). XΩ → D ist eine

meßbare Abbildung und Pθ ist eine Familie von W-maßen mit PXθ = Wθ. Wir haben eine

gewisse Vorstellung, wie der Kern aussieht. Wir wollen θ schatzen.Sei θ : Ω → Θ = IR ein Schatzer fur θ. Wir simulieren Daten unter der Verteilung

Pθ(X) (oder nehmen die Originaldaten) und verrauschen diese mit einem Kern, der ’dicht’bei dem wahren Kern gewahlt wird. Auf diese verrauschten Daten, erzeugt durch eine Zg

X : Ω → D wenden wir den vorgegebenen Schatzer an. Der geschatzte Wertˆθ sollte dicht

bei θ liegen. Ist dieser Wert klein, so vermuten wir einen guten Schatzer. Naiv erwartenwir noch mehr, aus Stetigkeitsgrunden erwarten wir die Großenabstande

d(ˆθ, θ) ≈ d(θ, θ)

ungefahr gleich.Je haufiger wir Munchhausen unabhangig wiederholen zum gleichen θ, desto besser ist

unsere empirische Vorstellung von der Verteilung vonˆθ. Wir erhalten eine Vorstellung von

13

Page 14: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

dem”geometrischen Abstand“ von θ zu

ˆθ. Dieser ist vermutlich ahnlich wie der Abstand

von θ zu θ und wir konnen unsere Schatzung eventuell verbessern.Nehmen wir speziell

ˆθ − θ ≈ θ − θ

an. Dann lage es nahe, um diesen Abstand zu korrigieren und naiv den Schatzer

θ − (ˆθ − θ)

zu wahlen. Der Nachweis der Verbesserung ware ebenfalls durch Munchhausen empirischzu erbringen.

Das letzte Beispiel zur Rechteckverteilung koennte als Beispiel dienen. Wir haben zweiSchaetzer und wollen wissen, welcher besser agiert. Nehme eine große Stichprobe von uivZgn, das empirische W-maß und verwende Munchhausen.

Dies Verfahren zieht sich buchstablich selbst aus dem Sumpf der Unkenntnis.

14

Page 15: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

3 Testtheorie

Benotigt Dichten aus Anhang.Die ’einfachsten’ Entscheidungsfunktionen sind diejenigen mit einer Ja-Nein Entschei-

dung. Wir arbeiten auf dem Datenraum als W-raum.Sei ψ : Θ 7→ E = 0, 1 die gegebene Zielfunktion. Insbesonders erhalten wir eine

disjunkte Zerlegung des Parameterraums Θ in die H := ψ−1(0) und K := Hc = ψ−1(1).(Umgekehrt jede disjunkte Zerlegung des Parameterraumes liefert eine Zielfunktion.) DerRaum H ⊂ Θ heißt Hypothese und der Raum K die Alternative. Wir sprechen von einernicht randomisierten Entscheidungsfunktion oder Statistik ϕ : D → E zu vorgegebenerZielfunktion ψ als von einem Test zu der Hypothese H gegen die Alternative K. DerHypothese wird die Entscheidung 0 zugeordnet. Die Menge ϕ−1(0) ⊂ D heißt der An-nahmebereich und die Menge ϕ−1(1) ⊂ D der Verwerfungsbereich. Dies beschreibt nichtrandomisierte Test.

Eine allgemeine Entscheidungsfunktion ist eine Funktion g : D ×M(E). Der Nutzerbzw. Anwender ist damit zufrieden. Zuerst fuhrt der User das statistische Experiment Xaus und erhalt eine Date d. Danach fuhrt er bzw. der Statistiker ein weiteres, unabhangigesZufallsexperiment auf (E,E) zum W-maß g(d). Das Ergebnis in E ist seine entgultige Ent-scheidung. Der Mathematiker ist jedoch nicht zufrieden. Er benotigt eine Art Meßbarkeitvon g. Wir nehmen g als Wahrscheinlichkeitskern g : D×E → IR. Damit ist g(d) = g(d, ·).

In diesem Fall hat E nur zwei Elemente und die einzigen Maße in M(E) sind Bernoul-limaße. M(E) ist bijektiv zu [0, 1] mittels

M(E) ∋ µ 7→ µ(1) ∈ [0, 1]

Mittels dieser Bijektion gibt es eine Bijektion zwischen W-kernen g und meßbaren Abbil-dungen ϕ : D 7→ [0, 1] gegeben durch

g(·, 1) = ϕ(·)

Daher: Ein Test ist eine meßbare Abbildung ϕ : D 7→ [0, 1].Praktisch geschieht dies dadurch, das wir eine weitere gleichverteilte Zg U haben, un-

abhangig von allem des statistischen Experiments. Wir nehmen als großeren Datenraumden Produktw-raum von (D, ,.Wθ) und ([0, 1],B, λ), der Borel σ-Algebra B auf [0, 1] versehenmit dem Lebesguemaß λ. Mit der neuen Date (d, u) betrachten wir den nicht randomisier-ten Test ϕ : D × [0, 1] → E definiert durch

ϕ(d, u) := 1ϕ(d)>u

Hierbei ist u die Realisierung von U. Mit dieser zusatzlichen Konstruktion konnen wir unsauf nicht randomisierte Tests einschranken, wenn wir nur den Datenraum bzw. W-raumgroß genug wahlen.

Weshalb also uberhaupt randomisierte Tests? Der Grund ist mathematischer Art, es istvirteilhaft, die Menge Φ aller Test als konvexe Menge zu haben. Dies leisten randomisierteTests.

15

Page 16: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Die FunktionΘ ∋ θ 7→ Eθ(ϕ)

heißt Gutefunktion oder Macht des Tests ϕ. Eθ(ϕ) ist fur θ ∈ H die W-keit sich falsch zuentscheiden und fur θ ∈ K sich richtig zu entscheiden. Die Einschrankung

H ∋ θ 7→ Eθ(ϕ)

heißt Fehlerfunktion erster Art oder auch Fehler erster Art von ϕ. Die Funktion

K ∋ θ 7→ 1− Eθ(ϕ) = Eθ(1− ϕ)

heißt Fehlerfunktion zweiter Art oder auch Fehler zweiter Art von ϕ.

Ein Fehler ’dritter’ Art liegt vor, wenn das gesamte Modell nicht stimmt.

Das Niveau eines Tests ist das Maximum des Fehlers erster Art. Ein Test zum Niveauα ist ein Test mit Niveau kleiner oder gleich α,

supθ∈H

Eθ(ϕ) ≤ α

Sei Φα = Φα(H,K) die Menge aller Tests zum Niveau α fur H gegen K.Die Tests Φ≤α zur Hypothese H gegen die Alternative K zum Niveau ≤ α sind partiell

geordnet durch die Relation: ϕ1 heißt scharfer als ein Test ϕ2, falls die Macht von ϕ1 aufder Alternative (punktweise) großer als die von ϕ2 ist

ϕ1 ϕ2 ⇔ ∀θ ∈ K : Eϕ(ϕ1) ≥ Eθ(ϕ2)

Dies bedeutet einen kleineren Fehler 2-ter Art von ϕ1 als von ϕ2. Ein Test heißt amscharfsten zum Niveau α, falls der Test am scharfsten ist in der Klasse Φ≤α(H,K) allerTest zum Niveau ≤ α.

Diese Ordnung kommt von der Risikoordnung. Betrachten wir ϕ1, ϕ2 ∈ Φα. Wir be-trachten Verlustfunktionen L : D × E → IR+. Bei einer richtigen Entscheidung sollte derVerlust kleiner sein als bei einer unrichtigen, d.h. L(θ, 0) ≤ L(θ, 1) fur θ ∈ H und ≥ furθ ∈ K. Betrachte die Verlustfunktion L

L(θ, x) = 11θ∈H(L(θ, x)− L(θ, 0)) + 11theta∈K(L(θ, x)− L(θ, 1))

die bei richtiger Entscheidung den Verlust 0 gibt. Die Risikofunktionen zu L bzw. L sind

RL(θ, ϕ) =∫

(L(θ, 1)ϕ(x) + L(θ, 0)(1− ϕ(x)))Wθ(dx)

RL(θ, ϕ) = RL(θ, ϕ)−Q(θ)

Q(θ) := 11θ∈HL(θ, 0) + 11θ∈KL(θ, 1)

16

Page 17: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Der Begriff scharfer (auf Φα) ist aquivalent zu einer kleineren Risikofunktion bzgl. L bzw.L auf der Alternative

ϕ1 ≺L ϕ2 ⇔ ∀θ ∈ Θ : RL(θ, ϕ1) ≤ R(θ, ϕ2)

⇔ ∀θ ∈ K : Eθ(1− ϕ) ≤ Eθ(1− ϕ2)

Ein Test heißt unverfalscht, falls gilt

supθ∈H

Eθ(ϕ) ≤ infθ∈K

Eθ(ϕ)

Die Unverfalschtheit eines Tests leitet sich aus der inhaltlichen Vorstellung eines Testsab: Bei Vorliegen der Hypothese soll der Fehler, sich fur die Alternative zu entscheiden,nie großer sein als der Fehler, bei Vorliegen der Alternative sich fur die Hypothese zuentscheiden.

3.1 Neyman-Pearson Test

Der Parameterraum habe genau zwei Elemente, die Hypothese H = θH und die Alterna-tive K = θK seien einelementig. Wir verwenden EK , EH ,WK ,WH usw. zur Abkurzung.

Ein Test ϕ : D 7→ [0, 1] heißt Neyman-Pearson Test, falls es eine Konstante c ∈ [0,∞]und eine meßbare Funktion γ : D 7→ [0, 1] gibt mit

ϕ(x) =

1 falls wK(x) > cwH(x)γ(x) =0 <

fast sicher bezuglich WH +WK . Wir verwenden die Notation ϕc,γ.Hierbei sind wH , wK die Dichten. Genauer sind es die Radon-Nikodym Dichten von

WH ,WK bezuglich einem Referenzmaß µ. Der Quotient wK

wHhangt nicht von der Wahl des

Referenzmaßes ab und daher wird oEdA gerne m = WH +WK genommen.

Satz 1 (Neyman-Pearson) Die Hypothese und Alternative seien verschieden und ein-elementig. In der Klasse der Tests zum Niveau 0 ≤ α ≤ 1 gibt es einen scharfsten Test.Jeder scharfste Test ϕ zum Niveau α ist fast sicher ein Neyman-Pearson Test bzgl. jedemReferenzmaß. Wir konnen stets einen scharfsten Test finden der Form ϕc,γ mit c ∈ IR undγ eine konstante Funktion. Unter EK(ϕ) < 1 hat der scharfste Test genau das Niveau α.

Beweis: Der Einfachheit halber wollen wir 0 < wK

wH< ∞ annehmen. (Der allgemeine Fall

folgt durch Hahn-Jordan Zerlegung und sei hier uberschlagen.)Betrachte die Funktion N : [0,∞] → [0, 1] mit N(c) = EH(ϕc,0). N ist rechtsstetig und

monoton fallend. Der Bildbereich ist [0, 1] mit EH(0) = 0, EH(1) = 1.• Zu jedem α ∈ [0, 1] gibt es einen Neyman-Pearson Test ϕ∗ mit Niveau α und mit

konstanter Funktion γ.

17

Page 18: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Zu vorgegebenem α suche ein c mit N(c) ≤ α ≤ N(c−). Im Falle N(c) = α sind wirfertig. Im Falle N(c) < α ≤ N(c−) betrachte die Funktion γ 7→ EH(ϕc,γ). Nach demMittelwertsatz gibt es ein γ ∈ [0, 1] mit α = EH(ϕc,γ).

• Der Neyman-Pearson Test ϕ∗ mit Niveau α ∈ [0, 1] ist der scharfste in Φ≤α.Fur jedes ϕ ∈ Φ≤α ist die Differenz

EK(ϕ∗)− EK(ϕ) =

(ϕ∗ − ϕ)(wK − c∗wH)dµ+ c∗∫

(ϕ∗ − ϕ)wHdµ = I + II (1)

positiv. Der zweite Term ist positiv als Differenz der Niveaus und der Integrand des erstenist stets positiv (durch Fallunterscheidung).

• Jeder scharfste Test ϕ zum Niveau ≤ α ∈ [0, N(0)] ist fast sicher ein Neyman-PearsonTest.

Mit der Notation wie oben muß I = 0 = II sein. Dies impliziert gleiches Niveau beiderTests und ϕ∗ = ϕ fur wK 6= c∗wH . Folglich ist ϕ ein NP-Test.

• EH(ϕc1,0) < EH(ϕc2,0) ⇔ EK(ϕc1,0) < EK(ϕc2,0)Seien c1, c2 ∈ (0,∞)

0 < EH(ϕc2,0 − ϕc1,0) =∫

11c2<wKwH

≤c1wHdµ

≤∫

11c2<wKwH

≤c1

wH

wK

wKdµ

≤∫

11c2<wKwH

≤c1

1

c1wKdµ =

1

c1EK(ϕc2,0 − ϕc1,0)

Analog gilt die andere Richtung. Die Falle c1 = ∞ oder c2 = 0 werden getrennt behandeltdurch Approximation.

• Ist ϕ ∈ Φ≤α ein scharfster Test mit EK(ϕ) < 1, so ist ϕ ein NP-Test genau zumNiveau α.

Der Test ϕ0,0 = 11wK>0 ist ein NP-Test mit EK(ϕ0,0) = 1, EH(ϕ0,0) = 1 und scharfsterzu α = 1. Folglich kann ϕ nur ein scharfster Test sein zu einen Niveau ≤ α mit α < 1. Zudiesen sind die NP-Test mit Niveau genau α die scharfsten. q.e.d.

Der NP-Test ist am scharfsten.

Die scharfsten sind NP.

Bemerkung: Die Konstante c und die Funktion bzw. Konstante γ bestimmt sich, wennauch nicht eindeutig, aus der Gleichung Eθ0(ϕc,γ) = α.

Proposition 2 Unter einfacher Hypothese und einfacher Alternative ist jeder Neyman-Pearson Test unverfalscht. Falls das Niveau im offenen Intervall (0, 1) liegt, so ist er striktunverfalscht.

18

Page 19: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Beweis: Jeder NP-Test ϕ ist ein scharfster Test bezuglich allen Tests zum Niveau ≤ α :=EH(ϕ). Der Test identisch α hat genau Niveau α. Jeder NP-Test zum Niveau α ist scharfer,also EK(ϕ) ≥ α, d.h. unverfalscht. Bei Gleichheit ware der konstante Test bereits ein NP-Test. Dann ist fur α ∈ (0, 1) der Quotient wK

wHeine Konstante. Damit ware WH = WK , was

wir ausgeschlossen hatten. q.e.d.Bemerkung Sei wK

wH: D → IR eine aufsteigende Funktion von T : D → IR. Dann

konnen wir Neyman-Pearson Test ersetzen durch Tests der Form

ϕ(x) =

1 T (x) > cγ T (x) = c0 T (x) < c

(2)

3.2 Isotoner Dichtequotient

Eine Familie W von W-Maßen auf D hat monotonen Likelihoodquotienten, falls es eineZg T : D 7→ IR gibt, sodaß fur alle W,W ′ ∈ W der Quotient w

w′ bzgl. dem (oder einem)ReferenzmaßW+W ′ eine monotone Funktion von T fast sicher bezuglich dem Referenzmaßist. Beachte T ist unabhangig von den W-maßen W .

Damit laßt sich auf W die Ordnung einfuhren,

W W ′ ⇔ w

w′ isoton in T.

Nachrechnen. Diese Ordnung (reflexiv, antisymmetrisch, transitiv) ist eine Totalordnung(∀W,W ′ ∈ W : W W ′ oder W ′ W.) In diesem Falle sprechen wir von einer Familiemit isotonem Likelihoodquotienten. Diese Namensgebung ubertragt sich sinngemaß auf dieIndexmenge Θ.

Sei Θ eine Teilmenge eines totalgeordneten Raumes, hier stets die reellen Zahlen. Wirbetrachten Hypothesen der Form Hθ0 := θ ≤ θ0 und als Alternative Kθ0 := θ > θ0 dasKomplement. Beachte Gleichheit gilt stets in der Hypothese.

Φ≤α bezeichne alle Tests ϕ mit Niveau supθ∈H Eθ(ϕ) ≤ α. Ein gleichmaßig bester Testzum Niveau α ist ein Test mit Niveau ≤ α, so dass fur alle Tests ψ ∈ Φ≤α und alle θ ∈ Kgilt Eθ(ψ) ≤ Eθ(ϕ).

Satz 3 Sei (Wθ)θ∈Θ eine Familie mit isotonem Dichtequotienten T .

(i) Fur alle α und alle θ0 ∈ Θ existiert ein gleichmaßig scharfster Test ϕα von H =Hθ0 = θ ≤ θ0 gegen K = Kθ0 = Hc

θ0zum Niveau ≤ α von der Form (2).

(ii) Fur alle θ1 ist ϕα ein gleichmaßig scharfster Test fur Hθ1 gegen Kθ1 in der Klassealler Tests zum Niveau Eθ1(ϕ).

(iii) Eθ(ϕ) ist strikt monoton wachsend in θ fur alle Tests ϕ der Form (2).

(iv) Fur θ < θ0 ist Eθ(ϕα) minimal unter allen Tests ϕ ∈ Φ1−α der Hypothese θ0 gegendie Alternative θ zum Niveau 1− α.

19

Page 20: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Beweis: i) Sei θ0 < θ1. Wir konstruieren zuerst zu gegebenem α einen Test ϕα fur dieHypothese θ0 gegen die Alternative θ1 mit Eθ0(ϕα) = α von der Form (2). Siehe dieBemerkung zu NP-Tests. Dieser Test existiert, ist ein NP-Test und damit scharfster Testin Φ≤α. Er ist unabhangig von θ1 und damit gleichzeitig scharfster Test von θ0 gegenKθ0 .

Er ist auch ein Test zum Niveau ≤ α fur Hθ0 . Fur θ < θ0 gilt nach dem anschließendenHilfssatz

Eθ(ϕ) =∫

ϕwθ

wθ0

wθ0dµ ≤∫

ϕwθ0dµ∫ wθ

wθ0

wθ0dµ = Eθ0(ϕ) = α.

ii) Ersetze θ0 durch θ1 im obigen.iii) Fur θ1 ≤ θ2 gilt

Eθ1(ϕ) =∫

ϕwθ1

wθ2

wθ2dµ ≤∫

ϕwθ2dµ = Eθ2(ϕ)

iv) Der Test 1−ϕ ist ein NP-Test mit Niveau 1−α fur die Hypothese θ0 gegen θ.Damit ist er scharfster zu dem Niveau ≤ 1− α. q.e.d.

Bemerkung: Die Konstante c und die Funktion γ bestimmt sich, wenn auch nichteindeutig, aus der Gleichung Eθ0(ϕ) = α.

Hilfssatz 4 Sei µ ein W-maß auf den reellen Zahlen und seien f, g : IR → IR meßbareFunktionen mit fg integrierbar bzgl. µ.

• Fur aufsteigende Funktionen f und g gilt

fg dµ ≥∫

f dµ∫

g dµ

• Ist f fallend und g aufsteigend, so gilt

fg dµ ≤∫

f dµ∫

g dµ

• Gleichheit gilt in jeder der obigen Formeln genau dann, wenn f oder g eine Konstanteµ fast sicher ist.

Beweis: i) Seien f, g aufsteigende Funktionen. Sei b =∫

gdµ und a = infx | g(x) > b.Dann gilt (f − f(a))(g − b) ≥ 0 und

0 ≤∫

(f − f(a))(g − b) dµ =∫

fg dµ−∫

f dµ∫

g dµ

ii) Ersetze f durch −f und verwende die erste Aussage.iii) Gilt Gleichheit in der ersten Aussage, so folgt (f − f(a))(g− b) = 0 µ-f.s. Damit ist

entweder g eine Konstante oder aber f fast sicher gleich f(a). Dies deckt auch Gleichheitin der zweiten Aussage ab. q.e.d.

20

Page 21: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Bsp: Einparametrische Familien Eine FamilieWθ, θ ∈ Θ, von W-maßen auf (IR,B)heißt einparametrische Familie, falls es ein σ-endliches Referenzmaß µ gibt, so daß alle RN-Dichten wθ =

dµvon der Form

wθ = C(θ)heQ(θ)T

sind. Hierbei sind die Funktionen C,Q : Θ → IR, h, T : D → IR+ wobei h und T messbarsind.

Der Quotientwθ1

wθ2

=C(θ)

C(θ2)e(Q(θ1)−Q(θ2))T

ist eine Funktion von T. Abhangig von Q(θ1) − Q(θ2) > 0 ist diese steigend oder im FallQ(θ1) − Q(θ2) < 0 fallend. Im Fall der Gleichheit gilt Wθ1 = Wθ2 und damit θ1 = θ2.Insbesondere haben wir einen monotonen Dichtequotienten bzgl. T . Ist Q isoton, so ist Tein isotoner Dichtequotient. Es gibt gleichmaßig scharfste Tests und diese sind von NP-Gestalt bzgl. T .

4 Der NP-Test fur endliche Hypothesen

Wir betrachten Tests ϕ fur eine endliche Hypothese H = θ1, . . . , θm gegen eine einfacheAlternative K := θm+1. Wir benutzen i anstelle von θi.

Die FamilieWi, 1 ≤ i ≤ m+1, sei dominiert durch µ := W1+ . . .+Wm+1. Sei wi :=dWi

eine Version der Radon-Nikodym Ableitung. Definiere fur α = (α1, . . . , αm) ∈ IRm dieMengen Φα := ϕ | (Ei(ϕ))

mi=1 = α und Φ≤α := ϕ | (Ei(ϕ))i ≤ αi, i = 1, ...,m.

Sei Sk := (Ei(ϕ))ki=1 und Mα := Em+1(ϕ) | ϕ ∈ Φα. Fur α ∈ [0, 1] verwenden

wir αk ∈ IRk fur den k-dimensionalen Vektor mit den Koordinaten konstant α. Zuvor eintechnisches Lemma.

Lemma 5 (i) Φ,Φα,Φ≤α, Sk,Mα sind konvexe Mengen.

(ii) Fur jedes 1 ≤ k ≤ m+1 gilt: Die Dichten w1, ..., wk sind genau dann linear abhangig,wenn Sk auf einer linearen Hyperebene liegt.

(iii) Sk, k ≥ 2, liegt genau dann auf einer Hyperebene, wenn Sk keine inneren Punktehat.

(iv) Hat Sk innere Punkte, so enthalt es die inneren Punkte αk fur jedes 0 < α < 1.

(v) Sei α ∈ IRm, β ∈ IR. Dann ist (α, β) ein innerer Punkt von Sm+1 genau dann, wennα, β innere Punkte von Sm bzw. Mα sind.

(vi) Φ,Φα,Φ≤α sind konvexe und schwach∗ kompakte Mengen in L∞(µ). Die MengenSk,Mα sind kompakt.

21

Page 22: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Bew: i) Die Φ-Mengen sind konvex, nachrechnen. Generell gilt: Das Bild einer konvexenMenge ist konvex unter einer stetigen Abbildung. Die Abbildung E· : Φ → IRm+1 ist setig.Fur Sk,Mα benutze entsprechende stetige Abbildungen.

ii) Sk liegt auf einer Hyperebene, falls es reelle Zahlen c, ai, i ≤ k, gibt mit∑

i |ai| > 0und

i aiαi = c fur alle α ∈ Sk. Wir sprechen von linearer Hyperebene, falls diese durch 0geht, d.h. c = 0 gilt.

Der Clou ist die Gleichung∑

i

aiαi =∑

i

ai

ϕwidµ =∫

ϕ(x)∑

i

aiwi(x)µ(dx)

mit E·(ϕ) = α ∈ Sk. Sind die Vektoren w1, ..., wk linear abhangig, so existieren ai,∑

i |ai| >0 mit

i aiwi = 0. Folglich liegt Sk auf einer linearen Hyperebene. Umgekehrt gilt∑

i aiαi =0 mit

i |ai| > 0 so folgt ϕ∑

i aiwi = 0 µ fast sicher fur alle ϕ. Hieraus folgt∑

i aiwi = 0und lineare Abhangigkeit.

iii) Wenn Sk auf einer Hyperflache liegt, kann es keine inneren Punkte enthalten. Um-gekehrt, wenn Sk, k ≥ 2, nicht auf einer Hyperflache liegt, so gibt es k Punkte αi ∈ Sk

die linear unabhangig sind. Die hiervon erzeugte konvexe Menge ist ebenfalls in Sk. Dieseenthalt innere Punkte.

iv) Ware fur ein α ∈ (0, 1) der Vektor αk nicht im Inneren von Sk, so konnen wir nachHahn-Banach eine lineare Abbildung A : IRk → IR und ein c ∈ IR finden mit A(αk) = cund A(y) < c fur alle y im Inneren von Sk. Mit 0k ∈ Sk folgern wir 0 = A(0k =) ≤ c. Aus

c ≥ A(1k) =A(αk)

α=c

α

schließen wir c = 0. Sei jetzt γ ein innerer Punkt von Sk. Dann ist auch 1k − γ ein innererPunkt. Es gilt 0 < A(γ) und 0 < A(1k − γ) = −A(γ). Dies ist ein Widerspruch.

v) Die Projektionen von IRI nach RJ , J ⊂ I ⊂ IN sind stetig und offen (=offeneMengen werden auf offene Mengen abgebildet). Wende dies an.

vi) Sei L1(µ) der Raum der µ integrierbaren Funktionen versehen mit der L1-Norm‖f‖1 :=

∫ |f |dµ. Der Raum L∗1 der stetigen linearen Funktionale A : L1(µ) 7→ IR ist iso-

morph zu L∞(µ) mit der essentiellen Supremumsnorm ‖f‖∞ := infa ∈ IR | µ(|f | > a) =0. Der Isomorphismus ist gegeben durch A(f) =

fgdµmit g ∈ L∞. Die schwach∗ Topolo-

gie auf L∞ ist die grobste Topologie, bzgl. der alle Abbildungen Bf : L∞ 7→ IR, f ∈ L1, mitBf (g) :=

fgdµ meßbar sind. Aus der Funktionalanalysis benutzen wir: Die abgeschlosse-ne Einheitskugel g ∈ L∞ | ‖g‖∞ ≤ 1 ⊂ L∞ ist schwach∗ kompakt. Jede abgeschlosseneTeilmenge darin ist kompakt.

Die Abbildungen Bwisind stetig in der schwach∗ Topologie. Das Urbild abgeschlossener

Mengen ist abgeschlossen unter einer stetigen Abbildung. Alle aufgefuhrten Mengen sindUrbilder abgeschlossener Mengen enthalten in der Einheitskugel, z.B. Φα = ∩iB

−1wi(αi),

und damit kompakt. q.e.d.

4.1 Verallgemeinertes NP-Lemma

Wir verwenden dasselbe Setting wie oben.

22

Page 23: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Ein verallgemeinerter NP-Test ist ein Test ϕ ∈ Φ der Form

ϕ(x) =

1 falls wm+1 >∑m

i=1 ciwi

γ(x) =0 <

mit Konstanten ci ∈ IR und γ : D 7→ [0, 1] eine meßbare Funktion.

Satz 6 • Ist Φα nicht leer, so existiert ein scharfster Test in dieser Klasse.

• Ist α ein innerer Punkt von Sm, so existiert ein verallgemeinerter NP-Test in Φα.

• Jeder verallgemeinerte NP-Test ϕ mit Niveau α ist gleichmaßig scharfster Test inΦα.

• Sind alle ci positiv, so ist der NP-Test auch scharfster in der Klasse Φ≤α.

• Ist ϕ ein gleichmaßig scharfster Test in Φα und enthalt Φα einen NP-Test, so ist ϕfast sicher ein NP-Test.

Beweis: i) Betrachte die Abbildung Φα ∋ ϕ 7→ Em+1(ϕ) ∈ IR. Diese Abbildung als Ab-bildung von L∞(µ) in die reellen Zahlen ist stetig und auch stetig bezuglich der schwach∗

Topologie von L∞(µ). Die Menge Φα ist schwach∗ kompakt und damit das Bild Mα kom-pakt. Daher gibt es das Maximum in Mα und jedes Urbild davon ist scharfster Test.

ii) Die w1, . . . , wm sind linear unabhangig nach Lemma 5. Angenommen wm+1 ist linearabhangig von den oberen, dann gibt es eine Darstellung mit wm+1 =

∑mi=1 aiwi. Jeder Test

ϕ ∈ Φα ist damit ein verallgemeinter NP-Test (setze γ = ϕ). Die Macht ist Em+1(ϕ) =∫

ϕ∑

i aiwidµ =∑

i aiαi. d.h. M(α) einelementig.Sei jetzt wm+1 unabhangig von w1, . . . , wm. Der Test ϕ

∗ zu (α, β∗), β∗ := supβ′ ∈Mαtut’s. Der Test existiert da Mα kompakt ist. Der Punkt (α, β∗) ist kein innerer Punkt vonSm+1, da β∗ maximal gewahlt wurde. Nach Hahn-Banach konnen wir eine Hyperflachefinden, auf der (α, β∗) liegt, und Sm+1 liegt in einem der abgeschlossenen Halbraume. InFormeln, es existiert eine lineare Abbildung A : IRm+1 7→ IR mit

A(y) ≤ A(α, β∗) (3)

fur alle y ∈ Sm+1 mit < fur innere Punkte. Wir schreiben A in der Form A(y) =∑m+1

i=1 aiyi.Beachte

i |ai| > 0.Sei ϕ′ irgendein anderer Test. Dann gilt

0 ≤∫

(ϕ∗ − ϕ′)∑

i

aiwidµ = A(α, β∗)− A(α′, β′) ≥ 0

fur α′ der Level und β′ die Macht von ϕ′. Da wir ϕ′ beliebig wahlen durften, muss derIntegrand immer f.s. positiv sein. Dies bedeutet ϕ∗ = 1 auf der Menge

i aiwi > 0 undϕ∗ = 0 auf der Menge

i aiwi < 0.

23

Page 24: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

• oEdA am+1 = 1.Annahme: am+1 = 0. Dann liegt Sm auf einer Hyperflache und kann keinen inneren

Punkt enthalten. Widerspruch. Aus 0 ≤ A(α, β∗)− A(α, β′) = am+1(β∗ − β′) erhalten wir

am+1 > 0. Durch eine Multiplikation mit einer positiven Konstanten konnen wir oEdAam+1 = 1 annehmen. Mit cj = −aj fur j ≤ m erhalten wir ϕ∗ ist ein verallgemeinerterNP-Test.

iii) Sei ϕ ein NP-Test aus Φα. Fur jeden Test ϕ′ ∈ Φα gilt

Em+1(ϕ)−Em+1(ϕ′) =

(ϕ−ϕ′)(wm+1−m∑

i=1

aiwi)dµ+∫

(ϕ−ϕ′)m∑

i=1

aiwidµ =: I+II. (4)

Die spezielle Form von ϕ impliziert einen stets positiven Integranden in I und damit I ≥ 0.Beide Tests haben dieselbe Niveaufunktion. Dies impliziert II = 0.

iv) Wir verwenden dieselbe Argumentation wie oben. Die einzige Anderung ist II =∑m

i=1 ai(αi − α′i) ≥ 0.

v) Aus der Aufteilung (4) erhalten wir II = 0 und damit die Aussage.q.e.d.

Bemerkung: Seien die Dichten w1, ..., wm+1 linear abhangig.Fall: wm+1 ist linear abhangig von den anderen. Dann ist jeder Test ein verallgemeinerter

NP-Test.Fall: w1, ..., wm sind bereits linear abhangig. Wahle J ⊂ 1, 2, ...,m mit wj, j ∈ J sind

linear unabhangig und der davon aufgespannte Vektorraum ist gleich dem von w1, ..., wm

aufgespannten Vektorraum. Der fur J gegen m+ 1 konstruierte verallgemeinerte NP-Testtut’s.

Literaturhinweis: G.B. Dantzig und A.Wald 1951On the fundamental lemma of Neyman-Pearson. Ann. Math. Stat. 22

4.1.1 Zweiseitige Tests

Wir betrachten jetzt einparametrische Familien (Wθ)θ∈Θ mit isostonem Likelihoodquotien-ten. Die Ordnung auf Θ ist die naturliche Ordnung induziert durch den isotonen LHQ.

Wir betrachten zweiseitige Tests. Sei θ1 < θ2 und H = θ ≤ θ1 ∪ θ ≥ θ2 gegen dieAlternative K = Hc = θ | θ1 ≤ θ ≤ θ2.Satz 7 Sei (Wθ)θ∈Θ eine einparametrige exponentielle Familie mit Dichte

wθ(·) = C(θ)h(·)eQ(θ)T (·)

bzgl. einem σ-endlichen Referenzmaß µ und isotonem Likelihoodquotienten T . Sei Θ total-geordnet bzgl. dem isotonem LHQ T .

i) Zu vorgebenem α ∈ [0, 1] gibt es einen Test ϕ zum Niveau α, der gleichmaßig scharf-ster Test in der Klasse der Tests zum Niveau α ist und folgende Gestalt hat:

ϕ(x) =

1 falls C1 < T (x) < C2

γi T (x) = Ci

0 sonst

24

Page 25: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Dabei erfullen die Konstanten Ci ∈ IR, γi ∈ [0, 1], i = 1, 2. die Bedingung

Eθ1(ϕ) = α = Eθ2(ϕ) (5)

ii) Dieser Test minimiert Eθ(ϕ′) fur alle ϕ′ mit (5) und θ ∈ H.

Beweis: Die Ordnung auf Θ ist durch θ < θ′ ⇔ Q(θ) < Q(θ′) gegeben. Ohne Einschrankungder Allgemeinheit konnen wir h ≡ 1 annehmen. (Gehe uber zum Referenzmaß hµ.)

Betrachte die Hypothese H ′ := θ1, θ2 gegen die Alternative θ′ mit θ1 < θ′ < θ2zum Level (α, α).

Seien die Dichten wθ1 , wθ′ , wθ2 linear abhangig. Dann gibt es a, b ∈ IR mit wθ′ = awθ1 +bwθ2 . Dies impliziert a + b = 1 aus der Dichteeigenschaft und Eθ′(ϕ) = aα + bα = α furjedes ϕ ∈ Φα,α. Jeder Test ist scharfster.

Seien die Dichten wθ1 , wθ′ , wθ2 linear unabhangig. Nach Lemma 5 ist (α, α) fur 0 < α < 1ein innerer Punkt von S2. Der scharfste Test zum Level (α, α) fur θ1, θ2 gegen θ′ hatnach Satz 6 die Form

ϕ(x) =

1 falls C(θ′)eQ(θ′)T (x) > c1C(θ1)eQ(θ1)T (x) + c2C(θ2)e

Q(θ2)T (x)

γ(x) =0 <

.

Nach Division mit C(θ′)eQ(θ′)T (x) erhalten wir

ϕ(x) =

1 falls 1 > a1eb1T (x) + a2e

b2T (x)

γ(x) =0 <

mit b1 < 0 < b2.Falldiskussion: Fall 1. a1 ≤ 0, a2 ≤ 0. Dies ist unmoglich, da ansonsten Eθ1(ϕ) = 1 gilt.Fall 2. a1 ≤ 0, a2 > 0 oder auch a1 > 0, a2 ≤ 0. Die Funktion y → a1e

b1y + a2eb2y ist

strikt monoton. Der Satz 3 impliziert strikte Monotonie von θ 7→ Eθ(ϕ). Dies kann wegender Nebenbedingung (5) nicht sein.

Fall 3. a1 > 0, a2 > 0. Die Funktion y 7→ a1eb1y + a2e

b2y ist erst fallend und dannsteigend, wenn y den Wertebereich von −∞ nach ∞ durchlauft. (Nehme zweite Ableitungnach y.) Damit hat der Test die Gestalt wie oben. Die C1, C2 sind µ

T fast sicher eindeutigbestimmt.

Dieser Test ist scharfster Test fur H ′ gegen θ′. Er ist unabhangig von θ′ und damitgleichmaßig scharfster Test fur H ′ gegen K = θ1 < θ < θ2.

Die Eigenschaft Eθ(ϕ) ≤ α fur θ ∈ H folg taus ii).ii) Minimaleigenschaft. Wahle θ′ < θ1 < θ2. Der scharfste Test ϕ∗ ∈ Φ1−α,1−α von H ′

gegen θ′ ist ein verallgemeinerter NP-Test. Wir machen eine Fallunterscheidung wie obenfur

ϕ(x) =

1 falls 1 > a1eb1T (x) + a2e

b2T (x)

γ(x) =0 <

25

Page 26: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

diesmal fur 0 < b1 < b2. Die Funktion y 7→ f(y) = a1eb1y + a2e

b2y darf nicht monoton seinund muß auch den Wert 1 uberschreiten. Die Falle a1a2 ≥ 0 konnen wir schnell ausschliesen.Es verbleibt a1a2 < 0. Die Funktion f hat genau einen Extrempunkt in e(b2−b1)y = −a1b1

a2b2.

Ferner limy→−∞ f(y) = 0 und |f(∞−)| = ∞. Den Fall a1 < 0, a2 > 0 schließen wir aus day | f(y) > 1 ein Interval mit rechtem Endpunkt ∞ ist. Das widerspricht ϕ∗ ∈ Φ1−α,1−α.Folglich verbleibt a1 > 0, a2 < 0.Die Funktion f hat ein Maximum. Der Verwerfungsbereichist von der Gestalt T (x) < c1 oder T (x) > c2 mit c1 < c2 ∈ IR. Dann tut es der Test1− ϕ∗ ∈ Φα,α. Wegen der Eindeutigkeit der ci durch α (siehe Appendix) ist dies der obigeNP-Test. q.e.d.

Bemerkung: Ganz analog lassen sich auch die Hypothesen H = θ1 ≤ θ ≤ θ2gegen K = Hc fur θ1 < θ2 betrachten. Der zughorige NP-Test hat den VerwerfungsbereichT (x) < c1 oder T (x) > c2. Sogar der Grenzubergang θn1 θ

n2 →n θ0 laßt sich durchfuhren.

Die Resultate mussen nur richtig formuliert werden. Siehe z.B. Irle, Statistik.Beispiel Eine zufallsabhangige Prazisionsmessung soll auf systematische Abweichungen

getestet werden. Die tatsachlichen systematischen Abweichungen durfen innerhalb einesToleranzintervalls (θ1, θ2) liegen. Die Entscheidung fur eine zulassige systematische Abwei-chung eines einzelnen Gerats soll hochstens mit Wahrsch. α falsch sein. Setze H = θ ≤θ1 oder θ ≥ θ2 und K = θ1 < θ < θ2 und verwende den verallgemeinerten NP-Test zuα.

Beispiel X1, . . . , Xn uiv Zgn zur Normalverteilung N(m, 1),m ∈ IR. Sei m0, c, α fest,H = m | |m−m0| ≥ c, K = Hc, T (x) =

∑ni=1 xi

ϕ(x) =

1 falls C1 < T (x) < C2

0 sonst

mit Em0−c(ϕ) = α = Em0+c(ϕ). Es gibt genau eine Losung fur C1, C2 (Zusatzargumente)und diese erfullt aus Symmetriegrunden |C1 −m0| = |C2 −m0|.

4.2 Verschiedenes

p-Wert Sei die Hypothese und Alternative einelementig. Der p-Wert p : D → IR ist eineAbbildung vom Datenraum in die reellen Zahlen, definiert durch

p(d) = WH(x ∈ D | wK(x)

wH(x)≥ wK(d)

wH(d)).

Fur Niveaus α < p wurde der NP-Test zu α die Hypothese unter dem Versuchsergebnis dnicht verwerfen, fur Niveaus α ≥ p ware die Entscheidung fur die Alternative. In diesemSinne ist der p-Wert ein kritischer Wert und dient als ein ’Maßstab’ fur die Gultigkeit derHypothese. Ein großer p-Wert legt die Hypothese nahe, ein kleiner die Alternative. DieVorstellung ist:

Je großer der p-Wert, desto glaubhafter ist die Hypothese.

26

Page 27: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Fur beliebige Hypothese und Alternative wird der Test

ϕ(x) =

1 falls supθ∈K wθ(x) > c supθ∈H wθ(x)γ =0 <

benutzt. Dann ist der p-Wert der Grenzwert der α, so dass der Test zu α die Hypotheseablehnt und sich fur die Annahme der Alternative entscheidet unter der Beobachtung vond.

Die Bedeutung des p-Wertes liegt in der obigen heuristischen Interpretation. Eine wei-tergehende, mathematisch fundierte Begrundung kenne ich nicht.

Konfidenzbereiche Ein Konfidenzbereichsschatzer ist eine Abbildung K : D → E vondem Datenraum in meßbare Teilmengen des Entscheidungsraumes mit K−1(A) ∈ D furalle A ∈ E. K(d) heißt Konfidenzbereich fur die Date d. Ein Konfidenzbereichsschatzer Kzum Niveau ≤ α ist ein Schatzer mit Wθ(x ∈ D | ψ(θ) ∈ K(x)) ≤ α fur alle θ ∈ Θ.

Die Interpretation ist: Fur gegebene Date d sind alle Entscheidungen aus K(d) eher’gut’, die anderen eher ’schlecht.’ Gegebenenfalls wird auch von Konfidenzintervallen ge-sprochen. Der Regelfall ist E = Θ mit ψ die Identitat. Die Interpretation ist: Das wahre θist in K(d) bei Beobachtung der Date d mit einer W-keit von mindestens α.

Hier die Standardkonstruktion im allgemeinen Fall: Fur jedes θ wahle eine Menge Aθ ∈D und definiere K durch

ψ(θ) ∈ K(x) ⇔ x ∈ Aθ

(Idee Aθ = K−1(ψ(θ)).) Damit gilt Wθ(x ∈ D | θ ∈ K(x)) = Wθ(Aθ).Die Auswahl von Aθ laßt sich als der Annahmebereich eines Tests von H = θ gegen

den RestK = Hc interpretieren. Eine sinnvolle Auswahl erscheint es alle Daten zu nehmen,die eine große Dichte (mussen existieren) wθ besitzen, formal

A(θ) := x ∈ D | wθ(x) > c(θ)

Dabei wird c(θ) ∈ IR so gewahlt, das ein vorgegebenes Niveau genau eingehalten wird(eventuell mit Randomisierung).

Heuristisch erscheint dieser Schatzer sinnvoll, Aθ wird moglichst klein. Eine weiterge-hende, mathematisch fundierte Begrundung kenne ich nicht.

Beispiel: Konfidenzschranken fur die Varianz der Normalverteilung.SeiX = (X1, X2, . . . , Xn) ein Vektor mit n uiv zentrierten Zgn zur VerteilungN(0, σ2), σ2 >0. Sei θ = σ2, Θ = (0,∞) = E, ψ = id und das Niveau α ∈ (0, 1). Ein ’guter’ Schatzerfur σ2 ist T (X) = 1

n

iX2i . Wir wahlen (mit einer gewissen Willkur) Aθ = [C∗(θ), C

∗(θ)]mit Pθ(

iX2i > C∗(θ)) = α/2 und Pθ(

iX2i < C∗(θ)) = α/2. Das zugehorige K ist ein

Konfidenzintervallschatzer zum Niveau α. Die Intervallgrenzen lassen sich berechnen.

27

Page 28: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

5 Datenreduktion

Lassen sich die Datensatze (informativ) reduzieren?Heuristik: Gegeben sei ein statistisches Experiment. Angenommen wir erhalten nur

eine gewisse Teilinformation aus dem Datensatz. Dies entspricht einer meßbaren AbbildungT vom Datenraum in einen neuen Datenraum D′. Unser neues, ’kleineres’ Experimenthat Datenraum D′ mit einer geeigneten σ-Algebra D′ und den transportierten W-MaßenW T = W ′ darauf. Nur Abbildungen T machen inhaltlich Sinn, die als Abbildung D → D′

surjektiv sind und als Abbildungen auf Maßen injektiv (und damit bijektiv) auf (Wθ)θoperieren, d.h. alle W T

θ , θ ∈ Θ verschieden sind.Weiterhin angenommen, zu jeder Entscheidungsfunktion g : D × E → IR im großen

Experiment konnen wir eine Entscheidungsfunktion g′ : D′ × E → IR, basierend auf dereingeschrankten Information in D′, konstruieren mit gleicher Risikofunktion, d.h.

RL(θ, g) =∫

D

EL(θ, e)g(x, de)Wθ(dx) =

D′

EL(θ, e)g′(y, de)W T

θ (dy) = R′L(θ, g

′). (6)

fur alle Verlustfunktionen L, alle Entscheidungsraume (E, E) und alle θ ∈ Θ. Dann istdas Experiment mit kleinerem Datenraum vorzuziehen, da es anscheinend weniger In-formation aus dem Experiment benotigt. (Der Informationsgehalt ist entscheidend, nichtdie Machtigkeit der Menge D′.) Weniger Information laßt sich deuten als eine kleinereσ-Algebra D0 := T−1(D′) ⊂ D uber dem Stichprobenraum D.

Die mathematische Umsetzung dieser Idee besteht in einer Auswahl der bedingtenWahrscheinlichkeit Eθ(. | D0) unabhangig von θ ∈ Θ.

5.0.1 W-theoretische Vorbetrachtung

Eine Familie von Maßen M ist dominiert durch ein Maß µ, falls µ jedes ν ∈ M dominiert.Notation M << µ.

Eine Familie von Maßen M heißt aquivalent zu einem Maß µ, falls fur alle EreignisseA ∈ A gilt: µ(A) = 0 ⇔ ∀ν ∈ M : ν(A) = 0. Wir schreiben auch M ∼ µ.

Lemma 8 Sei W eine Familie von W-maßen dominiert durch ein σ-endliches Maß. Danngibt es ein W-Maß λ, welches aquivalent zur Familie W ist. Dieses W-Maß λ laßt sich vonder speziellen Gestalt

λ :=∑

n

cnWn

wahlen. Hierbei sind cn > 0,∑

n cn = 1 und Wn sind aus der Familie W .

Beweis: OEdA sei das dominierende Maß µ ein W-maß. Wir geben ein Ausschopfungsargu-ment bezuglich des Tragers. Zuerst definieren wir eine iterative Vorschrift zur Konstruktionvon Wn.

Starte mit W1 ∈ W beliebig. Wir fuhren den Induktionssschritt n → n + 1 durch.Definiere

Cn := ω ∈ Ω | d(W1 + . . .+Wn)

dµ(ω) > 0

28

Page 29: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Cn,W := ω | d(W1 + . . .+Wn +W )

dµ(ω) > 0,

W ∈ W . Wahle als Wn+1 ein W-maß aus mit

µ(Cn,Wn+1) > supW∈W

µ(Cn,W )− 2−n.

• λ :=∑

n 2−nWn tut’s.

Angenommen es gibt ein A ∈ A und ein W ∈ W mit λ(A) = 0 und W (A) > 0. Ausdem ersten folgt A 6∈ Cn und aus dem zweiten µ(A) > 0. Mit Cn,W = Cn

⋃ A folgt

µ(Cn+1) = µ(Cn,Wn+1) > supW∈W

µ(Cn,W )− 2−n

≥ µ(Cn,W )− 2−n = µ(Cn) + µ(A)− 2−n

Im Grenzubergang n→ ∞, beachte Cn ist aufsteigend, folgt der Widerspruch 0 ≥ µ(A) >0. q.e.d.

Eine Nullmenge bezuglich einer Familie M von Maßen ist eine Menge, die Nullmengeist fur jedes Maß dieser Familie. Eine Vervollstandigung einer Unter-σ-Algebra A ⊂ Bbezuglich einer σ-Algebra B und der Familie von Maßen M ist die kleinste σ-Algebra A∗,die A enthalt und alle Nullmengen von M. Diese ist darstellbar als

A∗ = (B ∪N)\M | A ∈ A und M,N Nullmengen bzgl. M.

5.0.2 Informativ

Eine σ-Algebra D0 ⊂ D heißt ausreichend informativ bzw. informativ fur ein statisti-sches Entscheidungsproblem ((D,D), (Wθ)θ∈Θ, (E, E), ψ), falls fur jede Entscheidungsfunk-tion g : D × E → IR es eine D0-meßbare Entscheidungsfunktion g0 : D × E → IR gibt,sodaß fur alle positiven Verlustfunktionen L die Risikofunktion von g0 kleiner oder gleichder Risikofunktion von g ist. Eine σ-Algebra D0 ⊂ D heißt ausreichend informativ oderinformativ fur ein statistisches Experiment ((D,D), (Wθ)θ∈Θ), falls dies D0 ⊂ D informativfur jeden Entscheidungsraum (E, E) gilt.

Eine Statistik T : D → D′ heißt ausreichend informativ oder informativ fur ein stati-sches Entscheidungsproblem bzw. Experiment, falls dies fur die σ-Algebra T−1(D′) gilt.

Um eine Interpretation von g0 als Statistik zu gewahrleisten, fordern wir, dass g0 einW-kern ist. Technisch gesehen benotigen wir eine Festlegung der bedingten ErwartungEθ(· | D0) als W-kern und unabhangig von θ. Hierzu benotigen wir technische Annahmen,wie die Existenz von W-kernen fur bedingte Erwartungen. Dies wollen wir stets annehmen,z.B. arbeiten wir nur auf Borelschen Raumen, ohne die technischen Details auszubreiten.

Lemma 9 Sei D0 eine Unter-σ-Algebra (und (D,D0) ein Borelraum). Dann ist D0 genaudann informativ fur (Wθ)θ, falls es einen D0-meßbare W-Kern K : D ×D → IR gibt mit

Wθ(A ∩ A0) =∫

A0

K(·, A)dWθ (7)

fur alle meßbaren Mengen A ∈ D, A0 ∈ D0 und alle θ ∈ Θ.

29

Page 30: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Beweis: ’⇒’ Wahle (E, E) = (D,D0) und die Entscheidungsfunktion g(x, .) = δx. Danntut’s der D0-meßbare mindestens gleich gute Kern g0 zu g.

Fur jede Verlustfunktion LA(θ, e) = 11A(e), A ∈ D und θ ∈ Θ gilt

RLA(θ, g) =

Dg(x,A)Wθ(dx) = Wθ(A)

≥ RLA(θ, g0) =

Dg0(., A)dWθ

Wir haben Gleichheit wegen 1 = LA + LAc und RLA+RLAc = R1 = 1. Dies liefert

Wθ(A) =∫

DK(·, A)dWθ (8)

fur alle A ∈ D. Hieraus folgt leicht (7).’⇐’ Sei K vorgegeben und g eine Entscheidungsfunktion. Dann tut’s g0 mit g0(x,A) :=

D g(y, A)K(x, dy). Fubini ergibt

RL(θ, g0) =∫

D

EL(θ, e)g0(x, de)Wθ(dx)

=∫

D

EL(θ, e)

Dg(y, de)K(x, dy)Wθ(dx)

=∫

D

EL(θ, e)g(y, de)

DK(x, dy)Wθ(dx)

=∫

D

EL(θ, e)g(y, de)Wθ(dy) = RL(θ, g)

q.e.d.Bemerkung: Unter T kann nur Information verloren gehen, wir schranken uns ein auf

auf weniger. Wenn T gleichzeitig informativer ist, bedeutet dies kein Informationsverlustund damit gleiche Risikofunktion.

Bemerkung: Der Kern K ist eine Version der bedingten Erwartung unter Wθ gleich-zeitig fur jedes θ.

Statistiken: Jede informative Unter-σ-Algebra liefert via der Identitat T auf D eineinformative Statistik.

Umgekehrt, sei T : D → D′ eine informative Statistik. Dann ist D0 := T−1(D′) infor-mativ. Sei K der D0-meßbare Kern aus Lemma 9. Nach dem Faktorisierungslemma gibt eseinen W-Kern K ′ : D′ × E → IR mit K ′(T (x), A) = K(x,A) fur x ∈ D, A ∈ E .

Dann gibt es fur jede Entscheidungsfunktion g eine D0-meßbare Entscheidungsfunktiong0 und zu dieser eine D′-meßbare Entscheidungsfunktion g′ : D′ × E → IR, die alle diegleiche Risikofunktion zu jeder Verlustfunktion haben. g′ wird gegeben durch

g′(T (x), A) =∫

Dg(y, A)K ′(T (x), dy).

30

Page 31: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

5.0.3 Minimalinformativ

Eine Familie M von Maßen auf (Ω,A) heißt trennend oder separierend fur eine Familie Fvon meßbaren Funktionen auf Ω, falls < µ, f >= 0 fur alle µ ∈ M impliziert f ≡ 0. (Wirbenutzen hier die Bilinearform < µ, f >=

fdµ.) Analog benutzen wir wird separiert,usw. Eine Unter-σ-Algebra A0 heißt (beschrankt) separiert bzgl. der Familie M falls Mdie Familie der (beschrankten) A0-meßbaren Funktionen separiert. In der Statistik hat sichder Name vollstandig fur separiert durchgesetzt.

Eine σ-AlgebraD0 ⊂ D heißt suffizient fur ein statistisches Experiment ((D,D), (Wθ)θ∈Θ),falls es eine Funktion E : D×D → IR gibt, die eine Festlegung der bedingten Wahrschein-lichkeiten Eθ : D×D → IR fur alle θ Wθ-f.s. ist. Wir benutzen die Schreibweise E(A | D0)(x)(ohne θ).

Eine σ-Algebra D0 ⊂ D heißt stark suffizient (oder auch informativer) fur ein statisti-sches Experiment ((D,D), (Wθ)θ∈Θ), falls es einen D0 meßbaren W-Kern K : D ×D → Rgibt, der eine Festlegung der bedingten Wahrscheinlichkeiten Eθ : D × D → IR fur alle θWθ fast sicher ist.

Dies ist eine Verscharfung von Suffizienz. Auf Borelschen Raumen stimmen die Begriffeuberein. Fur eine Interpretation (wie bisher gegeben) des Schatzers benotigen wir einenW-kern. Die Argumente sind etwas einfacher, wenn man Suffizienz benutzt.

Aquivalent zur Suffizienz ist

Wθ(A ∩ A0) =∫

A0

E(11A | D0)Wθ(dx)

fur alle A0 ∈ D0, A ∈ D, θ ∈ Θ.Analog verwenden wir eine Abbildung T : D → D′ ist suffizient, falls T−1(D′) suffizient

ist.Eine suffiziente σ-Algebra ist ausreichend informativ. Die Umkehrung gilt nicht. Sie gilt

jedoch in einem wichtigen Fall.

Lemma 10 Eine informative und durch (Wθ)θ separierte σ-Algebra D0 ist suffizient. DerKern K ist die bedingte Erwartung unter D0 fast sicher fur alle θ ∈ Θ.

Beweis: Sei D0 die obige σ-Algebra.• K(., A0) = 11A0 fur alle A0 ∈ D0 fast sicher bzgl. θ ∈ Θ.Die Funktion f := 11A0 −K(., A0) ist D0-meßbar und erfullt

fdWθ = 0 fur alle θ ∈ Θ.Die Separiertheit ergibt f ≡ 0 f.s.

• D0 ist suffizient.Sei A ∈ D, A0 ∈ D0. Es gilt

A0

11AdWθ =∫

K(., A ∩ A0)dWθ =∫

A0

K(., A ∩ A0)dWθ ≤∫

A0

K(., A)dWθ.

Es gilt Gleichheit wegen∫

A0

dWθ =∫

A0

(11A + 11Ac)dWθ ≤∫

A0

(K(., A) +K(., Ac))dWθ =∫

A0

dWθ

31

Page 32: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Aus der Eindeutigkeit der bedingten Erwartung

A0

Eθ(11A | D0)dWθ =∫

A0

K(., A)dWθ

fur alle A0 ∈ D0 folgt die Behauptung. q.e.d.

5.0.4 Suffiziente Statistiken

Wie lassen sich suffiziente Statistiken charakterisieren und auch finden?

Satz 11 (Halmos-Savage) Sei (Wθ)θ eine Familie aquivalent zum W-maß λ und λ vonder Form λ =

n cnWθθn. Dann gilt

i) Die Unter-σ-Algebra D0 ⊂ D ist suffizient genau dann, wenn es fur jedes θ ∈ Θ eineD0 meßbare Radon-Nikodym Dichte dWθ

dλgibt.

ii) Eine meßbare Abbildung T : D 7→ D′ ist genau dann suffizient, wenn es fur jedes θeine D′ − B meßbare Abbildung fθ : D

′ 7→ IR gibt mit dWθ

dλ= fθ(T ).

Beweis: Die zweite Aussage ist nur eine Umformulierung der ersten mit Hilfe des Faktori-sierungslemmas. Wir beweisen Aussage i).

’⇒’ Fur ein Maß µ auf D benutzen wir µ|D0 fur die Einschrankung auf die Unter-σ-

Algebra D0. Die Radon-Nikodym Ableitung bedingt auf D0 fθ :=d(Wθ)|D0

dλ|D0

tut’s. Argumen-

tiereEλ(. | D0) =

n

cnEWn(. | D0) =

n

cnE(· | D0) = E(· | D0)

A

dWθ

dλdλ =

AdWθ =

Eθ(11A | D0)dWθ =∫

E(11A | D0)dWθ

=∫

E(11A | D0)d((Wθ)|D0) =∫

E(11A | D0)fθdλ|D0

=∫

Eλ(11A | D0)fθdλ =∫

Eλ(fθ11A | D0)dλ =∫

Afθdλ.

’⇐’ Fur die Umkehrung zeigen wir Eλ(. | D0) = Eθ(. | D0) fast sicher bezuglich jedemWθ. Hierbei ist die linke Seite eine Festlegung als Funktion der bedingten Erwartung unterD0 bzgl. λ. Sei A0 ∈ D0, fθ =

dWθ

A0

Eλ(11A | D0)dWθ =∫

A0

Eλ(11A | D0)fθdλ =∫

Eλ(11A011Afθ | D0)dλ

=∫

11A011Afθdλ =∫

A0

11AdWθ =∫

A0

Eθ(11A | D0)dWθ.

Aus der Eindeutigkeit der bedingten Erwartung bzgl. Wθ folgt die partielle Behauptung.q.e.d.

32

Page 33: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Satz 12 (Neyman Faktorisierungskriterium) Sei (Wθ)θ dominiert durch ein σ-endlichesMaß µ. Eine Unter-σ-Algebra D0 ⊂ D ist genau dann suffizient, falls die Radon-NikodymDichte sich in der Form

dWθ

dµ= fθ h

schreiben laßt. Hierbei ist fθ : D → IR D0-meßbar und h : D → IR D-meßbar. fθ hangt vonθ ∈ Θ ab, nicht jedoch h. Analog, eine meßbare Abbildung T : D 7→ D′ ist suffizient, falls

dWθ

dµ= f ′

θ(T ) h

gilt mit f ′θ : D

′ → IR D′-meßbar und h wie oben.

Beweis: Wahle ein aquivalentes W-maß λ =∑

n cnWn von der speziellen Struktur.i)’⇒’ Es gilt

dWθ

dµ=dWθ

dλ︸ ︷︷ ︸

dµ︸︷︷︸

h

.

i)’⇐’ Beachte dλdµ

=∑

n cnfθnh. Es gilt

fθ h =dWθ

dµ=dWθ

dµ=

(

dWθ

n

cnfθn

)

h.

Die Aussage ii) beruht auf Faktorisierung. q.e.d.Normalverteilung: Sei X = (X1, . . . , Xn) mit Xi, 1 ≤ i ≤ n unabhangige Zgn

mit einer N(m,σ2) Normalverteilung. Der Parameterraum ist parametrisiert durch θ =(m,σ2) ∈ Θ = IR× (0,∞). Die Statistik T (x) = (

∑di=1 xi,

∑di=1 x

2i ) ist suffizient.

Hier ist ein Beispiel einer suffizienten Statistik ohne Dominiertheit zu verlangen. Sei Geine Gruppe von bijektiven und bimeßbaren Abbildungen a : D → D. Sei

D0 := A ∈ D | ∀a ∈ G : a−1(A) = A

die invariante σ-Algebra unter G. Jedes W-Maß Wθ, θ ∈ Θ sei invariant unter der Gruppe,(Pa−1 = P fur alle a ∈ G).

Ist die Gruppe G endlich, so ist D0 suffizient. Der Kern

K(x,A) :=1

|G|∑

a∈G11a(x)∈A

tut’s. In Termen einer Statistik konnen wir den Datenraum auf den Bahnenraum D1 :=[x] | x ∈ D, [x] := Gx = ax | a ∈ G, mit zugehoriger σ-Algebra verkleinern. DieStatistik T : D → D1, T (x) = [x] ist informativ.

Ordnungsstatistik: Sei Πn die Menge der Permutationen auf 1, . . . , n. Fur einePermutation π definiere die Vertauschung auf Dn via (d1, . . . , dn) 7→ (dπ(1), . . . , dπ(n)).Diese Abbildung bezeichnen wir ebenfalls mit π.

33

Page 34: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Eine Verteilung heißt vertauschbar, falls sie invariant ist unter der Gruppe der Vertau-schungen. In Termen von Zgn formuliert: Ein Zufallsvektor X = (X1, . . . , Xn) hat einevertauschbare Verteilung, falls die Verteilung von π(X) nicht von π ∈ Πn abhangt.

Sei jetzt X = (X1, . . . , Xn) eine Zgn mit Xi, 1 ≤ i ≤ n uiv Zgn. Sei T : Rn → IRn dieOrdnungsstatistik. (T (x) = (x1, . . . , xn) mit x1 ≤ . . . ≤ xn die Werte x1, . . . , xn der Großenach geordnet.) Die Gruppe der Permutationen operiert auf dem Datenraum, die W-Maßesind invariant unter der Gruppe. T ist eine Indizierung der Bahnen.

5.0.5 Minimalinformativ *

Gibt es eine kleinste gleich gute Statistik? Die Antwort ist (in fast allen interessantenFallen) ja. Naturlich modulo Nullmengen, denn Nullmengen sollten inhaltlich in der Sta-tistik keine Rolle spielen, da sie unter jedem Wahrscheinlichkeitsmaß W ∈ W nur mitWahrscheinlichkeit Null vorkommen.

Eine ausreichend informative σ-Algebra D0 heißt minimalinformativ, falls fur jede an-dere ausreichend informative σ-Algebra D1 gilt D0 ⊂ D1 fast sicher bzgl. allen θ ∈ Θ.(Ausgeschrieben ∀θ ∈ Θ ∀A0 ∈ D0 ∃A1 ∈ D1 W (A0A1) = 0. Hierbei bezeichnet ABdie symmetrische Differenz (A ∩ Bc) ∪ (B ∩ Ac).) In diesem Sinne benutzen wir auch mi-nimalsuffizient.

Der Satz von Halmos-Savage liefert eine minimalsuffiziente σ-Algebra, die kleinste σ-Algebra, so daß alle Radon-Nikodym Ableitungen bzgl. dem speziellen λ meßbar sind. Hierein weiteres Kriterium.

Wir benutzen A∗ als die Vervollstandigung der σ-Algebra unter einem Maß.

Satz 13 Jede ausreichend informative und beschrankt separierte σ-Algebra ist minimalin-formativ.

Beweis: Sei D0 die obige σ-Algebra und K0 der Kern dazu. Beachte, nach Lemma 10ist K0 eine Version der bedingten Erwartung unter D0. Sei D1 eine andere ausreichendinformative σ-Algebra fur D und sei K1 der Kern. Fur ein Ereignis A aus D0 betrachtef := 11A −K0(., K1(., A)).

• f ≡ 0 f.s. fur jedes θ ∈ Θ.Dies liefert die Separiertheit. f ist beschrankt, D0 meßbar und Eθ(f) = 0, ∀θ,

Eθ(f) = Wθ(A)− Eθ(Eθ(K1(., A) | D0))

= Wθ(A)− Eθ(K1(., A)) = Wθ(A)− Eθ(11A) = 0

• 11A = K1(., A) fur A ∈ D0 fast sicher fur alle θ ∈ Θ.

0 ≤ Eθ(11A −K1(., A))2 = Eθ(11A) + Eθ(K

21(., A))− 2Eθ(11AK1(., A))

= Wθ(A) + Eθ(K21(., A))− 2Eθ(11AEθ(K1(., A) | D0))

= Wθ(A) + Eθ(K21(., A))− 2Eθ((11A)

2) ≤ −Wθ(A) + Eθ(K1(., A)) = 0

fast sicher bzgl. allen θ. Es muß Gleichheit gelten und damit K21 = K1 f.s.

34

Page 35: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

• D0 ⊂ D∗1

Nach der obigen Aussage ist der Kern K1 auch D0-meßbar. Damit ist D0 ⊂ A ∈ D |K1(., A) = 11A ⊂ D∗

1. q.e.d.Bemerkung: i) Es kann mehrere minimalinformative σ-Algebren geben. Nach obigem

gilt dann D0 ⊂ D∗1 und D1 ⊂ D∗

0 Wθ-fast sicher fur jedes θ. Diese unterscheiden sich nurin eventuellen Nullmengen, formal D∗

0 = D∗1 auf D.

ii) Der Begriff minimalinformativ laßt sich auf ausreichend informative Statistiken T :D → D′ ubertragen durch D0 = T−1(D′). Jede ausreichend informative σ-Algebra ruhrtvon einer ausreichend informativen Statistik her. (Die Identitat auf D tut’s.) Trotzdemkann es besser sein auf D′ zu wechseln, z.B. auf den Raum der Orbits.

iii) Ein guter Kandidat fur eine minimalinformative σ-Algebra ist die σ-Algebra erzeugtvon allen Radon-Nikodym Ableitungen dWθ

dλ, λ von der speziellen Gestalt.

Eine suffiziente Statistik T heißt vollstandig, falls fur jede integrierbare T -meßbareFunktion f mit Eθ(f) = 0 fur alle θ gilt f = 0 fast sicher fur alle Pθ.

5.0.6 Nachweis der Separation

Eine d-parametrige exponentielle Familie von W-Maßen ist eine Familie (Wθ)θ von W-Maßen dominiert bezuglich einem σ-endlichen Maß µ und mit Dichten der Form

dµ(x) = wθ(x) = C(θ)h(x)e<Q(θ),T (x)>.

Hierbei sind Q = (Q1, . . . , Qd), T = (T1, . . . , Td) Vektoren, C,Qj : Θ 7→ IR meßbareFunktionen, und h, Tj : D 7→ IR meßbare Funktionen. Wir benutzen < x, y >=

∑dj=1 xjyj

fur Vektoren x, y ∈ IRd.Diese Darstellung ist nicht eindeutig. Zum Beispiel fur Qj(θ) = Q′

j(θ) + cj ergibt sich

wθ(x) = C(θ)h′(x)e<Q′(θ),T (x)>

mit h′(x) = h(x)e<c,T (x)>.Das Maß hµ fassen wir als neues Referenzmaß auf. Weiterhin konnen wir zum ’naturli-

chen’ Parameter Q(θ) = θ′ = (θ′1, ..., θ′d) ∈ IRd (mit der geeigneten Normierungskonstanten

C) ubergehen.Bem: Einige Aussagen dieses Abschnitts ließe sich auch ohne Meßbarkeit von C,Q

zeigen.Sehr viele statistisch wichtige Verteilungen formen eine exponentielle Familie.

Normalverteilung ϕm,σ2(x) = ... =1√2πσ2

e−m2

2σ2 e−x2+2mx

2σ2

Binomialverteilung Bin(n, p)(x) = qn(

n

x

)

ex ln p

q

Poissonverteilung Poi(λ)(x) = e−λ 1

x!ex lnλ

35

Page 36: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Lemma 14 Sei (Wθ) eine exponentielle Familie. Wenn Q(Θ) eine offene Menge enthalt,so ist T eine separierende Statistik und vollstandig.

Beweis: Wir konnen ohne Einschrankung einen naturlichen Parameterraum annehmen unddie eine offene Menge enthalt −aj < θ < aj, 1 ≤ j ≤ d, fur ein aj > 0. Sei eine T -meßbareFunktion f : D 7→ IR gegeben. Nach dem Faktorisierungslemma gibt es g : IR1d → IR mitf = g T . Wir haben Eθ(g T ) = 0 und mussen g ≡ 0 zeigen. Es gilt

e<θ,t>g+(t)µ(T−1(dt)) =∫

e<θ,t>g−(t)µ(T−1(dt))

mit g = g+ − g−.Fasse P+(dt) := g+(t)µ(T−1(dt)) und P−(dt) := g−(t)µ(T−1(dt)) als neue, endliche

Maße auf IRd auf. Sind sie verschieden, so konnen wir nach Multiplikation mit einen c > 0annehmen, dies sind W-ma’se. Es gilt

e<θ,t>P+(dt) =∫

e<θ,t>P−(dt).

• Die Integrale sind auch wohldefiniert, wenn man komplexe Parameter θj = uj + ivjzulaßt, |uj| ≤ aj einsetzt.

Die Integrale sind bei festem θ1, . . . , θj−1, θj+1, . . . , θd analytische Funktionen in θj (sieheLehmenn Seite 52). Daher konnen wir fur θj komplexe Werte einsetzen, vorausgesetzt dieTerme sind wohldefiniert. Dies ist zumindest fur den gesamten Streifen |uj| ≤ aj, vj ∈ IRerfullt. Dies machen wir sukzessiv. Wir erhalten speziell fur u = 0 und v = (v1, . . . , vd) ∈ IRd

ei<v,t>P+(dt) =∫

ei<v,t>P−(dt).

Dies sind die Fouriertransformierten der W-Maße P+, P−. Wegen der Injektivitat derFouriertransformierten (Satz von Levy) gilt Gleichheit P+ = P−. Dies impliziert g+ = g−

µT -f.s. und damit g+ ≡ 0 ≡ g− = g.Wir uberschlagen den Beweis der Vollstandigkeit. q.e.d.Ordnungsstatistik: Sei X = (X1, . . . , Xn) ein Vektor von unabhangig identisch ver-

teilten Zgn. SeiT (x) = (x(1), . . . , x(n))

die naturliche Ordnung x(1) ≤ . . . ≤ x(n) der Koordinaten x1, . . . , xn. Die OrdnungsstatistikT ist informativ. Ist (Wθ)θ reichhaltig genug, so wird T auch separiert.

Eine Bedingung fur reichhaltig genug ware, alle W-Maße fur X1 mit Dichten der Form

C(θ)eθ1y+θ2y2+...θnyne−y2n

bzgl. dem Lebesguemaß auf IR sind in der Familie. (Der Faktor exp−y2n bewirkt einendliches Integral.)

Die Statistik T ist aquivalent zu der Statistik V

V (x) := (∑

i

xi,∑

i 6=j

xixj, . . . ,∏

i=1

xi)

36

Page 37: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

x = (x1, x2, . . . , xn), da es eine bijektive, bimeßbare Abbildung ϕ : T (D) → V (D) gibt mitϕ(V (x)) = T (x). Jedem T (x) ordnen wir eindeutig das Polynom Q(Y ) :=

∏ni=1(Y − x(i) =

i(Y −xi) in Y zu. Ausmultipliziert ergibt dies Q(Y ) = Y n+∑n−1

i=0 YiVn−i. Hieraus erhalten

wir eindeutig V (x).Die Statistik V ist aquivalent zu der Statistik U

U(x) := (∑

j

xj ,∑

j

x2j , . . . ,∑

j

xnj )

da es eine bijektive bimeßbare Abbildung ϕ : V (D) → U(D) gibt mit ϕ(V (x)) = U(x).(Ubung, erst 2.te Komponente, dann 3.te usw.)

Nach Lemma 14 ist U suffizient und wird separiert. Durch die Aquivalenz ubertragtsich das auf T. Dies ist wichtig fur verteilungsfreie Statistiken und Invarianz unter Trans-formationen.

37

Page 38: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

6 Bewertungen

Gegeben sei ein statistisches Entscheidungsproblem (D,D, (Wθ)θ∈Θ, (E,E), ψ).Dem Anhang entnehme stochastische Ordnung.

6.0.7 Risikofunktion

Statistiker sind von Hause aus Pessimisten. Sie wollen bevorzugt den Verlust bei einerfalschen Entscheidung niedrig halten. Eine Verlustfunktion ist eine Abbildung L : Θ ×E 7→ IR mit L(θ, .) : E 7→ IR meßbar fur jedes θ ∈ Θ. Ist θ der wahre Parameter, soerleiden wir bei Vorliegen der Date x bei Wahl der randomisierten Entscheidungsfunktiong : D × E → IR (W-kern) den mittleren Verlust

L(θ, g(x)) :=∫

L(θ, e)g(x, de).

Diese Notation ist vertraglich mit deterministischen Entscheidungsfunktionen g : D → E,indem wir g(x)(·) := δg(x) setzen.

Die Risikofunktion zu einer Klasse K von statistischen Entscheidungsfunktion und ge-gebener Verlustfunktion ist die Funktion R : Θ×K → IR, falls wohldefiniert,

R(θ, g) =∫

D

L(θ, e)g(x, de)Wθ(dx).

Dies ist der erwartete Verlust bei Vorliegen von θ und bei Wahl der Entscheidungsfunktiong.

Risikofunktionen ermoglichen uns den Vergleich zweier Entscheidungsfunktionen. EineEntscheidungsfunktion g1 ist besser als eine andere g2, falls das Risiko von g1 gleichmaßigkleiner ist

g1 g2 ⇔ R(·, g1) ≤ R(·, g2)Die kleinere Entscheidungsfunktion ist vorzuziehen.

Eine Entscheidungsfunktion mit gleichmaßig kleinster Risikofunktion ware sicherlichdie beste Entscheidungsfunktion. Jedoch dies ist in der Regel zuviel verlangt. Sei zumBeispiel E = Θ = IR und L(θ, e) = (e − θ)2. Fur festes θ hat die Entscheidungsfunktiong ≡ δθ das Risiko 0 in θ. Folglich mußte eine beste Entscheidungfunktion uberall das RisikoNull haben. Dies ist unmoglich, (von trivialen Fallen abgesehen). (Ubung)

Eine Schatzung mit gleichmaßig bester Risikofunktion muß, real gesehen, nicht ’gut’sein. Aber sie ist die beste Entscheidung, die ein (pessimistischer) Statistiker (in demgegebenen Modell) treffen kann. Beliebt ist zum Beispiel eine quadratische Verlustfunktionfur E = IR = Θ

L(θ, e) := (θ − e)2

(falls wohldefiniert). Die Risikofunktion fur erwartungstreue Entscheidungsfunktionen g(∀θ ∈ Θ

∫ ∫

eg(x, de)Wθ(dx) = θ) entspricht dann der Varianz. Ein Schatzer mit gleichmaßigkleinster Risikofunktion (in der Klasse der erwartungstreuen Schatzer) ist dann ein Schatzermit gleichmaßig kleinster Varianz (UMV = uniformly minimal variance).

38

Page 39: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Da Statistiker Pessimisten sind, sind, in Ermangelung eines Schatzers mit gleichmaßigkleinster Risikofunktion, Schatzer beliebt mit minimalem maximalem Risiko. Solche Schatzerheißen Minimax Schatzer. Formal wahle dasjenige g0 mit

infgsupθR(θ, g) = sup

θR(θ, g0)

6.0.8 Bayes-Entscheidungen

Sei Θ ein meßbarer Raum und π ein Wahrscheinlichkeitsmaß darauf. Ferner sei die Risiko-funktion R meßbar in Θ. Das Bayesrisiko einer Entscheidungsfuntion ist der Wert

R(π, g) :=∫

R(θ, g)π(dθ).

Beachte die Vertraglichkeit R(θ, .) = R(δθ, .).Dadurch erhalten wir eine Totalordnung auf dem Raum der Entscheidungsfunktionen,

deren Risikofunktion meßbar und integrierbar ist,

g h⇔ R(π, h) ≤ R(π, g).

Jetzt ist es moglich eine Theorie der besten Bayes Entscheidungen zu entwickeln. Ist diebetrachtete Klasse der randomisierten Entscheidungsfunktionen konvex, so auch die MengeR(π, g) | g. (Nachrechnen.) Dies ist ein Intervall. Ist die Klasse weiterhin kompakt undR stetig, so gibt es eine Entscheidungsfunktion mit kleinstem Bayeschem Risiko. Dies istder beste Schatzer im Bayeschen Sinne zu vorgegebener apriori Verteilung π.

Lassen wir jetzt π noch variieren, so ergeben sich dieselben Probleme mit Gleichmaßig-keit wie bei den Risikofunktionen.

6.0.9 Andere Bewertungen

Andere Bewertungen sind denkbar und werden kreativ genutzt. Wir hatten bereits dieBeispiele eines Minimax-Schatzers und des Bayes-Schatzers.

Hier eine kompliziertere Bewertung, Zockern aber durchaus gelaufig. Fur jedes θ denkenwir uns eine Totalordung (oder auch Halbordnung) auf dem Entscheidungsraum E gegeben.Wir sagen eine Entscheidungsfunktion g1 ist besser als g2, falls fur jedes Wθ, e ∈ E, gilt

Wθ(g−1(e′ ∈ E | e e′ ∈ E)) ≥ Wθ(h

−1(e′ ∈ E | e e′ ∈ E)).(Beachte die Analogie zur stochastischen Ordnung.)

6.0.10 Ununterscheidbar

Wie sieht es mit dem Begriff gleich gut aus. Zwei Entscheidungsfunktionen g und h heißenstatistisch ununterscheidbar oder gleich gut, falls ihre Risikofunktionen fur alle Verlust-funktionen ubereinstimmen. Dies ergibt, verwende Fubini, die Bedingung

g(x,A)Wθ(dx) =∫

h(x,A)Wθ(dx)

39

Page 40: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

fur alle A ∈ E . Damit sind sie gleich f.s. fur alle Wθ.Wie der Name andeutet, konnen wir statistisch ununterscheidbare Entscheidungsfunk-

tionen statistisch nicht unterscheiden. Machen wir fur eine bekannte Verteilung Wθ un-abhangige Experimente und beobachten nur die Entscheidungswerte unter g bzw. h daraus,so haben alle diese Zufallsgroßen dieselbe Verteilung.

Auch wenn man zwei Entscheidungsfunktionen statistisch nicht unterscheiden kann, sokann doch eine

”besser“ sein. Zum Beispiel kann eine Entscheidungsfunktion

”einfacher“

sein. Oder sie kommt mit weniger Information aus als die andere. Zum ersteren gibt esintuitive Ansatze, jeder Spieler verwendet Kompliziertheitsbegriffe, die sich bisher fur eineTheorie nicht genugend mathematisch prazisieren lassen. Zum zweiten werden wir denBegriff der Suffizienz entwickeln und damit der Reduktion.

40

Page 41: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

6.1 Konvexe Verlustfunktion

Unter konvexer Verlustfunktion gibt es Methoden, zu vorgegebener Entscheidungsfunktioneine Entscheidungsfunktion mit einem (echt) kleineren Risiko zu finden.

Sei ((D,D), (Wθ)θ, (E,E), ψ) ein statistisches Entscheidungsproblem. Sei E ein Raummit einer Addition oder einem Integralbegriff, zum Beispiel eine konvexe Teilmenge einesBanachraums. Wir benutzen hier durchgehend E als die reellen Zahlen.

Die Verlustfunktion L : Θ × E 7→ IR heißt konvex, falls die Funktion L(θ, .) : E 7→ IRkonvex ist fur alle θ ∈ Θ. Sie heißt strikt konvex, falls jedes L(θ, .) : E → IR strikt konvexist.

6.1.1 Erwartungstreue Schatzer

Eine Entscheidungsfunktion g heißt integrierbar, falls Eθ(∫ |e|g(., de)) < ∞ fur alle θ ∈ Θ

gilt. Der Bias einer integrierbaren Entscheidungsfunktion g : D×E 7→ IR fur die Zielfunk-tion ψ : Θ 7→ E ist die Abbildung B : Θ 7→ E

B(θ) = Eθ(∫

eg(., de))− ψ(θ)

Eine erwartungstreue Schatzung bzgl. ψ ist eine Entscheidungsfunktion mit einem Biasidentisch Null.

Satz 15 (Bahadur) Sei L eine konvexe Verlustfunktion. Dann gibt es zu jedem erwar-tungstreuen Schatzer g eine deterministische erwartungstreue Entscheidungsfunktion g mitmindestens gleichguter Risikofunktion wie g. Diese kann gegeben werden durch

g(.) =∫

eg(., de)

Bew: Der Bias von g, wie oben definiert, wird nachgerechnet. Der wesentliche Schritt furR(·, g) ≥ R(·, g) beruht auf der Jensen Ungleichung,

L(θ, e)g(x, de) ≥ L(θ,∫

eg(x, de)) = L(θ, g(x))

Integriere aus beiden Seiten. q.e.d.

Satz 16 (Lehmann-Scheffe) Sei L eine konvexe Verlustfunktion, D0 ⊂ D eine Unter-σ-Algebra und Fb die Menge aller integrierbaren Entscheidungsfunktionen mit Bias b. Danngilt:

i) Ist g ∈ Fb so gibt es eine deterministische Entscheidungsfunktion g ∈ Fb mit minde-stens gleichguter Risikofunktion wie g. Diese kann gegeben werden durch

g(.) =∫

eg(., de)

41

Page 42: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

ii) Ist D0 informativ, dann kann g als D0-meßbar gewahlt werden. Die Entscheidungs-funktion

g0(x,A) =∫

AeK(x, dy)g0(y, de) g0(x) =

K(x, dy)g(y)

(als Kernversion g0 = E(. | D0) f.s.) tut’s, ist in Fb und hat gleichgute Entscheidungsfunk-tion.

iii) Ist D0 informativ und die integrierbaren Entscheidungsfunktionen werden separiert,so gibt es hochstens eine D0-meßbare, integrierbare und deterministische Entscheidungs-funktion g1 ∈ Fb.

iv) Ist weiterhin g ∈ Fb nicht leer, so hat g0(·, g) = g1 ein gleichmaßig kleinstes Risikoin der Menge Fb.

Beweis: i) ist der Satz von Bahadur.ii) Nachrechnen.iii) Angenommen es gabe zwei D0-meßbare, deterministische Entscheidungsfunktionen

g1 und g2 in Fb. Da sie denselben Bias haben, folgt∫

g1dWθ =∫

g2dWθ fur alle θ ∈ Θ. DieSepariertheit liefert die Eindeutigkeit g1 = g2 f.s..

iv) Aus der Eindeutigkeit folgt g0(·, g) = g1 ∈ Fb und aus i),ii) R(·, g) ≥ R(·, g1)punktweise. q.e.d.

Bemerkungen: i) Wir uberlassen es dem Leser, Bedingungen fur strikt kleineres Risikozu formulieren.

ii) Zu vorgegebener Zielfunktion existiert nicht immer eine erwartungstreue Schatzung.iii) Die Schatzung mit gleichmaßig bester Risikofunktion in der Klasse der erwartungs-

treuen Schatzer muß keine gute Schatzung im allgemeinen sein. Insbesonders kann es (nichterwartungstreue) Schatzungen geben, die eine gleichmaßig bessere Risikofunktion haben.

iv) Die wahre Verteilung muß in Realitat nicht aus der betrachteten Klasse stammen.Deshalb muß ein Schatzer mit gleichmaßig kleinstem Risiko in Realitat nicht gut sein unterder wahren Verteilung. Vormals kleine, vernachlassigbare Abweichungen vom theoretischenModell konnen unter mathematisch korrekten Umformulierungen innerhalb des Modells zugroßeren Abweichungen fuhren. (Die Schatzung ist nicht robust.)

Definition 17 Ein UMV-Schatzer ist ein erwartungstreuer Schatzer fur ψ mit gleichmaßigkleinster Varianz (uniformly minimum Variance unbiased estimator.)

Beachte, dies macht nur Sinn fur E ⊂ Θ und der Verlustfunktion L(θ, e) = (θ − e)2.Normalverteilung: Sei X = (X1, .., Xn) mit Xi, 1 ≤ i ≤ n, uiv Zgn mit einer

N(m,σ2) Gaussverteilung, Θ = IR × (0,∞). Die Statistik T (X) = (∑

iXi,∑

iX2i ) ist

informativ und separierend. Die Statistik X = 1n

iXi ist eine UMV-Schatzung fur m.(Die Verlustfunktion ist L(θ, e) = (m− e)2, E = IR.)

Die Statistik σ21 := 1

n−1

i(Xi−X)2 ist ein erwartungstreuer Schatzer fur die Varianz σ2

und er ist UMV. (Die Normierung mit 1n−1

erklart sich aus dem Ziel, einen erwartungstreuen

Schatzer zu erhalten.) Der Maximum-Likelihood-Schatzer ist σ22 := 1

n

i(Xi − X)2. Seiσ23 := 1

n+1

i(Xi −X)2 ein weiterer Schatzer. Es gilt

R(·, σ21) > R(·, σ2

2) > R(·, σ23)

42

Page 43: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

punktweise fur quadratische Verlustfunktion.

6.1.2 Informationsungleichung

Wir entwickeln eine untere Schranke fur die Varianz erwartungstreuer Statistiken. DieAnnahme dieser Schranke ist dann gleichbedeutend mit einem UMV-Schatzer.

Gegeben sei ein statistisches Experiment (D,D, (Wθ)θ∈Θ). Die Familie (Wθ)θ wird do-miniert durch ein σ-endliches Maß µ. Die Dichten seien wθ =

dµ.

Der Parameterraum Θ und der Datenraum seien Raume mit schoner zusatzlicher Struk-tur, z.B. Differenzieren sei erlaubt. Hierbei denken wir der Einfachheit halber anD,E ⊂ IR.Wir benutzen Dθ fur die (eventuell partielle ∂

∂θ) Ableitung nach θ.

Weiter nehmen wir an:

(i) µ(U) sei strikt positiv fur jede nicht leere offene Menge U ⊂ D.

(ii) wθ(x) > 0 fur jedes x ∈ D, θ ∈ Θ

(iii) Die Abbildung w : Θ×D 7→ IR ist stetig.

(iv) Die Ableitungen Dθ(lnwθ(x)) existieren fur jedes x ∈ D und sind stetig und endlichin x.

(v) Fur alle integrierbaren Funktionen f : D 7→ IR vertauschen die Ableitung und dasIntegral

Dθ(∫

fwθ(x)µ(dx)) =∫

fDθ(wθ(x))µ(dx)

Wir sind nicht an moglichst schwachen Voraussetzungen interessiert. Die Bedingungiii) ist derzeit unschon und muß gegebenenfalls durch eine praktikablere Bedingung ersetztwerden, z.B. unter i) und ii) gilt dies falls die Integrale stetig in θ sind.

Beispiel: Sei (Wθ)θ eine einparametrige exponentielle Familie in naturlicher Parame-trisierung und T die Identitat. Dann gelten die obigen Bedingungen.

Die Fisher Information ist die Abbildung I : Θ → IR ∪ ∞I(θ) := Eθ((Dθ lnwθ)

2)

Eine andere Darstellungen (Nachrechnen mit Vertauschen) ist

I(θ) =∫

(Dθwθ)2 1

dµ = Varθ(Dθ lnwθ)

Beachte Eθ(Dθ lnwθ) =∫

Dθwθµ = Dθ

wθdµ = 0.

Satz 18 (Cramer-Rao Informationsungleichung) Es gelten die obigen Bedingungeni) bis v) und die Fisher Information sei endlich. Sei g : D → IR eine quadratintegrierbaredeterministische Statistik. Dann ist Eθ(g) differenzierbar in θ ∈ Θ und es gilt

Varθ(g) ≥(DθEθ(g)))

2

I(θ)

43

Page 44: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Beweis: Leichtes Umformen unter Beachtung von Eθ(Dθ(lnwθ)) = 0 ergibt

Dθ(Eθ(g)) = Eθ(gDθ(lnwθ)) = Eθ((g − Eθg)Dθ(lnwθ))

Die Cauchy-Schwarz Ungleichung hierauf angewandt liefert

Dθ(Eθ(g)) ≤√

Varθ(g)Varθ(Dθ(lnwθ)) (9)

q.e.d.Anwendung: Sei X = (X1, . . . , Xn) mit Xi, 1 ≤ i ≤ n, unabhangige Zgn mit ei-

ner N(m,σ2) Verteilung. Der Parameter m ∈ IR = Θ ist unbekannt, der Parameter σ2

bekannt. Dann ist X = 1n

∑ni=1Xi ein erwartungstreuer Schatzer von θ = m. Jeder er-

wartungstreue Schatzer g erfullt nach der Informationsungleichung Varθ(g) ≥ 1I(θ)

. Eine

Rechnung zeigt Varθ(X) = 1I(θ)

. Damit folgt die UMV-Eigenschaft des Schatzers X. Zum

Nachweis berechne Varθ(X) = σ2/n und

I(θ) = Eθ((Dθ(ln∏

i

ϕm,σ2(Xi)))2) = Eθ((

i

(Dθ(lnϕm,σ2(Xi))))2)

=∑

i

Eθ((Dθ(lnϕm,σ2(Xi)))2) + 0

= nEθ((Dθ(lnϕm,σ2(X1)))2) = nEθ

(X1 −m)2

σ4=

n

σ2

Lemma 19 a) Die Familie (Wθ)θ von W-Maßen auf IR erfulle die Eigenschaften i) bis v)und es existiere ein deterministischer Schatzer g, der die endliche Cramer-Rao Schrankeannimmt. Dann ist (Wθ)θ eine einparametrige exponentielle Familie.

b) Sei jetzt (Wθ)θ eine einparametrige exponentielle Familie mit stetiger Dichte w : Θ×D 7→ IR bzgl. einen Referenzmaß. Hat Q eine stetige, nirgends verschwindende Ableitung,dann nimmt T die Cramer-Rao Schranke an und ist ein UMV-Schatzer.

Beweis: b) Habe wθ(x) die Darstellung

wθ(x) = C(θ)h(x)eQ(θ)T (x)

Dann folgtDθ lnwθ(x) = Dθ lnC(θ) + (DθQ(θ))T (x)

Eθ(Dθ lnwθ) = Dθ lnC(θ) + (DθQ(θ))Eθ(T )

Damit ist(DθQ(θ))(T (x)− Eθ(T )) = Dθ lnwθ(x)

und T − Eθ(T ) ein Vielfaches von Dθ lnwθ(x). Die Cauchy-Schwarz Ungleichung (9) wirdzur Gleichung und ebenso die Informationsungleichung.

a) In der Cauchy-Schwarz Ungleichung (9) muß Gleichheit gelten. Damit ist die Funk-tion g −Eθ(g) ein Vielfaches von Dθ(lnwθ) fast sicher bzgl. jedem Wθ. Anders formuliert,

Dθ(lnwθ) = a(θ)(g − Eθ(g))

44

Page 45: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

mit a(θ) ∈ IR geeignet. Definiere T,Q,C durch T = g, Dθ(Q) = a und Dθ lnC(θ) =−a(θ)Eθ(g). (Hier setzen wir Wohldefiniertheit voraus.) Mit (erlaubter) unbestimmter In-tegration uber θ erhalten wir, bis auf eine Funktion in x, genannt lnh, lnwθ = Q(θ)T +lnC(θ) + lnh. Dies ist die Darstellung einer exponentiellen Familie. q.e.d.

Bem:Die obigen Satze sind nur fur deterministische Schatzer formuliert. Beachte hierzuden Satz von Lehmann-Scheffe.

Bem: Ist ψ die Identitat und g ein erwartungstreuer Schatzer, so gilt DθEθ(g) =Dθψ(θ) = 1.

45

Page 46: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

7 Asymptotische Statistik

Der Grundgedanke asymptotischer Statistik ist es fur große Stichproben ein gutes Verhal-ten der Schatzer, moglichst ein asymptotisch optimales, zu erhalten. Die moglichen Datensind eine abzahlbare Folgen d = (d1, d2, . . .) von Einzeldaten, di das Ergebnis der i-tenBeobachtung. Nach n Beobachtungen wird aufgrund der Date d|n = (d1, . . . , dn) eine Ent-scheidung gefallt. Frage: Wie gut ist diese Entscheidung in Abhangigkeit von n?

Mathematisches Modell: Sei (D,D, (Wθ)Θ) ein statistisches Experiment. Wir be-trachten die Folge(D,D, (Wθ)Θ) ein statistisches Experiment. von Statistiken via unabhangi-ger Wiederholung. Hierbei ist (Dn,Dn, (W n

θ )θ∈Θ) das n-te Produktmas bzgl. (D,D, (Wθ)θ∈Θ).Fur ein statistisches Entscheidungsexperiment (D,D, (Wθ)Θ, E,E, ψ) betrachten wir Folge(Dn,Dn, (W n

θ )Θ, E,E, ψ) von statistischen Entscheidungsexperimenten.Der Entscheidungsraum E sei stets ein metrischer Raum mit Metrik d und E die Borel

σ-Algebra E .Mit gn : Dn×E → [0, 1] bezeichnen wir die statistische Entscheidungsfunktionfur die n-te Statistik.

Es ist unzweckmaßig, fur jedes n einen anderen W-raum zugrundezulegen. Wir beob-achten fur die n-te Statistik die Folge X|n = (X1, X2, . . . , Xn) von uiv Zgn mit Werten inD. Interessant ist nur das Bild von X|n in Dn, nicht der zugrunde liegende W-raum. Esist einfacher, sowohl intuitiver als auch schreibtechnisch, die Zgn auf einem gemeinsamenW-raum leben zu lassen. Dies kann stets ohne Einschrankung der Allgemeinheit gemachtwerden, zum Beispiel auf dem meßbaren Raum (DIN ,DIN) versehen mit der Produkt σ-Algebra und Maßen (W∞

θ )θ∈Θ. Dann ist die i-te Projektion Xi die i-te Beobachtung. DieVerteilungen W n

θ ergeben sich durch die Projektion von W∞θ auf die ersten n Koordinaten

X|n.Wir benutzen ab jetzt einen abstrakten W-raum (Ω,A, (Pθ)θ∈Θ) und uiv Zgn X1, X2, . . .

darauf mit Werten in D. Beachte PX|n

θ = W nθ fur jedes n ∈ IN ∪ ∞. Unsere Schatzer fur

das n-te Experiment bezeichnen wir weiterhin mit gn : Dn ×E → [0, 1]. (Diese konnen wirkanonisch erweitern zu gn : DIN ×E → [0, 1].) Setzen wir die Zgn ein, so ist gn = gn(X|n, ·)ein W-maß auf dem Entscheidungsraum E.

7.0.3 Konsistenz

Der Einfachheit halber beschranken wir uns auf deterministische, meßbare Entscheidungs-funktionen gn : Dn 7→ E. (Der allgemeine Fall ist eine gute Ubung.)

Eine Folge (gn)n von Schatzern heißt konsistent bezuglich ψ : Θ 7→ E, falls die Zggn(X|n) stochastisch gegen ψ(θ) konvergiert unter allen Pθ, θ ∈ Θ. In Formeln

Pθ(|gn(X|n)− ψ(θ)| > ǫ) →n 0

fur alle ǫ > 0 und alle θ.Bem: Wir hatten auch Schaetzer gn : Ω → E nehmen konnen, die X|n meßbar sind.

Nach dem Faktorisierungslemma gibt es ein gn : Dn → E mit gn = gn(X|n).

46

Page 47: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Beispiel: Sei X = (X1, X2, . . .) mit Xi, i ∈ IN, unabhangig identisch N(m,σ2) verteilteZufallsgroßen. Der Parameterraum ist θ = (m,σ2) ∈ IR× (0,∞) = Θ. Der Entscheidungs-raum ist E = Θ und die Zielfunktion ψ sei die Identitat. Der Schatzer auf Ω

(mn, σ2n) := (

1

n

n∑

i=1

Xi,1

n− 1

n∑

i=1

(Xi − mn)2)

ist konsistent fur die Zielfunktion ψ. Dies beruht auf dem schwachen Gesetz der GroßenZahl

Pθ(|mn −m| > ǫ) →n 0

und, mit etwa Rechnerei,Pθ(|σ2

n − σ2| > ǫ) →n 0.

(Interpretiere die Aussage des starken GGZ.)

Bem: Im allgemeinen ist der Maximum-Likelihood Schatzer konsistent. Wir geben einheuristisches Argument fur unabhangig identisch verteilte Zgn mit Dichte. Die Loglike-lihoodfunktion ist

lnL((x1, . . . , xn), θ) :=n∑

i=1

lnwθ(xi)

Die Zg lnL(X|n, θ) =∑n

i=1 lnwθ(Xi) ist eine Summe von unabhangig identisch verteiltenZgn. Nach dem (schwachen) starken Gesetz der Großen Zahl gilt (stochastische) fast sichereKonvergenz

1

nlnL(X|n, θ) →n Eθ′(lnwθ(Xi)) =: a(θ′, θ)

unter Pθ′ .• a(θ′, θ) < a(θ′, θ′) genau fur θ′ 6= θ.Dies folgt aus der Entropieungleichung, die Funktion IR ∋ x 7→ ϕ(x) = x ln x, ist strikt

konvex, ∫

ϕ(wθ′

)wθdµ ≥ ϕ(∫ wθ′

wθdµ) = 0.

Gleichheit gilt genau im Falle θ = θ′.Wir erhalten durch einfaches Umformen das Resultat aus

a(θ′, θ)− a(θ′, θ′) = −∫

ϕ(wθ′

)wθdµ ≤ 0

q.e.d.

7.1 Asymptotische Normalitat

Sei der Entscheidungsraum E die reellen Zahlen. Eine Folge gn von Schatzern heißt asym-ptotisch normalverteilt zu an, bn : Θ 7→ IR falls gn−an(θ)

bn(θ)schwach gegen eine Standardnor-

malverteilung konvergiert unter jeder Verteilung Wθ, θ ∈ Θ. Aquivalent ist die Aussage

Wθ(x ∈ DIN | gn(x)− an(θ)

bn(θ)≤ y) =

∫ y

−∞

1√2π

exp(−s2/2)ds

47

Page 48: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

fur alle y ∈ IR, θ ∈ Θ.Die Funktionen (an, bn) sind nicht eindeutig bestimmt. In der Regel sind an(θ) der

Erwartungswert von gn unter Wθ und b2n(θ) die Varianz von gn.Gaussverteilung: Wir betrachten wieder unabhangige Gaussverteilungen fur festes

σ2 und den Schatzer mn = 1n

∑ni=1Xi fur den Erwartungswert m. Nach dem Zentralen

Grenzwert ist dieser asymptotisch standardgaussverteilt zu den Normierungsfolgen an = mund b2n = σ2

n.

7.1.1 Asymptotische Effizienz

Ein Schatzer ist besser als ein anderer bezuglich der Zielfunktion ψ, falls die Schatzungendes einen dichter am Ziel ψ(θ) liegt als die des anderen unter Wθ.

Seien (gn)n, (gn)n zwei Folgen von konsistenten Schatzern fur eine Zielfunktion ψ. Beideseien asymptotisch Gaussverteilt, die erste bzgl. (an, bn) und die zweite bzgl. (an, bn). Dierelative Effizienz einer Folge g = (gn)n von Schatzern bezuglich einer anderen Folge vonSchatzern g = (gn)n wie oben ist der Ausdruck

e(θ, g, g) := limn

bnbn

falls wohldefiniert. Ist der Wert echt großer als 1 ist der Schatzer g vorzuziehen, ist derWert echt kleiner als 1 ist der Schatzer g vorzuziehen. Im Fall relativer Effizienz Null gibtes noch weitere (bedeutende?) Kriterien des Vorzugs.

Wir sprechen von asymptotischer Effizienz, falls die relative asymptotische Effizienzstets großer gleich 1 gilt. Im Beispiel der Gaussverteilungen haben wir einen UMV Schatzer.UMV Schatzer sind stets asymptotisch effizient, vorausgesetzt asymptotische Normalitatgilt.

Ublicherweise ist die Maximum-Likehood Schatzung asymptotisch effizient. Hier ist einheuristisches Argument fur unabhangig identisch verteilte Zgn. Die Likelihoodfunktion ist

L((x1, . . . , xn), θ) =n∏

i=1

lnwθ(xi)

Um diese zu maximieren betrachten wir die Loglikelihoodfunktion und versuchen eineNullstelle der Ableitung zu finden. Sei

f(x, θ) = Dθ lnwθ(x).

Der Maximum-Likelihood Schatzer θn = θ(x1, . . . , xn) erfullt

n∑

i=1

f(xi, θn) = 0.

Eine Taylorentwicklung um θ ergibt

0 =n∑

i=1

f(xi, θn) =n∑

i=1

f(xi, θ) +n∑

i=1

Dθf(xi, θ∗n)(θn − θ)

48

Page 49: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

mit θ∗n einem geeigneten Wert zwischen θn und θ. Hieraus folgt

θn(X|n)− θ =

∑ni=1 f(Xi, θ)

(a1 +Rn)n

mit a1 :=∫

Eθ(Dθf(X1, θ)) und

Rn :=

∑ni=1(Dθf(Xi, θ

∗n)− a1)

n.

Durch partielle Integration erhalten wir

a1 = Eθ(DθDθwθ(X1)

wθ(X1))

= EθDθDθwθ(X1)

wθ(X1))− Eθ(

(Dθwθ(X1))2

wθ(X1))

=∫

DθDθwθ(x)µ(dx)− I(θ) = 0− I(θ) 6= 0

mit I(θ) die Fisher Information zur Verteilung vonX1.Als nachstes zeigen wirRn(X1, . . . , Xn)konvergiert gegen 0. Nach dem Gesetz der großen Zahl konvergiert

1

n

n∑

i=1

(Dθf(Xi, θ)− a1) → 0

fast sicher gegen 0 Nach dem Starken GGZ. Unter Konsistenzannahmen θn stochastischgegen θ, die beim ML-Schatzer vorliegen, konvergiert

1

n

n∑

i=1

(Dθf(Xi, θ∗n)−Dθf(Xi, θ)) → 0

stochastisch gegen 0. Damit gilt asymptotisch

θn(X|n)− θ ∼∑n

i=1 f(Xi, θ)

na1

Dies ist eine Summe von unabhangigen identisch verteilten Zgn. Der Erwartungswert (Ver-tauschbarkeit des Erwartungswertes und der Differentiation vorausgesetzt,) Eθ(f(Xi, θ)) =DθEθ(wθ(Xi)) = 0 ist 0 und die Varianz ist Eθ(f

2(X1, θ)) = I(θ). Mit dem ZentralenGrenzwertsatz ergibt sich

√n(θn(X|n)− θ)

I(θ)

Pθ→n Gau(0, 1)

Der Schatzer√n(θn(X|n)− θ) nimmt asymptotisch die Rao-Cramer Schranke an.

Gaussverteilung: Im Beispiel der Gaussverteilungen mit dem Schatzer mn = 1n

∑ni=1Xi

haben wir einen UMV Schatzer. UMV Schatzer sind stets asymptotisch effizient, voraus-gesetzt asymptotische Normalitat gilt. Dieser Schatzer ist auch der Maximum-LikelihoodSchatzer.

49

Page 50: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

8 Sequentialquotiententest

Sei (D,D, (Wθ)θ∈Θ) ein statistisches Experiment. Bei Bedarf durfen wir unabhangig dasExperiment beliebig haufig wiederholen. Jede Beobachtung kostet Geld. Wunschenswertsind Tests oder Schatzer, die zuverlassig sind und doch wenige Beobachtungen benotigen.Dies erfullen z.B. Sequentialquotiententests.

Heuristik: Wir testen durch maximal n unabhangige Versuche die Gleichverteilungauf [0, 1] gegen die Gleichverteilung auf [0, 2]. Sofern ein Versuchsergebnis echt großer als 1ist, liegt sicher die Alternative vor. Wir benotigen keine weiteren Versuche bzw. konnen vorn Versuchen abbrechen. Dies Beispiel ist extrem, da wir bei einem Versuchsergebnis echtgroßer als 1 genau wissen, daß die Alternative vorliegt. Dies ruhrt von den verschiedenenTragern der Verteilungen her. Es wurde fur den Abbruch eventuell schon reichen, mit sehrhoher Wahrsch. das Vorliegen der Hypothese bzw. das der Alternative zu vermuten.

Mathematisches Modell fur den Wahrscheinkeitstheoretiker.Der Wahrscheinlichkeitstheoretiker legt einen hinreichend großen W-raum (Ω,A,P)

zugrunde und beschreibt die Date als Ergebnis einer Zg. Der W-raum wird von dem Stati-stiker (zusatzlich) vorgegeben, jedoch nicht besonders spezifiziert. Er muss nur existierenund reichhaltig genug sein. Beliebt sind Konstruktionen als Produktraume wie DIN mit Xi

die i-te Projektion.Seien Xn : Ω → D, n ∈ IN Zgn, Xn steht fur das Ergebnis des n-ten Teilexperiments,

adaptiert zur Filtration An, n ∈ IN (An sind aufsteigend und Xn ist An meßbar). SeiXn+1 stets unabhangig von der An. Aus schreibtechnischen Grunden sei A0 die trivialeσ-Algebra. Sei τ : Ω → IN0 eine Stoppzeit bzgl. der Filtration (=aufsteigenden Folge vonσ-Algebren) An, n ∈ IN0. Diese wird vom Statistiker vor dem Experiment vorgegeben. Eswird dann die Date X|τ = (X1, . . . , Xτ ) : Ω → D∗ = ∪n∈IN0D

n experimentell erhoben, diewir aus dem Gesamtexperiment erhalten.

Sei E der Entscheidungsraum. Eine sequentielle Entscheidungsfunktion besteht aus ei-ner Folge von An-meßbaren W-kernen gn : Ω × E → [0, 1] und einer Stoppzeit τ bzgl.der Filtration (An)n. Die Entscheidung wird gefallt via dem Schatzer (=W-kern) gτ =∑

n∈IN011τ=ngn.Das Tupel (gτ , τ) heißt Sequentialschatzer. Das Risiko eines Sequentialschatzers

istR(θ, (gτ , τ)) =

(L(θ, gτ ) + cτ)dPθ

fur eine klassische Verlustfunktion L die Entscheidung betreffend und c fur die Kosteneiner einzelnen Beobachtung.

Die Filtration (An)n kann großer sein als die naturliche Filtration Fn = σ(X|n) aufge-spannt von den X-Zgn. Ist eine Zg Y Fn meßbar, so existiert nach dem Faktorisierungs-lemma ein Y ∗ mit Y = Y ∗ X|n. Dasselbe gilt fur W-kerne. Eine Stoppzeit bzgl. An heißtnicht randomisiert, falls τ adaptiert zur naturlichen Filtration ist.Der Statistiker benotigtz.B. randomisierte Tests, siehe Neyman-Pearson-Test. Das Faktorisierungslemma liefertfur nicht randomisierte Stoppzeiten die Existenz einer Stoppzeit τ ∗ : DIN → IN0 bzgl. denProjektionen Xi mit τ = τ ∗(X). Zu einem (Fn) adaptierten Sequentialschatzer (gτ , τ) gibtes entsprechend ((g∗n)n, τ

∗) mit gτ = g∗τ∗(X)(X|τ∗(X)).

50

Page 51: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

SequentialquotiententestWir arbeiten auf einem abstrakten W-raum (Ω,A, Pθ), θ ∈Θ mit Xn : Ω → D = IR, n ∈ IN eine Folge von uiv Zgn. Sei der EntscheidungsraumE = Θ = 0, 1 zweielementig mit H = 0 genannt die Hypothese bzw. K = 1 dieAlternative. Jeder Entscheidungskern g : Ω × E → [0, 1] ist eindeutig bestimmt durch dieFunktion ϕ = g(·, 1) : Ω → [0, 1]. Dasselbe gilt fur Sequentialschatzer ((gn)n, τ) in demSinne ϕτ = gτ (·, 1. Wir benutzen die Notation (ϕ, τ).

Im folgenden benutzen wir PH , PK , wK =dP

X1K

dµ, wH =

dPX1H

dµ, µ = PX1

H + PX1K usw. fur

die Verteilungen auf Ω bzw. die Dichte auf D bzgl. dem Referenzmaß µ. Das Referenzmaßhat keine diskreten Massepunkte (∀x ∈ D : µ(x) = 0).

Ein Sequentialquotiententest (SQT) ist ein Sequentialtest (ϕ, τ) der folgenden Gestalt:Seien Un, n ∈ IN weitere unabhangige Zgn, auch unabhangig von den X Zgn, mit einergleichformigen Verteilung auf [0, 1]. Es gibt zwei Zahlen AH < AK und Zahlen γH , γK ∈[0, 1] mit

τ = infn ∈ IN | qn < AH oder qn >≥ AK oder qn = AH , γH < Un oder qn =≥ AK , γK < Un

qn : Ω 7→ IR qn =wK(X1) . . . wK(Xn)

wH(X1)...wH(Xn)

ϕ =

1 falls qτ ≥ AK

0 qτ ≤ AH

Die Zg τ ist eine Stoppzeit bzgl. einer Filtration An = σ(Fn, U1, . . . , Un), die echt großerist als die kanonische Fn = σ(X1, . . . , Xn) Filtration. Beachte ϕ11τ=n ist An meßbar.

Sind γH , γK ∈ 0, 1 bzw. die Menge ∪nqn ∈ AH , AK eine Nullmenge bzgl. PH , PK ,so ist der obige SQT meßbar bzgl. der naturlichen Filtration (im Sinne von ϕ11τ=n istFn-mesbar). Da µ keine Massepunkte hat, ist supnqn ∈ AH , AK eine Nullmenge bzgl.jedem Pθ.

Das Faktorisierungslemma liefert dann Abbildungen τ : DIN → IN0, ϕ : DIN → E mitτ = τ(X), ϕ = ϕ(X). Da τ zu (Fn)n adaptiert ist, gibt es eine Partition τ−1(n), n ∈ IN0

von DIN mit τ−1(n) hangt nur von den ersten n-Koordinaten ab, formaler τ−1(n) =Φ−1

n Φn(An) mit Φn die Projektion auf die ersten n−Koordinaten und meßbarem An ⊂ Dn.Wir erhalten τ(x) =

n n11x|n∈An= infn ∈ IN0 | x|n ∈ An und ϕ(x) =

n 11x|n∈Anϕ(Φ−1

n (x|n)).

Proposition 20 (ϕ, τ) wie oben definiert ist ein SQT mit endlicher Risikofunktion undEτ <∞.

Bew: Es reicht zu zeigen Eτ <∞ unter der Hypothese und der Alternative.Die Summe ln qn =

∑ni=1 ln

wK(Xi)wH(Xi)

ist eine Summe von iid Zgn. Mit der konvexen Funk-

tion IR+ ∋ z → ϕ(z) = z ln z folgern wir

EK(lnwK(Xi)

wH(Xi)) =

wK(z) lnwK(z)

wH(z)µ(dz)

=∫ wK(z)

wH(z)lnpK(z)

pH(z)pH(z)µ(dz)

51

Page 52: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

≥ ϕ(∫ wK(z)

wH(z)wH(z)µ(dz) = ϕ(1) = 0

Es gilt strikt > da wK kein Vielfaches von wH ist. Analog schließe EH(lnwK(Xi)wH(Xi)

) < 0. Mit

Hilfe des Anhangs folgt jetzt E(τ) <∞. q.e.d.

Satz 21 In der Klasse aller Sequentialtests zu vorgegebenem Fehler αH > 0 erster Art undFehler αK > 0 zweiter Art gibt es einen fast sicher eindeutigen Sequentialquotiententest(ϕ∗, τ ∗) mit gleichmaßig kleinster durchschnittlicher Beobachtungszeit. In Formeln,

EH(τ∗) ≤ EH(τ) EK(τ

∗) ≤ EK(τ)

fur alle ST (ϕ, τ) aus der gegebenen Klasse.

Vorbetrachtung: Wir betrachten zuerst Bayes-Risiken bzgl. einem W-maß π auf Θ undminimieren das bzgl. allen ST (ϕ, π). Wir betrachten eine Verlustfunktion L mit L(H, 0) =0 = L(K, 1), LH := L(H, 1) > 0, LK := L(K, 0) > 0 und die Kosten fur eine Beobachtungsei c > 0. Das Risiko eines Sequentialtests (ϕ, τ) schließt per Definition die Beobachtungs-kosten mit ein,

R(H, (ϕ, τ)) = LHEH(ϕ) + cEH(τ)

R(K, (ϕ, τ)) = LKEH(1− ϕ) + cEK(τ)

Das Bayesrisiko zu einer Verteilung π auf Θ ist

R(π, (ϕ, τ)) = EπR(θ, (ϕ, τ)) = π(H)R(H, (ϕ, τ)) + π(K)R(K, (ϕ, τ)).

Sei ρ(π) das minimale Bayesrisiko, wenn mindestens eine Beobachtung gemacht wird,

ρ(π) = infR(π, (ϕ, τ)) | τ ≥ 1

τ ≥ 1. Wir betrachten ρ als eine Funktion von π(H).

Hilfssatz 22 Die Funktion ρ : [0, 1] → IR ist konkav und stetig.

Beweis: Fur die Konkavitat sei t ∈ [0, 1] und seien π, π′ W-Maße. Dann gilt

ρ(tπ(H) + (1− t)π′(H)) = inf· R(tπ + (1− t)π′, .)

= inf· (tR(π, .) + (1− t)R(π′, .)) ≥ t inf· R(π, .) + (1− t) inf R(π′, .)

= tρ(π(H)) + (1− t)ρ(π′(H))

Die Stetigkeit von ρ auf (0, 1) ergibt sich aus der Konkavitat. Fur die Stetigkeit in 0berechne ρ(0) = inf R(K, .) = infϕ,τ≥1(LKEK(ϕ)+ cEK(τ)) = c. Die Konkavitat impliziertρ(0) ≤ limxց0 ρ(x). Andererseits gilt fur den Test (1, 1) ρ(x) ≤ xLH + c→x→0 c und damitc = ρ(0) ≤ limxց0 ρ(x) ≤ c.

Analog zeige die Stetigkeit bei 1 und ρ(1) = c. q.e.d.

52

Page 53: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Satz 23 Zu jedem Verlust LH , LK , c > 0 und Bayes Vorbewertung π wird das kleinsteBayesrisiko in der Menge der Sequentialtests angenommen durch einen SQT mit AH =1−x∗

x∗ und AK = 1−x∗

x∗. x∗ = x∗(LH , LK , c) und x∗ = x∗(LH , LK , c) werden im Beweis

spezifiziert.

Beweis: Sollen wir uberhaupt eine Beobachtung machen? Die Alternativen fur (ϕ, τ) sindi) (0, 0), d.h. keine Beobachtung und Entscheidung 0ii) (1, 0), d.h. keine Beobachtung und Entscheidung 1 undiii) mindestens eine Beobachtung macheniv) randomisiert eine Beobachtung machen und randomisiert eine Entscheidung treffen.Wir mussen die folgenden Risiken vergleichen

i) R(π, (0, 0)) = (1− π(H))LK

ii) R(π, (1, 0)) = π(H)LH

iii) ρ(π(H))

Den Fall iv) listen wir nicht auf, da die Risikofunktion eine Kombination der Falle i) bisiii) ist.

LK

c

LH

❭❭

❭❭

❭❭

❭❭

❭❭

❭❭

❭❭❭

ρ

x∗ x∗ π(H)

LK

c

LH

❭❭

❭❭

❭❭

❭❭

❭❭

❭❭

❭❭❭

ρ

s π(H)Bild I Bild II

Der Schnittpunkt s der Geraden (1 − x)LK und xLH in x ist LK

LK+LH. Im Falle ρ(s) <

sLH , siehe Bild II, braucht nie eine Beobachtung gemacht zu werden. Im anderen Falle,Bild I, erhalten wir folgendes Entscheidungskriterium. Sei x∗ der Schnittpunkt von x 7→(1 − x)LK mit x 7→ ρ(x) und sei x∗ der Schnittpunkt von x 7→ xLH mit x 7→ ρ(x). DieEntscheidungsregel lautet:

Mache mindestens eine Beobachtung genau dann wenn x∗ < π(H) < x∗. Nehme denST (1, 0) im Falle π(H) > x∗ und (0, 0) im Falle π(H) < x∗. Im Fall x∗ = π(H) oderπ(H) = x∗ randomisiere eventuell.

Hieraus folgt leicht folgende Behauptung:• Zu jedem sequentiellen Test gibt es einen ST (ϕ, τ) mit hochstens besserem π-Bayesrisikound τ = 0 wird bestimmt durch die obige Regel.

Weitere Beobachtungen: Seien bereits n Beobachtungen mit Ergebnis x = (x1, . . . , xn)gemacht. Soll eine weitere gemacht werden? Die Beantwortung fuhrt nach einer Redukti-on auf eine analoge Fragestellung einer weiteren Beobachtung. Zuerst die mathematische

53

Page 54: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Formulierung der Frage: Sei µn das n-fache Produktmass von µ, x ∈ Dn und y ∈ DIN .Definiere

wnθ (x) =

PX|n

θ (dx)

µn(dx)

πx(H) :=π(H)wn

H(x)

π(H)wnH(x) + π(K)wn

K(x)

τ ∗(y) := infn ∈ IN0 | πy|n(H) 6∈ (x∗, x∗)

ϕ∗(y) := 11πy|τ∗(H)≥x∗

Sei τ ∗ = τ ∗(X), ϕ∗ = ϕ∗(X).• Zu jedem ST und jedem n ∈ IN gibt es einen in ST (ϕ, τ) mit mindestens gleich guter

Risikofunktion, der τ ∗ = m = τ = m und ϕ∗m = ϕm fur jedes m < n erfullt.

Wir zeigen dies durch Induktion.

R(π, (ϕ, τ)) = EπEθ((L(θ, ϕτ ) + cτ)(11τ<n + 11τ≥n)) = I + II

I = EπEθ((L(θ, ϕ∗τ∗) + cτ ∗)11τ∗<n)

τx(ω) := τ(ω)11X|n(ω)=x

ϕx(ω) := ϕ(ω)11X|n(ω)=x)

Ln := (L(θ, ϕx) + cτx)11τ≥n

II = EπEPθ(EPθ

((L(θ, ϕτ ) + cτ)11τ≥n | X|n))

=∫

Θ

Ω

DnLnPθ(dω)P

X|n

θ (dx)π(dθ)

=∫

Dn

Θ

ΩLnPθ(dω)πx(dθ)µn(dx)

Fur x ∈ Dn ist τx ≥ n und wir mussen entscheiden, eine weitere Beobachtung zu machenoder nicht. Die Argumentation fur eine sofortige Entscheidung bzw. eine weitere Beobach-tung ist analog wie bei der ersten, wobei π ersetzt wird durch πx. Mache eine weitere Beob-achtung genau dann wenn x∗ < πx(H) < x∗. Anderenfalls nehme den ST (ϕx, τx) = (1, n)im Falle πx(H) ≤ x∗ und (ϕx, τx) = (0, n) im Falle πx(H) ≥ x∗. Ansonsten mache eineweitere Beobachtung.

• (ϕ∗, τ ∗) ist ein SQT zu AH = π(H)1−π(H)

1−x∗

x∗ und AK = π(H)1−π(H)

1−x∗

x∗.

Fur x ∈ Dn, τ ∗(x) = n (in Kurzform) war πx(H) =π(H)wn

H(x)

π(H)wnH(x)+π(K)wn

K(x). Die Bedingung

πx(H) ≥ x∗ ist aquivalent zu

wnK(x)

wnH(x)

≤ π(H)

1− π(H)

1− x∗

x∗:= AH .

Analog ergibt sich fur den Verwerfungsbereich

wnK

wnH

(x) ≤ π(H)

1− π(H)

1− x∗x∗

:= AK .

54

Page 55: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Ansonsten fahre fort mit einer weiteren Beobachtung und der Stoppzeit τx ≥ n+ 1.• R(π, (ϕ∗, τ ∗) <∞ ist minimal.Zu jedem ST (ϕ, τ) und jedem n gibt es ein ST (ϕ(n), τ(n)) mit nicht schlechterem

Risiko und (ϕm(n) = ϕ∗m, τ(n) = m = τ ∗ = m fur alle m < n Pπ f.s. Damit

τ∗≤n(L(θ, ϕ∗) + cτ ∗)Pθ(dω)π(dθ) =

τ∗≤n(L(θ, ϕ(n)) + cτ(n))Pθ(dω)π(dθ)

≤ R(π, (ϕ(n), τ(n))) ≤ R(π, (ϕ, τ))

Die linke Seite konvergiert aufsteigend in n→ ∞ gegen das endliche π-BayesrisikoR(π, (ϕ∗, τ ∗)) <∞. q.e.d.

Wahl der AH , AK Die Werte x∗ und x∗ sind Funktionen von LH , LK , c.

Hilfssatz 24 Zu vorgegebenem 0 < AH ≤ 1 < AK < ∞ und LH , LK > 0 lassen sichc > 0, π finden mit

AH =π(H)

1− π(H)

1− x∗

x∗

AK =π(H)

1− π(H)

1− x∗x∗

Durch Wahl der LH , LK laßt sich π(H) dicht bei 0 oder dicht bei 1 wahlen.

Beweis: Sei (0,∞) ∋ c 7→ f(c) := x∗

1−x∗1−x∗

x∗.

• ∃c0 = c0(AH , AK , LH , LK) > 0 mit f(c0) =AK

AH> 1.

Die Funktionen c 7→ x∗(LH , LK , c) und c 7→ x∗(LH , LK , c) sind stetig. Damit ist auchdie Funktion c 7→ x∗

1−x∗1−x∗

x∗stetig. Der Bildbereich von f umfaßt [1,∞) da limc→0 f(c) = ∞

und f(c) = 1 fur x∗ = x∗.Definiere π = π(LH , LK , c0) durch

π(H) :=AHx

AHx∗ + 1− x∗

• Fur dieses c0 gilt AH = π(H)1−π(H)

1−x∗

x∗ und AK = π(H)1−π(H)

1−x∗

x∗.

Nachrechnen.• Bei festem AH , AK kann durch Wahl der LH , LK > 0 die W-keit π(H) dicht bei 0

gewahlt werden.Wahle LH , LK so, daß der Schnittpunkt LK

LH+LKdicht bei 0 liegt. Damit liegt x∗(LH , LK , c0)

dicht bei 0. Aus f(c0) =AK

AHerhalten wir x∗(c0, LH , LK) dicht bei 1 und π(H) dicht bei 0.

• π(H) dicht bei 1 wahlbar.Analog. q.e.d

Das nachste Lemma ist rein technischer Natur und wir verweisen auf Wijsman, Ann.Math. Stat. 29, 938-939.

55

Page 56: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Lemma 25 Zu jedem 0 < αH , αK mit αH + αK < 1 gibt es einen SQT mit Fehler ersterArt EHϕ = αH und Fehler zweiter Art EK(1− ϕ) = αK .

Beweis von Satz 21 Das obige Lemma liefert einen SQT (ϕ∗, τ ∗) zu vorgegebenFehlern αH , αK erster und zweiter Art. Die Grenzen 0 < AH < 1 < AK < ∞ sindhierdurch bestimmt. Zu AH , AK und gewahltem LH > 0, LK > 0 sei c, π wie im Hilfssatz24. Der SQT (ϕ∗, τ ∗) hat das kleinste Bayesrisiko in der Klasse aller Sequentialtests zuLH , LK , c. Diese Aussage R(π, (ϕ∗, τ ∗)) ≤ R(π, (ϕ, τ)) ist aquivalent zu

π(H)(LHαH+cEHτ∗)+π(K)(LKαK+cEKτ

∗) ≤ π(H)(LHEHϕ+cEHτ)+π(K)(LKEK(1−ϕ)+cEKτ)

Aus den Bedingungen an den Fehler erster und zweiter Art erhalten wir

π(H)EH(τ∗) + π(K)EK(τ

∗) ≤ π(H)EH(τ) + π(K)EK(τ)

Durch Wahl von LH , LK konnen wir π(H), welches nach Lemma 24 eine Funktion vonAH , AK , LH , LK ist, beliebig dicht bei 0 oder 1 wahlen. Dies ergibt die Behauptung.

Eindeutigkeit: Nur in den Fallen der Gleichheit πx|n) = x∗ oder = x∗ haben wir

die freie Wahl zwischen keine Beobachtung zu machen oder aber mindesten eine. Diesentspricht qτ ∈ AH , AK, welches eine Nullmenge ist. Daher ist der so konstruierte SQTfast sicher eindeutig. q.e.d.

Bemerkung: Der generelle mathematische Kontext ist eine Ruckwartsinduktion (re-kursiv). Diese wird gefuhrt erst fur endlichen Horizont und dann auf unendlichen Horizonterweitert. Hierbei sind einige Konvergenzen (leicht) zu verifizieren. Die gegebene Argumen-tation (induktiv) erscheint mir intuitiver.

Berechnung AH , AK . Wie lassen sich AH , AK zu vorgegebenen Fehlerwahrscheinlich-keiten approximativ zu den vorgegeben Fehlern αH , αK berechnen? Sei (ϕ, τ) der SQT zuAH , AK . Wir verwenden τ = τ(X) und analog ϕ = ϕ(X), qn = qn(X) nach dem Faktori-sierungslemma.

αH = EHϕ =∞∑

n=0

EH(11τ=nϕτ )

≤∞∑

n=0

EH(11τ=n11qn ≥ AKqn(X)

AK

)

=∑

n

1

AK

EH(11τ(X|n)=n11qn(X|n)≥AKqn(X|n))

=∑

n

1

AK

11τ(x)=n11qn(x)≥AKqn(x)w

nH(x)µ

n(dx)

=∑

n

1

AK

11τ(x)=n11qn(x)≥AKwn

K(x)µn(dx)

=∑

n

1

AK

EK(11τ(X|n)=n11qn(X|n)≥AK)

=∑

n

1

AK

EK(11τ=nϕτ ) =1

AK

EK(ϕ) =1− αK

AK

56

Page 57: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Analog berechne

αK = EK(1− ϕ) =∞∑

n=0

EK(11τ=n(1− ϕτ ))

≤∞∑

n=0

EK(11τ=n11qn ≤ AHAH

qn)

=∑

n

AHEK(11τ(X|n)=n11qn(X|n)≤AH

1

qn(X|n))

=∑

n

AH

11τ(x)=n11qn(x)≤AHqn(x)w

nK(x)µ

n(dx)

=∑

n

AH

11τ(x)=n11qn(x)≤AHwn

H(x)µn(dx)

=∑

n

AHEH(11τ(X|n)=n11qn(X|n)≤AH)

=∑

n

AHEH(11τ=n(1− ϕn)) = AHEH(1− ϕ) = AH(1− αH)

Die Werte

A′H :=

1− αK

αH

≤ AH A′K :=

αK

1− αK

≥ AK

sind recht gute Approximationen und werden als Stoppgrenzen genommen. Die erhalteneStoppzeit τ ′ zu A′

K , A′K ist punktweise großer als τ.

Bemerkung: Sei Θ totalgeordnet und W habe einen isotonen Dichtequotienten. Dannist der SQT fur H = θ0 gegen K = θ1 mit θ0 < θ1 zu vorgegebenem Fehler αH , αK

erster und zweiter Art der scharfste ST Test von H0 = θ ≤ θ0 gegen K1 = θ ≥ θ1zu dem Niveau αH0 und durch αK-beschranktem Fehler zweiter Art, αK1 ≤ Eθ(1− ϕ) furθ ∈ K1. Dies ist ganz analog zum NP-Test.

57

Page 58: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

9 Lineare Modelle

Heuristik: Wir haben Daten xt gemessen an n Meßpunkten t ∈ T. Wir vermuten einenaffin-linearen Zusammenhang zwischen dem wahren Wert yt unserer Meßgroße, dem unbe-kannten Parameter θ = (θ1, θ2) und dem Meßpunkt t durch

yt = θ1 + θ2t

Unsere Messung ist mit einem Fehler ǫt behaftet, unsere gemessene Date stammt von

Xt = θ1 + θ2t+ ǫt

Wenn wir keinen systematischen Fehler in der Messung haben, erscheint Eǫt = 0 plausibel.Da der Fehler durch die Messung bedingt ist, erscheinen auch Annahmen wie alle ǫt habendieselbe Verteilung mit endlicher, kleiner Varianz plausibel.

Der quadratische Gesamtfehler

t∈T(Xt − θ1 − θ2t)

2 =∑

i

ǫ2ti

dividert durch n sollte nach dem GGZ gegen die Varianz des Meßfehlers konvergieren.Methode der kleinsten Quadrate: Der Kleinste-Quadrate-Schatzer (KGS) θ =

(θ1, θ2) minimiert den quadratischen Gesamtfehler 1 Seien ti, 1 ≤ i ≤ n die Meßpunkteund xi der gemessene Wert zu ti. Um f(θ) =

i(xi− θ1− θ2ti)2 in θ zu minimieren, setzen

wir die Ableitungen 0.

Dθ1f(θ) = −2∑

i

(xi − θ1 − θ2ti) = 0 Dθ2f(θ) = −2∑

i

((xi − θ1 − θ2ti)ti) = 0

Hieraus ergibt sich mit

xn :=1

n

n∑

i=1

xi tn :=1

n

n∑

i=1

ti

nach etwas Rechnerei

θ1(x) = xn − θ2(x)t

θ2(x) =

i(ti − tn)(xi − xn)∑

j(tj − tn)2

Als letztes ware zu zeigen, bei θ(x) liegt ein Minimum vor.

1Die Methode geht auf Carl Friedrich Gauss zuruck, dem es mit der Methode gelang, die elliptische

Bahn des Zwergplaneten Ceres aus den Beobachtungen des italienishcen Astronomen Guiseppe Piazza sehr

genau zu berechnen. Piazza hatte den Planeten am Neujahrstag 1801 entdeckt und daraufhin 40 Tage lang

beobachtet, bevor er hinter der Sonne verschwand. Piazzas Ansehen litt anschließend deutlich, weil seine

Beobachtungen nicht zu einer von Experten erwarteten kreisformigen Bahn passen wollten. Erst als Franz

Xaver von Zach und Heinrich Wilhelm Olbers im Dezember 1801 den Kleinplaneten genau an dem von

Gauss vorhergesagten Ort wiederfanden, war Piazzas Ruf wiederhergestellt.

58

Page 59: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Bsp:Wir betrachten das Pflanzenwachstum auf n Parzellen, die mit verschiedener Men-ge desselben Dungers versehen wurden. Wir erwarten einen (fast) linearen Zusammenhang.Male Bild der erwarteten Messungen und verdeutliche KQS.

Lineare Modelle: Ein lineares statistisches Modell hat die Form

X = Aθ + ǫ

Hierbei ist X eine Zg mit Werten in IRn. Die bekannte n × d Matrix A = (ai,j) heißt De-signmatrix. Die Zg ǫ = (ǫ1, . . . , ǫn) habe der Einfachheit halber iid zentrierte Koordinatenmit endlicher Varianz. Der Wert θ ∈ IRd ist in IRd.

Der Parameterraum Θ ist (oder eine Teilmenge von)

Θ = δ = (θ, ν) | θ ∈ E ⊂ IRd, ν ∈M(IR),∫

xν(dx) = 0,∫

x2νi(dx) <∞

Vorsicht, wir benutzen δ als Element in Θ. Der Entscheidungsraum E ist in vielen Fallendas θ oder eine Funktion davon.

Ein Kleinste-Quadrate-Schatzer (KQS) ist die Funktion θ : Dn → E, die

(x− Aθ(x))t(x− Aθ(x)) = min θ(x− Aθ)t(x− Aθ)

fur alle x ∈ Dn erfullt.Beispiele sind das lineare Modell

A =

1 t11 t2...

...1 tn

oder das Polynomiale Modell

A =

1 t1 t21 . . . tr11 t2 t22 . . . tr2...

......

......

1 tn t2n . . . trn

oder das quadratische

A =

1 t1 t211 t2 t22...

......

1 tn t2n

Bild KQS fur quadratisches lineares Modell.Der KQS θ : Dn → E (der Einfachheit halber nehme E = IRd) ist dann gegeben durch

‖x− Aθ(x)‖ = infy∈AE

‖x− y‖

59

Page 60: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

im Hilbertraum IRn mit der Norm ‖x‖ =√∑n

i=1 x2i .

AIRd ist ein Unterraum von IRn. Die Interpretation des KQS θ ist die einer ProjektionK von IRn auf IRd, K(x) = Aθ(x). Dies ist aquivalent zu x − K(x)⊥AIRd, genauer <x−Kx,Ay >= 0 fur alle y ∈ IRd. Dies ist equivalent zu

Atx = AtK(x)

denn aus 0 =< x −Kx,Ay >=< At(x −Kx), y > fur jedes y ∈ IRd folgt Atx = AtK(x)und umgekehrt.

Diese letzte Gleichung entspricht: Die Funktion f(θ) =∑

i(xi −∑

j ai,jθj)2 in θ wird

minimiert durch θ(x). Die Ableitungen

Dθjf(θ) = 1∑

i

((xi −∑

k

ai,kθk)(−ai,j))

werden 0 gesetzt fur alle j. Dies entspricht Atx− AtAθ(x) = 0.

Ein lineares System X = Aθ+ǫ hat vollen Rang, falls A vollen Rang hat. Dies bedeutetdie Dimension des Vektorraumes AIRd ist d. Insbesondere sind die Spalten der Matrix linearunabhangig und d ≤ n.

Satz 26 In einem linearen Modell X = Aθ+ ǫ vollen Ranges wird der KGS θ : IRn → IRd

gegeben durchθ(X) = (AtA)−1AtX

Bew: Die Gleichung At(x − Aθ(x)) = 0 entspricht der Satzbehauptung, wenn die d × d-Matrix AtA invertierbar ist. Aus AtAy = 0 folgt ytAtAy = 0 und hieraus Ay = 0. Der volleRang von A impliziert y = 0, d.h. der Kern hat Dimension 0. q.e.d.

Satz 27 (Gauss-Markoff) Sei X = Aθ + ǫ ein lineares Modell mit vollem Rang undθ(x) = (AtA)−1Atx der KGS fur θ. Zu gegebenem β ∈ IRd ist βtθ ein erwartungstreuerSchatzer fur Ψ(δ) = βtθ. Er hat gleichmaßig kleinste Varianz in der Klasse aller linearenerwartungstreuen Schatzer. Sei Risiko bzgl. quadratischer Verlustfunktion ist

R(δ, βtθ) = Varδ(βtθ(X))) = σ2βt(AtA)−1β

fur alle θ ∈ E, σ2 =∫

x2ν(dx) = Var(ǫ1).

Bew: Wir verwenden B = (AtA)−1At als Abkurzung. Es gilt

BA = I

BBt = (AtA)−1AtA((AtA)−1)t = ((AtA)−1)t = (AtA)−1

ABBtAt = A(AtA)−1At = AB

Θ(X) = BX = θ + Bǫ

60

Page 61: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

• Der Schatzer βtθ(X) ist erwartungstreu.Dies folgt leicht aus

Eδ(θ(X)− θ) = EδBǫ = BEδ(ǫ) = 0

• Die Formel fur das Risiko stimmt.Die Verlustfunktion ist quadratisch, gegeben durch

L(δ, e) = (ψ(δ)− e)2 = (βt(θ − θ))2 ∈ IR

R(δ, βtθ) = Eδ(βt(θ − θ(X))2

= Eδ(βtBǫ)2

= Eδ(βtBǫǫtBtβ)

= Cov(βtBǫ, βtBǫ)

= βtBCov(ǫ, ǫ)Btβ

= σ2βtBBtβ

= σ2βt(AtA)−1β

• Er ist gleichmaßig bester in obiger Menge.Sei btX ein weiterer linearer erwartungstreuer Schatzer,

βtθ = ψ(δ) = EδbtX = btEδX = btAθ

Hieraus erhalten wir βt = btA. Sei R(δ, βtθ(X)) = a

R(δ, btX) = Eδ((βtθ − btX)2)

= Varδ(βtθ − βtθ(X) + βtθ(X)− btX)

= Varδ(βtθ − βtθ(X)) + Varδ(β

tθ(X)− btX)

+2Covδ(βtθ − βtθ(X), βtθ(X)− btX)

≥ a+ 0 +−2βtBCovδ(ǫ, btA(θ +Bǫ)− bt(Aθ + ǫ))

= a− 2βtBCovδ(ǫ, ǫ))(bt(AB − I))t

= a− 2σ2btAB(BtAt − I)b = a

q.e.d.Ein wichtiger Spezialfall ist ein lineares Modell mit Gausverteilten Fehlern. Sei ǫGau(0, σ2In)

verteilt. Es folgtWδ = PX

δ = Gau(Aθ, σ2In)

mit Parameter δ = (θ, σ2) ∈ IRd × (0,∞). Die Dichte von Wδ bzgl. dem Lebesguemaß λauf IRn ist

Wδ(dx)

λ(dx)= . . . = C(δ) exp(

d+1∑

i=1

Qi(δ)Ti(x))

61

Page 62: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

C(δ) =1

(2πσ2);n/2exp(−< Aθ,Aθ >

2σ2)

Qt(δ) = (− θ12σ2

, . . . ,− θd2σ2

,− 1

2σ2)

T t(x) = (xtA,< x, x >)

Die Statistik T ist nach dem Neyman-Kriterium suffizient und auch vollstandig, da Q(Θ) =IRd × (0,∞) offen ist.

Satz 28 Sei X = Aθ+ ǫ ein lineares Model mit vollem Rang und gaussverteilten Fehlern.Dann ist fur jedes β ∈ IRp der Schatzer βtθ(X) der gleichmaßig varianzminimierendeSchatzer in der Klasse der erwartungstreuen Schatzer.

Bew: Der Schatzer θ(X) = BX ist erwartungstreu und T meßbar. Folglich gibt es eineFunktion g mit θ = g T. (Diese wird gegeben durch g(y) = (AtA)−1y.) Der Satz vonLehmann-Scheffe liefert die Aussage. q.e.d.

9.1 Gute der Schatzung

Die Gute der Schatzung hangt auch von σ2 ab. Wir mussen dies schatzen, um eine Vor-stellung der Gute zu erlangen. Um θ zu schatzen, hatten wir die Funktion

x 7→< x− θ, x− θ >

der Fehlerquadrate minimiert in θ. Dies ergab θ(x) als Schatzer fur θ. Die Zg X = Aθ + ǫist ungefahr Aθ(X) groß. Der quadratischen Fehler

x→ S(x) :=< x− Aθ(x), x− Aθ(x) >

ware ein Kandidat S(X) fur eine Schatzung von σ2, bzw. Funktion davon.

Satz 29 Sei X = Aθ + ǫ ein lineares Modell mit vollem Rang, normalverteilten Fehlernund θ der Kleinste-Quadrate-Schatzer, n > p. Dann ist S(X)

n−perwartungstreu fur Φ(δ) = σ2

und hat gleichmaßig kleinste Varianz in der Klasse der erwartungstreuen Schatzer.

Bew: Zeige zuerst AB ist symmetrisch und idempotent. (Einfach)

S(x) = < (In − AB)x, (In − AB)x >=< (In − AB)t(In − AB)x, x >

= < (In + (AB)tAB − (AB)t − AB)x, x >=< (In − AB)x, x >= xt(In − AB)x

EδS(X) = Eδ < (In − AB)(Aθ + ǫ), Aθ + ǫ >

= < (In − AB)Aθ,Aθ > +Eδ < (In − AB)ǫ, ǫ >

= 0 + nσ2 − Eδ < ABǫ, ǫ >

62

Page 63: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

• EδS(X) = (n− p)σ2

Da AB eine symmetrische Matrix ist, gibt es eine orthogonale Rotation O mit OtABOist eine Diagonalmatrix D. Aus der Idempotenz schließen wir DD = D. Damit hat D inder Diagonale nur Eintrage 0 und 1. Die Matrix AtA ist eine p × p invertierbare Matrix.Damit hat AB den Rang p und D hat genau p 1-sen in der Diagonale. Wir erhalten< ABǫ, ǫ >=< DOtǫ, Otǫ > . Der Vektor Otǫ ist wieder gaussverteilt mit Parameter 0 undCovarianz σ2In. Damit

Eδ < DOtǫ, Otǫ >= Eδ < Dǫ, ǫ >= pσ2

und die Behauptung folgt durch zusammensetzen.• Gleichmaßig kleinste VarianzDie Verlustfunktion ist quadratisch, L(δ, e) = (σ2 − e)2. Die Statistik T ist suffizient

und vollstandig. Die Statistik S ist T meßbar und erwartungstreu. Nach Lehmann-Scheffehat damit S gleichmaßig die kleinste Varianz aller erwartungstreuen. q.e.d.

9.2 Schatzen von θ

Heuristik: Situation wie oben, geschatzt werden soll ψ(δ) = θ. Sei die Verlustfunktion

L(δ, e) =∑

i

(θi − ei)2 =< θ − e, θ − e >

Dann ist die Risikofunktion fur θ(X)

R(δ, θ(X)) = Eδ < θ − BX, θ −BX >= Eδ < Bǫ,Bǫ >= ǫtBtBǫ

BtB = A(AtA)−1(AtA)−1At

BtBBtB = A(AtA)−1(AtA)−1(AtA)−1At

BtB ist ein symmetrische Matrix. Daher existieren orthogonale Rotationen O mit OtBtBOist eine Diagonalmatrix. Leider sind die Eintrage hier nicht 0 oder 1 wie vorher. Dasbrauchten wir aber um varianzminimierende erwartungstreue Schatzer zu bekommen. Gibtes einen Ausweg?

Math. Model: Wir betrachten die Bilinearform < ·, AtA· > . Diese ist strikt positivdefinit. Als Verlustfunktion wahlen wir

L(δ, e) =< θ − e, AtA(θ − e) >

Dann ist die Risikofunktion fur θ(X)

R(δ, θ(X)) = Eδ < θ −BX,AtA(θ − BX) >= Eδ < Bǫ,AtABǫ >= ǫtBtAtABǫ

BtAtAB = A(AtA)−1At

BtBAtABtAtAB = A(AtA)−1At = BtAtAB

BtAtAB ist ein symmetrische und idempotente Matrix. Daher existieren orthogonale Ro-tationen O mit OtBtAtABO ist eine Diagonalmatrix. Ihre Eintrage sind 0 oder 1. Sie hatgenau p Einsen.

63

Page 64: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Satz 30 Sei X = Aθ+ ǫ ein lineares Model mit vollem Rang und gaussverteilten Fehlern.Dann ist der erwartungstreue Schatzer θ(X) fur Ψ(δ) = θ der gleichmaßig varianzmini-mierende Schatzer in der Klasse der erwartungstreuen Schatzer bzgl. der Verlustfunktion

L(δ, e) =< θ − e, AtA(θ − e) >

Bew: Der Satz von Lehmann-Scheffe liefert die Aussage. q.e.d.Die Designmatrix A wird vom Experimentator oder Statistiker vor dem Experiment

vorgegeben durch die Wahl der Meßpunkte. Daher ist sie bekannt und kann eventuellgewahlt werden mit weiteren guten Eigenschaften. Eine gute Eigenschaft waere, dass derbetragsmasig kleinste Eigenwert λ von AtA moglichst groß ist. Dann ließe sich die Biline-arform < ·, AtA· > abschatzen durch

|λ|2 ≤ inf‖x‖=‖y‖=1

< x,AtAy >≤ sup‖x‖=‖y‖=1

< x,AtAy >≤ |λ1|2

mit λ1 der betragsmaßig großte Eigenwert.

9.3 Zwei qualitative Faktoren

Jetzt betrachten wir zwei Faktoren, die eine Große bestimmen, wie Lernen und Fernsehzeitbei Kindern. Im einfachsten Fall bzw. vektoriell

Y = θ1 + θ2 Yi,j = θi,j , i ∈ I, j ∈ J

Die BeobachtungX = Y + ǫ Xi,j = Yi,j + ǫi,j

ist wieder einen Fehler ǫ behaftet. Zu jeder Kombination (i, j) ∈ I ×J machen wir ni,j un-abhangige Beobachtungen. Zu dieser Fragestellung, zumindest wenn alle ǫ-Fehler dieselbeVerteilung haben, ware θ(X) ein guter Schatzer.

Mathematisches Modell: Die Parametermenge wird gegeben durch

δ = (θ1,1, θ1,2 . . . , θ1,|J |, θ2,1, . . . , θ|I|,|J |, µ) ∈ IR|I||J | ×M(IR)

mit∫

xµ(dx) = 0 und 0 <∫

x2µ(dx) <∞. Die Beobachtungen sind

X = ((X1,1,k)n1,1

k=1, (X1,2,k)n1,2

k=1 . . . , (X|I|,|J |,k)n|I|,|J|

k=1 )t

mit ǫi,j,k alle unabhangig mit Verteilung µ. Die Matrix A ist

64

Page 65: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

A =

1 01 0...

...1 00 1 00 1 0...

......

0 1 0. . . 0

0 1 00 1 0...

......

0 1 0

Da Modell hat vollen Rang, da der Rang von A |I||J | ist. Weiterhin AtA ist eine Dia-gonalmatrix mit den Eintragen (n1,1, n1,2, . . . , n|I|,|J |) in der Diagonalen. Mit der Notation

xi,j,• :=ni,j∑

k=1

xi,j,k xi,j,• :=xi,j,·ni,j

erhalten wir als Schatzer

θ(x) = Bx = (AtA)−1(xi,j,•)i,j = (xi,j,•)i,j

Damit ist xi,j,• ein erwartungstreuer Schatzer fur θi,j nach dem Satz von Gauss-Markov.Fur die unbekannte Fehlervarianz σ2 ist der erwartungstreue Schatzer

1

n− |I||J |∑

i,j,k

(xi,j,k − xi,j,•)2 n =

i,j

ni,j

vorausgesetzt alle ni,j ≥ 1 und eins strikt großer.Eine andere Betrachtungsweise ist

θi,j = m+ αi + βj + γi,j

mit der Nebenbedingung

0 =∑

i

αi =∑

j

βj =∑

i

γi,j =∑

j

γi,j

Die Interpretation istm ist der mittlere Gesamteffektαi ist der mittlere Zusatzeffekt vom ersten Faktor in Stufe iβj ist der mittlere Zusatzeffekt vom zweiten Faktor in Stufe j

65

Page 66: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

γi,j ist die mittlere Wechselwirkung vom ersten Faktor in Stufe i mit dem zweiten Faktorin Stufe j.

Die Beziehung zum Originalproblem ist

m := θ•,•

αi := θi,• −m

βj := θ•,j −m

γi,j := (θi,j −m)− αi − βj

Wir erhalten, siehe die Herleitung oben und auch die Notation, die Schatzer

m(x) = x•,•,•

αi(x) = xi,•,• − m(x)

βj(x) = x•,j,• − m(x)

γi,j(x) = (xi,j,• − m(x))− αi(x)− βj(x)

66

Page 67: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

10 Anhang

Eine Funktion f : Ω → Ω′ heißt meßbar bzgl. der Funktion g : Ω → Ω′′, falls f meßbar istbezuglich der von g erzeugten σ-Algebra uber Ω. In Formeln, falls f−1(A′) ⊂ g−1(A′′).

Def: Eine σ-Algebra uber Ω heißt punktetrennend, falls fur alle ω 6= ω ∈ Ω gibt es einemeßbare Menge A ∈ A mit ω ∈ A und ω 6∈ A.

Hintergrund ist das

Lemma 31 (Faktorisierungslemma) Seien f : Ω → Ω′ und g : Ω → Ω′′ meßbareFunktionen. Die σ-Algebra A′ sei punktetrennend. Dann gilt

f ist g meßbar ⇔ ∃h : g(Ω) 7→ f(Ω) meßbar mit f = h g.

Beweis: Die Ruckrichtung folgt aus f−1(A′) = g−1(h−1(A′)) ⊂ g−1(A′′).Beachte g g−1 ist die Identitat. Um eine Funktion h mit der Eigenschaft f = h g

(bzw. f g−1 = h) zu finden, reicht die folgende Teilbehauptung.• g(ω) = g(ω) ⇒ f(ω) = f(ω)Wir zeigen die Umkehrung. Zu f(ω) 6= f(ω) wahle ein A′ ∈ A′ mit f(ω) ∈ A′ und f(ω)

nicht. Zu f−1(A′) gibt es ein A′′ ∈ A′′ mit f−1(A′) = g−1(A′′). Dann gilt g(ω) ∈ A′′ undg(ω) 6∈ A′′. Folglich sind sie verschieden.

• h ist meßbar.Sei A′ ∈ A′ und A′′ ∈ A′′ mit f−1(A′) = g−1(A′′). Verwende in dieser Gleichung

f−1 = g−1(h−1) und wende auf beiden Seite g an. Beachte g g−1 ist die Identitat. q.e.d.Bsp: Punktetrennend ist wichtig. Sei Ω = 1, 2 = Ω′ = Ω′′ versehen mit den trivialen

σ-Algebren, f die Identitat und g identisch 1. Jetzt gibt es kein h mit f = h g.

10.0.1 Radon-Nikodym

Ein Maß µ heißt absolut stetig bzgl. einem anderen Maß ν, falls fur alle Ereignisse A ∈ Amit ν(A) = 0 auch µ(A) = 0 gilt. Notation: µ << ν. Zwei Maße µ, ν heißen orthogonal,falls es eine meßbare Menge A gibt mit µ(A) = 0 = ν(Ac). Notation µ⊥ν. Ein Maß µ heißtσ-endlich, falls es eine Partition von Ω gibt in hochstens abzahlbar viele meßbare Mengenendlichen Maßes.

Satz 32 (Hahn-Jordan) Seien µ, ν zwei Maße und ν σ-endlich. Dann gibt es orthogonaleMaße µc, µ⊥ mit µ = µc + µ⊥ und µ< < ν, µ⊥⊥ν.

Eine Radon-Nikodym Dichte oder Ableitung eines Maßes µ bzgl. eines anderen Maßesν ist eine positive, meßbare Funktion f : Ω 7→ IR mit

A f dν =∫

A dµ fur alle EreignisseA ∈ A. Notation: f = dµ

dνoder fdµ = dν oder fµ = ν. Siehe Bauer Maßtheorie

Satz 33 (Radon-Nikodym) Sei ν ein σ-endliches Maß. Dann ist µ absolut stetig bzgl.ν genau dann, wenn es eine Radon-Nikodym Dichte dµ

dνgibt. Diese ist fast sicher eindeutig.

67

Page 68: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Im Falle von diskreten Maßen ist die Radon-Nikodym Dichte der Quotient der Wahrschein-lichkeiten.

Im Falle ν das Lebesguemaß und µ ein W-Maß mit einer stetig differenzierbaren Ver-teilungsfunktion F, ist die Radon-Nikodym Ableitung die herkommliche Ableitung F ′ (fastsicher).

Eine Familie von Maßen ist absolut stetig bzgl. einem Referenzmaß, falls jedes Maß inder Familie absolut stetig bzgl. dem Referenzmaß ist.

10.1 Bedingte Erwartung

Sei (Ω,A, P ) ein W-raum und A0 ⊂ A eine Unter-σ-Algebra. Eine bedingte Erwartung vonf unter A0 ist eine A0 − B meßbare Funktion g : Ω 7→ IR mit

A0

f dP =∫

A0

g dP (10)

fur alle A0 ∈ A0 und beide Seiten sind wohldefiniert im Lebesgueschen Sinne.Notation: E(f | A0) oder E

A0(f).

Satz 34 (Existenz der bedingten Erwartung) Sei A0 ⊂ A eine Unter-σ-Algebra vonA0. Dann existiert die bedingte Erwartung fur L1-Funktionen f : Ω → IR. Sie ist P fastsicher eindeutig.

Beweis: Fur positives f ist ν := f · P ein endliches Maß. Seien ν0, P0 die Einschrankungender Maße auf (Ω,A0). Es gilt ν0 << P0. Dann tut’s die Radon-Nikodym Dichte 33 g = dν0

dP0.

Sie erfullt die definierende Eigenschaft der bedingten Erwartung

A0

g dP =∫

A0

g dP0 =∫

A0

dν0 =∫

A0

dν =∫

A0

f dP

Jedes f ∈ L1 konnen wir eindeutig zerlegen in Positiv- und Negativteil, f = f+−f−. Danntut’s E(f | A0) := E(f+ | A0)− E(f− | A0).

• EindeutigkeitSeien g, h bedingte Erwartungen von f und A0 die Menge g > h. Es gilt

A0(g−h)dP =

A0(f − f)dP = 0 und damit P (A0) = 0. Mit Symmetrie folgt g = h. q.e.d.

Satz 35 (Existenz der bedingten Erwartung 2) Sei A0 ⊂ A eine Unter-σ-Algebravon A. Die bedingte Erwartung E(· | A0) ist ein positiver, linearer und σ-stetiger Operatormit E(1) = 1 von L1(A0) nach L1(A0).

σ-Stetigkeit ist aquivalent zur monotonen Konvergenz.

Satz 36 • Monotone Konvergenz:fn րn f,

f1dµ > −∞ ⇒ E(fn | A0) րn E(f | A0)fn ցn f,

f1dµ <∞ ⇒ E(fn | A0) ցn E(f | A0)

68

Page 69: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

• Fatou:∫

infn fn > −∞ ⇒ lim infnE(fn | A0) ≥ E(lim infn fn | A0)∫

supn fn <∞ ⇒ lim supnE(fn | A0) ≤ E(lim supn fn | A0)

• Dominierte Konvergenz:fn →n f, supn |fn| ∈ L1 ⇒ E(fn | A0) →n E(f | A0)

• Jensen Ungleichung: Fur eine konvexe Funktion ϕ gilt, sofern wohldefiniert,

E(ϕ(f) | A0) ≥ ϕ(E(f | A0))

Lemma 37 Sei alles wohldefiniert. Die folgenden Aussagen gelten alle P -fast sicher.

• |E(f | A0)| ≤ E(|f | | A0)

• E(fh | A0) = hE(f | A0) fur A0-meßbare Funktionen h.

• Towerproperty: Fur A0 ⊂ A1 ⊂ A Unter-σ-Algebren gilt

E(E(f | A0) | A1) = E(f | A0) = E(E(f | A1) | A0)

• supnE(fn | A0) ≤ E(supn fn | A0)

Sei jetzt (Ω,A, µ) ein Maßraum. In der bedingten Erwartung notieren wir die Teil-σ-Algebra A0 durch deren Charakterisierung wie z.B. durch ein Erzeugendensystem E oderauch meßbaren Funktionen X.Notation: E(f | E) oder E(f | X) fur E(f | A0), wobei A0 = σ(E) oder σ(X) gesetztist. (σ(X) ist die kleinste σ-Algebra, bezuglich der die Funktion X meßbar ist.)

Sei X : Ω → IR, f ∈ F+ meßbar und E(f | X) eine Version (Reprasentant) derbedingten Erwartung und damit eine feste σ(X)−B-meßbare Funktion Ω → R. Nach demFaktorisierungslemma gibt es eine reelle Funktion h mit E(f | X) = h X. Wir benutzenE(f | X = x) fur die Abbildung h(x) = E(f | X) X−1(x). Wahlen wir einen anderenReprasentanten, so erhalten wir µX fast sicher dieselbe Funktion h (Ubung).

E(f | X = x) heißt bedingte Erwartung von f (bedingt) unter X = x. Auch furNullmengen X = x laßt sich hiermit rechnen wie mit bedingten Erwartungen.

Bedingte Wahrscheinlichkeiten Zwei meßbare Raume (Ω,A),Ω′,A′) heißen iso-morph, falls es ein bijektive, bimeßbare (Umkehrabbildung ist meßbar) Abbildung Ω → Ω′

gibt.Ein Borelraum ist eine ein meßbarer Raum (Ω,A) isomorph zu einer Borelmenge

B ⊂ B(IR) versehen mit der Spur-σ-Algebra (=induzierte). Auf Borelraumen lassen sichbedingte Erwartungen als W-kerne schreiben, E(11A | D0)(x) = K(x,A) (Klenke, Wahr-scheinlichkeitstheorie).

69

Page 70: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

10.2 Exponentielle Familien

Die Familie (Wθ)θ∈Θ ist eine exponentielle Familie, falls es ein σ-endliches dominierendesReferenzmaß µ, so daß die Dichten wθ =

dWθ

dµdie Gestalt

wθ(x) = C(θ)h(x)e<Q(θ),T (x)>

hat. Hierbei sind C(θ) reelle Konstanten, h : D → [0,∞) meßbar, Qi : Θ → IR, i ∈IN≤n, beliebige Funktionen und Ti : D → IR meßbar. Q, T sind zughorigen Vektoren. DieBiliearform < ·, · > steht fur < y, z >=

i yizi.Wir sprechen von einer d-dimensionalen exponentiellen bzw. d-exponentiellen

Familie, falls n = d gilt und alle Qi linear unabhangig sind als Vektoren. OEdA konnenwir stets annehmen, die Qi sind linear unabhangig. Ansonsten wahle eine Basis fur dendurch die Q· aufgespannten Vektorraum aus und diese tut es auch. Die Dimension d isteindeutig.

Durch Wahl eines neuen Referenzmaßes konnen wir oEdA h ≡ 1 annehmen. Nehmeν = hµ als Referenzmaß. Beachte die gegenseitige Absolutstetigkeit Wθ << ν << Wθ furjedes θ ∈ Θ.

OEdA ist Θ ⊂ IRd. Da Q : Θ → Rd injektiv ist, konnen wir oEdA durch UmindizierungΘ′ = Q(Θ) nehmen. Diese Indizierung heißt naturliche Indizierung.

In der Regel ist es vorteilhaft, bei gegebener naturlicher Indizierung den Parameterraumzu vergroßern (dies macht der Statistiker) auf Θ′′. Wir nehmen alle θ ∈ IRd mit hinzu, furdie das Integral

e<θ,T (x)>µ(dx) =:1

C(θ)<∞

endlich ist. Der Vorteil liegt in folgendem: Die linke Seite ist unendlich oft differenzier-

bar in θ im InnerenΘ′′ von Θ′′. Folglich ist die rechte Seite dies auch und die Dichten

C(θ)e<Q(θ),T (x)> sind in C∞(Θ′′). Weiterhin Θ′′ ist konvex mit nicht leerem Inneren. Der

Standardgebrauch der naturliche Indizierung ist einschließlich dieser Erweiterung.Die letzte Reduktion betrifft einen Maßwechsel µT auf die Verteilung von T .

Lemma 38 Gegeben sei eine einparametrische Familie in naturlicher Parametrisierung.Sei θ1 < θ2. Dann existieren fur alle 0 < α < 1 reelle Zahlen c1 < c2 mit Eθi(ϕc1,c2,γ1,γ2) =α, i = 1, 2. Hierbei ist ϕ· gegeben durch

ϕ(x) =

1 falls c1 < T (x) < c2γi T (x) = ci0 sonst

mit γi : D → IR meßbar. Die Werte c1, c2 sind eindeutig fast sicher bzgl. allen Wθ.

Beweis: Einfachheitshalber sei µT ohne Punktmasse. Dann konnen wir γi = 0 setzen und

ϕc1,c2,γ1,γ2(x) = 11(c1,c2)(T (x)). Seiwθ1

(x)

wθ2(x)

= p(T (x)). Betrachte die Abbildung

z 7→∫ z

c(p(y)− 1)µT (dy)

70

Page 71: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

fur c ∈ y | p(y) < 1. Diese Funktion ist erst fallend in z und dann aufsteigend. Es gibtein kleinstes z = zc mit obigem Integral ist 0. Die Funktion c→ zc ist fallend, die Funktion

c→ f(c) = C(θ1)∫ zc

c11c1,c2e

θ1yµT (dy)

ist stetig und ebenfalls fallend von 1 nach 0. Mit dem Zwischenwertsatz gibt es ein c1mit f(c1) = α. Setze c2 = zc1 . Aus

∫ c2c1(p(y) − 1)µT (dy) = 0 und f(c1) = α erhalten wir

C(θ2)∫ c2c1

11c1,c2eθ2yµT (dy) = α. Damit haben wir Eθi(ϕc,zc T ) = α.

c1, c2 sind eindeutig bzgl. dem Referenzmaß hµ und damit bzgl. jedem Wθ. q.e.d.Weiterfuhrende Literatur unter H. Witting, Mathematische Statistik, Satz 1.161, Seite

120

10.3 Irrfahrten

Seien Xn, n ∈ IN uiv integrierbare Zgn und Sn =∑n

i=1Xi mit S0 = 0. Der Prozess (Sn)n∈IN0

heißt Irrfahrt.Nach dem starken Gesetz der Großen Zahlen Sn

nfast sicher gegen E(X1).

Satz 39 (Wald Identitat) Sei T eine von den X unabhangige integrierbare Zgn mitWerten in IN0. Dann gilt

E(ST ) = E(T )E(X1)

Verscharfung von Wald: Der Satz gilt fur jede integrierbare Stoppzeit bzgl. der naturlichenFiltration (Fn)n und jede Stoppzeit, falls E(X1) 6= 0 nicht 0 ist.

Bew: Wir zeigen nur die zweite Aussage. Daraus ergibt sich durch Vereinfachung auch dieerste Aussage. Sei zuerst τ integrierbar. Es gilt

E(|ST |) = E∞∑

n=1

|Sn|11T=n ≤ E∑

n

i

111≤i≤n|Xi|11T=n

= E∑

i

|Xi|11T≥i =∑

i

E(E(|Xi|11T≥i | Fi−1))

=∑

i

E(11T≥iE(|Xi| | Fi−1)) = E(|X1|)E(∑

i

11T≥i) = E(|X1|)E(T ) <∞

Dasselbe Argument ohne die Betrage zeigt die Verscharfung fur integrierbare τ.Sei jetzt τ nicht integrierbar und sei oEdA E(X1) > 0. Fur N ∈ IN gilt

E(Sτ∧N) = E(τ ∧N)E(X1)

Die rechte Seite konvergiert aufsteigend gegen E(τ)E(X1) = ∞ und damit auch die rechteSeite. Benutze nun

Sτ∧N = 11τ≤NSτ + 11τ>NSN ≤ 11τ≤NSτ + 11τ>NSτ = Sτ

und gehe uber zum Erwartungswert. q.e.d.Sei τx = infn ∈ IN0 | Sn ≥ x.

71

Page 72: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

Lemma 40 Ist E(X1) > 0 so gilt Eτx <∞.

Bew: Ist X beschrankt durch c so folgt E(Sτ ) = E(Sτ−1 +Xτ ) ≤ x+ c <∞ und mit demWaldschen Satz folgt die Behauptung. Im allgemeinen Fall betrachte Xc

n := Xn ∧ c mit chinreichend gross, so dass 0 < E(Xc

1) gilt. Sei Scn die n-te Partialsumme fur die gestutzten

Zgn Xci und τ c die Stoppzeit zum ersten Erreichen der Barriere x durch den Prozess (Sc

n)n.Offensichtlich ist τ c fallend mit c → ∞ gegen τ und das gleiche gilt fur die Erwartung.q.e.d.

10.4 Lineare Algebra

Im Fließtext schreibt man Vektoren als Reihe x = (x1, x2, . . . , xn) in mathematischenFormeln werden diese als Spaltenvektor geschrieben. Im mathematischen Text ware xt, dieTranponierte von x, ein Reihenvektor. So ist fur Vektoren x, y die Bilinearform < x, y >:=xty = ytx eine reelle Zahl, wahrend xyt = (yxt)t eine Matrix ist. Die Transponierte einerMatrix A = (ai,j)i,j) ist A

t = (ati,j)i,j) mit ai, jt = aj,i. Eine Matrix A ist symmetrisch, fallsAt = A gilt. Eine Matrix heißt idempotent, falls AA = A gilt. Eine orthogonale Rotationist eine Matrix O mit O−1 = Ot. Fur jede symmetrische Matrix A gibt es othogonaleRotationen mit O−1AO ist eine Diagonalmatrix.

Die Kovarianzmatrix Cov(X, Y ) = (Cov(Xi, Yj))1≤i,j≤n von Zgn X, Y mit Werten inIRn ist definiert durch

Cov(Xi, Yj) = E((Xi − EXi)(Yj − EYj))

Sie laßt sich auch schreiben als Cov(X, Y ) = E((X − EX)(Y − EY )t). Die Covarianzma-trizen sind genau die positiv definiten Matrizen (∀x : xtCx ≥ 0). Es gilt E(AX + a) =AE(X) + a, Cov(X, Y ) = Covt(Y,X) und Cov(AX + a,BY + b) = ACov(X, Y )Bt furn × n-Matrizen A,B und reelle Zahlen a, b. Die Varianzmatrix ist die Matrix Var(X) =Cov(X,X).

10.5 Gaussglocke

Die d−dimensionale Gaussglockenkurve bzw. d−dimensionale Dichte der Normalverteilungist die Funktion ϕm,C : IRd 7→ IR

ϕm,C(x) =1

(2π)d det(C)e−

(x−m)tC−1(x−m)2

mit m ∈ IRd und C ∈ IRd×d eine strikt positiv definite Matrix.

Lemma 41 Habe X eine Gau(m,C) Verteilung.

(i) ϕm,C ist stetig, strikt positiv und symmetrisch um m, (∀x ∈ IRd ϕm,C(x − m) =ϕm,C(−x−m)).

72

Page 73: 1 Einfuhrung¨ - Mathematisches Seminar · 1 Einfuhrung¨ 1.1 Philosophisches ... 1.1.6 Statistik und Wahrscheinlichkeitstheorie Die mathematische Eingliederung der mathematischen

(ii)∫

ϕm,C(x)dx = 1.

(iii)∫

xϕm,C(x)dx = m.

(iv)∫

(x−m)(x−m)tϕm,C(x)dx = C.

(v)∫

ϕm1,C1(x− y)ϕm2,C2(y)dy = ϕm1+m2,C1+C2(x).

(vi) Es gilt EX = m und Cov(X,X) = C.

(vii) Die Zg AX + a hat ein Gaussverteilung zu den Parameter m+ a und ACAt.

Die standard Gaußverteilungsfunktion ist

Φ(x) :=∫

y≤xϕ0,I(y)dy

mit der koordinatenweisen Ordnung in IRd und I die Einheitsmatrix. Die Standardnormie-rung einer IRd-wertigen Zg X ist

X∗ = Cov−1/2(X,X)(X − EX).

Satz 42 (d−dimensionaler ZGS) Eine Folge uiv Rd−wertiger Zgn mit endlicher Cova-rianzmatrix von vollem Rang erfullt den Zentralen Grenzwertsatz

S∗n

D→n Φ

73