73
Gerhard Bohm und Günter Zech Einführung in Statistik und Messwertanalyse für Physiker – Ergänzungen – Verlag Deutsches Elektronen-Synchrotron

Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

Embed Size (px)

Citation preview

Page 1: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

Gerhard Bohm und Günter Zech

Einführung in Statistik und

Messwertanalyse für Physiker

– Ergänzungen –

Verlag Deutsches Elektronen-Synchrotron

Page 2: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein
Page 3: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

Prof. Dr. Gerhard BohmDeutsches Elektronen-SynchrotronPlatanenallee 6D-15738 Zeuthene-mail: [email protected]

Univ.-Prof. Dr. Günter ZechUniversität SiegenFachbereich PhysikWalter-Flex-Str. 3D-57068 Siegene-mail: [email protected]

This work is licensed under the Creative Commons Attribution 4.0 Internatio-nal License. To view a copy of this license, visit http://creativecommons.org/licenses/by/4.0/or send a letter to Creative Commons, PO Box 1866, Mountain view, CA94042, USA.

ISBN 978-3-945931-14-1DOI 10.3204/PUBDB-2017-08991

Herausgeber Verlag Deutsches Elektronen-Synchrotronund Vertrieb: Notkestraße 85

D-22607 HamburgCopyright: Gerhard Bohm, Günter Zech

Page 4: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

Vorwort

Der vorliegende Ergänzungsband zu dem 2008 erschienenen e-Buch „Einfüh-rung in Statistik und Messwertanalyse für Physiker“ verfolgt die Absicht, ne-ben dem unverzichtbaren englischen Text auch den deutschen weiter zu ent-wickeln. Das übersetzte e-Buch erfuhr wesentliche inhaltliche Ergänzungenschon in der ersten Auflage (2010) und liegt z. Zt. (seit 2017) in dritter, noch-mals ergänzter Auflage vor. Eine logische Fortsetzung dieser Arbeiten wäreeine (formale) (Rück-)Übersetzung des englischen Textes ins deutsche. Auf-wand für die Autoren und Nutzen für den Leser stünden dabei jedoch in einemMissverhältnis, dem nur durch eine nochmalige gründliche Überarbeitung undErweiterung abzuhelfen wäre.

Ein bescheideneres Ziel besteht darin, eine begrenzte Auswahl unter denstatistischen Methoden, die z.Zt. in der deutschen Fassung fehlen, zu treffenund nur diese, evtl. korrigiert und erweitert, in einem Ergänzungsband zurdeutschen Ausgabe zusammenzufassen. Insbesondere erscheint dies sinnvollfür ältere Entwicklungen, die etwas außerhalb des „main stream“ liegen, aberdurchaus von mehr als nur historischem Interesse sind.

Der erste Teil des vorliegenden Ergänzungsbandes enthält hauptsächlichmathematische Grundlagen der Statistik: Näherungsmethoden für Verteilun-gen (insbesondere Gram-Charlier-Reihen), einige im deutschen Text fehlendeVerteilungen, sowie eine Diskussion des Zentralen Grenzwertsatzes.

Im zweiten Teil behandeln wir die für physikalische Anwendungen wich-tige Kombination korrelierter Messungen und die Parameter-Schätzung beiUntergrund-behafteten Daten.

Schließlich geben wir eine zusammenfassende Behandlung der Maximum-Likelihood Schätzung für die Parameter der Normalverteilung sowie desLikelihood-Quotienten-Tests, einschließlich des Bayes-Faktors.

Zitate bezüglich der deutschen Ausgabe werden zweckmäßigerweise mitder Seitenzahl versehen, in der Form [1], S.xxx. Im übrigen enthält das Lite-raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auchfür ein Sachverzeichnis muss auf die ursprüngliche deutsche Ausgabe verwie-sen werden.

August 2017,Gerhard Bohm, Günter Zech

Page 5: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

Inhaltsverzeichnis

1 Ausgewählte mathematische Grundlagen der Statistik . . . . . 11.1 Orthogonale Polynome . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.1.1 Faktorielle Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.1.2 Erzeugende Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.1.3 Innere Produkte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.1.4 Orthogonalisierte Polynome. . . . . . . . . . . . . . . . . . . . . . . . . 51.1.5 Gram-Charlier-Reihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.2 Einige Weitere Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.2.1 Die Logarithmische Normalverteilung . . . . . . . . . . . . . . . . 131.2.2 Die t-Verteilung (Student’s t Distribution) . . . . . . . . . . . . 161.2.3 Winkelverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.2.4 Zusammengesetzte- oder Mischverteilungen . . . . . . . . . . . 221.2.5 Poisson Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

1.3 Der Zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311.3.1 Zur Asymptotik der verallgemeinerten

Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2 Ausgewählte statistische Methoden . . . . . . . . . . . . . . . . . . . . . . . . 352.1 Kombination Korrelierter Messungen . . . . . . . . . . . . . . . . . . . . . . . 36

2.1.1 Kombinieren von Messwerten mit systematischenFehlern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.2 Parameterschätzung bei Untergrund-behafteten Daten . . . . . . . 422.2.1 Parameterschätzung bei Untergrund-behaftetem

Signal, (Binning-Methode) . . . . . . . . . . . . . . . . . . . . . . . . . . 422.2.2 Parameterschätzung bei Untergrund-behaftetem

Signal, (Binning-freie Methode) . . . . . . . . . . . . . . . . . . . . . 432.3 Zur Maximum-Likelihood-Schätzung der Parameter einer

Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 492.4 Zum Likelihood-Quotienten-(LQ)Test . . . . . . . . . . . . . . . . . . . . . . 55

2.4.1 Allgemeine Form . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 552.4.2 Statistische Signifikanz von Signalen . . . . . . . . . . . . . . . . . 57

Page 6: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

II Inhaltsverzeichnis

2.4.3 Der Likelihood-Quotienten-Test . . . . . . . . . . . . . . . . . . . . . 602.4.4 Der Bayes-Faktor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

Page 7: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

1

Ausgewählte mathematische Grundlagen der

Statistik

Page 8: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

2 1 Ausgewählte mathematische Grundlagen der Statistik

1.1 Orthogonale Polynome

1.1.1 Faktorielle Momente

Hauptsächlich für diskrete Verteilungen sind faktorielle Momente, bezeichnetals µ[r], dank ihrer dort meist einfachen Form von Interesse. Ihre Definitionist analog der der gewöhnlichen (Anfangs-)Momente µr = 〈kr〉, wobei dier-te Potenz kr durch die faktorielle r-te Potenz ersetzt wird. Diese ist fürnatürliche Zahlen k ≥ r ≥ 1 definiert als

kr → k[r]def= k(k − 1)(k − 2) · · · (k − r + 1) =

k!

(k − r)!, (1.1)

demgemäß gilt die Analogie

µr = 〈kr〉 → µ[r] =⟨

k[r]⟩

. (1.2)

Der Zusammenhang von µ[1], . . . , µ[r] mit den Anfangsmomenten µ1, . . . , µr

ist linear, mit einer invertierbaren Dreiecksmatrix Sri. Die Elemente sind diesogenannten Stirlingschen Zahlen S

(r)i , i = 0, . . . , r−1. Letztere sind definiert

als Entwicklungskoeffizienten eines faktoriellen Produkts in ein Polynom:

k[r] = S(r)0 kr + S

(r)1 kr−1 + · · ·+ S

(r)r−1k .

Für S(r)i gilt die Rekursionsformel

S(r+1)i = S

(r)i − rS

(r)i−1 , S

(r)0 = 1 , S(r)

r = 0 , r = 1, 2, 3 . . . , 0 ≤ i ≤ r .

Damit lautet die Umrechnung z.B. für r = 4:

µ[1] = µ1 ,

µ[2] = −µ1 + µ2 ,

µ[3] = 2µ1 − 3µ2 + µ3 ,

µ[4] = −6µ1 + 11µ2 − 6µ3 + µ4 , (1.3)

sowie invers:

µ1 = µ[1] ,

µ2 = µ[1] + µ[2] ,

µ3 = µ[1] + 3µ[2] + µ[3] ,

µ4 = µ[1] + 7µ[2] + 6µ[3] + µ[4] . (1.4)

Die entsprechende Dreiecksmatrix lautet (z.B. im letzteren Fall):

1 0 0 01 1 0 01 3 1 01 7 6 1

.

Page 9: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

1.1 Orthogonale Polynome 3

1.1.2 Erzeugende Funktionen

Von Interesse sind auch Umrechnungen faktorieller Momente in Semiinvari-anten und umgekehrt. Dies wird am einfachsten mit erzeugenden Funktio-nen ausgeführt, die in engem Zusammenhang zur charakteristischen Funktionstehen. Wir beschränken uns hier auf den Fall diskreter Verteilungen. Mandefiniert

ϕ(t) =⟨

ekt⟩

=∑

k

pkekt ,

χ(t) =⟨

(1 + t)k⟩

=∑

k

pk(1 + t)k ,

(1.5)

sodass jeweils die r-te Ableitung bei t = 0 (d.h. der Koeffizient bei tr/r! inder Taylor-Reihenentwicklung) die r-ten Momente „erzeugt“, im zweiten Falleinsbesondere die faktoriellen Momente. (Es ist ϕ gleich der charakteristischenFunktion φ bis auf einen Faktor i bei t). Im gleichen Sinne ist lnϕ(t) Erzeu-gende der Semiinvarianten.

Zwischen ϕ und χ besteht die durch die Substitution t → ln(1 + s) , s →et − 1 vermittelte Beziehung, vgl. (1.5):

ϕ(t) =∑

pkek ln(1+s) =

pk(1 + s)k = χ(s) .

Die vor allem benötigte Berechnung der faktoriellen Momente µ[1], . . . , µ[r]

aus den Semiinvarianten κ1, . . . , κr erhält man aus der Taylor-Entwicklung(um t = 0) von

exp

r∑

j=1

κj [ln(1 + t)]j/j!

,

sowie die inverse Beziehung durch Entwickeln von

ln

1 +

r∑

j=1

µ[j](et − 1)j/j!

.

Das Ergebnis lautet (für r = 4):

Page 10: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

4 1 Ausgewählte mathematische Grundlagen der Statistik

µ[1] = κ1 ,

µ[2] = −κ1 + κ21 + κ2 ,

µ[3] = 2κ1 − 3κ21 + κ3

1 − 3κ2 + 3κ1κ2 + κ3 ,

µ[4] = −6κ1 + 11κ21 − 6κ3

1 + κ41 + 11κ2 − 18κ1κ2 + 6κ2

1κ2 + 3κ22 −

−6κ3 + 4κ1κ3 + κ4 , (1.6)

κ1 = µ[1] ,

κ2 = µ[1] − µ2[1] + µ[2] ,

κ3 = µ[1] − 3µ2[1] + 2µ3

[1] + 3µ[2] − 3µ[1]µ[2] + µ[3] ,

κ4 = µ[1] − 7µ2[1] + 12µ3

[1] − 6µ4[1] + 7µ[2] −

−18µ[1]µ[2] + 12µ2[1]µ[2] − 3µ2

[2] + 6µ[3] − 4µ[1]µ[3] + µ[4] . (1.7)

Beispiel 1. Faktorielle Momente der Poisson-VerteilungDie Erzeugende der faktoriellen Momente lautet hier

χ(t) =

∞∑

k=0

1

k!(1 + t)kλke−λ = eλt .

Daraus erhalten wir diese als Ableitungen nach t bei t = 0 in besonderseinfacher Form

µ[r] = λr .

1.1.3 Innere Produkte

Wir bezeichnen das skalare oder innere Produkt in einem linearen Funktio-nenraum f1, f2 . . . (hier beschränkt auf reelle Funktionen) als die binäre, inbeiden Argumenten lineare und symmetrische Operation

(f1, f2) =

∫ ∞

−∞

w(x)f1(x)f2(x)dx

mit einer nicht-negativen Gewichtsfunktion w(x), mit deren Hilfe man auchendliche Integrale darstellen kann. Analog schreibt man im diskreten Falle

(f1, f2) =∑

ν

w(xν )f1(xν)f2(xν) .

Wenn yν = f(xν) gemessene Größen mit bekannten unkorrelierten Fehlern δνsind, setzt man, wie bei der Berechnung des gewogenen Mittels, die Gewichteals proportional zu den inversen Fehlerquadraten an:

Page 11: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

1.1 Orthogonale Polynome 5

w(xν ) =1

δ2ν/∑

ν

1

δ2ν.

In allen Fällen ist die Forderung erfüllt, dass das innere Produkt maximalwird, wenn beide Argumente gleich sind. Eine Funktion f heißt normiert,wenn (f, f) = 1 gilt, was für eine beliebige Funktion v durch Normierenerreicht werden kann:

v → u =v

(v, v).

Zwei Funktionen sind - in Bezug auf das zugrunde gelegte innere Produkt - or-thogonal, wenn (f1, f2) = 0 gilt. Sind die betreffenden Funktionen, bezeichnetals ui, zugleich auch normiert, d.h.

(ui, uj) = δi,j ,

so spricht man auch von orthonormalen Funktionen.

1.1.4 Orthogonalisierte Polynome

Von besonderer Bedeutung zur Beschreibung statistischer Daten mit unkor-relierten Fehlern sind, dank ihrer einfachen Berechenbarkeit, Polynome, d.h.lineare Funktionen von Potenzen (oder faktoriellen Potenzen) bis zu einemfestgelegten Grad. Dabei ist es stets möglich, orthogonale oder -normale Sätzevon Polynomen zu verwenden, natürlich zu einem festgelegten inneren Pro-dukt. Der zusätzliche Rechenaufwand - auch dank der starken Entwicklungder Rechentechnik - ist meist gerechtfertigt. Zwar ist die Genauigkeit der An-passung - außer vom Grad der Polynome - nur von Anzahl, Anordnung undFehler der Messpunkte abhängig, ein wichtiger Vorteil besteht jedoch bei denhier interessierenden statistischen Anwendungen in der einfachen Form derFehlermatrix der anzupassenden Parameter, die ein Vielfaches der Einheits-matrix ist, sowie in dem Umstand, dass die Hinzunahme weiterer Parameterdie bis dahin berechneten unverändert lässt.

Die Konstruktion einer Folge orthogonalisierter Polynome geschieht nachdem Standardverfahren von Gram-Schmidt sukzessive aus einer Folge vonPotenzen 1, x, x2, . . . (es können hier auch faktorielle Potenzen x[i] verwendetwerden, ohne dass sich das Ergebnis für die resultierenden Orthogonalpoly-nome ändert). Beginnend mit Startwerten u0(x) = v0(x) = 1 setzt man

ui =vi

(vi, vi), vi+1 = xi+1 −

i∑

j=0

(xi+1, uj)uj , i = 0, 1, 2, . . .

und erhält für y(x) die Entwicklung nach orthonormalen Polynomen ur(x)mit Koeffizienten ar in der Form

y(x) ≈rmax∑

0

arur(x) , mit ar = (y, ur) .

Page 12: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

6 1 Ausgewählte mathematische Grundlagen der Statistik

Out[17]=

-4 -2 0 2 4x

0.08

0.09

0.10

0.11

0.12

0.13

0.14

0.15

y

-4 -2 0 2 4x

0.08

0.09

0.10

0.11

0.12

0.13

0.14

0.15

y

-4 -2 0 2 4x

0.08

0.09

0.10

0.11

0.12

0.13

0.14

0.15

y

-4 -2 0 2 4x

0.08

0.09

0.10

0.11

0.12

0.13

0.14

0.15

y

-4 -2 0 2 4x

0.08

0.09

0.10

0.11

0.12

0.13

0.14

0.15

y

-4 -2 0 2 4x

0.08

0.09

0.10

0.11

0.12

0.13

0.14

0.15

y

Abb. 1.1. Willkürliche Daten (äquidistante Punkte mit gleichen Fehlern) mit Nä-herungen nullter bis vierter Ordnung.

Erreicht rmax +1 die Anzahl der Messpunkte, so erhält man eine Interpolati-onsformel für y(x), mit Verkleinern von rmax nimmt die Glätte der Darstel-lung zu, unter Vernachlässigung kleinerer Details. Ein Beispiel für den Falläquidistanter Messpunkte mit gleichen Fehlern wird im folgenden gegeben.

Beispiel 2. Eine Anwendung orthonormalisierter PolynomeGegeben seien 9 äquidistante Messpunkte xi, i = −4, . . . ,+4 mit Messwer-

ten yi von gleichen Fehlern, sodass das innere Produkt gemäß

(y, y′) =+4∑

i=−4

yiy′i

Page 13: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

1.1 Orthogonale Polynome 7

definiert werden kann. Die y-Werte sind hier willkürlich als gleichverteilt ausdem Intervall [1, 2] entnommen und, nachdem ihre Summe auf Eins normiertwurde, in Abb. 1.1 als Punkte dargestellt. Durch Orthogonalisieren der Folgex0, . . . , x4 erhält man die ersten 5 orthonormierten Polynome als

u0 =1

3,

u1 =x

2√15

,

u2 =−20 + 3x2

6√77

,

u3 =x(−59 + 5x2)

18√110

,

u4 =216− 115x2 + 7x4

12√2002

.

Hieraus erhält man die ersten 5 Näherungspolynome als Partialsummenyr(x) =

∑ri=0 aiui, r = 0, . . . , 4, die in Abb. 1.1 zusammen mit den Da-

ten (Punkte) dargestellt sind. Das Ergebnis stimmt selbstverständlich mitdem der gewohnten Anpassung der Koeffizienten ai durch Minimalisieren von∑

[yi − a0x0 − a1x

1 − · · · ]2 nach entsprechender Umrechnung der Koeffizien-ten überein.

Wie oben erwähnt, wird die Fehlermatrix der Koeffizienten bei Anwendungorthogonalisierter Polynome ein Vielfaches der Einheitsmatrix. Man erhält(für unabhängige Messungen yν):

var(ak) = var

(

ν

wνuk(xν)yν

)

=∑

ν

w2ν(uk(xν))

2δ2ν

=∑

ν

wν(uk(xν))2/∑

ν

1

δ2ν

= 1/∑

ν

1

δ2ν.

Dies ist zugleich die Varianz var(a0) des gewichteten Mittels der Messwerteyν , ein zu erwartendes Ergebnis.

1.1.5 Gram-Charlier-Reihen

Eine Anwendung orthogonaler Polynome, die etwas in Vergessenheit geratenzu sein scheint, betrifft die Aufgabe der Dichteschätzung, deren Ziel es ist, mit

Page 14: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

8 1 Ausgewählte mathematische Grundlagen der Statistik

Hilfe einer beobachteten Stichprobe auf die zugehörige Verteilung zu schließen.Im hier betrachteten Fall wird dabei vorausgesetzt, dass diese Verteilung innullter Näherung bekannt ist (eventuell nach Schätzung einiger unbekannterParameter).

Die gesuchte Verteilung wird dargestellt als Produkt der (bekannten) null-ten Näherung mit einem (als Reihe entwickelten) Polynom. Die Ausgangsver-teilung ist im Falle kontinuierlicher Variate meist die Normalverteilung oderdie Gleichverteilung. Für diskrete Variate werden wir auf die Poisson- unddie Binomialverteilung eingehen. Die Bezeichnung dieser Reihen ist unter-schiedlich; in der Statistik ist es üblich, nur die Reihenentwicklungen mit derNormalverteilung bzw. der Poissonverteilung als Gewichtsfunktion als Gram-Charlier-Reihen vom Typ A oder B zu benennen. Sie sind jedoch von anderenbekannten Reihen orthogonaler Polynome (Legendre, Laguerre,...) mathema-tisch nicht unterschieden. Typ A oder B bezieht sich auf kontinuierliche oderdiskrete Variate. Eine ausführliche Abhandlung ihrer historischen Entwick-lung gibt A. Hald, [2].

Es handelt sich um Methoden der parametrischen Statistik. Die Entwick-lungskoeffizienten lassen sich in die üblichen Parameter (Momente, faktoriel-le Momente, Semiinvarianten) umrechnen. Ein enger Zusammenhang bestehtmit der Methode der Kleinsten Quadrate sowie dem Momentenverfahren. DieNäherung macht keinen Gebrauch von der Forderung der nicht-Negativitätder gesuchten Verteilungsdichte, sondern trägt rein mathematischen Charak-ter. Unter bestimmten Voraussetzungen lässt sich die Konvergenz der Reihezwar beweisen ([3], [4]), was bei unendlichen Reihen negative Abweichungenasymptotisch verschwinden lässt. In der Praxis arbeitet man jedoch stets mitabgebrochenen Reihen.

Gram-Charlier-Reihen vom Typ A

Bei weitem die häufigste Anwendung erfährt die folgende Reihenentwicklungeiner Verteilungsdichte f(x)

f(x) = (1 + a1H1(x) + a2H2(x) + . . .)N(x) , (1.8)

Hierbei sind N(x) = N(x|0, 1) die Standard-Normalverteilung (die Verwen-dung einer allgemeineren Gauß-Verteilung, z.B. N(x|µ, σ), ist ebenso möglich)und Hi(x) (leicht modifizierte, s.u.) Hermitesche Polynome i. Grades, die fol-gender Orthogonalitätsrelation genügen:

(Hi, Hj) =

∫ +∞

−∞

N(x)Hi(x)Hj(x)dx = i!δi,j . (1.9)

Ihre explizite Form kann mittels einer Rekursionsformel berechnet werden:

Hi+1 = xHi − iHi−1

woraus mit H0 = 1, H1 = x folgt

Page 15: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

1.1 Orthogonale Polynome 9

H2 = x2 − 1 ,

H3 = x3 − 3x ,

H4 = x4 − 6x2 + 3 ,

usw...

Multipliziert man (1.8) mit Hi, integriert über x und vewendet das ge-mäß (1.9) definierte innere Produkt, so erhält man die Koeffizienten in derbekannten Weise als

ai =1

i!

f(x)Hi(x)dx =1

i!

Hi

.

In dieser Form ist der Zusammenhang zwischen den Koeffizienten ai und denMomenten µj =

xj⟩

, j ≤ i, offensichtlich. Im hier betrachteten Falle mitMittelwert und Dispersion µ = 0 und σ = 1, der durch Translation undSkalierung von x stets realisierbar ist, gilt a1,2 = 0 und a3,4 ∝ γ1,2, d.h.Proportionalität zu Schiefe (γ1) und Exzess (γ2). In vierter Näherung giltalso

f(x) ≈ (1 + γ11

3!H3 + γ2

1

4!H4)N(x) .

Es ist, wie oben für die Hermiteschen Polynome gezeigt, kennzeichnendfür Gram-Charlier-Reihen, dass der jeweils zugehörige Satz von orthogona-len Polynomen durch ein inneres Produkt bestimmt wird, das mit Hilfe einerVerteilungsdichte als Gewicht gebildet wird. Bis auf einen Normierungsfaktorsind die Polynome damit eindeutig bestimmt; durch Modifikation der Ge-wichtsfunktionen entstehen jedoch verschiedene Varianten. Diesbezüglich istbeim Umgang mit der Literatur Aufmerksamkeit zu empfehlen. In Tabelle1.1.5 sind die in der Mathematik gebräuchlichsten Standardformen der Ge-wichtsfunktionen angeführt. Bei den Hermiteschen Polynomen wird dort z.B.nicht die Normalverteilung, sondern die Funktion exp(−x2) benutzt. Der Zu-sammenhang zwischen den hier benutzten und den in der Tabelle gegebenenHermiteschen Polynomen ist

Hi(x) =1√2iHi(

x√2) .

Die Gewichtsfunktionen lassen erkennen, welche Form der Polynome geeig-net ist, um kleine Abweichungen von der Verteilung zu beschreiben: Nä-herungsweise Gleichverteilungen (z.B. des Cosinus eines Polarwinkels) wer-den oft durch Legendre-Polynome approximiert, Hermitesche Polynome ver-bessern die Darstellung (fast) normal-verteilter Variate1. Mit Laguerreschen

1Durch geeignetes Zusammenfassen der Terme lässt sich erreichen, dass sie mitjeweils steigenden Potenzen von 1/

√N verschwinden und somit die asymptotische

Normalität quantitativ beschreiben können. Diese Betrachtung wurde von Edge-worth ([5])eingeführt.

Page 16: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

10 1 Ausgewählte mathematische Grundlagen der Statistik

Tabelle 1.1. Charakteristik orthogonaler Polynome.

Polynome Bereich GewichtsfunctionLegendre, Pi(x) [−1,+1] w(x) = 1Hermite, Hi(x) (−∞,+∞) w(x) = exp(−x2)Laguerre, Lα

i (x) [0,∞) w(x) = xα exp(−x)

Chebyshev, Ti(x) [−1,+1] w(x) = (1− x2)−1/2

Jacobi, P (α,γ)i (x) [0, 1] w(x) = xγ−1(1− x)α−γ

Polynomen verbessert man die Darstellung von Gamma-artigen Verteilun-gen (einschließlich der Exponentialverteilung sowie der χ2-Verteilungen). DieChebyshev-Polynome sind adäquat bei U-förmigen Verteilungen. Im Falle derJacobischen Polynome ist die Gewichtsfunktion eine Beta-Verteilung, die viel-fältige Anwendungen in der Rangordnungs-Statistik hat.

Gram-Charlier-Reihen vom Typ B

Ganz analog zur Gram-Charlier-Reihe Typ A, die wir im vorigen Abschnitteingeführt haben, dient auch die i.a. als Typ B bezeichnete Reihe zur genä-herten Rekonstruktion von Verteilungen, von denen im wesentlichen nur die(niedrigeren) Momente bekannt sind. Ging es dort um kontinuierliche Zufalls-variable, die in nullter Näherung bekannten Verteilungen gehorchten, wer-den jetzt diskrete, positive Variate betrachtet, die näherungsweise zumeistPoisson-verteilt sind. Es ist ohne Schwierigkeit möglich, auch binomialverteil-te Variate zu betrachten, deren Behandlung wir daher kurz einfügen werden.

Die Reihe für die Poisson-Verteilung lautet

f(k) = (1 + a1G1(k) + a2G2(k) + . . .)Pλ(k) , (1.10)

wobei f(k) die darzustellende diskrete Verteilung und Pλ(k) = λk exp(−λ)/k!die Poissonverteilung für k zum Parameter λ ist. Die Gr(k) sind genauer zubestimmende orthogonale Polynome der Ordnung r in k und ar die entspre-chenden Entwicklungs-(Fourier-)Koeffizienten. In der Orthogonalitätsrelationwird die Poisson-Verteilung als Gewichtsfunktion benutzt:

∞∑

k=0

Gr(k)Gs(k)Pλ(k) =r!

λrδr,s .

Ersetzt man Pλ(k) durch die Binomialverteilung Bnp (k), so ergibt sich die

Definition der entsprechenden orthogonalen Polynome Gr(k) mit binomialerWichtung. Die ar, (ar) ergeben sich damit als proportional zu den Erwar-tungswerten der Gr, (Gr):

ar =λr

r!

∞∑

k=0

Gr(k)f(k) =λr

r!〈Gr(k)〉 . (1.11)

Page 17: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

1.1 Orthogonale Polynome 11

Letztere sind Polynome der Ordnung r in k, daher sind die ar durch dieMomente von f(k) bis zur Ordnung r bestimmt.

Die Berechnung der Gr(k) kann durch Gram-Schmidt-Orthogonalisierungerfolgen, einfacher aber mittels Erzeugender Funktion: Gr(k) ist der Koeffizi-ent von tr/r! in der Potenzreihen-Entwicklung von

e−t(1 +t

λ)k .

Explizit ist, unter Verwendung der Konfluenten Hypergeometrischen FunktionU(a, b, z),

Gr(k) = (−1)rλ−kU(−k, 1− k + r, λ) .

Besonders einfach ist die Darstellung durch ein symbolisches Binom in derForm

Gr(k) = (−1 +k

λ)r ,

wobei r-te Potenzen kr jeweils durch r-te faktorielle Potenzen k[r] zu ersetzensind. Somit gilt

Gr(k) =

r∑

i=0

(

ri

)

(−1)ik[r−i]

λr−i.

Um die Polynome Gr(k) zu erhalten, ersetzt man λr−i durch n[r−i]pr−i.Bei der Berechnung der ar gemäß (1.11) werden die faktoriellen Potenzen,

von denen sie linear abhängen, durch faktorielle Momente µ[r] =⟨

k[r]⟩

ersetzt.Der allgemeine Ausdruck für ar lautet:

ar =λr

r!

r∑

i=0

(

ri

)

(−1)iµ[r−i]

λr−i.

Wie man sofort bestätigt, tritt der Fall ar = 0 für alle r > 0 ein, wenn die dar-zustellende Verteilung f selbst schon eine Poisson-Verteilung zum Parameterλ ist, da dann bekanntlich für die faktoriellen Momente µ[r] = λr gilt (sieheBeispiel 1 ). Analoges gilt für die Binomialverteilung Bn

p , unter Benutzungder faktoriellen Momente µ[r] = n[r]pr dieser Verteilung.

Umgekehrt können die faktoriellen Momente µ[r] aus gegebenen Koeffizi-enten ar linear berechnet werden:

µ[r] =

r∑

i=0

r[i]λr−iai .

Selbstverständlich lassen sich andere Momente, wie die gewohnten Anfangs- oder zentralen Momente, aus den faktoriellen Momenten bis zur gleichenOrdnung berechnen. Entsprechende Formeln findet man im vorigen Abschnitt.

Explizit lauten die unteren G-Polynome:

Page 18: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

12 1 Ausgewählte mathematische Grundlagen der Statistik

G0(k) = 1 ,

G1(k) = −1 +k

λ,

G2(k) = 1− 2k

λ+

k(k − 1)

λ2,

G3(k) = −1 + 3k

λ− 3

k(k − 1)

λ2+

k(k − 1)(k − 2)

λ3,

G4(k) = 1− 4k

λ+ 6

k(k − 1)

λ2− 4

k(k − 1)(k − 2)

λ3+

k(k − 1)(k − 2)(k − 3)

λ4.

Die entsprechenden Koeffizienten ar, Polynome Gr und faktoriellen Momentefür die Binomialverteilung ergeben sich durch Ersetzen von λi durch n[i]pi inobigen Formeln.

Schlussbemerkungen

Die Anwendung der Gram-Charlier-Reihe führt auf folgende Fragestellungen:

1. Die Auswahl der nullten Näherung: Vor allem im kontinuierlichen Fal-le gibt es viele Möglichkeiten, unter denen natürlich die Normalverteilungbevorzugt ist. Im diskreten Fall ist die Poisson-Verteilung, evtl. eine Bino-mialverteilung, meist sinnvoll. Ist die nullte Näherung festgelegt, sollte sieals Gewichtsfunktion bei der Definition des inneren Produkts dienen unddie Polynome damit orthogonalisiert werden. Dies ist dank analytischerRechenprogramme kein wesentlicher Aufwand, erleichtert aber die Dar-stellung der Fehler und der betreffenden Momente. Ob die Anpassung derKoeffizienten über Erwartungswerte oder eine χ2-Minimierung geschieht,macht keinen wesentlichen Unterschied. Es lässt sich leicht zeigen, dassbeide Ergebnisse übereinstimmen, wenn in letzterem Falle die Inverse dernullten Näherung als Gewicht der χ2-Terme genommen wird.

2. Eine stets auftretende Frage ist die nach dem richtigen Abbruch der Rei-he. Die geforderte Entscheidung ist die zwischen (Über-) Glättung undÜber-Anpassung. Untersuchungen zur numerischen Stabilität der höhe-ren Momente und selbstverständlich Monte-Carlo Simulation können da-bei hilfreich sein.

Page 19: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

1.2 Einige Weitere Verteilungen

1.2.1 Die Logarithmische Normalverteilung

Die Verteilung einer Zufallsvariablen x, deren Logarithmus u = lnx normal-verteilt ist,

g(u) =1√2πs

e−(u−u0)2/2s2 ,

mit dem Mittelwert u0 und der Varianz s2 folgt einer logarithmischen Nor-malverteilung (log-normal distribution), s. Abb. 1.2:

f(x) =1

xs√2π

e−(lnx−u0)2/2s2 .

0 2 4 6 80.0

0.5

1.0

1.5

s=1s=0.5 s=0.2

s=0.1f(x)

x

Abb. 1.2. Logarithmische Normalverteilung mit u0 = 1 und verschiedenen Wertenvon s.

Wie die Normalverteilung ist dies eine zweiparametrige Verteilung, jedochmit Parametern, die sich von Momenten, z.B. Mittelwert µ und Varianz σ2,

Page 20: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

14 1 Ausgewählte mathematische Grundlagen der Statistik

unterscheiden. Letztere sind gegeben durch

µ = eu0+s2/2,

σ2 = (es2 − 1)e2u0+s2 . (1.12)

Die Verteilung ist nur für positive x erklärt, während u0 auch negativ seinkann.

Die charakteristische Funktion lässt sich als Potenzreihe schreiben, woraussich die Momente der Ordnung k bezüglich des Ursprungs als

µk = eku0+12k

2s2

ergeben.Andere charakteristische Parameter sind

Median : x0.5 = eu0 ,

Modalwert : xmod = eu0−s2 ,

Schiefe : γ1 = (es2

+ 2)√

es2 − 1 ,

Exzess : γ2 = e4s2

+ 2e3s2

+ 3e2s2 − 6 . (1.13)

Die Verteilung einer Zufallsvariablen x =∏

xi, welche das Produkt vieler sol-cher Variablen ist, die als positiv und mit kleiner Varianz vorausgesetzt sind,ist, zufolge des Zentralen Grenzwertsatzes, die logarithmische Normalvertei-lung. Eine typische Anwendung dieser Verteilung wird im folgenden Beispielgezeigt.

Beispiel 3. Verteilung eines geometrischen MittelsDas geometrische Mittel einer Anzahl N von Zufallsgrößen x1, . . . , xN ,

die in jedem Falle unabhängig und meist auch identisch verteilt angenommenwerden, ist definiert als

x = N√x1 · · ·xN .

Offensichtlich gilt ln x =∑N

i lnxi/N , und zufolge des Zentralen Grenzwert-satzes sollte ln x für große N dann normal verteilt werden, x also logarithmischnormalverteilt.

Um dieses Verhalten zu demonstrieren, betrachten wir eine Stichprobevon 1000 geometrischen Mittelwerten x, die jeweils über 10 Zufallszahlenx1, . . . , x10 berechnet werden. Der Einfachheit halber sind die xi unabhängigund gleichverteilt zwischen 0 und 1 angenommen. Das Ergebnis zeigt Abb.1.3: Das Histogramm stellt die erzeugten Daten, die Kurve die logarithmischeNormalverteilung mit den Parameterwerten u0 = −1, s2 = 1/10 dar.(DieBerechnung benutzt die Erwartungswerte von u = ln x =

i lnxi/N und(u− u0)

2

Page 21: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

1.2 Einige Weitere Verteilungen 15

0.1 0.2 0.3 0.4 0.5 0.6 0.70

1

2

3

4

x

fHxL

Abb. 1.3. Vergleich einer logarithmischen Normalverteilung mit u0 = −1, s2 = 1/10und erzeugten Daten (Histogramm, s. Text).

u0 = 〈u〉 = 〈ln(xi)〉 =∫ 1

0

lnxidxi = −1

Ns2 =⟨

ln2(xi)⟩

− u20 = 1 ).

Die Übereinstimmung ist für Mittelwert und Varianz, d.h. global, relativgut. Man erhält für das Histogramm bzw. (in Klammern) die Verteilungµ = 0.388, (0.387), σ2 = 0.014, (0.016). Im Detail erkennt man jedoch nochbeträchtliche Abweichungen.

Grundsätzlich wichtige Anwendungen dieser Verteilung in Physik undTechnik sind die Untersuchungen von Produkten von Zufallsvariablen derForm

i x0εi.

Page 22: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

16 1 Ausgewählte mathematische Grundlagen der Statistik

1.2.2 Die t-Verteilung (Student’s t Distribution)

Diese Verteilung, eingeführt von W. S. Gosset (Pseudonym „Student“) wirdoft benutzt, um die Hypothese zu testen, dass eine Stichprobe aus einer Nor-malverteilung mit gegebenem Mittelwert, aber unbekannter Varianz stammt.Sie stellt die Verteilung einer sogenannten „studentisierten“ Variate t dar, de-finiert als

t =x− µ

s. (1.14)

Der Zähler ist die Differenz zwischen dem empirischen (Proben-) Mittel unddem Mittelwert der Gauß-Verteilung, von der die Stichprobe der Größe Ngenommen wurde. Der Nenner s ist eine Schätzung der Standardabweichungσ des Zählers aus der Probe. Er ist definiert gemäß

s2 =1

N(N − 1)

N∑

i=1

(xi − x)2 .

Die Summe auf der rechten Seite, nach Division durch die Varianz σ2 der„theoretischen“ Gauß-Verteilung, folgt einer χ2 Verteilung mit f = N − 1Freiheitsgraden (s. [1] S. 68) Teilt man auch den Zähler von (1.14) durchseine „theoretische“ Standardabweichung σ/

√N , so folgt er einer Normalver-

teilung der Varianz 1. Somit ist die Verteilung der Variablen t der Quotientzweier unabhängiger Zufallsvariablen: eines normalverteilten Zählers und derQuadratwurzel einer χ2

f verteilten Variate. Der Wert der Standardabweichungσ wird hierbei herausgekürzt. Als einziger Parameter verbleibt die Zahl derFreiheitsgrade f .

Die analytische Form der Wahrscheinlichkeitsdichte kann nach der Stan-dardmethode [1], S. 51, berechnet werden. Das Ergebnis ist

h(t|f) = Γ ((f + 1)/2)

Γ (f/2)√πf

(

1 +t2

f

)−f+12

.

Diese Formel kann auch für beliebige reelle Parameter f benutzt werden, so-fern keine singulären Ausdrücke entstehen. Für f = 1 erhält man die Cauchy-Verteilung, für große f eine Annäherung an die Normalverteilung N(0, 1),s. Abb.1.4. Die Verteilung ist symmetrisch in Bezug auf den Ursprung undglockenförmig, jedoch mit größeren Schwänzen als N(0, 1). Die oben erwähn-ten Singularitäten zeigen sich bei zu kleinen f -Werten beim Berechnen derMomente. Nur die geraden Momente sind von Null verschieden und lauten

µi = fi2

1 · 3 · · · (i− 1)

(f − 2)(f − 4) · · · (f − i).

Sie existieren nur für i ≤ f − 1.Die Varianz für f ≥ 3 ist σ2 = f/(f − 2), der Exzess für f ≥ 5, γ2 =

6/(f − 4), ist stets positiv und verschwindet für große f , in Übereinstimmungmit der Konvergenz gegen die Normalverteilung.

Page 23: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

1.2 Einige Weitere Verteilungen 17

-8 -6 -4 -2 0 2 4 6 80.0

0.1

0.2

0.3

0.4 normalf=5f=2f=1

X

Abb. 1.4. t-Verteilung für 1, 2, 5 Freiheitsgrade und Normalverteilung.

Qualitativ sind sehr große t-Werte oft ein Zeichen für einen mit µ unver-einbaren Mittelwert der Probe. Manchmal wird die t-Verteilung zur Beschrei-bung experimenteller Daten benutzt, wenn diese bei großen Fehlern durcheine Gauß-Verteilung schlecht beschrieben werden. Insbesondere bei Datenvon sehr großer Statistik ist die Berücksichtigung aller systematischen Fehlerkaum möglich, was größere Schwänze als bei Gaußschen Daten verursacht.

Bei Vorhandensein eines Generators für normalverteilte Variate erhält maneine t-Variate zu Simulationszwecken durch Erzeugen von f + 1 normalver-teilten x = x0, x1, . . . , xf und Berechnen von

t =x0

1f (x

21 + · · ·+ x2

f ).

Ein typisches Anwendungsfeld der t-Verteilung ist die Herleitung vonTests oder Vertrauensgrenzen in Fällen, wo eine Stichprobe aus einer Gauß-Verteilung um den Mittelwert µ mit unbekannter Breite stammt. Die mitdiesem Informationsverlust verbundene Erweiterung der Vertrauensgrenzenwird im folgenden Beispiel berechnet.

Page 24: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

18 1 Ausgewählte mathematische Grundlagen der Statistik

Beispiel 4. Vertrauensgrenzen gemäß t-VerteilungGegeben sei eine Stichprobe x1, . . . , xN aus einer Gaußschen Gesamtheit.

Sowohl Mittelwert als auch Varianz müssen aus der Probe geschätzt werden.Für letztere erhält man (vgl. [1], S.79)

s2 =

N∑

i=1

(xi − x)2/[N(N − 1)] .

Zur Berechnung des Vertrauensniveaus für ein Intervall, das in Einheiten derStandardabweichung vorliegt, muss nunmehr statt der Gauß-Verteilung mitder t-Verteilung gerechnet werden. Die Variate t, gegeben als (x − µ)/s, istnach obigem verteilt gemäß h(t|f) mit f = N − 1 Freiheitsgraden. Das Ver-trauensniveau bei einer gegebenen Anzahl von Standardabweichungen sinkt,wegen der ausgeprägteren Schwänze der t-Verteilung.

N 68.3% 99%3 1.32 3.8510 1.06 1.2620 1.03 1.11∞ 1.00 1.00

Anstelle dieser Größe geben wir in der Tabelle den Faktor k, um den dieIntervalllänge vergrößert werden muss, um das gleiche Vertrauensniveau wiebei der Gauß-Verteilung zu erhalten. Zum besseren Verständnis betrachtenwir zwei Beispiele: Für das Vertrauensniveau 68.3% und N = 3 benötigenwir ein Intervall von 1.32 Standardabweichungen; entsprechend für 99% undN = 10 ein Intervall von 1.26× 2.58 = 3.25 Standardabweichungen.

Wie erwartet sind die Diskrepanzen am größten für kleine N , sowie k → 1für N → ∞.

1.2.3 Winkelverteilungen

Diese besonders in der Physik oft verwendete Klasse von Verteilungen soll imfolgenden näher betrachtet werden2.

In physikalischen Anwendungen interessieren wir uns oft für räumlicheVerteilungen. Zum Glück zeigen unsere Probleme oft gewisse Symmetrien,die die Darstellung der Phänomene erleichtern. Je nach Art der Symmetrie

2Der Inhalt dieses Abschnitts, insbesondere sofern er dreidimensionale (sphäri-sche) Verteilungen betrifft, ist im Haupttext, [1], S. 43, zum Teil schon enthalten,wird aber hier nochmals dargestellt.

Page 25: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

1.2 Einige Weitere Verteilungen 19

eines physikalischen Prozesses oder eines Detektors wählen wir geeignete Ko-ordinatensysteme, insbesondere sphärische oder ebene Polarkoordinaten oderauch Zylinderkoordinaten. Diese Koordinaten sind besonders geeignet zur Be-schreibung von Prozessen, in denen Strahlung aus einer Punktquelle emittiertwird oder wo ein Detektor sphärische oder zylindrische Symmetrie aufweist.Dann ist oft der Abstand, d.h. der Radiusvektor, nicht die hauptsächlicheGröße, und der Prozess wird zweckmäßig durch Angabe von Richtungen,d.h.Winkelverteilungen beschrieben. In anderen Situationen gehen überhauptnur Richtungen ein, etwa bei der Untersuchung der Polarisation von Lichtbeim Passieren eines optisch aktiven Mediums, oder beim Zweikörperzerfalleines Teilchens im Fluge, wo die Orientierung der Normalen auf der Zerfall-sebene wesentliche Information enthält. In ähnlicher Weise werden Vertei-lungen von physikalischen Größen auf der Erdoberfläche als Funktionen vonWinkelkoordinaten, nämlich der geografischen Länge und Breite, beschrieben.

Verteilung des Polarwinkels

Die Beziehungen

x = r cosϕ ,

y = r sinϕ

verbinden Polarkoordinaten r, ϕ mit kartesischen Koordinaten x , y. Im Falleperiodischer Funktionen wird meist ϕ auf das Intervall [−π, π] beschränkt.Diese Wahl ist im Prinzip willkürlich.

Für eine isotrope Verteilung sind alle Winkel gleichwahrscheinlich und wirerhalten eine gleichmäßige Verteilung des Polarwinkels ϕ:

g(ϕ) =1

2π.

Da meist periodische Funktionen vorliegen, ist Sorgfalt beim Berechnen vonMomenten und allgemein Erwartungswerten geboten. Zum Beispiel ist derMittelwert zweier Winkel ϕ1 = π/2, ϕ2 = −π nicht, wie man formalberechnen würde, (ϕ1 + ϕ2)/2 = −π/4, sondern 3π/4. Zur Vermeidungsolcher Fehler ist es zu empfehlen, auf die (kartesischen) Einheitsvektorenxi, yi = cosϕi, sinϕi zurückzugreifen, für diese die Mittelwerte der Kom-ponenten zu bilden und dann daraus den resultierenden Polarwinkel zu extra-hieren.

Beispiel 5. Die v. Mises-VerteilungBetrachten wir die Brownsche Bewegung eines Teilchens auf einer Flüssig-

keitsoberfläche. Bei einem Startpunkt r0 ist seine Position r zu einem späterenZeitpunkt

Page 26: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

20 1 Ausgewählte mathematische Grundlagen der Statistik

f(r) =1

2πσ2exp

(

−|r − r0|22σ2

)

.

Unter Berücksichtigung der Jacobischen Determinante, ∂(x, y)/∂(r, ϕ) = r,ist die Verteilung in Polarkoordinaten

g(r, ϕ) =r

2πσ2exp

(

−r2 + r20 − 2rr0 cosϕ

2σ2

)

.

Zur Vereinfachung wurde der Ursprung von ϕ so gelegt, dass ϕ0 = 0. Fürfestes r erhalten wir die bedingte Verteilung

g(ϕ) = g(ϕ|r) = cN (κ) exp (κ cosϕ)

mit κ = rr0/σ2 und cN (κ) als Normierungskonstante. Dies ist die v. Mises-

Verteilung. Sie ist symmetrisch in ϕ und unimodal mit dem Maximum beiϕ = 0. Die Normierungskonstante

cN (κ) =1

2πI0(κ)

enthält I0, die modifizierte Besselfunktion nullter Ordnung [6].Für große κ nähert sich die Verteilung einer Gaußschen mit der Variance

1/κ. Um dies zu zeigen, schreiben wir die Verteilung in der Form

g(ϕ) = cN (κ)eκe[−κ(1−cosϕ)]

und benutzen die asymptotische Beziehung limx→∞ I0(x) ∼ ex/√2πx (siehe

[6]). Die Exponentialfunktion wird klein für größere Werte von (1−cosϕ), undkleine Werte können durch ϕ2/2 genähert werden. Somit ist die asymptotischeForm der Verteilung

g =

κ

2πe−κϕ2/2 . (1.15)

Im Limes κ = 0, der auftritt für r0 = 0 oder σ → ∞, wird die Verteilungerwartungsgemäß gleichmäßig.

Verteilungen Sphärischer Winkel

Räumliche Richtungen beschreibt man durch zwei Winkel, den Polarwinkel θund den Azimutalwinkel ϕ, die wir hier durch die Transformationsbeziehungenmit den kartesischen Koordinaten definieren:

Page 27: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

1.2 Einige Weitere Verteilungen 21

x = r sin θ cosϕ , −π ≤ ϕ ≤ π

y = r sin θ sinϕ , 0 ≤ θ ≤ π

z = r cos θ .

Die Jacobische Determinante ist ∂(x, y, z)/∂(r, θ, ϕ) = r2 sin θ. Eine gleich-mäßige Verteilung innerhalb einer Kugel vom Radius R in kartesischen Koor-dinaten

fu(x, y, z) =

3/(4πR3) wenn x2 + y2 + z2 ≤ R2 ,0 sonst

transformiert sich somit in

hu(r, θ, ϕ) =3r2

4πR3sin θ wenn r ≤ R .

Daraus erhalten wir die gleichmäßige Winkelverteilung durch Marginalisierenbezüglich r:

hu(θ, ϕ) =

∫ R

0

hu(r, θ, ϕ)dr =1

4πsin θ . (1.16)

Räumliche Winkelverteilungen werden meist in den Koordinaten z = cos θ undϕ ausgedrückt, da dann die gleichmäßige Verteilung sich weiter vereinfacht:

gu(z, ϕ) =1

mit |z| ≤ 1.Die Wahrscheinlichkeitsdichte g(z, ϕ) einer beliebigen Verteilung in z, ϕ

definiert man in gewohnter Weise durch d2P = g(z, ϕ)dzdϕ. Das Produktdzdϕ = sin θdθdϕ = d2Ω wird Raumwinkelelement genannt und entsprichteinem infinitesimalen Oberflächenelement auf der Einheitskugel. Ein Raum-winkel Ω definiert eine Fläche auf der Einheitskugel und enthält alle Richtun-gen, die auf diese Fläche zeigen.

Beispiel 6. Fishers Sphärische VerteilungAnstelle der v. Mises Verteilung aus dem vorigen Beispiel betrachten wir

nun eine zweidimensionale Winkelverteilung, erzeugt durch eine dreidimen-sionale isotrope Gauß-Verteilung mit gleichen Varianzen σ2 = σ2

x = σ2y = σ2

z ,deren Zentrum wir auf die z-Achse legen, r0 = 0, 0, 1. In sphärischen Koor-dinaten erhalten wir dann die Wahrscheinlichkeitsdichte

f(r, θ, ϕ) =1

(2π)3/2σ3r2 sin θ exp

(

−r2 + r20 − 2rr0 cos θ

2σ2

)

.

Für festes r erhalten wir eine (bedingte) Verteilung nur für θ und ϕ, die durchunsere Wahl von r0 auch von ϕ unabhängig ist:

Page 28: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

22 1 Ausgewählte mathematische Grundlagen der Statistik

g(θ, ϕ) = cN (κ) sin θ exp(κ cos θ) .

Der Parameter κ ist wie im vorigen Beispiel κ = rr0/σ2. Anwendung der

Normalisierung∫

gdθdϕ = 1 liefert cN (κ) = κ/(4π sinhκ) und

g(θ, ϕ) =κ

4π sinhκeκ cos θ sin θ , (1.17)

eine zweidimensionale unimodale Verteilung, die als Fishers sphärische Ver-teilung bekannt ist. Ebenfalls wie im vorigen Beispiel findet man im Limesκ → 0 die gleichmäßige Verteilung (1.16) und für große κ die asymptotischeVerteilung

g(θ, ϕ) ≈ 1

4πκθ e−κθ2/2 ,

die eine Exponentialverteilung in θ2 darstellt. Als Funktion von z = cos θvereinfacht sich (1.17) zu

h(z, ϕ) =κ

4π sinhκeκz ,

welches die räumliche Form der Verteilung besser als (1.17) darstellt.

1.2.4 Zusammengesetzte- oder Mischverteilungen

In der statistischen Literatur werden die Bezeichnungen „zusammengesetz-te“ (compound) und „Misch-“ (mixed) Verteilung nicht einheitlich verwendet.Manchmal wird erstere als Spezialfall einer Mischverteilung betrachtet.

Überlagerung von Verteilungen

Auch im Falle einer (linearen) Überlagerung spricht man manchmal von einerMischverteilung:

f(x) =

N∑

i=1

wifi(x) , (1.18)

P (k) =N∑

i=1

wiPi(k) . (1.19)

In physikalischen Anwendungen ist dieser Fall z.B. gegeben, wenn eine Reihevon Resonanzen oder Spitzen über einem Untergrund beobachtet wurde. DieBerechnung von Mittelwert und Varianz im Falle von zwei Komponenten wur-de bereits in [1], S. 21 demonstriert und kann leicht auf mehr Komponentenerweitert werden.

Page 29: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

1.2 Einige Weitere Verteilungen 23

Zusammengesetzte Verteilungen

Sind Parameter einer Verteilung ihrerseits zufällig verteilt, spricht man von ei-ner zusammengesetzten Verteilung. Verschiedene Kombinationen von stetigenund diskreten Verteilungen können betrachtet werden, aber wir beschränkenuns zunächst auf den Fall einer resultierenden stetigen Verteilung.

f(x) =

∫ ∞

−∞

h(x|λ)g(λ)dλ , (1.20)

f(x) =∑

k

h(x|λk)Pk .

Die Beziehung (1.20) hat die Form einer Faltung und ist eng verbunden mitder Marginalisierung (Bildung einer Randverteilung) einer zweidimensionalenVerteilung von x und λ. Eine zusammengesetzte Verteilung kann auch dieForm (1.18) oder (1.19) haben, wobei nunmehr die Gewichte unabhängig undzufällig verteilt sind.

Oft messen wir eine statistische Größe mit einem Detektor von begrenzterAuflösung. Dann ist die Wahrscheinlichkeit, einen Wert x′ zu beobachten, ab-hängig vom ungestörten Wert x, der seinerseits zufällig mit einer Verteilungg(x) ist. (In diesem Zusammenhang ist die Bezeichnung meist etwas verschie-den von der in(1.20) benutzten) Wir erhalten die Faltung

f(x′) =

∫ ∞

−∞

R(x′, x)g(x)dx .

Beispiel 7. Messung einer Zerfallszeit mit Gaußscher AuflösungEin Myon kommt in einem Szintillator zur Ruhe und zerfällt unter Aussen-

dung eines Elektrons. Die Zeit zwischen den beiden entsprechenden Lichtpul-sen folgt einer Exponentialverteilung γe−γt mit γ als Myon-Zerfallskonstante.Beobachtet wird das Zeitintervall t′ mit der Antwort-Funktion

R(t′, t) =1√2πσ

exp

(

− (t′ − t)2

2σ2

)

.

Das Faltungsintegral

f(t′) =1√2πσ

∫ ∞

0

exp

(

− (t′ − t)2

2σ2

)

γe−γtdt

= γe−γt′ 1√2πσ

∫ ∞

0

exp

(

− (t′ − t)2

2σ2

)

eγ(t′−t)dt

= γe−γt′ 1√2πσ

∫ ∞

−t′exp

(

− x2

2σ2

)

e−γxdx

Page 30: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

24 1 Ausgewählte mathematische Grundlagen der Statistik

0 2 4 61E-3

0.01

0.1

1

f(t)

t

Abb. 1.5. Lebensdauerverteilung, original (durchgezogene Linie) und mit Gauß-scher Auflösung gemessen.

lässt sich mit der Fehler-Funktion

erfc(x) = 1− erf(x) =2√π

∫ ∞

x

e−t2dt ,

ausdrücken:

f(t′) =1

2γ exp−γt′− 1

2σ2γ2

erfc

(−t′ + σ2γ√2σ

)

.

Das Ergebnis für γ = 1, σ = 0.5 ist in Abb. 1.5 gezeigt. Außer für kleine tist die beobachtete Zeit zu größeren Werten verschoben. Im Grenzfall t → ∞wird das Integral konstant und die Verteilung f∞(t′) ist exponentiell mit dergleichen Neigung abfallend wie die unverzerrte Verteilung

f∞(t′) ∝ γe−γt′ .

Diese Eigenschaft gilt für alle Messungen, in denen die Auflösung eine Funk-tion von

t′ − t ist. Diese Translations-Invarianz ist meist erfüllt.

Page 31: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

1.2 Einige Weitere Verteilungen 25

Ein weiteres Beispiel wurde bereits in [1], S. 57, behandelt: Eine Bino-mialverteilung Bn

p (k) beschreibt k Erfolge bei n Versuchen, etwa k Zerfälleeines Teilchens in einen bestimmten Zerfallskanal. Die Anzahl n der Teichenin der Apparatur unterliege einer Poissonverteilung mit Mittelwert λ. Dannwird gezeigt, dass k einer Poissonverteilung zum Parameter pλ gehorcht.

Verallgemeinerte Verteilungen

Ein weiterer Spezialfall einer Mischverteilung liegt vor, wenn eine Stichprobevom Umfang N betrachtet wird, die Anzahl N jedoch nicht als fest gewähl-ter Parameter, sondern als Zufallsvariable betrachtet wird (häufig, aber nichtnotwendig, einer Poisson-Verteilung gehorchend).

Im Falle einer Summe von unabhängigen, identisch verteilten Variaten xi

mit einer zufällig verteilten Anzahl von Summanden n spricht man auch vonverallgemeinerten Verteilungen (generalized distributions). Die Beschreibungkann selten in geschlossener Form erfolgen; hilfreich sind erzeugende Funk-tionen, beziehungsweise Momente und Semiinvarianten sowie Monte-Carlo Si-mulation. Für Erwartungswerte und Varianzen gelten die Beziehungen (mitx =

∑ni=1 xi) (bei n = 0 vereinbart man x = 0):

E(x) = E(xi)E(n) ,

var(x) = var(xi)E(n) + (E(xi))2var(n) .

Im Sonderfall einer Poisson-Verteilung für n gilt var(n) = E(n), dahervar(x) = E(x2

i )E(n).

Die zusammengesetzte Poisson-Verteilung und Näherungen

Bei der Behandlung in [1], S.58 von zusammengesetzten Poisson-Verteilungen(ZPV) und ihrer genäherten Beschreibung mittels skalierter Poisson-Verteilungen(SPV) war die Güte dieser Näherung nur durch Beispiele angedeutet worden.Hier soll dies nochmals mittels höherer Momente (Schiefe γ1 und Exzess γ2,s. [1], S. 22) gezeigt werden.

Die ZPV ist eine Mischverteilung, die erzeugt wird, wenn eine Folge vonunabhängigen, positiven Gewichten w1, . . . , wk aus einer gegebenen diskretenoder stetigen Verteilung (Pw1, . . . , wN bzw. g(w)) entnommen und aufsum-miert wird, wobei die Anzahl k der Summanden ebenfalls zufällig ist.

Genauer betrachtet man im ersten Falle die Summe x =∑N

i=1 kiwi , mitPoisson-verteilten Zahlen ki zu Mittelwerten λi, im zweiten die Summe x =∑k

i=1 wi mit einer Poisson-verteilten Anzahl k .Die Äquivalenz beider Definitionen hängt mit folgender Identität zusam-

men:

N∏

i=1

Pλi(ki) = Pλ(k)M

kε1,...,εN (k1, ..., kN ) . (1.21)

Page 32: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

26 1 Ausgewählte mathematische Grundlagen der Statistik

Die linke Seite beschreibt N unabhängige Poisson-Prozesse mit Mittelwer-ten λi und Zufalls-Variablen ki, die rechte einen einzelnen Poisson-Prozessmit λ = Σλi und der Zufalls-Variablen k = Σki, wobei die Zahlen ki einerMultinomialverteilung folgen:

Mkλ1,...,λN

(k1, ..., kN ) =k!

N∏

i=1

ki!

N∏

i=1

εki

i .

Hierbei ist k über N verschiedene Klassen mit Wahrscheinlichkeiten εi = λi/λverteilt.

Die Gültigkeit von (1.21) im Binomialfall

PλMkλ1/λ,λ2/λ

=e−λλk

k!

k!

k1!k2!

λk11 λk2

2

λk1λk2=

e−(λ1+λ2)λk11 λk2

2

k1!k2!= Pλ1Pλ2 (1.22)

kann einfach auf den Fall mehrfach wiederholter Poisson-Prozesse ausgedehntwerden. Die Multinomialverteilung beschreibt eine zufällige Verteilung von kEreignissen auf N Klassen3.

Der Übergang von einer diskreten zu einer stetigen Gewichtsverteilungg(w) erfordert einen Grenzübergang N → ∞ verbunden mit εi → 0, sodassεiN = 1: Bei einer genügend großen Klassenanzahl N wird jede Klasse höch-stens ein Ereignis enthalten und die zusammengesetzte Verteilung bezieht sichauf x =

∑ki=1 wi.

Die oben erwähnte Näherung der zusammengesetzten Poisson-Verteilung(ZPV) durch eine geeignet skalierte Poisson-Verteilung (SPV) soll im folgen-den nochmals ausführlicher diskutiert werden, wobei einige Formeln wieder-holt werden.

Die SPV ist bestimmt durch die Forderung, dass die ersten zwei Momenteder ZPV reproduziert werden sollen. Diese ergeben sich, wegen E(ki) = λi,mit λ =

λi zu

E(x) = E(w)λ1 + · · ·+ E(w)λN = E(w)λ (1.23)

var(x) = E(w2)λ1 + · · ·+ E(w2)λN = E(w2)λ . (1.24)

Dazu definierten wir einen äquivalenten Mittelwert λ,

λ =λE(w)2

E(w2), (1.25)

eine äquivalente Zufallsvariable k ∼ Pλ und einen Skalenfaktor s,

s =E(w2)

E(w), (1.26)

3Sie ist damit (N − 1)-dimensional, im Gegensatz zur N-dimensionalen zusam-mengesetzten Verteilung.

Page 33: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

1.2 Einige Weitere Verteilungen 27

sodass mit (1.23), (1.24), (1.25), (1.26) Erwartungswert und VarianzE(sk) = sλ = E(w)λ = E(x) und var(sk) = s2λ = E(w2)λ = var(x) sind.

Um eine Aussage über die Güte der Näherung durch die SPV zu erhal-ten, vergleichen wir sie mit der asymptotischen Näherung durch eine Gauß-Verteilung. Geeignete Vergleichsparameter sind Momente höherer als 2.Ord-nung, bzw. Schiefe γ1 und Exzess γ2, [1], S.32. Wir vergleichen hier die Se-miinvarianten der Ordnungen 3 und 4, was der Betrachtung von Schiefe undExzess äquivalent ist.

Für die Semiinvarianten der SPV sowie der ZPV gilt

κm = smλ sowie κm = E(wm)λ . (1.27)

Wir vergleichen die Semiinvarianten der skalierten mit denen der zusammen-gesetzten Verteilung und bilden dazu die Verhältnisse κm/κm. (Per definitio-nem stimmen diese für m = 1, 2 überein, da die zwei niedrigsten Momente diegleichen sind). Mit Hilfe von (1.25) und (1.26) finden wir

κ3 = E(w3)λ , κ3 = s3λ =E(w2)2

E(w)λ (1.28)

κ4 = E(w4)λ , κ4 = s4λ =E(w2)3

E(w)2λ (1.29)

und die Quotienten sind

κ3

κ3=

E(w3)E(w)

E(w2)2≥ 1 , (1.30)

κ4

κ4=

E(w4)E(w)2

E(w2)3≥ 1 . (1.31)

Zum Beweis dieser Beziehungen benutzen wir die Höldersche Ungleichung

i

aibi ≤(

i

api

)1/p(∑

i

bp/(p−1)i

)(p−1)/p

,

wobei ai, bi nicht-negativ und p > 1 ist. Für p = 2 erhalten wir die Cauchy-Schwartzsche Ungleichung. Setzt man ai = w

3/2i , und bi = w

1/2i , so erhält

man unmittelbar die Beziehung (1.30) für κ3:

(

i

w2i

)2

≤∑

i

w3i

i

wi .

Allgemein, mit p = n − 1 und ai = wn/(n−1)i , bi = w

(n−2)/(n−1)i , lautet die

Ungleichung

Page 34: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

28 1 Ausgewählte mathematische Grundlagen der Statistik

0 10 20 30 40 0 10 20 30 40 50

µ=20 f(w)=exp(-w)

x

µ=20truncated normal

x

Abb. 1.6. Vergleich von Näherungen der ZPV bei verschiedenen Gewichtsverteilu-gen, siehe Text.

(

i

w2i

)n−1

≤∑

i

wni

(

i

wi

)n−2

,

was für n = 4 (1.31) einschließt.Die Werte κ3, κ4 der SPV liegen zwischen denen der ZPV und der Normal-

verteilung (in der sie verschwinden). Daher ist die SPV eine bessere Näherungals letztere und sie konvergiert zur ZPV.

Beispiel 8. Vergleich der ZPV mit der SPV-Näherung und der Normalvertei-lung.

Abb. 1.6 zeigt die Ergebnisse einer Simulation von ZPVs mit zwei ver-schiedenen Gewichtsverteilungen. Die simulierten Ereignisse wurden in Histo-grammen gesammelt, aber dargestellt als leichter zu lesende Linien-Graphen.Die zugehörigen SPVs wurden mit Parametern entsprechend der Beziehun-gen (1.25) and (1.26) erzeugt. Sie sind mit punktierten Linien gezeichnet.Die Näherungen mit Normalverteilungen sind sind mit gestrichelten Lini-en gezeigt. Im linken Bild sind die Gewichte exponentiell verteilt, im rech-ten genügen sie einer abgeschnittenen, renormalisierten NormalverteilungNt(x|1, 1) = cN(x|1, 1), x > 0 mit Mittelwert und Varianz gleich 1, wobeinegative x abgeschnitten werden. In diesem Fall ist die Näherung durch dieSPV kaum von der ZPV zu unterscheiden. Die exponentielle Gewichtsvertei-lung enthält dagegen größere Gewichte mit geringer Häufigkeit, wodurch dieNäherung etwas schlechter wird. Auch hier ist sie jedoch noch recht gut. Die

Page 35: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

1.2 Einige Weitere Verteilungen 29

Beispiele zeigen, dass diese Näherung die ZPV befriedigend wiedergibt undder einfachen Näherung durch eine Normalverteilung überlegen ist.

1.2.5 Poisson Bootstrap

In [1], S.290 wurde kurz die auch als „resampling“ oder „bootstrap“ bekannteTechnik einer wiederholten Probennahme eingeführt. Im Standard Bootstrap[7] nimmt man weitere Stichproben, indem man von den realisierten Beobach-tungen, xi, i = 1, 2, ..., N , betrachtet als empirische Verteilung, weitere MonteCarlo Proben zieht (mit Ersetzen, d.h. Mehrfach-Vorkommen der xi sind mög-lich). Poisson Bootstrap ist eine spezielle Resamplingtechnik, bei welcher zuallen N Beobachtungen xi Poisson-verteilte Anzahlen ki ∼ P1(ki) = 1/(eki!)assoziiert werden. Genauer, für eine Bootstrap-Probe wird der Wert xi ki-fach genommen, wobei ki zufällig aus einer Poisson-Verteilung zum Para-meter(Mittelwert) λ = 1 gewählt wird. Proben, bei denen sich die Anzahlder Ergebnisse vom Umfang N der beobachteten Probe unterscheidet, d.h.ΣN

i=1ki 6= N , werden einfach übergangen.Poisson Bootstrap ist vollständig äquivalent zum Standard Bootstrap. Es

hat attraktive theoretische Eigenschaften [8]. Ein gewisser Nachteil ist dieerhöhte Rechenzeit im Zusammenhang mit dem Verwerfen von Proben mitΣN

i=1ki 6= N , welches die Effektivität der Simulation der Proben von k-Wertenverringert. Es lässt sich einfach zeigen, dass die Effektivität (Anzahl der ak-zeptierten Proben) in Abhängigkeit von N durch

Eff(N) =NN

N !e−N

gegeben ist. Grafisch wird diese Funktion in Abb.1.7 gezeigt.In Anwendungen der ZPV ist die Situation etwas anders. Es gibt keine

Probe von ZPV-Resultaten, sondern nur eine Beobachtung x, die mit einerProbe von Gewichten wi, i = 1, . . . , N verbunden ist. Die Bootstraptechnikwird zur Schätzung von Parametern, die von der Gewichtsverteilung abhän-gen, benutzt. Um weitere Bootstrap-Beobachtungen x⋆ zu erzeugen, generiertman man zufällige Anzahlen ki ∼ P1(ki) und bildet die Summe x = Σkiwi.Alle Resultate gelten weiter. Die resultierende Poisson-Bootstrap-Verteilung(PBV) erlaubt die Schätzung von Parametern und Quantilen der ZPV.

Page 36: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

30 1 Ausgewählte mathematische Grundlagen der Statistik

5 10 15 20N

0.05

0.10

0.15

0.20

0.25

0.30

0.35

EffHNL

Abb. 1.7. Effektivität bei der Auswahl von Poisson-Proben als Funktion der Pro-bengröße N .

Page 37: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

1.3 Der Zentrale Grenzwertsatz

Als Zentralen Grenzwertsatz bezeichnet man meist das folgende Theorem: Sei

x =1

N

N∑

i=1

xi

das arithmetrische Mittel von N unabhängigen, identisch verteilten (u.i.v.)Zufallsvariablen xi mit endlicher Varianz σ2. Dann strebt im Grenzfall N →∞ die Verteilung von x gegen eine Normalverteilung mit Varianz σ2/N unab-hängig von der Form der Verteilung f(x) der xi. Der folgende (vereinfachte)Beweis fordert die Existenz der charakteristischen Funktion

eixt⟩

. Zur Ver-einfachung transformieren wir x zu y = (x − µ)/(

√Nσ), mit µ als dem Er-

wartungswert von x. Dann hat y Erwartungswert Null und Varianz 1/N unddie charakteristische Funktion der Verteilung von y lässt sich als Potenzreiheschreiben

φ(t) =⟨

eit y√

N

≈⟨

1 +1

2(ity√N

)2 +1

3!(ity√N

)3 + · · ·⟩

= 1− t2

2N+c

t3

N3/2+· · · .

Die charakteristische Funktion der Summe z =N∑

j=1

yj ist gegeben durch die

Nte Potenz

φz =

[

1− t2

2N+ c

t3

N3/2+ · · ·

]N

,

welche im Limes N → ∞, wenn nur die ersten zwei Terme berücksichtigtwerden, sich der charakteristischen Funktion der Standard NormalverteilungN(0, 1) nähert:

limN→∞

φz = limN→∞

[

1− t2

2N

]N

= e−t2/2 .

Es lässt sich beweisen, dass die Konvergenz der Folge der charakteristischenFunktionen die der Verteilungsfunktionen gegen die entsprechende Grenzver-teilung impliziert (die auch alle zu fordernden Eigenschaften einer Verteilungs-funktion hat). Die Verteilung von x wird damit für große N genähert

f(x) ≈√N√2πσ

exp

[

−N(x− µ)2

2σ2

]

.

Ein Beispiel für fehlende Konvergenz ist bei der Cauchy-Verteilung gege-ben ([1], Abschnitt 2.6.9., S.71), welche die Voraussetzung endlicher Varianznicht erfüllt. Der zentrale Grenzwertsatz, auch bekannt als Lindeberg–Lévi–Theorem, wurde erweitert auf den Fall unabhängiger, aber nicht notwendig

Page 38: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

32 1 Ausgewählte mathematische Grundlagen der Statistik

identisch verteilter Variate (Satz von Lindeberg–Feller, [9]), wofür sich not-wendige und hinreichende Bedingungen angeben lassen.

Die Frage der Konvergenz im Limes N → ∞ ist jedoch in der Praxismeist verbunden mit der Frage der Konvergenz-Geschwindigkeit: Wie viel Er-eignisse werden benötigt, um eine geforderte Genauigkeit zu erreichen? DieKonvergenz ist generell besser, wenn die Varianzen nicht sehr unterschiedlichsind. Im konkreten Einzelfall ist die einfachste Methode die Simulation, die wirim folgenden Beispiel der verallgemeinerten Binomialverteilung demonstrierenwollen.

1.3.1 Zur Asymptotik der verallgemeinerten Binomialverteilung

Die (gewöhnliche) Binomialverteilung wurde in [1], Abschnitt 2.6.1, S.52 mit-tels der Zweipunkt-(Bernoulli)-Verteilung eingeführt, die für die Wahrschein-lichkeit p, p < 1 eines diskreten Ereignisses A festlegt, dass PA = Px =1 = p sowie für das komplementäre Ereignis A entsprechend PA = Px =0 = 1− p = q gelte. Bei n-maliger Ausführung erhält man als Verteilung derAnzahl k =

∑nj=1 xj der Erfolge die Binomialverteilung

Bnp (k) =

(

nk

)

pk(1 − p)n−k , k = 0, . . . , n .

Dies wird oft durch Ziehen von n Kugeln (mit Zurücklegen der gezogenenKugel) aus einer Urne veranschaulicht, die den relativen Anteil p von Kugelnmit der Eigenschaft A sowie 1 − p mit der komplementären Eigenschaft Aenthält.

Nimmt man das n-malige Ziehen nicht aus einer, sondern aus n im all-gemeinen verschiedenen Urnen mit A-Anteilen pj < 1, j = 1, . . . , n vor, soerhält man für die Anzahl der Erfolge k =

xj die (n+1)-parametrige verall-

gemeinerte Binomialverteilung Bnp1,...,pn

(k). Die zugehörige charakteristrischeFunktion ist das Produkt einer Folge von charakteristischen Funktionen, dieden einzelnen Zweipunktverteilungen zugeordnet sind 4.

φ(t) =⟨

eitk⟩

=n∏

j=1

(qj + pjeit) .

Erwartungswert und Varianz sind:

〈k〉 =n∑

j=1

pj , var(k) =n∑

j=1

pjqj .

4Ein physikalisches Beispiel für eine solche Verteilung wäre etwa ein Stapel vonDetektoren, die den Durchgang eines Teilchens mit unterschiedlicher Effektivitätregistrieren, wobei die asymptotische Verteilung der Summe der diskreten Signaleinteressiert.

Page 39: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

1.3 Der Zentrale Grenzwertsatz 33

Selbstverständlich ergeben sich im Spezialfall gleicher Parameter pj = p, j =1, . . . , n die charakteristrische Funktion und die Parameter der gewöhnlichenBinomialverteilung.

Für Fälle von beschränkten diskreten Verteilungen, wie dem vorliegenden,gilt nach einem Satz von Ljapunow, dass der zentrale Grenzwertsatz gilt,genau dann wenn die betreffende Reihe für var(k) divergiert.

Das folgende Beispiel gibt an Stelle eines mathematischen Beweises (s.hierzu [9]) eine numerische Untersuchung.

Beispiel 9. Asymptotisches Verhalten von verallgemeinerten Binomialvertei-lungen

Wir vergleichen zwei Fälle für die Folge p1, · · · , pn:

1. Die Reihe var(k) =∑∞

j=1 pjqj divergiert2. Die Reihe konvergiert

Wir wählen für den ersten Fall die divergente Reihe∑∞

j=1(1/j − 1/j2), fürden zweiten die konvergente

∑∞j=1(1/j

2 − 1/j4). In beiden Fällen sind dieentsprechenden Term-Folgen zu Null konvergent. Nur im Fall 1 gilt der zen-trale Grenzwertsatz. Um zu untersuchen, wie sich die Verteilung im Falleeines Abbruchs der Reihe verhält, wählen wir jeweils die n = 20 ersten Termeder Reihen, bilden damit 20 Zweipunktverteilungen, erzeugen aus diesen 20diskrete Zufallsvariable xj = 0 , 1, jeweils mit Wahrscheinlichkeiten qj , pj ,zentrieren mit 〈k〉 und skalieren mit

var(k). In Abb.1.8 ist das Ergebnis für1000-fache Wiederholung dargestellt. Links ist Fall 1, rechts Fall 2 abgebil-det. Im oberen Teil sind die einzelnen k-Werte als Punkte mit Abszissen von1 bis 1000 aufgetragen. Sie sind diskreten Stufen zuzuordnen, deren Abstanddurch 1/

var(k) gegeben ist. Darunter sind die kumulierten Verteilungsfunk-tionen zusammen mit der im Grenzfall erwarteten integralen Normalfunkti-on histogrammiert. Die Parameter von Fall 1,(2) sind 〈k20〉 = 3.598, (1.596),var(k20) = 2.002, (0.514).

Im Grenzfall n → ∞ werden nur in Fall 2, unter Benutzung bekannterReihen-Formeln (s. z.B. [6]), endliche Werte erhalten:

〈k∞〉 =∑ 1

j2=

π2

6= 1.645 , var(k∞) =

(1

j2(1− 1

j2) =

π2

6−π4

90= 0.563 .

Im Fall 2 sind die Parameterwerte für n = 20 und n → ∞ ähnlich. Auch beinoch größeren n ist eine wesentliche Verbesserung der „Näherung“ kaum zuerwarten. Dies erscheint jedoch im Fall 1 möglich, da sich die noch sichtbarenFehler durch Verkleinerung des Diskretisierungsschrittes verringern werden.

Page 40: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

34 1 Ausgewählte mathematische Grundlagen der Statistik

200 400 600 800 1000-1

1

2

3

200 400 600 800 1000-0.5

0.5

1.0

1.5

2.0

2.5

-1 0 1 2 3 4

0.2

0.4

0.6

0.8

1.0

0 1 2 3 4 5

0.2

0.4

0.6

0.8

1.0

Abb. 1.8. Zum zentralen Grenzwertsatz: zwei Fälle verallgemeinerter Binomialver-teilungen, s. Text.

Page 41: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

2

Ausgewählte statistische Methoden

Page 42: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

36 2 Ausgewählte statistische Methoden

2.1 Kombination Korrelierter Messungen

In Kapitel 3, Abschnitt 4 ([1], S.83) wurde die Kombination unabhängiger

Messdaten x1, x2, . . . von ein- und derselben Größe behandelt. Es wurde derAusdruck für ein gewichtetes arithmetisches Mittel angegeben, d.h.

x =∑

wixi , mit∑

wi = 1

mit „Gewichten“ wi = c/δ2i proportional zum Inversen der Varianz δ2i der i.Messung und c der Normierungskonstanten der wi.

Diese Wahl der Gewichte ergibt ein Minimum der Varianz δ2 ≡ var(x), die

den Wert(

(1/δi)2)−1

annimmt. Bei N Messwerten mit gleichen Fehlern

gilt wi = 1/N , i = 1, . . . , N , woraus folgt, dass der Fehler des kombinier-ten Wertes gegenüber dem des einzelnen Messwertes um den Faktor 1/

√N

reduziert wird.Dies ist ein Spezialfall eines allgemeineren Resultats für eine Stichprobe

von N Messungen derselben Größe, die nicht nur in ihren Fehlern differieren,sondern auch statistisch korreliert und daher nicht statistisch unabhängig sind.Folglich müssen sie durch eine (positiv-definite und symmetrische) N × NKovarianz-oder Fehlermatrix C beschrieben werden. Häufige Ursache solcherKorrelationen sind systematische Fehler, die allen Messungen gemeinsam sind.Beispiele hierfür finden sich am Ende des Kapitels.

In ganz derselben Weise wie oben für unkorrelierte Messungen suchen wirdie Gewichte, für die die Varianz eines linear kombinierten Wertes minimalwird, ebenfalls unter Beachtung der Forderung nach Normierung der Gewich-te,∑N

i=1 wi = 1, die bewirkt, dass der kombinierte Wert eine biasfreie Schät-zung der gemessenen Größe darstellt, wodurch diese Schätzung effizient imSinne der üblichen Definition, bei Beschränkung auf lineare Schätzer1, wird.

Wir betrachten zunächst den einfachen Fall zweier Messungen. Die gewich-tete Summe x ist

x = w1x1 + w2x2 , mit w1 + w2 = 1 .

Bei der Berechnung von var(x) haben wir die Korrelations-Terme in Betrachtzu ziehen:

δ2x ≡ var(x) = w21C11 + w2

2C22 + 2w1w2C12 .

Das Minimum von δ2x wird erreicht für

w1 =C22 − C12

C11 + C22 − 2C12,

w2 =C11 − C12

C11 + C22 − 2C12. (2.1)

1Dies ist eine Manifestation des Gauß-Markov-Theorems, das besagt, dass keinebiasfreie lineare Schätzung mit kleinerer Varianz als die mittels der Methode derkleinsten Quadrate existiert.

Page 43: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

2.1 Kombination Korrelierter Messungen 37

(Man ersetze w2 durch 1 − w1 und differenziere nach w1.) Das unkorreliertegewichtete Mittel ergibt sich für C12 = 0.

Der Fall von N korrelierten Messungen kann mit Hilfe eines Lagrange-Multiplikators λ behandelt werden:

1

2wT

Cw − λ(∑

wi − 1) = Minimum .

Differenzieren, Null setzen und Auflösen der entstehenden Gleichungen („Nor-malgleichungen“) nach wi liefert

w = Vλ mit λT = λ, . . . , λ ,

wonach sich λ aus der Normierung der wi ergibt, die, hier in Index-Schreibweise,lauten

wi =

∑Nj=1 Vij

∑Nij=1 Vij

, i = 1, . . . , N ,

wobei V die inverse Matrix zu C ist, die auch Gewichtsmatrix genannt wird.Der gewichtete Mittelwert und sein durch lineare Fehlerfortpflanzung be-

rechneter Fehler sind

x =N∑

i=1

wixi =

∑Nij=1 Vijxi∑N

ij=1 Vij

, (2.2)

δ2 =

∑Nijkl=1 VijVklCik(

∑Nij=1 Vij

)2 =1

∑Nij=1 Vij

. (2.3)

Nachfolgend einige Anwendungen:

Beispiel 10. Kombination von Messungen mit gemeinsamem Nullpunktsfehler

Verschiedene Experimente i = 1, . . . , N bestimmen die Energie E∗i ei-

nes angeregten Kern-Zustands durch Messung der Übergangsenergie Ei mitUnsicherheiten δi zum Grundzustand E0. Sie verwenden einen Wert E0 ausderselben Tabelle, in der dessen Unsicherheit δ0 angegeben wird. Daher sinddie Ergebnisse E∗

i = Ei + E0 korreliert. Die Kovarianzmatrix ist

Cij = 〈(∆i +∆0)(∆j +∆0)〉 = δ2i δij + δ20 .

C ist die Summe einer Diagonalmatrix und einer Matrix mit identischen Ele-menten δ20 . In dieser besonderen Situation ergibt sich die Varianz var(E∗) ≡ δ2

des gewichteten Mittels E∗ =∑

wiE∗i zu

Page 44: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

38 2 Ausgewählte statistische Methoden

δ2 =∑

i

w2iCii +

i6=j

wiwjCij

=∑

w2i δ

2i +

(

wi

)2

δ20 .

Da die Summe im zweiten Term wegen der Nebenbedingung = 1 ist, ist dieserTerm unerheblich für die Minimalisierung von δ2 bezüglich der Gewichte undwir erhalten den gleichen gewichteten Mittelwert für E∗ wie im unkorreliertenFall. Für den Fehler findet man erwartungsgemäß

δ2 =

(

∑ 1

δ2i

)−1

+ δ20 .

Interessanterweise kommt es bei stark korrelierten Daten vor, dass das ge-wichtete „Mittel“ nicht innerhalb des Intervalls [x1, x2], dass aus dem größtenund dem kleinsten Messwert gebildet wird, liegt, weshalb es richtiger wäre, voneinem kombinierten Wert statt einem Mittelwert zu sprechen. Vielfach wirdauch versucht, durch geeignete Transformation die Korrelation zu verkleinern.Allgemein sind stark korrelierte Daten oft wenig intuitiv und schwieriger zubehandeln als unabhängige. Im folgenden Beispiel wird ein sehr einfacher zwei-dimensionaler Fall betrachtet.

Beispiel 11. Mittelwert außerhalb des durch die individuellen Messungen de-finierten Bereichs

Die Matrix

C =

(

1 22 5

)

mit Eigenwertenλ1,2 = 3±

√8 > 0

ist symmetrisch und positiv definit und daher eine mögliche Kovarianzma-trix. Jedoch zufolge (2.1) ergeben sich die Gewichte w1 = 3

2 , w2 = − 12 . Der

gewichtete Mittelwert x = 32x1 − 1

2x2 mit x1 = 0, x2 = 1 wird daher x = − 12 ,

kleiner als beide individuellen Messwerte. Der Grund für dies sinnvolle, jedochzunächst unerwartete Ergebnis kann intuitiv folgendermaßen verstanden wer-den: Wegen der starken Korrelation sind x1 und x2 oft beide zu groß oderbeide zu klein. x1 ist die genauere Messung, die daher näher am wahren Wertliegen sollte. x2 sollte dann entfernter liegen; somit ist die Wahrscheinlichkeitgrößer, dass beide Messwerte zu groß (und nicht zu klein) sind.

Die Ergebnisse verschiedener Annahmen bei der Bildung des gewichtetenMittels lassen sich in diesem Fall leicht berechnen und durch Simulation über-

Page 45: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

2.1 Kombination Korrelierter Messungen 39

prüfen, wenn man annimmt, dass die Kovarianzmatrix C zu einer zweidimen-sionalen Gaußverteilung gehört. Wir betrachten vier Möglichkeiten, biasfreiegewichtete Kombinationen zu bilden und vergleichen die Werte der Varianz:

1. C wie oben =⇒ w1,2 = 3/2,−1/2 , var(x) = 1/22. Weglassen der ungenaueren, korrelierten zweiten Messung, C12 = C22 = 0

=⇒ w1 = 1 , w2 = 0 , var(x) = 13. Vorliegen unkorrelierter Messdaten, C12 = 0, =⇒ w1 = 5/6 , w2 =

1/6 , var(x) = 5/64. Vernachlässigung tatsächlich vorhandener Korrelationen, C12 = 2 wird

= 0 angenommen =⇒ w1 = 5/6 , w2 = 1/6 , var(x) = 25/18

Vergleich von Fall 1 mit Fall 3 zeigt, dass gut bekannte Korrelationsterme dasErgebnis verbessern können. Leider zeigt Fall 4, verglichen mit Fall 3, dassunerkannte Korrelationen in den Messdaten, wie sie oft durch systematischeFehler verursacht werden, zu optimistische Fehlergrößen liefern.

2.1.1 Kombinieren von Messwerten mit systematischen Fehlern

Die Kombination von Messwerten mit, neben statistischen, auch systemati-schen Fehlern unterscheidet sich nicht von derjenigen mit rein statistischenUnsicherheiten. Wir bilden eine gewichtete Summe der Einzelwerte, wobei dieGewichte aus den Gesamtfehlern gebildet werden und assoziieren zum Er-gebnis wieder einen statistischen und einen systematischen Fehler, bestimmtdurch lineare Fehlerfortpflanzung.

Zur Vermeidung komplizierter Indizes schreiben wir die Messresultate alsx ± δ, x ± a ± b, wobei a für den statistischen und b für den systematischenFehler steht. Für N Messungen, xi ± δi, xi ± ai ± bi wir erhalten wie vorher

x =

N∑

j=1

wixi

mit

wi =1/δ2i

∑Ni=1 1/δ

2i

.

Die statistischen und systematischen Fehler sind

a2 =N∑

i=1

w2i a

2i ,

b2 =

N∑

i=1

w2i b

2i .

Page 46: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

40 2 Ausgewählte statistische Methoden

Nun zur Behandlung korrelierter Fehler. Dazu setzen wir voraus, dass sta-tistische Fehler nicht mit systematischen korreliert sind (andernfalls müsstenwir sie den systematischen Fehlern zuschlagen). Letztere sind, im Gegensatzzu rein statistischen Fehlern, in der Regel auch korreliert. Dann erhalten wir,neben der kombinierten Kovarianzmatrix C, statistische und systematischeKovarianzmatrizen A und B, die sich zu C, Cij = Aij + Bij aufaddieren.Die Beziehungen (2.2) und (2.3) bleiben gültig, und der Fehler wird in einenstatistischen und einen systematischen Anteil aufgeteilt:

a2 =

∑Nijkl=1 VijVklAik(

∑Nij=1 Vij

)2 ,

b2 =

∑Nijkl=1 VijVklBik(

∑Nij=1 Vij

)2 .

Das nächste Beispiel behandelt eine für die Teilchenphysik sehr wichtigeKombination von Messungen.

Beispiel 12. Mittelung von Messungen der Z0 MasseIn vier Experimenten am Speicherring LEP (CERN) wurde die Masse des

Z0-Bosons bestimmt. Die Resultate in Einheiten GeV sind in den ersten vierReihen der folgenden Tabelle wiedergegeben (entnommen aus [10]):

Experiment Masse x Fehler δ stat. Fehler a syst. Fehler bOPAL 91.1852 0.0030 0.0023 0.0018

DELPHI 91.1863 0.0028 0.0023 0.0016L3 91.1898 0.0031 0.0024 0.0018

ALEPH 91.1885 0.0031 0.0024 0.0018Mittel 91.1871 0.0023 0.0016 0.0017

Die geschätzten Kovarianzmatrizen in MeV2 sind:

C =

302 162 162 162

162 282 162 162

162 162 312 162

162 162 162 312

,

A =

232 0 0 00 232 0 00 0 242 00 0 0 242

, B =

182 162 162 162

162 162 162 162

162 162 182 162

162 162 162 182

.

Die Kovarianzmatrizen sind aus den in [10] gegebenen Zahlen berechnet. Diesystematischen Fehler sind fast vollständig korreliert. Die Gewichtsmatrix V =C−1 ist:

Page 47: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

2.1 Kombination Korrelierter Messungen 41

V =

1.32 −0.29 −0.29 −0.29−0.29 1.54 −0.29 −0.29−0.29 −0.29 1.22 −0.29−0.29 −0.29 −0.29 1.22

· 10−3 .

Setzt man diese Zahlen in (2.2) und (2.3) ein, so erhält man die in der letztenZeile der Tabelle dargestellten Ergebnisse. Man bemerke, dass bei Vernachläs-sigung der Korrelationen die Unsicherheit nur 1.5 MeV beträgt, zu vergleichenmit der korrekten Zahl 2.3 MeV. Die Ergebnisse stimmen nicht exakt mit denin [10] gegebenen m(Z0) = (91.1876 ± 0.0021) GeV überein, da diese nochtheoretische Korrekturen der Z0 Masse enthalten.

Page 48: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

2.2 Parameterschätzung bei Untergrund-behaftetenDaten

Experimentelle statistische Daten sind nicht nur stets ungenau (mit Fehlernverschiedener Art und Größe behaftet), sondern enthalten oft Ereignisse, de-ren Ursprung ganz unabhängig vom untersuchten Prozess (dem Signal) ist.Die Aufgabe besteht darin, diese Untergrund genannten Ereignisse möglichstweitgehend zu unterdrücken.

Die weitere Bearbeitung ist natürlich nur möglich, wenn über den Unter-grund Informationen vorliegen. Dann kann im Prinzip die zugrunde liegendeVerteilung komplizierter gewählt werden, eventuell unter Benutzung störenderParameter, die die Untergrundverteilung beschreiben. In der experimentellenPraxis haben wir jedoch manchmal die Chance, unabhängig von der Signal-Probe eine Referenz-Probe zu nehmen, die ausschließlich Untergrund enthält,also bei abgeschalteter Signal-Quelle zu nehmen ist. Die Messzeiten oder Flüs-se, d.h. die relative Normierung der beiden Experimente, müssen bekannt oderjedenfalls aus den Daten bestimmbar sein. In dieser günstigen Situation sinddie Parametrisierung der Untergrundverteilung und damit verbundene An-nahmen nicht erforderlich. Dieser Vorteil kann natürlich manchmal auch einenVerlust an Genauigkeit bedeuten.

Im folgenden betrachten wir zwei Vorgehensweisen. Die erste beruht aufauf kategorischen (histogrammierten, d.h. einer Bin-Einteilung unterworfe-nen) Daten, die in jedem Bin in Signal- oder Untergrund-Ereignisse einzutei-len sind. Die weitere Auswertung betrifft das Differenz- Histogramm (Daten- Untergrund). Eine zweite Methode vermeidet eine Bin-Einteilung und diedamit stets verbundene Willkür sowie den bei kleiner Statistik merklichenInformationsverlust.

2.2.1 Parameterschätzung bei Untergrund-behaftetem Signal,(Binning-Methode)

Im folgenden beschreiben wir kurz zwei Vorgehensweisen, die Methode derkleinsten Quadrate sowie die auf der Poisson-Verteilung beruhende Maximum-Likelihood-Methode.

Die beobachtete Probe, die Signal- und Untergrund-Ereignisse enthält,und die Referenz-Probe, die ausschließlich Untergrund (der sich von dem inder ersten Probe enthaltenen statistisch unterscheidet) enthält, seien als zweiHistogramme gleicher Bin-Einteilung mit Bin-Inhalten di und bi, i = 1, . . . , Ngegeben. Die relative Fluss-Normalisierung c sei entweder bekannt oder einanzupassender Parameter.

Methode der kleinsten Quadrate

Dies Verfahren unterscheidet sich nicht von der üblichen Anpassung mit dieserMethode, außer durch die Betrachtung der Daten des Differenz-Histogramms

Page 49: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

2.2 Parameterschätzung bei Untergrund-behafteten Daten 43

di− cbi. Die Modell-Vorhersage für Untergrund-freie Daten sei ti(θ) für einenParametersatz θ. Hiermit erhalten wir als zu minimalisierende Statistik

χ2 =

N∑

i=1

[ti(θ) + cbi − di]2

δ2i

mit δi als der geschätzten Unsicherheit des Erwartungswerts von di − cbibei gegebenem θ. Für Poisson-verteilte Zahlen di und bi erhalten wir in derüblichen linearen (Gaußschen) Näherung

δ2i = c2bi + di .

Poisson-Likelihood-Verfahren

Insbesondere bei Experimenten geringerer Statistik ist es besser, die mitdem obigen Verfahren verbundene Näherung zu vermeiden und zum Poisson-Likelihood-Verfahren überzugehen.

Wir führen N zusätzliche Parameter βi ein, die den (unbekannten) Un-tergrund im Bin i beschreiben. Die Likelihood der Datensätze di und bi vonExperiment und Referenz-Experiment wird mithilfe der Poisson-VerteilungPλ(k) = P (k|λ) gemäß L

i P (di|ti + βi)∏

i P (bi|cβi) geschrieben und ihrLogarithmus ist bis auf Konstanten

lnL =

N∑

i=1

[di ln(ti(θ) + βi)− (ti(θ) + βi) + bi ln(cβi)− cβi] .

Bei der Suche des Maximums ist zu beachten, dass die Parameter βi nichtnegativ sein können.

2.2.2 Parameterschätzung bei Untergrund-behaftetem Signal,(Binning-freie Methode)

Das Interesse an der hier vorgestellten Methode liegt darin, dass keine Para-metrisierung der Untergrundverteilung (dadurch Vermeidung störender Para-meter) und keine Festlegung von Intervallgrenzen eines sonst meist benötig-ten Histogramms, das die Differenz der beiden Datensätze beschreibt, nötigsind. Eine Abschätzung der statistischen Fehler der geschätzten Parameterkann in allgemeiner Form in asymptotischer Näherung erfolgen. Ein gewisserVerlust an statistischer Präzision ist möglich, wenn über die Untergrundver-teilung genauere theoretische Daten vorliegen, aber zur Untergrundkorrektur,wie sie hier vorgeschlagen wird, nur die Daten einer Stichprobe vom Referenz-Experiment Verwendung finden.

Die Methode basiert auf folgendem Gedanken: Die Log-Likelihood des ge-suchten Signal-Parameters, berechnet aus der vollen Probe, ist eine additiveMischung der Log-Likelihood der echten Signaldaten mit der Log-Likelihood

Page 50: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

44 2 Ausgewählte statistische Methoden

aus den Untergrund-Ereignissen. Letztere kann aus der Referenzprobe von rei-nen Untergrund-Ereignissen geschätzt werden und dann von der für die volleProbe berechneten Log-Likelihood subtrahiert werden.

Zur Erläuterung betrachten wir die Aufgabe, die Signalgröße für einenStrahlungsdetektor aus einer Stichprobe von Signalhöhen (wir nennen sie dievolle Probe) x1, . . . , xN , erzeugt mit einer monoenergetischen Quelle, zu be-stimmen. Für ein Untergrund-freies Signal sollen die xi einer Gauß-Verteilungmit der Auflösung σ folgen:

f(x|θ) = 1√2πσ

e−(x−θ)2/(2σ2) .

Der unbekannte Lage-Parameter θ ist zu schätzen.Nach Abschalten oder Beseitigen der Quelle werde – unter sonst glei-

chen Bedingungen – eine Referenz-Probe genommen, die daher ausschließlichUntergrund-Ereignisse enthält, deren Verteilung meist ohne Interesse für unsist. Die Messwerte seien x1, . . . , xM .

Wäre feststellbar, welche Ereignisse der vollen Probe wirklich Signalereig-nisse (x(S)

i ) bzw. Untergrund (x(U)i ) sind, würde man letztere verwerfen und

nur aus den Signalereignissen die korrekte Log-Likelihood Funktion berech-nen:

lnL =

S∑

i=1

ln f(x(S)i |θ) = −

S∑

i=1

(x(S)i − θ)2

2σ2+ const.

=

N∑

i=1

ln f(xi|θ)−U∑

i=1

ln f(x(U)i |θ) ,

mit S + U = N . Der zweite, unbekannte, Term kann aus der Referenz-Probegeschätzt werden:

U∑

i=1

ln f(x(U)i |θ) ≈

M∑

i=1

ln f(xi|θ) .

Der Logarithmus unserer so korrigierten Likelihood wird damit

ln L ≈N∑

i=1

ln f(xi|θ) −M∑

i=1

ln f(xi|θ) .

Wir nennen sie Pseudo-Likelihood, ln L, zur Unterscheidung von der echtenLikelihood, was darin begründet ist, dass die zugrunde gelegte Verteilungs-dichte der Untergrund-Ereignisse f(xi|θ) die gleiche wie die für echte Signal-Ereignisse ist. Um eine Schätzung unseres Parameters θ zu erhalten, suchenwir den Wert θ, der ln L maximalisiert und erhalten ein erwartetes einfachesResultat als Funktion der empirischen Mittelwerte x, x:

Page 51: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

2.2 Parameterschätzung bei Untergrund-behafteten Daten 45

θ =

∑Ni=1 xi −

∑Mi=1 xi

N −M

=Nx−Mx

N −M. (2.4)

Ein allgemeineres Problem liegt vor, wenn der Parameter-Raum und dieProbe mehrdimensional sind. Hierauf wird unten kurz eingegangen. Außerdemist in der Praxis die Referenzprobe oft umfangreicher als die volle Probe; daherbehandeln wir den Fall einer (kontaminierten) vollen Probe vom Umfang Nund einer Referenzprobe vom Umfang M > N , wobei, etwa durch um einenFaktor 1/r erhöhten Fluss, M = N/r, mit 0 < r < 1, gelte:

ln L =N∑

i=1

ln f(xi|θ)− rM∑

i=1

ln f(xi|θ) . (2.5)

Die Formel (2.5) ist völlig allgemein und unabhängig von der Form derUntergrund-Verteilung 2. Es vermeidet die übliche, mit einer gewissen Will-kür behaftete Histogrammierung. Eine alternative Methode, beruhend auf derDichteschätzung (PDE), [1], S. 287, kann bei großer Statistik zur Rekonstruk-tion der Untergrundverteilung dienen.

Eigenschaften der binningfreien Untergrund-Korrektur

Mit der Definition (2.5) folgt (im eindimensionalen Fall) aus der Forderungeines Maximums von L

∂ ln L

∂θ=

∂θ

[

S∑

i=1

ln f(x(S)i |θ) +

U∑

i=1

ln f(x(U)i |θ)− r

M∑

i=1

ln f(xi|θ)]

θ=θ

= 0 .

Diese Formel definiert den Untergrund-korrigierten Schätzwert θ. Er diffe-riert um einen – i.a als klein zu betrachtenden – Betrag ∆θ vom „idealen“,Untergrund-freien Schätzwert θ(S), der gewonnen würde, wenn nur die Ablei-tung der ersten Summe auf der linken Seite Null gesetzt wird. (Diese Summeist natürlich unbekannt). Wir setzen in der ersten Summe θ = θ(S) + ∆θ,entwickeln bis zur ersten Ordnung in ∆θ und erhalten

S∑

i=1

∂2 ln f(x(S)i |θ)

∂θ2|θ(S)∆θ = − 1

var(θ(S))∆θ . (2.6)

Diese Summe ist, bis auf ein Minuszeichen, die Fisher-Information (vgl. [1],S. 300), bezogen auf die gemessene Probe unter Weglassung der Untergrund-Ereignisse.

2Die hier gezeigte Methode wurde aus der russischen Übersetzung des Buchs vonEadie et al. [11] entnommen und stammt wahrscheinlich von den russischen Editoren[12]

Page 52: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

46 2 Ausgewählte statistische Methoden

Nach Einführen der Bezeichnungen (die schon in [1], Abschnitt 12.1.1, S.300, benutzt wurden)

yi =∂ ln f(xi|θ)

∂θ(2.7)

und entsprechend y(U)i , yi, folgt

∆θ = var(θ(S))

[

U∑

i=1

y(U)i − r

M∑

i=1

yi

]

. (2.8)

Für den Erwartungswert ergibt sich⟨

∆θ⟩

= var(θ(S)) 〈U − rM〉 〈y〉 = 0 , (2.9)

da 〈U〉 = r 〈M〉. Die Schätzung ist damit biasfrei; genauer: die Untergrund-Korrektur erzeugt kein zusätzliches Bias. Wenn zugleich auch var(∆θ) asym-ptotisch als verschwindend nachgewiesen werden kann, ist sie mithin auchkonsistent. Diese Berechnung ist aber etwas länger: Wir quadrieren (2.8) undnehmen den Erwartungswert. Dabei gilt der Erwartungswert von y oder y2 inBezug auf die (oft unbekannte) Untergrund-Verteilung, während die AnzahlenU , M in physikalischen Anwendungen meist als Poisson-verteilt angenommenwerden 3:

(∆θ)2⟩

= (var(θ(S)))2

U∑

i

U∑

j

yiyj + r2M∑

i

M∑

j

yiyj − 2r

U∑

i

M∑

j

yiyj

.

Die drei Doppelsummen ergeben asymptotisch∑

yiyj = U⟨

y2⟩

+ U(U − 1) 〈y〉2 ,∑

yiyj = M⟨

y2⟩

+M(M − 1) 〈y〉2 ,∑

yiyj = UM 〈y〉2 .

Der Erwartungswert von U(U − 1) ist das zweite faktorielle Moment derPoisson-Verteilung, (siehe Beispiel 1): µ[2] = 〈U(U − 1)〉 = 〈U〉2, entspre-

chendes gilt für M . Die Terme mit 〈y〉2 als Faktor lassen sich in der Form(〈U〉 − r 〈M〉)2 zusammenfassen und ergeben wegen (2.9) Null. Unter Ein-schluss der Varianz der Untergrund-freien Schätzung erhalten wir als Gesam-tergebnis

var(θ) =⟨

(∆θ)2⟩

+ var(θ(S)) = var(θ(S)) + r(r + 1)(var(θ(S)))2 〈M〉⟨

y2⟩

.

(2.10)

3Wir bezeichnen alle Erwartungswerte etwas ungenau mit den gleichen Spitz-klammern.

Page 53: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

2.2 Parameterschätzung bei Untergrund-behafteten Daten 47

-2 0 2 4

0.1

0.2

0.3

0.4

-2 0 2 4

0.05

0.10

0.15

0.20

0.25

Abb. 2.1. Experimentelle Verteilung (Histogramm) eines normal verteilten Signalsmit Untergrund(links) und Referenzverteilung (rechts), zusammen mit der durchdiese angenäherten originalen Untergrundverteilung.

Man erkennt, dass bei den üblichen Annahmen über L diese Varianz minde-stens wie M/S2 verschwindet, sodass die Schätzung konsistent ist. Der Ein-fluss des Untergrunds wird größer bei breiterem Signal, größerem r, mehrUntergrund sowie größerer Varianz, entsprechend größerem

y2⟩

.Im folgenden Beispiel soll die Genauigkeit der asymptotischen Näherung

betrachtet werden.

Beispiel 13. Signal mit Untergrund und zugehöriger ReferenzverteilungAbb. 2.1 zeigt links ein experimentelles (simuliertes) Histogramm eines

normalverteilten Signals mit Mittelwert θ = 0, Breite σ = 1, durch Unter-grund im Verhältnis p = 0.4 kontaminiert, sowie rechts die zugehörige Re-ferenzverteilung, hier eine Exponentialverteilung der Form λ exp[−λ(x + 4)],λ = 0.2, x > −4. Es gilt, nach (2.7),

y2⟩

= var(x) = 1/λ2. Die Ereigniszahlensind Poisson-verteilt mit Mittelwerten S = 60, M = 40. Gemäß (2.4), (2.10)finden wir in asymptotischer Näherung mit r = 1, x = 0, x = 1:

θ = −0.6667 , var(θ) = 0.5722 .

Das Ergebnis wurde mit 103 simulierten Experimenten überprüft, mit demResultat

θ = −0.0166 , var(θ) = 0.6530 .

In der Realität ist leider die Untergrund-Verteilung meist nicht bekannt.In diesem Fall kann man nur auf empirische Schätzungen der Parameter aufBasis der Referenz-Probe zurückgreifen. Wir ersetzen

Page 54: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

48 2 Ausgewählte statistische Methoden

〈M〉 → M , 〈y〉 →M∑

i=1

yi/M , 〈y2〉 →M∑

i=1

y2i /M ,

mit yi = ∂ ln f(xi|θ)/∂θ. Wie in Fehlerberechnungen üblich, ist die Abhängig-keit von yi vom wahren Wert θ durch die gleiche Abhängigkeit von θ anzunä-hern. Auf diese Weise erhält man für var(θ(S))

−1/var(θ(S)) =

S∑

i=1

∂2 ln f(xi|θ)∂θ2

|θ(S)

≈[

N∑

i=1

∂2 ln f(xi|θ)∂θ2

− r

M∑

i=1

∂2 ln f(xi|θ)∂θ2

]

θ

.

Höher-dimensionaler Parameterraum

Für einen P -dimensionalen Parameterraum θ sieht man aus (2.6), dass dieerste Summe durch die Gewichts-Matrix V

(S) der geschätzten Parameter beiAbwesenheit von Untergrund gegeben ist:

−P∑

l=1

S∑

i=1

∂2 ln f(x(S)i |θ)

∂θk∂θl|θ(S)∆θl =

P∑

l=1

(V(S))kl∆θl .

Für ∆θ entsteht an Stelle von (2.8) ein lineares Gleichungssystem, aus des-sen Lösungskomponenten in Analogie zum eindimensionalen Fall die Fehler-(Kovarianz-)Matrix konstruiert wird:

E = C(S)

YC(S) ,

mit der Kovarianzmatrix C(S) = (V(S))−1 für den Untergrund-freien Fall und

Y definiert alsYkl = r(1 + r)〈M〉〈ykyl〉 ,

mit

〈ykyl〉 =M∑

i=1

∂ ln f(xi|θ)∂θk

∂ ln f(xi|θ)∂θl

/M .

Wie im eindimensionalen Fall ergibt sich die vollständige Kovarianzmatrix alsSumme

cov(θk, θl) = C(S)kl + Ekl .

Page 55: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

2.3 Zur Maximum-Likelihood-Schätzung der Parametereiner Normalverteilung

Diese Aufgabe wurde in [1], S.138 in zwei Beispielen behandelt, mit den Er-gebnissen für Mittelwert und Varianz

µ =

N∑

i=1

xi/N = x (2.11)

σ2 =

N∑

i=1

(xi − µ)2/N = (x − µ)2 . (2.12)

Vorausgesetzt war eine Stichprobe von N Elementen x1, . . . , xN , die einerGaußverteilung

N(x|µ, σ) = 1√2πσ

exp

[

− (x− µ)2

2σ2

]

entnommen wurden. Weiterhin war in diesen Beispielen jeweils nur ein Para-meter (µ bzw. σ) unbekannt und daher zu schätzen, der andere wurde dagegenals gegeben betrachtet.

In den folgenden Beispielen betrachten wir Maximum-Likelihood-Schätzungenfür die Parameter der Normalverteilung in vier verschiedenen Situationen:

Ia Mittelwert µ gesucht, Breite σ gegebenIb Breite σ gesucht, Mittelwert µ gegebenIIa Mittelwert µ gesucht, Breite σ unbekanntIIb Breite σ gesucht, Mittelwert µ unbekannt

Die zu untersuchende Stichprobe bestehe aus N = 10 Beobachtungen xi mitden empirischen (Anfangs-)Momenten

x = 1 , x2 = 5 .

Die Log-Likelihood Funktionen sind in Abb.2.2 dargestellt.

Beispiel 14. Maximum-Likelihood-Schätzung des Mittelwerts einer Normal-verteilung mit gegebener Breite (Fall Ia) Gegeben seien N Beobachtungenxi aus einer Normalverteilung mit gegebener Breite σ, deren Mittelwert zuschätzen ist. Die zu maximierende Likelihood ist

L(µ) =

N∏

i=1

1√2πσ

exp

[

− (xi − µ)2

2σ2

]

,

lnL(µ) = −N∑

i=1

(xi − µ)2

2σ2+ const (2.13)

= −Nx2 − 2xµ+ µ2

2σ2+ const .

Page 56: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

50 2 Ausgewählte statistische Methoden

1 2 3 4-2.0

-1.5

-1.0

-0.5

0.0

0 1 2-2.0

-1.5

-1.0

-0.5

0.0

b)

lnL

a)

Abb. 2.2. Log-Likelihood Funktionen für die Parameter einer Normalverteilung: a)für den Mittelwert µ bei gegebener Breite (durchgezogene Kurve) und unbekannterBreite (gestrichelte Kurve), b) für die Breite σ mit gegebenem Mittelwert (durchge-zogene Kurve) und unbekanntem Mittelwert (gestrichelte Kurve).

Die Log-Likelihood hat die Form einer Parabel und wird in Abb. 2.2 für σ = 2gezeigt. Differenzieren nach dem unbekannten Parameter µ und Null setzenliefert

N(x− µ)

σ2= 0 ,

µ = x .

Die Maximum-Likelihood-Schätzung µ für den Erwartungswert der Gauß-Verteilung ist gleich dem arithmetischen Proben-Mittel x und in diesem Fallunabhängig von σ; Jedoch bestimmt σ die Breite der Likelihood-Funktion undden Standard-Fehler von µ:

δµ = σ/√N .

Page 57: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

2.3 Zur Maximum-Likelihood-Schätzung der Parameter einer Normalverteilung 51

Beispiel 15. Maximum-Likelihood-Schätzung der Breite einer Normalvertei-lung mit gegebenem Mittelwert (Fall Ib)

Gegeben seien nun N Beobachtungen xi, die einer Normalverteilung unbe-kannter zu schätzender Breite σ folgen, mit einem bekannten Erwartungswertµ = 5/3. Der Grund für diese – im Prinzip willkürliche – Wahl wird untenklar.

L(σ) =N∏

i=1

1√2πσ

exp

(

− (xi − µ)2

2σ2

)

,

lnL(σ) = −N(1

2ln 2π + lnσ)−

N∑

i=1

(xi − µ)2

2σ2

= −N

[

lnσ +(x− µ)2

2σ2

]

+ const .

Die Log-Likelihood Funktion für unsere numerischen Werte wird in Abb. 2.2bgezeigt. Differenzieren nach σ und Null setzen liefert

0 =1

σ− (x− µ)2

σ3,

σ =

(x− µ)2 .

Wieder enthalten wir ein bekanntes Ergebnis: Die mittlere quadratische Ab-weichung der Probenwerte liefert eine Schätzung der Varianz der Normal-verteilung. Diese Beziehung ist auch unabhängig von der Normalverteilungeine Verteilungs-unabhängige Schätzung der Standard-Abweichung, wenn derErwartungswert gegeben ist.

Die Fehlergrenzen vom Abfall der Log-Likelihood-Funktion um 1/2 werdenasymmetrisch. Lösen der entsprechenden transzendenten Gleichungen, unterVernachlässigung höherer Ordnungen in 1/N ergibt

δ±σ =σ√

12N

1∓√

12N

.

Beispiel 16. Maximum-Likelihood-Schätzung des Erwartungswertes einerNormalverteilung mit unbekannter Breite (Fall IIa)

Die Lösung dieses Problems ergibt sich gemäß Abschnitt 1.2.2, wo wirfanden, dass t = (x − µ)/s mit s2 =

(xi − x)2/[N(N − 1)] = v2/(N − 1)

Page 58: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

52 2 Ausgewählte statistische Methoden

folgt Students t-Verteilung mit N − 1 Freiheitsgraden. Letztere lautet:

h(t|N − 1) =Γ (N/2)

Γ ((N − 1)/2)√

π(N − 1)

(

1 +t2

N − 1

)−N2

.

Die entsprechende Log-Likelihood ist

lnL(µ) = −N

2ln

[

1 +(x− µ)2

v2

]

mit dem Maximum bei µ = x und einer vergrößerten Breite entsprechend dergestrichelten Kurve in Abb. 2.2a.

Aus dem Abfall von lnL um 1/2 erhalten wir nunmehr für die Varianz

δ2µ = (e1/N − 1)v2 .

Dies wird für große N , nach Entwickeln der Exponentialfunktion, genähertgleich der Varianz im Falle Ia, wobei σ durch v zu ersetzen ist.

Beispiel 17. Maximum-Likelihood-Schätzung der Breite einer Normalvertei-lung mit unbekanntem Erwartungswert (Fall IIb)

Offensichtlich kann das Verschieben einer Normalverteilung oder einer nor-mal verteilten Probe den Mittelwert, nicht jedoch die wahre oder empirischeVarianz, v2 = (x− x)2, verändern. Diese kann daher nur von σ, nicht aberauch von µ abhängen. Ohne auf Einzelheiten der Rechnung einzugehen, stellenwir im Ergebnis fest, dass Nv2/σ2 einer χ2-Verteilung mit N − 1 Freiheits-graden folgt:

f(v2|σ) = N

Γ [(N − 1)/2] 2σ2

(

Nv2

2σ2

)(N−3)/2

exp

(

−Nv2

2σ2

)

.

Die Log-Likelihood wird

lnL(σ) = −(N − 1) lnσ − Nv2

2σ2,

entsprechend der gestrichelten Kurve in Abb. 2.2. (Der numerische Wert desErwartungswertes µ in Beispiel 15 wurde deshalb speziell = 5/3 gewählt, umdie Maxima beider Kurven zum besseren Vergleich zusammenfallen zu lassen).Der Maximum-Likelibood Schätzwert ist

σ2 =N

N − 1v2 ,

Page 59: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

2.3 Zur Maximum-Likelihood-Schätzung der Parameter einer Normalverteilung 53

1 2 3 4 5

-1

0

1

2

3

-2 -4.5-0.50

Abb. 2.3. Maximum-Likelihood-Schätzung der Parameter einer Normalverteilungund Linien konstanter Log-Likelihood. Die Zahlen bezeichnen die Werte der Log-Likelihood in Bezug auf ihr Maximum.

übereinstimmend zu früheren Resultaten zur Varianzschätzung (s. [1], S.18).Für die asymmetrischen Fehlergrenzen finden wir, analog zu Beispiel 15,

δ±σ =σ√

12(N−1)

1∓√

12(N−1)

.

Die obigen Beispiele lassen sich als Spezialfälle der Likelihood-Methodebei einem mehrdimensionalen Parameter-Raum verstehen (s. [1], S. 139):

Beispiel 18. Maximum-Likelihood-Schätzung von Erwartungswert und Vari-anz einer Normalverteilung

Gegeben seien N Beobachtungen xi, die einer Normalverteilung mit unbe-kannten, zu schätzenden Parametern µ und σ folgen. Die Log-Likelihood istwie oben

lnL(µ, σ) = −N

[

lnσ +(x− µ)2

2σ2

]

+ const .

Page 60: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

54 2 Ausgewählte statistische Methoden

Die Ableitung nach den Parametern ergibt:

µ =1

N

N∑

i=1

xi = x ,

σ2 =1

N

N∑

i=1

(xi − µ)2 = (x − x)2 = v2 .

Das Maximum und die Höhenlinien der zweidimensionalen Log-Likelihoodfür eine Probe von 10 Beobachtungen mit empirischen Momenten x = 1 undx2 = 5, wie in den vorherigen Beispielen, ist in Abb. 2.3 gezeigt. Die innersteKontur schließt die Standardabweichung ein. Ist ein Parameter gegeben, z.B.µ = µ1, so ergibt sich die Log-Likelihood des anderen, hier σ, als Querschnittder zweidimensionalen Fläche bei µ1.

Bemerkung: Bei mehrdimensionalen Parameter-Räumen möchte man häu-fig nur einen Parameter bestimmen, die übrigen, falls unbekannt, nennt manStörparameter, die möglichst zu eliminieren sind (s. [1], S.162). Grundsätzlichist es nicht optimal, einen einzelnen Parameter aus einem mehrdimensionalenProblem zu bestimmen, indem man die übrigen einfach weg lässt. Die Diskre-panzen der entsprechenden Schätzungen und ihrer Fehler sind im Falle kleinerN nicht zu vernachlässigen.

Page 61: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

2.4 Zum Likelihood-Quotienten-(LQ)Test

2.4.1 Allgemeine Form

Der Likelihood-Quotienten-Test, kurz LQ-Test, ist der allgemeinste, allerdingsevtl. mit hohem Rechenaufwand verbundene, Test zum Vergleich zweier Hy-pothesen. Er wurde vorgestellt in seiner einfachsten, parameterfreien Form in[1], S. 131, sowie als Signifikanz- oder Güte-Test (s. [1], S. 234, leider zu kurz).Das gewachsene Interesse an dieser Methodik ist zweifellos der Entwicklungder Rechentechnik zu verdanken.

Der LQ-Test vergleicht eine theoretische Vorhersage H0 mit einer vonParametern θ = θ1, . . . , θP abhängigen Hypothese H1. Auch H0 kann vonParametern θ0 abhängen. Die Hypothesen sind definiert durch statistischeVerteilungsdichten einer, im allgemeinen vektoriellen, Zufallsvariablen x =x1, . . . , xN : f0(x|θ0), f1(x|θ), wobei die Menge der Parameterwerte θ0 eineTeilmenge der Menge der Werte θ sein soll, oft einfach ein bestimmter festerWert θ0. Die Teststatistik ist der Likelihood-Quotient λ, das Verhältnis der Li-kelihood von H0 zu der von H1. Die Parameter werden dabei so gewählt, dassdie Likelihoods bei den erhaltenen Beobachtungen x bezüglich der Parametermaximal sind, also

λ(x) =supL0(θ0|x)supL1(θ|x)

, (2.14)

oder, äquivalent,

lnλ = ln supL0(θ0|x)− ln supL1(θ|x) .

Wenn θ0 ein fester Wert ist, vereinfacht sich der Ausdruck zu

lnλ = lnL0(θ0|x)− ln supL1(θ|x) .

Aus der Definition (2.14) folgt λ ≤ 1.

Tabelle 2.1. Werte von λ und P10(k), siehe Text.

k 8 9 10 11 12 13λ 0.807 0.950 1.000 0.953 0.829 0.663P10(k) 0.113 0.125 0.125 0.114 0.095 0.073

Beispiel 19. LQ Test für eine Poisson-verteilte ZahlEs sei angenommen, dass H0 eine Anzahl von µ0 = 10 Zerfällen pro Stunde

vorhersagt, beobachtet werden k = 8. Die Likelihood für die Beobachtungvon 8 ist, für die Poisson-Verteilung Pµ0(k), L0 = P10(8) = e−10108/8!. Die

Page 62: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

56 2 Ausgewählte statistische Methoden

Likelihood ist maximal für µ = 8, es ist L = P8(8) = e−888/8!, daher folgt fürden LQ λ = P10(8)/P8(8) = e−2(5/4)8 = 0.807. Die Wahrscheinlichkeit p fürdie Beobachtung eines Quotienten kleiner oder gleich 0.807 beträgt

p =∑

k

P10(k) für k mit P10(k) ≤ 0.807P10(10) .

Relevante numerische Werte λ(k, µ0) = Pµ0(k)/Pk(k) und Pµ0(k) für µ0 = 10sind in Tabelle 2.1 gegeben. Die Summe über k läuft über alle k, außer k =9, 10, 11, 12: p = Σ8

k=0P10(k) + Σ∞k=13P10(k) = 1 − Σ12

k=9P10(k) = 0.541, wassicher akzeptabel ist. Dies ist ein Beispiel für die Berechnung eines p-Wertesin einem zweiseitigen Test.

Der LQ-Test in dieser allgemeinen Form ist nützlich, um zwischen einerspezifischen und ein- oder mehreren allgemeineren Hypothesen zu entscheiden.Zur Verwendung als Signifikanz-Test, d.h. bei sehr vagen Alternativen, wer-den die Daten als Histogramm dargestellt und mit theoretischen Vorhersagen(unter den betreffenden Hypothesen) verglichen.

Der LQ-Test für Histogramme

Die Testvariable ist, wie oben, der Quotient der Likelihood für die Hypothe-se H0, dass die Bin-Inhalte richtig vorhergesagt werden und der Likelihoodfür die Hypothese, die dieselbe für die erhaltene Probe maximiert. Letzterestritt ein, wenn Vorhersage und Inhalt für alle Bins übereinstimmen. Ist dieNull-Hypothese H0 nicht einfach, sondern enthält anzupassende Parameterso nimmt man im Zähler das Supremum der Likelihood-Funktion, unter derBedingung H0, Im Nenner verbleibt das unbedingte Supremum.

Für ein Bin mit beobachtetem Inhalt d, Vorhersage t und Wahrschein-lichkeitsdichte f(d|t) ist dieser Quotient λ = f(d|t)/f(d|d), bei t = d ist dieLikelihood als Funktion von t maximal. Für das gesamte Histogramm sindalle Quotienten für B Bins zu multiplizieren. Statt dessen wechseln wir zuLogarithmen und benutzen als Test-Statistik

V = lnλ =

B∑

i=1

[ln f(di|ti)− ln f(di|di)] .

Folgt der Bin-Inhalt einer Poisson-Verteilung (siehe [], Kap. 2, S. 55), so erhältman

V =B∑

i=1

[−ti + di ln ti − ln(di!) + di − di ln di + ln(di!)]

=

B∑

i=1

[di − ti + di ln(ti/di)] .

Page 63: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

2.4 Zum Likelihood-Quotienten-(LQ)Test 57

Die Verteilung der Test-Statistik V ist nicht, wie im Falle von χ2, universell,sondern hängt von der zu testenden Verteilung ab und muss daher im allge-meinen durch Monte Carlo Simulation bestimmt werden. Falls die Vorhersageunbekannte Parameter enthält, muss deren Bestimmung in die Simulation ein-geschlossen werden. Auch die Verwendung gewichteter Ereignisse ist möglich.

Asymptotisch, d.h. für N → ∞ gilt V → −χ2/2, wie man durch Ent-wickeln des Logarithmus erkennt: ln(1 + x) ≈ x − x2/2. Nach Einführen vonxi = (di − ti)/ti, welches nach dem Gesetz der Großen Zahlen für große diasymptotisch klein wird, findet man:

V =

B∑

i=1

[tixi − ti(1 + xi) ln(1 + xi)]

≈B∑

i=1

ti

[

xi − (1 + xi)(xi −1

2x2i )

]

≈B∑

i=1

ti

(

−1

2x2i

)

= −1

2

B∑

i=1

(

(di − ti)2

ti

)

= −1

2χ2B ,

und daher −2V näherungsweise verteilt wie eine χ2-Verteilung mit B Frei-heitsgraden, deren Benutzung dann gerechtfertigt ist.

Ist die Vorhersage anhand der Daten normalisiert, so ist die Poisson-Verteilung durch die Multinomial-Verteilung zu ersetzen. Wir unterdrückendie Berechnung und geben das Resultat

V =

B∑

i=1

di ln(ti/di) .

In diesem Falle nähert sich V einer χ2-Verteilung mit B − 1 Freiheitsgradenan.

2.4.2 Statistische Signifikanz von Signalen

Einführung

Tests für die Existenz von Signalen sind eng verbunden mit Signifikanz- oderGütetests, siehe [1], S. 223, unterscheiden sich jedoch in der Zielstellung.Wir wollen nicht entscheiden, ob H0 vereinbar mit einer beobachteten Probeist, sondern suchen ein Maß für die Evidenz von (schwachen) Signalen, diemöglicherweise in der Probe vorhanden sind, welche sonst nur uninteressanteUntergrund-Ereignisse enthält. Hierzu muss eine Beschreibung des Untergrun-des bekannt sein, aber zusätzlich auch eine Parametrisierung der gesuchtenAlternative. Die Null-Hypothese H0 bedeutet das Fehlen signifikanter Abwei-chungen vom Untergrund. Die Alternative Hs besagt deren Existenz. Sie ist

Page 64: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

58 2 Ausgewählte statistische Methoden

jedoch hier als nicht völlig spezifiziert angenommen, ansonsten könnte dasbereits behandelte Likelihoodverhältnis berechnet werden (siehe [1], S. 131).

Signaltests werden angewandt, wenn sehr seltene, aber für die weite-re Entwicklung der Grundlagen der Physik bedeutsame Ergebnisse unter-sucht werden, z.B. sehr seltene Zerfälle, Gravitations-Wellen oder Neutrino-Oszillationen. Ein häufig auftretendes Problem ist die Interpretation einerLinie in einem Massenspektrum als Nachweis eines unbekannten, „neuen“ Teil-chens. Um die Evidenz eines solchen Signals zu etablieren, ist allgemein ei-ne sehr signifikante Abweichung von der Null-Hypothese gefordert, d.h. dieSumme von Signal- und Untergrund-Verteilung muss die Daten viel besser be-schreiben, als der Untergrund allein. Begründet wird dies auch durch die inten-sive experimentelle Forschung: Teilchenphysiker schauen auf hunderte von Hi-stogrammen und finden so immer Kandidaten für Signale4, die meist aber nurUntergrund-Fluktuationen sind. Daher akzeptiert die Forscher-GemeinschaftSignale i.a. nur, wenn ihre Signifikanz der von vier bis fünf Standardabwei-chungen entspricht. In Fällen, in denen die Suche nach einer bestimmten Er-scheinung durch speziellere Bedingungen eingeschränkt ist, kann auch einegeringere Signifikanz genügen.

Wie bereits in [1], S. 225 eingeführt, korrespondiert ein hohes Signifikanz-Niveau (hier mit s bezeichnet) mit einem niedrigen p-Wert der Null-Hypothese.Dieses ist definiert als die Anzahl der Standard-Abweichungen, mit denen dasSignal die Untergrund-Erwartung im Falle einer Gauß-Verteilung übertrifft,wogegen der p-Wert Verteilungs-unabhängig ist. Bei sehr kleinen p wird den-noch meist die Anzahl der Gauß-bezogenen Standard-Abweichungen sG an-gegeben, dank größerer Anschaulichkeit. Es gilt

p = 1/√2π

∫ ∞

sG

exp(−x2/2)dx (2.15)

=[

1− erf(sG/√2)]

/2 . (2.16)

Diese Beziehungen gelten für einseitige Tests. Bei zweiseitigen Tests ist p mitdem Faktor 2 zu multiplizieren. Die Funktion sG(p) ist in Abb. 2.4 gegeben.

Wenn wir sehr kleine p-Werte für H0 fordern, um das gesuchte Signal mitgroßer Signifikanz zu etablieren, ist beim Modellieren der Test-Statistik be-sondere Sorgfalt geboten. Die zu H0 gehörige Verteilung wird oft als Polynomgenähert, das Signal als Gauß-Verteilung. Parameter und Voraussetzungensind jedoch meist mit Unsicherheiten behaftet. In diesem Falle sollten wirbesonders konservativ sein, denn es ist besser, die Signifikanz einer wichti-gen Aussage zu unterschätzen, als Evidenz für ein neues Phänomen mit einerzweifelhaften Zahl zu begründen.

Zur Illustration des Problems benutzen wir wieder die Suche nach ei-ner Linie in einem eindimensionalen Spektrum. Gewöhnlich wird der Un-tergrund unter einer beobachteten Erhebung aus der Anzahl der Ereignis-

4Dies ist der sogenannte look-else-where (schau-anderswo) Effekt.

Page 65: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

2.4 Zum Likelihood-Quotienten-(LQ)Test 59

1E-20 1E-15 1E-10 0.00001 10

1

2

3

4

5

6

7

8

9

10

0.00001 0.0001 0.001 0.01 0.1 10

1

2

3

4

Stand

arda

bweichun

gen

p-Wert

Stand

arda

bweichun

gen

p-Wert

Abb. 2.4. Transformation von p-Werten zu einseitigen Anzahlen von Standard-Abweichungen sG(p) .

Page 66: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

60 2 Ausgewählte statistische Methoden

se nahe aber außerhalb der Erhebung, den sogenannten Seitenbändern, ge-schätzt. Sind diese zu nahe bei der Erhebung, so sind sie empfindlich aufderen Schwänze. Sind sie zu weit entfernt vom Signal gewählt, so sind sieempfindlich auf die vorausgesetzte Form der Untergrund-Verteilung, die ofteinfach als linear oder quadratisch angenommen wird. Dies macht es schwie-rig, die Form und die Unsicherheit des erwarteten Untergrunds mit der nö-tigen Genauigkeit zu schätzen um einen p-Wert mit hoher Signifikanz (> 4Standard-Abweichungen) angeben zu können. Als Zahlenbeispiel betrachtenwir erwartete 1000 Untergrund-Ereignisse, die vom Experimentator um 2%unterschätzt wurden, d.h. der Messwert beträgt 980. Dann wird ein Über-schuss von 4.3 Standard-Abweichungen als 5 Standard-Abweichungen-Effektausgewiesen, bei einem um den Faktor 28 zu kleinen p-Wert. Auch numerischeNäherungen, z.B. die Beschreibung einer Poisson-durch eine Gauß-Verteilung,sind sorgfältig zu überprüfen.

Gewöhnlich ist das Likelihoodverhältnis, hier der Quotient der Maximader Likelihoods für H0 und Hs, die mächtigste Test-Statistik. In manchenFällen kann auch ein Parameter, der die Stärke des Signals misst, hierfür inFrage kommen.

2.4.3 Der Likelihood-Quotienten-Test

Definition

Ein offensichtlicher Kandidat für unsere Test-Statistik ist der Likelihood-Quotient (LQ), der bereits in [1], Abschnitt 5.4, S. 131 eingeführt wurde.Wir wiederholen hier seine allgemeine Definition:

λ =sup [L0(θ0|x)]sup [Ls(θs|x)]

,

lnλ = ln sup [L0(θ0|x)]− ln sup [Ls(θs|x)]

wobei L0, Ls die Likelihood-Funktionen bei der Null-bzw der Signal-Hypothesesind. Das Supremum ist bezüglich der Parameter θ0 bzw θs zu bilden, diealso Maximum-Likelihood-Schätzungen darstellen. Der Vektor x stellt dieProbe von N Beobachtungen x1, . . . , xN dar, die hier jeweils in einem 1-dimensionalen geometrischen Raum liegen. Die Ausdehnung auf einen höher-dimensionalen Raum ist leicht möglich, kompliziert jedoch die Formeln. DerParameter-Raum von H0 ist als eine Teilmenge von dem zu Hs gehörendenvorausgesetzt.

Soll z.B. herausgefunden werden, ob eine Untergrund-Verteilung signifi-kant besser durch eine kubische, als durch eine lineare Verteilung zu beschrei-ben ist, so betrachten wir

f0 = α0 + α1x , (2.17)

fs = α0 + α1x+ α2x2 + α3x

3 .

Page 67: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

2.4 Zum Likelihood-Quotienten-(LQ)Test 61

Dann passen wir die Parameter der zwei Funktionen getrennt an die beobach-teten Daten an und nehmen das Verhältnis der entsprechenden maximiertenLikelihoods.

Oft ist die Datenmenge so groß, dass wir sie besser in Form eines Hi-stogramms analysieren. Dann kann die Anzahl der Ereignisse yi in Bin i,i = 1, . . . , B näherungsweise durch Normal-Verteilungen beschrieben werden,mit Parameter-abhängigen Erwartungswerten ti(θ)

5. Wie schon in Abschnitt[1], S. 146 erhalten wir die Log-Likelihood

lnL = −1

2

B∑

i=1

[yi − ti]2

ti+ const.

Dies ist äquivalent zur χ2-Statistik, es gilt χ2 ≈ −2 lnL. In dieser Näherungwird das Log-LQ-Verhältnis äquivalent zur χ2-Differenz, ∆χ2 = minχ2

0 −minχ2

s der χ2-Abweichung minχ20 mit Parametern angepasst an die Null-

Hypothese H0 bzw. minχ2s entsprechend zur alternativen Hypothese Hs, die

Untergrund plus Signal beschreibt:

lnλ = ln sup [L0(θ0|y)]− ln sup [Ls(θs|y)] (2.18)

≈ −1

2(minχ2

0 −minχ2s) . (2.19)

Der p-Wert, der von der Statistik des Likelihood-Quotienten λ hergeleitetwird, stellt nicht in Rechnung, dass eine einfache Hypothese a priori attrak-tiver (weil informativer) als eine zusammengesetzte mit ein- oder mehr frei-en Parametern ist. Ein weiterer Kritikpunkt ist, dass die LQ-Statistik dieParameter- Werte am Maximum θ benutzt, wobei deren Unsicherheiten un-berücksichtigt bleiben. Es ist daher riskant,wichtige Entscheidungen allein aufdem p-Wert zu gründen. Daher wird unten auf das Bayessche Vorgehen, dasin der Anwendung des Bayes-Faktors besteht, kurz eingegangen.

Verteilung der Test-Statistik

Die Verteilung der Statistik λ (unter H0) ist im allgemeinen Fall analy-tisch nicht bekannt. Wenn jedoch die Näherung (2.19) gerechtfertigt ist unddrei weitere, unten genannte Bedingungen gelten, genügt −2 lnλ einer χ2-Verteilung. In dem Beispiel (2.17) wäre dies eine χ2-Verteilung mit 2 Freiheits-graden, da fs verglichen mit f0 zwei zusätzliche freie Parameter hat. Kenntnisder Verteilung der Test-Statistik reduziert den rechnerischen Aufwand für dienumerische Bestimmung des p-Wertes beträchtlich.

Betrachten wir ein in der Teilchenphysik typisches Problem: Ist eine be-obachtete lokale Häufung von Ereignissen über einem stetigen Untergrundbeschreibbar als Fluktuation desselben (H0) oder rührt sie von Zerfällen ei-nes vermuteten instabilen Teilchens her (Hs). Die beiden Hypothesen mögendurch folgende Dichten beschrieben werden:

5Wir schreiben wieder wie gewohnt θ statt α.

Page 68: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

62 2 Ausgewählte statistische Methoden

f0 = α0 + α1x+ α2x2, (2.20)

fs = α0 + α1x+ α2x2 + α3N(x|µ, σ) ,

und wir können wieder lnλ oder ∆χ2 als Teststatistik benutzen. Da wir dieParameter, darunter µ, σ, definieren müssen, bevor die Daten zur Kenntnisgelangen, behandeln wir sie als anzupassende, freie Parameter von fs. Leiderfolgt nun ∆χ2 nicht mehr einer χ2-Verteilung mit drei Freiheitsgraden; derErwartungswert erhöht sich im Vergleich beträchtlich. Grund hierfür ist, dassfür α3 = 0, entsprechend der Hypothese H0, µ und σ undefiniert sind.

Allgemein lauten die Voraussetzungen dafür, dass ∆χ2 asymptotisch einerχ2-Verteilung folgt, mit der Zahl der Freiheitsgrade gleich der Differenz derAnzahl freier Parameter in der Null- und Signal-Hypothese:

1. Die Verteilung f0 für die Hypothese H0 muss ein Spezialfall der zu Hs

gehörenden Verteilung fs sein.2. Falls Parameter nur innerhalb eines endlichen Intervalls erklärt sind, dür-

fen ihre angepassten Werte nicht am Rand liegen.3. Alle Parameter von Hs müssen auch unter H0 erklärt sein.

Falls eine dieser Bedingungen nicht erfüllt ist, muss die Verteilung der Test-Statistik durch Monte Carlo Simulation erhalten werden. Das heißt, es werdenviele Experimente unter H0 erzeugt und gezählt, wie viele von diesen Werteder Test-Statistik liefern, die außerhalb des tatsächlich beobachteten Wertesliegen. Der entsprechende Bruch ist der p-Wert zu H0. Das ist ein recht um-ständliches Verfahren, da jedes einzelne simulierte Experiment ein Anpassender freien Parameter beider Hypothesen erfordert. In [13] wird gezeigt, dassdas asymptotische Verhalten der Test-Statistik durch eine analytische Funk-tion beschreibbar ist. Dies kann den Aufwand der Simulation reduzieren.

Beispiel 20. Verteilung der LQ-StatistikWir betrachten (gemäß H0) eine Stichprobe von 1000 Ereignissen aus ei-

ner Gleichverteilung im Intervall [0, 1] und als Alternative eine Resonanz mitder Gaußschen Breite σ = 0.05, einem Lage-Parameter µ, der willkürlich imIntervall 0.2 ≤ µ ≤ 0.8 gelegen ist, und einer Gleichverteilung überlagert ist.Die freien Parameter sind ε, der Anteil von Resonanz-Ereignissen und µ. DerLogarithmus der LQ-Statistik ist

lnλ = ln sup [L0(θ0|x)]− ln sup [Ls(θs|x)]

=

1000∑

i=1

ln(1)−1000∑

i=1

ln

[

1− ε+ε√2πσ

exp

(

− (xi − µ)2

2σ2

)]

= −1000∑

i=1

ln

[

1− ε+ε√2πσ

exp

(

− (xi − µ)2

2σ2

)]

.

Page 69: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

2.4 Zum Likelihood-Quotienten-(LQ)Test 63

0 5 10 151E-6

0.00001

0.0001

0.001

0.01

0.1

1

0 2 4 6 80

1000

2000

3000

4000

p-W

ert

ln (LR)

Zahl

der

Ere

igni

sse

Chi-Quadrat

Abb. 2.5. Verteilung der Test-Statistik unter H0 und p-Wert als Funktion derTest-Statistik.

0.0 0.2 0.4 0.6 0.8 1.00

10

20

30

40

num

ber o

f eve

nts

energy

Abb. 2.6. Histogramm der für den LQ Test benutzten Probe. Die Kurve ist einenicht histogrammierte Likelihood-Anpassung an die Daten.

Page 70: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

64 2 Ausgewählte statistische Methoden

Abb. 2.5 zeigt die Ergebnisse von 106 simulierten Experimenten. Die Vertei-lung von − lnλ unter H0 hat den Mittelwert 1.502, entsprechend 〈∆χ2〉 =3.004. Der p-Wert als Funktion von − lnλ zeigt asymptotisch einen exponen-tiellen Verlauf, wie dies im rechten Graphen von Abb. 2.5 gezeigt wird. Dieserlaubt es, die Funktion zu sehr kleinen p-Werten zu extrapolieren, was nötigist, wenn sehr sichere, d.h. sehr signifikante Effekte behauptet werden sollen.

Abb. 2.6 zeigt das Ergebnis eines Experiments, in dem der Likelihood-Fiteine Resonanz bei der Energie 0.257 gefunden hat, die einen Anteil von 0.0653der Ereignisse enthält. Der Logarithmus des LQ ist 9.277. Der entsprechendep-Wert unter H0 ist pLQ = 1.8·10−4. Daher wird die Annahme, dass es sich beider Häufung um eine Resonanz handelt, durch die Daten stark untermauert.Tatsächlich wurde das Experiment generiert mit einem 7% Anteil von einerGauß-Verteilung N(x|0.25, 0.05) über einer Gleichverteilung.

2.4.4 Der Bayes-Faktor

Im Rahmen der Bayesschen Statistik werden Wahrscheinlichkeits-Dichten fürParameter θ betrachtet, was es erlaubt, bei der Auswahl zwischen HypothesenH1, H2 mit freien Parametern den einfachen LQ-Test durch den sogenanntenBayes-Faktor zu ersetzen.

Sei H1 gültig. Dann folgen die geltenden Parameter einer Verteilung pro-portional zu L1(θ1|x)π1(θ1) wobei L1(θ1|x) die Likelihood-Funktion undπ1(θ1) die Priordichte der Parameter ist. Dasselbe gilt analog für H2. DieWahrscheinlichkeit, dass H1 (H2) gültig ist, ist proportional zum Integral überden Parameter-Raum (Priordichte gewichtet mit Likelihood) ,

L1(θ1|x)π1(θ1)dθ1

(∫

L2(θ2|x)π2(θ2)dθ2). Die relativen Gewinnchancen sind durch den Bayes-Faktor B gegeben,

B =

L1(θ1|x)π1(θ1)dθ1∫

L2(θ2|x)π2(θ2)dθ2.

Im Falle fehlender freier Parameter reduziert sich B auf den einfachen LQ.Die integrierten Likelihoods im Zähler und Nenner des hier eingeführten

Bruchs heißen auch Rand-(marginal)-Likelihoods. Die Integration führt auto-matisch zu ihrer Verringerung („Strafe“ (penalty)) bei Vergrößern der Dimen-sion des Parameter-Raums. Das folgende Beispiel veranschaulicht dies:

Beispiel 21. Mehrdimensionaler Parameter-RaumWir betrachten eine diskrete, multinomial verteilte Stichprobe k1, . . . , kN ,

∑Ni=1 ki = n, d.h.

Mnp1,...,pN

(k1, . . . , kN ) =n!∏N

i=1 pki

i∏N

i=1 ki!,

Page 71: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

2.4 Zum Likelihood-Quotienten-(LQ)Test 65

mit Parametern n, p1, . . . , pN , wobei∑N

i=1 pi = 1. Die Likelihood-Funktionwird, bis auf eine nicht von pi abhängige Konstante,

L(p1, . . . , pN |k1, . . . , kN ) =

N∏

i=1

pki

i .

Um die Rand-Likelihood zu erhalten, muss, nach Multiplikation mit der Prior-Verteilung, über den Parameter-Raum integriert werden. Bei fehlender a prioriInformation ist hierfür die Gleichverteilung

π(p) =

1 wenn 0 < p < 10 sonst

sinnvoll, im Sinne des Bayesschen Postulats oder auch von Entropie-Argumenten.

Für jeden Faktor pki

i erhält man, nach Integration von 0 bis 1, einen Faktor1/(1+ ki) < 1. Folglich verringert sich die Rand-Likelihood und entsprechendauch der Bayes-Faktor B monoton mit der Anzahl der offenen Parameter.

In dieser Weise folgt das Konzept der Philosophie von Ockham’s Rasier-

messer6, das im wesentlichen verlangt, dass von verschiedenen konkurrieren-

den Theorien die mit den wenigsten Annahmen, d.h. die einfachste, zu bevor-

zugen ist.

Der Bayes-Factor soll eine vergleichbare Rolle wie der p-Wert in derHäufigkeits-Statistik spielen. Für etwas mehr quantitative Aussagen wurdevon H. Jeffreys [14] eine Klassifikation in verschiedene Kategorien vorgeschla-gen, beginnend mit < 3 (kaum erwähnenswert) bis > 100 (entscheidend).

Ein numerischer Vergleich mit dem p-Wert ist unzulässig, da letzterer keinePrior-Information enthält. Für das Beispiel 20 findet man, nach Einsetzen dergleichmäßigen Prior-Verteilungen

π(ε) = c

1 wenn 0 < ε < 0.50 sonst

π(µ) = c

1 wenn 0.2 < µ < 0.80 sonst

den Bayes-Faktor B = 54, der als sehr signifikant anzusehen ist. B istumgekehrt proportional zur Breite der µ-Verteilung, was zu erwarten ist,da die Wahrscheinlichkeit eines Schein-Signals mit der Breite einer flachenUntergrund-Verteilung wächst.

6Postuliert durch William von Ockham, englischer Logiker des 14. Jahrhunderts.

Page 72: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

66 2 Ausgewählte statistische Methoden

Im oben betrachteten Beispiel fanden wir als Likelihood-Verhältnis 1.1·104(am Likelihood-Maximum) und den p-Wert p = 1.8 · 10−4, beträchtlich klei-ner als die Wettchancen 1/54 für diese Hypothese. Während der Bayes-Faktordie Ungenauigkeit der Parameter-Schätzung berücksichtigt, ist dies völlig ver-nachlässigt bei der Herleitung des p-Wertes am Maximum der Likelihood. Al-lerdings ist die Berechnung des Bayes-Faktors nur nach Festlegung des Priorsmöglich, mit zumindest teilweise subjektiver Willkür.

Für die endgültige Bewertung wird der Bayes-Faktor noch mit Prior-Faktoren der beiden konkurrierenden Hypothesen multipliziert:

R = BπH1

πH2=

L1(θ1|x)π1(θ1)dθ1∫

L2(θ2|x)π2(θ2)dθ2

πH1

πH2.

Die posteriore Bewertung ist gleich der prioritären (vor der Messung) mal demBayes-Faktor.

Der Bayes-Faktor ist ein attraktives Konzept, das wenig rechnerische Ka-pazität erfordert. Beim Suchen einer Entscheidung ist es dem p-Wert vorzu-ziehen. Für die volle Dokumentation eines Experiments jedoch ist es nichtgeeignet, denn die prior-Dichten lassen sich nicht objektiv festlegen.

Page 73: Einführung in Statistik und Messwertanalyse für Physiker · Messwertanalyse für Physiker ... raturverzeichnis nur neue Zitate, die in der deutschen Ausgabe fehlen. Auch für ein

Literaturverzeichnis

1. G.Bohm und G. Zech, Einführung in Statistik und Messwertanalyse für Physi-ker, DESY, Hamburg (2008).

2. A.Hald, On the History of Series Expansions of Frequency Functions and Samp-ling Distributions, 1837-1944, Matematisk-fysiske Meddelelser 49, Copenhagen2002.

3. J.V.Uspensky, On Ch. Jordan´’s Series for Probability, Ann. Math., (2) 32

(1931), 306-312.4. H.Cramér, Proc. 6th Scand. Math. Congr. (1926a), 399-425.5. F.Y.Edgeworth, Trans. Cambr. Phil. Soc. 20 (1905) 35-54, 113-141.6. G.A.Korn and Th.M.Korn, Mathematical Handbook for Scientists and Engi-

neers, McGraw-Hill, New York (1961).7. B. Efron and R.T. Tibshirani, An introduction to the bootstrap, Chapman &

Hall, London (1993).8. G. J. Babu et al., Second order correctness of the Poisson bootstrap9. M.Fisz, Probability Theorie and Mathematical Statistics, R.E.Krieger Publis-

hing Company, Malabre, Florida (1980).10. A.B. Balantekin et al.,Review of Particle Physics, J.of Phys. G 33 (2006), 1.11. W.T.Eadie et al., Statistical Methods in Experimental Phasics, North-Holland,

Amsterdam, (1971).12. A.A. Tyapkin et al., Übersetzung des obigen Titels ins russische, Moskva, Ato-

misdat (1976).13. L.Demortier, P Values: What They Are and How to Use Them,

CDF/MEMO/STATISTICS/PUBLIC (2006).14. H. Jeffreys, Theorie of Probability, Clarendon Press, Oxford (1983).