View
0
Download
0
Category
Preview:
Citation preview
MUSTERERKENNUNG
Vorlesung im Sommersemester 2020
Prof. E.G. Schukat-Talamazzini
Stand: 28. April 2020
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Teil VII
Normalverteilungsklassifikatoren
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Multivariate Normalverteilungsdichte
Normalverteilungsklassifikatoren
Maximum-Likelihood Parameterschätzung
Maximum-a posteriori- und Bayesschätzung
Graphische Gaußsche Modelle
Mathematische Hilfsmittel
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Univariate Normalverteilungsdichte
N (x | µ, σ2)def=
1σ√2π· exp
−(x − µ)2
2σ2
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
-4 -2 0 2 4 6 8 10 12
N(x|3,1)N(x|3,4)N(x|3,9) Definition
Eine stetige Zufallsvariable X heißt(univariat) normalverteilt mitMittelwert µ ∈ IR und Varianzσ2 6= 0, wenn gilt:
fX(x) = N (x | µ, σ2)
BemerkungUnter der Annahme klassenweise statistisch unabhängiger und normalverteilterMerkmale läßt sich die (naive!) Bayesregel mit Hilfe von K ·D univariaten NV-Dichtenrealisieren.
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Bivariat unkorrelierte Normalverteilungsdichte
N (x | µ, σ21, σ22)def=
12πσ1σ2
·exp
−12·(
(x1 − µ1)2
σ21+
(x2 − µ2)2
σ22
)
-20
24
68 -2
0
2
4
6
8
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
N(x|(3,3),(3,5)) DefinitionEine stetiger ZufallsvektorX = (X1,X2) heißt bivariatunkorreliert normalverteilt mitMittelwertvektor µ ∈ IR2 undVarianzen σ2
1 , σ22 > 0, wenn gilt:
fX(x1, x2) = N (x | µ, σ21 , σ
22)
BemerkungFür Normalverteilungen sind Unkorreliertheit und Unabhängigkeit äquivalent.Obige Dichte entspricht also dem Produkt N (x1 | µ1, σ21) · N (x2 | µ2, σ22) derunivariaten NV-Dichten (Randverteilungen).
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Multivariate Normalverteilungsdichte
DefinitionEin Zufallsvektor X = (X1, . . . ,XD)> heißt multivariatnormalverteilt, falls er der D-dimensionalenVerteilungsdichtefunktion
N (x | µ,S)def=
1√det(2πS)
· exp
−12· (x − µ)>S−1(x − µ)
gehorcht. Es ist µ ∈ IRD der Erwartungswertvektor derVerteilung; die positiv-definite, symmetrische Matrix S ∈ IRD×D
heißt Kovarianzmatrix der Normalverteilung.
Bemerkungen1. Die Isolinien (Hyperebenen gleicher Dichtewerte) der multivariaten NV-Dichte
besitzen die Form von Hyperellipsoiden.
2. Die Richtungen und Radien ihrer Achsen entnehmen wir den Eigenvektoren undEigenwerten der Diagonalisierung S = UDU>.
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Parameterreduzierte Normalverteilungsdichten
µ
Normalverteilung
µ
Unabhängige Merkmale
µ
Euklidischer Abstand
Symmetrischpositiv-definit
Diagonalmatrix Einheitsmatrixskaliert
σ11 σ12 . . . σ1Dσ21 σ22 . . . σ2D...
. . ....
σD1 σD2 . . . σDD
σ2
1 0 . . . 00 σ2
2 . . . 0...
. . ....
0 0 . . . σ2D
σ2 0 . . . 00 σ2 . . . 0...
. . ....
0 0 . . . σ2
allgemeinesHyperellipsoid
Trägheitsachsenparallel zuKoordinatenachsen
skalierteHypersphäre
(D + 1) · D/2 Parameter D Parameter 1 Parameter
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Ist N (µ,S) ein gutes Verteilungsmodell ?Das kommt ganz auf die Anwendung & den Lerndatenvorrat an
Das NV-Modell ist zu simpel für unsere Daten
• Unimodale Dichtelandschaft ? Löwe/Löwin
• Elliptische Symmetrie ? nichtnegative Merkmale
• Exponentielles Abklingverhalten ? Ausreißer
Das NV-Modell ist zu komplex für unseren Klassifikator
• Speicheraufwand O(D2 · K ) ? Bilder, Microarrays
• Rechenaufwand O(D2 · K ) ? Echtzeitanwendungen
• Robustheit der Schätzung S = S(ω) ? Rang und Inversenbildung
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Multivariate Normalverteilungsdichte
Normalverteilungsklassifikatoren
Maximum-Likelihood Parameterschätzung
Maximum-a posteriori- und Bayesschätzung
Graphische Gaußsche Modelle
Mathematische Hilfsmittel
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Normalverteilungsklassifikator
DefinitionEinen Klassifikator mit den Prüfgrößen
uκ(x) = P(x ,Ωκ) = pκ · N (x | µκ,Sκ) , x ∈ IRD
für κ = 1, . . . ,K bezeichnet man als D-dimensionalenNormalverteilungsklassifikator mit den Verteilungsparametern[pκ,µκ,Sκ]κ=1..K .
BemerkungIn der Praxis verwendet man einfachheitshalber die dazu antitonen Prüfgrößen
uκ(x) = −2 · log (P(x ,Ωκ)) ,
die quadratische Funktionen der Mustermerkmale sind.
Entscheidungsregel: Prüfgröße minimieren (Minuszeichen)
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Prüfgrößen der NV-BayesregelNormalverteilungsklassifikator mit uneingeschränkten Kovarianzmatrizen Sκ
uκ(x) = −2 log pκ + log |2πSκ|︸ ︷︷ ︸γκ
+ (x − µκ)> · S−1κ · (x − µκ)︸ ︷︷ ︸Mahalanobisabstand ‖x−µκ‖
2Sκ
Bemerkungen1. Je Klasse 1 + D +
(D+12
)Parameter O(D2K )
2. Je Muster und Klasse 3D2 Addit./Multiplik. O(D2K )
x>S−1κ x =
D∑i=1
D∑j=1
xicκij xj , Cκ = S−1κ
3. Für den Abstandsausdruck lohnt sich die folgende Betrachtung:
(x − µκ)>S−1κ (x − µκ) = x>S−1κ x︸ ︷︷ ︸spur
(S−1κ ·xx>
)− 2µ>κ S−1κ︸ ︷︷ ︸a>κ
x + µ>κ S−1κ µκ︸ ︷︷ ︸cκ
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Prüfgrößen der naiven NV-BayesregelNormalverteilungsklassifikator mit diagonalen Kovarianzmatrizen Sκ
uκ(x) = γκ +D∑
d=1
(xd − µκ,dσκ,d
)2
mit der Konstanten
γκ = −2 log pκ + D · log(2π) +∑d
log σ2κ,d
Bemerkungen1. Je Klasse 1 + D + D Parameter O(DK )
2. Je Muster und Klasse 4D Addit./Multipl./Divis. O(DK )
3. Keine Merkmalkorrelationen — keine „schrägen“ Klassengebiete!
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Prüfgrößen der sphärischen NV-BayesregelNormalverteilungsklassifikator mit skalierter Einheitskovarianz Sκ = σ2κE
uκ(x) = γκ + ‖x − µκ‖2 / σ2κ
mit der Konstanten
γκ = −2 log pκ + D · log(2π) + 2D · log σκ
Bemerkungen1. Je Klasse 1 + D + 1 Parameter O(DK )
2. Je Muster und Klasse 3D Addit./Multipl./Divis. O(DK )
3. Klassengebiete = Hyperkugeln unterschiedlicher Radien
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Prüfgrößen des Minimum-Abstand-KlassifikatorsNormalverteilungsklassifikator mit Einheitskovarianz Sκ = E
uκ(x) = γκ + ‖x − µκ‖2
mit der Konstantenγκ = −2 log pκ + D · log(2π)
Bemerkungen1. Je Klasse 1 + D + 0 Parameter O(DK )
2. Je Muster und Klasse 2D Addit./Multipl./Divis. O(DK )
3. Klassengebiete = Hyperkugeln identischer Radien
4. Modifizierter MAK — incl. Klassengewicht γκ
5. Gewöhnlicher MAK — excl. Klassengewicht γκ
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Prüfgrößen des Mahalanobis-KlassifikatorsNormalverteilungsklassifikator mit klassenunabhängiger Kovarianz Sκ = S0
uκ(x) = γκ + (x − µκ)> · S−10 · (x − µκ)︸ ︷︷ ︸Mahalanobisabstand ‖x−µκ‖
2S0
mit der Konstanten
γκ = −2 log pκ + D · log(2π) + log |S0|
Bemerkungen1. Je Klasse 1 + D Parameter zzgl. S0 O(DK + D2)
2. Je Klasse 2D Addit./Multiplik. zzgl. quadr. Form O(DK + D2)
3. Für den Abstandsausdruck lohnt sich die folgende Betrachtung:
(x − µκ)>S−10 (x − µκ) = x>S−10 x︸ ︷︷ ︸spur(S−1
0 ·xx>)
− 2µ>κ S−10︸ ︷︷ ︸a>κ
x + µ>κ S−10 µκ︸ ︷︷ ︸cκ
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Prüfgrößen des Richter-KlassifikatorsNormalverteilungsklassifikator mit isotrop skalierter Kovarianz Sκ = ακS0
uκ(x) = γκ + α−1κ · (x − µκ)> · S−10 · (x − µκ)︸ ︷︷ ︸α−1κ ·‖x−µκ‖
2S0
mit der Konstanten
γκ = −2 log pκ + D · log(2π) + D · logακ + log |S0|
Bemerkungen1. Je Klasse 1 + D + 1 Parameter zzgl. S0 O(DK + D2)
2. Je Klasse 2D Addit./Multiplik. zzgl. quadr. Form O(DK + D2)
3. Für den Abstandsausdruck lohnt sich die folgende Betrachtung:
x>S−1κ x = α−1κ · spur(S−10 · xx>
)︸ ︷︷ ︸
Cx
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Prüfgrößen des EigenraumklassifikatorsNormalverteilungsklassifikator mit achsenparallelen Kovarianzen Sκ = UDκU>
uκ(x) = γκ + (U>(x − µκ))> ·D−1κ · (U>(x − µκ))︸ ︷︷ ︸‖U>(x−µκ)‖2Dκ
mit der Konstanten
γκ = −2 log pκ + D · log(2π) +∑d
log λκd
Bemerkungen1. Je Klasse 1 + D + D Parameter zzgl. U O(DK + D2)
2. Je Klasse 4D Operationen für ‖·‖2Dκ zzgl. D2 für U>x O(DK + D2)
3. Für den Abstandsausdruck lohnt sich die folgende Betrachtung:
x>S−1κ x = x>UD−1κ U>x = (U>x)>D−1κ (U>x) =D∑
d=1
(u>d x)2 / λκd
4. Es kommt auch eine unvollständige Entwicklung in Betracht, bei derTrägheitsachsen mit kleinen Eigenwerten ignoriert werden ...
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Multivariate Normalverteilungsdichte
Normalverteilungsklassifikatoren
Maximum-Likelihood Parameterschätzung
Maximum-a posteriori- und Bayesschätzung
Graphische Gaußsche Modelle
Mathematische Hilfsmittel
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Parameterschätzung für WahrscheinlichkeitsmodelleVerteilungsmodell Lerndaten Parameterschätzwert
Parametrische VerteilungsdichtefamilieDie Wertetupel x ∈ IRD eines Zufallsvektors X seien gemäß
f(x |θ) | θ ∈M
verteilt; jede Verteilungsdichte der Familie ist durch ein Feld θ vonParametern aus einer MannigfaltigkeitM charakterisiert.
Repräsentative LernstichprobeDie unbekannte Verteilung von X ist durch eine Stichprobe ωrepräsentiert, deren Elemente x1, . . . , xT unabhängig und identischgemäß f(·|θ) verteilt gezogen wurden.
ProblemWie lautet der beste Schätzwert θ für die unbekannten Parameter θ∗ ?
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Maximum-Likelihood SchätzungLemmaDie (logarithmierte) Ziehungswahrscheinlichkeit für den unabhängig undidentisch mittels f(·|θ) gezogenen Datensatz ω beträgt
`θ(ω) = log∏x∈ω
f(x |θ) =∑x∈ω
log f(x |θ) .
Die Größe `θ(ω) heißt Likelihoodfunktion von θ.
DefinitionDie Maximum-Likelihood-Schätzung (MLS) der Parameter einerDichtefamilie [f(x |θ)] maximiert die parameterbedingteStichprobenwahrscheinlichkeit, d.h. es gilt
θML = argmaxθ
∏x∈ω
f(x |θ) = argmaxθ
∑x∈ω
log f(x |θ) .
BemerkungDer ML-Schätzwert θML ist von allen Parameterwerten derjenige, zu dem dievorliegenden Daten ω am besten passen.
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Maximum-Likelihood Schätzung
SatzDer ML-Schätzer ist erwartungstreu, d.h.: ist eine Zufallsvariable Xgemäß f(x |θ?) verteilt, so ist der Erwartungswert des ML-Schätzers füreine Stichprobe unabhängiger Realisierungen von X gleich θ?.
Bemerkungen1. Für eine repräsentative Lernstichprobe zunehmenden Umfangs strebt der
ML-Schätzwert gegen den wahren Parametervektor.
2. Über das Verhalten des ML-Schätzwertes bei Verwendung einerindividuellen, endlichen Probe trifft der Satz keinerlei verbindlicheAussage.
3. Gehorcht der Datenerzeugungsprozeß nicht tatsächlich für irgendeinenfesten Parameterwert θ ∈M dem postulierten Verteilungsgesetz f(x |θ),so besitzen selbst die asymptotischen ML-Parameter θML keineAussagekraft.
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
ML-Schätzung für den NV-Klassifikator
Erzeugungswahrscheinlichkeiteiner unabhängig und identisch verteilten, etikettierten Stichprobe
P(⋃κ
ωκ) =K∏κ=1
P(ωκ) =K∏κ=1
∏x∈ωκ
P(Ωκ) · P(x |Ωκ)
Logarithmierte ML-ZielgrößeParametrisiert durch (pκ,θκ), κ = 1, . . . ,K
logK∏κ=1
∏x∈ωκ
pκ · f(x |θκ) =K∑κ=1
Tκ log pκ +K∑κ=1
(∑x∈ωκ
log f(x |θκ)
)
zerfällt in (K + 1) voneinander unabhängige Optimierungsprobleme
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
ML-Schätzung für den NV-Klassifikatormit vollbesetzten klassenabhängigen Kovarianzmatrizen
SatzDie Maximum-Likelihood-Parameter einesNormalverteilungsklassifikators bezüglich einer etikettiertenStichprobe [ωκ] lauten
pκ = Tκ
/K∑λ=1
Tλ
µκ =1Tκ
∑x∈ωκ
x
Sκ =1Tκ
∑x∈ωκ
(x − µκ)(x − µκ)>
=1Tκ
∑x∈ωκ
xx> − µκµ>κ
Beweis.[Diskrete Verteilung (p1, . . . , pK ) der Musterklassen]
Die ML-Zielfunktion lautet zunächst
`′p(ω) = log
K∏κ=1
pTκκ =
K∑κ=1
Tκ log pκ
und ist aber unter Berücksichtung der Normierungsbedingung∑κ pκ = 1 zu maximieren; die Bedingung
wird mit einem Lagrange-Multiplikator inkorporiert:
`p(ω) =K∑κ=1
Tκ log pκ − λ · (∑κ
pκ − 1)
Wir bilden nun die partiellen Ableitungen
∂`p(ω)
∂pκ= Tκ
1
pκ− λ und
∂`p(ω)
∂λ= 1−
∑κ
pκ
Nullsetzen der Ableitungen ergibt
Tκpκ
= λ ⇒ pκ =Tκλ
und wegen
1 =∑κ
pκ =∑κ
Tκλ
=1
λ
∑κ
Tκ =1
λ· T
folgt λ = T und daher pκ = Tκ/T für alle κ = 1, . . . ,K .
Beweis.[Parameter µ einer univariaten Gaußdichte]
fX(x) = N (x | µ, σ2) =1
σ√2π· exp
(−
(x − µ)2
2σ2
)
Die ML-Zielfunktion `µ,σ2 (ω) = −2 · log
∏x∈ω N (x | µ, σ2) lautet
`µ,σ2 (ω) = −2 ·
∑x∈ω
(−1
2log(2πσ2)−
1
2
(x − µ)2
σ2
)= T · log(2πσ2) +
1
σ2
∑x∈ω
(x − µ)2
Partielle Ableitung nach µ:
∂`(ω)
∂µ=
1
σ2
∑x∈ω
2 · (x − µ) · (−1) = −2
σ2
∑x∈ω
x −∑x∈ω
µ
Nullsetzen ergibt ∑
x∈ωx =
∑x∈ω
µ = T · µ ⇒ µ =1
T
∑x∈ω
x
Beweis.[Parameter σ2 einer univariaten Gaußdichte bei bekanntem Wert µ]
fX(x) = N (x | µ, σ2) =1
σ√2π· exp
(−
(x − µ)2
2σ2
)
Die ML-Zielfunktion `µ,σ2 (ω) = −2 · log
∏x∈ω N (x | µ, σ2) lautet
`µ,σ2 (ω) = −2 ·
∑x∈ω
(−1
2log(2πσ2)−
1
2
(x − µ)2
σ2
)= T · log(2πσ2) +
1
σ2
∑x∈ω
(x − µ)2
Partielle Ableitung nach σ2:
∂`(ω)
∂σ2= T ·
1
2πσ2· 2π −
1
σ4
∑x∈ω
(x − µ)2 =1
σ2
T −1
σ2
∑x∈ω
(x − µ)2
Nullsetzen ergibt
T =1
σ2
∑x∈ω
(x − µ)2 ⇒ σ2 =
1
T
∑x∈ω
(x − µ)2
BemerkungIn der Praxis ist mit σ2 natürlich auch µ unbekannt und es muß unter Zuhilfenahme desML-Schätzwertes µ optimiert werden. Eine Rechnung ähnlich der obigen ergibt die Varianzschätzformel
σ2 =
1
T − 1
∑x∈ω
(x − µ)2 .
Beweis.[Parameter µ einer multivariaten Gaußdichte]
N (x | µ, S) = |2πS|−1/2 · exp(−1/2(x − µ)>S−1(x − µ)
)Die ML-Zielfunktion lautet
`µ,S (ω) = −2 · log∏x∈ωN (x | µ, S) = −2
∑x∈ω
(−1
2log |2πS| −
1
2(x − µ)>S−1(x − µ)
)= T log |2πS| +
∑x∈ω
(x − µ)>S−1(x − µ)
= T log |2πS| +∑x∈ω
(x>S−1x − 2x>S−1
µ + µ>S−1
µ)
Partielle Ableitung nach µ (Gradientenvektor):
∇µ`µ,S (ω) = 0− 0 +∑x∈ω∇µ
(x>S−1x − 2x>S−1
µ + µ>S−1
µ)
=∑x∈ω
(0− 2 · S−1x + 2 · S−1
µ)
= 2 · S−1 ∑x∈ω
(µ− x) = 2 · S−1
Tµ−∑x∈ω
x
Nullsetzen und Multiplikation mit 1/2 · S ergibt
Tµ =∑x∈ω
x ⇒ µ = 1/T
∑x∈ω
x
Beweis.[Parameter S einer multivariaten Gaußdichte]
Die ML-Zielfunktion lautet
`µ,S (ω) = T log |2πS| +∑x∈ω
(x − µ)>S−1(x − µ)
= TD log(2π)− T log |S−1| +∑x∈ω
spur(S−1(x − µ)(x − µ)>
)
= TD log(2π)− T log |S−1| + spur
S−1 ·∑x∈ω
(x − µ)(x − µ)>
︸ ︷︷ ︸
T·spur(S−1·S
)
Wir reformulieren die Zielgröße unter Verwendung der inversen Kovarianzmatrix Q = S−1:
`µ,Q (ω) = TD log(2π)− T log |Q| + T · spur(Q · S
)Und nun leiten wir partiell nach der inversen Kovarianzmatrix ab:
∇Q`µ,Q (ω) = 0− T · Q−1 + T · S = T ·(S − Q−1
)= T ·
(S − S
)Nach dem Nullsetzen ergibt sich folglich
S = S =1
T
∑x∈ω
(x − µ)(x − µ)>
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
ML-Schätzung für den NV-KlassifikatorDiagonale Kovarianzmatrizen & Mahalanobis-Klassifikator
Diagonale KovarianzenDie ML-Zielgröße zerfällt auf Grund der Unabhängigkeitsannahme in(1 + K · D) unabhängige Optimierungsterme.
σ2κ,d =
1Tκ
∑x∈ωκ
(xd − µκ,d)2
Mahalanobis-KlassifikatorBei klassenübergreifenden Kovarianzstatistiken zerfällt `θ(·) nicht mehrvollständig in klassenspezifische Optimierungsausdrücke!
S0 = SW ([ωκ]) =1T
K∑κ=1
∑x∈ωκ
(x − µκ)(x − µκ)>
Einphasige Berechnung von S0 ist möglich: SW = S − SB
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
ML-Schätzung für den NV-KlassifikatorRichter-Modell: ähnliche Klassenkovarianzen Sκ = ακS0
IterationsanfangBerechne Probenstatistiken und initiale Skalierungsfaktoren:
pκ =TκT
µκ =1Tκ
∑x∈ωκ
x
α(0)κ = 1 Sκ =
1Tκ
∑x∈ωκ
xx> − µκµ>κ
IterationsschrittBerechne Kovarianzprototyp und Skalierungsfaktoren für i = 1, 2, . . .:
S(i)0 =
K∑κ=1
pκ · (α(i−1)κ )−1 · Sκ
α(i)κ =
1D· spur
(Sκ · (S(i)
0 )−1)
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Geteilte Parametrisierung von NV-DichtenDas -Paket ’mclust’ zur Clusteranalyse
N (x | µκ,Sκ) mit Sκ := sκ ·UκDκU>κ und
sκ VolumenDκ GestaltUκ Orientierung
Modell Kovarianz Geometrie Volumen Gestalt OrientierungEII sE sphärisch konstant (std.) (std.)VII sκE sphärisch variabel (std.) (std.)EEI sD diagonal konstant konstant (std.)VEI sκD diagonal variabel konstant (std.)EVI sDκ diagonal konstant variabel (std.)VVI sκDκ diagonal variabel variabel (std.)EEE sUDU> elliptisch konstant konstant konstantEVE sUDκU> elliptisch konstant variabel konstantVEE sκUDU> elliptisch variabel konstant konstantVVE sκUDκU> elliptisch variabel variabel konstantEEV sUκDU>κ schräg konstant konstant variabelVEV sκUκDU>κ schräg variabel konstant variabelEVV sUκDκU>κ schräg konstant variabel variabelVVV sκUκDκU>κ schräg variabel variabel variabel
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Geteilte Parametrisierung von NV-Dichten
Scrucca, Fop, Murphy & Raftery, ’R’ Journal, Volume 8/1 (2016)
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
ML-Schätzung und Lernstichprobenumfang
ProblemIn der NVK-Prüfgröße treten die Inversen und die reziprokenDeterminanten aller Sκ auf!
1. Der Varianz-MLS σκ,d wird Null, sobald |ωκ| ≤ 1 ist.
2. Der Kovarianz-MLS Sκ wird singulär, sobald |ωκ| ≤ D ist.
3. Selbst für Klassen mit |ωκ| > D besitzt Sκ häufig schlechte Kondition.
Schwierigkeiten für kleine T , große D, große K.
LösungVerringerung der Modellkapazität (Anzahl freier Parameter)
1. Fixierung und/oder Verklebung von Parametern
2. Strukturierung von Variablenabhängigkeiten
3. Wissensbasierte Engführung des Parameterraums
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Multivariate Normalverteilungsdichte
Normalverteilungsklassifikatoren
Maximum-Likelihood Parameterschätzung
Maximum-a posteriori- und Bayesschätzung
Graphische Gaußsche Modelle
Mathematische Hilfsmittel
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Maximum-a posteriori SchätzungVerteilungsparameter θ als Werte einer Zufallsvariablen Θ
Bayesscher DenkansatzDie wahren Verteilungsparameter θ∗ des Prozesses sind nicht nurunbekannt, sie sind sogar stochastisch.
Ihre Verteilungsdichte fΘ(·) repräsentiert unser Vorwissen über ihremöglichen Werte(kombinationen).
LemmaSind die Parameter der Verteilungsfamilie fX(·|θ)θ∈M selbst gemäßa priori Dichte fΘ(θ) verteilt, so lautet — für den unabhängig undidentisch gezogenen Datensatz ω — die datenbedingte a posterioriDichte der Parameter
P(θ|ω) =P(θ) · P(ω|θ)
P(ω)=
fΘ(θ) ·∏x∈ω
fX(x |θ)
P(ω).
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Maximum-a posteriori SchätzungDie im Lichte der Datenprobe wahrscheinlichsten Verteilungsparameter
DefinitionDie Maximum-a posteriori-Schätzung (MAP) der Parameter einerDichtefamilie [f(x |θ)] unter Annahme der a priori-VerteilungsdichtefΘ(θ) für θ maximiert die stichprobenbedingte Wahrscheinlichkeit desgesuchten Parameterfeldes, d.h. es gilt:
θMAP = argmaxθ
(fΘ(θ) ·
∏x∈ω
fX(x |θ)
)
Bemerkungen
1. Der MAP-Schätzwert θMAP ist von allen Parameterwerten derjenige, der zu denvorliegenden Daten ω am besten paßt.
2. Hand aufs Herz — niemand (außer dem Capo di tutti capi) kennt diesemysteriöse Dichte fΘ(·).
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Wissenswertes über die Maximum-a posteriori SchätzungSpezialfall Maximum-LikelihoodUnter Gleichverteilungsannahme für fΘ(·) mutiert die MAP-Schätzung ineine ML-Schätzung.
Asymptotisches SchätzverhaltenFür große Stichproben (|ω| → ∞) strebt θMAP gegen θML.
Methode der konjugierten DichtefamilienDie analytische Optimierung der MAP-Zielfunktion erfordert einegeeignete Form der a priori-Dichte:
fΘ(θ) = C ·∏
z∈ωprior
fX(z |θ)
Mit dieser Wahl gilt nämlich
θMAP(ω) = θML(ω∪ωprior)
und das Problem der fΘ(·)-Findung ist auf elegante Art gelöst!
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
MAP-Schätzung für diskrete VerteilungenWahrscheinlichkeitsparameter p1 + p2 + . . .+ pK = 1 für K Ereignisse
DefinitionDer Zufallsvektor Θ = (Θ1, . . . ,ΘK )> ∈ [0, 1]K mit
∑` Θ` = 1 heißt
Dirichlet-verteilt mit den Hyperparametern r1, . . . , rK > −1 genaudann, wenn gilt:
fΘ(p) = D(p|r) = C ·K∏`=1
pr``
Bemerkungen1. Für r = 0 ist D(p|r) eine Gleichverteilung.
2. Für r = 1 nimmt D(p|r) ihr Dichtemaximum bei der Gleichverteilungp` ≡ 1/K an.
3. Allgemein nimmt D(p|r) ihr Dichtemaximum bei der Verteilung p ∝ r an,also für die Wahrscheinlichkeiten p` = r`/R, R =
∑i ri .
4. Der Dichtegipfel ist umso steiler, je größer der Skalenfaktor R ist.
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
MAP-Schätzung für diskrete VerteilungenSatzGehorchen die kanonischen Parameter p1, . . . , pK einer diskretenWahrscheinlichkeitsverteilung der Dirichletverteilung mitHyperparametern r ∈ IRK , so lautet der MAP-Schätzwert für eineStichprobe mit den absoluten EreignishäufigkeitenT1 + T2 + . . .+ TK = T
p` =T` + r`T + R
, R =K∑`=1
r` .
Bemerkungen
1. Eine MAP-Schätzung mit Vorwissen D(·|r) bewirkt die Aufstockung derLerndaten ω um eine virtuelle Datenprobe ωprior mit den Ereignishäufigkeitenr`; diese Werte müssen allerdings nicht unbedingt ganzzahlig sein.
2. Der Spezialfall einer gleichverteilten oder uninformativen Dirichletdichte(r` ≡ r0) ergibt die MAP-Schätzwerte (Laplaceschätzformel im Fall r0 = 1)
p` = (T`+r0)/(T+K ·r0) , ` = 1, 2, . . . ,K .
Beweis.Es beträgt die Stichprobenwahrscheinlichkeit
P(ω|p) =K∏κ=1
pTκκ
und die a posteriori Parameterwahrscheinlichkeit (bei festen Hyperparametern)
P(p|ω) ∝ P(ω|p) · fΘ(p) ∝K∏κ=1
pTκκ ·
K∏κ=1
prκκ ∝
K∏κ=1
p(Tκ+rκ)κ
Das Maximum nimmt P(p|ω) bekanntlich für diejenige Verteilung an, die proportional zu denExponenten ist:
pκ =Tκ + rκT + R
, R =∑κ
rκ
Der MAP-Schätzwert ist ein gewichtetes Mittel („Konvexkombination“) aus ML-Schätzwert und demModus
ρκ = rκ/R , κ = 1, . . . ,K
der a priori-Dichte:
pκ =Tκ + rκT + R
=Tκ
T + R+
rκT + R
=TκT︸︷︷︸
pMLκ
·T
T + R︸ ︷︷ ︸λ
+rκR︸︷︷︸ρκ
·R
T + R︸ ︷︷ ︸(1−λ)
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
MAP-Schätzung für die multivariate NV-Dichte
DefinitionEine Zufallsmatrix S über der Mannigfaltigkeit aller symmetrischen,positiv-definiten (D × D)-Matrizen heißt Wishart-verteilt genau denn,wenn
fS(S) = W(S | α,V ) =1
2αD2 |V |
α2 ΓD(α2 )
·|S |α−D−1
2 ·exp(−1/2 · spur
(V−1S
))gilt mit den Hyperparametern α > D − 1 und V ∈ IRD×D positiv-definit.
LemmaFür die multivariate NV-Dichte N (µ,S) bildet das Produkt
fΘ(µ,S) = N (µ | m, τ−1S) · W(S−1 | α,V )
eine konjugierte Dichtefamilie mit den Hyperparametern m ∈ IRD , τ > 0,α > D − 1 und positiv-definiter Matrix V ∈ IRD×D .
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
MAP-Schätzung für den NV-KlassifikatorSatzDie Lerndaten ω1, . . . , ωK ⊂ IRD eines numerischenKlassifikationsproblems seien klassenweise normalverteilt mit denunbekannten Parametern (pκ,µκ,Sκ), κ = 1, . . . ,K. Die a prioriVerteilung der Parameter sei definiert durch
fΘ(θ) = D(p|r) ·K∏κ=1
N (µκ | mκ, τ−1κ Sκ) ·
K∏κ=1W(S−1
κ | ακ,V κ) .
Dann lauten die Maximum-a posteriori-Parameter:
pκ =rκ + TκR + T
, R =∑κ
rκ
µκ =1
τκ + Tκ
(τκmκ +
∑x∈ωκ
x
)
Sκ =V κ + τκ(µκ −mκ)(µκ −mκ)> +
∑x∈ωκ xx> − Tκµκµ
>κ
(ακ − D) + Tκ
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
„Plug-in“-SchätzverfahrenDie Suche nach den unbekannten, aber wahren Parametern
Traditionelles InduktionsparadigmaDie Verteilungsannahme ω ∼ fX(·|θ) ist korrekt.Es existiert eine wahre Parameterkonfiguration θ∗ — wir müssen sienur finden!
ML-Schätzung
θML = argmaxθ
P(ω|θ)
MAP-Schätzung
θMAP = argmaxθ
P(θ|ω)
Posterior-Mean-Schätzung
θPM = E[Θ|ω] =
∫θ · P(θ|ω)dθ
Bayespunkt-Schätzung
θ(ρ)BP = argmax
θ
∫Uρ(θ)
P(ϑ|ω)dϑ
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
„Plug-in“-SchätzverfahrenAnalyse der a posteriori Parameterdichte
θ ω
θ
MAP PM BP
P( | )
MAP Wo liegt der Gipfel der Posteriordichte?
PM Wo liegt der Durchschnitt der Posteriordichte?
BP Wo liegt das kleinste Intervall mit Wahrscheinlichkeitsmasse ρ > 0?
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Bayes-SchätzungDer Abschied von der Idee „wahrer“ Verteilungsparameter
Bayessches InduktionsparadigmaDie Verteilungsannahme ω ∼ fX(·|θ) ist korrekt.Aber jedes x ∈ ω wird unter Verwendung eines eigenen, zufälligausgewürfelten Modellparameters θ gezogen!
P(x |ω) =
∫M
P(x ,θ | ω)dθ
=
∫M
P(x | θ, ω) · P(θ | ω)dθ
=
∫M
fX(x |θ)︸ ︷︷ ︸Modelldichte
· fX(ω|θ) · fΘ(θ)
fX(ω)︸ ︷︷ ︸a posteriori
dθ
Analytisch extrem schwer lösbar — bestenfalls wenn fΘ(·) ≡ c
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
BayesapproximationAsymptotisch korrekte Näherung unter Gleichverteilungsannahme für fΘ(·)
Praktikable Näherungslösung für den BayesschätzerUnwissen um fΘ(·) Gleichverteilung HerauskürzenSimultan in Zähler und Nenner: Integralbildung Maximumbildung
P(x |ω) =P(x , ω)
P(ω)=
∫fX(ω, x |θ) · fΘ(θ)dθ∫fX(ω|θ) · fΘ(θ)dθ
≈ maxθfX(ω, x |θ)
maxθfX(ω|θ)=
∏z∈ω,x
fX(z | θML(ω, x))∏z∈ω
fX(z | θML(ω))
Achtung:Die Bayesapproximation PBA(x |ω) ist i.a. keine Dichtefunktion(Normierungseigenschaft)!
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Multivariate Normalverteilungsdichte
Normalverteilungsklassifikatoren
Maximum-Likelihood Parameterschätzung
Maximum-a posteriori- und Bayesschätzung
Graphische Gaußsche Modelle
Mathematische Hilfsmittel
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Graphische Gaußsche ModelleDie Bias-Varianz-Problematik
Dichtemodell mit vielen ParameternNV-Dichten mit voll besetzter KovarianzmatrixAlle paarweisen Merkmalabhängigkeiten O(KD2)Kleiner Bias — große Varianz
Dichtemodell mit wenigen ParameternNV-Dichten mit diagonal besetzter KovarianzmatrixAlle Merkmale paarweise unabhängig O(KD)Großer Bias — kleine Varianz
LösungsideeNicht alle, sondern nur die wichtigen Merkmalabhängigkeiten werdenexplizit modelliert.
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Gaußsche Bayesnetze
Kettenregel der Wahrscheinlichkeitstheorie
P(x1, . . . , xD) = P(x1) · P(x2|x1) ·D∏
d=3
P(xd | x1, . . . , xd−1)
Das d -te Merkmal ist explizit von (d − 1) anderen abhängig.
Beispiel: baumförmige Bayesnetze
P(x1, . . . , xD) ≈D∏
d=1
P(xd | xπ(d))
Jedes Merkmal xd ist explizit nur von genau einem anderen abhängig.
ProblemFinde diejenige Abhängigkeitsstruktur, welche die exakteste Näherung derDatenverteilung gewährleistet!
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Gaußsche BayesnetzeDatensatz letter.lern (16 Merkmale, Klassen ’A’, ’B’, ’C’, ’D’)
X1
X3 X13
X4
X2
X5
X15 X9
X10
X6 X12
X14
X7
X8 X16
X11
X1
X2 X3
X4 X5
X15 X13
X8
X6 X9 X10
X7 X16 X11
X14
X12
X1
X2
X4
X3
X5
X13
X16
X6
X11
X7 X10
X9
X8 X12
X15
X14
X1
X2 X3 X13
X4 X5
X11
X6
X8 X10
X12
X7 X14
X16
X9
X15
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Gaußsche Markovnetze
Parametrische Struktur der multivariaten NV-Dichte
−2·logN (x | µ,S) = |2πS |+D∑
i=1
D∑j=1
(xi−µi )·Cij ·(xj−µj) , C := S−1
Modellkomplexität = Anzahl nicht verschwindender Einträge von S−1
Aufgabenstellung der KovarianzselektionSuche eine Näherungsmatrix S ≈ S , deren Inverse möglich vieleNulleinträge aufweist!
Bedingte statistische UnabhängigkeitÜber normalverteilte Daten wissen wir, daß Cij = 0 genau dann gilt, wenndie beiden Merkmale xi und xj statistisch unabhängig sind, sofern wirdie Kenntnis der restlichen Merkmale x1, . . . , xD \ xi , xj voraussetzen.
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Gaußsche MarkovnetzeDempsters Kovarianzselektion c©
5 10 15
510
15
Kovarianzmatrix1:n
1:n
5 10 15
510
15
Inverse Kovarianzmatrix1:n
1:n
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Verbotsmuster
5 10 15
510
15
Kovarianzmatrix1:n
1:n
5 10 15
510
15
Inverse Kovarianzmatrix1:n
1:n
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Verbotsmuster
5 10 15
510
15
Kovarianzmatrix1:n
1:n
5 10 15
510
15
Inverse Kovarianzmatrix1:n
1:n
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Verbotsmuster
5 10 15
510
15
Kovarianzmatrix1:n
1:n
5 10 15
510
15
Inverse Kovarianzmatrix1:n
1:n
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Verbotsmuster
BeispielDatensatzletter16 Merkmalealle Klassen
oben:KovarianzS = C−1
Mitte:KonzentrationC erfüllt A
unten:Adjazenz AAbhängigkeits-muster(gegeben)
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Gaußsche MarkovnetzeLasso (regularisierte ‖·‖1-Norm Matrixinvertierung) c©
5 10 15
510
15
Lasso: 0.05
Inverse L1−Kovarianzmatrix1:n
1:n
5 10 15
510
15
Lasso: 0.2
Inverse L1−Kovarianzmatrix1:n
1:n
5 10 15
510
15
Lasso: 0.45
Inverse L1−Kovarianzmatrix1:n
1:n
5 10 15
510
15
Lasso: 0.8
Inverse L1−Kovarianzmatrix1:n
1:n
5 10 15
510
15
Lasso: 1.25
Inverse L1−Kovarianzmatrix1:n
1:n
5 10 15
510
15
Lasso: 1.8
Inverse L1−Kovarianzmatrix1:n
1:n
5 10 15
510
15
Lasso: 2.45
Inverse L1−Kovarianzmatrix1:n
1:n
5 10 15
510
15
Lasso: 3.2
Inverse L1−Kovarianzmatrix1:n
1:n
5 10 15
510
15
Lasso: 4.05
Inverse L1−Kovarianzmatrix1:n
1:n
5 10 15
510
15
Lasso: 5
Inverse L1−Kovarianzmatrix1:n
1:n
5 10 15
510
15
Lasso: 6.05
Inverse L1−Kovarianzmatrix1:n
1:n
5 10 15
510
15
Lasso: 7.2
Inverse L1−Kovarianzmatrix1:n
1:n
BeispielDatensatzletter16 Merkmalealle Klassen
Konzentrations-matrizen fürunterschiedlicheRegularisierungs-parameter
ρ =120· n2
n = 1, 2, . . . , 12
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Multivariate Normalverteilungsdichte
Normalverteilungsklassifikatoren
Maximum-Likelihood Parameterschätzung
Maximum-a posteriori- und Bayesschätzung
Graphische Gaußsche Modelle
Mathematische Hilfsmittel
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Zufallsvariable eines Wahrscheinlichkeitsraumesund ihre kumulative Verteilungsfunktion
DefinitionSei (f,E,P) ein Wahrscheinlichkeitsraum. Eine Abbildung
X : f → IR
heißt Zufallsvariable genau dann wenn gilt:
Ar = ε ∈ f | X(ε) ≤ r ∈ E für alle r ∈ IR
DefinitionDie Abbildung
FX :
IR → [0, 1]r 7→ P(Ar )
, Ar = ε ∈ f | X(ε) ≤ r
heißt kumulative Verteilungsfunktion der Zufallsvariablen X. Für P(Ar )schreiben wir üblicherweise
P(X ≤ r).
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Diskrete Zufallsvariable
DefinitionEine Zufallsvariable X heißt diskret, falls der Wertebereich von Xabzählbar ist.
BemerkungIn diesem Falle gilt dann
f =⋃
n∈INε | X(ε) = xn =
⋃n∈IN
X = xn
für den abzählbaren Wertebereich x1, x2, x3, . . . sowie auch P(f) = 1.Für die Wahrscheinlichkeit P(X = xn) schreiben wir auch kürzer pn .
DefinitionIst X eine diskrete Zufallsvariable mit dem Wertebereich xn|n ∈ IN, dannheißt
pX :
IR → [0, 1]
x 7→
P(X = xn) (∃n) x = xn
0 sonst
diskrete Wahrscheinlichkeitsdichtefunktion von X. Die Werte xn heißenMassenpunkte von X.
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Stetige Zufallsvariable
DefinitionEine Zufallsvariable X heißt kontinuierlich, falls der Wertebereich von Xnicht abzählbar ist.
Bemerkung
1. Für eine kontinuierliche Zufallsvariable X sei die Wahrscheinlichkeit dafür, daßsie einen bestimmten Wert x ∈ IR annimmt, gleich 0.
2. Wir betrachten daher stattdessen die Wahrscheinlichkeit dafür, daß X in einemendlichen Intervall [a, b] oder einem unendlichen Anfangsstück (−∞, r ] von IRliegt.
xxx x
1
1 2 3 4
F(x)
x x
f(x)
F(x)
a bx
f(x)
F(x)
r
kontinuierliche (stetige) Zufallsvariable
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
WahrscheinlichkeitsverteilungsdichtefunktionDie Dichte ist die Ableitung der Verteilung
DefinitionIst X eine (kontinuierliche) Zufallsvariable mit der Eigenschaft
FX(r) = P(X ≤ r) =
∫ r
−∞fX(ξ)dξ für alle r ∈ IR
so heißt die Funktion fX : IR→ IR die Wahrscheinlichkeitsdichte derstetigen Zufallsvariable X.
LemmaFür eine stetige Zufallsvariable X mit der Dichtefunktion fX und derVerteilungsfunktion FX gilt für alle a, b ∈ IR mit a < b die Aussage
P(a < X ≤ b) = FX(b)− FX(a) =
∫ b
afX(ξ)dξ .
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
ErwartungswerteZufallsvariable · Funktion einer Zufallsvariablen
DefinitionFür eine Funktion g : IR→ IR ist mit X auch g(X) eine Zufallsvariable.Die Summe bzw. das Integral
E[g(X)] =∑
n
g(xn) · P(X = xn)
E[g(X)] =
∫ +∞
−∞g(x) · fX(x)dx
heißt — im Falle der Konvergenz — der Erwartungwert der Zufallsgrößeg(X).
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
(Zentrale) Momente einer VerteilungMittel und (quadratische) Standardabweichung ( Varianz)
DefinitionFür eine stetige Zufallsvariable X mit der Dichtefunktion fX bezeichnenwir
µX = E[X] =
∫ +∞
−∞x · fX(x)dx
als den Erwartungswert der Zufallsvariablen X selbst,
Var[X] = σ2X = E[(X− µX)2] =
∫ +∞
−∞(x − µX)2 · fX(x)dx
als die Varianz (Streuung, Dispersion), σX als die Standardabweichungund
E[XN ] bzw. E[(X− µX)N ]
als das (zentrale) N-te Moment von X.
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Eigenschaften der Verteilungsmomente
LemmaFür die Erwartungswerte von Funktionen diskreter oder stetigerZufallsvariablen gelten die Aussagen:
1. Für alle a ∈ IR ist E[a] = a.
2. Homogenität: E[a · g(X)] = a · E[g(X)]
3. Additivität: E[g1(X) + g2(X)] = E[g1(X)] + E[g2(X)]
4. Monotonie: g1(x) ≤ g2(x) ⇒ E[g1(X)] ≤ E[g2(X)]
5. Falls E[X2] existiert, so gilt Var[X] = E[X2]− E[X]2
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Ungleichungen für WahrscheinlichkeitenVerteilungsunabhängige Abschätzungen
Satz (Tschebyscheff-Ungleichung)Ist die Abbildung g : IR→ IR nichtnegativ, so gilt für jedes λ > 0:
P(g(X) ≥ λ) ≤ E[g(X)]
λ
Im Falle endlicher Varianz von X gilt die bekannte Form:
P(|X− µX| ≥ c · σX) ≤ 1c2
Satz (Jensen-Ungleichung)Für eine Zufallsvariable X und eine konvexe Abbildung g : IR→ IR gilt:
E[g(X)] ≥ g (E[X])
FolgerungWeil bekanntlich g(x) = x2 konvex (g ′′ ≥ 0) ist, folgtVar[X] = E[X2]− E[X]2 ≥ 0 .
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
ZufallsvektorenMultivariate Wahrscheinlichkeitsverteilungen
DefinitionIst X ein Vektor von Zufallsvariablen X1, . . . ,XD , so heißt
FX(x) = FX(x1, . . . , xD) = P(X1 ≤ x1, . . . ,XD ≤ xD)
die multivariate Verteilungsfunktion von X.
Sie heißt stetig, falls eine Funktion fX : IRD → IR existiert mit derEigenschaft
FX(x1, . . . , xD) =
∫ x1
−∞· · ·∫ xD
−∞fX(x1, . . . , xD)dx1 . . . dxD
fX heißt dann multivariate Verteilungsdichte von X.
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Momente multivariater VerteilungenErwartungswertvektor und Kovarianzmatrix
DefinitionFür einen stetigen Vektor X von Zufallsvariablen X1, . . . ,XD mit dermultivariaten Verteilungsdichte fX definieren wir
µX = E[X] =
∫IRD
x · fX(x)dx
als den Erwartungswertvektor und
SX =
σX1X1 . . . σX1XD...
. . ....
σXDX1 . . . σXDXD
als die Kovarianzmatrix von X. Dabei bezeichne für alle j = 1, . . . ,D:
σXiXj = Cov[Xi ,Xj ] = E[(Xi − µXi )(Xj − µXj )]
=
∫IR
∫IR
(xi − µXi )(xj − µXj ) · fXiXj (xi , xj )dxi dxj
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Statistische UnabhängigkeitStatistische Unkorreliertheit
DefinitionDie Zufallsvariablen X1, . . . ,XD heißen unabhängig, wenn gilt
fX(x1, . . . , xD) =D∏
d=1
fXd (xd) = fX1(x1) · . . . · fXD (xD)
Die Zufallsvariablen heißen unkorreliert, wenn gilt
E[D∏
d=1
Xd ] =D∏
d=1
E[Xd ]
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Unabhängigkeit & UnkorreliertheitEinige wichtige Eigenschaften
1. Aus der Unabhängigkeit folgt die Unkorreliertheit.
2. Aus der Unkorreliertheit folgt i.a. nicht die Unabhängigkeit.
3. Zwei Zufallsvariablen X,Y sind unkorreliert, wenn E[XY] = µXµYgilt, also gdw. gilt Cov[X,Y] = 0.
4. Sind die Zufallsvariablen X1, . . . ,XD unabhängig, so sind sie auchpaarweise unabhängig und natürlich auch paarweise unkorreliert.Folglich gilt für ihre Kovarianzmatrix
SX = diag(σ2X1, . . . , σ2
XD) =
σ2X1
0 . . . 00 σ2
X2. . . 0
... . . .. . .
...0 0 . . . σ2
XD
mit σ2
Xd= σXdXd , d = 1, . . . ,D.
Normalverteilung Prüfgrößen ML-Schätzung MAP-Schätzung Graphische Modelle Σ∫
Zusammenfassung (7)
1. Die multivariate Normalverteilung beschreibt eine unimodale (Zentrumµ), exponentiell abklingende Dichte mit elliptisch-symmetrischen(Trägheitsachsen von S) Isolinien.
2. Die Prüfgrößen der NV-Bayesregel sind quadratische Polynome in denMerkmalen x1, . . . , xD .
3. Die Maximum-Likelihood-Schätzung sucht die Modellparameter mit dergrößten Datenerzeugungswahrscheinlichkeit.
4. Die ML-Zielgröße ist nach allen Parametern partiell abzuleiten; nachNullsetzen der Gradienten ergibt sich günstigenfalls eine geschlosseneLösung (LGS) oder wenigstens eine rasch konvergierende Iterationsformel.
5. Die Maximum-a posteriori-Schätzung verwendet a priori-Wissen über dieDichteparameter und ist robuster bei (zu) kleinen Lernenstichproben.
6. Praktikable MAP-Schätzer bedienen sich der Methode der konjugiertenParameterdichtefamilien.
7. Verteilungsmodelle werden robuster, wenn die Abhängigkeitsstruktur derMerkmale sachgemäß ausgedünnt wird.
Recommended