View
216
Download
0
Category
Preview:
Citation preview
Formelsammlung zur Lehrveranstaltung
Statistische Analyseverfahren
4. Februar 2016
Inhaltsverzeichnis
0 Mulitivariate Daten 10.1 Multivariate Daten (beobachtet) . . . . . . . . . . . . . . . . . . . . . . 10.2 Multivariate Daten (theoretisch) . . . . . . . . . . . . . . . . . . . . . . 2
1 Diskriminanzanalyse 31.1 Diskrimination bei bekannter Verteilung in den q Klassen . . . . . . . . 3
1.1.1 Maximum-Likelihood-Diskriminanzregel . . . . . . . . . . . . . 31.1.2 Bayessche-Diskriminanzregel . . . . . . . . . . . . . . . . . . . . 3
1.2 Diskrimination, wenn die Verteilung in den q Klassen bis auf die Para-meter bekannt ist . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2.1 Maximum-Likelihood-Diskriminanzregel . . . . . . . . . . . . . 41.2.2 Bayessche-Diskriminanzregel . . . . . . . . . . . . . . . . . . . . 51.2.3 Test auf Varianz- Kovarianzhomogenitat . . . . . . . . . . . . . 51.2.4 Test auf Gleichheit der Erwartungswertvektoren . . . . . . . . . 51.2.5 Wahrscheinlichkeit fur Fehlklassifikation . . . . . . . . . . . . . 6
1.3 Diskrimination ohne Verteilungsanahme . . . . . . . . . . . . . . . . . 71.4 Diskrimination Kategorialer Daten . . . . . . . . . . . . . . . . . . . . 7
1.4.1 Maximum-Likelihood-Diskriminanzregel . . . . . . . . . . . . . 71.4.2 Bayessche-Diskriminanzregel . . . . . . . . . . . . . . . . . . . . 7
2 Clusteranalyse 82.1 Distanzen und Ahnlichkeiten zwischen den Objekten . . . . . . . . . . 8
2.1.1 Distanzen zwischen metrischen Merkmalen . . . . . . . . . . . . 82.1.2 Ahnlichkeiten und Abstande zwischen nominalen Merkmalen . . 9
2.2 Verfahren zur Konstruktion von Cluster-Hierachien . . . . . . . . . . . 92.2.1 Bestimmung der Clusteranzahl . . . . . . . . . . . . . . . . . . 102.2.2 Beurteilung einer Clustereinteilung . . . . . . . . . . . . . . . . 11
3 Hauptkomponentenanalyse 123.1 Theoretische Hauptkomponente . . . . . . . . . . . . . . . . . . . . . . 123.2 Empirische Hauptkomponente
(Stichprobenhauptkomponente) . . . . . . . . . . . . . . . . . . . . . . 133.2.1 Erklarungsanteile der Hauptkomponenten . . . . . . . . . . . . 133.2.2 Test fur Erklarungsanteil . . . . . . . . . . . . . . . . . . . . . . 143.2.3 Isotropy-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4 Faktorenanalyse 154.1 k-Faktor-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154.2 Fundamentaltheorem der Faktoranalyse: . . . . . . . . . . . . . . . . . 154.3 Verfahren der Faktoranalyse . . . . . . . . . . . . . . . . . . . . . . . . 164.4 Rotation der Faktoren . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
5 Zeitreihenanalyse 175.1 Additive Zeitreihenenmodelle . . . . . . . . . . . . . . . . . . . . . . . 17
5.1.1 Additives Zeitreihenmodell mit Trendkomponente . . . . . . . . 175.1.2 Additives Zeitreihenmodell mit Trend- und Saisonkomponente . 19
5.2 Stochastische Prozesse 2.Ordnung . . . . . . . . . . . . . . . . . . . . . 205.2.1 Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205.2.2 Stationaritat 2. Ordnung . . . . . . . . . . . . . . . . . . . . . . 215.2.3 Schatzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215.2.4 Weißes Rauschen . . . . . . . . . . . . . . . . . . . . . . . . . . 215.2.5 Autoregressive Prozesse der Ordnung p (kurz: AR(p)-Prozess) . 225.2.6 Moving-Average-Prozesse der Ordnung q (kurz: MA(q)-Prozess) 235.2.7 ARMA(p,q)-Prozess . . . . . . . . . . . . . . . . . . . . . . . . 245.2.8 Modellidentifikation (ARMA(p,q)-Prozess) . . . . . . . . . . . . 245.2.9 Schatzen der Modellparameter (ARMA(p,q)-Prozess) . . . . . . 255.2.10 Modelluberprufung (ARMA(p,q)-Prozess) . . . . . . . . . . . . 25
3
0 Mulitivariate Daten
0.1 Multivariate Daten (beobachtet)
An n Objekten (Individuen) werden p verschiedene Merkmale (Eigenschaften)beobachtet.
1. Objekt: x>1 = (x11 , ..., x1p)2. Objekt: x>2 = (x21 , ..., x2p)...n-tes Objekt: x>n = (xn1 , ..., xnp).
Datenmatrix (Beobachtungen) ((n× p)-Matrix)
X = ((xij))n×p =
x11 . . . x1p
x21 . . . x2p
...xn1 . . . xnp
=
x>1x>2...
x>n
standardisierte Datenmatrix
X = ((xij))n×p mit x
ij=
xij− xj
sj
i = 1, ..., n ; j = 1, ..., p.
xj =1
n
n∑i=1
xij
sj =
√√√√ 1
n− 1
n∑i=1
(xij− xj)2
1
0.2 Multivariate Daten (theoretisch)
Die beobachten Merkmale werden als Realisierungen von Zufallsgroßen aufgefasst.
Damit ist Xj (j = 1, . . . , p) das zufallige j-te Merkmal.Fur dieses existieren der Erwartungswert EXj = µj und die Varianz VarXj = σ2
j .
Weiter ist Xij (i = 1, . . . , n j = 1, . . . , p) das zufallige j-te Merkmal beim i-ten Objekt.
Datenmatrix (Zufallsgroßen) ((n× p)-Matrix)
X = ((Xij))n×p =
X11 . . . X1p
X21 . . . X2p
...Xn1 . . . Xnp
=
X>1
X>2...
X>n
standardisierte Datenmatrix (theoretisch)
X = ((Xij))n×p mit X
ij=
Xij− EXj√VarXj
i = 1, ..., n ; j = 1, ..., p.
Kovarianzmatrix (symmetrische (p× p)-Matrix)
Σ =
Cov(X1, X1) Cov(X1, X2) . . . Cov(X1, Xp)Cov(X2, X2) . . . Cov(X2, Xp)
. . ....
” Cov(Xp, Xp)
Dabei ist Cov(Xi, Xj) = Cov(Xj, Xi) (Symmetrie) und
Cov(Xi, Xj) = E [(Xi − EXi)(Xj − EXj)] = EXiXj − EXiEXj.
In der Diagonale der Kovarianzmatrix stehen die Varianzen.
Cov(Xi, Xi) = Var(Xi) = E[(Xi − EXi)
2]
= EX2i − (EXi)
2.
Korrelationsmatrix (symmetrische (p× p)-Matrix)
((ρij))p×p = ((Corr(Xi, Xj))p×p
mit
Corr(Xi, Xj) =Cov(Xj, Xi)√VarXiVarXj
.
insbesondere:Corr(Xi, Xi) = 1 i = 1, .., n.
Die Kovarianzmatrix der standardisierten Daten ist die Korrelationsmatrix derAusgangsdaten:
Cov(Xi, Xj) = Corr(Xi, Xj).
2
1 Diskriminanzanalyse
1.1 Diskrimination bei bekannter Verteilung in den q Klassen
1.1.1 Maximum-Likelihood-Diskriminanzregel
Ordne das Objekt mit Merkmalsvektor x zur k-ten Klasse, falls
fk(x) = maxj=1,..,q
fj(x).
Beispiel: q p-dim. Normalverteilungen mit gleicher Kovarianzmatrix Σ.
Maximum-Likelihood-Diskriminanzregel:
Ordne das Objekt mit Merkmalsvektor x zur k-ten Klasse, falls
(x− µk)>Σ−1(x− µ
k) = min
j=1,..,q(x− µ
j)>Σ−1(x− µ
j).
Spezialfall: Zwei p-dim. Normalverteilungen mit gleicher Kovarianzmatrix Σ.
Ordne das Objekt mit Merkmalsvektor x zur ersten Klasse, falls
g(x) := (µ1− µ
2)>Σ−1
(x− 1
2
(µ
1+ µ
2
))> 0.
1.1.2 Bayessche-Diskriminanzregel
Vorinformation: a-priori gehort ein Objekt mit Wahrscheinlichkeit pj zur j-ten Klasse:
q∑j=1
pj = 1.
Ordne das Objekt mit Merkmalsvektor x zur k-ten Klasse, falls
pk · fk(x) = maxj=1,..,q
pj · fj(x).
Spezialfall: Zwei p-dim. Normalverteilungen mit gleicher Kovarianzmatrix Σ.
Ordne das Objekt mit Merkmalsvektor x zur ersten Klasse, falls
g(x) = (µ1− µ
2)>Σ−1
(x− 1
2
(µ
1+ µ
2
))> ln
(p2
p1
).
⇐⇒g1(x) := (µ
1− µ
2)>Σ−1
(x− 1
2
(µ
1+ µ
2
))− ln
(p2
p1
)> 0.
3
1.2 Diskrimination, wenn die Verteilung in den q Klassen bisauf die Parameter bekannt ist
Die unbekannten Parameter werden aus einer Lernstichprobe geschatzt:
xkj k = 1, .., q j = 1, .., nk (nk Objekte in der k-ten Klasse).
Datenmatrix der Lernstichprobe ((n× p)-Matrix mit n = n1 + n2 + ...nq)
X =
x11,1 . . . x11,p
......
x1n1,1 . . . x1n1,p
......
......
xq1,1 . . . xq1,p
......
xqnq,1 . . . xqnq,p
=
X1...Xq
mit Xk =
x>k,1
...x>
k,nk
Beispiel: q p-dim. Normalverteilungen mit gleicher Kovarianzmatrix Σ.
Schatzung der Erwartungswertvektoren und der Kovarianzmatrix:
µk
= xk =1
nk
nk∑j=1
xkj ; k = 1, .., q Mittelwertvektor in der k-ten Klasse.
S := Σ =1
n− q
q∑
k=1
nk∑j=1
(xkj − xk)(xkj − xk)> empirische Kovarianzmatrix.
=1
n− q
q∑
k=1
(nk − 1)Sk.
mit Sk =1
nk − 1
nk∑j=1
(xkj − xk)(xkj − xk)>der empirischen Kovarianzmatrix in der k-ten Klasse.
1.2.1 Maximum-Likelihood-Diskriminanzregel
Maximum-Likelihood-Diskriminanzregel (mit Lernstichprobe):
Ordne das Objekt mit Merkmalsvektor x zur k-ten Klasse, falls
(x− xk)>S−1(x− xk) = min
j=1,..,q(x− xj)
>S−1(x− xj).
Spezialfall: Zwei p-dim. Normalverteilungen mit gleicher Kovarianzmatrix Σ.
Ordne das Objekt mit Merkmalsvektor x zur ersten Klasse, falls
g(x) := (x1 − x2)>S−1
(x− 1
2(x1 + x2)
)> 0.
4
1.2.2 Bayessche-Diskriminanzregel
Ordne das Objekt mit Merkmalsvektor x zur k-ten Klasse, falls
pk · fk(x) = maxj=1,..,q
pj · fj(x).
Dabei ist f die Dichtefunktion mit geschatzten Parametern.
Spezialfall: Zwei p-dim. Normalverteilungen mit gleicher Kovarianzmatrix Σ.
Ordne das Objekt mit Merkmalsvektor x zur ersten Klasse, falls
g1(x) := (x1 − x2)>S−1
(x− 1
2(x1 + x2)
)− ln
(p2
p1
)> 0.
Moglicherweise werden die a-priori Wahrscheinlichkeiten auch noch aus der Stichprobewie folgt geschatzt:
pi =ni
ni = 1, . . . , q.
1.2.3 Test auf Varianz- Kovarianzhomogenitat
(theoretische) Stichprobe:
Xkj k = 1, .., q j = 1, .., nk (nk Objekte in der k-ten Klasse).
Voraussetzung: Die Merkmale in den q Klassen sind p-dim normalverteilt.H0 : Σ1 = Σ2 = ... = Σq gegen HA : Σi 6= Σj fur mindestens ein Paaar (i, j).
Testgroße:
T = (1− c) · (n · ln |S| −q∑
j=1
nj · ln |Sj|).
mit c =(
2p2−3p−16(p+1)(q−1)
)·(
q∑j=1
1nj− 1
n
)
kritische Bereich:
K :=
{t : t ≥ χ2
p(p+1)(q−1)2 ,1−α
}
1.2.4 Test auf Gleichheit der Erwartungswertvektoren
(theoretische) Stichprobe:
Xkj k = 1, .., q j = 1, .., nk (nk Objekte in der k-ten Klasse).
H0 : µ1
= µ2
= ... = µq
gegen HA : µi6= µ
jfur mindestens ein Paaar (i, j).
Testgroße:T = spur(B ·W−1).
5
Im Fall von zwei Gruppen lasst sich die Testgroße auch wie folgt bestimmen:
T =n1 · n2
n · (n− 2)(x1 − x2)
>S−1(x1 − x2)
kritische Bereich:
K :=
{t : t >
p
n− p− 1Fp,n−p−1,1−α
}
1.2.5 Wahrscheinlichkeit fur Fehlklassifikation
pij - Wahrscheinlichkeit, dass ein Objekt der i-ten Klasse zugeordnet wird, obwohles zur j-ten Klasse gehort.
pii - Wahrscheinlichkeit, dass ein Objekt der i-ten Klasse richtig klassifiziert wird.
Schatzung der Wahrscheinlichkeit fur Fehlklassifikation
Zwei p-dim Normalverteilungen mit gleicher Kovarianzmatrix:
p12 = p21 = Φ
(−D
2
)mit D2 = (x1 − x2)
>S−1(x1 − x2).
(zufallige) Einteilung in Lern- und Teststichprobe:
Mit der Lerstichprobe wird die Diskriminanzfunktion bestimmt und mit dieser werdendie Elemente der Teststichprobe den Klassen zugeordnet.
nij - Anzahl der Objekte in der Teststichprobe der j-ten Klasse, die zur i-ten Klassezugeordnet werden.
nj - Anzahl der Objekte in der Teststichprobe der j-ten Klasse.
pij =nij
nj
Resubstitutionsmethode: Hier ist die Lernstichprobe gleich der Teststichprobe.
Cross-Validation-Prinzip, Leaving one out:
Die Diskriminanzfunktion wird ohne das jeweilige Objekt, welches klassifiziert wer-den soll bestimmt.
n∗ij - Anzahl der Objekte der j-ten Klasse, die zur i-ten Klasse zugeordnet werden.nj - Anzahl der Objekte der j-ten Klasse.
pij =n∗ijnj
6
1.3 Diskrimination ohne Verteilungsanahme
Prinzip: Projiziere die n p-dim. Merkmalsvektoren der Lernstichprobe so auf eine ge-eignet zu wahlende Gerade, dass die Klassen so gut wie moglich getrennt werden. DieVarianz zwischen den Klassen soll so groß wie moglich sein und die Varianz innerhalbder Klassen so klein wie moglich.
B =
q∑j=1
nj(xj − x)(xj − x)> Between-Class-SSQ-Matrix
W =
q∑j=1
nj∑i=1
(xji − xj)(xji − xj)> Within-Class-SSQ-Matrix
a>Ba
a>Wa!= max
a
=⇒ Losung: a∗ ist Eigenvetor zum großten Eigenwert von W−1B.
Fishers lineare Diskriminanzregel:
Ordne das Objekt mit Merkmalsvektor x zur k-ten Klasse, falls
|a∗>x− a∗>xk| < |a∗>x− a∗>xj| fur alle j 6= k.
1.4 Diskrimination Kategorialer Daten
Der Ausgangspunkt ist eine große Lernstichprobe.
N - Stichprobenumfang der gesamten Lernstichprobe,Ni - Stichprobenumfang fur die i-te Klasse,
n(x, k) - Anzahl der Objekte mit Merkmalsvektor x in der k-ten Klasse.
1.4.1 Maximum-Likelihood-Diskriminanzregel
Ordne das Objekt mit den Merkmalsvektor x in die k-te Klasse, falls
n(x, k)
Nk
≥ n(x, j)
Nj
∀j 6= k.
1.4.2 Bayessche-Diskriminanzregel
Ordne das Objekt mit den Merkmalsvektor x in die k-te Klasse, falls
n(x, k) ≥ n(x, j) ∀j 6= k.
7
2 Clusteranalyse
2.1 Distanzen und Ahnlichkeiten zwischen den Objekten
2.1.1 Distanzen zwischen metrischen Merkmalen
xi =
xi1...
xik...
xip
und xj =
xj1...
xjk...
xjp
Lr-Abstand:
dij = dLr(xi, xj) =
(p∑
k=1
(xik − xjk)r
) 1r
euklidische Abstand: (r = 2)
dij = dL2(xi, xj) =
√√√√p∑
k=1
(xik − xjk)2 =√
(xi − xj)>(xi − xj)
Manhattan-Abstand (City-Block): (r = 1)
dij = dL1(xi, xj) =
p∑
k=1
|xik − xjk|
Tschebyscheff-Abstand: (r = ∞)
dij = dL∞(xi, xj) =p
maxk=1
|xik − xjk|
Die Lr Abstande sind nich skaleninvariant. Der folgende hingegen schon.
(empirische) Mahalanobis-Distanz:
dij =√
(xi − xj)>S−1(xi − xj)
mit
S = Σ =1
n− 1
n∑i=1
(xi − x)(xi − x)>
der empirische Kovarianzmatrix zwischen den p Merkmalen, bzw.
S = Σ = ((σ)jk)p×p mit σjk =1
n− 1
k∑i=1
(xij−xj)(xik − xk).
8
2.1.2 Ahnlichkeiten und Abstande zwischen nominalen Merkmalen
Dichotome Merkmale
Die Elemente der beiden Merkmalsvektoren xi und xj sind nur Dichotome Merkmale.Sie besizten also nur die Werte 0 oder 1. In der folgenden Tabelle werden die furalle moglichen Kombinationen die Anzahlen gezahlt. So ist z.B. bij die Anzahl derKomponten der Merkmalsvektoren bei welchen im Vektor i eine 1 vorliegt und imVektor j eine 0.
i\j 1 0
1 aij bij
0 cij dij
p = aij + bij + cij + dij
Matching coefficient:
sij =aij + dij
pdij = 1− sij
Φ-Koeffizient:
sij =aij + dij − (bij + cij)√
(aij + bij)(aij + cij)(bij + dij)(cij + dij)dij = 1− sij
2.2 Verfahren zur Konstruktion von Cluster-Hierachien
Die Objekte i und j wurden zu (ij) zusammengelegt. Der Abstand dieses neuen Clu-ster zum Cluster k wird bestimmt. Dabei ist ni, nj, nk die Anzahl der Objekte in denjeweiligen Clustern.
Single Linkage (nearest neighbor):
dk,(ij) = min{dik, djk}.Complete Linkage (furthest neighbor):
dk,(ij) = max{dik, djk}.Zentroid:
dk,(ij) =ni · dik + nj · djk
ni + nj
− ni · nj
(ni + nj)2· dij
Median:
dk,(ij) =1
2(dik + djk)
Average Linkage:
dk,(ij) =ni · dik + nj · djk
ni + nj
Ward:
dk,(ij) =(ni + nk) · dik + (nj + nk) · djk − nk · dij
ni + nj + nk
9
2.2.1 Bestimmung der Clusteranzahl
Dendrogramm:
Man sucht sich eine Stelle, wo es zwischen zwei Fusionierungen einen großen Sprung derDistanz (der Verschmelzungniveaus) gibt. Nur die Cluster vor diesen großen Sprungwerden gewahlt.
Dendrogram
Ward's Method
0
3
6
9
12
15
Dis
tan
ce
1 23 4 5 67 8 9
10
11
12
13
Im Dendrogamm gibt es den großten Sprung zwischen der vorletzen und letzten Fusio-nierung. Man wurde damit die zwei Cluster {1, 2, 3, 4, 7, 11, 13} und {5, 6, 8, 9, 10, 12}wahlen.
Standardisierte Verschmelzungniveau:
αi - Verschmelzungsniveaus (i = 1, . . . , n− 1)α - mittlere Verschmelzungsniveaus2
α - empirische Varianz der Verschmelzungsniveaus
αi =αi − α
sα
Bestimme den Index j, fur welchen zum ersten mal gilt αi > 1, 25 und wahle n + 1− jCluster.
Beim Wardverfahren:
Die Anzahl der Cluster beim Wardverfahren sollte in der Nahe von√n
2liegen.
10
2.2.2 Beurteilung einer Clustereinteilung
Es wird ubrepruft, ob die Zuordnung der n Objekte zu den Clustern gut ist, oder einein Objekt besser zum Nachbarcluster zugeordnet werden sollte.
Das Objekt i liegt im Cluster k.
Mittlere Abstand des Objektes i zu allen Objekten seines Clusters k:
a(i) =1
nk − 1
∑
j∈CK , j 6=i
dij.
nk - Anzahl der Objekte im Cluster k.Ck - Indexmenge von Cluster k
Mittlere Abstand des Objektes i zu allen Objekten des Clusters l l 6= k:
d(i, Cl) =1
nl
∑j∈Cl
dij.
nl - Anzahl der Objekte im Cluster l.Cl - Indexmenge von Cluster l
b(i) = mink 6=l
d(i, Cl)
Das Cluster, welches den gerinsten mittleren Abstand zum Objekt i aufweist wird alsNachbarcluster bezeichnet.
Silhoutenkoefizient:
s(i) =
1− a(i)b(i)
: a(i) < b(i)
0 : a(i) = b(i)b(i)a(i)
− 1 : a(i) > b(i)
Ist s(i) À 0 so ist das i-te Objekt den richtigen Cluster zugeordnet.
Ist s(i) ¿ 0 so sollte man das i-te Objekt besser ins Nachbarcluster zuordnen.
Ist s(i) ≈ 0 dann ist es nicht so wichtig, ob man das i-te Objekt im Cluster lasst oderins Nachbarcluster zuordnet.
11
3 Hauptkomponentenanalyse
3.1 Theoretische Hauptkomponente
Merkmalsvektor
X =
X1...
Xp
mit EX = µ und CovX = Σ.
Hauptachsentransformation von Σ:
Γ>ΣΓ = Λ =
λ1 0 . . . 0
0 λ2...
.... . . 0
0 . . . 0 λp
λ1, . . . λp - Eigenwerte der Matrix Σ.Γ Matrix der orthonormalen Eigenvektoren von Σ. (ΓΓ> = Ip)
Hauptkomponententransformation von X :
Z = Γ>(X − µ).
j-te Hauptkomponente von X :
Zj = γ>j(X − µ)
mit λ1 ≥ λ2 ≥ . . . ≥ λp und Γ = (γ1, . . . , γp).
Es gilt:EZ = 0 und CovZ = Λ.
Damit ist
1. Hauptkomponente Z1: VarZ1 = λ1
...
p-te Hauptkomponente Zp: VarZp = λp
undVarZ1 ≥ VarZ2 ≥ . . . ≥ VarZp.
12
3.2 Empirische Hauptkomponente(Stichprobenhauptkomponente)
Datenmatrix:
X =
x11 . . . x1p
x21 . . . x2p...
...xn1 . . . xnp
=
x>1x>2...
x>p
, x =
x1
x2...
xp
mit xi =
1
n
n∑j=1
xji
S =1
n− 1
n∑i=1
(xi − x)(xi − x)> Stichprobenkovarianzmatrix
Hauptachsentransformation von S:
G>SG = L =
l1 0 . . . 0
0 l2...
.... . . 0
0 . . . 0 lp
l1, . . . , lp - Eigenwerte der Matrix S.G Matrix der orthonormalen Eigenvektoren von S. (GG> = Ip)
Hauptkomponententransformation von X :
Z = (X− 1X>)G.
j-te Stichprobenhauptkomponente:
Zj = (X− 1X>)g
j.
mit l1 ≥ l2 ≥ . . . ≥ lp und G = (g1, . . . , g
p).
3.2.1 Erklarungsanteile der Hauptkomponenten
a2ij =
g2ijlj
sii
Anteil der Variation von Xi der durch die j-te Hauptkomponente erklart wird.
ljspS
Anteil der Totalvariation, der durch die j-te Hauptkomponente erklart wird.
Dabei ist sii das i-te Diagonalelement von S und gij die i-te Komponente von gj.
13
Der Anteil der ersten k Hauptkomponenten an der Totalvariation ist:
Ψk(λ) =
k∑i=1
λi
p∑i=1
λi
.
3.2.2 Test fur Erklarungsanteil
H0 : Ψk(λ) = Ψ0 gegen HA : Ψk(λ) 6= Ψ0 (1)
H0 : Ψk(λ) ≤ Ψ0 gegen HA : Ψk(λ) > Ψ0 (2)
H0 : Ψk(λ) ≥ Ψ0 gegen HA : Ψk(λ) < Ψ0 (3)
Testgroße:
T =Ψk(l)−Ψ0
τ(l)
mit Ψk(l) =
k∑i=1
li
p∑i=1
li
, τ 2(l) =2
n− 1
spS2
(spS)2(Ψk(l)
2−2αkΨk(l)+αk) und αk =
k∑i=1
l2i
p∑i=1
l2i
.
Kritische Bereiche:K = {t | |t| > z1−α
2} (1)
K = {t | t > z1−α} (2)
K = {t | t < −z1−α} (3)
3.2.3 Isotropy-Test
H0 : Die p− k kleinsten Eigenwerte sind gleich ( 6= 0)HA : Mindestens zwei der p− k kleinsten Eigenwerte sind nicht gleich.
Testgroße:
T = n(p− k) ln
(a0
g0
)
mit
a0 =(lk+1 + . . . + lp)
p− kden arithmetischen Mittel der (p− k) Eigenwerte und
g0 = (lk+1 · . . . · lp)1
p−k den geometrischen Mittel der (p− k) Eigenwerte.
Kritische Bereich:K =
{t | t > χ2
12(p−k+2)(p−k−1),1−α
}.
14
4 Faktorenanalyse
4.1 k-Faktor-Modell
• fur das i-te Merkmal Xi:
Xi = µi +k∑
r=1
lirfr + ui i = 1, .., p
• fur den Merkmalsvektor X, d.h. in Vektorschreibweise:
X = µ + Lf + u
X = (X1, .., Xp)> zuf. Vektor der p beobachtbaren Merkmale
µ = (µ1, .., µp)> Vektor der Erwartungswerte
f = (f1, .., fk)> zuf. Vektor der k allgemeinen Faktoren
u = (u1, .., up)> zuf. Vektor der spezifischen Faktoren(ui spezifisch fur i-tes Merkmal)
L = ((lir))p×k Matrix der Faktorladungen
(lir) gibt den Einfluß (die Ladung) des r-ten Faktors auf das i-te Merkmal an
(Modell-)Annahmen:
Ef = 0
Eu = 0
Covf = Ik
Covu = diag(Ψ1, .., Ψp) = Ψ
Cov(f, u) = 0
4.2 Fundamentaltheorem der Faktoranalyse:
Σ = LL> + Ψ.
Insbesondere gilt fur die Varianz des i-ten Merkmales VarXi = σii :(σii ist das i-te Diagonalelement von Σ)
σii =k∑
r=1
l2ir + Ψi (i = 1, .., p)
= h2i + Ψi
Varianz = allgemeine Varianz + spezifische Varianz
allgemeine Varianz, Kommunalitat (communality): h2i =
k∑r=1
l2ir
Teil der Varianz, der durch die allgemeinen Faktoren erklart wird.
15
4.3 Verfahren der Faktoranalyse
a) Maximum-Likelihood-Methode
Annahme:X ∼ N (µ, Σ = LL> + Ψ)
L und Ψ sind die Maximum-Likelihood Schatzer.
b) Hauptfaktorenanalyse
Ausgangspunkt:R = LL> + Ψ
• Schatze die Kommunalitaten h2j durch h2
j
(z.B. durch betragsmaßig großte Korrelation in j-ter Zeile von R)• Bilde
Ψ =
1− h21 0 . . . 0
0. . . . . .
......
. . . . . . 00 . . . 0 1− h2
p
= diag(1− h2
1, ..., 1− h2p)
• Bestimme R = R− Ψ, die reduzierte Korrelationsmatrix• Wende auf R die Hauptkomponentenanalyse an. Die Spalten von L sind die k Eigen-vektoren, die zu den ersten k Hauptkomponenten gehoren.
4.4 Rotation der Faktoren
Ziel: Fuhre eine Drehung der Faktoren derart durch, dass die Faktorladungen des ent-stehenden L gut (besser) interpretierbar sind.
Sei G eine orthogonale Matrix, d.h. GG> = Ik (Orthogonale Matrizen mit Deter-minante +1 beschreiben Drehungen im Koordinatensystem).
Damit gilt:R = LL> + Ψ = LGG>L> + Ψ.
Ist L eine Ladungsmatrix, dann ist auch LG eine Ladungsmatrix.
Rotationsmethoden
a) Variamax-Rotation:Die Anzahl von Variablen mit hoher Ladung auf einen Faktor wird minimiert.
b) Quartimax-Rotation:Die Anzahl von Faktoren zur Interpretation einer Variablen wird minimiert. Moglichstviel soll durch einen Faktor erklart werden.
16
5 Zeitreihenanalyse
5.1 Additive Zeitreihenenmodelle
Zeitreihe
Jahr
Erwerbstätige
1995 2000 2005 2010
3.7e+07
3.8e+07
3.9e+07
4.0e+07
5.1.1 Additives Zeitreihenmodell mit Trendkomponente
xt = gt + rt t = 1, 2, . . . , T
T . . . gleichabstandige Zeitpunktext . . . Entwicklung des Merkmales uber die Zeitgt . . . glatte Komponente (Trend)rt . . . irregulare Komponente (zufallig)
Trenderkennung mittels Glattung (Smoothing):
gleitende Durchschnitte (moving average):
ungerade Ordnung (2k + 1): x∗t = 12k+1
k∑j=−k
xt+j
gerade Ordnung (2k): x∗t = 12k
(12xt−k +
k−1∑j=−k+1
xt+j + 12xt+k
)
Jahr
Erwe
rbstät
ige
1995 2000 2005 2010
3.7e+
073.8
e+07
3.9e+
074.0
e+07
Zeitreihe
Glättung (Ordnung 12)
17
Exponentielle Glattung
X∗t = λXt−1 + (1− λ)X∗
t−1 λ ∈ (0, 1) t = 1, 2, ...
Trendeliminierung durch Differenzenbildung
Differenzenbildung
∆Xt = Xt −Xt−1
∆2Xt = ∆(∆Xt) = (Xt −Xt−1)− (Xt−1 −Xt−2)
= Xt − 2Xt−1 + Xt−2
...
∆kXt = ∆(∆k−1Xt)
Bei den Zeitreihen der (d + 1)-ten Differenzen der Orginalzeitreihe ist ein(eventuell vorhandener) polynomialer Trend der Ordnung d eliminiert(jedoch damit nicht geschatzt!)
Prinzipbeispiel:
Eine deterministische Zeitreihe mit rein polynomialen Trend der Ordnung 3:
xt = 1 + t + t2 + t3
t xt ∆xt ∆2xt ∆3xt ∆4xt
1 42 15 113 40 25 144 85 45 20 65 156 71 26 6 06 259 103 32 6 07 400 141 38 6 0
Praktisch: Bildet man bei einer Zeitreihe xt die Differenzen der Ordnung d, d.h. ∆dxt
und schwankten diese nur noch (zufallig) um einen festen Wert, dann liegt bei derZeitreihe xt vermutlich ein polynomialer Trend der Ornung d vor.
18
5.1.2 Additives Zeitreihenmodell mit Trend- und Saisonkomponente
xt = gt + st + rt t = 1, 2, . . . , T
st . . . Saisonkomponente
Die Saisonkomponente ist periodisch mit Periode p und schwankt um 0:
st = st+p und
p∑j=1
sj = 0.
Schatzung der Saisonkomponente:
Bilde die gleitenden Durchschnitte x∗t der Ordnung n · p (n naturliche Zahl, meistn = 1). Ist np = 2k gerade, so ist k = np
2. Bei ungerader Ordnung (2k+1) ist k = np−1
2.
mj : kleinste ganze Zahl, so dass k + 1 ≤ j + mj · p ≤ T − k.nj : großte ganze Zahl, so dass k + 1 ≤ j + (mj + nj) · p ≤ T − k.
Trendschatzung: gt = x∗t t = k + 1, . . . , T − k
trendbereinigte Zeitreihe: dt = xt − gt t = k + 1, . . . , T − k
dj =1
nj
nj+mj∑
l=mj
dj+lp j = 1, . . . , p
d =1
p
p∑j=1
dj
geschatzte Saisonkomponente: sj = dj − d j = 1, . . . , p
Saisonschätzung
Monat
Saisonkomponente
2 4 6 8 10 12
−4e+05
−2e+05
0e+00
2e+05
4e+05
19
5.2 Stochastische Prozesse 2.Ordnung
5.2.1 Definitionen
Eine Familie von Zufallsgroßen {Yt}, wobei t der Zeitparameter ist, heißtstochastischer Prozess (zufalliger Prozess).[Fur einen beliebigen festen Zeitpunkt t istYt eine Zufallsgroße.]
Fur stochastische Prozesse 2.Ordnung existieren die Erwartungswertfunktion und dieAutokovarianzfunktion.
Erwartungswertfunktion:m(t) := EYt
Autokovarianzfunktion (ACF):
γ(t, s) := Cov(Yt, Ys) = E((Yt −m(t))(Ys −m(s))) = EYtYs −m(t)m(s)
Autokorrelationsfunktion:
ρ(t, s) := Cor(Yt, Ys) =Cov(Yt, Ys)√VarYtVarYs
=γ(t, s)√
γ(t, t)γ(s, s)
Partielle Autokovarianzfunktion (PACF):
Die Partielle Autokovarianzfunktion (PACF) zum lag h (Bezeichnung: ρk) ist die Korre-lation zwischen Xt und Xt+h bei Ausschaltung des Einflusses der dazwischenliegendenXt+1, .., Xt+h−1.
ρ1 = ρ(1) (4)
ρk =ρ(k)− pT
k−1P−1
k−1pk−1√(1− pT
k−1P−1
k−1pk−1)(1− pT
k−1P−1
k−1pk−1)
(5)
mitp
k−1= (ρ(1), . . . , ρ(k − 1))T und p
k−1= (ρ(k − 1), . . . , ρ(1))T
Pk−1 =
1 ρ(1) ρ(2) . . . ρ(k − 2)ρ(1) 1 ρ(1) . . . ρ(k − 3)ρ(2) ρ(1) 1 . . . ρ(k − 4)
......
.... . .
...ρ(k − 2) ρ(k − 3) ρ(k − 4) . . . 1
20
5.2.2 Stationaritat 2. Ordnung
Ein stochstischer Prozess Yt heißt stationar 2.Ordnung , wenn
m(t) = c konstante Wert c fur alle Zeitpunkte t.
γ(t, s) = γ(t− s) die Kovarianzfunktion hangt nur von der Zeitdifferenz ab.
Damit hangt auch die Autokorrelationsfunktion nur von der Zeitdifferenz ab:
ρ(t, s) = ρ(t− s) = ρ(h) = ρ(−h) Zeitdifferenz: lag h = t− s.
Sei Xt ein stationarer Prozess 2.Ordnung und xt t = 1, .., n eine Realisierung diesesProzesses, d.h. die beobachtete Zeitreihe.
5.2.3 Schatzungen
Schatzung der Autokovarianzfunktion:
γ(k) = c(k) =1
n
n−k∑t=1
(xt − x)(xt+k − x) = c(−k) mit x =1
n
n∑t=1
xt
Schatzung der Autokorrelationsfunktion (ACF):
ρ(k) = r(k) =c(k)
c(0)=
n−k∑t=1
(xt − x)(xt+k − x)
n∑t=1
(xt − x)2
= r(−k)
Schatzung der Partiellen Autokorrelationsfunktion (PACF):
Die Schatzung von ρk (der PACF), d.h. ρk = rk (die empirische PACF) erhalt manindem man in (5) (und auch in (4)) die Autokorrelation ρ(i) durch die emprische Au-tokorellation r(i) ersetzt.
5.2.4 Weißes Rauschen
Weißes Rauschen.εt seien unkorrelierte zufallige Storungen mit Erwartungswert 0 und gleichbleibenderVarianz. Genauer: Der zufallige Prozess εt heißt weißes Rauschen (white noise process)falls folgendes gilt:
Eεt = 0 fur alle t
Varεt = σ2ε fur alle t
ρε(t, s) = Cor(εt, εs) = 0 fur alle t 6= s
[Betrachtet man das weiße Rauschen nicht im Zeitbereich, sondern im Frequenzbereich(Spektralbereich), dann sieht man, dass alle Frequenzen mit gleicher Intensitat auftre-ten. Daher der Name Weißes Rauschen in Analogie zum weißen Licht, das alle Spektren(Frequenzen) des sichtbaren Lichtes mit gleicher Leistung (Intensitat) umfasst.]
21
5.2.5 Autoregressive Prozesse der Ordnung p (kurz: AR(p)-Prozess)
Yt = Φ1Yt−1 + Φ2Yt−2 + . . . ΦpYt−p + εt fur alle t
Stationaritatsbedingung: Alle Nullstellen der charakteristischen Gleichung
1− Φ1z − Φ2z2 − . . .− Φpz
p = 0
(die auch komplex sei konnen) sind betragmaßig ungleich 1.
Kausalitat: Alle Nullstellen der charakteristischen Gleichung
1− Φ1z − Φ2z2 − . . .− Φpz
p = 0
(die auch komplex sei konnen) sind betragmaßig großer 1.
YULE-WALKER-Gleichungen fur ACF:
ρ(0) = 1
ρ(k) = ρ(−k) =
p∑j=1
Φjρ(k − j) k = 1, 2, 3, ...
Varianz:
VarYt =σ2
ε
1− Φ1ρ(1)− . . .− Φpρ(p)
PACF (qualitativ):
ρk = ρ−k =
{6= 0 : fur k = 0, 1, . . . , p
= 0 : fur k > p
22
5.2.6 Moving-Average-Prozesse der Ordnung q (kurz: MA(q)-Prozess)
Yt = εt + Θ1εt−1 + Θ2εt−2 + . . . Θqεt−q fur alle t
Der MA(q)-Prozess ist stets stationar.
Invertierbarkeitsbedingung: Alle Nullstellen der charakteristischen Gleichung
1−Θ1z −Θ2z2 − . . .−Θqz
q = 0
(die auch komplex sei konnen) sind betragmaßig großer 1.
ACF:
ρ(k) =
1 : fur k = 0q−k∑j=0
ΘjΘj+k
k∑j=0
Θ2j
: fur k = 1, . . . , q
0 : fur k > q
Varianz:
VarYt = σ2ε
q∑j=0
Θ2j
PACF (qualitativ): exponentiell fallend
23
5.2.7 ARMA(p,q)-Prozess
Yt = Φ1Yt−1 + Φ2Yt−2 + . . . ΦpYt−p + εt + Θ1εt−1 + Θ2εt−2 + . . . Θqεt−q fur alle t
Autokovarianzen:
γ(k) = γ(−k) =
p∑j=1
Φjγ(k − j) + γY ε
(k) +
q∑j=1
ΘjγY ε(k − j)
mit
γY ε
(k) = EYt−kεt =
{0 : fur k > 0 Yt−k ist mit zukunftigen εt unkorreliert
6= 0 : fur k ≤ 0
Fur k > q gelten damit die YULE-WALKER-Gleichungen:
γ(k) = γ(−k) =
p∑j=1
Φjγ(k − j)
ACF:
ρ(k) =γ(k)
γ(0)
5.2.8 Modellidentifikation (ARMA(p,q)-Prozess)
Ziel: Anpassung eines ARMA(p,q)-Modells an die konkret vorliegende Zeitreihe.
• Identifikation von p und q:
− AR(p)-Prozess: Die (theoretische) PACF ist 0 fur k > p. Die (empirische) PACF rk
eines AR(p)-Prozesses wird also ab k > p in der Nahe von Null sein.
− MA(q)-Prozess: Die (theoretische) ACF ist 0 fur k > p. Die (empirische) ACFr(k) eines MA(q)-Prozesses wird also ab k > q in der Nahe von Null sein.
− AKAIKE: Wahle Ordnungen (p, q), fur die
ln σ2p,q +
1
n(p + q) ln n
minimal wird.
24
− HANNAN/QUINN: Wahle Ordnungen (p, q), fur die
ln σ2p,q +
1
n(p + q)c · ln(ln n)
mit noch frei wahlbaren c > 2 minimal wird.
5.2.9 Schatzen der Modellparameter (ARMA(p,q)-Prozess)
Nach Festlegung von p und q schatz man Φ1, . . . , Φq, Θ1, . . . , Θq z.B. nach der Methodeder kleinsten Quadrate.
- Fur einen (reinen) AR(p)-Prozess:
Man bestimmt die empirischen Korrelationen r(1), . . . , r(p) der konkreten (beobach-teten) Zeitreihe und setzt diese fur die Korrelationen ρ(1), . . . , ρ(p) in die YULE-WALKER-Gleichungen ein.
r(1) = Φ1 + Φ2r(1) + . . . + Φpr(p− 1)
r(2) = Φ1r(1) + Φ2 + . . . + Φpr(p− 2)...
r(p) = Φ1r(p− 1) + Φ2r(p− 2) + . . . + Φp
Die Losung dieses linearen Gleichungssystems nach Φ1, . . . , Φp ist eine (mogliche) Schatzung
(Momentenmethote) Φ1, . . . , Φp.
5.2.10 Modelluberprufung (ARMA(p,q)-Prozess)
Test, ob die Residuen weißes Rauschen sind.
H0 : ρε(1) = ρε(2) = . . . = ρε(K) = 0
(ρε(k) = Cor(εt, εt+k) = 0 die Residuen sind unkorreliert (fur k = 1, 2, .., K))
HA : ρε(k) 6= 0 fur mindestens ein k ∈ {1, ..., K}Testgroße:
T = n(n + 2)K∑
k=1
1
n− kr2ε(k)
kritische Bereich:K = {t | t ≥ χ2
K−p−q ,1−α}
25
Recommended