Formelsammlung zur Lehrveranstaltung Statistische ... · 0 Mulitivariate Daten 0.1 Multivariate...

Formelsammlung zur Lehrveranstaltung

Statistische Analyseverfahren

4. Februar 2016

Inhaltsverzeichnis

0 Mulitivariate Daten 10.1 Multivariate Daten (beobachtet) . . . . . . . . . . . . . . . . . . . . . . 10.2 Multivariate Daten (theoretisch) . . . . . . . . . . . . . . . . . . . . . . 2

1 Diskriminanzanalyse 31.1 Diskrimination bei bekannter Verteilung in den q Klassen . . . . . . . . 3

1.1.1 Maximum-Likelihood-Diskriminanzregel . . . . . . . . . . . . . 31.1.2 Bayessche-Diskriminanzregel . . . . . . . . . . . . . . . . . . . . 3

1.2 Diskrimination, wenn die Verteilung in den q Klassen bis auf die Para-meter bekannt ist . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2.1 Maximum-Likelihood-Diskriminanzregel . . . . . . . . . . . . . 41.2.2 Bayessche-Diskriminanzregel . . . . . . . . . . . . . . . . . . . . 51.2.3 Test auf Varianz- Kovarianzhomogenitat . . . . . . . . . . . . . 51.2.4 Test auf Gleichheit der Erwartungswertvektoren . . . . . . . . . 51.2.5 Wahrscheinlichkeit fur Fehlklassifikation . . . . . . . . . . . . . 6

1.3 Diskrimination ohne Verteilungsanahme . . . . . . . . . . . . . . . . . 71.4 Diskrimination Kategorialer Daten . . . . . . . . . . . . . . . . . . . . 7

1.4.1 Maximum-Likelihood-Diskriminanzregel . . . . . . . . . . . . . 71.4.2 Bayessche-Diskriminanzregel . . . . . . . . . . . . . . . . . . . . 7

2 Clusteranalyse 82.1 Distanzen und Ahnlichkeiten zwischen den Objekten . . . . . . . . . . 8

2.1.1 Distanzen zwischen metrischen Merkmalen . . . . . . . . . . . . 82.1.2 Ahnlichkeiten und Abstande zwischen nominalen Merkmalen . . 9

2.2 Verfahren zur Konstruktion von Cluster-Hierachien . . . . . . . . . . . 92.2.1 Bestimmung der Clusteranzahl . . . . . . . . . . . . . . . . . . 102.2.2 Beurteilung einer Clustereinteilung . . . . . . . . . . . . . . . . 11

3 Hauptkomponentenanalyse 123.1 Theoretische Hauptkomponente . . . . . . . . . . . . . . . . . . . . . . 123.2 Empirische Hauptkomponente

(Stichprobenhauptkomponente) . . . . . . . . . . . . . . . . . . . . . . 133.2.1 Erklarungsanteile der Hauptkomponenten . . . . . . . . . . . . 133.2.2 Test fur Erklarungsanteil . . . . . . . . . . . . . . . . . . . . . . 143.2.3 Isotropy-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

4 Faktorenanalyse 154.1 k-Faktor-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154.2 Fundamentaltheorem der Faktoranalyse: . . . . . . . . . . . . . . . . . 154.3 Verfahren der Faktoranalyse . . . . . . . . . . . . . . . . . . . . . . . . 164.4 Rotation der Faktoren . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

5 Zeitreihenanalyse 175.1 Additive Zeitreihenenmodelle . . . . . . . . . . . . . . . . . . . . . . . 17

5.1.1 Additives Zeitreihenmodell mit Trendkomponente . . . . . . . . 175.1.2 Additives Zeitreihenmodell mit Trend- und Saisonkomponente . 19

5.2 Stochastische Prozesse 2.Ordnung . . . . . . . . . . . . . . . . . . . . . 205.2.1 Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205.2.2 Stationaritat 2. Ordnung . . . . . . . . . . . . . . . . . . . . . . 215.2.3 Schatzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215.2.4 Weißes Rauschen . . . . . . . . . . . . . . . . . . . . . . . . . . 215.2.5 Autoregressive Prozesse der Ordnung p (kurz: AR(p)-Prozess) . 225.2.6 Moving-Average-Prozesse der Ordnung q (kurz: MA(q)-Prozess) 235.2.7 ARMA(p,q)-Prozess . . . . . . . . . . . . . . . . . . . . . . . . 245.2.8 Modellidentifikation (ARMA(p,q)-Prozess) . . . . . . . . . . . . 245.2.9 Schatzen der Modellparameter (ARMA(p,q)-Prozess) . . . . . . 255.2.10 Modelluberprufung (ARMA(p,q)-Prozess) . . . . . . . . . . . . 25

0 Mulitivariate Daten

0.1 Multivariate Daten (beobachtet)

An n Objekten (Individuen) werden p verschiedene Merkmale (Eigenschaften)beobachtet.

1. Objekt: x>1 = (x11 , ..., x1p)2. Objekt: x>2 = (x21 , ..., x2p)...n-tes Objekt: x>n = (xn1 , ..., xnp).

Datenmatrix (Beobachtungen) ((n× p)-Matrix)

X = ((xij))n×p =

x11 . . . x1p

x21 . . . x2p

...xn1 . . . xnp

x>1x>2...

standardisierte Datenmatrix

X = ((xij))n×p mit x

xij− xj

i = 1, ..., n ; j = 1, ..., p.

n∑i=1

√√√√ 1

n− 1

n∑i=1

(xij− xj)2

0.2 Multivariate Daten (theoretisch)

Die beobachten Merkmale werden als Realisierungen von Zufallsgroßen aufgefasst.

Damit ist Xj (j = 1, . . . , p) das zufallige j-te Merkmal.Fur dieses existieren der Erwartungswert EXj = µj und die Varianz VarXj = σ2

Weiter ist Xij (i = 1, . . . , n j = 1, . . . , p) das zufallige j-te Merkmal beim i-ten Objekt.

Datenmatrix (Zufallsgroßen) ((n× p)-Matrix)

X = ((Xij))n×p =

X11 . . . X1p

X21 . . . X2p

...Xn1 . . . Xnp

X>2...

standardisierte Datenmatrix (theoretisch)

X = ((Xij))n×p mit X

Xij− EXj√VarXj

i = 1, ..., n ; j = 1, ..., p.

Kovarianzmatrix (symmetrische (p× p)-Matrix)

Cov(X1, X1) Cov(X1, X2) . . . Cov(X1, Xp)Cov(X2, X2) . . . Cov(X2, Xp)

. . ....

” Cov(Xp, Xp)

Dabei ist Cov(Xi, Xj) = Cov(Xj, Xi) (Symmetrie) und

Cov(Xi, Xj) = E [(Xi − EXi)(Xj − EXj)] = EXiXj − EXiEXj.

In der Diagonale der Kovarianzmatrix stehen die Varianzen.

Cov(Xi, Xi) = Var(Xi) = E[(Xi − EXi)

= EX2i − (EXi)

Korrelationsmatrix (symmetrische (p× p)-Matrix)

((ρij))p×p = ((Corr(Xi, Xj))p×p

Corr(Xi, Xj) =Cov(Xj, Xi)√VarXiVarXj

insbesondere:Corr(Xi, Xi) = 1 i = 1, .., n.

Die Kovarianzmatrix der standardisierten Daten ist die Korrelationsmatrix derAusgangsdaten:

Cov(Xi, Xj) = Corr(Xi, Xj).

1 Diskriminanzanalyse

1.1 Diskrimination bei bekannter Verteilung in den q Klassen

1.1.1 Maximum-Likelihood-Diskriminanzregel

Ordne das Objekt mit Merkmalsvektor x zur k-ten Klasse, falls

fk(x) = maxj=1,..,q

fj(x).

Beispiel: q p-dim. Normalverteilungen mit gleicher Kovarianzmatrix Σ.

Maximum-Likelihood-Diskriminanzregel:

(x− µk)>Σ−1(x− µ

k) = min

j=1,..,q(x− µ

j)>Σ−1(x− µ

Spezialfall: Zwei p-dim. Normalverteilungen mit gleicher Kovarianzmatrix Σ.

Ordne das Objekt mit Merkmalsvektor x zur ersten Klasse, falls

g(x) := (µ1− µ

2)>Σ−1

(x− 1

))> 0.

1.1.2 Bayessche-Diskriminanzregel

Vorinformation: a-priori gehort ein Objekt mit Wahrscheinlichkeit pj zur j-ten Klasse:

q∑j=1

pj = 1.

pk · fk(x) = maxj=1,..,q

pj · fj(x).

g(x) = (µ1− µ

2)>Σ−1

(x− 1

))> ln

⇐⇒g1(x) := (µ

1− µ

2)>Σ−1

(x− 1

))− ln

1.2 Diskrimination, wenn die Verteilung in den q Klassen bisauf die Parameter bekannt ist

Die unbekannten Parameter werden aus einer Lernstichprobe geschatzt:

xkj k = 1, .., q j = 1, .., nk (nk Objekte in der k-ten Klasse).

Datenmatrix der Lernstichprobe ((n× p)-Matrix mit n = n1 + n2 + ...nq)

x11,1 . . . x11,p

......

x1n1,1 . . . x1n1,p

......

xq1,1 . . . xq1,p

......

xqnq,1 . . . xqnq,p

X1...Xq

mit Xk =

Beispiel: q p-dim. Normalverteilungen mit gleicher Kovarianzmatrix Σ.

Schatzung der Erwartungswertvektoren und der Kovarianzmatrix:

= xk =1

nk∑j=1

xkj ; k = 1, .., q Mittelwertvektor in der k-ten Klasse.

S := Σ =1

n− q

nk∑j=1

(xkj − xk)(xkj − xk)> empirische Kovarianzmatrix.

n− q

(nk − 1)Sk.

mit Sk =1

nk − 1

nk∑j=1

(xkj − xk)(xkj − xk)>der empirischen Kovarianzmatrix in der k-ten Klasse.

Maximum-Likelihood-Diskriminanzregel (mit Lernstichprobe):

(x− xk)>S−1(x− xk) = min

j=1,..,q(x− xj)

>S−1(x− xj).

g(x) := (x1 − x2)>S−1

(x− 1

2(x1 + x2)

pk · fk(x) = maxj=1,..,q

pj · fj(x).

Dabei ist f die Dichtefunktion mit geschatzten Parametern.

g1(x) := (x1 − x2)>S−1

(x− 1

2(x1 + x2)

)− ln

Moglicherweise werden die a-priori Wahrscheinlichkeiten auch noch aus der Stichprobewie folgt geschatzt:

pi =ni

ni = 1, . . . , q.

1.2.3 Test auf Varianz- Kovarianzhomogenitat

(theoretische) Stichprobe:

Xkj k = 1, .., q j = 1, .., nk (nk Objekte in der k-ten Klasse).

Voraussetzung: Die Merkmale in den q Klassen sind p-dim normalverteilt.H0 : Σ1 = Σ2 = ... = Σq gegen HA : Σi 6= Σj fur mindestens ein Paaar (i, j).

Testgroße:

T = (1− c) · (n · ln |S| −q∑

nj · ln |Sj|).

mit c =(

2p2−3p−16(p+1)(q−1)

q∑j=1

1nj− 1

kritische Bereich:

{t : t ≥ χ2

p(p+1)(q−1)2 ,1−α

1.2.4 Test auf Gleichheit der Erwartungswertvektoren

(theoretische) Stichprobe:

Xkj k = 1, .., q j = 1, .., nk (nk Objekte in der k-ten Klasse).

H0 : µ1

= ... = µq

gegen HA : µi6= µ

jfur mindestens ein Paaar (i, j).

Testgroße:T = spur(B ·W−1).

Im Fall von zwei Gruppen lasst sich die Testgroße auch wie folgt bestimmen:

T =n1 · n2

n · (n− 2)(x1 − x2)

>S−1(x1 − x2)

kritische Bereich:

{t : t >

n− p− 1Fp,n−p−1,1−α

1.2.5 Wahrscheinlichkeit fur Fehlklassifikation

pij - Wahrscheinlichkeit, dass ein Objekt der i-ten Klasse zugeordnet wird, obwohles zur j-ten Klasse gehort.

pii - Wahrscheinlichkeit, dass ein Objekt der i-ten Klasse richtig klassifiziert wird.

Schatzung der Wahrscheinlichkeit fur Fehlklassifikation

Zwei p-dim Normalverteilungen mit gleicher Kovarianzmatrix:

p12 = p21 = Φ

)mit D2 = (x1 − x2)

>S−1(x1 − x2).

(zufallige) Einteilung in Lern- und Teststichprobe:

Mit der Lerstichprobe wird die Diskriminanzfunktion bestimmt und mit dieser werdendie Elemente der Teststichprobe den Klassen zugeordnet.

nij - Anzahl der Objekte in der Teststichprobe der j-ten Klasse, die zur i-ten Klassezugeordnet werden.

nj - Anzahl der Objekte in der Teststichprobe der j-ten Klasse.

pij =nij

Resubstitutionsmethode: Hier ist die Lernstichprobe gleich der Teststichprobe.

Cross-Validation-Prinzip, Leaving one out:

Die Diskriminanzfunktion wird ohne das jeweilige Objekt, welches klassifiziert wer-den soll bestimmt.

n∗ij - Anzahl der Objekte der j-ten Klasse, die zur i-ten Klasse zugeordnet werden.nj - Anzahl der Objekte der j-ten Klasse.

pij =n∗ijnj

1.3 Diskrimination ohne Verteilungsanahme

Prinzip: Projiziere die n p-dim. Merkmalsvektoren der Lernstichprobe so auf eine ge-eignet zu wahlende Gerade, dass die Klassen so gut wie moglich getrennt werden. DieVarianz zwischen den Klassen soll so groß wie moglich sein und die Varianz innerhalbder Klassen so klein wie moglich.

q∑j=1

nj(xj − x)(xj − x)> Between-Class-SSQ-Matrix

q∑j=1

nj∑i=1

(xji − xj)(xji − xj)> Within-Class-SSQ-Matrix

a>Wa!= max

=⇒ Losung: a∗ ist Eigenvetor zum großten Eigenwert von W−1B.

Fishers lineare Diskriminanzregel:

|a∗>x− a∗>xk| < |a∗>x− a∗>xj| fur alle j 6= k.

1.4 Diskrimination Kategorialer Daten

Der Ausgangspunkt ist eine große Lernstichprobe.

N - Stichprobenumfang der gesamten Lernstichprobe,Ni - Stichprobenumfang fur die i-te Klasse,

n(x, k) - Anzahl der Objekte mit Merkmalsvektor x in der k-ten Klasse.

Ordne das Objekt mit den Merkmalsvektor x in die k-te Klasse, falls

n(x, k)

≥ n(x, j)

∀j 6= k.

Ordne das Objekt mit den Merkmalsvektor x in die k-te Klasse, falls

n(x, k) ≥ n(x, j) ∀j 6= k.

2 Clusteranalyse

2.1 Distanzen und Ahnlichkeiten zwischen den Objekten

2.1.1 Distanzen zwischen metrischen Merkmalen

xi1...

xik...

und xj =

xj1...

xjk...

Lr-Abstand:

dij = dLr(xi, xj) =

(xik − xjk)r

euklidische Abstand: (r = 2)

dij = dL2(xi, xj) =

√√√√p∑

(xik − xjk)2 =√

(xi − xj)>(xi − xj)

Manhattan-Abstand (City-Block): (r = 1)

dij = dL1(xi, xj) =

|xik − xjk|

Tschebyscheff-Abstand: (r = ∞)

dij = dL∞(xi, xj) =p

maxk=1

|xik − xjk|

Die Lr Abstande sind nich skaleninvariant. Der folgende hingegen schon.

(empirische) Mahalanobis-Distanz:

dij =√

(xi − xj)>S−1(xi − xj)

S = Σ =1

n− 1

n∑i=1

(xi − x)(xi − x)>

der empirische Kovarianzmatrix zwischen den p Merkmalen, bzw.

S = Σ = ((σ)jk)p×p mit σjk =1

n− 1

k∑i=1

(xij−xj)(xik − xk).

2.1.2 Ahnlichkeiten und Abstande zwischen nominalen Merkmalen

Dichotome Merkmale

Die Elemente der beiden Merkmalsvektoren xi und xj sind nur Dichotome Merkmale.Sie besizten also nur die Werte 0 oder 1. In der folgenden Tabelle werden die furalle moglichen Kombinationen die Anzahlen gezahlt. So ist z.B. bij die Anzahl derKomponten der Merkmalsvektoren bei welchen im Vektor i eine 1 vorliegt und imVektor j eine 0.

i\j 1 0

1 aij bij

0 cij dij

p = aij + bij + cij + dij

Matching coefficient:

sij =aij + dij

pdij = 1− sij

Φ-Koeffizient:

sij =aij + dij − (bij + cij)√

(aij + bij)(aij + cij)(bij + dij)(cij + dij)dij = 1− sij

2.2 Verfahren zur Konstruktion von Cluster-Hierachien

Die Objekte i und j wurden zu (ij) zusammengelegt. Der Abstand dieses neuen Clu-ster zum Cluster k wird bestimmt. Dabei ist ni, nj, nk die Anzahl der Objekte in denjeweiligen Clustern.

Single Linkage (nearest neighbor):

dk,(ij) = min{dik, djk}.Complete Linkage (furthest neighbor):

dk,(ij) = max{dik, djk}.Zentroid:

dk,(ij) =ni · dik + nj · djk

ni + nj

− ni · nj

(ni + nj)2· dij

Median:

dk,(ij) =1

2(dik + djk)

Average Linkage:

dk,(ij) =ni · dik + nj · djk

ni + nj

dk,(ij) =(ni + nk) · dik + (nj + nk) · djk − nk · dij

ni + nj + nk

2.2.1 Bestimmung der Clusteranzahl

Dendrogramm:

Man sucht sich eine Stelle, wo es zwischen zwei Fusionierungen einen großen Sprung derDistanz (der Verschmelzungniveaus) gibt. Nur die Cluster vor diesen großen Sprungwerden gewahlt.

Dendrogram

Ward's Method

1 23 4 5 67 8 9

Im Dendrogamm gibt es den großten Sprung zwischen der vorletzen und letzten Fusio-nierung. Man wurde damit die zwei Cluster {1, 2, 3, 4, 7, 11, 13} und {5, 6, 8, 9, 10, 12}wahlen.

Standardisierte Verschmelzungniveau:

αi - Verschmelzungsniveaus (i = 1, . . . , n− 1)α - mittlere Verschmelzungsniveaus2

α - empirische Varianz der Verschmelzungsniveaus

αi =αi − α

Bestimme den Index j, fur welchen zum ersten mal gilt αi > 1, 25 und wahle n + 1− jCluster.

Beim Wardverfahren:

Die Anzahl der Cluster beim Wardverfahren sollte in der Nahe von√n

2liegen.

2.2.2 Beurteilung einer Clustereinteilung

Es wird ubrepruft, ob die Zuordnung der n Objekte zu den Clustern gut ist, oder einein Objekt besser zum Nachbarcluster zugeordnet werden sollte.

Das Objekt i liegt im Cluster k.

Mittlere Abstand des Objektes i zu allen Objekten seines Clusters k:

a(i) =1

nk − 1

j∈CK , j 6=i

nk - Anzahl der Objekte im Cluster k.Ck - Indexmenge von Cluster k

Mittlere Abstand des Objektes i zu allen Objekten des Clusters l l 6= k:

d(i, Cl) =1

∑j∈Cl

nl - Anzahl der Objekte im Cluster l.Cl - Indexmenge von Cluster l

b(i) = mink 6=l

d(i, Cl)

Das Cluster, welches den gerinsten mittleren Abstand zum Objekt i aufweist wird alsNachbarcluster bezeichnet.

Silhoutenkoefizient:

s(i) =

1− a(i)b(i)

: a(i) < b(i)

0 : a(i) = b(i)b(i)a(i)

− 1 : a(i) > b(i)

Ist s(i) À 0 so ist das i-te Objekt den richtigen Cluster zugeordnet.

Ist s(i) ¿ 0 so sollte man das i-te Objekt besser ins Nachbarcluster zuordnen.

Ist s(i) ≈ 0 dann ist es nicht so wichtig, ob man das i-te Objekt im Cluster lasst oderins Nachbarcluster zuordnet.

3 Hauptkomponentenanalyse

3.1 Theoretische Hauptkomponente

Merkmalsvektor

mit EX = µ und CovX = Σ.

Hauptachsentransformation von Σ:

Γ>ΣΓ = Λ =

λ1 0 . . . 0

0 λ2...

.... . . 0

0 . . . 0 λp

λ1, . . . λp - Eigenwerte der Matrix Σ.Γ Matrix der orthonormalen Eigenvektoren von Σ. (ΓΓ> = Ip)

Hauptkomponententransformation von X :

Z = Γ>(X − µ).

j-te Hauptkomponente von X :

Zj = γ>j(X − µ)

mit λ1 ≥ λ2 ≥ . . . ≥ λp und Γ = (γ1, . . . , γp).

Es gilt:EZ = 0 und CovZ = Λ.

Damit ist

1. Hauptkomponente Z1: VarZ1 = λ1

p-te Hauptkomponente Zp: VarZp = λp

undVarZ1 ≥ VarZ2 ≥ . . . ≥ VarZp.

3.2 Empirische Hauptkomponente(Stichprobenhauptkomponente)

Datenmatrix:

x11 . . . x1p

x21 . . . x2p...

...xn1 . . . xnp

x>1x>2...

mit xi =

n∑j=1

n− 1

n∑i=1

(xi − x)(xi − x)> Stichprobenkovarianzmatrix

Hauptachsentransformation von S:

G>SG = L =

l1 0 . . . 0

0 l2...

.... . . 0

0 . . . 0 lp

l1, . . . , lp - Eigenwerte der Matrix S.G Matrix der orthonormalen Eigenvektoren von S. (GG> = Ip)

Hauptkomponententransformation von X :

Z = (X− 1X>)G.

j-te Stichprobenhauptkomponente:

Zj = (X− 1X>)g

mit l1 ≥ l2 ≥ . . . ≥ lp und G = (g1, . . . , g

3.2.1 Erklarungsanteile der Hauptkomponenten

a2ij =

g2ijlj

Anteil der Variation von Xi der durch die j-te Hauptkomponente erklart wird.

Anteil der Totalvariation, der durch die j-te Hauptkomponente erklart wird.

Dabei ist sii das i-te Diagonalelement von S und gij die i-te Komponente von gj.

Der Anteil der ersten k Hauptkomponenten an der Totalvariation ist:

Ψk(λ) =

k∑i=1

p∑i=1

3.2.2 Test fur Erklarungsanteil

H0 : Ψk(λ) = Ψ0 gegen HA : Ψk(λ) 6= Ψ0 (1)

H0 : Ψk(λ) ≤ Ψ0 gegen HA : Ψk(λ) > Ψ0 (2)

H0 : Ψk(λ) ≥ Ψ0 gegen HA : Ψk(λ) < Ψ0 (3)

Testgroße:

T =Ψk(l)−Ψ0

mit Ψk(l) =

k∑i=1

p∑i=1

, τ 2(l) =2

n− 1

(spS)2(Ψk(l)

2−2αkΨk(l)+αk) und αk =

k∑i=1

p∑i=1

Kritische Bereiche:K = {t | |t| > z1−α

2} (1)

K = {t | t > z1−α} (2)

K = {t | t < −z1−α} (3)

3.2.3 Isotropy-Test

H0 : Die p− k kleinsten Eigenwerte sind gleich ( 6= 0)HA : Mindestens zwei der p− k kleinsten Eigenwerte sind nicht gleich.

Testgroße:

T = n(p− k) ln

a0 =(lk+1 + . . . + lp)

p− kden arithmetischen Mittel der (p− k) Eigenwerte und

g0 = (lk+1 · . . . · lp)1

p−k den geometrischen Mittel der (p− k) Eigenwerte.

Kritische Bereich:K =

{t | t > χ2

12(p−k+2)(p−k−1),1−α

4 Faktorenanalyse

4.1 k-Faktor-Modell

• fur das i-te Merkmal Xi:

Xi = µi +k∑

lirfr + ui i = 1, .., p

• fur den Merkmalsvektor X, d.h. in Vektorschreibweise:

X = µ + Lf + u

X = (X1, .., Xp)> zuf. Vektor der p beobachtbaren Merkmale

µ = (µ1, .., µp)> Vektor der Erwartungswerte

f = (f1, .., fk)> zuf. Vektor der k allgemeinen Faktoren

u = (u1, .., up)> zuf. Vektor der spezifischen Faktoren(ui spezifisch fur i-tes Merkmal)

L = ((lir))p×k Matrix der Faktorladungen

(lir) gibt den Einfluß (die Ladung) des r-ten Faktors auf das i-te Merkmal an

(Modell-)Annahmen:

Ef = 0

Eu = 0

Covf = Ik

Covu = diag(Ψ1, .., Ψp) = Ψ

Cov(f, u) = 0

4.2 Fundamentaltheorem der Faktoranalyse:

Σ = LL> + Ψ.

Insbesondere gilt fur die Varianz des i-ten Merkmales VarXi = σii :(σii ist das i-te Diagonalelement von Σ)

σii =k∑

l2ir + Ψi (i = 1, .., p)

= h2i + Ψi

Varianz = allgemeine Varianz + spezifische Varianz

allgemeine Varianz, Kommunalitat (communality): h2i =

k∑r=1

Teil der Varianz, der durch die allgemeinen Faktoren erklart wird.

4.3 Verfahren der Faktoranalyse

a) Maximum-Likelihood-Methode

Annahme:X ∼ N (µ, Σ = LL> + Ψ)

L und Ψ sind die Maximum-Likelihood Schatzer.

b) Hauptfaktorenanalyse

Ausgangspunkt:R = LL> + Ψ

• Schatze die Kommunalitaten h2j durch h2

(z.B. durch betragsmaßig großte Korrelation in j-ter Zeile von R)• Bilde

1− h21 0 . . . 0

0. . . . . .

......

. . . . . . 00 . . . 0 1− h2

= diag(1− h2

1, ..., 1− h2p)

• Bestimme R = R− Ψ, die reduzierte Korrelationsmatrix• Wende auf R die Hauptkomponentenanalyse an. Die Spalten von L sind die k Eigen-vektoren, die zu den ersten k Hauptkomponenten gehoren.

4.4 Rotation der Faktoren

Ziel: Fuhre eine Drehung der Faktoren derart durch, dass die Faktorladungen des ent-stehenden L gut (besser) interpretierbar sind.

Sei G eine orthogonale Matrix, d.h. GG> = Ik (Orthogonale Matrizen mit Deter-minante +1 beschreiben Drehungen im Koordinatensystem).

Damit gilt:R = LL> + Ψ = LGG>L> + Ψ.

Ist L eine Ladungsmatrix, dann ist auch LG eine Ladungsmatrix.

Rotationsmethoden

a) Variamax-Rotation:Die Anzahl von Variablen mit hoher Ladung auf einen Faktor wird minimiert.

b) Quartimax-Rotation:Die Anzahl von Faktoren zur Interpretation einer Variablen wird minimiert. Moglichstviel soll durch einen Faktor erklart werden.

5 Zeitreihenanalyse

5.1 Additive Zeitreihenenmodelle

Zeitreihe

Erwerbstätige

1995 2000 2005 2010

3.7e+07

3.8e+07

3.9e+07

4.0e+07

5.1.1 Additives Zeitreihenmodell mit Trendkomponente

xt = gt + rt t = 1, 2, . . . , T

T . . . gleichabstandige Zeitpunktext . . . Entwicklung des Merkmales uber die Zeitgt . . . glatte Komponente (Trend)rt . . . irregulare Komponente (zufallig)

Trenderkennung mittels Glattung (Smoothing):

gleitende Durchschnitte (moving average):

ungerade Ordnung (2k + 1): x∗t = 12k+1

k∑j=−k

gerade Ordnung (2k): x∗t = 12k

(12xt−k +

k−1∑j=−k+1

xt+j + 12xt+k

rbstät

1995 2000 2005 2010

Zeitreihe

Glättung (Ordnung 12)

Exponentielle Glattung

X∗t = λXt−1 + (1− λ)X∗

t−1 λ ∈ (0, 1) t = 1, 2, ...

Trendeliminierung durch Differenzenbildung

Differenzenbildung

∆Xt = Xt −Xt−1

∆2Xt = ∆(∆Xt) = (Xt −Xt−1)− (Xt−1 −Xt−2)

= Xt − 2Xt−1 + Xt−2

∆kXt = ∆(∆k−1Xt)

Bei den Zeitreihen der (d + 1)-ten Differenzen der Orginalzeitreihe ist ein(eventuell vorhandener) polynomialer Trend der Ordnung d eliminiert(jedoch damit nicht geschatzt!)

Prinzipbeispiel:

Eine deterministische Zeitreihe mit rein polynomialen Trend der Ordnung 3:

xt = 1 + t + t2 + t3

t xt ∆xt ∆2xt ∆3xt ∆4xt

1 42 15 113 40 25 144 85 45 20 65 156 71 26 6 06 259 103 32 6 07 400 141 38 6 0

Praktisch: Bildet man bei einer Zeitreihe xt die Differenzen der Ordnung d, d.h. ∆dxt

und schwankten diese nur noch (zufallig) um einen festen Wert, dann liegt bei derZeitreihe xt vermutlich ein polynomialer Trend der Ornung d vor.

5.1.2 Additives Zeitreihenmodell mit Trend- und Saisonkomponente

xt = gt + st + rt t = 1, 2, . . . , T

st . . . Saisonkomponente

Die Saisonkomponente ist periodisch mit Periode p und schwankt um 0:

st = st+p und

p∑j=1

sj = 0.

Schatzung der Saisonkomponente:

Bilde die gleitenden Durchschnitte x∗t der Ordnung n · p (n naturliche Zahl, meistn = 1). Ist np = 2k gerade, so ist k = np

2. Bei ungerader Ordnung (2k+1) ist k = np−1

mj : kleinste ganze Zahl, so dass k + 1 ≤ j + mj · p ≤ T − k.nj : großte ganze Zahl, so dass k + 1 ≤ j + (mj + nj) · p ≤ T − k.

Trendschatzung: gt = x∗t t = k + 1, . . . , T − k

trendbereinigte Zeitreihe: dt = xt − gt t = k + 1, . . . , T − k

nj+mj∑

dj+lp j = 1, . . . , p

p∑j=1

geschatzte Saisonkomponente: sj = dj − d j = 1, . . . , p

Saisonschätzung

Saisonkomponente

2 4 6 8 10 12

−4e+05

−2e+05

5.2 Stochastische Prozesse 2.Ordnung

5.2.1 Definitionen

Eine Familie von Zufallsgroßen {Yt}, wobei t der Zeitparameter ist, heißtstochastischer Prozess (zufalliger Prozess).[Fur einen beliebigen festen Zeitpunkt t istYt eine Zufallsgroße.]

Fur stochastische Prozesse 2.Ordnung existieren die Erwartungswertfunktion und dieAutokovarianzfunktion.

Erwartungswertfunktion:m(t) := EYt

Autokovarianzfunktion (ACF):

γ(t, s) := Cov(Yt, Ys) = E((Yt −m(t))(Ys −m(s))) = EYtYs −m(t)m(s)

Autokorrelationsfunktion:

ρ(t, s) := Cor(Yt, Ys) =Cov(Yt, Ys)√VarYtVarYs

=γ(t, s)√

γ(t, t)γ(s, s)

Partielle Autokovarianzfunktion (PACF):

Die Partielle Autokovarianzfunktion (PACF) zum lag h (Bezeichnung: ρk) ist die Korre-lation zwischen Xt und Xt+h bei Ausschaltung des Einflusses der dazwischenliegendenXt+1, .., Xt+h−1.

ρ1 = ρ(1) (4)

ρk =ρ(k)− pT

k−1P−1

k−1pk−1√(1− pT

k−1P−1

k−1pk−1)(1− pT

k−1P−1

k−1pk−1)

k−1= (ρ(1), . . . , ρ(k − 1))T und p

k−1= (ρ(k − 1), . . . , ρ(1))T

Pk−1 =

1 ρ(1) ρ(2) . . . ρ(k − 2)ρ(1) 1 ρ(1) . . . ρ(k − 3)ρ(2) ρ(1) 1 . . . ρ(k − 4)

......

.... . .

...ρ(k − 2) ρ(k − 3) ρ(k − 4) . . . 1

5.2.2 Stationaritat 2. Ordnung

Ein stochstischer Prozess Yt heißt stationar 2.Ordnung , wenn

m(t) = c konstante Wert c fur alle Zeitpunkte t.

γ(t, s) = γ(t− s) die Kovarianzfunktion hangt nur von der Zeitdifferenz ab.

Damit hangt auch die Autokorrelationsfunktion nur von der Zeitdifferenz ab:

ρ(t, s) = ρ(t− s) = ρ(h) = ρ(−h) Zeitdifferenz: lag h = t− s.

Sei Xt ein stationarer Prozess 2.Ordnung und xt t = 1, .., n eine Realisierung diesesProzesses, d.h. die beobachtete Zeitreihe.

5.2.3 Schatzungen

Schatzung der Autokovarianzfunktion:

γ(k) = c(k) =1

n−k∑t=1

(xt − x)(xt+k − x) = c(−k) mit x =1

n∑t=1

Schatzung der Autokorrelationsfunktion (ACF):

ρ(k) = r(k) =c(k)

n−k∑t=1

(xt − x)(xt+k − x)

n∑t=1

(xt − x)2

= r(−k)

Schatzung der Partiellen Autokorrelationsfunktion (PACF):

Die Schatzung von ρk (der PACF), d.h. ρk = rk (die empirische PACF) erhalt manindem man in (5) (und auch in (4)) die Autokorrelation ρ(i) durch die emprische Au-tokorellation r(i) ersetzt.

5.2.4 Weißes Rauschen

Weißes Rauschen.εt seien unkorrelierte zufallige Storungen mit Erwartungswert 0 und gleichbleibenderVarianz. Genauer: Der zufallige Prozess εt heißt weißes Rauschen (white noise process)falls folgendes gilt:

Eεt = 0 fur alle t

Varεt = σ2ε fur alle t

ρε(t, s) = Cor(εt, εs) = 0 fur alle t 6= s

[Betrachtet man das weiße Rauschen nicht im Zeitbereich, sondern im Frequenzbereich(Spektralbereich), dann sieht man, dass alle Frequenzen mit gleicher Intensitat auftre-ten. Daher der Name Weißes Rauschen in Analogie zum weißen Licht, das alle Spektren(Frequenzen) des sichtbaren Lichtes mit gleicher Leistung (Intensitat) umfasst.]

5.2.5 Autoregressive Prozesse der Ordnung p (kurz: AR(p)-Prozess)

Yt = Φ1Yt−1 + Φ2Yt−2 + . . . ΦpYt−p + εt fur alle t

Stationaritatsbedingung: Alle Nullstellen der charakteristischen Gleichung

1− Φ1z − Φ2z2 − . . .− Φpz

(die auch komplex sei konnen) sind betragmaßig ungleich 1.

Kausalitat: Alle Nullstellen der charakteristischen Gleichung

1− Φ1z − Φ2z2 − . . .− Φpz

(die auch komplex sei konnen) sind betragmaßig großer 1.

YULE-WALKER-Gleichungen fur ACF:

ρ(0) = 1

ρ(k) = ρ(−k) =

p∑j=1

Φjρ(k − j) k = 1, 2, 3, ...

Varianz:

VarYt =σ2

1− Φ1ρ(1)− . . .− Φpρ(p)

PACF (qualitativ):

ρk = ρ−k =

{6= 0 : fur k = 0, 1, . . . , p

= 0 : fur k > p

5.2.6 Moving-Average-Prozesse der Ordnung q (kurz: MA(q)-Prozess)

Yt = εt + Θ1εt−1 + Θ2εt−2 + . . . Θqεt−q fur alle t

Der MA(q)-Prozess ist stets stationar.

Invertierbarkeitsbedingung: Alle Nullstellen der charakteristischen Gleichung

1−Θ1z −Θ2z2 − . . .−Θqz

(die auch komplex sei konnen) sind betragmaßig großer 1.

ρ(k) =

1 : fur k = 0q−k∑j=0

ΘjΘj+k

k∑j=0

: fur k = 1, . . . , q

0 : fur k > q

Varianz:

VarYt = σ2ε

q∑j=0

PACF (qualitativ): exponentiell fallend

5.2.7 ARMA(p,q)-Prozess

Yt = Φ1Yt−1 + Φ2Yt−2 + . . . ΦpYt−p + εt + Θ1εt−1 + Θ2εt−2 + . . . Θqεt−q fur alle t

Autokovarianzen:

γ(k) = γ(−k) =

p∑j=1

Φjγ(k − j) + γY ε

q∑j=1

ΘjγY ε(k − j)

γY ε

(k) = EYt−kεt =

{0 : fur k > 0 Yt−k ist mit zukunftigen εt unkorreliert

6= 0 : fur k ≤ 0

Fur k > q gelten damit die YULE-WALKER-Gleichungen:

γ(k) = γ(−k) =

p∑j=1

Φjγ(k − j)

ρ(k) =γ(k)

5.2.8 Modellidentifikation (ARMA(p,q)-Prozess)

Ziel: Anpassung eines ARMA(p,q)-Modells an die konkret vorliegende Zeitreihe.

• Identifikation von p und q:

− AR(p)-Prozess: Die (theoretische) PACF ist 0 fur k > p. Die (empirische) PACF rk

eines AR(p)-Prozesses wird also ab k > p in der Nahe von Null sein.

− MA(q)-Prozess: Die (theoretische) ACF ist 0 fur k > p. Die (empirische) ACFr(k) eines MA(q)-Prozesses wird also ab k > q in der Nahe von Null sein.

− AKAIKE: Wahle Ordnungen (p, q), fur die

ln σ2p,q +

n(p + q) ln n

minimal wird.

− HANNAN/QUINN: Wahle Ordnungen (p, q), fur die

ln σ2p,q +

n(p + q)c · ln(ln n)

mit noch frei wahlbaren c > 2 minimal wird.

5.2.9 Schatzen der Modellparameter (ARMA(p,q)-Prozess)

Nach Festlegung von p und q schatz man Φ1, . . . , Φq, Θ1, . . . , Θq z.B. nach der Methodeder kleinsten Quadrate.

- Fur einen (reinen) AR(p)-Prozess:

Man bestimmt die empirischen Korrelationen r(1), . . . , r(p) der konkreten (beobach-teten) Zeitreihe und setzt diese fur die Korrelationen ρ(1), . . . , ρ(p) in die YULE-WALKER-Gleichungen ein.

r(1) = Φ1 + Φ2r(1) + . . . + Φpr(p− 1)

r(2) = Φ1r(1) + Φ2 + . . . + Φpr(p− 2)...

r(p) = Φ1r(p− 1) + Φ2r(p− 2) + . . . + Φp

Die Losung dieses linearen Gleichungssystems nach Φ1, . . . , Φp ist eine (mogliche) Schatzung

(Momentenmethote) Φ1, . . . , Φp.

5.2.10 Modelluberprufung (ARMA(p,q)-Prozess)

Test, ob die Residuen weißes Rauschen sind.

H0 : ρε(1) = ρε(2) = . . . = ρε(K) = 0

(ρε(k) = Cor(εt, εt+k) = 0 die Residuen sind unkorreliert (fur k = 1, 2, .., K))

HA : ρε(k) 6= 0 fur mindestens ein k ∈ {1, ..., K}Testgroße:

T = n(n + 2)K∑

n− kr2ε(k)

kritische Bereich:K = {t | t ≥ χ2

K−p−q ,1−α}

Formelsammlung zur Lehrveranstaltung Statistische ... · 0 Mulitivariate Daten 0.1 Multivariate...

Documents

2. Dateneingabe und Transformation 3 ... · 6. Multivariate Verfahren 6. Multivariate Verfahren Ubersicht (nicht alle werden behandelt)¨ 6.1 Korrelation und Unabhangigkeit¨ 6.2

Vorlesung Multivariate Analyse · 1 Vorlesung Multivariate Analyse Kapitel I Datenauswertung mit STATA Prof. Dr. Josef Brüderl Universität Mannheim Herbstsemester 2007 Josef Brüderl,

Factorization of multivariate polynomials

Überblick und Ausblick - Vorletzte Vorlesung Statistik · 2020-01-28 · Multivariate Statistik Spezielle Daten Theorie Sortiert nach dem Inhalt der Vorlesung Sortiert nach Daten

Multivariate Analysis - statmath.wu.ac.atstatmath.wu.ac.at/courses/mmwi-finmath/Aufbaukurs/handouts/handout-1... · Kapitel 1 Multivariate Analysis Josef LeydoldLernziele c 2006 Mathematische

Improved Strategies for Solving Multivariate Polynomial Equation Systems over … · 2017. 4. 24. · Improved Strategies for Solving Multivariate Polynomial Equation Systems over

Offenbarung, Vernunft und >fähigere Individuen

Angewandte Multivariate Statistik · Angewandte Multivariate StatistikComparison of ... Wir wollen Verfahren entwickeln, ... Statistische Reihenfolge okioT Japan 3420 x (15 ) Mexiko

Seminar: Multivariate Analysemethoden Referentinnen ... · PDF fileABER: können eine hierarchische Struktur in den Daten ... Cross-level-interactions ! Idee: Varianz der Regressionskoeffizienten

Multivariate Statistik - Universität Bonn · Einführung Multivariate Datenanalyse • Daten in der Form einer Datenmatrix • Statistische Verfahren zur – Explorativen Datenanalyse

Multivariate design of 3D printed immediate-release

Integrative pathway enrichment analysis of multivariate omics … · Integrative pathway enrichment analysis of multivariate omics data Marta Paczkowska1,136, Jonathan Barenboim1,136,

ERIC Multivariate Analysis Commresearcj

Vorlesung Multivariate Statistik - db-thueringen.de · 1 Vorlesung: Multivariate Statistik für Psychologen 11. Vorlesung: 18.05.2003 2 Agenda 4. Multivariate Varianzanalyse i. Einführung

Anlockwirkung moderner Leuchtmittel auf nachtaktive Insekten...Insekten/Nacht (5,9 Lepidoptera), gefolgt von LED 6000 K mit 74,9 Individuen (7,1 Lepidoptera) und NAV-T mit 162,9 Individuen

MULTIVARIATE QUALITY PREDICTION OF COD (GADUS …

Intuitive Exploration of Multivariate Data

Auswertung Multivariate Analyse: Einführung in das COX-Modell

SPSS, Meßniveaus, Datenmodifikationen, Multivariate ... · Multivariate Analysemethoden im Überblick ... Strukturprüfende Verfahren ... und statistische Maße lassen sich auf die

Multivariate Statistik - statistik.uni-bonn.de · Multivariate Statistik Inhalt: 1. Grundlagen 2. Multivariate Verteilungen 3. Regressionsanalyse 4. Varianzanalyse 5. Allgemeine Verfahren