View
104
Download
0
Category
Preview:
Citation preview
Methoden derPsychologie
Multivariate Analysemethoden
Günter MeinhardtJohannes Gutenberg Universität Mainz
Wissenschaft ist 5% Inspirationund 95% Transpiration.
(T.W. Adorno)
30.01.2007
Methoden derPsychologie
MDC
Schema Klassifikation
• Distanzanalyse Entscheidend für die Klassifikation ist allein die Nähe zum Gruppenzentroiden. Alle Gruppen werden als gleich wahrscheinlich angesehen.
Minimum Distance Classifier
• Anwendung Bei rein kriterienorientierter Einordnung (Prüfung, welcher prototypische Symptomverbund auf die Beobachtung am ehesten zutrifft.)• Voraussetzung Zuverlässige Schätzung der gruppenspezifischen Varianz- Kovarianz- Matrizen und der Gruppenzentroide.
• Nachteile Zuverlässige Schätzung der Gruppenparameter ist nicht ohne weitere Annahmen möglich. Ausreißerkontrolle erfordert die Annahme einer Wahrscheinlichkeitsverteilung. Für die Klassifikation von Stichproben Mittelwerten sehr gut geeignet.
Methoden derPsychologie
Bayesian Classifier
Schema Klassifikation
• Wahrscheinlichkeitsanalyse Entscheidend für die Klassifikation ist die Likelihood (bestimmt durch die Nähe zum Gruppenzentroiden) und die Grundquote (A- priori Wahrscheinlichkeit der Gruppe.)
Bayesian Classifier
• Anwendung Zuordnung zu Patientengruppen, allg. Selektionsentscheidungen, bei denen Fehler durch progressive Zuordnungen (alpha-Fehler) in kleinere Gruppen schwerwiegend sind (Diagnose). • Voraussetzung Zuverlässige Schätzung der gruppenspezifischen Varianz- Kovarianz- Matrizen und der Gruppenzentroide. Multivariate Normalverteilung für die Likelihoodfunktionen. Zuverlässige Schätzung der A-priori Wahrscheinlichkeiten der Gruppen.• Nachteile Umfassende Voraussetzungen, die sorgfältig zu prüfen sind. Abweichungen von der Normalverteilung wirken sich schwerwiegend aus (Likelihoodfunktionen).
Methoden derPsychologie
Rolle der Verteilungs-annahme
• Bayes Klassifikation ist oft höchst wünschenswert, da sie die A-priori Wahrscheinlichkeit der Gruppen berücksichtigt
Verteilungsanpassung/Prüfung
• Sie liefert nur dann zuverlässige Klassifikationen, wenn in den Populationen die Likelihoodfunktionen normal sind (Gültigkeit der multivariaten Normalverteilung pro Gruppe)
• Effiziente Tests: Die NV- Annahme ist mit effektiven Methoden und trennscharfen Test zu prüfen, um ihre Gültigkeit sicherzustellen
Prüfung der Verteilungs-annahme
• Korrekturen und Datentransformationen: Ist die NV- Annahme auf den originalen Skalen verletzt, können Skalentransformationen für die einzelnen Variablen des Variablen- verbundes gefunden werden, mit denen die multivariate Normalver- auf den transformierten Skalen gilt.
Prüfung der NV-Annahme Klassifikation
• Ausreißeranalyse: Vor der Schätzung der Parameter (,) für die multivariate NV- wird eine Analyse der Rohdaten auf Ausreißer vorgenommen.
Methoden derPsychologie
Die allgemeine Form des Chi – Quadrat für Häufigkeiten ist:
Univariate Tests (1D) Klassifikation
• Dieses Schema wird flexibel auf die jeweilige Fragestellung angewendet.
• Die Frage ist, nach welchem Kriterium sich die erwarteten Häufigkeiten ergeben. Das einfache hat k-1 Freiheitsgrade, die zugehörige Wahrscheinlichkeitsverteilung ist die Verteilung.
• Für den Test der Anpassung an die Normalverteilung werden die erwarteten Häufigkeiten aus den Wahrscheinlichkeiten der Quantil- Intervalle der Normalverteilung berechnet.
- Test aufGüte der Passung
: beobachtete Häufigkeit
: erwartete Häufigkeiti
i
o
e
2
2
1
ki i
i i
o e
e
Methoden derPsychologie
Univariate Tests (1D) Klassifikation
- Test aufGüte der Passung
Nr.
Intervall
jh
(absolut) jp
(relativ)
ˆ jp
(erwartet) je
(erwartet) j jh e
(Differenz) 2
j j
j
h e
e
1x x h1 p1 1F x F e1 h1-e1
1 2x x x h2 p2 2 1F x F x e2 h2-e2
j
1k kx x x hk pk 1k kF x F x ek hk-ek
N 1 1 N 2
• Die erwarteten relativen Häufigkeiten berechnet man aus der Differenz der Werte der Verteilungsfunktion für die exakten Intervallgrenzen.
• Die erwarteten Häufigkeiten ergeben sich durch Multiplikation mit der Anzahl der Beobachtungen N.
• Test mit progressivem alpha-Niveau, da man an der Absicherung für die Beibehaltung der H0 interessiert ist ( = mind. 10%).
Univariate Normalverteilung
Methoden derPsychologie
Univariate Tests (1D) Klassifikation
- Test aufGüte der Passung
Univariate Normalverteilung
Beobachtet: oi
100 300 500 700 90011001300
1000
2000
3000
4000
h(x)
x
erwartet als Normalverteilung: ei
1000
2000
3000
4000
h(x)
x
Vergleich:
1000
2000
3000
4000
h(x)
100 300 500 700 90011001300
100 300 500 700 900 11001300 x
Methoden derPsychologie
• Tests sind nicht sehr trennscharf und brauchen ein hohes N
• Sie hängen von der Anzahl der Intervalle (Freiheitsgrade) ab
• Sie können nur für die univariaten Verteilungen der einzelnen Meßvariablen durchgeführt werden (- Ausreisser durch spezielle Wertekombinationen in der multivariaten Verteilung können nicht aufgedeckt werden)
Tests der NV- Annahme
• Effektive Methoden: Methoden, die die Quantile der erwarteten und tatsächlichen Distanzen vom Zentroid verwenden, können univariat und multivariat verwendet werden
• Effiziente Tests: Die Testung der Gleichheit von erwarteten und tatsächlichen Quantilen beruht auf einer trennscharfen Testung des Korrelationskoeffizienten (uni-und multivariat).
Alternative:Q-Q Plot Methodenund Korrelations-Tests
Prüfung der NV-Annahme Klassifikation
- Tests
Nachteile von
Methoden derPsychologie
• Ausreißer sind heikel zu bestimmen, bei kleinen Stichproben N < 30 gibt es keine zuverlässigen Methoden
• Bei N > 30 legt man die Quantile der Normalverteilung zugrunde und eliminiert die Werte, die jenseits der äußeren Quantile liegen. Dies sollten nicht mehr als 7%-8% sein.
Identifikation von Ausreißern
Test der NV-Annahme (univariat) Klassifikation
Data Clearing
-1.31.31-0.790.82-0.56-0.160.48-0.85-0.021.16-0.57-0.24-1.52-1.820.15-0.15-0.12-0.210.44-0.61-0.53.370.620.12-0.610.22-0.820.671.56-0.05z
1,2142,0651,4141,7011,2381,3561,6461,2901,4221,5471,3131,6021,2521,0021,1801,3891,4931,5951,6271,5181,3842,4121,7171,2711,4391,6141,1101,8152,0871,561x2.131.641.381.191.040.90.780.670.570.480.390.30.210.130.04-0.04-0.13-0.21-0.3-0.39-0.48-0.57-0.67-0.78-0.9-1.04-1.19-1.38-1.64-2.13qe0.980.950.920.880.850.820.780.750.720.680.650.620.580.550.520.480.450.420.380.350.320.280.250.220.180.150.120.080.050.02p
max
0.5 0.5 1, 1, , 1
2i
i Np i N p
N N N
1 1max maxe iq F p F p z
Ausreißer: maxiz z
Methoden derPsychologie
• Nach Ausreißerbereinigung werden den Meßwerten empirische Quantile qo (in z) zugeordnet über die sortierte Reihe der Meßwerte.
• Mit aus den Daten geschätzten Parametern () werden für die Prozentränge erwartete Quantile qe (in z) bestimmt.
• Man trägt qo (y-Achse) und qe (x-Achse) gegeneinander ab. Perfekte Passung liegt vor, wenn die Daten auf der Winkelhalbierenden liegen.
• Man bestimmt Anteil der aufgeklärten Varianz und Korrelation.
Test über Quantilskorrelation
Test der NV-Annahme (univariat) Klassifikation
Q-Q Plot Methode
2
22
var( )1 1
var( )
oi eii
oi oi
q qe
y q q
cov ,
var var
o eqq
o e
q qr
q q
• Für den Korrelationskoeffizienten existieren kritische Werte, die bei Unterschreitung zur Ablehnung der NV-Annahme führen (s. Tabelle).
Methoden derPsychologie
Kritische Q-Q- Korrelationen
Korrelations-Test
Test der NV-Annahme (univariat) Klassifikation
Q-Q Plot Methode
Ist rqq < rcrit(), wird die Annahme der NV auf dem gewählten Level verworfen. sollte progressiv gewählt sein (10%), da man eine Sicherheit für die Beibehaltung wünscht.
0.99600.99530.99353000.99420.99310.99052000.99280.99130.98791500.98950.98730.98221000.98660.98380.9771750.98360.98010.9720600.98220.97870.9695550.98090.97680.9671500.97920.97490.9632450.97710.97260.9599400.97400.96820.9538350.97150.96520.9479300.96650.95910.9410250.96040.95080.9269200.95030.93890.9126150.93510.91980.8801100.90320.87880.829950.100.050.01
Significance level Smpla Size N
( )qq critr r
Methoden derPsychologie
Datenbeispiel
Test der NV-Annahme (univariat) Klassifikation
Q-Q Plot Methode
2
221 0.949
oi eii
oi oi
q q
q q
cov ,.974
var var
o e
o e
q qr
q q
Korrelations-Test
( .1)qq critr r .974 .9715
NV Test knapp im Annahmebereich, aber 2 Ausreißer verschlechtern die Passung beträchtlich
-3.0
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
3.0
-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0
expected quantile (qe)
ob
serv
ed q
uan
tile
(q
o)
N = 30
mit 2 Ausreißern
Methoden derPsychologie
-3.0
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
3.0
-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0
expected quantile (qe)
ob
serv
ed q
uan
tile
(q
o)
Datenbeispiel
Test der NV-Annahme (univariat) Klassifikation
Q-Q Plot Methode
2
221 0.983
oi eii
oi oi
q q
q q
cov ,.992
var var
o e
o e
q qr
q q
Korrelations-Test
( .1)qq critr r .992 .9715
NV Test und Varianzaufklärung zeigt perfekte der empirischen Quantile an die NV an.
N = 28
ohne Ausreißer
Methoden derPsychologie
Datenbeispiel
Test der NV-Annahme (univariat) Klassifikation
Q-Q Plot Methode
2
221 0.877
oi eii
oi oi
q q
q q
cov ,.937
var var
o e
o e
q qr
q q
Korrelations-Test
( .1)qq critr r .94 .9715
• NV Annahme ist heikel und sollte abgelehnt werden
• Ausreißerentfernung würde Passung verbessern, aber die Art der Abweichung deutet auf eine systematische Transformation der Quantile
-3.0
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
3.0
-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0
expected quantile (qe)
ob
serv
ed q
uan
tile
(q
o)
N = 29
Nichtlineare Abweichung
Methoden derPsychologie
• Unsystematische Ausreißer sollten entfernt werden.
• Bei systematischen Quantilsabweichungen können die Rohdaten einer Potenztransformation unterzogen werden, um eine gute Approximation an die NV zu erreichen.
• Parameterschätzung für (,) der NV sind über die transformierten Daten auszuführen.
Quantils-Transformation zur NV
Test der NV-Annahme (univariat) Klassifikation
Box-Cox-Power-Transformation
1, , für 0
kxg x k k
k
ln var , 1 ln2 i
i
Nl k g x k k x
Die Power-Transformation g(x) liefert mit dem Wert k aus der Maximierung von l(k) die beste Annäherung an die NV
maximiert nach k
Methoden derPsychologie
70.0
71.0
72.0
73.0
74.0
75.0
76.0
77.0
78.0
79.0
80.0
0.0 0.1 0.2 0.3 0.4 0.5 0.6
k
l(k)
Datenbeispiel nichtlineare Abweichung
Test der NV-Annahme (univariat) Klassifikation
Q-Q Plot Methode
OptimalePotenz-Transformation
-3.0
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
3.0
-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0
expected quantile (qe)
ob
serv
ed q
uan
tile
(q
o)
N = 29
Maximierungsfunktion l(k)Q-Q - Plot
Potenztransformation der Originalskala:
0 max 0.35k k l k l k
k0
0 0.35
0
1 1,
0.35
kx xg x k
k
Erneuter Q-Q Test
Methoden derPsychologie
-3.0
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
3.0
-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0
expected quantile (qe)
ob
serv
ed q
uan
tile
(q
o)
Datenbeispiel nichtlineare Abweichung
Test der NV-Annahme (univariat) Klassifikation
Q-Q Plot Methode
OptimalePotenz-Transformation
-3.0
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
3.0
-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0
expected quantile (qe)
ob
serv
ed q
uan
tile
(q
o)
2 = .877r = .937
Q-Q – Plot original
,g x k berechnen
Q-Q – Plot nach Potenztransformation
2 = .986r = .993
z- transformieren
Q-Q plotten
Potenztransformation bringt fast perfekte Passung der NV
( .1)qq critr r .993 .9715
Methoden derPsychologie
• Auch im multivariaten Fall sind Ausreißer in kleinen Stichproben nicht zuverlässig bestimmbar,
• Bei N > 30 legt man die Quantile der multivariaten Normalverteilung zugrunde () und eliminiert die Beobachtungen, dessen quadrierte Mahalanobis-Distanzen jenseits der äußeren Quantile liegen. Dies sollten nicht mehr als 7%-8% sein.
Identifikation von Ausreißern
Test der NV-Annahme (multivariat) Klassifikation
Data Clearingp-dimensions
max
0.5 0.5 1, 1, , 1
2i
i Np i N p
N N N
2 2 2max maxe p i pq p p
Ausreißer:
2 2maxp p
17.4312.6910.247.886.55.675.395.235.164.734.133.623.523.12.792.672.632.462.321.541.521.451.411.120.820.790.620.480.132
12.099.498.247.396.746.225.775.395.044.734.444.173.923.693.463.253.052.852.662.472.292.11.921.741.561.371.170.950.710.392
0.980.950.920.880.850.820.780.750.720.680.650.620.580.550.520.480.450.420.380.350.320.280.250.220.180.150.120.080.050.02p
[Excel-Beispiel q-q-Plot]
Methoden derPsychologie
• Nach Ausreißerbereinigung werden den Meßvektoren empirische Quantile qo zugeordnet über die Reihe der Meßwerte sortiert nach Mahalanobisdistanz.
• Mit aus den Daten geschätzten Parametern () werden für die linearen Prozentränge erwartete Quantile qe aus der - Verteilung bestimmt.
• Man trägt qo (y-Achse) und qe (x-Achse) gegeneinander ab. Perfekte Passung liegt vor, wenn die Daten auf der Winkelhalbierenden liegen.
• Man bestimmt Anteil der aufgeklärten Varianz und Korrelation.
Test über Quantilskorrelation
Test der NV-Annahme (multivariat) Klassifikation
Q-Q Plot Methodemultivariat
22 2 2
22 2
2 21 1
oi ei i p ii i
oi o ii i
q q p
q q
cov ,
var var
o eqq
o e
q qr
q q
• Für den Test des Korrelationskoeffizienten verfährt man exakt wie im univariaten Fall.
Methoden derPsychologie
0.0
2.5
5.0
7.5
10.0
12.5
15.0
17.5
0.0 2.5 5.0 7.5 10.0 12.5 15.0 17.5
expected quantile (qe)
ob
serv
ed q
uan
tile
(q
o)
Datenbeispiel (p = 4 Variablen)
Test der NV-Annahme (multivariat) Klassifikation
Q-Q Plot Methode
2
221 0.889
oi eii
oi oi
q q
q q
cov ,.979
var var
o e
o e
q qr
q q
Korrelations-Test
( .1)qq critr r .979 .9715
• NV Test knapp im Annahmebereich, aber 2 Ausreißer verschlechtern die Passung beträchtlich, auch in den unteren Quantilen
• Die beiden größten Ausreißer erfüllen das Kriterium, aber der 3. höchste Wert ist ebenfalls suspekt (hoher Intervallabstand)
N = 30p = 4
mit 3 Ausreißern
2p ip
2i
Methoden derPsychologie
0.0
2.5
5.0
7.5
10.0
12.5
15.0
0.0 2.5 5.0 7.5 10.0 12.5 15.0
expected quantile (qe)
ob
serv
ed q
uan
tile
(q
o)
Datenbeispiel (p = 4 Variablen)
Test der NV-Annahme (multivariat) Klassifikation
Q-Q Plot Methode
2
221 0.984
oi eii
oi oi
q q
q q
cov ,.992
var var
o e
o e
q qr
q q
Korrelations-Test
NV Test zeigt nach Entfernung der höchsten 3 Werte (nicht nur 2) nun eine gute Passung der multivariaten NV
N = 27p = 4
ohne 3 Ausreißer
2p ip
2i
( .1)qq critr r .992 .9715
Methoden derPsychologie
Allgemeines zur Verteilungskorrektur
Test der NV-Annahme (multivariat) Klassifikation
Ausreisser-Kontrolle
Transformationen
• Ausreißerbereinigung sollte immer multivariat erfolgen, da ein Ausreisser in einer einzelnen Variable noch nicht einen Ausreißer im Variablenverbund definiert.
• Das Entfernen extremer Beobachtungen ändert die Korrelationsmatrix, daher können iterative Bereinigungen nötig werden.Skalentransformationen
• Skalentransformationen können nur univariat erfolgen. (Keine Methode definiert eine Transformationen für den Variablenverbund)
• Es ist ratsam eine univariate Untersuchung systematischer Verteilungsabweichungen nach der multivariaten Ausreißerkontrolle durchzuführen, und die einzelnen Variablen mit geeigneten Potenz- transformationen zu korrigieren.
• Sind die Randverteilungen (univariate) alle normal, so wird auch die multivariate Verteilung normalverteilt sein.
Methoden derPsychologie
Ausreißer alsDistanz vom Zentroid
Ausreisser in 2D Klassifikation
Ausreisser in 2D: einer univariat und einer multivariat
x1
x2
univariat
multivariat
Zentroid
Methoden derPsychologie
Ausreißer alsDistanz vom Zentroid
Ausreisser in 2D Klassifikation
Ausreisser in 4D: einer univariat und zwei multivariat
univariat
multivariat
2.67-1.39-0.99-1.17-1.306.501.601.861.761.313.10-0.40-0.32-0.24-0.792.460.340.640.470.823.52-0.81-0.91-1.08-0.564.73-0.60-0.51-0.82-0.162.630.980.460.370.480.82-0.66-0.74-0.76-0.855.23-0.78-0.29-0.43-0.02
10.241.220.131.401.161.52-0.25-0.66-0.50-0.571.410.090.31-0.37-0.244.13-1.31-0.86-1.21-1.523.62-1.73-1.70-1.85-1.82
17.43-1.40-1.101.280.151.12-0.03-0.40-0.32-0.150.13-0.15-0.05-0.21-0.122.790.050.290.29-0.210.480.550.400.500.442.00-0.180.03-0.51-0.610.79-0.68-0.42-0.48-0.50
12.692.703.033.333.371.540.470.700.220.625.16-0.17-0.80-0.210.122.30-0.56-0.24-0.12-0.611.450.500.350.530.225.39-0.60-1.34-0.39-0.827.881.571.03-0.160.675.671.491.940.951.560.620.170.17-0.31-0.05D2Z4Z3Z2Z1
multivariat
Methoden derPsychologie
Beispiel
Bayes - Rule Klassifikation
John ist gut gekleidet, 39 Jahre, verheiratet,2 Kinder. Er ist in der Lokalpolitik aktiv und mag Sport und Autos. Er ist streitsam und diskutiert gerne, geht gern mit Freunden aus.Ist er a) Büroangestellterb) Anwalt ?
Antwort tatsächlich0
10
20
30
40
50
60
70
80
90
100
% z
utr
effe
nd
Anwalt Angestellter
Base Rate wird übersehen
Methoden derPsychologie
Test über Quantilskorrelation
Test der NV-Annahme (univariat) Klassifikation
Q-Q Plot Method
2
221 0.988
oi eii
oi oi
q q
q q
cov ,.994
var var
o e
o e
q qr
q q
Beispiel für sehr gute Übereinstimmung von beobachteten und gemäß NV erwarteten Quantilen
X1
-3.00
-2.50
-2.00
-1.50
-1.00
-0.50
0.00
0.50
1.00
1.50
2.00
2.50
3.00
-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0
expected quantile (qe)
ob
se
rve
d q
ua
nti
le (
qo
)
Recommended