74
1 Angewandte multivariate Statistik mit R Landau 2007 Kaarina Foit und Ralf Schäfer Die vorliegenden Folien sind der zweite Teil einer Vorlesung zum Thema multivariate Statistik mit R. Mehrere Einführungen in R finden sich auf der Website www.r-project.org und können dort kostenfrei heruntergeladen werden.

Die vorliegenden Folien sind der zweite Teil einer ... · PDF fileAngewandte multivariate Statistik mit R Landau 2007 ... -alle Variablen multivariat normalverteilt Die Testvoraussetzungen

  • Upload
    vuque

  • View
    215

  • Download
    0

Embed Size (px)

Citation preview

1

Angewandte multivariate Statistik mit RLandau 2007Kaarina Foit und Ralf Schäfer

Die vorliegenden Folien sind der zweite Teil einer Vorlesung zumThema multivariate Statistik mit R. Mehrere Einführungen in R findensich auf der Website www.r-project.org und können dort kostenfreiheruntergeladen werden.

2

Page 2

Von der univariaten zur multivariaten Statistik

n-dimensionalzweidimensionalVerteilungsform

mehrere erklärendeund abhängige

Variablen a, b, c

mehrere erklärendeVariablen, eine

abhängige Variable aVariablen

Arten undUmweltvariablen

Temperatur undNiederschlag

Beispiel

a,b,c bilden Matrixa ist VektorDatenform

multivariateunivariate

Beispiele für bivariate Zusammenhänge sind:

- Zusammenhang zwischen Temperatur und Niederschlag: Erhöhungder Temperatur - Zunahme der Niederschläge?

- Pestizidbelastung von Obst und Gemüse: Zunahme derKrankheitsinzidenz?

- Verteilung einer Art gegen eine Umweltvariable

Multivariat wäre dagegen die gleichzeitige Betrachtung und Gewichtungvon:

- mehreren Arten und mehreren Umweltvariablen

- verschiedenen Substanzen und verschiedenen Meßmethoden derGC-MS

3

Page 3

Einige Vorteile multivariater Methoden

Simultane Darstellung von mehreren Dimensionen

Relevanz von erklärenden Variablen für Gemeinschaften,

nicht einzelnen Populationen

Entfernen von “noise” -Variablen (vgl. Flack & Chang 1987)

Größere Power von statistischen Tests durch Aggregation

-Relevanz: Bei der univariaten Statistik wird nur für einzelne Arten dieBedeutung von Umweltvariablen untersucht - es ist fast unmöglich dieErgebnisse für mehrere Arten oder Umweltvariablen zu aggregieren

-zum Entfernen von Noise: Flack und Chang (1987) haben untersuchtwie häufig bei einer Regression ein signifikanter Zusammenhang mitzufällig erzeugten noise variables besteht. Das Resultat war, dass invielen Fällen auch zufällig erzeugte Variablen einen bivariatenZusammenhang mit den zu erklärenden Variablen aufweisen. Dagegenwird zum Beispiel bei „constrained“ multivariaten Methoden nur dieerklärbare Varianz von ausgewählten Umweltvariablen herangezogen,insofern also Rauschen aus dem Datensatz entfernt.

-Die Aggregation erhöht die statistische Stärke der schließendenStatistik (z.B. wird der Unterschied von Messstellen anhand dergesamten Gemeinschaft anstatt von einzelnen Arten untersucht).

4

Page 4

Mathematische Grundlagen

as.matrix()

nrow(), ncol()

+,-,*

a11

K a1n

M O M

am1

L amn

Anzahl der Zeilen und Spalten

Addition, Substraktion und Multiplikation von amn mit bmn

b11

K b1n

M O M

bm1

L bmn

%*% Matrixmultiplikation

t() Matrix transponieren

t(a)%*%b ; crossprod(a,b) at * b

a%*%t(b) ; tcrossprod(a,b) a * bt

-Auch wenn im Rahmen des Kurses schon vorgefertigte Funktionen zurBerechnung eingesetzt werden, soll hier ein kurzer Einblick in dieMathematik gegeben werden, auf der die Berechnung basiert.

5

Page 5

Mathematische Grundlagen

solve()

A1=

1

ad bc

d b

c aA =

a b

c d

A * A1= E

A1* A = E

ist Für

die inverse Matrix für die gilt:

diag() Beispiel: diag(x=1,2,2) erzeugt:

qr()

Wir können mit den hier angegebenen Funktionen und Methoden nichtfür alle Matrizen eine Inverse berechnen! Diese gibt es nur für n*nMatrizen bei denen der Rang = der Anzahl der Zeilen (oder Spalten) ist(bei n*m Matrizen gilt es wenn der Rang = min(n,m) ist, die betrachtenwir hier aber nicht). Das wiederum bedeutet, dass es n unabhängigeLinearkombinationen der Zeilenvektoren geben muss. Die manuelleBerechnung des Ranges kann man z.B. im Bronstein (S.264)nachschlagen. In R wird mit der Funktion qr() u.a. der Rang einer Matrixberechnet, allerdings kommt sie nicht immer zu einem Ergebnis.

6

Page 6

Mathematische Grundlagen

as.matrix()

nrow(), ncol() +,-,*

%*%t()

t(a)%*%b ; crossprod(a,b) a%*%t(b) ; tcrossprod(a,b)

Aufgaben

1. Lesen Sie die Tabellen „Matrix 1“ und „Matrix 2“ alsMatrix ein.

3. Bilden Sie die Inverse der resultierendenMatrizen!

2. Wieviele Reihen und Zeilen haben die Matrizen,die aus der Matrizenmultiplikation resultieren? Wasist ihr Rang?

solve()

diag()qr()

7

Page 7

Klassifikation multivariater Methoden

Datenreduktion und Simplifikation

Sortieren und Gruppieren

Untersuchen von Abhängigkeiten zwischen Variablen

Vorhersage und Hypothesentest

Anhand des Anwendungsbereichs

Beispiele für Anwendungen (die Zahlen beziehen sich auf den Punkt inder Folie).

1. In einer Studie wurden Ernte- und Größendaten für Pflanzen benutzt,um einen Index für die Züchtungswahl zu erstellen

2. Ein Beispiel aus der Klimatologie: Wir können mit multivariatenVerfahren Gruppen von Ländern mit ähnlichen vorhergesagtenVeränderungen an Niederschlag, Meeresspiegel und Temperaturbilden.

3. In Studien werden häufig verschiedene Variablen erhoben undidentifiziert, welche für Veränderungen z.B. in derArtengemeinschaft verantwortlich sind

4. Es gibt Methoden mit denen wir die Zugehörigkeit von neuenMessobjekten zu vorher definierten Gruppen vorhersagen können.Ferner gibt es multivariate Hypothesentests z.B.die Überprüfungauf signifikanten Unterschied von Gemeinschaften ankontaminierten und nicht-kontaminierten Standorten.

8

Page 8

Klassifikation multivariater Methoden

Anhand der Methoden

Multivariate Vergleiche (Zentralmaße usw.)

Multivariate Regression und Korrelation

Klassifikation (Cluster- und Diskriminanzanalysen)

Ordination

9

Page 9

Multivariate Vergleiche: Hotelling

Cu g/kg

9.57.88.48.9Boden b

5.54.23.24.2Boden a

Cu Gehalt von Boden

Vergleich Mittelwert vonzwei Stichproben bzgl.eines Merkmals

H0: 1= 2

63.4

85.9

44.9

78.9

64.3

88.33

55.9

94.0

Fe g/kg

9.57.88.48.9Boden b

5.54.23.24.2Boden a

Cu g/kg

H0: 1 = 2

Vergleich Mittelwert vonzwei Stichproben mit kMerkmalen

Cu und Fe Gehalt von Boden

t.test(), wilcox.test() ... Hotelling‘s T2-Test

-Univariate und multivariate Vergleiche der Zentralmaße laufen analog

-Fettdruck steht für Vektor

-Eine Serie von t-tests ist nicht identisch mit dem Ergebnis desHotelling T2-Tests! (Beachten Sie auch, dass bei einer Reihe von t-testsbezüglich der gleichen Stichprobe die Fehlerwahrscheinlichkeit von0.95 sinkt, und zwar auf 0.95^Anzahl der Tests.

10

Page 10

T2=n1*n

2

n1+ n

2

(Xur

1 X

ur

2 )tS

1(Xur

1 X

ur

2 )

Multivariate Vergleiche: Hotelling

t.test()

Hotelling‘s T2-Test

t =X1

X2

sX1 X2

sX1 X2

=

sX1

2+ s

X 2

2

n mit

„Differenz der Mittelwerte/ Standardfehler der Differenz“

Differenz der Mittelwertvektoren

Inverse der Kovarianzmatrix

Schauen Sie sich zur näheren Erläuterung Exkurs die Datei„Hotelling.R“, in der der Hotelling-Test für R umgesetzt ist. Leider ist derTest noch nicht als Funktion in R implementiert, allerdings kann für denVergleich von 2 Gruppen auch eine Manova durchgeführt werden(siehe weiter unten).

In die Kovarianzmatrix S (die hier aus den Daten geschätzt wird) gehtdie Varianz der beiden Stichproben X1 und X2 ein (vgl. Hartung 1999, S.231)

11

Page 11

Multivariate Vergleiche: Hotelling

Testvoraussetzungen

-die Beobachtungen müssen unabhängig sein-Kovarianzmatrizen gleich-alle Variablen multivariat normalverteilt

Die Testvoraussetzungen sind analog zu univariatenTestvoraussetzungen wie Normalverteilung, Varianzgleichheit usw.

12

Page 12

Multivariate Vergleiche: Voraussetzung

Aufgabe

Sind die Messungen beim Boden multivariatnormalverteilt?

Wie testet man auf multivariate Normalverteilung?

H0: X stammt aus multivariater NVmshapiro.test(){mvnormtest}

Hypothesentest

13

Page 13

Multivariate Vergleiche: Voraussetzungen

Wie testet man auf multivariate Normalverteilung?

Grafisch

chisplot()

Bei Übereinstimmung mit der Normalverteilung sollten diePunkte auf einer Geraden durch den Ursprung liegen.

- Die chisplot-Funktion befindet sich in der Datei Hotelling.R.

- Zur Berechnung: Für die empirischen Daten wird für jede q-dimensionale Beobachtung xi eine generalisierte Abweichung zumgeneralisierten Mittelwert-Vektor der gesamten Stichprobe berechnet.Diese generalisierten Distanzen werden geordnet und mit denQuantilen der Chi-Quadrat-Verteilung verglichen. Bei absoluterÜbereinstimmung sollten sie auf einer Geraden durch den Ursprungliegen.Beispiel: Für den geordneten Vektor ai der Länge n mit denDistanzen (1,2,3,4,5,6,7,8,9,10) ist das Quantil der n Beobachtungenjeweils pi/n = ai da dies der kleinste Wert ist für den gilt: F(i/n) pi/n

-> Was passiert eigentlich bei Abweichung von der Normalverteilung?Auf diese Frage wird im Anschluss an die MANOVA eingegangen.

14

Page 14

Multivariate Vergleiche: MANOVA

........Boden b

Boden c

........Boden d

Cu g/kg

9.57.88.48.9Boden e

5.54.23.24.2Boden a

Cu Gehalt von Boden

Vergleich Mittelwert vonn 2 Stichproben bzgl.eines Merkmals

H0: 1= 2 = ... = n

................Boden b

5.54.23.24.285.978.988.3394.0Boden a

................Boden c

63.4

..

44.9

..

64.3

..

55.9

..

Fe g/kg

9.57.88.48.9Boden e

........Boden d

Cu g/kg

H0: 1 = 2 = ... = n

Vergleich Mittelwert vonn 2 Stichproben mit kMerkmalen

Cu und Fe Gehalt von Boden

aov(), anova() ... manova() ...

-ANOVA und MANOVA ähneln sich stark in der Berechnung (siehe Zar1996). Allerdings können sich die Ergebnisse unterscheiden, wenn mananstatt einer MANOVA, mehrere ANOVAs ausführt. So könnte dieMANOVA signifikante Unterschiede zwischen den Gruppen finden,obwohl die ANOVAs keine finden und umgekehrt (Unterschiede bei denANOVAs für einige erklärende Variablen und keine beim Vergleich derMittelwertvektoren in der MANOVA).

-Beachte: die single-Faktor MANOVA mit 2 Gruppen ist analog zumHotelling T2-Tests, die Ergebnisse sind gleich (F-Wert).

15

Page 15

Multivariate Vergleiche: MANOVAmanova()

Aufgaben

1. Führen Sie eine MANOVA für die Soil-Daten durchund vergleichen Sie die Ergebnisse mit Hotelling‘sT2-Test.

2. Unterteilen Sie die Bodentypen in 4 gleich großeGruppen und wiederholen Sie die MANOVA.

Tip: Beispiel unter summary.manova()

summary.manova() Ergebnisse und Wahl des Tests

summary.aov() Ergebnisse der univariaten ANOVA

Zu Aufgabe 2: Es empfiehlt sich, nicht die Rohdaten zu verändernsondern einen neuen dataframe zu erstellen. Anschließend sollten mitdetach() die variablen des alten Frames aus dem Speicher gelöschtwerden.

Es gibt verschiedene Teststatistiken in der MANOVA. Wilks‘ lambda istzwar am populärsten, viele Autoren empfehlen allerdings Pillai‘s trace,der in R auch als Standardmethode eingestellt ist. Die Statistik nachHotelling-Lawley-Trace sollte verwendet werden, wenn die Variablennicht korrelieren (Zar 1996).

16

Page 16

Multivariate Vergleiche: MANOVA

Voraussetzungen

- die Beobachtungen müssen unabhängig sein- Kovarianzmatrizen gleich- alle Variablen multivariat normalverteilt- Residuen normalverteilt

chisplot(residuals(<your.model>))

-Die MANOVA ist generell robust gegenüber Abweichung von dennotwendigen Testvoraussetzungen. Bezüglich der Kovarianzmatrizengilt, daß wenn die Gruppengröße der zu vergleichenden Stichprobenrelativ gleich ist (größtes n 1.5 * kleinstes n), dann habenUnterschiede zwischen den Kovarianzmatrizen nur geringe Auswirkungauf Pillais Trace. Hotelling-Lawley and Wilks werden mittelmäßig undRoy‘s Kriterium stark beeinflusst (Zar 1996).

--> Was bedeutet in diesem Zusammenhang eigentlich beeinflussen?Nun, wir wollen bei unseren Tests fast immer die Nullhypotheseverwerfen und dabei den Fehler 1.Art (Hypthese abgelehnt, obwohl sierichtig ist) minimieren. Falls die Testvoraussetzungen nicht zutreffen,kann es sein, dass wir annehmen, die Hypothese mit einerSicherheitswahrscheinlichkeit von 5% zu überprüfen (nominal), obwohlsie real höher ist, z.B. 15%.

Eine detaillierte Untersuchung der Auswirkung von Abweichungen vonden Testvoraussetzungen mit Hinweisen für Anwender gibt es vonFinch (2005), der zum Schluß kommt, dass in den meisten Fällen dieparametrische MANOVA das leistungsstärkste Verfahren ist.

17

Page 17

Klassifikation multivariater Methoden

Anhand der Methoden

Multivariate Vergleiche (Zentralmaße usw.)

Multivariate Regression und Korrelation

Klassifikation (Cluster- und Diskriminanzanalysen)

Ordination

18

Page 18

Multivariate Regression und Korrelation

..................

Var 8Var 7Var 6Var 5Var 4Var 3Var 2Var 1Response

..................

..

..

..

..

..

..

..

..

..........

..........

Response1 Response 2

..................

Var 8Var 7Var 6Var 5Var 4Var 3Var 2Var 1Response 3

..................

..

..

..

..

..

..

..

..

..........

..........

Univariate multiple Regression

Multivariate multiple Regression

Yi=

0+

kxi

(k )+ E

ik

Yi

( j )

=0

( j )

+ k

( j )

xi(k )

+ Ei

( j )

k

Aus methodischen Gründen wird die multivariateKorrelation, die auch als kanonischeKorrelationsanalyse bezeichnet wird, später (imZusammenhang mit der kanonischenKorrespondenzanalyse) behandelt.

Das Ergebnis der multivariaten Regression istidentisch mit m univariaten Regressionen (m= Anzahlder abhängigen Variablen bzw. response variablen),aber zusätzlich erhalten wir die Kovarianzmatrix derZufallsfehler und die Möglichkeit globale Hypothesenwie zum Beispiel „Eine erklärende Variable hängt mitkeiner abhängigen Variable zusammen“ zuüberprüfen.

19

Page 19

Multivariate Regression

lm()

Durchführung mit gleichem Befehl wie univariate

aber abhängige Variablen als Matrix!

lm(cbind(,..,..,) ~ ..+..+..)

lm(.. +..+..+.. ~ ..+..+..)

drop1.lml() Überprüfen, ob bestimmte Var global entfernt werden kann

summary.mreg() „nettere“ Variante der summary.lm() Funktion

Die Durchführung einer multivariaten multiplen Regression istinsgesamt identisch mit einer univariaten. Zusätzlich könnenHypothesen für alle Regressionen zusammen überprüft werden, zumBeispiel ob eine Variable niemals signifikant zur Erklärung des Modellsbeiträgt und somit entfernt werden kann.

Eine spezielle Funktion hierfür findet sich auf der Seite der ETH-Zürichvon Werner Stahel und lautet drop1.lml()

http://stat.ethz.ch/teaching/lectures/SS_2006/ams/regr.R (neben einerReihe von anderen Funktionen)

In der Funktion läuft im Endeffekt eine MANOVA für das Modell ab, d.h.die Ergebnisse sind mit einer MANOVA identisch.

20

Page 20

Multivariate Regression

Aufgaben

1. Lassen sich Uran und Aluminium durch Fe und Cuerklären? Welche erklärenden Variablen sind jeweilssignifikant?

2. Erzeugen Sie mit rnorm() eine zusätzlicheerklärende Variable und untersuchen Sie, inwieferndiese Variable signifikanten Erklärungswert hat.Vergleichen Sie dieses Ergebnis mit dem einermanova()!

drop1.mlm() summary.mreg()

Der Code für die Funktionen wird für diesen Kurs bereitgestellt ->Dokument „mvarreg.r“

21

Page 21

Multivariate Regression

- Erwartungswert von Ei = 0

- Zufallsabweichungen haben gleiche

Varianz

- Zufallsabweichungen sind normalverteilt

Modellannahmen

Identifizierbarkeit von

Residuen-plots

Quantil-Residuen-plots

plot.regr()

Die Modellannahmen für den multivariaten Fall sind Generalisierungen der Annahmenfür das univariate Modell. Sie können mit Diagrammen überprüft werden. Dabei dientdie Festlegung der ersten Annahme (Erwartungswert der Residuen = 0) derIdentifizierung der Koeffeizienten (betas), wir brauchen sie nicht näher zu betrachten.Zur Überprüfung der gleichen Varianz der Residuen können wir die Residuen gegendie angepaßten Modellwerte (fitted values) auftragen. Es sollte kein Muster in derVerteilung zu erkennen sein, also z.B. eine Zu- oder Abnahme der Abweichung. Diestandardisierten Residuen werden berechnet, indem die normalen Residuen durchden geschätzten Standardfehler geteilt werden. Sie sind damit genauso skaliert wiedie abhängige Variable und erlauben es, Punkte mit schlechtem Fit zu erkennen (ggf.Ausreißer).

Die Normalverteilung der Residuen lässt sich mit Quantil-Residuenplots überprüfen.

Außerdem interessiert auch, ob vielleicht einzelne Beobachtungen unserererklärenden Variablen einen stärkeren Einfluss haben als andere. Das kann mit demPlotten der Residuen gegen ihren Einfluss (leverage) dargestellt werden. In diesemZusammenhang muß darauf hingewiesen werden, dass einflußreiche Beobachtungennicht zwingend Ausreißer sind. Ausreißer sind Punkte, die nicht gut vom Modellerfasst werden (z.B. erkennbar in residuals vs. Fitted values plots), währendeinflußreiche Beobachtungen einen substantiellen Einfluss auf die Modellparameterhaben. Ein Punkt kann sowohl beides sein als auch nur eines der beiden Merkmaleaufweisen (oder natürlich keines).

Bei der Funktion für den multivariaten Residuen plot.regr() wird neben den üblichenModellprüfdiagrammen noch die Korrelation der verschiedenen Residuen auf dieabhängigen Variablen untersucht. Dafür dienen die Werte der Kovarianzmatrix derZufallsfehler und es lässt sich damit eine partielle Korrelation der abhängigenVariablen überprüfen. Außerdem wird noch ein Quantilplot für diezusammengefassten Residuen des Modells erstellt.

22

Page 22

Multivariate Regression

„normal“

„starke Zunahme“

„nicht-linear“

„leichteZunahme“

Wenn die Residuen nicht normalverteilt sind (Diagramm oben links)sondern abgebildete Muster aufweisen (Diagramme oben rechts undunten), deutet dies darauf hin, dass die Zielvariable ggf. transformiertoder die einzelnen Einganggrößen gewichtet werden sollten (weighted-least-squares regression).

23

Page 23

Klassifikation multivariater Methoden

Anhand der Methoden

Multivariate Vergleiche (Zentralmaße usw.)

Multivariate Regression und Korrelation

Klassifikation (Cluster- und Diskriminanzanalysen)

Ordination

Die bisherigen Abschnitte behandelten multivariate Themen, die großeÄhnlichkeit mit den entsprechenden univariaten Methodenaufwiesen. Die beiden folgenden Abschnitte beschreiten ein neuesTerrain, dass aus der univariaten Statistik nicht vertraut ist.Gleichwohl werden wir einige Techniken (multiple Regression oderANOVA) auch hier wieder antreffen.

Als erstes betrachten wir die Klassifikationsmethoden. Während manbei der Ordination versucht Entitäten entlang eines Gradienten zuplatzieren, ist das Ziel der Clusteranalyse möglichst distinkte,homogene Gruppen aus den Entitäten zu bilden.

Der Abschnitt ist unterteilt in die Cluster- und Diskriminanzanalyse.

Bei der Diskriminanzanalyse beginnen wir a priori mit Gruppen undsuchen Variablen, mit denen die Gruppen unterschieden werdenkönnen, während wir bei der Clusteranalyse nur die Existenz vonGruppen vermuten und diese erst „erstellen“. Es ist möglich, zuersteine Clusteranalyse auszuführen und die aufgestellten Gruppendann als Ausgangspunkt einer Diskriminanzanalyse zu verwenden.

24

Page 24

Clusteranalysen

-Suche nach homogenen Gruppen

-Möglichst großer Unterschied zu anderen Gruppen

Im Diagramm links können wir für den bivariaten Fall distinkte Gruppenerkennen, während das im Diagramm rechts nicht möglich ist.

Beispiele, wo eine Clusteranalyse hilfreich sein könnte:

- Bildung von Ländergruppen anhand der vorhergesagtenAuswirkungen des Klimawandels

- Gruppierung von Stoffen mit ähnlicher Toxizität für einen bestimmtenTestorganismus

Während im bivariaten Fall die Cluster im Scatterplot erkannt werdenkönnen (siehe Diagramm links), empfehlen sich Clusteranalysengerade im multivariaten Fall, da die Visualisierungsmöglichkeit vonmehr als 3 Dimensionen begrenzt ist (allerdings versucht man genaudies mit Ordinationsmehtoden, zu denen wir später kommen).

Natürlich gibt es auch Cluster, die weniger eindeutig sind, eine netteÜbersicht findet sich in Mc Garigal (2000, S. 87).

25

Page 25

Clusteranalysen

-Datenaggregation -> verringern von „noise“

-Identifizieren von Ausreißern

-Beziehung zwischen Variablen visualisieren

Anwendungen

Clusteranalysen können auch verwendet werden, um Ausreißer zuidentifizieren. So könnte das Cluster rechts (blau) auch ohne denMesswert bei 160 cm gebildet werden und dieser Punkt würde dann einCluster mit nur einer einzelnen Beobachtung bilden.

Die Beziehung zwischen Variablen können in einerVariablenclusteranalyse visualisiert werden. Ausgangspunkt ist dieKorrelationsmatrix der Variablen.

26

Page 26

Clusteranalysen

Hauptproblem: viele verschiedene Möglichkeiten

5080140124

402012093

16010622

3090011

Art DArt CArt BArt AStelle

Im folgenden wird das Hauptproblem der Clusteranalyse immultivariaten Fall dargestellt: In Abhängigkeit von der Gewichtung dereinzelnen Variablen, kann man unterschiedliche Cluster bilden.

27

Page 27

Clusteranalysen

Hauptproblem: viele verschiedene Möglichkeiten

5080140124

402012093

16010622

3090011

Art DArt CArt BArt AStelle

28

Page 28

Clusteranalysen

Hauptproblem: viele verschiedene Möglichkeiten

5080140124

402012093

16010622

3090011

Art DArt CArt BArt AStelle

Ergebnis der Analyse hängt von Technik ab

29

Page 29

Clusteranalysen

McGarigal (2000, p.90)

Abbildung aus Mc Garigal (2000, S. 90). Die gestrichelten Pfeileindizieren weniger relevante Techniken für die umweltwissenschaftlicheoder ökologische Clusteranalyse.

Sequential vs. Simultaneous: Bei sequenziellen Methoden werdenrekursive Operationen wiederholt ausgeführt und die Cluster werdenschrittweise gebildet. Bei simultanen Methoden wird in nur einemSchritt die Gruppenzugehörigkeit bestimmt.

Nonhierarchical vs. Hierarchical: Bei nicht-hierarchischen Technikenwerden z.B. k Cluster gebildet, die möglichst homogene Einheitenbeinhalten, während bei hierarchischen Clustern eher der Unterschiedund die Verhältnisse zwischen den Clustern von Interesse sind.

30

Page 30

Clusteranalysen

Gruppenbildung basiert auf Distanz oder Ähnlichkeiten

Distanzmaße:

Euklidische Distanzdij2= (x j1 xi1)

2+ (x j2 xi2 )

2i

j

dij = (xik x jk )2

k=1

n

dij = xik x jkk=1

n

Manhattan Distanz

Bray-Curtis Distanz

dij =

xik x jkk=1

n

(xik + x jk )k=1

n

Das Zusammenfassen von Entitäten zu Gruppen bzw. Clustern beruhtauf der Distanz zwischen den Entitäten. Es gibt viele verschiedeneTechniken, um die Distanz zwischen zwei Entitäten zu bestimmen.

Die euklidische Distanz wird durch die Variablen mit den größtenAbweichungen dominiert. Bei der Manhattan Distanz wird diesesGewicht etwas abgeschwächt. Die Bray-Curtis Distanz reagiert starkauf Extremwerte und hat die schöne Eigenschaft nur Werte zwischen 0und 1 anzunehmen, falls alle Werte für x positiv sind.

Es gibt noch eine ganze Reihe weiterer Distanzmaße auf die hier nichteingegangen werden kann, die aber auch in R implementiert sind. Alswichtige Maße sind noch der Jacquard-Index oder die Canberra-Distanz (eng verbunden mit der Bray-Curtis Distanz) sowie dieMahalanobis-Distanz (Beachte die Ähnlichkeit zur Berechnung vonHotellings T2) zu nennen.

Funktionen für Distanzmaße in R finden sich in den Funktionen: dist(),mahalanobis() und vegdist(){vegan}. Sie sind dort ausführlichbeschrieben. Desweiteren wird eine Funktion zur Berechnung derMahalanobis-Distanz zwischen Matrizen bereitgestellt.

31

Page 31

Clusteranalysen

Visualisierung mit 2 Arten

Art A

Art B

Stelle 1

Stelle 3

Stelle 2

Stelle 4

Distanzen dij zwischen der Stelle 1 und dem Rest

In dem Diagramm wird für den Fall von nur zwei Variablen (Art A undArt B) visualisiert, was die Distanz zwischen den verschiedenenEntitäten (Stellen in diesem Fall) bedeutet.

32

Page 32

Clusteranalysen

Aufgabe

Veranschaulichen Sie sich die Unterschiede in denDistanzmaßen unter Berechnung der Euklidischen,Manhattan, Bray-Curtis und Mahalanobis-Distanz fürfolgende Matrix:

Art

Abundanz

Stelle

Für die Berechnung der Mahalanobis-Distanz wird die Inverse derVarianz-Kovarianz-Matrix benötigt. Wie schon vorher erwähnt, existiertnicht für jede Matrix eine Inverse. Allerdings gibt es die Möglichkeit,Matrizen in andere Matrizen zu überführen, mit denen dann die Inverseberechnet werden kann (Einzelwertzerlegung, bei näherem Interessesiehe http://en.wikipedia.org/wiki/Singular_value_decomposition). Dabeikönnen die Elemente der Inversen allerdings auch negative Werteannehmen, was zu Problemen bei der Berechnung der Mahalanobis-Distanz führt. Deswegen verwenden wir den absoluten Wert derInversen-Matrix.

Bei den Berechnungen fällt auf, daß besonders die euklidische Distanzhohe Unterschiede zwischen den Stellen hervorbringt. Arten mitgeringer Abundanz fallen kaum ins Gewicht, d.h. Art 1 dominiert dieBerechnung der Distanzen zwischen den Stellen. Aus diesem Grundwerden die Variablen bei Verwendung der euklidischen Distanz häufigstandardisiert. Dabei wird der geschätzte Mittelwert abgezogen unddurch die Standardabweichung geteilt. Dies ist in R mit der Funktionscale() implementiert. Desweiteren gibt es die Möglichkeit Distanzenmit dsvdis(){labdsv} zu berechnen und dort Gewichtungen nach Artenvorzunehmen.

Die Mahalanobis-Distanz beruht auf der Kovarianzmatrix und wirddurch Standardisierung der Variablen nicht beeinflusst.

33

Page 33

Clusteranalysen

Hierarchisches Clustering: Agglomerationsmethoden

1. Suchen nach der geringsten Distanz

Abbildung aus Mc Garigal (2000, S. 102)

Die am häufigsten verwendete Methode in der Clusteranalyse ist dashierarchische Clustering mit der Agglomerationsmethode. Bei derAgglomeration bilden am Anfang alle Entitäten ein separates Clusterund werden in Abhängigkeit von ihrer Ähnlichkeit zu größeren Clusternverschmolzen. Im Gegensatz dazu stehen divisive Methoden, die miteinem Gesamtcluster beginnen und daraus neue, kleinere Clusterabspalten.

34

Page 34

Clusteranalysen

Hierarchisches Clustering: Agglomerationsmethoden

2. Berechnung der neuen Distanzen und wiederholen von Schritt 1

Abbildung aus Mc Garigal (2000, S. 102)

Ein wichtiges Unterscheidungsmerkmal beim Clustering stellt dieMethode dar, nach der die neuen Distanzen im Clusterprozess neuberechnet werden.

35

Page 35

Clusteranalysen

Hierarchisches Clustering: Agglomerationsmethoden

Abbildung aus Mc Garigal (2000, S. 106)

Die Methoden lassen sich in 3 Gruppen einteilen:

Space-conserving: die ursprünglichen Distanzen der Entitäten werdenkonserviert -> hohe Korrelation zwischen den ursprünglichen Distanzenund den Distanzen nach der Agglomeration (die sich in derkophenetischen Matrix befinden). Methoden dieser Gruppe werdenverwendet, wenn es darum geht, die Eigenschaften der Eingangsdatenbeizubehalten. (Methoden sind z.B. „Average linkage“ oder „Ward‘s“)

Space-contracting: Bei diesen Methoden werden Entitäten eher zubestehenden Clustern hinzugefügt, auch wenn die Entitäten in denClustern dadurch näher zusammenrücken als es bei denAusgangsdaten der Fall war. Dieses Verfahren ist hilfreich um größereDiskontinuitäten in den Daten zu detektieren. (Mehtode z.B. „Singlelinkage“)

Space-dilating: Bei diesen Methoden werden die Abstände zwischenden Entitäten der Cluster minimiert. Das heißt es werden Cluster mitmöglichst homogenen Mitgliedern gebildet. Das Verfahren kann dazugenutzt werden, um Entitäten mit möglichst ähnlichen Eigenschaftenzusammenzufassen (Methode z.B. „Complete linkage“).

36

Page 36

Clusteranalysen

Single-linkage

Complete-linkage

Average linkage

hclust()

cophenetic()

Ergebnismatrix der Clusterbildung

Clusterfunktion

Visualisieren von Clustern

rect.hclust()

Festlegen von Clustern

cutree()

Abbildung aus Everitt (2005, S. 119)

In R können mit der Funktion hclust() für Dissimilaritätsmatrizen, dievorher mit dist() oder ähnlicher Funktion erzeugt wurden,Clusteranalysen durchgeführt werden. Die Methoden werden jeweilsmit method = „...“ spezifiziert und es stehen folgende Methoden zurAuswahl: „ward", "single", "complete", "average","mcquitty", "median" or "centroid“. Die Methode Ward‘sminimum-variance ähnelt dem average linkage-Verfahren, allerdingswird nicht die mittlere Distanz zwischen den Clustern minimiert,sondern die quadrierte Distanz, gewichtet nach der Clustergröße.Dadurch werden die Clustergrenzen enger gesetzt als bei der „average-linkage“ Methode.

37

Page 37

Clusteranalysen

hclust() cophenetic()

Aufgabe

1. Laden Sie die Daten „varespec“ im vegan-Package und führen Sie folgende Clusteranalysendurch: - single und complete linkage

unter Nutzung der Bray-Curtis undEuklidischen Distanz.

2. Wie hoch sind die Übereinstimmungen zwischenden Eingangs-Distanzmatrizen und denkophenetischen Matrizen?

rect.hclust()

cutree()

plclust()

Mit der Funktion rect.hclust können in bestehenden Clusterplots Clustervisualisiert werden. Dies kann anhand des maximalen Abstands(Entfernung der Cluster) oder durch Festlegen einer definierten Anzahlvon Clustern geschehen. Ähnliches gilt für die Funktion cutree(). Weistman den labels in einem plot mit plclust() das Ergebnis von cutree zu,wird die Zugehörigkeit der einzelnen Entitäten im Plot visualisiert.

38

Page 38

Clusteranalysen

In den Diagrammen sind die Ergebnisse der Clusterlösungen mit demBray-Curtis-Index für die single- (linke Abbildung) und complete linkage(rechte Abbildung) Methode gegenübergestellt. Dabei werden dieUnterschiede zwischen den Methoden deutlich. Wir haben weitentfernte und kleine Cluster beim „complete linkage“ gegenüber großenund nahen Clustern bei der single linkage.-Methode (beachte auch dieSkala!).

39

Page 39

Clusteranalysen

Hierarchisches Clustering: Agglomerationsmethoden

Divise Methode

diana() {cluster}

Clustern von Variablen

varclus() {Hmisc}

Das Hauptargument für das trennende (divisive) Clustering bestehtdarin, dass möglicherweise das Rauschen einzelner Variablen beiAggregation verringert wird. Dieses Argument beruht auf der Annahme,das kleine Distanzen zwischen Entitäten eher auf zufälliges Rauschenzurückzuführen sind, während große Distanzen reale Gradientensignalisieren.

Im Diagramm ist das Ergebnis eines Variablen-Clusterings dargestellt,dass für ca. 30 Umweltvariablen unter Wahl der Spearman-Korrelationals Distanzmaß durchgeführt wurde. Die Funktion varclus befindet sichim Package Hmisc, das Diagramm wird mit der normalen plot()-Funktion erzeugt.

40

Page 40

Clusteranalysen

Nicht-hierarchisches Clustering

Problem:

10685100

690,223,721,118,368,580825

45,232,115,901420

2,375,101315

Anzahl möglicher Partitionenkn

Algorithmus: 1. Aufteilung in k Gruppen2. Bewegen der Einheiten und Veränderung berechnen3. Beste Lösung wählen4. Wiederholen von 2 und 3 bis Clusterkriterium keine

Verbesserung mehr anzeigt

Neben den hierarchischen gibt es auch nicht-hierarchischeClustermethoden, bei denen der Datensatz in eine a priori definierteAnzahl von Gruppen aufgeteilt wird. Diese Methide wird auch als k-Mittelwerte- (k-means) Clustering bezeichnet.

Das größte Problem stellt die hohe Anzahl von möglichen Clustern dar(siehe Tabelle - Kommas zeigen 1000er Stellen an). Als Gütekriteriumfür die bessere Clusterlösung wird am häufigsten die Summe derAbweichungsquadrate (vgl. euklidische Distanz) innerhalb derverschiedenen Cluster verwendet. Da es extrem viele Möglichkeiten derPartitionierung gibt, ist nicht gewährleistet, dass jeweils die besteLösung gefunden wird. Der Algorithmus zum Auffinden dieser Lösungbeginnt mit dem zufälligen Einteilen in die gewünschte Anzahl vonGruppen. Als Ausgangspunkt könnte aber auch das Ergebnis einervorhergehenden hierarchischen Clusteranalyse verwendet werden.

41

Page 41

ClusteranalysenNicht-hierarchisches Clustering

kmeans() {stats} Bildung von k Clustern

Mit kmeans() lassen sich nicht-hierarchische Clusteranalysendurchführen. kmeans gibt die Zugehörigkeit der Zeilen der Matrix zuden entsprechenden Clustern aus (Komponente „cluster“), die Größeder Cluster („size“), die Abweichung innerhalb der Cluster („withinss“)und die Clustermittelpunkte. Das Diagramm veranschaulicht dieClusterlösung für eine Variable.

42

Page 42

Clusteranalysen

Aufgabe

Öffnen Sie die R Datei „Kmeans“ und folgen Sie denAnweisungen im Text. Was ist auf dem Plot zusehen?

Wieviele Cluster sind optimal?

pam() {cluster} Eigene Distanzmatrix kann verwendet werden

clara() {cluster} Große Datensätze

Mclust() {mclust} Modellbasiertes Clustering

Neben der dargestellten Funktion für nicht-hierarchische Clusteranalysen gibt es nochpam(). Hier können eigene Distanzmatrizen verwendet werden und die Funktion istetwas robuster, da sie die Summe der Distanzen minimiert anstelle der quadrierteneuklidischen Abstände. Ferner werden noch neue Grafiken bereitgestellt.

Für große Datensätze sollte die Funktion „clara“ verwendet werden. Was „klein“ und„groß“ ist, hängt von der Anzahl der Variablen und Observationen sowie derRechnerleistung ab.

Die bisher betrachteten Herangehensweisen waren eher heuristisch, es gibt aberauch die Möglichkeit modellbasiert Clusteranalysen vorzunehmen. Darauf kann andieser Stelle nicht näher eingegangen werden, es soll aber auf das Package „mclust“verwiesen werden sowie die Website von Chris Fraley vom Department of Statisticsan der University Washington: http://www.stat.washington.edu/fraley/ Dort finden sichviele Ressourcen zum Thema „modellbasierte Clusteranalysen“, Fraley ist zudemMitautor von R-Packages in diesem Gebiet.

43

Page 43

Clusteranalysen

Bewertung der Ergebnisse

- Daten oder Variablensplitting

- Überprüfen der Clusterlösungen

Nachteile von Clusterverfahren

- Tendenz für bestimmte Cluster (sphärische)

- Beurteilung der Ergebnisse

- „mehr Kunst als Wissenschaft“

Die Clusterlösungen können zum einen visuell als auch mit Hypothesentests überprüftwerden. Visuell haben wir schon den Screeplot kennengelernt. Für dieHypothesentests gibt es unterschiedliche Maße wie das kubische Cluster Kriterium,die pseudo r2 und pseudo F-Statistik. Da diese Maße die multivariateNormalverteilung der Clusterlösungen als Voraussetzung haben, sollten sie nur alsHilfe dienen und nicht als objektives Entscheidungskriterium herangezogen werden(im R Package fpc finden sich Möglichkeiten zur Berechnung dieser Maße).Außerdem beziehen sich die Maße meist auf nur einen Schritt bei der Clusterbildungund sie sind deswegen sehr rechenaufwändig (es werden so lange Cluster gebildet,bis die Nullhypothese, dass die beiden Entitäten ungleich sind, nicht mehr widerlegtwerden kann).

Clustermethoden haben zum Teil Probleme, nicht-sphärische Cluster zu erkennen,deswegen sollten mehrere Methoden parallel für eine Datenanalyse verwendet unddie Robustheit der Resultate kritisch analysiert werden.

Aufgrund der Probleme mit den Indikatoren für die Clusterbewertung bleibt dieAnalyse teilweise subjektiv. Und da schließlich viele Methoden und Funktionen zurVerfügung stehen, kann sie leicht „mißbraucht“ werden und wird z.B. bei McGarigal(2000) mehr als Kunst denn Wissenschaft bezeichnet.

Nichtsdestotrotz ist sie ein sehr wertvolles Werkzeug für die explorativeDatenanalyse.

44

Page 44

Diskriminanzanalysen

Vorhersage von Gruppen anhand von Variablen

Gradient mit max. Varianz zwischen Gruppen und minimal

in Gruppen

Reduziert die Dimensionalität multivariater Datensätze

-> kanonische Funktion

Die Diskriminanzanalyse (DA) hat zum Ziel, die Einteilung von a prioridefinierten Gruppen anhand von Variablen zu erklären (kanonischeDiskriminanzfunktion) - und damit im zweiten Schritt die Zugehörigkeitvon Entitäten anhand der gemessenen Diskriminanzvariablevorhersagen zu können (klassifikatorische Diskriminanzfunktion).

Die a priori definierten Gruppen können natürlich auch das Ergebniseiner Clusteranalyse sein. In der Diskriminanzanalyse würde dannversucht mit Variablen die Klassifikation zu erklären.

45

Page 45

Mathematische Grundlagen II

Idee: Überführen der Matrix mit den beobachtetenVariablen in eine mit linear unabhängigen

a11

K a1n

M O M

am1

L amn

1K 0

M O M

0 Ln

Ziel

Eigenwertproblem: x

r= x

r

Für die Berechnung der Diskriminanzfunktion benötigt man im multivariaten FallDeterminanten, Eigenwerte und Eigenvektoren.

Die Determinante ist eine spezielle Funktion, die jeder n x n Matrix eine eindeutigeZahl zuweist. Wenn die Determinante 0 ist, bedeutet dies, dass mindestens eine Zeileder Matrix nicht linear unabhängig - also redundant ist. Die Determinante erhält manin R mit det().

Über die Lösung des (speziellen) Eigenwertproblems erhält man die Eigenvektorenund Eigenwerte zur Matrix A. Dabei ist wichtig zu erkennen, dass dasEigenwertproblem auch als lineare Abbildung f(x) = lambda*x geschrieben werdenkann und dieser Vektor x dann nur durch den Faktor lambda gestreckt wird für allef(x).

Die Matrix mit den Eigenwerten wird auch als kanonische Form bezeichnet, daherkommt die Bezeichnung für viele Verfahren (kanonische Korrespondenzanalyse,kanonische Korrelation usw.).

Natürlich haben wir es in der Realität selten mit dem Fall zu tun, dass die Matrixquadratisch (n x n) ist. Allerdings gelangt man auch über Singularwert-zerlegung(Spezialfall der Schur-Zerlegung) zu Eigenwerten. Dies ist in R mit svd()implementiert.

46

Page 46

Mathematische Grundlagen II

1 3 1

0 1 2

1 4 1

Beispiel:EW Berechnung

nach Sarrus

33

24 = 0

Charakteristisches Polynom

Eigenwerte: 4; 0 und -1 Matrix der Eigenvektoren:

1 7 2

2 2 1

3 1 1

47

Page 47

Diskriminanzanalyse

z = a1x1+ a

2x2+ ...+ a

qxq

Mehr Variablen:

Abbildung aus Legendre (1998, S. 619)

Das Diagramm beschreibt die Visualisierung einer Diskriminanzanalyseim bivariaten Fall, wo A und B aufgrund von x1 und x2 unterschiedenwerden sollen. Dies gelingt durch die Linearkombination von x1 und x2.Hier wird deutlich, dass die univariate Untersuchung der Trennleistungaufgrund der Variablen in die Irre geführt hätte.

Für mehr Variablen verwendet man die erweiterte Funktion mit qUmweltvariablen und den dazugehörigen Koeffizienten (a).

48

Page 48

Diskriminanzanalyse

1. Schritt: Berechnen der Abweichungsquadratezwischen und innerhalb der Gruppen

Bei der Diskriminanzanalyse geht es darum, die Abweichungenzwischen den Gruppen gegenüber denen innerhalb der Gruppen zumaximieren.

Dabei ist W1 bis Wg die jeweilige Abweichung innerhalb der Gruppeund B ergibt sich aus T - W. Die Abweichungen werden jeweils geteiltdurch die Anzahl der Beobachtungen (n) oder der Gruppen (g).

49

Page 49

Diskriminanzanalyse

2. Schritt: Maximieren von M

M =a 'Aa

a 'Va(V

1A

kI )a

k= 0 (A

kV )a

k= 0

Normalisierung der EV

normalisiertnicht-normalisiert

Von M gelangen wir durch Ableitung der Lagrangefunktion L(lambda, a)nach a zu dem bekannten Eigenwertproblem.

Die berechneten Eigenvektoren werden normalisiert, damit die within-group Abweichungen für alle Eigenvektoren gleich sind (sie hängenansonsten von der Messskala der Variablen ab). Die so normalisiertenEigenvektoren spannen den kanonischen Raum der DA auf.

Abbildungen aus Legendre (1998, 622)

50

Page 50

Diskriminanzanalyse

3. Schritt: Berechnung der Position der Gruppen

z = a1(x1

x1) + a2 (x2 x2 ) + ...+ aq (xq xq )

Kanonische Diskriminanzfunktion

Gruppenzuordnung mit 2 Gruppen:

z >(z1+ z

2)

2; mit z

1> z

2

Nun können wir mit den Eigenvektoren (identisch mit den Koeffizienten a) die Positionder Objekte im kanonischen Raum berechnen. Die Funktion wird kanonischeDiskriminanzfunktion genannt. Kanon stammt aus dem Griechischen und läßt sich inetwas übersetzen als „das grundlegendste zu dem sich ein Objekt ohne Verlust vonallgemeiner Aussagekraft zusammenfassen läßt“.

Die klassifikatorische Diskriminanzfunktion ergibt sich aus ihr, wenn man die nichtzentrierten Werte der Deskriptoren (Umweltvariablen) verwendet. Zu welcher Gruppeein neues Objekt gehört kann entweder grafisch oder mathematisch (scores, Abstandvon den Mittelpunkten der Gruppen o.ä.) geschlossen werden. Im Fall mit 2 Gruppengehört ein neues Objekt zur Gruppe 1, wenn der z-Score größer ist als die Summeder Mittelwerte der z-scores beider Gruppen, dividiert durch 2 (und z1 > z2). Der Fallmit mehreren Gruppen wird hier nicht näher besprochen, die Regel dafür und dieHerleitung findet sich z.B. in Johnson & Wichern (2002, S.628ff).

Die Bewertung der Güte der Diskriminanzfunktion kann anhand der richtigklassifizierten Objekte erfolgen.

Beachte, dass es für jeden Eigenwert einen entsprechenden Eigenvektor und einekanonische Diskriminanzfunktion gibt. Im Fall von nur zwei Variablen oder nur 2-3Gruppen, gibt es jedoch maximal zwei Diskriminanzfunktionen.

51

Page 51

Diskriminanzanalyse

Aufgabe

1. Berechnen Sie die Diskriminanzfunktion für dieBodendaten bzgl. der Gruppierung in Typ 1und 2!

2. Bestimmen Sie die Zugehörigkeit einer neuenProbe!

13769,5127140,5171

UAlNiFeCu

3. Wie hoch ist die Mißklassifizierungsrate?

lda() {MASS}

predict()

predict(your.object, method=„plug-in“)$class

table(...,Type)

Tips:

Bei der Funktion lda() muß nur die Formel eingegeben werden, alleweiteren Funktionen sind für uns in diesem Kurs nicht von Belang.

Bei der Funktion predict() ist es äußerst wichtig, dass die neuen Datenals data.frame mit den Namen der Spalten eingelesen werden.

52

Page 52

Diskriminanzanalyse

Voraussetzungen

- Beobachtungen müssen unabhängig sein

- Kovarianzmatrizen gleich (von allen Gruppen)

- Daten aller Gruppen multivariat normalverteilt

- Variablen nicht multikollinear

- Linearer Gradient der Variablen

- Stichprobengröße: jede Gruppe N 3P

Anmerkungen zum Punkt „Variablen nicht multikollinear“:

Sind Variablen eng korreliert (r > 0.7) oder lassen sich einzelneVariablen als Linearkombination von anderen darstellen, kann darauseine singuläre Matrix folgen, was mathematisch Probleme bereitet.Ferner ist die Interpretation der diskriminatorischen Funktion schwierig,wenn verschiedene Variablen zusammen auf die kanonische Funktionwirken. Eine Möglichkeit mit Kollinearität umzugehen ist, in einerunivariaten ANOVA zu prüfen, welcher F-Wert der betreffendenVariablen am größten ist und die anderen (interkorrelierendenVariablen) aus dem Datensatz zu entfernen.

53

Page 53

Diskriminanzanalyse

1. Test der Variablen auf Unterschiede bezüglich derGruppen (analog zu ANOVA oder MANOVA)

2. Analog zur multiplen Regression wird Zusammenhangzwischen Y (Diskriminante) und mehreren X hergestellt

Ähnlichkeiten zu bisherigen Verfahren:

Probleme der Diskriminanzanalyse

- wichtige Gradienten, die nicht gemessen wurden

- Überprüfung mit neuen Daten

- kein Konsens über Anzahl kanonischer Funktionen

Der Unterschied zur MANOVA besteht darin, dass bei der MANOVA dieNullhypothese: „Alle Gruppen sind gleich“ getestet wird.

Zur Multiplen Regression besteht der Unterschied darin, dass dieabhängige Variable (z) kategorisch ist.

Ob nur die kanonischen Funktionen behalten werden sollten, diesignifikant sind oder nur solche, die eine sachliche Bedeutung haben istumstritten.

54

Page 54

Klassifikation multivariater Methoden

Anhand der Methoden

Multivariate Vergleiche (Zentralmaße usw.)

Multivariate Regression und Korrelation

Klassifikation (Cluster- und Diskriminanzanalysen)

Ordination

Ordinationsverfahren bilden einen der wichtigsten Punkte bei denmultivariaten Verfahren und es gibt eine ganze Reihe vonverschiedenen Techniken. Gemeinsam ist ihnen, dass versuchtwird, die Komplexität oder Beziehungen zwischen den Daten visuellim niedrigdimensionalen Raum darzustellen.

55

Page 55

Ordinationsmethoden: Einleitung

Given the possible choices among these ordinationmethods, it is difficult to determine how much of thevariation attributed to environmental factors is actuallydue to the choice of ordination (Jackson, 1993)

Mit den leistungsfähigen Rechnern und der verfügbaren Software ist esheutzutage recht einfach Ordinationen durchzuführen. Darunterleidet zum Teil aber die Qualität, wenn man mancheVeröffentlichungen anschaut. Das kommt auch daher, dass es keinestrikte Methoden oder Entscheidungsregeln zur Durchführung derAnalysen gibt.

56

Page 56

Ordinationsmethoden: Einleitung

• versuchen wichtige Gradienten aus den Daten zuextrahieren

•„unconstrained“: Extraktion ohne Berücksichtigungvon Variablen außerhalb des Sets

•„constrained“: Extraktion von Gradient der direkt vonVariablen des zweiten Sets abhängt

• Lineare vs. Nicht-lineare Ordination

• Seit 60er-70er Jahre PCA, CA, MDS

• Mitte der 80er „Revolution“ mit CCA

Auch bei der „unconstrained“ Ordination kann im Nachhinein versuchtwerden, Variablen an die Gradienten der Ordination anzupassen.Demgegenüber werden bei der „constrained“ ordination nurGradienten extrahiert, die in beiden Matrizen vorhanden sind.

57

Page 57

Ordinationsmethoden: PCA

Die Mutter aller Ordinationsmethoden....

x1

x2

PCA 1PCA 2

y1= a

1x1+ a

2x2+ ...+ a

qxq

Allgemeine Gleichung für die 1. Achse:

Die PCA kann man sich vorstellen als ein Koordinatensystem dass indie Mitte der Datenpunkte gelegt wird mit linear unabhängigenAchsen. Die Achsen werden dann so lange rotiert, bis die 1. Achsedie maximale Varianz erklärt, die 2. Achse die höchste verbleibendeVarianz usw. Es gibt genauso viele Achsen wie Variablen.

Die Hoffnung dabei ist, dass die ersten Achsen einen großen Anteil derGesamtvarianz erklären. Die Daten werden vor der Analyse zentriert(Mittelwert subtrahiert), um die Interpretation zu erleichtern.

58

Page 58

Ordinationsmethoden: PCA

Daten

Zentrieren führt zu

Gesucht ist Maximum für:

Wir entwickeln die Methode anhand eines Beispiels, dass Handl (2002)entnommen ist.

Wichtig ist auch zu erkennen, dass die PCA auf der euklidischenDistanz beruht.

59

Page 59

Ordinationsmethoden: PCA

Gesucht ist Maximum für:

a1

2+ a

2

2= 1mit

Allgemein:

max(aVar(X)) max(a ' a) mit a 'a = 1

Wir verwenden die Lagrangefunktion:

Die partiellen Ableitungen lauten:

a = a

Die Darstellung hier erfolgt mit der bekannten Varianz-KovarianzmatrixSigma. In der Praxis müssen wir diese Matrix meist schätzen undverwenden S. Werden die Daten vor der Analyse standardisiert(durch Varianz geteilt) rechnet man mit der Korrelationsmatrix R.Standardisieren hat zur Folge, dass alle Variablen mehr oderweniger die gleiche Relevanz bekommen (z.B. sinnvoll fürArtenmatrizen oder wenn die Variablen sehr unterschiedlich skaliertsind).

Da wir die Varianz künstlich beliebig hoch treiben könnten, normierenwir die Koeffizienten der Linearkombination.

Nach einer Reihe von Schritten landen wir wieder bei unseremEigenwertproblem!

60

Page 60

Ordinationsmethoden: PCA

Welcher Eigenvektor erklärt die größte Varianz?

Der Eigenvektor der zum höchsten Eigenwert gehört!

61

Page 61

Ordinationsmethoden: PCA

Ladung der Variablen auf den neuen Achsen

- wenn standardisiert Korrelation proportional,ansonsten vom Skalenniveau beeinflusst:

rxi yj

=

aij j

si

und rxi y j

= aij j

nicht-standardisiert standardisiert (da s=1)

verschiedene Methoden um Signifikanz festzustellen:-Faustregeln (±0.3 signifikant, ±0.40 wichtig, 0.5 sehr wichtig-Regeln basierend auf Datensätzen

-Permutationstests

Im Fall, dass wir die standardisierten und zentrierten Variablenverwendet haben (Korrelationsmatrix) ist die Korrelation vonVariablen mit den Hauptkomponentenachsen proportional zumGewicht der einzelnen Variablen auf der jeweiligen Achse.

r: Korrelation zwischen Achse j und Variable X; a = Ladung auf Achse j;lamdba: Eigenwert; s = Standardabweichung von X

62

Page 62

Ordinationsmethoden: PCA

Wieviele Achsen braucht man?

i

i=1

r

j

j=1

p

1. Summenkriterium 2. Mittelwertkriterium

ra1

pi

i=1

p

3. Screeplot 4. Broken-Stick Kriterium

i>1

p

1

ii=1

p

Für das Summenkriterium wird typischerweise ein alpha mit einem Wertzwischen 0.7 und 0.9 gewählt.

Weiterhin kann man auch das Mittelwertkriterium anlegen und nur dieHauptkomponenten verwenden, deren Eigenwert größer als dermittlere Eigenwert ist (bzw. als a * mittlerer Eigenwert).

Ferner haben wir schon den Screeplot im Zusammenhang mit derClusteranalyse kennengelernt.

Die Broken-Stick Methode stellt eine der besten Lösungen dar. DerName leitet sich von der Idee ab, dass wir Punkte (in diesem Falldie Eigenwerte) auf einem virtuellen Stock markieren und schauen,wieviele Punkte sich auf dem Teil i des Stockes vorfinden, wenn erp mal zerbrochen wurde (im vorliegenden Fall die Anzahl derVariablen). Praktisch sollte der i-te Eigenwert größer sein als derWert nach dem Broken-Stick-Modell da er sonst auch zufällig seinkönnte.

63

Page 63

Ordinationsmethoden: PCA

Aufgaben

1. Führen Sie die Befehle in der Datei PCA aus undbetrachten Sie die Ergebnisse!

2. Was ändert sich, wenn man die PCA nicht-skaliertdurchführt?

3. Was ändert sich, wenn man Chicago als Ausreißerentfernt?

Die PCA-Datei wird im Kurs gestellt. Am vorliegenden Beispiel zeigtsich, dass die PCA auch genutzt werden kann, um die Zahl derVariablen vor weiteren Analysen zu verringern. Vorsicht ist jedochgeboten, falls sich die einzelnen Achsen nicht gut interpretierenlassen.

Weitere Befehle um eine PCA durchzuführen gibt es in folgendenPaketen: pca.dudi() {ade4}, pca() {labdsv}, prcomp(), rda(){vegan}

Auf die Unterschiede kann hier nicht näher eingegangen werden.Generell ist aus Gründen mathematischer Präzision prcomp() derFunktion princomp() vorzuziehen, da sie auf dieSingularwertzerlegung für die Eigenwertberechnung zurückgreift.

64

Page 64

Ordinationsmethoden: PCA

Voraussetzungen

- Beobachtungen müssen unabhängig

sein

- multivariate Normalverteilung

- keine gravierenden Ausreißer

- Linearer Gradient der Variablen

- Stichprobengröße: jede Gruppe N 3P

Tests zur Überprüfung der multivariaten Normalverteiung haben wir schonkennengelernt (Quantil-Quantil-plot und den multivariaten Shapiro-Wilk Test).

Ausreißer können die Ergebnisse stark beeinflussen, weil sie zu einer höherenVarianz führen. Allerdings sind nicht alle Ausreißer auf ungewöhnliche Meß- oderUmweltbedingungen zurückzuführen, sondern sie können im Gegenteilökologisch bzw. für die Untersuchung extrem bedeutsam sein. Mac Garigal (2000,S.31) empfehlen in jedem Fall vor einer PCA ein Ausreißer-Screeningdurchzuführen. Entweder indem die Daten zentriert und standardisiert werden(Mittelwert subtrahieren und durch Varianz dividieren), um dann nachBeobachtungen zu suchen, die mehr als 2.5 Einheiten vom Mittelwert entferntsind. Oder durch Betrachten der univariaten Plots für alle Variablen.

Die wichtigste Voraussetzung ist ein linearer Gradient zwischen den Objekten(einzelnen Beobachtungen). Trifft sie nicht zu, kann es zu erheblichen Fehlernkommen (bzgl. Der Position der Beobachtungen). Vergleich hierzu das Beispiel inder Datei „horseshoe.r“ in der anschaulich dargestellt wird, wie sich unimodaleGradienten auf die PCA auswirken. Nicht-Linearität kann überprüft werden, indemman die Scatter-plots aller Hauptkomponenten miteinander betrachtet. Ferner gibtes die Möglichkeit mit anderen Verfahren den Gradienten zu berechnen (dazuwerden wir später noch kommen).

Bei der Stichprobengröße gilt als Richtwert, dass mindestens 3 Mal so vieleBeobachtungen wie Variablen vorhanden sein sollten. Absolutes Minimum ist diegleiche Anzahl von Beobachtungen und Variablen.

65

Page 65

Ordinationsmethoden: PCA

Grenzen der Hauptkomponentenanalyse

- wichtige Gradienten, die nicht gemessen wurden

- Linearität, nur für enge Gradienten in Ökologie

- Zufügen von noise-Variablen erhöht Varianzanteil auf

erster Achse, hat aber keine reale Erklärungskraft

- euklidische Distanz verursacht Verzerrungen bei „double-

zeros“

Die Verzerrung durch die euklidische Distanz spielt insbesondere in derÖkologie eine Rolle: Hier beobachtet man oft nur einige Arten proStelle, alle anderen Arten bekommen die Abundanz 0. Wenn nun anzwei Stellen keine gleichen Arten beobachtet wurden aber diegleichen Arten abwesend waren, sind diese Stellen sich ähnlicher,als andere, die gleiche Arten haben, sich aber in ihren Abundanzenunterschieden. Zum besseren Verständnis sollte man die Datei„double-zeros.r“ ablaufen lassen.

66

Page 66

Ordinationsmethoden: PCA

Verwandte Methoden

Polare Ordination:- Benutzt Dissimilaritätsindex- Platziert alle Entitäten zwischen zwei ausgewählten Polen (möglichst unterschiedlich)- Auch mehrere Achsen möglich- Wenig Voraussetzungen (keine Linearität, Multivariate Normalverteilung)- Subjektive Wahl der Pole wird kritisiert- Weitere Achsen nicht notwendig orthogonal

Faktorenanalyse:- Ähnlich wie PCA aber trennt spezifische und gemeinsame Varianz- Annahme latenter Variablen, die nicht gemessen werden können- mit Latentvariablen die Originalvariablen erklären („Gegenteil“ von PCA)- Stärke: mit wenigen Latentvariablen die Originalvariablen bestimmen- spezifische Varianz wird entfernt, als Rauschen betrachtet- Resultate nicht immer eindeutig, verschiedene Faktorkombinationen denkbar

factanal() {stats}

Die Faktorenanalyse ist insbesondere in der sozialwissenschaftlichenForschung relevant. Dort nimmt sie eine wichtige Stelle ein, hier sollnicht näher auf sie eingegangen werden.

67

Page 67

Ordinationsmethoden: NMDS

Objekte haben Distanzen

Ränge aus Distanzmatrix

Versuch, der Darstellung im niedrigdimensionalenRaum

!0

0.6 0

0.8 0.7 0

1.2 1.3 0.3 0

Nicht-metrische multidimensionale Skalierung wird von Minchin (1987)als die robusteste „unconstrained“ Ordination betrachtet.

Die NMDS beruht auf Distanzmatrizen und umgeht die kritischeAnnahme des linearen Gradienten, indem nur Monotonie gefordertwird bei der Übertragung der Darstellung in denniedrigdimensionalen Raum. Die Dissimilaritätsmatrix kann man mitjedem beliebigen Abstandsmaß berechnet werden, wir haben schoneinige Methoden dafür kennen gelernt.

68

Page 68

Ordinationsmethoden: NMDS

0

1.3 0

0.4 0.6 0

Mathematische Durchführung:

1. Bestimmen der Distanzmatrix aus den Rohdaten2. Bestimmen einer Anfangskonfiguration3. Bestimmen der Distanzmatrix der Konfiguration4. Monotoniebedingung aus Rohdaten-Distanzmatrix überprüfen5. Wenn notwendig Disparitätenmatrix erstellen 6. Beurteilen der Güte der Darstellung

Die Erfüllung der Monotoniebedingung hängt von der Lage der Punkteab. Im Beispiel ist sie erfüllt (rot und blau am weitesten entferntusw.).

Während die metrische multidimensionale Skalierung versucht, dieUnterschiede der Dissimilaritätsmatrix beizubehalten, verzichtet dieNMDS darauf und fokussiert nur darauf, die Ordnung derUnterschiede beizubehalten. In der Regel werden die Ergebnisseder metrischen multidimensionalen Skalierung als Startkonfigurationverwendet.

69

Page 69

Ordinationsmethoden: NMDSDistanzmatrix der Anfangskonfiguration

Monotoniebedingung

Disparitätenmatrix

Die Disparitätenmatrix erhalten wir, indem eine monotone Regressionfür die Distanzmatrix der Konfiguration durchgeführt wird(Diagramm). Danach ist die Monotoniebedingung aus derursprünglichen Matrix in der Disparitätenmatrix erfüllt. Darstellungnach Handl (2002).

70

Page 70

Ordinationsmethoden: NMDS

Anpassungsgüte

Umsetzung in R

isoMDS() {MASS}

metaMDS() {vegan} Shotgun-Methode

cmds() {mclust} (Metrische) Multidimensionale Skalierung

Grundfunktion für NMDS

Mit der Anpassungsgüte kann man auch über die Anzahl dernotwendigen Achsen entscheiden. In der bereitgestellten Datei(„nmds.r“) habe ich dazu eine kleine Funktion geschrieben(scree_values). Der Name kommt nicht von ungefähr sondern es istangedacht, die Daten in einen Screeplot einfließen zu lassen.

Die metrische MDS wird auch als Principal Coordinate Analysisbezeichnet.

71

Page 71

Ordinationsmethoden: NMDS

metaMDS() {vegan}Was macht die Shotgun-Methode?

1. Datentransformation

2. Wählt Similaritätsindex (Bray-Curtis)

3. Anpassung, falls zu wenig gleiche Arten vorkommen

4. Mehrere random Starts

5. Zentrieren der Ordination (größte Varianz 1.Achse)

6. Berechnen von WA-Scores

Mehr Infos zur Ordination mit metaMDS gibt es zum einen in derentsprechenden Hilfe und in einem Webdokument von Oksanen:

http://cc.oulu.fi/~jarioksa/opetus/metodi/vegantutor.pdf

72

Page 72

Ordinationsmethoden: NMDS

Aufgaben

1. Benützen Sie die Datei NMDS um eine NMDS mitden Daten (varespec) durchzuführen.

2. Was bedeutet die Skalierung im Diagramm?

3. Laden Sie die „varechem“-Daten, führen Siefolgenden Code aus und erkären Sie, waspassiert!

ef <- envfit( „your-nmds-result“ , varechem, permu=500)plot(ef,p.max=0.01, axis= TRUE,col="black")

4. Was zeigt die Grafik jetzt an? - Interpretieren Siedie Parameter in ef!

In der Datei „varespec.csv“ finden Sie Flechtendaten von 44 Arten an24 Stellen.

Die Funktion envfit versucht Variablen im Datensatz an Gradienten derOrdination anzupassen. Der R^2-Wert ergibt sich aus derKorrelation. Der p-Wert ergibt sich aus der Permutation: Es werdenzufällige Vektoren oder Faktoren erzeugt und der R^2-Wertberechnet. Für die richtigen Vektoren oder Faktoren wird dannverglichen, wie hoch der Anteil derjenigen Vektoren bzw. Faktorenist, die höhere R^2 Werte aufweisen. Bsp.:

500 Permutationen: 5% der R^2-Werte der zufällig erzeugten Vektoren(also 25) größer als 0.4. Dann wären Vektoren mit R^2 > 0.4 aufdem Niveau 0.05 signifikant.

73

Page 73

Ordinationsmethoden: NMDS

Grenzen der NMDS- Ergebnisse abhängig von Startkonfiguration

- Datenverlust durch Rangdaten

- Anzahl der Dimensionen a priori unbekannt

- keine Kausalität aus Fitting von Umweltvariablen

Anwendungen

- Ordination von Unterschieden

- Zusammenhang mit 2. Set von Variablen

- Überprüfung auf Cluster

Permutationstests versuchen zufällige Vektoren an die Datenanzupassen und erzeugen damit Signifikanzgrenzen. Allerdingsfolgt aus der Signifikanz von Variablen nicht notwendig Kausalität.

74

Page 74

Ausblick: Ordination

- populärste Methode zur Zeit- unterstellt unimodale Verteilung der Arten gegenüber Umweltgradient- Mischung aus multipler Regression und Ordination- In R Modellbildung möglich

Kanonische Korrespondenzanalyse (CCA)

cca() {vegan}

- neue, interessante Methode (Yee 2006)- berechnet Reaktion jeder Art gegenüber dem Hauptumweltgradienten- eher „data-driven“ als „model-driven“- Mischung aus GAMs und kanonischer Gauß‘scher Ordination- hohe Rechenleistung benötigt!- in R umgesetzt, allerdings noch nicht allzu komfortabel

Constrained additive Ordination (CAO)

cao() {VGAM}

Aus Zeitgründen konnte im Rahmen dieser Veranstaltung leider nichtmehr auf die CCA eingegangen werden. Eine gute Einführung findetsich in Leps & Smilauer (2003), oder auf höherem Niveau in terBraak & Verdonschot (1995). Die mathematischen Hintergründefinden sich bei Legendre (1998). Die CCA ist für die Ökologie sehrbedeutsam, da aus den Artendaten nur Gradienten extrahiertwerden, die ökologisch bedeutsam sind. Hauptsächlich wird sie mitder Software Canoco durchgeführt, allerdings ist sie auch in Rumgesetzt und eine leicht verständliche Anleitung findet sich imTutorium zum vegan-Package:

http://cc.oulu.fi/~jarioksa/opetus/metodi/vegantutor.pdf

Allerdings beruht die CCA auf Annahmen wie einer unimodalenVerteilung der Arten, die kritisiert werden. Aus dieser Kritik ist dieCAO hervorgegangen, die im Paper von Yee (2006) vorgestellt wird.Diese brandneue Methode ist in R umgesetzt (package VGAM) underlaubt es die Reaktion der Arten auf die Umweltbedingungen zuberechnen sowie eine Ordination durchzuführen. Selbst mit denmodernen Rechnern, kann die Berechnung einige Zeit in Anspruchnehmen (5 Minuten bis mehrere Stunden, je nachModellspezifikation).

Ich habe schon Analysen mit beiden Methoden durchgeführt, werProbleme bei der Umsetzung in R hat, kann sich gerne melden.