15
4 Darstellung und Beschreibung multivariater Datensätze In den letzten Jahrzehnten haben — auch dank der Entwicklungen im Hard- und Softwarebereich für Rech- ner — die Verfahren zur Analyse und Darstellung multivariater Datensätze [data set, multivariate] einen enormen Aufschwung erfahren. 4.1 Mehrdimensionale Verteilungen Die Ausprägungen von Merkmalen an Merkmalsträgern stehen als Zahlen 1 in einer Datenmatrix [data matrix] , wobei das Matrixelement die Ausprägung des –ten Merkmals beim –ten Träger ist, der Zeilenvektor die Informationen über den –ten Träger ( seine Ausprägungen von jedem Merk- mal) enthält und der Spaltenvektor alle beobachteten Ausprägungen des –ten Merkmals zeigt. Multivariate Verfahren 2 kann man (unvollständig) danach klassifizieren, ob ihr Hauptinteresse den Zeilen von , also den Trägern, gilt: Clusteranalyse [cluster analysis], Diskriminanzanalyse [discriminant analysis], oder den Spalten von , also den Merkmalen: Regressions- und Korrelationsanalyse, insb. die kanonische Korrelation [correlation, canonical] als Korrelation zwischen Klassen von Merkmalen, Hauptkomponentenanalyse [principal component analysis], Faktorenanalyse [factor analysis]. Gemeinsame absolute Häufigkeiten entstehen durch kombinierte Auszählung aller Träger nach den Ausprägungen (bzw. zu Klassen zusammengefassten Ausprägungen) aller Merkmale: wobei für ein Merkmal und für eine seiner Ausprägungen oder Klasse von Ausprägungen steht. Gemeinsame relative Häufigkeiten: Die gemeinsamen absoluten bzw. relativen Häufigkeiten bilden eine –dimensionale Häufigkeitsvertei- lung, bei der die Häufigkeiten in einem Kubus oder Hyperkubus stehen. Zur Erläuterung vgl. Abb. A4/1 mit Merkmalen und Ob auch durch Kumulation eine –dimensionale gemeinsame Verteilungsfunktion [distribution function, joint] zu bilden ist, hängt vom Skalenniveau der Merkmale ab. Analoges gilt auch für die Randverteilungsfunktion und die bedingte Verteilungsfunktion. Randverteilungen und Randhäufigkeiten entstehen durch Summation der über einen Index oder mehrere Indizes. Es gibt folgende Randverteilungen: 1 Ausprägungen qualitativer und u.U. auch ordinaler Merkmale sind bereits als Zahlen kodiert. 2 In Abs. D3 werden multivariate Verfahren in knapper Form vorgestellt.

4 Darstellung und Beschreibung multivariater Datensätze · Abb. A4/3: Symbolischer Scatterplot (Drittes Merkmal qualitativ) Die Abb. A4/3 und A4/4 zeigen in Form eines symbolischen

Embed Size (px)

Citation preview

Page 1: 4 Darstellung und Beschreibung multivariater Datensätze · Abb. A4/3: Symbolischer Scatterplot (Drittes Merkmal qualitativ) Die Abb. A4/3 und A4/4 zeigen in Form eines symbolischen

4 Darstellung und Beschreibungmultivariater Datensätze

In den letzten Jahrzehnten haben — auch dank der Entwicklungen im Hard- und Softwarebereich für Rech-ner — die Verfahren zur Analyse und Darstellung multivariater Datensätze [data set, multivariate] einenenormen Aufschwung erfahren.

4.1 Mehrdimensionale Verteilungen

Die Ausprägungen von � Merkmalen an � Merkmalsträgern stehen als Zahlen1 in einer �� � Datenmatrix[data matrix] �, wobei

� das Matrixelement ��� �� � �� � � � � �� � � �� � � � � �� die Ausprägung des �–ten Merkmals beim �–tenTräger ist,

� der Zeilenvektor �� die Informationen über den �–ten Träger (�� seine Ausprägungen von jedem Merk-mal) enthält und

� der Spaltenvektor �� alle beobachteten Ausprägungen des �–ten Merkmals zeigt.

Multivariate Verfahren2 kann man (unvollständig) danach klassifizieren, ob ihr Hauptinteresse

� den Zeilen von �, also den Trägern, gilt:

� Clusteranalyse [cluster analysis],� Diskriminanzanalyse [discriminant analysis],

� oder den Spalten von �, also den Merkmalen:

� Regressions- und Korrelationsanalyse, insb. die kanonische Korrelation [correlation, canonical] alsKorrelation zwischen Klassen von Merkmalen,

� Hauptkomponentenanalyse [principal component analysis],� Faktorenanalyse [factor analysis].

Gemeinsame absolute Häufigkeiten entstehen durch kombinierte Auszählung aller � Träger nach denAusprägungen (bzw. zu Klassen zusammengefassten Ausprägungen) aller � Merkmale:

���������� ��� �� ���� � �� � � � � ��� � �� � � � � ��� � ����

wobei �� für ein Merkmal und �� für eine seiner Ausprägungen oder Klasse von Ausprägungen steht.

Gemeinsame relative Häufigkeiten:

������ ��� �� ������� ����� �

Die gemeinsamen absoluten bzw. relativen Häufigkeiten bilden eine �–dimensionale Häufigkeitsvertei-lung, bei der die Häufigkeiten in einem Kubus �� � �� oder Hyperkubus �� � �� stehen. Zur Erläuterungvgl. Abb. A4/1 mit � � � Merkmalen �� � �� � � � � ��� � �� � �� � � � � �� und � �� � �� � � � ��� Ob auchdurch Kumulation eine �–dimensionale gemeinsame Verteilungsfunktion [distribution function, joint] zubilden ist, hängt vom Skalenniveau der Merkmale ab. Analoges gilt auch für die Randverteilungsfunktionund die bedingte Verteilungsfunktion.

Randverteilungen und Randhäufigkeiten entstehen durch Summation der ������� ��� über einen Index odermehrere Indizes. Es gibt folgende Randverteilungen:

1Ausprägungen qualitativer und u.U. auch ordinaler Merkmale sind bereits als Zahlen kodiert.2In Abs. D3 werden multivariate Verfahren in knapper Form vorgestellt.

Page 2: 4 Darstellung und Beschreibung multivariater Datensätze · Abb. A4/3: Symbolischer Scatterplot (Drittes Merkmal qualitativ) Die Abb. A4/3 und A4/4 zeigen in Form eines symbolischen

A4.1 Mehrdimensionale Verteilungen 85

��

� � �

�� � Randverteilungen3 der Dimension ��� durch Summation über einen Index (In Abb. A4/1

sind es die drei Randhäufigkeiten �.��� ��.� und ���.�),

��

� � �

�Randverteilungen der Dimension �� � durch Summation über zwei Indizes (In Abb. A4/1 sind

es die drei Randhäufigkeiten �..�� �.�. und ��.., die man jeweils auf zwei Wegen erzeugen kann.),...

���

�� � Randverteilungen der Dimension Eins durch Summation über � � � Indizes.

Die Zahl aller Randverteilungen ist������

��

�� �� � ��

Die relativen Randhäufigkeiten ergeben sich aus den absoluten Randhäufigkeiten durch Division mit demErhebungsumfang �; in Abb. A4/1 z. B.

�.. � ��..�� oder ��. � ���.�� �

Abb. A4/1: Trivariate Häufigkeitsverteilung und weitere, daraus abgeleitete Häufigkeitsverteilungen

Bedingte Verteilungen entstehen mittels Schnitt orthogonal zu einer Achse oder einer von den Achsenaufgespannten Ebene des Häufigkeitskubus. Es gibt folgende bedingte Verteilungen und bedingte Häufig-keiten:

3Zum Binomialkoeffizienten�

����

�vgl. Abs. B1.3.

Page 3: 4 Darstellung und Beschreibung multivariater Datensätze · Abb. A4/3: Symbolischer Scatterplot (Drittes Merkmal qualitativ) Die Abb. A4/3 und A4/4 zeigen in Form eines symbolischen

86 A4 Multivariate Datensätze

� Eine �����–dimensionale bedingte Verteilung resultiert aus dem Schnitt orthogonal zu einer Achse, d.h.von einem Merkmal wird eine Ausprägung vorgegeben oder festgehalten. (In Abb. A4/1 gibt es ����zweidimensionale bedingte Verteilungen.)

� Eine �� � ��–dimensionale bedingte Verteilung resultiert aus dem Schnitt orthogonal zur Ebene, die vonzwei Merkmalsachsen aufgespannt wird. (In Abb. A4/1 gibt es � � � � � �� eindimensionalebedingte Verteilungen.)

...

� Eine eindimensionale bedingte Verteilung entsteht durch einen Schnitt orthogonal zur Ebene, die von� � � Merkmalsachsen aufgespannt wird.

Hinweis: Die relativen bedingten Häufigkeiten ergeben sich aus den absoluten bedingten Häufigkeitendurch Division mit der zugehörigen absoluten Randhäufigkeit, in Abb. A4/1 z. B.

���� �������..�

oder ���� ������.��

4.2 Statistische UnabhängigkeitPaarweise statistische Unabhängigkeit [independence, pairwise statistical]: Die � Merkmale��� � � � ���

im Datensatz heißen paarweise unabhängig, wenn jede Zweierkombination von Merkmalen statistischunabhängig ist. Am einfachsten drückt man dies durch die Randverteilungen aus (Andere Möglichkeitenergeben sich analog zu Abs. A3.2.): Die zweidimensionale Randverteilung muss sich als Produkt der beideneindimensionalen Randverteilungen ergeben, etwa bei � � Merkmalen für die Merkmale �� und ��

�����.. � ��... � .��.. � ��� �� �Analog lässt sich eine tripelweise, quadrupelweise etc. statistische Unabhängigkeit definieren.

Die � Merkmale ��� � � � ��� im Datensatz heißen total oder insgesamt statistisch unabhängig (kurz:statistisch unabhängig) [independence, total statistical], wenn sich jede zwei–, drei–, � � � , � � �–dimensionale Verteilung und die gemeinsame Verteilung aller � Merkmale als Produkt von eindimensio-nalen Randverteilungen darstellen lässt. Aus totaler statistischer Unabhängigkeit folgt die paarweise (tri-pelweise, etc.) Unabhängigkeit, aber nicht umgekehrt.

4.3 Maße des Zusammenhangs und einige ParameterDie Abweichung zwischen der beobachteten �–dimensionalen Häufigkeitsverteilung und jener, die sich beitotaler Unabhängigkeit eingestellt hätte, lässt sich mit der Maßzahl �� (quadratische Kontingenz) und dendarauf basierenden weiteren Maßzahlen (vgl. Abs. A3.3.1.1) ausdrücken.

Unabhängigkeitszahlen:

���������� ��� ����.���. � �.��.���. � � � � � �.���.��

����

Quadratische Kontingenz:

�� �

������

������

� � ���

����

����������� ��� � ���������� �����

���������� ���

Die �–dimensionale Tabelle hat ��� � ��� ��� � ��� � � � � ��� � �� Freiheitsgrade [degrees of freedom].

Die Datenmatrix� enthalte �� � � �� kardinale Merkmale �� � � � � . Die ����–Submatrix mitden Ausprägungen der kardinalen Merkmale sei mit� bezeichnet. Durch Vektor- und Matrizenoperationenlassen sich eine Reihe von Parametern leicht darstellen:4

4Verfügt man über eine matrix–orientierte Programmiersprache, etwa GAUSS, so lassen sich die Parameter auch leicht nachdiesen Formeln berechnen. In Abs. E3 sind die wichtigsten Definitionen, Formeln und Sätze der Linearen Algebra zu finden.

Page 4: 4 Darstellung und Beschreibung multivariater Datensätze · Abb. A4/3: Symbolischer Scatterplot (Drittes Merkmal qualitativ) Die Abb. A4/3 und A4/4 zeigen in Form eines symbolischen

A4.3 Maße des Zusammenhangs und Parameter 87

� ���

�� �

� �

��� ���...��

� — Vektor der arithmetischen Mittel

mit

�� � ��� � � � � �� — Einser–Vektor (summierender Vektor) mit � Elementen;

� := � �

��� ��� ��� � � � ��......

...��� ��� � � � ��

� — Abweichungsmatrix

mit ��� � ��� � ��� sowie ��� � � und � als Nullvektor;

� ���

�� �� —

�Matrix der empirischen Nullmomente, genauer:der Produktmomente um Null der Ordnung 2,

mit

�� ��

�����

���� — Diagonalelement von � und

�� ��

�����

��� ��� — Nichtdiagonalelement von � ;

���

���� —

�empirische Varianz–Kovarianzmatrix,kurz: Kovarianzmatrix, [covariance matrix]

��

�� �� � �� ���

mit

��� �� ��� �

� � ��

�� ��

���� � �����

�����

���� � ����

� � �als Varianzen auf der Hauptdiagonale,

��� �� ��� �

� � ��

�����

���� � �������� � ����

�����

��� ��� � ��� ���

� � �als Kovarianzen auf den Nichtdiagonalen.

ist symmetrisch und positiv semidefinit. Letzteres bedeutet, dass eine beliebige Linearkombination der

Merkmale �� � � � � , also����

�� �, die nichtnegative Varianz � hat, wobei � � ���� � � � � �� der

Vektor der Linearfaktoren ist. Ist speziell � �, bekommt man die Varianz der Summe der Merkmale.

��� :=

���������� � � � �

� ���� � � �

......

. . ....

� � � � � ��

� — Varianzmatrix

Page 5: 4 Darstellung und Beschreibung multivariater Datensätze · Abb. A4/3: Symbolischer Scatterplot (Drittes Merkmal qualitativ) Die Abb. A4/3 und A4/4 zeigen in Form eines symbolischen

88 A4 Multivariate Datensätze

������ :=

�������� � � � � �

� �� � � � �...

.... . .

...� � � � � �

� — Standardabweichungsmatrix

������� :=

���������� � � � � �

� ���� � � � �...

.... . .

...� � � � � ���

�— Inverse der Standardabweichungsmatrix

� �� �������� — standardisierte Datenmatrix [data matrix, standardized]

mit ��� ���� � ���

��als standardisierte Messwerte sowie ��� � � und ��

� � � � ��

� ���

����

� �������

�������

� � � — Korrelationsmatrix [correlation matrix]

mit

��� � � � Diagonalelement,

��� �������� ���

� BRAVAIS–PEARSON–Korrelationskoeffizient der Merkmale � und �

� ist symmetrisch und positiv semidefinit. Die Determinante von �� det� � ���, ist ein Maß für Kolli-nearität [collinearity], also linearer Abhängigkeit im Datensatz:

� � det� � ��� � �

mit

� det� � � � � � � als Einheitsmatrix.(In diesem Fall sind die Merkmale orthogonal; alle paarweisen Korrelationskoeffizienten sind Null.)

� det� � �(In diesem Fall gibt es eine lineare Abhängigkeit zwischen irgend zwei, irgend drei, � � � oder allen Merkmalen.)

� � � det� � �(Eine lineare Abhängigkeit ist mehr �det� �� oder weniger �det� �� stark im Datensatz vorhan-den.)

4.4 Multiple lineare Regression und PolynomregressionEin Merkmal � soll, gestört durch eine additiv wirkende latente Variable � , von � � Merkmalen �� � � � � linear–inhomogen abhängen. � ist eine Pseudovariable, die stets den Wert Eins hat.

� � �� � �� � � � � � � � Regressionsansatz ���Die � Datensätze ��� � �� ��� � ��� � � � � � ��� liefern für ��� eine Punktewolke in �, die� bei � � um eine Gerade,� bei � � um eine Ebene (vgl. Abb. A4/2),� bei � � um eine Hyperebene streuen soll.

Page 6: 4 Darstellung und Beschreibung multivariater Datensätze · Abb. A4/3: Symbolischer Scatterplot (Drittes Merkmal qualitativ) Die Abb. A4/3 und A4/4 zeigen in Form eines symbolischen

A4.4 Multiple lineare Regression und Polynomregression 89

Abb. A4/2: Regressionsebene und Beobachtungswerte

Für die � Datensätze lautet ���:�� � �� ��� �� ��� � � � � �� �� � ��� � � � �

����

�� ���� �� �systematischer Teil von ��

������zufälliger Teil von ��

� � �� ��

mit

� �

��� ��...��

�� � �

��� � ��� ��� � � � ��......

......

� ��� ��� � � � ��

�� � �

��� ��...��

�� � �

��� ��...�

� �

Es heißt � die Designmatrix [design matrix]. Die unbekannten Regressionskoeffizienten �� schätztman nach der KQ–Methode durch Auflösung des Normalgleichungssystems (Voraussetzung: Rang(�� � � ��:��� � ��� � ���� ��� ���� ��� � � � �������� ��� � ���� ��� ���� ���� ���� ��� ��� � � � ����� ������ ��� � ���� ��� ���� ��� ��� ���� ���� � � � ����� ���

...��� �� � ���� �� ���� ��� �� ���� ��� �� � � � ������

� �� � � �� ���Der KQ–Schätzer lautet dann in kompakter Form:�� � �� ������ ���

Page 7: 4 Darstellung und Beschreibung multivariater Datensätze · Abb. A4/3: Symbolischer Scatterplot (Drittes Merkmal qualitativ) Die Abb. A4/3 und A4/4 zeigen in Form eines symbolischen

90 A4 Multivariate Datensätze

und die Regressionswerte sind:

��� � ��� ��� ��� ��� � � � �� �� (vgl. Abb. A4/2) �

mit �� ��

���� � �� ��

�����

�� �

Der Regressionsansatz liefert eine Zerlegung der Varianz des Regressanden � ,

��� ��

�����

��� � �����

in

��� ��

����� � ����

���� � �����

� ��������

Varianz auf der Regressionsfunktion

������� �� �

Varianz um die Regressionsfunktion

mit

����

�����

��� ��� und ��� �� cov� �� � �

������

��

���

���

��� �����

��� �����

��� ��

��

���� � ���

� ����

Die Güte der Regressionsfunktion misst man mit dem multiplen Bestimmtheitsmaß [coefficient of totaldetermination]:

�� �������� � ������

���� ����� ��

mit

� ��

��� �� �...��

� — Vektor der Korrelationskoeffizienten von � und jedem Regressor,

� ��

������� ��� � � � ��

��� � � � � ��.... . .

...�� � � � �

� — Matrix der Korrelationskoeffizienten der Regressoren,

wobei� � �� �������� � � ��

Das multiple Bestimmtheitsmaß gibt den Anteil der Varianz des Regressanden an, der durch die multiplelineare Abhängigkeit von den Regressoren �� � � � � erklärt wird.

�� �������� � ����� �������� �

heißt multipler Korrelationskoeffizient [correlation coefficient, multiple].

Page 8: 4 Darstellung und Beschreibung multivariater Datensätze · Abb. A4/3: Symbolischer Scatterplot (Drittes Merkmal qualitativ) Die Abb. A4/3 und A4/4 zeigen in Form eines symbolischen

A4.4 Multiple lineare Regression und Polynomregression 91

��� �������� � �� �� �� �

����� �� �������� ��

heißt korrigiertes multiples Bestimmtheitsmaß [coefficient of determination, adjusted].5

Die Korrelation von � und � �� � � � ���, wenn beide Merkmale vom linearen Einfluss des Regressors � �� � � � � � � �� �� bereinigt sind, also eine Art „Nettokorrelation“, misst man mit dem partiellenKorrelationskoeffizienten [correlation coefficient, partial]

�� ��� ��� � � �� � ����

��� ��� ����� ������

Es heißt ��� ��� das partielle Bestimmtheitsmaß [coefficient of determination, partial]. �� ��� ergibt sich auchals gewöhnlicher Korrelationskoeffizient der Residuen aus

� einer linearen Einfachregression von � auf � und� einer linearen Einfachregression von � auf � .

Den obigen partiellen Korrelationskoeffizienten erster Ordnung kann man erweitern zu

�� ��� ��� ��� � �� �� �������� ��� ������ ������

� � � �� �� � � � � � �� � �� � �

der die Korrelation von � und � nach Bereinigung vom (linearen) Einfluss der Regressoren � und

misst. Dieser partielle Korrelationskoeffizient zweiter Ordnung ist auch darstellbar als gewöhnlicher Kor-relationskoeffizient der Residuen aus

� einer linearen Regression von � auf � und und� einer linearen Regression von � auf � und .

Die Konstruktion lässt sich bis zur partiellen Korrelation der Ordnung � � fortsetzen, die angibt, wiestark � mit � �� �� �� korreliert, wenn � und � vom (linearen) Einfluss der übrigen � � Regressorenbereinigt worden sind, etwa für � � �:

�� ��������� � ��� ������� ��� � �������� ��� �������� ����

��� ��� ������ ������� ��������� ����

Rechts stehen partielle Korrelationskoeffizienten der Ordnung � �, so dass man Rekursionsformeln hat.Eine direkte Berechnung der partiellen Korrelationskoeffizienten erfolgt über Adjunkten geeignet zusam-mengestellter Matrizen der paarweisen Korrelationskoeffizienten �� � und ��� ��� � � �� � � � ��.

Spezialfall:6 Multiple lineare Regression mit zwei Einflussgrößen � und �

Hier lassen sich die vorstehenden allgemeinen Formeln ohne Matrizennotation noch übersichtlich darstel-len, wenn man die Varianzen ��� � �

��� ����

� ����� ����

, die Kovarianzen �� � �� cov��� ��� �� � ��cov��� ��� ��� �� cov� �� �� und die Korrelationskoeffizienten �� �� �� � und ��� verwendet:

5Die Korrektur um die Zahl der Freiheitgrade führt dazu, dass im Gegensatz zu �� �������� �� diese Maßzahl keine monotonnichtfallende Funktion der Anzahl der Regressoren ist; d.h. ��

� �������� ���� � ��

� �������� �� ist möglich, wenn der zusätzlicheRegressor ���� keine hohe „Erklärungskraft“ für � besitzt.

6Dieser Fall hat einige Bedeutung für die Schätzung der COBB–DOUGLAS–Produktionsfunktion� � ��� �� ������, dienach Logarithmierung zu einer linearen Regressionsfunktion mit zwei Regressoren wird:

� � ��� � ��� � ��� � �

mit � �� � � �� �� ���� �� �� � �� �� � �� � �� �.

Page 9: 4 Darstellung und Beschreibung multivariater Datensätze · Abb. A4/3: Symbolischer Scatterplot (Drittes Merkmal qualitativ) Die Abb. A4/3 und A4/4 zeigen in Form eines symbolischen

92 A4 Multivariate Datensätze

��� ��� � �

�� ��� �� �

������� ��

��

�����

�� � � �� � ����� ��

��

��� ��� � �

�� ��� �� �

������� ��

��

�����

�� � � �� � ����� ��

��

� � �

Falls ��� � �, sind die multiplen Regressionskoeffizienten ��� und��� identisch mit denen einer linearen Einfachregression von � auf � und von � auf �.

��� � �� � ��� ��� � ��� ��������� �

��� � ��� � � � �� � �� � ����� ��

��

� � �multiples Bestimmtheitsmaß(Falls ��� � �� gilt ������ � ��� � ��� � ��

�� ��� ���� � � �� � ����

��� ��� ����� �����

�� ��� ���� � � �� � ����

��� ��� ����� �����

� � �partielle Bestimmtheitsmaße

Hinweise:: 1. ����� �� �� ��� �� ���

2. ����� � ���� ����� wenn ��� � � �

Mit dem Formelapparat der multiplen linearen Regression lässt sich auch eine polynomiale Beziehung[regression, polynomial] zwischen � und schätzen. Aus ��� wird ein Polynom des Grades � � in :

� � � � �

� � � � � � ��

�� � � � � ����mit folgender Parameter- und Variablenbeziehung zwischen ��� und ����:

� �� �� � �� �� � � � � �� ���

�� �� �� �� �� �� � � � � � �� ���

4.5 Graphiken für multivariate DatensätzeDer graphischen Darstellung multivariater Datensätze sind durch die Zweidimensionalität der Zeichenebeneenge Grenzen gesetzt. Eine Reihe spezieller Graphiken versuchen, diese Enge durch Einfallsreichtum imDesign zu überwinden. Das „Lesen“ dieser Bilder muss aber gelernt sein. Bei den neuartigen Graphiken istdie Gefahr der Manipulation des Betrachters noch größer als bei den konventionellen Darstellungsformen.

Es werden zwei Gruppen von Abbildungen vorgestellt. Die erste Gruppe (A4/3 bis A4/8) umfasst Variantendes traditionellen Scatterplots (syn.: Streuungsdiagramme), wie sie aus Abs. A3 zur Beurteilung des Zu-sammenhangs zweier kardinaler oder ordinaler Merkmale bekannt sind. Scatterplots werden herangezogen,wenn Schlüsse über die Merkmale zu ziehen sind:

— symbolischer Scatterplot (drei Merkmale),— SEBER–Plot (vier Merkmale),— Scatterplot–Matrix (syn.: Draftsman–Plot),

Page 10: 4 Darstellung und Beschreibung multivariater Datensätze · Abb. A4/3: Symbolischer Scatterplot (Drittes Merkmal qualitativ) Die Abb. A4/3 und A4/4 zeigen in Form eines symbolischen

A4.5 Graphiken für multivariate Datensätze 93

— Casement–Plot,— 3D–Scatterplot.

In die zweite Gruppe (A4/9 bis A4/14) gehören solche Graphiken, die insbesondere dem Vergleich derMerkmalsträger dienen:

— Profilkurven,— ANDREWS–Waves,— Sternen–Plot (syn.: Diamanten–Plot),— Sonnen–Plot,— Glyphen,— Gesichter.

Abb. A4/3: Symbolischer Scatterplot (Drittes Merkmal qualitativ)

Die Abb. A4/3 und A4/4 zeigen in Form eines symbolischen Scatterplots, wie man im zweidimensionalenStreuungsdiagramm ein drittes Merkmal unterbringen kann. Ist dieses qualitativ, so werden die Ausprä-gungen durch unterschiedliche Symbole kodiert,7 was allerdings nur bei kleiner Ausprägungsmenge nochübersichtliche Bilder liefert. In Abb. A4/3 sieht man, dass das Merkmal ! mit drei Ausprägungen zu dreiklar unterscheidbaren Punktewolken führt. Ist das dritte Merkmal kardinal, so wählt man die Symbolgrößeproportional zum Wert der Ausprägung dieses dritten Merkmals. In Abb. A4/4 erkennt man, dass das dritteMerkmal � offenbar um so höher ausfällt, je kleiner die Ausprägungen des – und � –Merkmals sind.

Abb. A4/4: Symbolischer Scatterplot (Drittes Merkmal kardinal)

7Bei Farbbildern kann man auch unterschiedliche Farben verwenden.

Page 11: 4 Darstellung und Beschreibung multivariater Datensätze · Abb. A4/3: Symbolischer Scatterplot (Drittes Merkmal qualitativ) Die Abb. A4/3 und A4/4 zeigen in Form eines symbolischen

94 A4 Multivariate Datensätze

Bei nicht zu umfangreichen Datensätzen können sogar bis zu vier Dimensionen im konventionellen Streu-ungsdiagramm gezeigt werden, wenn man den SEBER–Plot, vgl. Abb. A4/5, verwendet. In der ���� ���–Ebene wird für jeden Merkmalsträger an der Stelle seiner �� und �–Ausprägung ein eigenes Koor-dinatensystem für die Merkmale � und � verwendet. Die Länge der Achsenpfeile ist proportional zurAusprägung, und die Richtung gibt das Vorzeichen an (nach oben oder nach rechts bedeuten „+“; nachunten oder nach links bedeuten „�“).

Abb. A4/5: SEBER–Plot

In einer Scatterplot–Matrix (syn.: Draftsman–Plot), vgl. Abb. A4/6, werden zweidimensionale Scatter-plots für alle Zweierkombinationen von kardinalen Merkmalen in einem Datensatz dargestellt. In Abb. A4/6mit vier Merkmalen gibt es sechs solcher Plots. Gezeigt werden nur die zweidimensionalen Randverteilun-gen, so dass höherdimensionale Abhängigkeiten nicht sichtbar gemacht werden.

Abb. A4/6: Scatterplot–Matrix

Dies erfolgt in gewissem Umfang durch den Casement–Plot [casement–plot]8, vgl. Abb. A4/7, bei dem fürzwei primäre Variablen (hier: � und �) in Gruppierungen nach einer dritten und vierten Variablen (hier: � und �) Scatterplots angelegt werden. In der mit einem skalierten Rahmen umgegebenen Matrix mit 16Feldern erkennt man, wie für eine bestimmte Kombination von �– und �–Wertebereich die Merkmale �

8casement �� Fensterflügel

Page 12: 4 Darstellung und Beschreibung multivariater Datensätze · Abb. A4/3: Symbolischer Scatterplot (Drittes Merkmal qualitativ) Die Abb. A4/3 und A4/4 zeigen in Form eines symbolischen

A4.5 Graphiken für multivariate Datensätze 95

und � miteinander variieren (doppelt bedingte Scatterplots von � und �). Am oberen und am rechtenRand sind die Scatterplots (für � und �) zu finden, die alle Punkte in der betreffenden Spalte bzw. Zeileenthalten (einfach bedingte Scatterplots von � und �). Der Scatterplot rechts oben zeigt, wie alle Trägernur bezüglich � und � streuen (unbedingter Scatterplot von � und �).

Abb. A4/7: Casement–Plot

Ein 3D–Scatterplot, vgl. Abb. A4/8, zeigt die Punktewolke im Raum. Je nachdem, von welchem Punkt (imRaum) man auf die Punktewolke schaut, d. h. den Plot anlegt, ergeben sich u. U. ganz andere Eindrücke vonder Art des Zusammenhangs. Hilfreich ist hier eine Software, die eine Rotation der Punktewolke auf demBildschirm erlaubt.

Abb. A4/8: 3D–Scatterplot

Um Unterschiede, aber auch Gemeinsamkeiten bei (nicht zu großer Zahl von) Trägern mit sehr vielen(kardinalen) Merkmalen zu erkennen, bieten sich zunächst die Profilkurven [profiles] (Abb. A4/9) an.Man verwendet — wie auch bei den nachfolgenden Graphiken — die standardisierten Merkmalswerte ���(vgl. Abs. A4.3). Diese werden auf der Ordinate abgetragen, während die Merkmale nummeriert auf derAbszisse angegeben werden. Für jeden Träger gibt es dann eine Profilkurve. In Abb. A4/9 bis A4/13 wurdeder standardisierte Datensatz aus Tabelle A4/1 verwendet.

Page 13: 4 Darstellung und Beschreibung multivariater Datensätze · Abb. A4/3: Symbolischer Scatterplot (Drittes Merkmal qualitativ) Die Abb. A4/3 und A4/4 zeigen in Form eines symbolischen

96 A4 Multivariate Datensätze

Tab. A4/1: Standardisierter Datensatz

MerkmalTräger � � � � �

� �� � ����� ���� � ����� ���� ���� ��� �

� ��� ������ ��� � ������ ���� ���� �����

� ����� ���� ������ ������ ���� ������ ��� �

������ ������ ���� � ������ ����� ������ �����

��� � �� � �� �� ��� ������ ��� � ����

Abb. A4/9: Profilkurven

Verwandt mit den Profilkurven ist die Orthogonalreihen–Darstellung von D.F. ANDREWS (1972). JederTräger wird durch ein trigonometrisches Polynom (Summe von Sinus- und Kosinusschwingungen) darge-stellt, d.h. für jeden Träger entsteht eine „Welle“, daher die Bezeichnung ANDREWS–Waves (Abb. A4/10).Die Funktionsgleichung für den �–ten Träger lautet:

"��#� ������ ��� ����#� ��� ����#� ��� ����� #� ��� ����� #� � � � �

wobei �$ � # � $. Die Zuweisung der Merkmale zu den Koeffizienten ist im Prinzip beliebig, sollte aberso gewählt werden, daß die „wichtigen“ Merkmale den ersten Koeffizienten zugeordnet werden.

Abb. A4/10: ANDREWS–Waves

Page 14: 4 Darstellung und Beschreibung multivariater Datensätze · Abb. A4/3: Symbolischer Scatterplot (Drittes Merkmal qualitativ) Die Abb. A4/3 und A4/4 zeigen in Form eines symbolischen

A4.5 Graphiken für multivariate Datensätze 97

Beim Sternen–Plot [stars plot] (syn.: Diamanten–Plot) in Abb. A4/11, wird jeder Träger durch einen Sterndargestellt. Der Stern hat so viele Zacken, wie es Merkmale gibt, und die Zackenlänge ist proportional zumMerkmalswert. Verwendet man Sonnen–Plots (Abb. A4/12), so wird jedes Merkmal durch einen Strahldargestellt. Die Strahlenlänge entspricht der �–fachen Standardabweichung, und es wird auf jedem Strahldie Merkmalsausprägung in Standardabweichungseinheiten aufgetragen. Die sich so ergebenden Punkteauf den Strahlen werden verbunden. Ähnlich verfährt man bei den Glyphen (Abb. A4/13).

Abb. A4/11: Sternen–Plot

Abb. A4/12: Sonnen–Plot

Abb. A4/13: Glyphen

Page 15: 4 Darstellung und Beschreibung multivariater Datensätze · Abb. A4/3: Symbolischer Scatterplot (Drittes Merkmal qualitativ) Die Abb. A4/3 und A4/4 zeigen in Form eines symbolischen

98 A4 Multivariate Datensätze

Eine originelle Idee des Vergleichs von Merkmalsträgern mit vielen Merkmalen geht auf H. CHERNOFF

(1973) zurück. Ein Träger wird durch ein Gesicht repräsentiert und ein Gesichtsteil durch ein Merkmal.FLURY/RIEDWYL (1981) haben diese Idee weiter ausgebaut. Das von ihnen konzipierte Gesicht hat 18Parameter:

1) Augengröße 10) senkrechte Brauenposition2) Pupillengröße 11) obere Haarbegrenzung3) Pupillenposition 12) untere Haarbegrenzung4) Augenneigung 13) Gesichtslinie5) waagrechte Augenposition 14) Stärke der Haarschraffur6) senkrechte Augenposition 15) Neigung der Haarschraffur7) Krümmung der Augenbrauen 16) Nase8) Dichte der Augenbrauen 17) Mundgröße9) waagrechte Brauenposition 18) Mundkrümmung

Jeder Parameter ist für die linke und rechte Gesichtshälfte vorhanden, so dass bis zu 36 Merkmale je Gesichtdarstellbar sind, wodurch i. d. R. asymmetrische Gesichter entstehen. Die Einstellung der Parameterwerteerfolgt über die Ausprägungen des dem Gesichtsparameter zugeordneten Merkmals. Abb. A4/14 zeigt inTeil 1 ein Gesicht mit maximaler Ausprägung bei allen Merkmalen, im Teil 2 eines mit minimaler Ausprä-gung eines jeden Merkmals und im Teil 3 eines mit mittlerer Ausprägung. Ein Problem ist die Zuordnungder Merkmale zu den Gesichtsparametern. Ordnet man wichtige Merkmale unauffälligen Gesichtsparame-tern (etwa Pupillengröße oder Pupillenposition) zu, lassen sich Unterschiede zwischen den Trägern leichtverschleiern. Enthält der Datensatz weniger als 36 Merkmale, können entweder einige Gesichtsparameterkonstant (i. a. auf den mittleren Wert) gesetzt werden oder einem Merkmal werden mehrere Gesichtspara-meter zugeordnet. Sind sogar 18 oder weniger Merkmale vorhanden, so können symmetrische Gesichtergezeichnet werden oder eine Gesichtshälfte wird als Standard mit mittleren Werten für die Gesichtspara-meter verwendet.

Abb. A4/14: FLURY–RIEDWYL–Gesichter