1 Wie lässt sich die Stärke eines Zusammenhanges bei kategorialen Werten (nominalskalierten...

Preview:

Citation preview

1

Wie lässt sich die Stärke eines Zusammenhangesbei kategorialen Werten (nominalskalierten

Werten) auf Basis einer Kreuztabelle, Kontingenz- tafel bewerten?

Mit Hilfe derDifferenz zwischen

beobachteten und erwarteten Anzahlen

2

Brunnen A

Erk

rank

tN

icht

-erk

rank

t

Brunnen B

3

Mädchen

und

gut

Mädchen

und

schlecht

Junge

und

gut

Junge

und

schlecht

Vier Felder Matrix

4

Mädchen

und

gut

345

Mädchen

und

schlecht

2Junge

und

gut

8

Junge

und

schlecht

366N = 721

Mädchen347

Jungen374

gut = 353 schlecht = 368

5

Eine Dreisatzaufgabe:

Wenn von 721 Schülerinnen und Schülern 353 gut sind,wie viele müssten dann von 374 (Jungen)gut sein?

721 = 353374 = ?

353 mal 374721

= 183

6

Mädchen

und

gut

345

Mädchen

und

schlecht

2

Junge

und

gut

8 [erwartet 183]

Junge

und

schlecht

366

N = 721

Mädchen347

Jungen374

gut = 353 schlecht = 368

7

Geo * Gram Kreuztabelle

16 24 40

16,0 24,0 40,0

16 24 40

16,0 24,0 40,0

32 48 80

32,0 48,0 80,0

Anzahl

Erwartete Anzahl

Anzahl

Erwartete Anzahl

Anzahl

Erwartete Anzahl

gut

schlecht

Geo

Gesamt

gut schlecht

Gram

Gesamt

Sie können diese Berechnung selbstverständlich auch als Dreisatz formulieren:

von 80 (Gesamt) sind in Gram gut 32von 40 (Gesamt in Geo gut) sind in Geo gut X

Gerechnet wird: 32 mal 40 = 1280 geteilt durch 80 = 16

Gibt es einen Zusammenhang zwischen den Leistungen in den Fächern Geographie und Grammatik?

8

Die Stärke des Zusammenhangsergibt sich logisch aus der Größeder Differenz zwischen erwartetund beobachtet.

Berechnet werden kann dieseStärke bspw. durch das sog.Chi-Quadrat.

9

class * survival Kreuztabelle

203 122 325

105,0 220,0 325,0

118 167 285

92,1 192,9 285,0

178 528 706

228,1 477,9 706,0

212 673 885

285,9 599,1 885,0

711 1490 2201

711,0 1490,0 2201,0

Anzahl

Erwartete Anzahl

Anzahl

Erwartete Anzahl

Anzahl

Erwartete Anzahl

Anzahl

Erwartete Anzahl

Anzahl

Erwartete Anzahl

First Class

Second Class

Third Class

Crew

class

Gesamt

Survival Missing

survival

Gesamt

Konvention über den Aufbau: abhängige Variable in die Spalte, unabhängige in Zeile

10

Summary Table: Expected Frequencies (Titanic) Marked cells have counts > 10 Pearson Chi-square: 190,401, df=3, p=0,00000

classsurvival - Survival

survival - Missing

Row - Totals

First Class 104,9864 220,014 325,000

Second Class 92,0650 192,935 285,000

Third Class 228,0627 477,937 706,000

Crew 285,8860 599,114 885,000

All Grps 711,0000 1490,000 2201,000

11

class * survival Kreuztabelle

203 122 325

105,0 220,0 325,0

118 167 285

92,1 192,9 285,0

178 528 706

228,1 477,9 706,0

212 673 885

285,9 599,1 885,0

711 1490 2201

711,0 1490,0 2201,0

Anzahl

Erwartete Anzahl

Anzahl

Erwartete Anzahl

Anzahl

Erwartete Anzahl

Anzahl

Erwartete Anzahl

Anzahl

Erwartete Anzahl

First Class

Second Class

Third Class

Crew

class

Gesamt

Survival Missing

survival

Gesamt

Berechnet werden die Zahlen „Erwartet“ wie folgt:

In der ersten Zeile wurden 203 Gerettete beobachtet. Die Gesamtzahl der Passagierein der ersten Klasse betrug 325. Ingesamt wurden 711 Personen gerettet, an Bordwaren insgesamt 2201 Personen. Die Rechnung lautet jetzt:

711 mal 325 = 231075, geteilt durch 2201 macht 104,98 (~ 105)

Sie können diese Berechnung selbstverständlich auch als Dreisatz formulieren:

von 2201 (Gesamt) überlebten 711von 325 (erste Klasse) überlebten X

12

Der „Chi-Quadrat-Test“ zur Überprüfung der Unabhängigkeit von zwei Variablen

Mit diesem Test kann die Unabhängigkeit von zwei Variablen, und damit indirekt auchdie Größe des Zusammenhangs zwischen zwei Variablen geprüft werden.Von Bedeutung ist dieser Test bspw. wenn der Frage nachgegangen werden soll,ob – um bei dem Beispiel der Titanic zu bleiben – das Alter oder das Geschlecht eine größere Rolle bei der Frage des Überlebens gespielt hat.

Dazu rufen wir wieder die Dialogbox „Kreuztabelle“ auf und setzen wieder, wie auf der nächsten Folie ersichtlich, „class“ in die Zeile und „survival“ in die Spalte.

Jetzt klicken wir das Fenster „Statistik“ an und erhalten die folgende Dialogbox.

Chi-Quadrat = ∑(„Wert beobachtet“ – „Wert erwartet“)2

„Wert erwartet“

13

14

15

Chi-Quadrat

16

Betrachten wie nun die Tabellen und Werte des Chi-Quadrats:age * survival Kreuztabelle

654 1438 2092

675,8 1416,2 2092,0

57 52 109

35,2 73,8 109,0

711 1490 2201

711,0 1490,0 2201,0

Anzahl

Erwartete Anzahl

Anzahl

Erwartete Anzahl

Anzahl

Erwartete Anzahl

Adult

Children

age

Gesamt

Survival Missing

survival

Gesamt

Damit haben wir für die Variablen „Überleben/Klasse“ einen Chi-Quadrat-Test Wert von 190,401 und für die Variablen „Überleben/Alter“ einen Wert von 20,956

Was sagen diese Werte aus?

Chi-Quadrat-Tests

20,956b

1 ,000

20,005 1 ,000

19,561 1 ,000

,000 ,000

20,946 1 ,000

2201

Chi-Quadrat nachPearson

Kontinuitätskorrektura

Likelihood-Quotient

Exakter Test nach Fisher

Zusammenhanglinear-mit-linear

Anzahl der gültigen Fälle

Wert df

Asymptotische Signifikanz

(2-seitig)

ExakteSignifikanz(2-seitig)

ExakteSignifikanz(1-seitig)

Wird nur für eine 2x2-Tabelle berechneta.

17

Um diese Frage zu beantworten soll erläutert werden, wie die Werte errechnet werden. Aus der Kreuztabelle werden die Werte für „Beobachtet“ und „Erwartet“ jeder Zeile wie in derunteren Tabelle zu sehen voneinanderabgezogen.

class * survival Kreuztabelle

203 122 325

105,0 220,0 325,0

118 167 285

92,1 192,9 285,0

178 528 706

228,1 477,9 706,0

212 673 885

285,9 599,1 885,0

711 1490 2201

711,0 1490,0 2201,0

Anzahl

Erwartete Anzahl

Anzahl

Erwartete Anzahl

Anzahl

Erwartete Anzahl

Anzahl

Erwartete Anzahl

Anzahl

Erwartete Anzahl

First Class

Second Class

Third Class

Crew

class

Gesamt

Survival Missing

survival

Gesamt

Anschließend wirddieser Wert quadriert, (um nur positive Werte zu erhalten) und durchdie „erwarteten Werte“dividiert.

Diese Werte werdenschließlich aufaddiertund wir erhalten den Wert desChi-Quadrat-Tests!

Beobachtet B

ErwartetE

B-E (B-E) ² (B-E)² /E

203 105 98 9604 91,46

122 220 -98 9604 43,65

118 92 26 676 7,34

167 193 -26 676 3,50

178 228 -50 2500 10,01

528 478 50 2500 5,23

212 286 -74 5476 19,15

673 599 74 5476 9,14

∑ 189,48

18

Um diese Frage zu beantworten soll erläutert werden, wie die Werte errechnet werden. Aus der Kreuztabelle werden die Werte für „Beobachtet“ und „Erwartet“ jeder Zeile wie in derunteren Tabelle zu sehen voneinanderabgezogen.

class * survival Kreuztabelle

203 122 325

105,0 220,0 325,0

118 167 285

92,1 192,9 285,0

178 528 706

228,1 477,9 706,0

212 673 885

285,9 599,1 885,0

711 1490 2201

711,0 1490,0 2201,0

Anzahl

Erwartete Anzahl

Anzahl

Erwartete Anzahl

Anzahl

Erwartete Anzahl

Anzahl

Erwartete Anzahl

Anzahl

Erwartete Anzahl

First Class

Second Class

Third Class

Crew

class

Gesamt

Survival Missing

survival

Gesamt

Anschließend wirddie Wurzel ausdem Wert E gezogen,denn B-E durchdie Wurzel E geteilt undschließlich wirddas Ganze quadriert (um nurpositive Werte zu erhalten). DieseWerte werdenschließlich aufaddiertund wir erhalten den Wert desChi-Quadrat-Tests!

Beobachtet B

ErwartetE

B-E SQRT(E) B-E/SQRT(E) (B-E/SQRT (E))²

203 105 98 10,24 9,57 91,58

122 220 -98 14,83 -6,60 43,56

118 92 26 9,59 2,71 7,34

167 193 -26 13,89 -1,87 3,49

178 228 -50 15,09 -3,31 10,95

528 478 50 21,86 2,28 5,19

212 286 -74 16,91 -4,37 19,09

673 599 74 24,47 3,02 9,12

∑ 190,32

Einige Lehrbücher berechnen den Wert so:

19

Um einen Aspekt zu verstehen, der diesem Wert entnommen werden kann, verdeutlichen wir uns einmal den Fall, bei dem der beobachtetet Wert nahezu dem erwarteten Wert entspricht:

Beobachtet B Erwartet E B-E SQRT(E) B-E/SQRT(E) (B-E/SQRT (E))²

243 242 1 15,58 0,064 0,00411

Beobachtet B Erwartet E B-E SQRT(E) B-E/SQRT(E) (B-E/SQRT (E))²

1 243 -242 15,58 -15,53 241,18

Anschließend den Wert, der einer maximal möglichen Abweichung entspricht:

Dieser Vergleich zeigt (hoffentlich) deutlich (einen der) hier zugrunde liegendenAspekte: Je höher der Chi-Quadrat-Test Wert, desto größer der Zusammenhangzwischen den betrachteten Variablen. Zurück zu der gestellten Frage ergibt sich folglich, dass die Variablen „Klasse“ mit dem Chi-Quadrat-Test Wert von 190,401 einen höheren Zusammenhang zwischen dieser Variablen und dem Überleben aufweist, als die Variable „Alter“ mit einem Wert von nur 20,956.Kurz: Mit Hilfe des Chi-Quadrat-Test Wertes kann die Stärke des Zusammen-hang zwischen verschiedenen Variablen vergleichend beurteilt werden.

20

Chi-Quadrat-Tests

37,988a

39,610

,123

1667

25,747b

32,087

21,731

64

117,311c

126,601

73,012

425

12,339d

16,983

11,131

45

Chi-Quadrat nachPearson

Likelihood-Quotient

Zusammenhanglinear-mit-linear

Anzahl der gültigen Fälle

Chi-Quadrat nachPearson

Likelihood-Quotient

Zusammenhanglinear-mit-linear

Anzahl der gültigen Fälle

Chi-Quadrat nachPearson

Likelihood-Quotient

Zusammenhanglinear-mit-linear

Anzahl der gültigen Fälle

Chi-Quadrat nachPearson

Likelihood-Quotient

Zusammenhanglinear-mit-linear

Anzahl der gültigen Fälle

ageAdult

Children

Adult

Children

genderMale

Female

Wert

0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwarteteHäufigkeit ist 34,06.

a.

Es ist auch möglich, um eine weitere Variante zuzeigen, sich die Chi-Quadrat-Werte geschichtetanzeigen zu lassen – eineggf. übersichtlichereDarstellungsform.Es zeigt sich, dass von den hier vorliegenden Variablen dieKombination „Female/Adult“den größten Einfluss auf die Frage „Überleben“ oder„Nicht-Überleben“ hatte.

21

Wie lässt sich die Stärke eines Zusammenhangesbei numerischen Werten (intervallskaliertenWerten) auf Basis einer Korrelationsanalyse bewerten?

Mit Hilfe des sog. Korrelationskoeffizienten

22

Ausgangspunkt: Ein Streudiagramm oder Scatterplot

Kör

perlä

nge

Gewicht

Für jede Person, jedes Objekt wird ein Wert erhoben oder

gemessen und am Schnittpunkt der beiden Werte wird eine

Markierung eingetragen

23

Ausgangspunkt: Ein Streudiagramm oder Scatterplot

Kör

perlä

nge

Gewicht

24

Ausgangspunkt: Ein Streudiagramm oder Scatterplot

Kör

perlä

nge

Gewicht

25

Ausgangspunkt: Ein Streudiagramm oder Scatterplot

Kör

perlä

nge

Gewicht

Sog. Regressionsgrade

26

Ausgangspunkt: Ein Streudiagramm oder Scatterplot

Kör

perlä

nge

Gewicht

Summe der kleinstenQuadrate

27

Ausgangspunkt: Ein Streudiagramm oder Scatterplot

Korrelation: Je kleiner die Summe der kleinsten Quadrate, desto stärker der Zusammenhang

Kör

perlä

nge

Gewicht

Summe der kleinstenQuadrate

28Einzelwerte für Variable A

Ein

zelw

erte

für

Var

iabl

e B

Korrelationskoeffizient 0

29Einzelwerte für Variable A

Ein

zelw

erte

für

Var

iabl

e B

Korrelationskoeffizient hoch, positiv

30Einzelwerte für Variable A

Ein

zelw

erte

für

Var

iabl

e B

Korrelationskoeffizient hoch, negativ

31

Positiver korrelativer Zusammenhang: „Je mehr, desto mehr“

Negativer korrelativer Zusammenhang: „Je mehr, desto weniger“

Korrelationskoeffizient +1.0

Korrelationskoeffizient -1.0

32Verlauf über die Zeit

Leis

tung

en in

Kla

sse

A u

nd in

Kla

sse

B

AB

A

A

AA

A

AA

A

AA

A

BB

BB

B

B

B

B

B

B

B

B

B

33Verlauf über die Zeit

Leis

tung

en in

Kla

sse

A u

nd in

Kla

sse

B

AB

A

A

AA

A

AA

A

AA

A

BB

BB

B

B

B

B

B

B

B

B

B

34Verlauf über die Zeit

Leis

tung

en in

Kla

sse

A u

nd in

Kla

sse

B

AB

A

A

AA

A

A

A

A

AA

A

BB

BB

B

B

B

B

B

B

B

B

B

Ausreißer

35

Leis

tung

en in

Kla

sse

B

A

A A

AA

A

A

A

A

AA

A

Böse Falle Null:Missing Value:

Für eine Personliegen keine Angaben zu

der Leistung in Klasse B vor

0

Leistungen in Klasse A

36

Scores of 12th graders on standardized tests (index for average: 100 pts)

GEOMETRY READING GRAMMAR DRAWING CALCULUS HISTORY WRITING SPELLING

1 98,655 98,483 98,094 99,163 97,853 99,987 96,858 98,583

2 98,701 100,394 98,870 97,872 100,313 103,135 100,480 98,112

3 98,399 97,799 98,822 96,949 96,796 101,657 96,900 98,823

4 98,032 100,207 101,876 98,151 99,570 102,063 101,035 99,924

5 97,962 99,147 98,886 99,318 100,372 101,457 98,850 98,691

6 98,981 102,662 103,544 98,116 98,054 102,774 102,450 104,772

7 94,024 98,124 97,377 92,904 92,288 101,826 98,890 96,106

8 99,410 106,941 108,109 98,651 99,025 107,434 104,996 106,469

9 100,327 98,228 97,282 101,636 102,193 100,004 97,964 98,979

10 99,014 99,284 99,634 98,339 98,468 101,214 100,687 101,721

11 102,358 99,548 99,599 103,473 103,778 102,091 99,776 97,062

12 98,470 99,212 98,047 97,710 99,047 99,465 97,632 95,526

13 97,689 103,773 104,649 96,524 95,386 105,934 103,168 103,302

14 102,657 96,935 98,332 102,945 103,428 97,203 98,076 99,835

15 101,586 94,367 94,817 100,865 102,702 95,990 96,305 93,534

16 102,202 97,450 99,258 101,766 102,481 100,471 96,756 99,404

17 101,536 100,455 99,534 100,060 99,558 103,421 100,778 100,099

18 98,469 100,804 99,322 97,412 97,612 103,925 99,504 101,752

19 102,980 99,128 97,710 102,023 103,068 102,579 98,051 98,455

20 99,450 103,106 103,938 100,844 99,197 106,890 102,378 103,188

21 100,607 103,657 103,662 101,333 100,136 105,343 103,572 104,477

37

92 94 96 98 100 102 104 106

DRAWING

92

94

96

98

100

102

104

106G

EO

ME

TR

Y

DRAWING:GEOMETRY: r = 0,9032; p = 0.0000; r 2 = 0,8159

Beachten Sie den Korrelationsquotienten!

38

92 94 96 98 100 102 104 106

DRAWING

-20

0

20

40

60

80

100

120G

EO

ME

TR

Y

DRAWING:GEOMETRY: r = -0,0787; p = 0,4879; r 2 = 0,0062

"Übeltäter": der Ausreißer

Beachten Sie den Korrelationsquotienten!

39

Welche Möglichkeiten des Umgangs mit fehlenden Werten gibt es?

Y

X

Y

X

Bei kategorialen Merkmalenhäufigste Ausprägung der

k nächsten Nachbarn

Bei metrischen Merkmalendurchschnittlicher Wert der

k nächsten Nachbarn

Aber auch: Missing Values rauswerfen!

40

90 92 94 96 98 100 102 104 106 108 110 112

SPELLING

92

94

96

98

100

102

104

106D

RA

WIN

G

SPELLING:DRAWING: r = 0,0164; p = 0,8850; r 2 = 0,0003

41

Wie kann der Befund von Snow transformiert werden und wozu?

• Um Vergleiche zwischen den Stärken des Effekts möglich zu machen• Um die wirkungsvollsten Interventionsansatz zu bestimmen• Um die Wirkungen von Interventionen abschätzen zu können• …• ..

42

43

„Snow“ enthält kategoriale Daten:• Brunnen• An Cholera Verstorbene

Wie ließen sich diese kategorialenDaten in numerische übertragen?

44

Beispiel:

45

Dis

tanz

Anzahl der Erkrankten

46

Dis

tanz

Anzahl der Erkrankten

47

Dis

tanz

Anzahl der Erkrankten

48

Dis

tanz

Anzahl der Erkrankten

„Schwelle“

49

Dis

tanz

Anzahl der Erkrankten

50

Pitc

h

Mea

n M

ean±

0,95

Con

f. I

nter

val

p rofession: Novize

Pitch0,82

0,84

0,86

0,88

0,90

0,92

0,94

0,96

0,98

1,00

1,02

1,04

profession: Experte

Pitch

51

Hea

ding

_deg

Mea

n M

ean±

0,95

Con

f. I

nter

val

p rofession: Novize

Heading_deg198,5

199,0

199,5

200,0

200,5

201,0

201,5

202,0

202,5

profession: Experte

Heading_deg

52

Spe

ed_k

n

Mea

n M

ean±

0,95

Con

f. I

nter

val

p rofession: Novize

Speed_kn8,8

9,0

9,2

9,4

9,6

9,8

10,0

10,2

10,4

profession: Experte

Speed_kn

53

541 3 5 7 9 11 13 15 17 190

10

20

30

40

50

60F

ehle

r

„schlecht“

„gut“

55

Unterschiede messen

0 1 2 3 4 5 6 7 8 9 10

Median Mean

Median ist der Punkt, bei dem die eine Hälfte der Werte oberhalb und die andere unterhalb dieses Punktes liegt

Der Mittelwert wird berechnet durch die Summe aller Werte geteilt durch dieAnzahl der Werte

56

X = ∑ xi

n

Mathematisch wird die Berechnung desMittelwertes so dargestellt:

X ausgesprochen: X Strich oder x quer ist das Symbol für den Mittelwert

∑ dies ist der griechische Großbuchstabe für Sigma und das sog.Summenzeichen, d.h. alle Messwerte müssen addiert werden

xi dieses Zeichen steht für sämtliche Einzelmesswerte

n und n steht schließlich für die Anzahl der durchgeführten Messungen

57

Unterschiede messen

Zwei weit verbreite, einfache Methoden:

• Zwischen zwei Klassen unterscheiden: Gut ↔ Schlecht• Zwischen vier (oder einer anderen Anzahl von) Perzentilen unterscheiden

58

Unterschiede messen

Keine Variation vorhanden

59

Unterschiede messen In welchem Maß ist Variation vorhanden?

Erste Ebene: Spannbreite (R für range)

R = Xmax – Xmin

60

Unterschiede messen In welchem Maß ist Variation vorhanden?

Zweite Ebene: Summe der quadrierten Fehler (Abweichungen)

Mean

σ² =∑ xi X-( )

n - 1

2

61

Unterschiede messen In welchem Maß ist Variation vorhanden?

Dritte Ebene: Standardabweichung

Mean

σ =∑ xi X-( )

n - 1√

2

62

Unterschiede messen In welchem Maß ist Variation vorhanden?

Vierte Ebene: z-TransformationAbstand jeder Messung zum Mittelwert, geteilt durch die Standardabweichung

z =xi X-

σx

Alle Mittelwerte werden Null, die Abstände werden standardisiert; die relative Lage jeder Messung kann verglichen werden

Mean0

Mean0

63

64

(leicht hinkender Vergleich)

Sie wollen verschieden formatige, verschieden große Bilder auf eine Seite bringen

65

(leicht hinkender Vergleich)

Sie wollen verschieden formatige, verschieden große Bilder auf eine Seite bringen

66

Mittelwerte:64,55 49,26

Std.-Abw.:11,623 29,831

67

Wirkung der Z-Transformation:

ZSPELLING(L) PSPELLIN(R)

-3 -2 -1 0 1 2 3 4

-20 0 20 40 60 80 100 120

92,547

95,147

96,106

97,404

98,112

98,823

99,412

99,835

100,339

101,433

102,704

103,749

105,041

108,323

Mit Hilfe dieser Grafik wird erkennbar, was die Prozentränge im Unterschied zu den Z-standardisierten Werten angeben:

Am linken Rand sind dieRohwerte abgetragen,am oberen Rand dieProzentränge und am unteren Rand diez-standardisierten Werte.

Wie ersichtlich, hat derhöchste Rohwert denProzentrang 100 und denZ-Wert +3. Der niedrigsteRohwert hingegen denProzentrang 1,25 und denZ-Wert -2.

69

Prozenträngecum f % = 100

cum f

N

Rohwert Fälle f cum f cum f % PR

80

..

..

5 25 25 98

4 18 18 73 24,3 24

3 19 19 55 18,3 18

2 15 15 36 12,0 12

1 12 12 21 7,0 7

0 9 9 9 3,0 3

(N = 300)

300 = 100 % 9 = x %

70

sog. ‚Absoluter Rangwert‘:1. Rang + 2. Rang/2 = 1,5

Werte mal 100/Max-Wert:

2*100 = 200/30 = 6,66666

Relative Rangfolge in %:20 = 100 %1,5 = x %

Z-Transformation

71

Line Plot of VAR00001Beispiel_Z_Proz_Werte 4v*20c

VAR00001(L) PVAR0000(R)0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

0

5

10

15

20

25

30

35

0

20

40

60

80

100

120

72

Line Plot of VAR00001Beispiel_Z_Proz_Werte 4v*20c

VAR00001(L) ZVAR00001(R)0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

0

5

10

15

20

25

30

35

-1,4

-1,2

-1,0

-0,8

-0,6

-0,4

-0,2

0,0

0,2

0,4

0,6

0,8

1,0

1,2

73

Line Plot of VAR00001Beispiel_Z_Proz_Werte 4v*20c

VAR00001(L) Real_Proz(R)0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

0

5

10

15

20

25

30

35

0

20

40

60

80

100

120

74

2 3 4 5 26 27 28 29 30

N_A_1

0

1

2

3

4H

äufig

keite

n

75

N_A_10 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

0

5

10

15

20

25

30

35

76

PN_A_1(L) ZN_A_1(R)

2,00

2,00

3,00

3,00

3,00

4,00

4,00

4,00

5,00

26,0

0

27,0

0

27,0

0

28,0

0

28,0

0

28,0

0

29,0

0

29,0

0

29,0

0

30,0

0

30,0

0

0

20

40

60

80

100

120

-1,4

-1,2

-1,0

-0,8

-0,6

-0,4

-0,2

0,0

0,2

0,4

0,6

0,8

1,0

1,2

77

2 3 4 12 13 14 15 16 17 27 28 29 30

N_A_2

0

1

2

3

4H

äufig

keite

n

78

N_A_20 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

0

5

10

15

20

25

30

35

79

PN_A_2(L) ZN_A_2(R)

2,00

2,00

3,00

3,00

3,00

4,00

4,00

12,0

0

13,0

0

13,0

0

14,0

0

15,0

0

16,0

0

17,0

0

27,0

0

28,0

0

28,0

0

29,0

0

30,0

0

30,0

0

0

20

40

60

80

100

120

-1,4

-1,2

-1,0

-0,8

-0,6

-0,4

-0,2

0,0

0,2

0,4

0,6

0,8

1,0

1,2

1,4

1,6

80

2 3 4 7 9 11 12 13 14 16 17 19 21 24 25 26 28 29 30

N_A_3

0

1

2

3H

äufig

keite

n

81

N_A_30 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

0

5

10

15

20

25

30

35

82

PN_A_3(L) ZN_A_3(R)

2,00

3,00

4,00

7,00

9,00

11,0

0

12,0

0

12,0

0

13,0

0

14,0

0

16,0

0

17,0

0

19,0

0

21,0

0

24,0

0

25,0

0

26,0

0

28,0

0

29,0

0

30,0

0

0

20

40

60

80

100

120

-2,0

-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

83

1

2

3

4

5

6

7

8

Rangreihe:

• Einfache Aussage über Reihenfolge• Hohe Reliabilität, etwa durch Paarvergleich• Keine Informationen über Abstände• Vergleichbarkeit nur bei identischen N‘s

84

1

2

3

4

5

6

7

8

Quartile:

• Grobe Aussage über die Stellung in einer Reihe• Hohe Reliabilität, weil recht ‚simpel‘• Sehr grobe Informationen über Abstände• Einfache Vergleichbarkeit über verschiedene Bereiche hinweg

I. Quartil

II. Quartil

III. Quartil

VI. Quartil

85

Prozentrang:

• Aussage über die Stellung in einer Reihe• Reliabilität von der Messung abhängig• Keine Informationen über Abstände• Einfache Vergleichbar- keit über verschiedene Bereiche hinweg

Werte Quartil Prozentrang

30 4 100,00

28 4 90,00

21 3 80,00

16 3 70,00

12 3 60,00

11 2 50,00

6 2 40,00

5 2 30,00

1 1 20,00

0 1 10,00

86

Relativer Prozentrang:(100*Wert)/MaxWert

• Genaue Aussage über die Stellung in einer Reihe• Reliabilität von der Messung abhängig• Informationen über Abstände• Einfache Vergleichbar- keit über verschiedene Bereiche hinweg

Werte Relativer Prozentrang

30 100,00

28 93,33

21 70,00

16 53,33

12 40,00

11 36,67

6 20,00

5 16,67

1 3,33

0 ,00

87

88

Werte Rel. % Z-Werte Note

30 100,00 1,59844 2

28 93,33 1,41039 2

21 70,00 ,75221 3

16 53,33 ,28208 3

12 40,00 -,09403 4

11 36,67 -,18805 4

6 20,00 -,65818 4

5 16,67 -,75221 4

1 3,33 -1,12831 5

0 ,00 -1,22234 5

89

Umwandlung eines numerischen Wertes in einen kategorialen Wert

93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109

WRITING

0

2

4

6

8

10

12

Häu

figke

iten

WRITING: N = 80; Mw. = 99,82; Stdabw. = 3,3777; Max. = 109,1118; Min. = 93,5138

9093 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109

WRITING

0

2

4

6

8

10

12H

äufig

keite

n

WRITING: N = 80; Mw. = 99,82; Stdabw. = 3,3777; Max. = 109,1118; Min. = 93,5138

"Gute Schreiber"

"SchlechteSchreiber"

Deskriptive Statistik (School perfomance)Gült. N Mittelw. Median Minimum Maximum Stdabw.

WRITING 80 99,82004 99,56863 93,51375 109,1118 3,377652

91

Mittelwert:

Arithmetisches Mittel = Summe aller beobachteten Merkmalswerte dividiert durch die Anzahl der Beobachtungen

Median (auch Zentral- oder 50% Wert):

Der Median ist der Wert für den gilt,dass 50% aller Werte größer oder gleich sind. Der Median halbiertdie Stichprobenverteilung

92

Deskriptive Statistik (School perfomance)Gült. N Mittelw. Median Minimum Maximum Stdabw.

WRITING 90 121,5067 100,1944 93,51375 410,0000 66,48269

50 100 150 200 250 300 350 400 450

WRITING

0

5

10

15

20

25

30

35

40

45

50H

äufig

keite

n

WRITING: N = 90; Mw. = 121,5067; Stdabw. = 66,4827; Max. = 410; Min. = 93,5138

Mw. = Mittelwert

Median

93

Gült. N Mittelw. Median Minimum Maximum Stdabw.

WRITING 80 99,82004 99,56863 93,51375 109,1118 3,377652

Gült. N Mittelw. Median Minimum Maximum Stdabw.

WRITING 90 121,5067 100,1944 93,51375 410,0000 66,48269

94

951 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 200

10

20

30

40

50

60F

ehle

r

Gruppenzugehörigkeit: A

Gruppenzugehörigkeit: B

Gruppenzugehörigkeit: C

961 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 200

10

20

30

40

50

60F

ehle

r

Gibt es „Muster“ in der Verteilung?

970,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,60

1

2

3

4

5

6

7

8

980,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,60

1

2

3

4

5

6

7

8

990,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,60

1

2

3

4

5

6

7

8

100

Fisher (1936) Irisdaten: Länge und Breite von Blättern und Kelchen für 3 Iristypen

Kelchlänge Kelchbreite Blattlänge Blattbreite Iristyp

1 5 3,3 1,4 0,2 Setosa

2 6,4 2,8 5,6 2,2 Virginic

3 6,5 2,8 4,6 1,5 Versicol

4 6,7 3,1 5,6 2,4 Virginic

5 6,3 2,8 5,1 1,5 Virginic

6 4,6 3,4 1,4 0,3 Setosa

7 6,9 3,1 5,1 2,3 Virginic

8 6,2 2,2 4,5 1,5 Versicol

9 5,9 3,2 4,8 1,8 Versicol

10 4,6 3,6 1 0,2 Setosa

11 6,1 3 4,6 1,4 Versicol

12 6 2,7 5,1 1,6 Versicol

13 6,5 3 5,2 2 Virginic

14 5,6 2,5 3,9 1,1 Versicol

15 6,5 3 5,5 1,8 Virginic

16 5,8 2,7 5,1 1,9 Virginic

17 6,8 3,2 5,9 2,3 Virginic

18 5,1 3,3 1,7 0,5 Setosa

19 5,7 2,8 4,5 1,3 Versicol

20 6,2 3,4 5,4 2,3 Virginic

21 7,7 3,8 6,7 2,2 Virginic

22 6,3 3,3 4,7 1,6 Versicol

23 6,7 3,3 5,7 2,5 Virginic

24 7,6 3 6,6 2,1 Virginic

25 4,9 2,5 4,5 1,7 Virginic

Durch was unterscheidensich die drei Iristypen?

101

• Kategoriale Werte (gut/schlecht)• Metrische Werte (1, 2, 3, 4, ..)[Nominale, Ordinale Werte]

Split:Welche Variable trennt am besten bei welchem Wert?

CART(classification

and regression trees)

102

Scatterp lot für B lattlänge vs. B lattbreite

Irisdat 5v*150c

0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,6

B lattbre ite

0

1

2

3

4

5

6

7

8

Bla

ttlän

ge

103

S

VVER

V

V

S

V

VER

VER

S

VER

VER

V

VER

V

V

VS

VER

V

V

VER V

V

V

S

V

VERVER

VER

SV

VERV

V

S

S

VER

V

SV

S

VER

S

VV

S

VER

V

S

S

V

S

S

S

V

V

S

S

S

VER

V

S

S

VER

VER

S

S

VER

VER

S

S

V

V

V

VERV

S

S

VV

VV

VER

VER

VER

S

S

V

V

S

VER

VER

VERS

S

VER

VER

VER

SS

V

VERV

VER

SS

V

VER

V

V

S VER

VER

S

VER

VER

VERVER

VER

VER

VV

S

SV

V

VERVER

VER

V

V

VER

S

S

S

V

SS

VER

VER

VER

S

S

S

V

VER

V

S

VER

4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5

Kelchlänge

1,8

2,0

2,2

2,4

2,6

2,8

3,0

3,2

3,4

3,6

3,8

4,0

4,2

4,4

4,6K

elch

bre

ite S

VVER

V

V

S

V

VER

VER

S

VER

VER

V

VER

V

V

VS

VER

V

V

VER V

V

V

S

V

VERVER

VER

SV

VERV

V

S

S

VER

V

SV

S

VER

S

VV

S

VER

V

S

S

V

S

S

S

V

V

S

S

S

VER

V

S

S

VER

VER

S

S

VER

VER

S

S

V

V

V

VERV

S

S

VV

VV

VER

VER

VER

S

S

V

V

S

VER

VER

VERS

S

VER

VER

VER

SS

V

VERV

VER

SS

V

VER

V

V

S VER

VER

S

VER

VER

VERVER

VER

VER

VV

S

SV

V

VERVER

VER

V

V

VER

S

S

S

V

SS

VER

VER

VER

S

S

S

V

VER

V

S

VER

104

S

V

VER

V

V

S

V

VER

VER

S

VER

VER

V

VER

VV

V

S

VER

VV

VER

V

V

V

S

V

VERVER

VER

S

V

VER

V

V

SS

VER

V

S

V

S

VER

S

V

V

S

VER

V

SS

V

SSS

V

V

SS

S

VER

V

SS

VER

VER

S

S

VER

VER

S

S

VV

V

VER

V

S

S

V

VV V

VER

VERVER

SS

V

V

S

VERVER

VER

SS

VERVER

VER

S S

V

VER

V

VER

SS

V

VER

VV

S

VER

VER

S

VER

VER

VERVER

VER

VER

VV

SS

V

V

VERVER

VER

V

V

VER

SS

S

V

SS

VERVER VER

S

S

S

V

VER

V

S

VER

0 1 2 3 4 5 6 7 8

B lattlänge

0,0

0,2

0,4

0,6

0,8

1,0

1,2

1,4

1,6

1,8

2,0

2,2

2,4

2,6B

lattb

reite

S

V

VER

V

V

S

V

VER

VER

S

VER

VER

V

VER

VV

V

S

VER

VV

VER

V

V

V

S

V

VERVER

VER

S

V

VER

V

V

SS

VER

V

S

V

S

VER

S

V

V

S

VER

V

SS

V

SSS

V

V

SS

S

VER

V

SS

VER

VER

S

S

VER

VER

S

S

VV

V

VER

V

S

S

V

VV V

VER

VERVER

SS

V

V

S

VERVER

VER

SS

VERVER

VER

S S

V

VER

V

VER

SS

V

VER

VV

S

VER

VER

S

VER

VER

VERVER

VER

VER

VV

SS

V

V

VERVER

VER

V

V

VER

SS

S

V

SS

VERVER VER

S

S

S

V

VER

V

S

VER

105

S

V

VER

V

V

S

V

VER

VER

S

VER

VER

V

VER

VV

V

S

VER

VV

VER

V

V

V

S

V

VERVER

VER

S

V

VER

V

V

SS

VER

V

S

V

S

VER

S

V

V

S

VER

V

SS

V

SS S

V

V

SS

S

VER

V

S S

VER

VER

S

S

VER

VER

S

S

VV

V

VER

V

S

S

V

VVV

VER

VERVER

SS

V

V

S

VERVER

VER

SS

VER VER

VER

SS

V

VER

V

VER

SS

V

VER

VV

S

VER

VER

S

VER

VER

VERVER

VER

VER

VV

SS

V

V

VERVER

VER

V

V

VER

SS

S

V

SS

VERVERVER

S

S

S

V

VER

V

S

VER

1,8 2,0 2,2 2,4 2,6 2,8 3,0 3,2 3,4 3,6 3,8 4,0 4,2 4,4 4,6

Kelchbre ite

0,0

0,2

0,4

0,6

0,8

1,0

1,2

1,4

1,6

1,8

2,0

2,2

2,4

2,6B

lattb

reite

S

V

VER

V

V

S

V

VER

VER

S

VER

VER

V

VER

VV

V

S

VER

VV

VER

V

V

V

S

V

VERVER

VER

S

V

VER

V

V

SS

VER

V

S

V

S

VER

S

V

V

S

VER

V

SS

V

SS S

V

V

SS

S

VER

V

S S

VER

VER

S

S

VER

VER

S

S

VV

V

VER

V

S

S

V

VVV

VER

VERVER

SS

V

V

S

VERVER

VER

SS

VER VER

VER

SS

V

VER

V

VER

SS

V

VER

VV

S

VER

VER

S

VER

VER

VERVER

VER

VER

VV

SS

V

V

VERVER

VER

V

V

VER

SS

S

V

SS

VERVERVER

S

S

S

V

VER

V

S

VER

106

S

V

VER

V

V

S

V

VERVER

S

VER

VER V

VER

V

V

V

S

VER

V

V

VER

V

V

V

S

V

VERVER

VER

S

V

VER

VV

SS

VER

V

S

V

S

VER

S

V

V

S

VER

V

SS

V

SS

S

V V

S S

S

VER

V

S S

VER

VER

SS

VER

VER

SS

V

V

V

VER

V

SS

V

V

V

V

VER

VERVER

SS

V

V

S

VER

VER

VER

SS

VERVER

VER

SS

V

VER

V

VER

SS

V

VER

V

V

S

VERVER

S

VER

VERVER

VER

VER

VER

V

V

SS

V

V

VER

VER

VER

VV

VER

SSS

V

SS

VER

VER

VER

SS S

V VER

V

S

VER

4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5

Kelchlänge

0

1

2

3

4

5

6

7

8B

lattl

äng

e

S

V

VER

V

V

S

V

VERVER

S

VER

VER V

VER

V

V

V

S

VER

V

V

VER

V

V

V

S

V

VERVER

VER

S

V

VER

VV

SS

VER

V

S

V

S

VER

S

V

V

S

VER

V

SS

V

SS

S

V V

S S

S

VER

V

S S

VER

VER

SS

VER

VER

SS

V

V

V

VER

V

SS

V

V

V

V

VER

VERVER

SS

V

V

S

VER

VER

VER

SS

VERVER

VER

SS

V

VER

V

VER

SS

V

VER

V

V

S

VERVER

S

VER

VERVER

VER

VER

VER

V

V

SS

V

V

VER

VER

VER

VV

VER

SSS

V

SS

VER

VER

VER

SS S

V VER

V

S

VER

107

Scatterplot of Kelchbreite against Kelchlänge

Irisdat.sta 5v*150c

4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5

Kelchlänge

1,8

2,0

2,2

2,4

2,6

2,8

3,0

3,2

3,4

3,6

3,8

4,0

4,2

4,4

4,6

Kel

chbr

eite

108

Scatterplot of Blattlänge against Kelchlänge

Irisdat.sta 5v*150c

4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5

Kelchlänge

0

1

2

3

4

5

6

7

8

Bla

ttlän

ge

109

Scatterplot of Blattbreite against Kelchlänge

Irisdat.sta 5v*150c

4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5

Kelchlänge

0,0

0,2

0,4

0,6

0,8

1,0

1,2

1,4

1,6

1,8

2,0

2,2

2,4

2,6

Bla

ttbre

ite

110

Scatterplot of Blattlänge against Kelchbreite

Irisdat.sta 5v*150c

1,8 2,0 2,2 2,4 2,6 2,8 3,0 3,2 3,4 3,6 3,8 4,0 4,2 4,4 4,6

Kelchbreite

0

1

2

3

4

5

6

7

8

Bla

ttlän

ge

111

Scatterplot of Blattbreite against Kelchbreite

Irisdat.sta 5v*150c

1,8 2,0 2,2 2,4 2,6 2,8 3,0 3,2 3,4 3,6 3,8 4,0 4,2 4,4 4,6

Kelchbreite

0,0

0,2

0,4

0,6

0,8

1,0

1,2

1,4

1,6

1,8

2,0

2,2

2,4

2,6

Bla

ttbre

ite

112

Scatterplot of Blattbreite against Blattlänge

Irisdat.sta 5v*150c

0 1 2 3 4 5 6 7 8

Blattlänge

0,0

0,2

0,4

0,6

0,8

1,0

1,2

1,4

1,6

1,8

2,0

2,2

2,4

2,6

Bla

ttbre

ite

113

M atrixplot

Irisdat 6v*150c

Kelc h länge

Kelc hbre ite

B lat t länge

B lat tbre ite

Ty p

114

Matrixplot mit Brushing-Funktion

VirginicVirginic

VirginicVirginic

VirginicVirginic

VirginicVirginic VirginicVirginic VirginicVirginic

VirginicVirginic VirginicVirginic VirginicVirginic

VirginicVirginic

VirginicVirginic

VirginicVirginic

VirginicVirginic

VirginicVirginic

VirginicVirginic

VirginicVirginic VirginicVirginic VirginicVirginic

VirginicVirginic VirginicVirginic VirginicVirginic

VirginicVirginic

VirginicVirginic

VirginicVirginic

Kelchlänge

Kelchbreite

Blattlänge

Blattbreite

115

Matrix Plot

Irisdat.sta 5v*150c

Kelchlänge

Kelchbreite

Blattlänge

Blattbreite

Iristyp

116

Klassifikationsbaum für Iristyp

Anzahl Splits = 2; Anzahl Endknoten = 3

1

2 3

4 5

Bla ttlänge<=2 ,0958

Bla ttb re ite<=1 ,6442

50 100

52 48

Se tosa

Se tosa Vers ico l

Ve rs ico l Virg in ic

SetosaVersico lVirg in ic

117

Rangfolge für Bedeutung Prädiktoren

Abhängige Variab le: Iristyp

Rangfolge auf Skala von 0= niedrige Bed. b is 100=hohe Bedeutung

Kelchlänge Kelchbre ite B lattlänge B lattbre ite

Prädiktor-Variab le

0

20

40

60

80

100

nge

118

Fehlklassifikationsmatrix Lernstichprobe (Irisdat) Matrix progn. (Zeile) x beob. (Spalte) Lernstichprobe N = 150

Klasse - Setosa Klasse - Versicol Klasse - Virginic

Setosa 0 0

Versicol 0 4

Virginic 0 2

Prognost. Klasse x Beob. Klasse n's (Irisdat) Matrix progn. (Zeile) x beob. (Spalte) Lernstichprobe N = 150

Klasse - Setosa Klasse - Versicol Klasse - Virginic

Setosa 50 0 0

Versicol 0 48 4

Virginic 0 2 46

119

Split-Bedingung (Irisdat) Split-Bedingung je Knoten

Split - Konst. Split - Variable

1 -2,09578 Blattlänge

2

3 -1,64421 Blattbreite

120

Funktion = 2,09578

S

V

VER

V

V

S

V

VERVER

S

VER

VER V

VER

V

V

V

S

VER

V

V

VER

V

V

V

S

V

VERVER

VER

S

V

VER

VV

SS

VER

V

S

V

S

VER

S

V

V

S

VER

V

SS

V

SS

S

V V

S S

S

VER

V

SS

VER

VER

SS

VER

VER

SS

V

V

V

VER

V

SS

V

V

V

V

VER

VERVER

SS

V

V

S

VER

VER

VER

SS

VERVER

VER

SS

V

VER

V

VER

SS

V

VER

V

V

S

VERVER

S

VER

VERVER

VER

VER

VER

V

V

SS

V

V

VER

VER

VER

VV

VER

SS S

V

SS

VER

VER

VER

SSS

VVER

V

S

VER

0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,6

B lattbre ite

0

1

2

3

4

5

6

7

8

Bla

ttlän

ge

S

V

VER

V

V

S

V

VERVER

S

VER

VER V

VER

V

V

V

S

VER

V

V

VER

V

V

V

S

V

VERVER

VER

S

V

VER

VV

SS

VER

V

S

V

S

VER

S

V

V

S

VER

V

SS

V

SS

S

V V

S S

S

VER

V

SS

VER

VER

SS

VER

VER

SS

V

V

V

VER

V

SS

V

V

V

V

VER

VERVER

SS

V

V

S

VER

VER

VER

SS

VERVER

VER

SS

V

VER

V

VER

SS

V

VER

V

V

S

VERVER

S

VER

VERVER

VER

VER

VER

V

V

SS

V

V

VER

VER

VER

VV

VER

SS S

V

SS

VER

VER

VER

SSS

VVER

V

S

VER

121

Scatterp lot für B lattlänge vs. B lattbreite

Irisdat 5v*150c

E inschluss v5= 'Setosa' E inschluss V5= 'Vericol' E inschluss v5= 'Virg in ic ' Andere 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,6

B lattbre ite

0

1

2

3

4

5

6

7

8

Bla

ttlän

ge

122

Scatterp lot für B lattlänge vs. B lattbreite

Irisdat 5v*150c

Funktion = 2,09578

E inschluss v5= 'Setosa' E inschluss v5= 'Virin ic ' E inschluss v5= 'Versicol' Andere 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,6

B lattbre ite

0

1

2

3

4

5

6

7

8

Bla

ttlän

ge

123

Zwei, von vielen Problemen:• Feature Choise• Overfitting, Underfitting

124

Zwei, von vielen Problemen:• Feature Choise• Overfitting, Underfitting

125

a b

Kategoriale Splits

< 0,5 > 0,5

< 0,5 > 0,5, < 1,8 > 1,8

Bivariate Splits

Multivariate Splits

126

Wie kann man dieses Problem lösen?

Etwa mit Hilfe einer sog. „Kreuzvalidierung“:

Alle Daten

TeilmengeAnalyse und Modellbildung

Anwendungauf andereTeilmenge

127

Daten

Datenteilen

Trainings-daten

Validierungs-daten

Modell-bewertung

128

Predicted Class by Observed Class n's for gut_schlecht

Vierter Schritt: Wovon ist „gut“ oder „schlecht“ abhängig? Güte der erreichten Aufklärung überprüfen

129

130

Practical Significance

Statistical Significance

131

Practical Significance

Statistical Significance

Datensatz

50% Datensatz

50% Datensatz

Modell/Zusammenhang

ZufallModell/Zusammenhang = Zufall?

Modell/Zusammenhang >/< Zufall?

Was, wenn keinZusammenhang?

132

Zusammenfassung der behandelten methodischen Ansätze:

Eine bislang unbehandelte Frage lautet: Wie aussagekräftig sind die jeweils gewonnenen Befunde?

133

Folgende Hypothese soll geprüft werden:

H0 Person A besitzt keine hellseherischen Fähigkeiten

H1 Person A verfügt über hellseherische Fähigkeiten

Unter welchen Bedingungen kann H0 bestätigt/verworfen werden?Unter welchen Bedingungen kann H1 bestätigt/verworfen werden?

Es gibt Konventionen, die als Grundlage der Entscheidunggenutzt werden können/sollten: Das Signifikanzniveau.

Irrtumswahrscheinlichkeit Bedeutung Symbolisierung

p > 0,05 nicht signifikant ns

p <= 0,05 signifikant *

p <= 0,01 sehr signifikant **

p <= 0,001 höchst signifikant ***

134

Wie groß ist die Wahrscheinlichkeit dreimal „Kopf“ zu erhalten, wenn drei mal eine Münze geworfen wird?

Dazu müssen wir uns die Möglichkeiten vor Augen führen:(K = Kopf; W = Wappen)

WWW, WWK, WKW, KWW, WKK, KWK, KKW und KKK

Wir haben folglich 8 Möglichkeiten, davon erfüllt eineunsere Bedingung.

Die Wahrscheinlichkeit p ist demnach 1/8 oder 0,125.

135Wahrscheinlichkeit p bei drei Würfen

136

Wie groß ist die Wahrscheinlichkeit viermal „Kopf“ zu erhalten, wenn vier mal eine Münze geworfen wird?

Dazu erneut die Möglichkeiten: (K = Kopf; W = Wappen)

W W W W K K K K W W K K K W K WW W W K K K K W W K K W W K W KW W K W K K W K K K W WW K W W K W K K K W W KK W W W W K K K

Wir haben folglich 16 Möglichkeiten, davon erfüllt eineunsere Bedingung.

Die Wahrscheinlichkeit p ist demnach 1/16 oder 0,0625.

137

Signifikanzstufen

Irrtumswahrscheinlichkeit Bedeutung Symbolisierung

p > 0,05 nicht signifikant ns

p <= 0,05 signifikant *

p <= 0,01 sehr signifikant **

p <= 0,001 höchst signifikant ***

138

„Ein Wert von p = 0.05 besagt unter der Annahme,dass kein Effekt existiert, dass – vereinfacht aus-gedrückt, puristische Methodiker mögen mit derStirn runzeln – bei dieser Stichprobengröße einmindestens so großer Effekt nur in 5% allervergleichbar angelegter Studien beobachtet werdenkann.“

Rost 2007, 81

139

Irrtumswahrscheinlichkeit:

Ein p = 0,03 bedeutet:Die Wahrscheinlichkeit, dass unter der Annahme, die Nullhypothese sei richtig, das gegebeneUntersuchungsergebnis oder ein noch extremeresauftritt, beträgt 0,03 oder 3%.

Signifikanzstufen

p <= 0,05 signifikant *

p <= 0,01 sehr signifikant **

p <= 0,001 höchst signifikant ***

140

Ergebnis einer hypothetischen Studie, in der die Ausbildung von Paaren verglichen wird (aus: Sedlmeier & Renkewitz 2008, 370):

Partner Partnerin VorzeichenStudium Realschule +Gymnasium Realschule +Realschule Gymnasium -

+-+=-+++

Es finden sichsomit 7 positiveVorzeichen.

Ist das Ergebnisauf dem 5%Niveausignifikant?

Wie hoch ist dieWahrscheinlichkeitfür 0, 1, 2 etc.positive Vorzeichen?

Vorzeichentest nach Fischer

141

Wahrscheinlichkeiten für die einzelnen Ergebnisse in Prozentwerten

0,11

4,4

11,7

20,5

24,6

20,5

11,7

4,4

10,1

0 1 2 3 4 5 6 7 8 9 100

2

4

6

8

10

12

14

16

18

20

22

24

26

0,11

4,4

11,7

20,5

24,6

20,5

11,7

4,4

10,1

Wahrscheinlich-keit = 5,5 %

142

Wenn, wie im vorliegenden Fall, von zehn Paaren sieben einpositives Vorzeichen aufweisen (Bildungsabschluss des männlichen Partners höher als der des weiblich), dann liegt die Wahrscheinlichkeit dafür:

• 0,1 % +• 1,0 % +• 4,4 % +• 11,7 % =• 17,2 %

Es wäre gemäß der Konvention also falsch, darausirgendwelche Schlussfolgerungen zu ziehen.

143

Erstellen einer einfachen Probedatei mit folgendem Inhalt:

144

Bei zwei Beobachtungen pro Schulform ergeben sich damit 3 mal 8 = 24 Kombinationsmöglichkeiten:

№ Schulform Abschluss

1 1 0

2 1 0

3 1 1

4 1 1

5 1 1

6 1 0

7 1 0

8 1 1

145

Die Wahrscheinlichkeit p ist demnach für eine ‚Abweichung‘ von

einem Fall bei sechs Beobachtungen 01/06

entspricht der Wahrscheinlichkeit vom 8/24 p = 0,33333

146

147

148

149

150

151

152

153

154

155

Scatterplot of HISTORY against READINGSchool perfomance 8v*80c

HISTORY = 1,4433+1,0072*x

92 94 96 98 100 102 104 106 108 110

READING

94

96

98

100

102

104

106

108

110

112

HIS

TO

RY

READING:HISTORY: y = 1,4433 + 1,0072*x; r = 0,9510; p = 0.0000;r2 = 0,9043

N = 80

156

Scatterplot of HISTORY against READINGSpreadsheet4 8v*4c

HISTORY = -5,2081+1,0798*x

96 98 100 102 104 106 108 110

READING

98

100

102

104

106

108

110

112

HIS

TO

RY

READING:HISTORY: y = -5,2081 + 1,0798*x; r = 0,9909; p = 0,0091; r 2 = 0,9819

N = 4

157

Scatterplot of HISTORY against READINGSpreadsheet5 8v*8c

HISTORY = 3,2114+0,99*x

94 96 98 100 102 104 106 108

READING

96

98

100

102

104

106

108

110

HIS

TO

RY

READING:HISTORY: y = 3,2114 + 0,99*x; r = 0,9602; p = 0,0002;r2 = 0,9220

N = 8

158

Scatterplot of HISTORY against READINGSpreadsheet6 8v*16c

HISTORY = 8,5493+0,9403*x

94 96 98 100 102 104 106 108

READING

96

98

100

102

104

106

108

110

HIS

TO

RY

READING:HISTORY: y = 8,5493 + 0,9403*x; r = 0,9428; p = 0,00000; r 2 = 0,8889

N = 16

159

160

Scatterplot of CALCULUS against GRAMMARSchool perfomance 8v*80c

CALCULUS = 99,6862+0,0038*x

92 94 96 98 100 102 104 106 108 110

GRAMMAR

90

92

94

96

98

100

102

104

106

108

CA

LCU

LUS

GRAMMAR:CALCULUS: y = 99,6862 + 0,0038*x; r = 0,0057; p = 0,9599; r 2 = 0,0000

N = 80

161

Scatterplot of CALCULUS against GRAMMARSpreadsheet7 8v*4c

CALCULUS = 87,6269+0,1156*x

97 98 99 100 101 102 103 104 105 106

GRAMMAR

97,0

97,5

98,0

98,5

99,0

99,5

100,0

100,5

101,0

CA

LCU

LUS

GRAMMAR:CALCULUS: y = 87,6269 + 0,1156*x; r = 0,2435; p = 0,7565; r 2 = 0,0593

N = 4

162

Scatterplot of CALCULUS against GRAMMARSchool perfomance 7v*4c

CALCULUS = 115,5557-0,1775*x

97,8 98,0 98,2 98,4 98,6 98,8 99,0 99,2 99,4 99,6 99,8

GRAMMAR

96,6

96,8

97,0

97,2

97,4

97,6

97,8

98,0

98,2

98,4

98,6

98,8

99,0

99,2

CA

LCU

LUS

GRAMMAR:CALCULUS: y = 115,5557 - 0,1775*x; r = -0,1376; p = 0,8624; r 2 = 0,0189

N = 4

163

Scatterplot of CALCULUS against GRAMMARSpreadsheet9 8v*8c

CALCULUS = 84,2333+0,1541*x

96 98 100 102 104 106 108

GRAMMAR

97,0

97,5

98,0

98,5

99,0

99,5

100,0

100,5

101,0

101,5

102,0

102,5

CA

LCU

LUS

GRAMMAR:CALCULUS: y = 84,2333 + 0,1541*x; r = 0,3326; p = 0,4208; r 2 = 0,1106

N = 8

164

Scatterplot of CALCULUS against GRAMMARSpreadsheet6 8v*16c

CALCULUS = 96,7334+0,0231*x

92 94 96 98 100 102 104 106 108 110

GRAMMAR

95

96

97

98

99

100

101

102

103

CA

LCU

LUS

GRAMMAR:CALCULUS: y = 96,7334 + 0,0231*x; r = 0,0460; p = 0,8657; r 2 = 0,0021

N = 16

Recommended