25
Wiederholung/Einf¨ uhrung Maßzahlen Z-Standardisierung Zusammenfassung Lage- und Streuungsmaße Statistik I Sommersemester 2009 Statistik I Lage- und Streuungsmaße Wiederholung/Einf¨ uhrung Maßzahlen Z-Standardisierung Zusammenfassung Wiederholung/Einf¨ uhrung Maßzahlen Mittelwerte Modus Median Arithmetisches Mittel Streuungsmaße Form der Verteilung Symmetrie/Schiefe olbung/Exzess Z-Standardisierung Zusammenfassung ALQ 4 6 8 10 Statistik I Lage- und Streuungsmaße

Lage- und Streuungsmaˇe · Wiederholung/Einf uhrung Maˇzahlen Z-Standardisierung Zusammenfassung Lage- und Streuungsmaˇe Statistik I Sommersemester 2009 Statistik I Lage- und Streuungsmaˇe

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

Lage- und Streuungsmaße

Statistik I

Sommersemester 2009

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

Wiederholung/EinfuhrungMaßzahlen

MittelwerteModusMedianArithmetisches Mittel

StreuungsmaßeForm der Verteilung

Symmetrie/SchiefeWolbung/Exzess

Z-StandardisierungZusammenfassung

ALQ

4 6 8 10

● ●● ●

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

Tutorien

I Begleitend zur Vorlesung, inhaltlich identisch mit der Ubung

I Mogliche Zeiten: Do 10-12, Do 16-18, Fr 8-10, Fr ab 16

I Wenn Sie ernsthaft bereit sind, an einem Tutoriumteilnzunehmen (auch zu unattraktiven Zeiten) bitte eine leereMail mit Betreff

”Tutoriumsinteressent“ an

[email protected]

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

Zum Nachlesen

I Agresti/Finlay: Kapitel 3.2 + 3.3

I Gehring/Weins: Kapitel 6

I Schumann: Kapitel 5

I In der Vorlesung wird teilweise mehr Stoff prasentiert alsin den Buchern

I Alles was in der Vorlesung gesagt wird ist Prufungsstoff

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

Was ist eine Verteilung? II

I Kategoriale und kontinuierliche Daten haben verschiedeneAuspragungen

I Haufigkeiten der Auspragungen → Verteilung

I Graphische DarstellungenI Verteilungen haben

1. Eine oder mehrere”Gipfel“

2. Eine”Mitte“ (zentrale Tendenz)

3. Mehr oder weniger viel Variation um diese Mitte (nicht alleWerte identisch)

4. Form (breit-/schmalgipflig, symmetrisch/asymmetrisch)

I Verteilungen → graphische und numerische Darstellung(Haufigkeitstabelle, gleiche Information)

I Maßzahlen verdichten Information

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

Wie werden Verteilungen graphisch dargestellt?

I Kategoriale DatenI Nominal: Separate Balken, Reihenfolge egalI Ordinal: Separate Balken, Reihenfolge wichtig

I Kontinuierliche Daten: Keine Lucken zwischen BalkenI HistogrammI PolygonzugI Dichteschatzung

I Univariate (eindimensionale) Darstellung

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

Was ist eine Verteilung? II

I Kategoriale und kontinuierliche Daten haben verschiedeneAuspragungen

I Haufigkeiten der Auspragungen → Verteilung

I Graphische DarstellungenI Verteilungen haben

1. Eine oder mehrere”Gipfel“

2. Eine”Mitte“ (zentrale Tendenz)

3. Mehr oder weniger viel Variation um diese Mitte (nicht alleWerte identisch)

4. Form (breit-/schmalgipflig, symmetrisch/asymmetrisch)

I Verteilungen → graphische und numerische Darstellung(Haufigkeitstabelle, gleiche Information)

I Maßzahlen verdichten Information

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

Beispieldaten fur heute

I (European Social Survey)

I ((fiktives) Alter vonKursteilnehmern)

I Franzosische Regionalwahl2004

I Falle: 94 Departements aufdem franzosischen Festland

I Variablen u. a.Stimmenanteil FrontNational,Arbeitslosenquote, AnteilZuwanderer, Zugehorigkeitzu 21 RegionenSkalenniveau? Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

Verteilung der Departements auf die Regionen

Freq

AlsaceAquitane

AuvergneBasse−Normandie

BourgogneBretagne

CentreChampagne−Ardenne

Franche−Comt.Haute−Normandie

Ile−de−FranceLanguedoc−Roussillon

LimousinLorraine

Midi−Pyr.n.esNord−Pas−de−Calais

Pays−de−la−LoirePicardie

Poitou−CharentesProvence−Alpes−C.te d.Azur

Rh.ne−Alpes

0 2 4 6 8

Gesamtlange der Balken? Bedeutung?

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

Verteilung der ALQ (gemessen in den Departements)

ALQ (Prozent)

Per

cent

of T

otal

0

5

10

15

20

25

30

4 6 8 10

Gesamtlange der Balken? Bedeutung?

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Rohdaten → Haufigkeitstabelle

Region Departement

Alsace Bas-RhinAlsace Haut-RhinAquitane DordogneAquitane GirondeAquitane Landes. . . . . .

Region Anzahl

Alsace 2Aquitane 5. . . . . .

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Verhaltnis Haufigkeitstabelle - Graphische Darstellung

Region Departement

Alsace Bas-RhinAlsace Haut-RhinAquitane DordogneAquitane GirondeAquitane Landes. . . . . .

=

Freq

AlsaceAquitane

AuvergneBasse−Normandie

BourgogneBretagne

CentreChampagne−Ardenne

Franche−Comt.Haute−Normandie

Ile−de−FranceLanguedoc−Roussillon

LimousinLorraine

Midi−Pyr.n.esNord−Pas−de−Calais

Pays−de−la−LoirePicardie

Poitou−CharentesProvence−Alpes−C.te d.Azur

Rh.ne−Alpes

0 2 4 6 8

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Wozu Maßzahlen?

I Graphische Darstellungen zeigenvollstandige Verteilung

I Sind anschaulicherI Aber . . .

I Nehmen viel Platz einI Aufwendig/unubersichtlich bei

großen DatensatzenI Schlecht zu vergleichen

I Maßzahlen quantifizierenEigenschaften der Verteilung

ALQ (Prozent)

Per

cent

of T

otal

0

5

10

15

20

25

30

4 6 8 10

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Was sind Mittelwerte?

I Beziehen sich auf”zentrale Tendenz“ (Mitte) der Verteilung

I Hat die Verteilung tatsachlich eine solche Mitte?I Ein, zwei, mehr Gipfel?I Berechnung sinnvoll?I Berechnung moglich!

I Vielzahl von Mittelwerten (Skalenniveaus)I Modus (=Modalwert, Mode)I MedianI Arithmetisches Mittel (arithmetic mean)

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Was ist der”Modus“

I Auspragung, die am haufigsten vorkommt

I Abkurzung/Symbol: xMo

I Direkt aus Verteilung/Haufigkeitstabelle ablesbar

I Fur alle Skalenniveaus berechenbar → sinnvoll?

I Unempfindlich gegenuber Extremwerten (”Ausreißern“)

I Wenn zwei oder mehr Auspragungen gleich haufigI Arithmetisches Mittel bilden (wenn zulassig)I Auf Modus verzichten

I Niedriger Informationsgehalt

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Beispiel: (Verteilung auf) Regionen

Freq

AlsaceAquitane

AuvergneBasse−Normandie

BourgogneBretagne

CentreChampagne−Ardenne

Franche−Comt.Haute−Normandie

Ile−de−FranceLanguedoc−Roussillon

LimousinLorraine

Midi−Pyr.n.esNord−Pas−de−Calais

Pays−de−la−LoirePicardie

Poitou−CharentesProvence−Alpes−C.te d.Azur

Rh.ne−Alpes

0 2 4 6 8

I Drei Regionen am haufigsten (jeweils 8 Departements):

1. Ile-de-France (Ordnungsnummer 11)2. Midi-Pyrenees (Ordnungsnummer 15)3. Rhone-Alpes (Ordnungsnummer 21)

I Mittelwertbildung nicht zulassig/sinnvoll!

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Beispiel: Verteilung der ALQ

ALQ (Prozent)

Per

cent

of T

otal

0

5

10

15

20

25

30

4 6 8 10

I Zwei Werte am haufigsten (jeweils 6 Departements):1. 7 Prozent2. 6.19999980926514 Prozent3. Arithmetisches Mittel ca. 6.6 Prozent

I Fur wirklich kontinuierliche Werte nur beschranktsinnvoll

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Besseres Beispiel: Ideologische Selbsteinstufung im ESS

LRS

Per

cent

of T

otal

0

5

10

15

20

25

30

left 1 2 3 4 5 6 7 8 9 right

I 5 463 Befragte (aus drei Landern)

I Uberschaubare Anzahl von (geordneten) Kategorien

I Selbsteinstufung von ganz links (0) bis ganz rechts (10)

I Wert 5 (neutral) ragt klar heraus

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Was ist der”Median“

I Intuitivster von allen Mittelwerten – Mitte der Verteilung

I Werte werden aufsteigend sortiertI Es ist kein Problem, wenn ein Wert mehrfach vorkommt

I Bei ungerader Fallzahl: genau eine Beobachtung mit Wert, derVerteilung in der Mitte teilt

I Bei gerader Fallzahl: Median zwischen zwei beobachtetenWerten (evtl. Bildung arithmet. Mittel)

I Abkurzung/Symbol: x

I Berucksichtigt alle Meßwerte (informativ), zugleich robustgegen Ausreißer

I Entweder alle Falle sortieren

I Oder Haufigkeitstabelle/gruppierte Daten betrachten

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Fiktives Beispiel: Alter von Kursteilnehmern

I Rohdaten: 19,38,22,23,20

I Sortiert: 19,20,22,23,38

I Median? 22

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Beispiel: LRS

Wert abs. Haufigkeit Prozent kumm. Prozent

0 (left) 204 4 41 135 3 72 384 8 153 582 12 274 565 12 395 1428 30 696 486 10 797 451 9 888 337 7 959 86 2 9710 (right) 118 2 99

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Beispiel: LRS

Wert abs. Haufigkeit Prozent kumm. Prozent

0 (left) 204 4 41 135 3 72 384 8 153 582 12 274 565 12 395 1428 30 696 486 10 797 451 9 888 337 7 959 86 2 9710 (right) 118 2 99

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Median der LRS-Verteilung

LRS

Per

cent

of T

otal

0

5

10

15

20

25

30

left 1 2 3 4 5 6 7 8 9 right

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Median und extreme Werte

I Werte am Rand der Verteilung, weit weg von allen anderen:

”Ausreißer“

I Meßfehler?I Passen inhaltlich nicht zur Mehrheit der Falle?

I Median (und Modus) reagieren nicht auf Ausreißer –”robust“

I Mehr dazu gleich

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Was sind Perzentile?

I Idee des Medians laßt sich verallgemeinernI Median teilt Verteilung bei 50% → zwei TeileI Drei Werte, Verteilung bei die 25%, die 50%, die 75% teilen→ vier Teile, Quartile

I Vier Werte, die bei die 20%, die 40%, die 60%, . . . teilen →funf Teile, Quintile

I allgemein: Perzentile

I Visualisiert durch Boxplot

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Quartile der LRS-Verteilung

LRS

Per

cent

of T

otal

0

5

10

15

20

25

30

left 1 2 3 4 5 6 7 8 9 right

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Beispiel: LRS

Wert abs. Haufigkeit Prozent kumm. Prozent

0 (left) 204 4 41 135 3 72 384 8 153 582 12 274 565 12 395 1428 30 696 486 10 797 451 9 888 337 7 959 86 2 9710 (right) 118 2 99

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Was ist ein Boxplot?

I Hochformat/QuerformatI Boxplot (oder Box-Whisker-Plot) visualisiert

I Unteres Quartil (Boden/linke Seite der Box)I Median (Linie oder Punkt in der Mitte der Box)I Oberes Quartil (Deckel/rechte Seite der Box)I Spannweite der DatenI

”Ausreißer“ (unterschiedliche Definitionen)

I Box (IQR): mittlere 50% der VerteilungI

”Whiskers“: max(Extremwerte oder 1.5 × Lange der Box von

der Box weg)I Ausreißer: mehr als 1.5× IQR vom oberen/unteren Quartil

entferntI Kompakte Darstellung von Mittelwert/Median, Streuung und

Form der Verteilung (mehr dazu gleich)I Vergleich von zwei oder mehr Verteilungen

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Beispiel: Verteilung ALQ

ALQ

4 6 8 10

● ●● ●

I 1., 2. (Median), 3. Quartil: 5.8, 6.4, 7.4 → Bedeutung?

I Whiskers 4.0, 9.6

I Ausreißer: 9.9, 10.3, 10.6

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Beispiel: LRS in drei Landern

LRS

0

2

4

6

8

10

AT IT SE

● ● ●

●●

●●●●

●●

●●●●●

●●●●●●

●●●●●●●●

●●●●

●●●

●●●

●●●

●●●

●●●●●

●●

●●●

●●●

●●●●

●●●

●●

●●●●●

●●●●●

●●●●

●●

●●●

●●●●●

●●●

●●

●●●●

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Beispiel: LRS in drei Landern II

LRS

Per

cent

of T

otal

0

10

20

30

left1 2 3 4 5 6 7 8 9right

AT

left1 2 3 4 5 6 7 8 9right

IT

left1 2 3 4 5 6 7 8 9right

SE

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Was ist das”arithmetische Mittel“?

I Der bekannteste aller MittelwerteI Grundprinzip: Alle Werte aufsummieren und durch Zahl der

Falle teilenI Z. B. Alter der funf Kursteilnehmer:

(19 + 38 + 22 + 23 + 20)/5 = 24.4I Mittlere ALQ der Departements =

(4 + 4.1 + · · ·+ 10.3 + 10.6)/94 u 6.6

I Nutzt Maximum an in den Daten enthaltenen InformationenI Optimale Anpassung

I Summe der einfachen Abweichungen = 0I Summe der quadrierten Abweichungen = min.

I Reagiert empfindlich auf AusreißerI Durchschnittsalter ohne altesten Teilnehmer = 21I ALQ ohne Departement mit niedrigstem Wert = 6.7

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Trimmed Mean

I”Extreme“ Bereiche der Verteilung (z. B. obere/untere 10%

der Werte weglassen)I Beispiel ALQ

I SortierenI Neun Werte unten/neun Werte oben entfernenI (5.1 + 5.2 . . . + 8.6 + 8.8)/76 = 6.54

I Arithmetisches Mittel fur Bereich zwischen zwei Perzentilen(z. B. hier erstes/neuntes Dezentil) – Kompromiß zwischenMedian und arithmetischem Mittel

I Informationsverlust

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Rechnen mit dem Summenzeichen

I In Formeln wird das SummenzeichenSigma (Σ) benutzt

I Aufsummierung uber alle Falle

I Index (Ordnungsnummer, z. B. x1, x2, · · ·I i = 1: Indexwert startet mit 1

I n: Indexwert endet mit letztem Fall (n =Zahl der Falle)

I Beide Zusatze oft weggelassen

Arithmet. Mittel

x =Σn

i=1xi

n

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Gruppierte Daten

I Vereinfachte Berechnung wenn Haufigkeitstabelle vorliegt

I Haufigkeit der Auspragung mit Wert der Auspragungmultiplizieren

I Aufsummieren und durch Fallzahl teilen

I 0× 204 + 1× 135 · · ·+ 10× 118 = 27548

I 27548/4776 = x = 5.8

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Was bedeutet Streuung (Varianz)?

I Alle Meßwerte untereinander (und mit dem Mittelwert)identisch – keine Streuung

I Heterogenere Werte – mehr Streuung

I Zweigipflige Verteilung, alle Werte an den Randern – extremeStreuung

I Streuung = Variation um zentrale Tendenz der Verteilung(Mittelwert)

I Vergleich von Verteilungen

I Wie messen?

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Range und Interquartilsabstand

I Range (Spannweite, V ) einfachste Form der Streuungmessung

I Differenz zwischen hochstem und niedrigstem Wert

I Z. B. ALQ: 10.6-4=6.6

I AnschaulichI Probleme

I Per definitionem anfallig gegen AusreißerI Berucksichtigt nur zwei Werte → nicht informativ

I InterquartilsabstandI Abstand zwischen 1. und 3. QuartilI ALQ: 7.375 - 5.825 = 1.55I AnschaulichI Betrachtet nur mittlere 50% der Daten

I → Varianz

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Was ist die Varianz?

I Abkurzung s2 (fur Stichproben), σ2 (fur wahren Wert inGrundgesamtheit)

I Berucksichtigt alle Werte

I Entspricht mittlerer quadrierter Abweichung der Meßwertevon ihrem Mittelwert

I QuadrierenI Laßt Vorzeichen verschwinden (Summe der einfachen

Abweichungen = 0)I Gibt großeren Abweichungen mehr Gewicht

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Beispiel: fiktive Alterswerte

I Rohdaten: 19,38,22,23,20; x = 24.4

I Einfache Abweichungen: -5.4 13.6 -2.4 -1.4 -4.4

I Quadrierte Abweichungen: 29.16 184.96 5.76 1.96 19.36

I Summe quadrierte Abweichungen (SAQ) = 241.2

I Mittlere quadrierte Abweichung = SAQ/n =Σn

i=1(xi−x)2

n = s2

I Obacht: Varianz in der Stichprobe unterschatzt Varianz inder Grundgesamtheit

I Um einen Faktor von n−1n (geht fur große Stichproben gegen

1)

I Schatzung fur GG: Stichprobenvarianz mit Kehrwert nn−1

multiplizieren

I SAQn × n

n−1 = SAQn−1

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Standardabweichung

I Durch Quadrieren geht die Einheit verlorenI 48.2 Quadratjahre?I ALQ von 1.87 Quadratprozent?

I Standardabweichung (SD, s) = Quadratwurzel aus Varianz:sALQ =

√1.87 = 1.37, sAlter =

√48.2 = 6.95

I Ursprungliche Einheit, aber keine einfache InterpretationI s 6= mittlere Abweichung vom DurchschnittsalterI s 6= Mittelwert der Betrage der einzelnen Abweichungen

I Beispiel LRSI AT: s = 1.9I IT: s = 2.3I SE: s = 2.4

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Beispiel: LRS in drei Landern II

LRS

Per

cent

of T

otal

0

10

20

30

left1 2 3 4 5 6 7 8 9right

AT

left1 2 3 4 5 6 7 8 9right

IT

left1 2 3 4 5 6 7 8 9right

SE

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Was ist”Schiefe“ (Skewness, Skew)

I Verteilungen konnen symmetrisch oderschief sein

I Symmetrische Verteilungen: 0 (z. B. LRS)

I negative skewness: linksschief bzw.rechtssteil

I positive skewness: rechtsschief bzw.linkssteil

I Beispiel dafur: ALQ (γ1 = 0.7)

I In den Texten angesprochene FaustregelReihenfolge Mittelwerte → Form derVerteilung funktioniert oft nicht

Skewness

γ1 =1nΣ(xi − x)3

s3

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

ALQ: γ1 = 0.7

ALQ (Prozent)

Per

cent

of T

otal

0

5

10

15

20

25

30

4 6 8 10

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Was ist”Wolbung“,

”Exzeß“,

”Kurtosis“

I Schmaler/breiter Gipfel derVerteilung?

I γ2 > 0: Schmaler Gipfel, relativviele Falle extremen Werten

I γ2 < 0: Breiter Gipfel, relativ vieleFalle in der Nahe des Mittelwertes

I (Impliziter Vergleich mitNormalverteilung gleicher Varianz)

I ALQ: γ2 = 0.29; LRS: γ2 = −0.06

Kurtosis

γ2 =1nΣ(xi − x)4

s4− 3

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Ein Beispiel

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

Hae

ufig

keit

I Beide Verteilungen eingipflig und symmetrisch

I Rote Verteilung hat mehr extreme Werte (links und rechts)

I Weniger Werte in der Nahe des Mittelwertes → schmalerGipfel, große Kurtosis

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

MittelwerteStreuungsmaßeForm der Verteilung

Ein finales Beispiel

0 5 10 15

0.00

0.10

0.20

0.30

x

Hae

ufig

keit

I x = 2.48, x = 2.15

I Quantile: 1.3, 3.3

I s = 1.58

I γ1 = 1.33,γ2 = 2.68

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

Warum z-Standardisierung?

I Werte aus unterschiedlichen Verteilungen (Mittelwert,Standardabweichung) vergleichen

1. Zentrierung: Mittelwert der Verteilung vom Meßwert abziehen

2. Standardisierung: Ergebnis durch Standardabweichung teilen

I Ergebnis: z-Werte

I Alter: 19 38 22 23 20

I zentriert: -5.4 13.6 -2.4 -1.4 -4.4

I standardisiert (s = 6.95): -0.78 1.96 -0.35 -0.20 -0.63

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

Warum z-Werte?

I Ursprungswerte werden als Abweichung (inStandardabweichungen) von ihrem Mittelwerte ausgedruckt

I Macht relative Position von Werten aus verschiedenenVerteilungen vergleichbar

I (wenn deren Form vergleichbar und am besten naherungsweisenormal ist)

I Abweichungen von mehr als ± Standardabweichungen geltenals ungewohnlich (Ausreißer)

I Z-standardisierte Werte haben ihrerseits einen Mittelwert von0 und eine Standardabweichung von 1 (warum? →Hausaufgabe)

I Erleichtert den Umgang mit Normalverteilungen (mehr dazubald)

Statistik I Lage- und Streuungsmaße

Wiederholung/EinfuhrungMaßzahlen

Z-StandardisierungZusammenfassung

Zusammenfassung

I Verteilungen von Variablen haben eine Mitte

I Eine Streuung um diese Mitte

I Sie sind symmetrisch oder schief

I Und haben eine mehr oder minder breiten Gipfel

I Fur alle Eigenschaften gibt es Maßzahlen

I Z-Standardisierung macht Werte aus unterschiedlichenVerteilungen vergleichbar

Statistik I Lage- und Streuungsmaße