10
Modul G.1 WS 06/07: Statistik 15.11.2006 1 Nachtrag zu Mittelwerten und Maßen der Dispersion Darstellungsmethode Boxplot Strich innerhalb der Boxen: Median Boxen: Interquartilsabstand Whiskers: 1.5 * Interquartilsabstand an den äußeren Rändern der Box Bedeutung: innerhalb der „whiskers“ liegen 95% der Daten (entspricht 1.96* s x ) Ausreißer bzw. outlier: Werte außerhalb der whiskers Zur Erinnerung: Der Median ist derjenige Wert, der die geordnete Reihe der Messwerte in die oberen und unteren 50 Prozent aufteilt. Somit ist die Anzahl der Messwerte über und unter dem Median gleich. Als Quartile werden jene Punkte Q 1 , Q 2 und Q 3 bezeichnet, welche eine Verteilung in vier gleich große Abschnitte aufteilen. Das mittlere Quartil Q 2 entspricht dem Median, das untere Quartil Q 1 einem Prozentrang von 25 und das obere Quartil Q 3 von 75. Die Differenz von Q 3 und Q 1 wird als Interquartilabstand (IQA) bezeichnet. s x ist die Standardabweichung einer Stichprobe Normalverteilung (Auch Gauß’sche Normalverteilung oder „Glockenverteilung“, normal distribution) Bei der Normalverteilung handelt es sich um eine unimodale, symmetrische Verteilung, die sich asymptotisch der Abszisse annähert. Die Gauß´sche Normalverteilung wird bei vielen natur- und sozialwissenschaftlichen Variablen vorausgesetzt. Der Ausgangspunkt ist, dass Messungen in Experimenten meist zufälligen Variationen unterliegen (Reaktion der Versuchsperson, Messmethode etc.). Ist diese Annahme korrekt, so ergibt eine genügend große Anzahl an Messungen eine symmetrische Verteilung um einen zentralen Wert, der am häufigsten auftritt und durch den Mittelwert widergegeben werden kann. L N S 40 60 80 100 120 140 160 Consonant duration dur [ms]

Nachtrag zu Mittelwerten und Maßen der Dispersion · Modul G.1 WS 06/07: Statistik 15.11.2006 3 Mit Standardabweichung = 𝜎 und Erwartungswert = µ Der Erwartungswert (selten und

  • Upload
    vantram

  • View
    213

  • Download
    0

Embed Size (px)

Citation preview

Modul G.1 WS 06/07: Statistik 15.11.2006 1

Nachtrag zu Mittelwerten und Maßen der Dispersion

Darstellungsmethode Boxplot

Strich innerhalb der Boxen: Median

Boxen: Interquartilsabstand

Whiskers: 1.5 * Interquartilsabstand an

den äußeren Rändern der Box

Bedeutung: innerhalb der „whiskers“

liegen 95% der Daten (entspricht 1.96*

sx)

Ausreißer bzw. outlier: Werte

außerhalb der whiskers

Zur Erinnerung:

Der Median ist derjenige Wert, der die geordnete Reihe der Messwerte in die

oberen und unteren 50 Prozent aufteilt. Somit ist die Anzahl der Messwerte

über und unter dem Median gleich.

Als Quartile werden jene Punkte Q1, Q2 und Q3 bezeichnet, welche eine

Verteilung in vier gleich große Abschnitte aufteilen. Das mittlere Quartil Q2

entspricht dem Median, das untere Quartil Q1 einem Prozentrang von 25 und

das obere Quartil Q3 von 75. Die Differenz von Q3 und Q1 wird als

Interquartilabstand (IQA) bezeichnet.

sx ist die Standardabweichung einer Stichprobe

Normalverteilung

(Auch Gauß’sche Normalverteilung oder „Glockenverteilung“, normal distribution)

Bei der Normalverteilung handelt es sich um eine unimodale, symmetrische Verteilung, die

sich asymptotisch der Abszisse annähert.

Die Gauß´sche Normalverteilung wird bei vielen natur- und sozialwissenschaftlichen

Variablen vorausgesetzt. Der Ausgangspunkt ist, dass Messungen in Experimenten meist

zufälligen Variationen unterliegen (Reaktion der Versuchsperson, Messmethode etc.). Ist

diese Annahme korrekt, so ergibt eine genügend große Anzahl an Messungen eine

symmetrische Verteilung um einen zentralen Wert, der am häufigsten auftritt und durch den

Mittelwert widergegeben werden kann.

L N S

40

60

80

100

120

140

160

Consonant duration

dur

[ms]

Modul G.1 WS 06/07: Statistik 15.11.2006 2

Johnson (2004, p.14) beschreibt diese mittlere Tendenz als das zugrundeliegende Merkmal,

das wir bei Experimenten herausfinden wollen, das aber durch zufällige Fehler „verfälscht“

wird. Für die zufälligen Fehler gilt, dass die größeren Abweichungen seltener auftreten,

weshalb sich die Verteilung zu den Rändern hin an null annähert.

Die besondere Bedeutung der Normalverteilung beruht unter anderem auf dem zentralen

Grenzwertsatz, der besagt, dass eine Summe von n unabhängigen, identisch verteilten

Zufallsvariablen im Grenzwert normalverteilt ist. Das bedeutet, dass man

Zufallsvariablen dann als normalverteilt ansehen kann, wenn sie durch Überlagerung einer

großen Zahl von Einflüssen entstehen, wobei jede einzelne Einflussgröße einen im Verhältnis

zur Gesamtsumme unbedeutenden Beitrag liefert.

Beispiel:

Auf einer Hühnerfarm mit sehr vielen Hühnern werden eine Woche lang die einzelnen Eier

gewogen. Definieren wir die Zufallsvariable X: Gewicht eines Eis in Gramm. Es stellt sich

heraus, dass ein Ei im Durchschnitt 50 g wiegt. Der Erwartungswert EX (oder auch µ) ist

daher 50. Außerdem sei bekannt, dass die Varianz s2(x) = 25 g

2 beträgt. Man kann die

Verteilung des Gewichts annähernd wie in der Grafik darstellen. Man sieht, dass sich die

meisten Eier in der Nähe des Erwartungswerts 50 befinden und dass die Wahrscheinlichkeit,

sehr kleine oder sehr große Eier zu erhalten, sehr klein wird. Wir haben hier eine

Normalverteilung vor uns. Sie ist typisch für Zufallsvariablen, die sich aus sehr vielen

verschiedenen Einflüssen zusammensetzen, die man nicht mehr trennen kann, z.B. Gewicht

des Huhns, Alter, Gesundheit, Standort, Vererbung usw.

Die Normalverteilung ist symmetrisch bezüglich μ. Die Verteilung P(X ≤ a) von X ist die

Fläche unter dem Graph der Dichtefunktion. Sie wird bezeichnet als

Beispielsweise beträgt die Wahrscheinlichkeit, dass ein Ei höchstens 55 g wiegt, 0,8413. Das

entspricht der roten Fläche in der Abbildung.

Modul G.1 WS 06/07: Statistik 15.11.2006 3

Mit Standardabweichung = 𝜎 und Erwartungswert = µ

Der Erwartungswert (selten und doppeldeutig Mittelwert) ist ein Begriff der Stochastik. Der

Erwartungswert μ einer Zufallsvariablen (X) ist jener Wert, der sich (in der Regel) bei

oftmaligem Wiederholen des zugrunde liegenden Experiments als Mittelwert der Ergebnisse

ergibt. Er bestimmt die Lokalisation (Lage) einer Verteilung und ist vergleichbar mit dem

empirischen arithmetischen Mittel einer Häufigkeitsverteilung in der deskriptiven Statistik.

Das Gesetz der großen Zahlen sichert in vielen Fällen zu, dass der Stichprobenmittelwert bei

wachsender Stichprobengröße gegen den Erwartungswert konvergiert.

Eigenschaften:

Datenreduktion: Mit den beiden Kenngrößen μ und σ kann die Wahrscheinlichkeit für das

Auftreten einzelner Messwerte vorhergesagt werden.

Die Fläche unterhalb der Kurve ist immer 1, d.h. Normalverteilungen mit einem

Mittelwert, der eine geringe Häufigkeit aufweist, haben eine große Standardabweichung

(„flach und breit“) und umgekehrt („spitz und schmal“)

Dichte (density): gibt die Wahrscheinlichkeit an, dass ein Maß sehr nah an einem

Messwert liegt. Wahrscheinlichkeiten liegen zwischen 0 und 1 mit steigender

Wahrscheinlichkeit. Durch die Definition der Funktionsgleichung ist es möglich, das

Integral, die Fläche, unter der Kurve, zu berechnen. Mit dieser Fläche kann man die

Intervalle bestimmen, in denen gewisse Prozentanteile der Stichprobe mit hoher

Wahrscheinlichkeit enthalten sind. Eine Dichtefunktion, Wahrscheinlichkeitsdichte oder

Wahrscheinlichkeitsdichtefunktion (WDF oder pdf von engl. probability density function)

dient in der Mathematik der Beschreibung von Wahrscheinlichkeitsverteilungen

Bei normalverteilten Daten liegen 68,28% der Daten innerhalb eines Bereiches von ±

1Standardabweichung und 95,44 % im Bereich von ± 2 SD

Im statistischen Sinne normale Daten liegen zwischen -1,96 * SD und +1,96*SD. Alle

außerhalb dieser 95% Marke liegenden Daten sind Ausreißer.

Modul G.1 WS 06/07: Statistik 15.11.2006 4

Die Wahrscheinlichkeiten der einzelnen Ausprägungen einer stetigen Zufallsvariablen können

(im Gegensatz zum diskreten Fall der Wahrscheinlichkeitsfunktion) nicht angegeben werden,

denn die Wahrscheinlichkeiten für jede einzelne Ausprägung müssen streng genommen 0

gesetzt werden. Es lassen sich nur Wahrscheinlichkeiten f(x)dx dafür angeben, dass die Werte

innerhalb eines Intervalls dx um x liegen. Die Funktion f(x) heißt dann Dichtefunktion. Die

Wahrscheinlichkeit, dass die Zufallsvariable Werte zwischen a und b annimmt, wird dann

allgemein definiert als das Integral über diese Funktion mit den Integrationsgrenzen a und b.

Beispielsweise fragt man nicht, wie viele Personen exakt 1,75 Meter groß sind, sondern z. B.,

wie viele Personen zwischen 1,75 und 1,76 m groß sind. Denn die Wahrscheinlichkeit, dass

eine Person auf beliebig viele Nachkommastellen genau 1,75 Meter groß ist, ist theoretisch

und praktisch gleich Null (daraus folgt: Nullmenge).

Beispiel:

Der HAWIE (Hamburg-Wechsler-Intelligenztest für Erwachsene) besitzt einen Mittelwert

von 𝒙 = 100 IQ-Punkte und eine Standardabweichung von sx=15 Punkten. Dies bedeutet, dass

4,56% der Bevölkerung einen IQ von unter 70 oder über 130 Punkten haben.

Abweichungen von der Normalverteilung

1. Mehrere Gipfel (bimodal bis multimodal)

bedeutet meist, dass die Quelle der Variation nicht zufällig ist, z.B. Vokaldauern, wenn Kurz-

und Langvokale in einem Datensatz analysiert werden.

60 80 100 120 140 160 180

0.0

02

0.0

04

0.0

06

0.0

08

0.0

10

0.0

12

Vokaldauer [ms]

De

nsity

Modul G.1 WS 06/07: Statistik 15.11.2006 5

2. Asymmetrie (skewness)

Achtung: linkssteil = rechtsschief, rechtsteil = linksschief

Die Schiefe wird mit dem zentralen Moment dritter Ordnung berechnet. Als zentrales

Moment wird die Differenz eines individuellen Werts vom Mittelwert bezeichnet:

(xi - 𝑥 )a

Der Exponent a bestimmt die Ordnung des zentralen Moments.

a3=0: Symmetrie

a3<0: rechtssteil

a3>0: linkssteil

Modul G.1 WS 06/07: Statistik 15.11.2006 6

3. „Gipfeligkeit“, Exzess, Breite

a4=3: normal

a4<3: platykurtisch (breit)

a4>3: leptokurtisch (spitz)

Modul G.1 WS 06/07: Statistik 15.11.2006 7

Rechenbeispiel zur Schiefe und Gipfeligkeit einer Verteilung

Modul G.1 WS 06/07: Statistik 15.11.2006 8

Normierung

Wichtig ist, dass die gesamte Fläche unter der Kurve gleich 1 ist, also der Wahrscheinlichkeit

eines fast sicheren Ereignisses entspricht. Somit folgt, dass, wenn zwei gaußsche

Glockenkurven dasselbe μ, aber unterschiedliche σ-Werte haben, jene Kurve mit dem

größeren σ breiter und niedriger ist (da ja beide zugehörigen Flächen jeweils den Wert von 1

haben und nur die Standardabweichung (oder „Streuung“) höher ist). Zwei Glockenkurven

mit dem gleichen σ, aber unterschiedlichen μ haben gleich aussehende Graphen, die jedoch

auf der x-Achse um die Differenz der μ-Werte zueinander verschoben sind.

Standardnormalverteilung und die z-Transformation

Die Standardnormalverteilung hat einen Mittelwert von 0 und eine Standardabweichung von

1.

Modul G.1 WS 06/07: Statistik 15.11.2006 9

Dichtefunktion der Standardnormalverteilung

Eigenschaften der z-Verteilung: Die Fläche ist wiederum 1 bzw. 100%.

Transformation zur Standardnormalverteilung (z-Transformation)

Ist eine Normalverteilung mit beliebigen μ und σ gegeben, so kann diese durch eine

Transformation auf eine -Normalverteilung zurückgeführt werden.

Die Überführung geschieht durch die z-Transformation in die sogenannten z scores.

zi=(xi-𝑥 )/sx

Geometrisch betrachtet entspricht die durchgeführte Substition einer flächentreuen

Transformation der Glockenkurve von zur Glockenkurve von .

Durch die z-Transformation können sämtliche Normalverteilungen standardisiert werden,

d.h. auf einen Standard gebracht werden. Wir bezeichnen deshalb die Normalverteilung

mit μ= 0 und σ=1 als Standardnormalverteilung.

Modul G.1 WS 06/07: Statistik 15.11.2006 10

(vgl. Bortz, 5. Auflage, S. 75, vgl. Übungsaufgabe zur z-Transformation)

Wichtige Anwendung in der Phonetik: Sprechernormalisierung

Problem: Formanten sind nicht nur von der Vokalqualität sondern auch von sprecher-

spezifischen Merkmalen des Ansatzrohres abhängig.

Lösung:

1. z-Transformation mit sprecherspezifischen Mittelwerten und Standardabweichungen =

Lobanov-Transformation

Fn.norm=(Fn-Fn.mean)/Fn.sd

Fn.norm wird für jeden einzelnen Sprecher berechnet.

n entspricht jeweils dem n-ten Formanten (F1, F2 etc.)

2. Daten werden auf den maximalen Range der einzelnen Sprecher normalisiert =

Gerstman-Transformation

Fn.norm=(Fn-Fn.min)/(Fn.max-Fn.min) (vgl. Harrington & Cassidy (1999) S. 76-78)