90
Gliederung bisher: Häufigkeitsverteilungen (bei nominalskalierten Variablen) mit Prozenten bzw. Anteilen Mittelwerte (ab Intervallskala) Zusammenhänge zwischen 2 Variablen; Verfahren in Abhängigkeit vom Skalenniveau (z.B. Chi², Korrelation, T-Test) Problem: nur Aussagen über die Stichprobe

Gliederung

  • Upload
    carina

  • View
    21

  • Download
    1

Embed Size (px)

DESCRIPTION

bisher: Häufigkeitsverteilungen (bei nominalskalierten Variablen) mit Prozenten bzw. Anteilen Mittelwerte (ab Intervallskala) Zusammenhänge zwischen 2 Variablen; Verfahren in Abhängigkeit vom Skalenniveau (z.B. Chi², Korrelation, T-Test) Problem: nur Aussagen über die Stichprobe. Gliederung. - PowerPoint PPT Presentation

Citation preview

Page 1: Gliederung

Gliederung

bisher:

• Häufigkeitsverteilungen (bei nominalskalierten Variablen) mit Prozenten bzw. Anteilen

• Mittelwerte (ab Intervallskala)• Zusammenhänge zwischen 2 Variablen; Verfahren in

Abhängigkeit vom Skalenniveau (z.B. Chi², Korrelation, T-Test)

Problem: nur Aussagen über die Stichprobe

Page 2: Gliederung

Gliederung

Schlüsse von Stichprobe auf Grundgesamtheit (Mittelwerte, Anteile, Zusammenhänge)

• 1. Beispiel: Ein Anteilswert in der Stichprobe (7% FDP-Wähler) dient als Schätzung für den Anteil θ in der GG.

• 2. Beispiel: Ein Mittelwert in der Stichprobe (Alter: xquer = 37) dient als Schätzung für den Mittelwert in der GG.

• 3. Beispiel: Ein Zusammenhang zwischen zwei Variablen (Chi² zwischen Geschlecht und Wahlabsicht) soll dahingehend überprüft werden, ob er auch in der GG angenommen werden kann.

Page 3: Gliederung

Gliederung

Solche Aussagen macht man in folgender Weise:

• 1. Beispiel: Mit 95%iger Wahrscheinlichkeit werden zwischen 6 und 8% die FDP wählen.

• 2. Beispiel: Der Mittelwert des Alters in der Grundgesamtheit liegt mit 95%iger Wahrscheinlichkeit zwischen 35 und 39.

• 3. Beispiel: Mit 95%iger Wahrscheinlichkeit kann man ausschließen, dass Geschlecht und Wahlabsicht in keinem Zusammenhang stehen.

• daraus folgt: Wir brauchen Kenntnisse zu Stichprobenziehung und Wahrscheinlichkeitsrechnung!

Page 4: Gliederung

Gliederung

Inhalte der Vorlesung• Stichprobenziehung• Wahrscheinlichkeitsrechnung – kombinierte

Ereignisse• Tabellen: z, Chi², T• Konfidenzintervalle für Mittelwerte und Anteile• Chi²-Test, T-Test, F-Test• multiple Regression

Page 5: Gliederung

Grundgesamtheit

• Personen (bzw. Haushalte, Zeitschriftenartikel, Orte…), auf die sich Aussagen beziehen sollen

• werden sachlich, räumlich und zeitlich definiert (z.B. Wahlberechtigte in Deutschland vor der Bundestagswahl 2005)

• Befragung aller: Totalerhebung (bei kleinen Grundgesamtheiten); in der Regel zu aufwändig

• Parameter: N, , σ, θ

• Meist wird nur ein Teil der Grundgesamtheit (GG) befragt (Stichprobe, Sp), von dem dann auf die GG geschlossen werden soll.

Page 6: Gliederung

Leistungsfähigkeit von stichprobenartigen Befragungen

Page 7: Gliederung

Stichprobe

• Man kann nur von der Sp auf die GG schließen, wenn die Sp repräsentativ ist, also ein verkleinertes genaues Abbild der GG darstellt.

• Beispiel: Eine Befragung über die Wahlabsicht am Siegfriedplatz würde möglicherweise 40% Zustimmung zu den Grünen ergeben.

• Nur Zufallsstichproben sind repräsentativ. Diese sind so definiert, dass jedes Element der GG die gleiche (bzw. zumindest eine bekannte) Wahrscheinlichkeit hat, in die Stichprobe zu gelangen.

• Parameter von Stichproben: xquer, s, p, n (manchmal auch N)

• Erster Schritt: Erstellung der Auswahlgesamtheit

Page 8: Gliederung
Page 9: Gliederung

Techniken der Stichprobenziehung

Einfache Zufallsauswahl

• Aus allen Elementen der Auswahlgesamtheit werden so viele gezogen, wie für die Stichprobe gewünscht sind. Jedes Element hat die gleiche Wahrscheinlichkeit, in die Stichprobe zu gelangen. Man braucht Listen, in denen die komplette Auswahlgesamtheit aufgeführt ist.

• Verfahren: Losen, Zufallszahlen

Page 10: Gliederung

Techniken der Stichprobenziehung

Systematische Zufallsauswahl

• Man braucht eine Liste, in der die komplette Auswahlgesamtheit aufgeführt ist.

• Nur das erste Element wird per Zufall bestimmt, anschließend wird jedes k-te Element gezogen.

• k = Stichprobenintervall

= Auswahlgesamtheit / Stichprobengröße

Page 11: Gliederung

Techniken der Stichprobenziehung

Mehrstufige Zufallsauswahl

• Zunächst werden z.B. Stimmbezirke gezogen, dann Haushalte, dann Personen.

• Zum Ziehen der Haushalte: random route. Von einer zufälligen Startadresse wird eine Anweisung gegeben, wie z.B. „Gehen Sie bis zur Kreuzung, dann links, dann rechts und ermitteln Sie auf dem Weg jeden 6. Haushalt auf der linken Straßenseite“.

• Zum Ziehen der Personen: Schwedenschlüssel: wohnt eine Person im Haushalt, wird diese befragt, wohnen zwei Personen dort, wird eine Zahl zwischen 1 und 2 gezogen und entspr. die älteste oder zweitälteste Person befragt usw.

Page 12: Gliederung

Techniken der Stichprobenziehung

Geschichtete Stichprobe

• Es werden verschiedene Bevölkerungsteile unterschieden. Aus jeder Schicht werden getrennt Zufallsstichproben gezogen.

• Beispiele Ost/Westdeutsche; Homo/Heterosexuelle

• Dies macht man dann, wenn die Schichten unterschiedlich groß sind und man für jede Schicht eine genügende Fallzahl erreichen will, d.h. bei einer einfachen Zufallsauswahl wären Untergruppen mit so geringer Zahl vertreten, dass man über sie keine Aussagen machen kann. Daher überrepräsentiert man absichtlich kleine Bevölkerungsgruppen (dysproportionale Schichtung). Für Berechnungen mit der Gesamtstichprobe müssen daher Gewichtungsfaktoren eingesetzt werden.

Page 13: Gliederung

Techniken der Stichprobenziehung

Klumpenstichprobe

• Wie bei der mehrstufigen Zufallsauswahl geschieht der erste Auswahlschritt nicht gleich auf der Ebene der Untersuchungseinheit (z.B. Person), sondern auf höherer Ebene, diese wird als Klumpen bezeichnet (z.B. Stadtteil, Schulklasse, Zeitung). Dies Klumpen enthalten also jeweils mehrere Untersuchungseinheiten (Haushalte, Schüler, Zeitungsartikel). Untersucht werden alle Untersuchungseinheiten des Klumpens, also der ganze Klumpen.

• Problem: Erwischt man einen oder mehrere untypische Klumpen, ist die Stichprobe nicht mehr repräsentativ.

Page 14: Gliederung

Techniken der Stichprobenziehung

Quotenstichprobe (bewusste Auswahl)• Weiß man im voraus, wie bestimmte Merkmale (Alter,

Geschlecht, Schulabschluss) in der Grundgesamtheit verteilt sind, macht man einen Quotenplan, wie viele Personen welcher Art befragt werden sollen (z.B. 35 Frauen unter 40 Jahren mit Abitur), der proportional die Verhältnisse in der GG abbildet. Derartige Personen müssen dann befragt werden, es ist jedoch gleichgültig, welche Personen das sind, solange die Quotenvorgaben eingehalten werden.

• In vielen Lehrbüchern wird die Meinung vertreten, dass dies keine repräsentative Stichprobe ergibt; der Interviewer befragt vorwiegend Bekannte, die vermutlich bestimmte Eigenschaften haben, die sie von anderen unterscheiden (z.B. er befragt nur Sportler aus seinem Verein).

Page 15: Gliederung

Techniken der Stichprobenziehung

Anfallende bzw. Gelegenheitsstichprobe (willkürliche Auswahl)

• Ist nicht repräsentativ

• Darf nicht angewendet werden, um Anteile oder Mittelwerte in der Grundgesamtheit zu schätzen

• Wird jedoch (v.a. in der Psychologie) in der Regel angewendet, um Zusammenhänge zwischen Variablen zu ermitteln und auch auf Signifikanz zu testen, obwohl man dies streng genommen nicht darf.

• Beispiel: Studie in Statistik I: Zusammenhang zwischen Wahlabsicht und Geschlecht.

• Wird fast immer in Experimenten verwendet.

Page 16: Gliederung

Ausschöpfung

• Die beste Stichprobe nutzt nichts, wenn viele Personen die Teilnahme an der Befragung verweigern.

• Stichprobenneutrale / unsystematische Ausfälle verzerren nicht das Ergebnis (falsche Adresse etc.)

• Systematische Ausfälle dagegen sind problematisch. Beispiele: Nichterreichbarkeit, Teilnahmeverweigerung.

• Man unterscheidet den Ausfall eines kompletten Interviews (unit nonresponse)und den Ausfall bei einzelnen Items(item nonresponse)

• Ausschöpfungsquote: der Anteil realisierter Befragungen an der bereinigten Gesamtstichprobe *

• (* = Gesamtstichprobe – stichprobenneutrale Ausfälle)

Page 17: Gliederung
Page 18: Gliederung

Beschäftigung mit

• diskreten Variablen (nur bestimmte Ausprägungen, z.B. Anzahl der Kinder)

• kontinuierlichen / stetigen Variablen (alle Ausprägungen, z.B. Alter, Größe)

zunächst: diskrete Variablen

Page 19: Gliederung

Grundidee

• Das Ziehen einer Zufallsstichprobe aus einer Grundgesamtheit entspricht einem Zufallsexperiment, vergleichbar mit 10 x Würfeln bei bekannter Wahrscheinlichkeit des Auftretens bestimmter Ziffern in der Grundgesamtheit.

• Wahrscheinlichkeit, eine 6 zu würfeln, ist bekannt.• Davon ausgehend kann man berechnen, wie

wahrscheinlich es ist, bei einer Stichprobe von Würfen ein bestimmtes Ergebnis zu erzielen.

• Ziel: der umgekehrte Schluss von der Stichprobe auf die Grundgesamtheit.

Page 20: Gliederung

• Wahrscheinlichkeit:

• günstige Ereignisse / alle denkbaren Ereignisse

• z.B. eine 6 würfeln p(6) = 1 / 6 = 0.166

• (liegt immer zwischen 0 und 1)

Page 21: Gliederung

• Wahrscheinlichkeit, hintereinander 2 Sechsen zu würfeln

• p(6 und 6) = p (6) * p (6) = 1/6 * 1/6 = 1 /36 = 0.027

Page 22: Gliederung

• Wahrscheinlichkeit, eine gerade Zahl zu würfeln

• p (2 oder 4 oder 6) = p (2) + p (4) + p (6) = 1/6 + 1/6 + 1/6 = 3/6 = 0.5

Page 23: Gliederung

Fall mit und ohne Zurücklegen

• eine Stichprobe ist „ohne Zurücklegen“, jede Person in der Stichprobe wird nicht noch einmal befragt

• Karten ziehen ist ohne Zurücklegen• mehrfaches Würfeln ist „mit Zurücklegen“, eine

schon gewürfelte Zahl kann erneut auftreten.• Unsere Statistiken basieren auf Modellen „mit

Zurücklegen“, obwohl die Datenerhebung „ohne Zurücklegen“ stattfindet. Fehler ist gering bei großen Grundgesamtheiten (Auswahlsatz kleiner als 5%).

Page 24: Gliederung

Additionssatz (Vereinigungsmenge)

• allgemein:

• p (A oder B) = p (A) + p (B) – p (A und B)

• disjunkt (Ereignisse schließen einander aus):

• p (A oder B) = p (A) + p (B)

Page 25: Gliederung

Multiplikationssatz (Schnittmenge)

• allgemein:

• p (A und B) = p (A) p (B A)

• unabhängig:

• p (A und B) = p (A) p (B)

Page 26: Gliederung

Bernoulli-Theorem

• Die Wahrscheinlichkeit entspricht der relativen Häufigkeit bei unendlichen Wiederholungen eines Zufallsexperiments

• z.B. Die Wahrscheinlichkeit, eine 6 zu würfeln ist 16.6 Prozent.

• Bei unendlichem Würfeln tritt die 6 in 16.6 Prozent der Würfe auf.

• Anmerkung: relative Häufigkeit ist die Häufigkeit des Auftretens geteilt durch die Anzahl der Versuche.

Page 27: Gliederung
Page 28: Gliederung
Page 29: Gliederung

• Dies simuliert das Ziehen einer Stichprobe!

• Der wahre Anteil in der Grundgesamtheit () entspricht beim Würfeln der Wahrscheinlichkeit eines Ereignisses p bei größer werdenden Stichproben immer mehr.

• (gilt eigentlich nur bei unendlich großen Grundgesamtheiten)

Page 30: Gliederung

2. Zufallsexperiment

• mehrere Stichproben gleichen Umfangs werden gezogen

• Die Anteile der Würfe „6“ variieren um 16.6 Prozent

Page 31: Gliederung
Page 32: Gliederung

Erweiterung auf 1000 Stichproben mit je 100 Würfen

Page 33: Gliederung
Page 34: Gliederung

Binomialverteilung

• (eine Wahrscheinlichkeitsfunktion)• Verteilungsmodell für diskrete Zufallsvariablen mit 2

Ausprägungen (hier 6 bzw. nicht 6) mit Zurücklegen• Allgemeiner Fall: gibt an, mit welcher

Wahrscheinlichkeit die Ausprägung a x-mal vorkommt

• Z.B. Wie groß ist die Wahrscheinlichkeit, dass von 10 Frauen in einer Stichprobe 3 Frauen sind, wenn der Frauenanteil in der GG 60% beträgt?

• Die Binomialverteilung ist abhängig von (charakterisiert durch) n und dem Anteil in der GG, Wertebereich 0 bis n.

Page 35: Gliederung

• Wir betrachten jetzt aber den speziellen Fall, dass mehrere Stichproben gezogen werden: Binomialverteilung geht bei großen Stichproben in eine Normalverteilung über;

• Faustregel n * θ * (1-θ) > 9

Page 36: Gliederung

Erwartungswert und Varianz einer Binomialverteilung

• E (x) ist der Wert, der bei unendlich vielen Wiederholungen des Experiments im Durchschnitt für jede Stichprobe zu erwarten ist.

• Var (x) sagt aus, wie stark die Werte um den Erwartungswert schwanken.

• E (x) = n * p

• Var (x) = n * p * q, wobei q = 1-p

Page 37: Gliederung

Im Würfelbeispiel

Page 38: Gliederung

Achtung!!

• Wenn wir ein Würfelexperiment mit 100 Würfen 1000 mal wiederholen, ist n=100, nicht 1000. Die Anzahl der Wiederholungen ist irrelevant. Der Erwartungswert (hier 16.6) gilt für jede einzelne Stichprobe von 100 Würfen.

• Eine Binomialverteilung geht nur dann in eine Normalverteilung über, wenn es sich um verschiedene Stichproben handelt, nicht um einzelne Verteilungen, z.B. die Anzahl von Frauen bei einem Frauenanteil von 90% in der GG (vgl. Tafelbild)

Page 39: Gliederung

Stetige Zufallsvariablen

• Beispiel: Es existiert eine Grundgesamtheit von Personen, die im Mittel 37.268 Jahre alt sind.

• Zufallsexperiment: Wir ziehen 1000 Stichproben mit je 1000 Personen

Page 40: Gliederung
Page 41: Gliederung

Normalverteilung

• (eine Wahrscheinlichkeitsdichtefunktion)• symmetrisch, eingipflig• Mittelwert, Modalwert und Median sind

identisch• nähert sich links und rechts asymptotisch der

x-Achse an• geht von minus unendlich bis plus unendlich• je 50% Personen befinden sich links bzw.

rechts vom Mittelwert• Charakterisiert durch Mittelwert und Varianz

Page 42: Gliederung
Page 43: Gliederung

• Im folgenden wird der Fall betrachtet, dass nicht eine Variable (z.B. die Intelligenz) normalverteilt ist, sondern die Mittelwerte einer Anzahl von Stichproben.

Page 44: Gliederung

Mittelwert und Varianz einer Stichprobenmittelwerteverteilung

• Erwartungswert = • Varianz = ² / n

• Standardabweichung = / n

• diese nennt man auch Standardfehler des Mittelwerts xquer

Merke: Es handelt sich um die Verteilung der Stichprobenmittelwerte, nicht um einzelne Werte von Personen

Page 45: Gliederung

Zentraler Grenzwertsatz

• Mittelwerte aus beliebigen Verteilungen verteilen sich mit zunehmendem Stichprobenumfang normal mit dem Mittelwert und der Varianz ² / n

• Faustregel: ab N > 30• Merke: Das gilt auch für schiefe Verteilungen,

Unterscheidung zwischen der Verteilung der einzelnen Werte und der Stichprobenmittelwerte!!

Page 46: Gliederung

Standardnormalverteilung

• hat Mittelwert 0 und Standardabweichung 1

• jede (Normal-) Verteilung von Stichprobenmittelwerten kann in eine Standardnormalverteilung umgewandelt werden.

• Fläche = 1

Page 47: Gliederung

Standardisierung im üblichen Fall

Page 48: Gliederung

Standardisierung im Fall von Stichprobenmittelwerten

σ xquer = σ / √n

Page 49: Gliederung

Wahrscheinlichkeit von Stichprobenmittelwerten

• Möchte man berechnen, wie wahrscheinlich es ist, dass eine Stichprobe höchstens einen bestimmten Mittelwert erhält, steht also bei der Standardisierung σ / √ n im Nenner.

Page 50: Gliederung

• Die Binomialverteilung ist eine Wahrscheinlichkeitsfunktion (diese gibt die Wahrscheinlichkeit für jede Ausprägung an)

• Die Normalverteilung ist eine Wahrscheinlichkeitsdichtefunktion (da bei stetigen Variablen die Wahrscheinlichkeit jedes Werts praktisch 0 ist)

• Eine Verteilungsfunktion ist eine kumulierte Wahrscheinlichkeits- oder Dichtefunktion. Sie gibt an, wie wahrscheinlich es ist, höchstens einen bestimmten Wert zu erhalten.

• Eine Dichtefunktion ist damit die Ableitung einer Verteilungsfunktion.

Begriffe

Page 51: Gliederung

• Tabellenwerke (z, T, Chi², F) beziehen sich auf Verteilungsfunktionen, auch wenn das in der folgenden Abbildung nicht so aussieht. Den Tabellen kann man entnehmen, wie wahrscheinlich es ist, dass eine Zufallsvariable höchstens einen bestimmten Wert annimmt.

• Inverse Verteilungsfunktion: Umgekehrte Fragestellung – Wahrscheinlichkeit ist gegeben, gesucht ist der Wert

Page 52: Gliederung

• Die z-Tabelle repräsentiert die Standardnormalverteilung.

• Die Wahrscheinlichkeit von Wertebereichen (z.B. z-Werte zwischen 0 und 1 zu erhalten) ermittelt man, indem man die Wahrscheinlichkeit einer Ausprägung bis 1 bzw. bis 0 nachschlägt und den letzteren Wert subtrahiert.

• Wahrscheinlichkeit, mindestens einen bestimmten Wert zu erzielen, ergibt sich aus 1- nachgeschlagener Wert.

• Ist eine Variable nur normalverteilt, muss man sie erst standardisisieren.

Page 53: Gliederung
Page 54: Gliederung
Page 55: Gliederung

Für die Stichprobenmittelwerte

Page 56: Gliederung
Page 57: Gliederung
Page 58: Gliederung

χ² - Verteilung

• Verteilungsmodell für kontinuierliche Zufallsvariablen, und zwar für Summen (normalverteilter) quadrierter Zufallsvariablen,

• z.B. beim χ² - Unabhängigkeitstest• Bekannt aus Statistik I ist der χ² - Wert (Maß für

Zusammenhang zweier nominalskalierter Variablen), der annähernd χ² - verteilt ist, wenn keine erwartete Häufigkeit kleiner als 5 ist.

• Man kann ermitteln (Tabelle), wie wahrscheinlich es wäre, den erhaltenen χ² - Wert oder einen größeren zu bekommen, wenn der Zusammenhang in der GG Null ist.

Page 59: Gliederung

Χ2 = e

eb

f

ff 2)(

Page 60: Gliederung

Verteilungsfunktion

Page 61: Gliederung

• χ² ist immer positiv, weil es sich um eine Summe quadrierter Werte handelt, reicht also von 0 bis unendlich.

• Der Graph sieht aus, als hätte der Wind einen Sandhaufen gegen die y-Achse geblasen, nähert sich aber mit steigenden Freiheitsgraden der Normalverteilung an.

• Die Verteilungsform ist ausschließlich abhängig von den Freiheitsgraden.

Page 62: Gliederung
Page 63: Gliederung

Freiheitsgrade

• Notation: df• Anzahl frei variierbarer Daten

bzw. Anzahl voneinander unabhängiger Informationen

• bei der Varianz: n-1da die Summe der einfachen Abweichungen 0 ist, lässt sich der letzte Wert aus allen anderen berechnen.

• beim Konfidenzintervall: n-1• bei χ²: (r-1) * (c-1)

z.B. hat eine 2*2-Tabelle einen Freiheitsgrad, da man alle anderen Werte erschließen kann, wenn man die Randhäufigkeiten kennt

• beim T-Test n1 + n2 - 2

Page 64: Gliederung

T-Verteilung

• Verteilungsmodell für kontinuierliche Zufallsvariablen, bei denen im Zähler eine normalverteilte, im Nenner eine χ² - verteilte Zufallsvariable steht

• Z.B. bei Konfidenzintervallen und Tests für Mittelwertunterschiede

• Fragestellungen: Zwischen welchen Werten liegt das Alter in der Grundgesamtheit mit 95% Wahrscheinlichkeit, wenn es in der Stichprobe 24 Jahre beträgt (σ unbekannt)? Unterscheiden sich Mädchen und Jungen signifikant in der Lesekompetenz?

Page 65: Gliederung

T-Verteilung

• geht von minus unendlich bis plus unendlich

• sieht aus wie eine Normalverteilung, ist aber breiter

• abhängig von den Freiheitsgraden

• Je weniger Freiheitsgrade (df), desto breiter ist die Dichtefunktion (ungenauere Schätzung)

• Ab 30 df kann man näherungsweise die Normalverteilung verwenden.

Page 66: Gliederung
Page 67: Gliederung
Page 68: Gliederung

F-Verteilung

• Verteilungsmodell für Zufallsvariablen aus einem Quotienten zweier χ² - verteilter Zufallsvariablen

• sieht ähnlich aus wie die χ² - Dichtefunktion• reicht von 0 bis unendlich• abhängig von Zähler - df und Nenner – df• z.B. für Tests auf Varianzhomogenität (sind zwei

Varianzen statistisch gleich oder unterschiedlich?) und für Varianzanalyse (unterscheiden sich CDU-, SPD- und Grüne-Wähler in ihrer Einstellung zum EU-Beitritt der Türkei?)

Page 69: Gliederung

Schluss mit der grauen Theorie:

Praxisteil

Page 70: Gliederung

Schätzverfahren

• Wir schließen von der (repräsentativen) Stichprobe auf die Grundgesamtheit, z.B. einen Anteilswert (Anteil Frauen) oder einen Mittelwert (Alter)

• Punktschätzung: Wir schätzen genau den Stichprobenwert in der GG

• Intervallschätzung: Wie ermitteln einen Bereich, in dem der Wert der Grundgesamtheit mit 95% bzw. 99% Wahrscheinlichkeit liegt

• Die Irrtumswahrscheinlichkeit beträgt dann 5% bzw. 1% und wird mit α bezeichnet.

Page 71: Gliederung

Interpretation eines Konfidenzintervalls

• Würde man unendlich viele Stichproben gleichen Umfangs ziehen, läge der wahre Wert der Grundgesamtheit in 5% der Fälle außerhalb des Konfidenzintervalls (unpraktisch, da man nur eine Stichprobe hat)

• Mit 95% Wahrscheinlichkeit liegt der wahre Wert der Grundgesamtheit innerhalb des Konfidenzintervalls (unpräzise, denn der Wert liegt entweder innerhalb oder außerhalb des Konfidenzintervalls)

Page 72: Gliederung

Konfidenzintervalle

• Die Breite des Konfidenzintervalls (Vertrauensintervalls) ist von mehreren Parametern abhängig:

• gewünschte Genauigkeit der Schätzung (95% oder 99%)

• Standardfehler der Stichprobenstatistik (Maß für die Streuung einer Stichprobenstatistik),der wiederum wird kleiner, je größer die Stichprobe ist

Page 73: Gliederung

Standardfehler

Standardfehler eines Stichprobenmittelwertsσ / √ ngeschätzt aus der Stichprobes / √ n (auch als σ Dach bezeichnet)

Standardfehler eines Anteilswerts in der Stichprobe

√ θ * (1 – θ) / ngeschätzt aus der Stichprobe√ p * (1 – p) / n

Page 74: Gliederung

Konfidenzintervall für Stichprobenmittelwerte

• Wollen wie mit 95% Genauigkeit schätzen, liegen α / 2, also 2.5% der Werte am linken Ende der Normalverteilung, und 2.5% am rechten.

• Aus der z-Tabelle kann man entnehmen, dass zwischen -1.96 und +1.96 95% der Werte liegen.

• Nachschlagen muss man nur z 1- α/2 der andere Wert ergibt sich durch das negative Vorzeichen

Page 75: Gliederung
Page 76: Gliederung
Page 77: Gliederung
Page 78: Gliederung

Konfidenzintervall für Stichprobenmittelwerte, σ bekannt

Page 79: Gliederung

Beispiel (Seite zuvor)

• Eine Stichprobe von 1000 Befragten hat einen Altersdurchschnitt von xquer = 38.11 Jahren. Die Standardabweichung in der Grundgesamtheit beträgt σ = 22.46.

• In welchem Bereich liegt das Alter der GG mit 95% Wahrscheinlichkeit?

Page 80: Gliederung

In 5% der Stichproben liegt μ nicht im Konfidenzintervall

Page 81: Gliederung

Genauere Schätzung mit 99% Wahrscheinlichkeit

Page 82: Gliederung

Konfidenzintervall für Stichprobenmittelwerte, σ unbekannt

• Hier muss man die Standardabweichung aus der Stichprobe schätzen. Wegen dieser zusätzlichen Ungenauigkeit verwendet man die (breitere) T-Verteilung.

• Beispiel (nächste Seite): In einer Stichprobe von 81 Personen beträgt das Durchschnittsalter 38.57 Jahre. Die Standardabweichung in der Stichprobe ist 20.7 Jahre. In welchem Bereich liegt das Alter in der Grundgesamtheit zu 95%?

• Nicht verwirren lassen durch die Varianzberechnung in Gehring und Weins. Wir hatten bei Stichproben schon immer n-1 im Nenner!

Page 83: Gliederung
Page 84: Gliederung

• Bei sehr großen Stichproben nähert sich die T-Verteilung der Normalverteilung an und man darf die z-Tabelle benutzen. Zur Vermeidung von Verwirrung lassen wir das.

Page 85: Gliederung

Zusammenfassung Konfidenzintervall für Mittelwerte

• Bei bekanntem σ in der Grundgesamtheit wird die z-Tabelle verwendet.

• Bei unbekanntem σ in der Grundgesamtheit wird σ durch die Standardabweichung s in der Stichprobe geschätzt. Aufgrund der zusätzlichen Ungenauigkeit wird die T-Verteilung verwendet.

• Allgemein hängt das KI ab von der gewünschten Genauigkeit (95 / 99%) und dem Standardfehler des Stichprobenmittelwerts.

Page 86: Gliederung

Konfidenzintervall für Anteilswerte

• Damit schätzt man, in welchem Bereich ein Anteilswert (z.B. 7% FDP-Wähler in einer Stichprobe) mit 95% Wahrscheinlichkeit in der Grundgesamtheit auftritt.

• Solche Variablen sind binomialverteilt. Die Binomialverteilung geht in eine Normalverteilung über, wenn n hinreichend groß ist, Faustregel: wenn gilt

• N * p * (1-p) > 9 (hier ab n=139)

Page 87: Gliederung

Konfidenzintervall für einen Anteilswert

Page 88: Gliederung

Standardfehler und geschätzter Standardfehler für Anteilswerte

Page 89: Gliederung

Eingesetzt in die Formel:

Page 90: Gliederung

Beispiel (vorige Seite)

• In einer Stichprobe von 1250 Personen geben 7% an, FDP wählen zu wollen.

• Wie groß ist das 95% - Konfidenzintervall für den FDP-Wähleranteil in der Grundgesamtheit?