Upload
irmgard-appelbaum
View
109
Download
0
Embed Size (px)
Citation preview
Agrar- und Ernährungspolitik III
Vorlesung 18. März 2009
Auswertung von Strukturdaten auf dem Weg zur Normalverteilung und statistischen Tests
Martin Kniepert
Übersicht für diese Vorlesung
Frage: Wo stehen wir im Rahmen der gesamten Vorlesung?
Beschreibende Statistik – Darstellung von Ergebnissen aus Strukturerhebungen
Die Normalverteilung als Grundlage von Stichprobenauswertungen Haben wir Normalverteilungen? => Zentraler Grenzwertsatz Punktschätzung Konfidenzintervall Hypothesentest
Kurz zurück zu Malthus
Die Vorlesung wird durchgängig auf eine zentrale, beispielhafte Fragestellung bezogen Was bieten die Wirtschaftswissenschaften zur Neufassung
Bearbeitung von Malthus Wozu brauchen wir nun Information zur Struktur bzw.
Verteilung? Berücksichtigung Einkommensverteilung von Haushalten
(global, national) Struktur der Betriebe als Ziel von Agrarpolitik [ok, es gäbe möglicherweise Dringenderes, es geht aber auch
darum, für später notwendige Grundlagen der Statistik ins Gedächtnis zu rufen.]
„Klassierende Auswertung“
„Klassierende Auswertung“ als Publikationsstandard Fläche nach Fläche (als Beispiel) Betriebe nach Fläche Gibt Aufschluss über Größenverteilung Bsp. Geflügelbestand nach Fläche Aussagekraft gering. (Diskutieren!) Eine Klassierung nach
Geflügel selbst wäre aufschlussreicher. Aussagekraft gering)
Klassierung nach Erschwerniszonen, Anbaugebieten Erlaubt ein qualitatives Bild, bietet aber keine
unmittelbar Umsetzung für Quantifzierung
„Klassierende Auswertung“ - Beispiele
Betriebe Fläche Fläche/Betr
ohne Fläche 2,284 - -unter 1 Ha 6,494 4,452 0.69
1 bis unter 2 Ha 10,544 17,440 1.652 bis unter 5 Ha 38,403 148,411 3.865 bis unter 10 Ha 40,186 306,953 7.64
10 bis unter 20 Ha 45,267 694,807 15.3520 bis unter 30 Ha 28,587 724,822 25.3530 bis unter 50 Ha 26,346 1,033,306 39.2250 bis unter 100 Ha 12,628 881,909 69.84
100 bis unter 200 Ha 3,860 595,486 154.27200 Ha und mehr 2,909 3,111,030 1,069.45
zusammen 217,508 7,518,616 34.57
Quelle: Statistik Austria, Strukturerhebung 1999, eigene Berechnungen
Betriebe Hühner Hühner/Betrohne Fläche 1,024 1,695,879 1,656
unter 1 Ha 230 22,308 96.991 bis unter 2 Ha 2,012 134,421 66.812 bis unter 5 Ha 10,910 378,098 34.665 bis unter 10 Ha 14,470 880,252 60.83
10 bis unter 20 Ha 20,159 2,712,616 134.5620 bis unter 30 Ha 13,966 2,762,102 197.7730 bis unter 50 Ha 12,124 3,281,673 270.6850 bis unter 100 Ha 4,903 1,553,805 316.91
100 bis unter 200 Ha 1,032 217,487 210.74200 Ha und mehr 297 15,134 50.96
zusammen 81,127 13,653,775 168.30
Histogramm: klassierend - grafische Auswertung
In aller Regel einheitlich klassiert Problem: Ausreißer, hohe Ungleichmäßigkeit
0
40000
80000
120000
160000
200000
240000
0 400 800 1200 1600 2000 2400 2800
Series: Beispiel 1Sample 1 220000Observations 201498
Mean 12.80859Median 7.480000Maximum 3042.850Minimum 0.010000Std. Dev. 22.90988Skewness 34.86764Kurtosis 3016.053
Jarque-Bera 7.63e+10Probability 0.000000
Anz
ahl B
eoba
chtu
ngen
ha nach Beobachtung
0
10000
20000
30000
40000
50000
0 25 50 75 100
Series: Beispiel 1Sample 1 220000 IF Beispiel 1 < 100Observations 200635
Mean 12.00454Median 7.420000Maximum 99.99000Minimum 0.010000Std. Dev. 13.37212Skewness 2.254755Kurtosis 9.803774
Jarque-Bera 556988.0Probability 0.000000
ha je Beobachtung
Anz
ahl B
eoba
chtu
ngen
0
5000
10000
15000
20000
25000
30000
35000
0 25 50 75 100
Series: Beispiel 1Sample Beispiel 1 < 100 AND Beisiel 1 > 1Observations 184947
Mean 12.97869Median 8.480000Maximum 99.99000Minimum 1.010000Std. Dev. 13.48474Skewness 2.220630Kurtosis 9.566708
Jarque-Bera 484302.6Probability 0.000000
Anz
ahl B
eoba
chtu
ngen
ha nach Beobachtung
Quelle: Statistik Austria, Strukturerhebung 1999, eigene Berechnungen, wegen Einzeldaten nicht benannt
0
10
20
30
40
50
60
[0, 50)
ha o
der
Stü
ck je
Bet
rieb
BEISPIEL1 (> 1 and > 100)
Um den Median grau schattiert: Der Konfidenz-intervallHier: sehr, sehr klein
Outliers
Staple
Wisker
3rd Quartile
MedianMedium
1st Quartile
Boxplots Achtung: Ausreißer (Filterstufen wie bei Histogramm)
Quelle: Statistik Austria, Strukturerhebung 1999, eigene Berechnungen, wegen Einzeldaten nicht benannt
0
400
800
1200
1600
2000
2400
2800
3200
BEISPIEL1
ha o
der
Stü
ck n
ach
Beo
bach
tung
0
20
40
60
80
100
ha o
der Stü
ck je
Bet
rieb
nach
Beo
bach
tung
Klassen
Lorenzkurven
Die Lorenzkurve stellt eine statistische Verteilung graphisch dar; sie veranschaulicht eine Konzentrationsmaß.
Ausreißer sind hier explizit enthalten Als Alternative bieten sich der Gini-Koeffizient oder der Herfindahl-Index an.
Quelle: Statistik Austria, Strukturerhebung 1999, eigene Berechnungen und Darstellung
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0% 20% 40% 60% 80% 100%
Stan
dard
-DB
in %
Betriebe in %
GleichverteilungLorenzkurve
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0% 20% 40% 60% 80% 100%
Stan
dard
-DB
in %
Arbeitskraft (JAE) in %
Gleichverteilung
Lorenzkurve
Von Würfeln und Münzen
Bislang: Beschreibende Statistik Im Weiteren: Beurteilende Statistik, Schließende
Statistik; Wahrscheinlichkeitstheorie spielt eine entscheidende Rolle
Lange Geschichte der Wahrscheinlichkeitstheorie … Nicht zuletzt aus Interesse am Glücksspiel Ernsthafter aus der zunehmenden Notwendigkeit zur
Prognose bestimmter Entwicklungen, Eintrittswahrscheinlichkeiten von Ereignissen (für Versicherungen, Parteien, Firmen bei der Absatzplanung…)
Punktschätzung
Bspw. Schätzung eines Mittelwerts Beobachtungen x1, x2, … ,xn einer Stichprobe sind
Realisierungen von n Zufallsvariablen (X1, X2,…, Xn). Der Schätzwert nach der Schätzfunktion
Wird ein einziger Schätzwert berechnet => Punktschätzung Werden mehrere Werte berechnet, so weisen diese
ihrerseits eine Verteilung auf. Frage: Wie genau trifft der Schätzwert den tatsächlichen
Wert der Grundgesamtheit?
n
iixn
x1
1
n
iiXn
X1
1
Anforderungen an Schätzfunktion
Erwartungstreu (keine systematische Abweichung) Effizienz (weisen geringe Varianz auf) Konsistenz (kleine zufällige Fehler bei großer
Stichproben) Suffizienz: Alle Informationen der Stichprobe werden
genutzt …so weit so gut, alles wird genutzt. Frage bleibt: Wie gut ist
die Schätzung. Unterstellt man eine „Normalverteilung“ wird man zu
Aussagen treffen können!
Flächen einer Normalverteilung N(μ,σ)y
-z
z
0,4
0,3
0,2
0,1
μ-
σμ-2σ
μ68,27%95,45%99,73%99,99%
μ-3σ
μ-4σ
μ+4σ
μ+3σ
μ+2σ
μ+σ
Standardnormalverteilung N(0,1)
Jede beliebige Normalverteilung N(μ,σ) kann durch Standardisierung in eine einheitliche Standardnormalverteilung N(0,1) transformiert (d.h. mit z multipliziert) werden.
Für N(0,1) sind Flächenanteile (also Wahrscheinlich-keiten) „austabelliert“.
Flächen einer Standard-Normalverteilung N(0,1)
y
-z
z
0,4
0,3
0,2
0,1
-1-2-3-4 0 1 2 3 468,27%95,45%99,73%99,99%http://www.uni-konstanz.de/FuF/wiwi/heiler/os/vt-index.html
Normalverteilungen?
Wir haben kaum Normalverteilungen! Vgl. Auswertungen von Strukturerhebungen: In aller Regel
stark rechtsschiefe Verteilungen! Haben wir nicht gewissermaßen stark unregelmäßige
Würfel? (Nein!) Eine Lösung liegt im zentralen Grenzwertsatz
Die Summe von vielen unabhängigen, beliebig verteilten Zufallsvariablen gleicher Größenordnung ist angenähert normalverteilt
Nicht die Verteilung der Grundgesamtheit (oder der einzelnen Stichprobe) ist entscheidend, sondern die Verteilung der errechneten Mittelwerte
Zentraler Grenzwertsatz (1)
Würfeln mehrmals und mit mehreren Würfeln
Würfel 1 000 mal, 2) Zwei Würfel 1 000 Mal, 3) Fünf Würfel 1 000 Mal, 4) Fünf Würfel 10 000 mal
http://en.wikipedia.org/wiki/Central_limit_theorem http://www.stat.sc.edu/~west/javahtml/CLT.html
Zentraler Grenzwertsatz (2) Grundgesamtheit einer typischen AS-Population
Die Verteilung ist stark linkssteil, selbst wenn die Betriebe ohne Bestand herausgenommen werden; auch weitere Einschränkungen führen nicht zu einer Normalverteilung, während die Gesamtzahl stark abnimmt.
0
40000
80000
120000
160000
200000
240000
0 2000 4000 6000 8000 10000 12000
Series: Beispiel 2Sample 1 217508Observations 217508
Mean 15.75181Median 0.000000Maximum 11635.00Minimum 0.000000Std. Dev. 77.75133Skewness 25.89891Kurtosis 2725.026
Jarque-Bera 6.72e+10Probability 0.000000
Bet
riebe
Anzahl je Betrieb
0
10000
20000
30000
40000
50000
60000
70000
80000
90000
0 2000 4000 6000 8000 10000 12000
Series: SCHWEINEGESAMTSample 1 217508 IF BEISPIEL2 > 0Observations 82555
Mean 41.50136Median 3.000000Maximum 11635.00Minimum 1.000000Std. Dev. 121.8973Skewness 17.06795Kurtosis 1173.710
Jarque-Bera 4.72e+09Probability 0.000000
Bet
riebe
Anzahl je Betrieb
0
1000
2000
3000
4000
5000
0 100 200 300 400 500 600 700 800
Series: Beispiel2Sample 1 217508 IF BEISPIEL2 > 10 AND BEISPIEL2 < 800Observations 21229
Mean 143.6314Median 80.00000Maximum 797.0000Minimum 11.00000Std. Dev. 154.7521Skewness 1.519845Kurtosis 4.882415
Jarque-Bera 11307.28Probability 0.000000
Ber
trie
be
Anzahl je Betrieb
Zentraler Grenzwertsatz (3) Mittelwerte von1000 Stichproben aus Beispiel2
Die Verteilungsfunktion bietet eine kumulierende Darstellung von Wahrscheinlichkeiten
Die Dichtefunktion gibt die Wahrscheinlichkeit an mit der eine Zufallsvariable zwischen zwei reellen Zahlen liegt
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
33 38 43 48 53
Wah
rsch
einl
ichk
eit
Verteilungsfunktion
100 Mittelwerte => Verteilungsfunktion P(X)
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
0.16
0.18
0.20
33 38 43 48 53
Wah
rsch
einl
ichk
eit
Dichtefunktion
Dichtefunktion
Zentraler Grenzwertsatz (4)
Durch den Zentralen Grenzwertsatz kann für Schätzwerte eine Normalverteilung unterstellt werden.
Aber: Der Löwenanteil der statistischen Arbeit ist auf eine Stichprobe beschränkt
Techniken mit denen das Problem berücksichtigt werden kann Transformation der Populationswerte bspw. durch
logarithmieren Prüfung von Verteilungen anhand von Chi-Quadrat- oder F-
Verteilungen Re-sampling-Techniken (Mehrauswertung einer einzigen
Stichprobe => Jackknife-Verfahren, => Bootstrapping)
Konfidenzintervall
Für n > 30 kann diese Formel genutzt werden:
Das Konfidenzintervall (Δkrit) für Mittelwerte (μ) berechnet sich folgendermaßen:
T-Verteilungen (df =1, 3, 5, 10)
Vgl. http://www.uni-kiel.de/medinfo/biometrie/folien/ss08_2003/sld012.htm
t-Verteilung
df p 0,900 p 0,975 p 0,990 p 0,995
1 3,078 12,706 31,821 63,656
2 1,886 4,303 6,965 9,925
3 1,638 3,182 4,541 5,841
4 1,533 2,776 3,747 4,604
... ... ... ... ...
10 1,372 2,228 2,764 3,169
... ... ... ... ...
30 1,310 2,042 2,457 2,750
1000 1,282 1,962 2,330 2,581
Zur Hypothesenbildung (1)
Nullhypothese H0: Ein Zusammenhang zwischen zwei untersuchten Größen
besteht nicht! (bspw. Steuer auf Inputverbrauch) Ein Grenzwert wird nicht überschritten, höchstens erreicht (etwas salopp: „Null“, weil sich zwei Vergleichsgruppen
„Null“ unterschieden) Alternativhypothese H1:
In der Regel die Forschungshypothese Ein Zusammenhang zwischen zwei untersuchten Größen
wird unterstellt, soll nachgewiesen werden. Ein Grenzwert wird überschritten
Zur Hypothesenbildung (2) Nullhypothese H0 und Alternativhypothese H1
schließen sich gegenseitig aus. Bspw. H0: Pestizidbelastung <= 3 g je / kg H1 : Pestizidbelastung > 3 g je / kg
Eine dritte Möglichkeit neben diesen Hypothesen bleiben nicht.
Im Beispiel (3 g je / kg ) wird eine Annahmegrenze (cA) präzisiert.
Der kritische Wert (c) beläuft sich auf 3 g bei einem Stichprobenumfang von 1 kg.
Bestätigung? Fehler 1. und 2. Art Wenn eine Hypothese bestätigt werden kann, gilt die
andere automatisch als verworfen. Eine dritte Möglichkeit neben diesen Hypothesen
bleiben nicht. Fehler 1. Art: H0 wird verworfen, obwohl H0 richtig ist. Fehler 2. Art: H0 wird angenommen, obwohl H0 falsch
ist. In beiden Fällen erweist sich die Stichprobe als
gewissermaßen nicht stichhaltig.
„Klinisch reine“ Anordnung? Vgl. Sachs (2002:188f; [144])
Zur Frage der Hypothesengewinnung aus bestehendem Datenmaterial
Diskussion zur speziellen Situation der Sozialwissenschaften im Vergleich bspw. zur experimentellen Physik Zur Erinnerung: Zur Datenherkunft (vorletzte Vorlesung) Daten als Sekundärdaten; Vielzahl von Einflussgrößen auf zu
erklärende Größen „Versuchsanordnung“ allenfalls in Experimenten der
Verhaltensökonomik Anspruch an „wissenschaftliche Exaktheit“ bleibt dennoch!
BegriffeMittelwert, Median, Quantil, Quartil etc., KlassenLorenz-Kurven, KonzentrationsmaßeStandardabweichung, VarianzRangfolge, Histogramm, Verteilungsfunktion, WahrscheinlichkeitsfunktionWahrscheinlichkeitsdichten, DichtefunktionZentraler GrenzwertsatzH0-, H1-Hypothese
Fehler 1. Art, Fehler 2. ArtKonfidenzintervall, Signifikanzniveau
Lese- und Lernempfehlungen
Zu Signifikanztests, Konfidenzintervall etc.Sachs, Lothar (1999), Angewandte Statistik, Neunte Überarbeitete Auflage, Berlin, Heidelberg [Lehrbuchsammlung der BOKU 32.60. 1 9A, insb. S. 97ff)Bortz, J., Döring, N. (1995), Forschungsmethoden und Evaluation, 2. Auflage, Berlin et al. ([Lehrbuchsammlung der BOKU 20.60 1 2A, insbes. Seite 368 -399]Erben, Wilhelm (1998), Statistik mit Excel 5 oder 7, (Buch mit Diskette), [Lehrbuchsammlung der BOKU 32.60 5]
Diverse Internet-Angebote unter Stichworten wie „Konfidenzintervall“, „Standardfehler“ etc. mit Java-Applets zur Manipulation von Parametern etc.