Agrar- und Ernährungspolitik III Vorlesung 18. März 2009 Auswertung von Strukturdaten auf dem Weg zur Normalverteilung und statistischen Tests Martin Kniepert

Agrar- und Ernährungspolitik III

Vorlesung 18. März 2009

Auswertung von Strukturdaten auf dem Weg zur Normalverteilung und statistischen Tests

Martin Kniepert

http://www.boku.ac.at/home.html

http://www.boku.ac.at/home.html

Übersicht für diese Vorlesung

Frage: Wo stehen wir im Rahmen der gesamten Vorlesung?

Beschreibende Statistik – Darstellung von Ergebnissen aus Strukturerhebungen

Die Normalverteilung als Grundlage von Stichprobenauswertungen Haben wir Normalverteilungen? => Zentraler Grenzwertsatz Punktschätzung Konfidenzintervall Hypothesentest

Kurz zurück zu Malthus

Die Vorlesung wird durchgängig auf eine zentrale, beispielhafte Fragestellung bezogen Was bieten die Wirtschaftswissenschaften zur Neufassung

Bearbeitung von Malthus Wozu brauchen wir nun Information zur Struktur bzw.

Verteilung? Berücksichtigung Einkommensverteilung von Haushalten

(global, national) Struktur der Betriebe als Ziel von Agrarpolitik [ok, es gäbe möglicherweise Dringenderes, es geht aber auch

darum, für später notwendige Grundlagen der Statistik ins Gedächtnis zu rufen.]

„Klassierende Auswertung“

„Klassierende Auswertung“ als Publikationsstandard Fläche nach Fläche (als Beispiel) Betriebe nach Fläche Gibt Aufschluss über Größenverteilung Bsp. Geflügelbestand nach Fläche Aussagekraft gering. (Diskutieren!) Eine Klassierung nach

Geflügel selbst wäre aufschlussreicher. Aussagekraft gering)

Klassierung nach Erschwerniszonen, Anbaugebieten Erlaubt ein qualitatives Bild, bietet aber keine

unmittelbar Umsetzung für Quantifzierung

„Klassierende Auswertung“ - Beispiele

Betriebe Fläche Fläche/Betr

ohne Fläche 2,284 - -unter 1 Ha 6,494 4,452 0.69

1 bis unter 2 Ha 10,544 17,440 1.652 bis unter 5 Ha 38,403 148,411 3.865 bis unter 10 Ha 40,186 306,953 7.64

10 bis unter 20 Ha 45,267 694,807 15.3520 bis unter 30 Ha 28,587 724,822 25.3530 bis unter 50 Ha 26,346 1,033,306 39.2250 bis unter 100 Ha 12,628 881,909 69.84

100 bis unter 200 Ha 3,860 595,486 154.27200 Ha und mehr 2,909 3,111,030 1,069.45

zusammen 217,508 7,518,616 34.57

Quelle: Statistik Austria, Strukturerhebung 1999, eigene Berechnungen

Betriebe Hühner Hühner/Betrohne Fläche 1,024 1,695,879 1,656

unter 1 Ha 230 22,308 96.991 bis unter 2 Ha 2,012 134,421 66.812 bis unter 5 Ha 10,910 378,098 34.665 bis unter 10 Ha 14,470 880,252 60.83

10 bis unter 20 Ha 20,159 2,712,616 134.5620 bis unter 30 Ha 13,966 2,762,102 197.7730 bis unter 50 Ha 12,124 3,281,673 270.6850 bis unter 100 Ha 4,903 1,553,805 316.91

100 bis unter 200 Ha 1,032 217,487 210.74200 Ha und mehr 297 15,134 50.96

zusammen 81,127 13,653,775 168.30

Histogramm: klassierend - grafische Auswertung

In aller Regel einheitlich klassiert Problem: Ausreißer, hohe Ungleichmäßigkeit

0

40000

80000

120000

160000

200000

240000

0 400 800 1200 1600 2000 2400 2800

Series: Beispiel 1Sample 1 220000Observations 201498

Mean 12.80859Median 7.480000Maximum 3042.850Minimum 0.010000Std. Dev. 22.90988Skewness 34.86764Kurtosis 3016.053

Jarque-Bera 7.63e+10Probability 0.000000

Anz

ahl B

eoba

chtu

ngen

ha nach Beobachtung

0

10000

20000

30000

40000

50000

0 25 50 75 100

Series: Beispiel 1Sample 1 220000 IF Beispiel 1 < 100Observations 200635


Jarque-Bera 556988.0Probability 0.000000

ha je Beobachtung

Anz

ahl B

eoba

chtu

ngen

0

5000

10000

15000

20000

25000

30000

35000

0 25 50 75 100

Series: Beispiel 1Sample Beispiel 1 < 100 AND Beisiel 1 > 1Observations 184947



Anz

ahl B

eoba

chtu

ngen

ha nach Beobachtung

Quelle: Statistik Austria, Strukturerhebung 1999, eigene Berechnungen, wegen Einzeldaten nicht benannt

0

10

20

30

40

50

60

[0, 50)

ha o

der

Stü

ck je

Bet

rieb

BEISPIEL1 (> 1 and > 100)

Um den Median grau schattiert: Der Konfidenz-intervallHier: sehr, sehr klein

Outliers

Staple

Wisker

3rd Quartile

MedianMedium

1st Quartile

Boxplots Achtung: Ausreißer (Filterstufen wie bei Histogramm)

Quelle: Statistik Austria, Strukturerhebung 1999, eigene Berechnungen, wegen Einzeldaten nicht benannt

0

400

800

1200

1600

2000

2400

2800

3200

BEISPIEL1

ha o

der

Stü

ck n

ach

Beo

bach

tung

0

20

40

60

80

100

ha o

der Stü

ck je

Bet

rieb

nach

Beo

bach

tung

Klassen

Lorenzkurven

Die Lorenzkurve stellt eine statistische Verteilung graphisch dar; sie veranschaulicht eine Konzentrationsmaß.

Ausreißer sind hier explizit enthalten Als Alternative bieten sich der Gini-Koeffizient oder der Herfindahl-Index an.

Quelle: Statistik Austria, Strukturerhebung 1999, eigene Berechnungen und Darstellung

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0% 20% 40% 60% 80% 100%

Stan

dard

-DB

in %

Betriebe in %

GleichverteilungLorenzkurve

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0% 20% 40% 60% 80% 100%

Stan

dard

-DB

in %

Arbeitskraft (JAE) in %

Gleichverteilung

Lorenzkurve

Von Würfeln und Münzen

Bislang: Beschreibende Statistik Im Weiteren: Beurteilende Statistik, Schließende

Statistik; Wahrscheinlichkeitstheorie spielt eine entscheidende Rolle

Lange Geschichte der Wahrscheinlichkeitstheorie … Nicht zuletzt aus Interesse am Glücksspiel Ernsthafter aus der zunehmenden Notwendigkeit zur

Prognose bestimmter Entwicklungen, Eintrittswahrscheinlichkeiten von Ereignissen (für Versicherungen, Parteien, Firmen bei der Absatzplanung…)

Punktschätzung

Bspw. Schätzung eines Mittelwerts Beobachtungen x1, x2, … ,xn einer Stichprobe sind

Realisierungen von n Zufallsvariablen (X1, X2,…, Xn). Der Schätzwert nach der Schätzfunktion

Wird ein einziger Schätzwert berechnet => Punktschätzung Werden mehrere Werte berechnet, so weisen diese

ihrerseits eine Verteilung auf. Frage: Wie genau trifft der Schätzwert den tatsächlichen

Wert der Grundgesamtheit?

n

iixn

x1

1

n

iiXn

X1

1

Anforderungen an Schätzfunktion

Erwartungstreu (keine systematische Abweichung) Effizienz (weisen geringe Varianz auf) Konsistenz (kleine zufällige Fehler bei großer

Stichproben) Suffizienz: Alle Informationen der Stichprobe werden

genutzt …so weit so gut, alles wird genutzt. Frage bleibt: Wie gut ist

die Schätzung. Unterstellt man eine „Normalverteilung“ wird man zu

Aussagen treffen können!

Flächen einer Normalverteilung N(μ,σ)y

-z

z

0,4

0,3

0,2

0,1

μ-

σμ-2σ

μ68,27%95,45%99,73%99,99%

μ-3σ

μ-4σ

μ+4σ

μ+3σ

μ+2σ

μ+σ

Standardnormalverteilung N(0,1)

Jede beliebige Normalverteilung N(μ,σ) kann durch Standardisierung in eine einheitliche Standardnormalverteilung N(0,1) transformiert (d.h. mit z multipliziert) werden.

Für N(0,1) sind Flächenanteile (also Wahrscheinlich-keiten) „austabelliert“.

Flächen einer Standard-Normalverteilung N(0,1)

y

-z

z

0,4

0,3

0,2

0,1

-1-2-3-4 0 1 2 3 468,27%95,45%99,73%99,99%http://www.uni-konstanz.de/FuF/wiwi/heiler/os/vt-index.html

Normalverteilungen?

Wir haben kaum Normalverteilungen! Vgl. Auswertungen von Strukturerhebungen: In aller Regel

stark rechtsschiefe Verteilungen! Haben wir nicht gewissermaßen stark unregelmäßige

Würfel? (Nein!) Eine Lösung liegt im zentralen Grenzwertsatz

Die Summe von vielen unabhängigen, beliebig verteilten Zufallsvariablen gleicher Größenordnung ist angenähert normalverteilt

Nicht die Verteilung der Grundgesamtheit (oder der einzelnen Stichprobe) ist entscheidend, sondern die Verteilung der errechneten Mittelwerte

Zentraler Grenzwertsatz (1)

Würfeln mehrmals und mit mehreren Würfeln

Würfel 1 000 mal, 2) Zwei Würfel 1 000 Mal, 3) Fünf Würfel 1 000 Mal, 4) Fünf Würfel 10 000 mal

http://en.wikipedia.org/wiki/Central_limit_theorem http://www.stat.sc.edu/~west/javahtml/CLT.html

Zentraler Grenzwertsatz (2) Grundgesamtheit einer typischen AS-Population

Die Verteilung ist stark linkssteil, selbst wenn die Betriebe ohne Bestand herausgenommen werden; auch weitere Einschränkungen führen nicht zu einer Normalverteilung, während die Gesamtzahl stark abnimmt.

0

40000

80000

120000

160000

200000

240000

0 2000 4000 6000 8000 10000 12000

Series: Beispiel 2Sample 1 217508Observations 217508



Bet

riebe

Anzahl je Betrieb

0

10000

20000

30000

40000

50000

60000

70000

80000

90000

0 2000 4000 6000 8000 10000 12000

Series: SCHWEINEGESAMTSample 1 217508 IF BEISPIEL2 > 0Observations 82555



Bet

riebe

Anzahl je Betrieb

0

1000

2000

3000

4000

5000

0 100 200 300 400 500 600 700 800

Series: Beispiel2Sample 1 217508 IF BEISPIEL2 > 10 AND BEISPIEL2 < 800Observations 21229



Ber

trie

be

Anzahl je Betrieb

Zentraler Grenzwertsatz (3) Mittelwerte von1000 Stichproben aus Beispiel2

Die Verteilungsfunktion bietet eine kumulierende Darstellung von Wahrscheinlichkeiten

Die Dichtefunktion gibt die Wahrscheinlichkeit an mit der eine Zufallsvariable zwischen zwei reellen Zahlen liegt

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

33 38 43 48 53

Wah

rsch

einl

ichk

eit

Verteilungsfunktion

100 Mittelwerte => Verteilungsfunktion P(X)

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

0.16

0.18

0.20

33 38 43 48 53

Wah

rsch

einl

ichk

eit

Dichtefunktion

Dichtefunktion

Zentraler Grenzwertsatz (4)

Durch den Zentralen Grenzwertsatz kann für Schätzwerte eine Normalverteilung unterstellt werden.

Aber: Der Löwenanteil der statistischen Arbeit ist auf eine Stichprobe beschränkt

Techniken mit denen das Problem berücksichtigt werden kann Transformation der Populationswerte bspw. durch

logarithmieren Prüfung von Verteilungen anhand von Chi-Quadrat- oder F-

Verteilungen Re-sampling-Techniken (Mehrauswertung einer einzigen

Stichprobe => Jackknife-Verfahren, => Bootstrapping)

Konfidenzintervall

Für n > 30 kann diese Formel genutzt werden:

Das Konfidenzintervall (Δkrit) für Mittelwerte (μ) berechnet sich folgendermaßen:

T-Verteilungen (df =1, 3, 5, 10)

Vgl. http://www.uni-kiel.de/medinfo/biometrie/folien/ss08_2003/sld012.htm

t-Verteilung

df p 0,900 p 0,975 p 0,990 p 0,995

1 3,078 12,706 31,821 63,656

2 1,886 4,303 6,965 9,925

3 1,638 3,182 4,541 5,841

4 1,533 2,776 3,747 4,604

... ... ... ... ...

10 1,372 2,228 2,764 3,169

... ... ... ... ...

30 1,310 2,042 2,457 2,750

1000 1,282 1,962 2,330 2,581

Zur Hypothesenbildung (1)

Nullhypothese H0: Ein Zusammenhang zwischen zwei untersuchten Größen

besteht nicht! (bspw. Steuer auf Inputverbrauch) Ein Grenzwert wird nicht überschritten, höchstens erreicht (etwas salopp: „Null“, weil sich zwei Vergleichsgruppen

„Null“ unterschieden) Alternativhypothese H1:

In der Regel die Forschungshypothese Ein Zusammenhang zwischen zwei untersuchten Größen

wird unterstellt, soll nachgewiesen werden. Ein Grenzwert wird überschritten

Zur Hypothesenbildung (2) Nullhypothese H0 und Alternativhypothese H1

schließen sich gegenseitig aus. Bspw. H0: Pestizidbelastung <= 3 g je / kg H1 : Pestizidbelastung > 3 g je / kg

Eine dritte Möglichkeit neben diesen Hypothesen bleiben nicht.

Im Beispiel (3 g je / kg ) wird eine Annahmegrenze (cA) präzisiert.

Der kritische Wert (c) beläuft sich auf 3 g bei einem Stichprobenumfang von 1 kg.

Bestätigung? Fehler 1. und 2. Art Wenn eine Hypothese bestätigt werden kann, gilt die

andere automatisch als verworfen. Eine dritte Möglichkeit neben diesen Hypothesen

bleiben nicht. Fehler 1. Art: H0 wird verworfen, obwohl H0 richtig ist. Fehler 2. Art: H0 wird angenommen, obwohl H0 falsch

ist. In beiden Fällen erweist sich die Stichprobe als

gewissermaßen nicht stichhaltig.

„Klinisch reine“ Anordnung? Vgl. Sachs (2002:188f; [144])

Zur Frage der Hypothesengewinnung aus bestehendem Datenmaterial

Diskussion zur speziellen Situation der Sozialwissenschaften im Vergleich bspw. zur experimentellen Physik Zur Erinnerung: Zur Datenherkunft (vorletzte Vorlesung) Daten als Sekundärdaten; Vielzahl von Einflussgrößen auf zu

erklärende Größen „Versuchsanordnung“ allenfalls in Experimenten der

Verhaltensökonomik Anspruch an „wissenschaftliche Exaktheit“ bleibt dennoch!

BegriffeMittelwert, Median, Quantil, Quartil etc., KlassenLorenz-Kurven, KonzentrationsmaßeStandardabweichung, VarianzRangfolge, Histogramm, Verteilungsfunktion, WahrscheinlichkeitsfunktionWahrscheinlichkeitsdichten, DichtefunktionZentraler GrenzwertsatzH0-, H1-Hypothese

Fehler 1. Art, Fehler 2. ArtKonfidenzintervall, Signifikanzniveau

Lese- und Lernempfehlungen

Zu Signifikanztests, Konfidenzintervall etc.Sachs, Lothar (1999), Angewandte Statistik, Neunte Überarbeitete Auflage, Berlin, Heidelberg [Lehrbuchsammlung der BOKU 32.60. 1 9A, insb. S. 97ff)Bortz, J., Döring, N. (1995), Forschungsmethoden und Evaluation, 2. Auflage, Berlin et al. ([Lehrbuchsammlung der BOKU 20.60 1 2A, insbes. Seite 368 -399]Erben, Wilhelm (1998), Statistik mit Excel 5 oder 7, (Buch mit Diskette), [Lehrbuchsammlung der BOKU 32.60 5]

Diverse Internet-Angebote unter Stichworten wie „Konfidenzintervall“, „Standardfehler“ etc. mit Java-Applets zur Manipulation von Parametern etc.

Documents

Agrar- und Ernährungspolitik III Vorlesung 18. März 2009 Auswertung von Strukturdaten auf dem Weg zur Normalverteilung und statistischen Tests Martin Kniepert