Upload
christianne-dunkel
View
107
Download
3
Embed Size (px)
Citation preview
Kurzeinführung in SPSS und Regressionsanalyse
Inhalt
1. Grundlagen 2. Deskriptive Statistiken 3. OLS-Regression 4. WLS-Regression 5. Multiple Regressionsmodelle 6. Dummy-Variablen 7. Homo-/Heteroskedastie 8. Zeitreihen 9. Ergebnispräsentation
Grundsätzliche Vorgehensweisebei einer Analyse
am Anfang steht eine Grundfrage (hier z.B. „welche Faktoren beeinflussen die Entwicklung der Ernährungsqualität?“)
sofern vorhanden, sollten bereits existierende ökonomische Theorien zu dieser Frage berücksichtigt werden, um herauszufinden, welche Einflußfaktoren zuvor als wichtig erkannt wurden
eventuell Ergänzung dieser durch weitere, plausibel oder interessant erscheinende Determinanten
Daten werden gesammelt und in einer großen Tabelle (jeder Fall eine Zeile) aufgelistet
Allgemeine Vorteileder Regressionsanalyse
Möglichkeit Einfluß einer bzw. verschiedener „erklärender“ Variablen (auch: „unabhängige Variable“, UV, „exogene“) auf eine zu erklärende Variable (AV, „abhängige“, „endogene“) abzuschätzen
zudem feststellbar (vereinfachend): wie systematisch („signifikant“) ist der Einfluß? gilt er auch für andere Daten? um wieviel ändert sich die AV, wenn die UV um eine Einheit höher ist? wie hoch wäre die AV, wenn alle UV Null wären? Hinweise auf Richtung der Kausalität, Interaktionen zwischen UV wieviel erklärt ein Modell (ein Kombination aus 1 AV und 1 oder mehr
UV)? Repräsentativität von Ergebnissen: quantitative Einschätzung von
Unterschieden verschiedener Datensätze möglich mit Hilfe statistischer Graphik und Kartographie entwickeln sich neue
Fragestellungen
Grundlagen: Literaturhinweise
Auer, L.: Ökonometrie, eine Einführung, Berlin 1999. Eckstein, P.: Angewandte Statistik mit SPSS, Praktische
Einführung für Wirtschaftswissenschaftler, Wiesbaden 2000. Mukherjee, Ch. et al. : Econometrics and Data Analysis for
Developing Countries, New York 1998. Woolbridge, J.: Introductory Econometrics, A Modern
Approach, Thomson Learning 2000.
Grundlagen: Dateitypen in SPSS
Datendateien .sav: enthalten die zu bearbeitenden Daten als Datentabelle; es kann nur eine Datendatei geöffnet werden
Ausgabe-Navigator .spo: Ergebnisse der SPSS-Prozeduren werden in diesem zusätzlichen Fenster bereitgestellt
Syntax-Dateien .sps: enthalten in der Kommandosprache beschriebene Rechenaufträge
Öffnen mit („Datei, Öffnen Daten/ Syntax oder Ausgabe) Speicherung der Dateitypen mit Datei/ Speichern Dokumentation zwar lästig aber sehr wichtig! Kodierungen und
Vorgehens-weise immer direkt im Ausgabenavigator oder in einem Textverarbeitungsprogramm notieren
Grundlagen: Variablenansicht
als Karteikarte neben Datenansicht, enthält Informationenüber die Variablen in der Datendatei Name: Name der Variablen (Kleinbuchstaben, max. 8) Typ: Numerisch (Zahlen) und String (Buchstaben) Dezimalstellen: Anzahl der Stellen hinter dem Komma Variablenlabel: nähere, inhaltliche Beschreibung der Variable Wertelabel: welche Werte die Variable annehmen kann und was
diese dann bedeuten Fehlende Werte: der Variablenwert ist nicht ermittelbar; für die
Kodierung sollte ein Wert verwendet werden, den die Variable nicht annehmen kann, der ganze Fall wird dann bei Prozeduren, die auf diese Variable zurückgreifen, ignoriert
Grundlagen: Datensätze
Datensätze: (zufällige) Stichprobe von Individuen, Haushalten,
Firmen, Staaten etc. oder Vollerhebung Cross-Sectional Data: Querschnitt zu einem bestimmten
Zeitpunkt (z.B. verschiedene Länder: Index i) Time Series Data: enthält Ausprägungen der Variablen über die
Zeit hinweg (gekennzeichnet mit t) Pooled Cross Sections: Mischung aus Querschnitt und
Zeitreihe, wobei die Querschnitte unabhängig voneinander „gezogen“ werden
Panel/ Longitudinal: Mischung aus Querschnitt und Zeitreihe, wobei die Querschnitte immer dieselben Mitglieder umfasst
Deskriptive Statistiken
Deskriptive Statistiken: Allgemeines
Def.: Werkzeuge, die der Beschreibung von Daten dienen Startpunkt einer jeden Analyse, um Daten besser einschätzen zu
können eine „schiefe“ oder unsymmetrische Verteilung kann zu
täuschender Insignifikanz und anderen Schätzproblemen führen untypische Extremfälle („Ausreißer“) können das Gesamtergebnis
verzerren bei nichtlinearen Zusammenhängen müssen spezielle Maßnahmen
ge-troffen werden deshalb: vor Anwendung der Regressionsanalyse auf (halbwegs)
normalverteilte Variablen achten! denn: wenn Originalvariablen normal oder zumindest symmetrisch
verteilt sind, dann besteht eine relativ hohe Wahrscheinlichkeit, daß auch die Residuen normalverteilt sind
Voranalyse:Überprüfung der Häufigkeiten
absolute Häufigkeit: mit welcher Anzahl ein bestimmter Wert vorkommt
relative Häufigkeiten: Anzahl bestimmter Werte bezogen auf die Grundgesamtheit der Werte
graphische Darstellung einer Verteilung: Histogramme kumulierte Häufigkeiten: Wahrscheinlichkeit, dass die
Variable unter oder über einem bestimmten Wert liegt
Voranalyse: Histogramm
1. Schritt bei der Betrachtung der Verteilung:Erzeugung eines Histogramms, daßß die Häufigkeit der Fälle in Abhängigkeit der Variable (in Intervallen) anzeigt
Variable nach Größe geordnet, Angabe von deren absoluten oder relativen Häufigkeit
in ökonometrischen Studien abstrakte (und stetige) Darstellung der Verteilungen als Liniendiagramm
mit Grafiken/ Histogramm/ Variable xy (& Kreuz bei Normalverteilungskurve anzeigen/ OK)
Öffnen des Graphikeditors: durch doppelklicken auf die Graphik z.B. Klicken Sie zwei Mal auf die horizontale Achse. Unter Intervalle/ Anpassen/ Definieren/ Intervallbreite den Wert 0,5 eingeben/ Weiter. Dann Beschriftungen/ Dezimalstellen: 1/ Weiter / OK
Weitere Aufgaben der Voranalyse
Überprüfung von „Ausreißern“ Notwendig, da Regressionsgerade sehr sensibel auf Ausreißer
(Beobachtungen, die weit von der Regressions-gerade entfernt liegen) reagiert
Ausreißer erkennbar, z.B. wenn es bei den Variablen (v.a. der zu erklärenden) einen oder wenige extreme Werte gibt
genauere Analyse der wichtigsten erklärenden Variablen insbesondere mittels Streudiagramm
ermöglicht genauere Betrachtung des Einflusses einer besonders wichtigen und interessanten erklärenden Variable
auf diese Weise können auch nichtlineare Zusammenhänge betrachtet werden: z.B. hat eine Variable erst ab einem gewissen Schwellenwert einen Einfluß?
Fehlerbalkendiagramm nützlich bei Betrachtung vieler Kategorien sehr hoher Fallzahl
Deskriptive Statistiken: Durchschnitte
1. Arithmetisches Mittel oder Mittelwert: Summe der Messwerte dividiert durch ihre Anzahl: E(y)=(n
i=1 yi)/n
2. Median (Zentralwert): gibt zentrales Mittel:
Variable nach Größe ordnen, Wert auf mittlerer Position (Anzahl der Einzelbeobachtungen in Stichprobe + 1) / 2
falls gerade: Median Wert auf dieser Position
falls ungerade: Median Mittelwert zwischen den Werten auf den umliegenden Positionen
3. Modus oder Modalwert (häufigster Wert): gibt die Spitze der Verteilung an
SPSS: Analysieren/ Deskriptive Statistiken/ Häufigkeiten, unter Statistik/ Lagemaße zu berechnende Durchschnitte ankreuzen
Median, Modus und Mittelwert ?12 11 13.57
Beispiel: Zufallsstichprobe
Nr. 1 2 3 4 5 6 7
xj x1 x2 x3 x4 x5 x6 x7
value 1 11 11 12 13 14 33
8
x8
34
Deskriptive Statistiken: Durchschnitte II
Veränderungen bei Hinzufügen von x8?
12.5 11 16.13
Durchschnitte und Verteilung
bi-/multimodale Verteilung=> Median oder Mittelwert uninteressant
=> wichtig: Modalwerte
unimodale Verteilung:wenn symmetrisch => leichter zu analysieren
Deskriptive Statistiken: Normalverteilung
eine symmetrische stetige, glockenförmige Verteilung um das arithmetische Mittel, die allein durch das arithmetische Mittel und die Standardabweichung vollständig beschrieben ist
Modus, Median und Mittelwert sind identisch Kennzahlen zur Schiefe und Kurtosis der Normalverteilung
entsprechen 0 zentrale Bedeutung in der induktiven Statistik
Annahme der Normalverteilung: in der Regel als Basis für Modellierung eines Populationsdurchschnitts
je geringer die Varianz, desto repräsentativer der Mittelwert für den gesamten Datensatz
Standardnormalverteilung
0-1,96 +1,96
=1
2,5% der Fälle 2,5% der Fälle
95% der Fälle
Ablehnungsbereich AblehnungsbereichAnnahmebereich
n
YZ
/
Transformation mittels:
Mittelwertschätzung
der errechnete Mittelwert hängt von den Werten der zufällig gezogenen Stichprobe ab
man kann nicht mit Genauigkeit sagen, inwieweit der errechnete Mittelwert mit dem tatsächlich wahren Mittelwert übereinstimmt
aber: aus der Standardnormalverteilung Bildung eines Konfidenzintervalls (Intervall, in dem mit 95%iger Wahrscheinlichkeit der Mittelwert liegt) möglich
Deskriptive Statistiken: Test auf Normalverteilung
Kolmogorov-Smirnov-Anpassungstest:ist die tatsächliche Abweichung größer als die errechnete maximale Abweichung, dann wird die Normalverteilung abgelehnt
Analysieren/ Nichtparametrische Tests/ K-S bei einer Stichprobe/ unter Testverteilung Normal ankreuzen/ OK
Ausgabe „assymptotische Signifikanz“Werte unter 0,05: Normalverteilung kann zu einem Signifikanzniveau von 5% abgelehnt werden, Werte > 0,05 => Normalverteilung
grafisch: Histogramm: Grafiken/ Histogramm/ Variable/ OK
Schiefe
Werte müssen nicht symmetrisch um den Mittelwert liegen: schiefe Verteilung => Standardabweichung und Mittelwert reichen nicht aus, um die Verteilung ausreichend zu beschreiben
z.B. bei rechtsschiefer bzw.linkssteiler Verteilung: Modus < Median < Mittelwert
a3 > 0 : rechtsschief
a3 < 0 : linksschief
Deskriptive Statistiken: Folgen einer deutlich schiefen Verteilung
vor allem bei sozioökonomischen Daten sind schiefe Verteilungen häufig
bei Regressionen kann Schiefe zu nichtnormalverteilten Residuen führen
verzerrten Schätzung von Teststatistiken sowie Konfidenzintervallen bzw. des Signifikanzniveaus (d.h. zu täuschender Signifikanz oder täuschender Insignifikanz)
Gefahr von Heteroskedastie Autokorrelation bei Zeitreihen deshalb: vor Anwendung der Regressionsanalyse auf
(halbwegs) normalverteilte Variablen achten!
Möglichkeit der Reduzierung der Schiefe
„Ladder of Powers“ (bei Mukherjee et al.): nichtlineare Transformation Wirkung auf SchiefeY³ reduziert extreme LinksschiefeY² reduziert LinksschiefeY1 beläßt Variable unverändertln(Y) reduziert RechtsschiefeY-1 reduziert extreme Rechtsschiefe
Mittelwert der transformierten Variable entspricht Median der Originalvariable
auch viele andere Schätzprobleme verschwinden oft bei korrekt transformierten Variablen (z.B. Heteroskedastie)
Vorteile der logarithmischen Transformation
wenn alle Variablen (außer den Dummies) logarithmiert werden, hat dies zudem den Vorteil, daß die Koeffizienten als prozentuale Veränderungen gelesen werden dürfen (aufgrund der mathematischen Eigenschaft des Logarithmus)
d.h. der Koeffizient sagt uns, wieviel % sich die zu erklärende Variable ändert, wenn die erklärende um 1% steigt
bei Dummies: wieviel % Unterschied besteht zwischen der Konstanten und dem Fall, der durch die Dummy repräsentiert wird
auf diese Weise lassen sich auch leichter Modellrechnungen und Simulationen durchführen
Probleme der logarithmischen Transformation
mögliche Folge der logarithmische Transformation: einzelne erklärende Variablen nicht exakt normalverteilt (unproblematisch wenn nur kleine Abweichungen)
bei vielen Transformationen ergeben sich negativen Zahlen oder Nullwerte
Ausweg: Konstruktion eines Indexes:niedrigster Wert gleich 0 (wenn er selten aufritt, sonst z.B. 1, oder 0,01), höchster gleich 100, und Werte dazwischen werden linear zu positiven Indexwerten transformiert: Index=100*(x - min)/(max-min)
dieser Index kann dann logarithmiert werden, ohne das Beobachtungen entfallen
Deskriptive Statistiken: weitere Momente einer Verteilung
Varianz einer Verteilung: Distanz einer Variable zum Durchschnitt; Maß für die Streuung einer Variablen
Standardabweichung einer Verteilung: Distanz zwischen arithmetischen Mittel und Wendepunkt (Punkt an dem die Rechtskrümmung zu einer Linkskrümmung wird)
Kurtosis einer Verteilung: Wölbung
Varianz einer Verteilung
zwei Variablen mit demselben arithmetischen Mittel, allerdings unterschiedlicher Streuung: z.B. Variable x liegt dichter um den Mittelwert verteilt als Variable y
Interpretation der Varianz: erwartete Distanz der Variable x zum Durchschnitt; Maß für die Streuung einer Variablen
Standardabweichung einer Verteilung
x
f(x)
f(x)
Interpretation der Standardabweichung: Distanz zwischen arithmetischen Mittel und Wendepunkt (Punkt an dem die Rechtskrümmung zu einer Linkskrümmung wird) der Verteilung
xx
Deskriptive Statistiken:Kurtosis einer Verteilung
Variablen mit identischem Mittelwert/ Standardabweichung und symmetrischer Verteilung, allerdings unterschiedlicher Wölbung
im Vergleich zur Normalverteilung
a4 > 0 : höhere Wölbung
a4 < 0 : kleinere Wölbung
3)(
: 4
4
4
YEaKurtosis
OLS-Regression: Streudiagramm
nur für univariate Regression rechtwinkliges Koordinatensystem: Streudiagramm –
linearer, nichtlinearer oder kein Zusammenhang abhängige (=zu erklärende, endogene) Variable: wird auf
der y- Achse abgetragen (z. B.: Körpergröße)erklärende (=exogene, unabhängige) Variable: wird auf der x-Achse abgetragen (z. B.: Zeit)
Graphiken/ Streudiagramm/ Einfach Definieren/ erklärende Variable in x-Achse & zu erklärende Variable in y-Achse/ (Fallbeschriftung) / OK
Einfügen der Regressionsgeraden 2X auf Streudiagramm klicken, führt zum Grafikeditor; darin
auf Diagramme/ Optionen/ Kreuz bei Anpassungslinie gesamt/ OK
Veranschaulichung der Zusammenhänge zwischen UV & AV
OLS-Regression:Einflußreiche Ausreißer
Verteilung der Beobachtungen: Berücksichtigung möglicher Ausreißer
=> verschiedene Streudiagramme identifizieren einflußreiche Ausreißer
Def.: Beobachtungen, die von den mittleren 50% der Werte mehr als drei mal dieser Distanz entfernt liegen (Daumenregel)
Regressionsgerade reagiert möglicherweise sehr sensitiv auf Ausreißer
Lösung: Regression mit und eine ohne Ausreißer durchführen und Veränderung der Regressionskoeffizienten betrachten
Ergebnisse, die auf Ausreißern basieren, sind unglaubwürdig
Ausreißer raus!