Kurzeinführung in SPSS und Regressionsanalyse. Inhalt 1. Grundlagen 2. Deskriptive Statistiken 3. OLS-Regression 4. WLS-Regression 5. Multiple Regressionsmodelle

Kurzeinführung in SPSS und Regressionsanalyse

Inhalt

1. Grundlagen 2. Deskriptive Statistiken 3. OLS-Regression 4. WLS-Regression 5. Multiple Regressionsmodelle 6. Dummy-Variablen 7. Homo-/Heteroskedastie 8. Zeitreihen 9. Ergebnispräsentation

Grundsätzliche Vorgehensweisebei einer Analyse

am Anfang steht eine Grundfrage (hier z.B. „welche Faktoren beeinflussen die Entwicklung der Ernährungsqualität?“)

sofern vorhanden, sollten bereits existierende ökonomische Theorien zu dieser Frage berücksichtigt werden, um herauszufinden, welche Einflußfaktoren zuvor als wichtig erkannt wurden

eventuell Ergänzung dieser durch weitere, plausibel oder interessant erscheinende Determinanten

Daten werden gesammelt und in einer großen Tabelle (jeder Fall eine Zeile) aufgelistet

Allgemeine Vorteileder Regressionsanalyse

Möglichkeit Einfluß einer bzw. verschiedener „erklärender“ Variablen (auch: „unabhängige Variable“, UV, „exogene“) auf eine zu erklärende Variable (AV, „abhängige“, „endogene“) abzuschätzen

zudem feststellbar (vereinfachend): wie systematisch („signifikant“) ist der Einfluß? gilt er auch für andere Daten? um wieviel ändert sich die AV, wenn die UV um eine Einheit höher ist? wie hoch wäre die AV, wenn alle UV Null wären? Hinweise auf Richtung der Kausalität, Interaktionen zwischen UV wieviel erklärt ein Modell (ein Kombination aus 1 AV und 1 oder mehr

UV)? Repräsentativität von Ergebnissen: quantitative Einschätzung von

Unterschieden verschiedener Datensätze möglich mit Hilfe statistischer Graphik und Kartographie entwickeln sich neue

Fragestellungen

Grundlagen: Literaturhinweise

Auer, L.: Ökonometrie, eine Einführung, Berlin 1999. Eckstein, P.: Angewandte Statistik mit SPSS, Praktische

Einführung für Wirtschaftswissenschaftler, Wiesbaden 2000. Mukherjee, Ch. et al. : Econometrics and Data Analysis for

Developing Countries, New York 1998. Woolbridge, J.: Introductory Econometrics, A Modern

Approach, Thomson Learning 2000.

Grundlagen: Dateitypen in SPSS

Datendateien .sav: enthalten die zu bearbeitenden Daten als Datentabelle; es kann nur eine Datendatei geöffnet werden

Ausgabe-Navigator .spo: Ergebnisse der SPSS-Prozeduren werden in diesem zusätzlichen Fenster bereitgestellt

Syntax-Dateien .sps: enthalten in der Kommandosprache beschriebene Rechenaufträge

Öffnen mit („Datei, Öffnen Daten/ Syntax oder Ausgabe) Speicherung der Dateitypen mit Datei/ Speichern Dokumentation zwar lästig aber sehr wichtig! Kodierungen und

Vorgehens-weise immer direkt im Ausgabenavigator oder in einem Textverarbeitungsprogramm notieren

Grundlagen: Variablenansicht

als Karteikarte neben Datenansicht, enthält Informationenüber die Variablen in der Datendatei Name: Name der Variablen (Kleinbuchstaben, max. 8) Typ: Numerisch (Zahlen) und String (Buchstaben) Dezimalstellen: Anzahl der Stellen hinter dem Komma Variablenlabel: nähere, inhaltliche Beschreibung der Variable Wertelabel: welche Werte die Variable annehmen kann und was

diese dann bedeuten Fehlende Werte: der Variablenwert ist nicht ermittelbar; für die

Kodierung sollte ein Wert verwendet werden, den die Variable nicht annehmen kann, der ganze Fall wird dann bei Prozeduren, die auf diese Variable zurückgreifen, ignoriert

Grundlagen: Datensätze

Datensätze: (zufällige) Stichprobe von Individuen, Haushalten,

Firmen, Staaten etc. oder Vollerhebung Cross-Sectional Data: Querschnitt zu einem bestimmten

Zeitpunkt (z.B. verschiedene Länder: Index i) Time Series Data: enthält Ausprägungen der Variablen über die

Zeit hinweg (gekennzeichnet mit t) Pooled Cross Sections: Mischung aus Querschnitt und

Zeitreihe, wobei die Querschnitte unabhängig voneinander „gezogen“ werden

Panel/ Longitudinal: Mischung aus Querschnitt und Zeitreihe, wobei die Querschnitte immer dieselben Mitglieder umfasst

Deskriptive Statistiken

Deskriptive Statistiken: Allgemeines

Def.: Werkzeuge, die der Beschreibung von Daten dienen Startpunkt einer jeden Analyse, um Daten besser einschätzen zu

können eine „schiefe“ oder unsymmetrische Verteilung kann zu

täuschender Insignifikanz und anderen Schätzproblemen führen untypische Extremfälle („Ausreißer“) können das Gesamtergebnis

verzerren bei nichtlinearen Zusammenhängen müssen spezielle Maßnahmen

ge-troffen werden deshalb: vor Anwendung der Regressionsanalyse auf (halbwegs)

normalverteilte Variablen achten! denn: wenn Originalvariablen normal oder zumindest symmetrisch

verteilt sind, dann besteht eine relativ hohe Wahrscheinlichkeit, daß auch die Residuen normalverteilt sind

Voranalyse:Überprüfung der Häufigkeiten

absolute Häufigkeit: mit welcher Anzahl ein bestimmter Wert vorkommt

relative Häufigkeiten: Anzahl bestimmter Werte bezogen auf die Grundgesamtheit der Werte

graphische Darstellung einer Verteilung: Histogramme kumulierte Häufigkeiten: Wahrscheinlichkeit, dass die

Variable unter oder über einem bestimmten Wert liegt

Voranalyse: Histogramm

1. Schritt bei der Betrachtung der Verteilung:Erzeugung eines Histogramms, daßß die Häufigkeit der Fälle in Abhängigkeit der Variable (in Intervallen) anzeigt

Variable nach Größe geordnet, Angabe von deren absoluten oder relativen Häufigkeit

in ökonometrischen Studien abstrakte (und stetige) Darstellung der Verteilungen als Liniendiagramm

mit Grafiken/ Histogramm/ Variable xy (& Kreuz bei Normalverteilungskurve anzeigen/ OK)

Öffnen des Graphikeditors: durch doppelklicken auf die Graphik z.B. Klicken Sie zwei Mal auf die horizontale Achse. Unter Intervalle/ Anpassen/ Definieren/ Intervallbreite den Wert 0,5 eingeben/ Weiter. Dann Beschriftungen/ Dezimalstellen: 1/ Weiter / OK

Weitere Aufgaben der Voranalyse

Überprüfung von „Ausreißern“ Notwendig, da Regressionsgerade sehr sensibel auf Ausreißer

(Beobachtungen, die weit von der Regressions-gerade entfernt liegen) reagiert

Ausreißer erkennbar, z.B. wenn es bei den Variablen (v.a. der zu erklärenden) einen oder wenige extreme Werte gibt

genauere Analyse der wichtigsten erklärenden Variablen insbesondere mittels Streudiagramm

ermöglicht genauere Betrachtung des Einflusses einer besonders wichtigen und interessanten erklärenden Variable

auf diese Weise können auch nichtlineare Zusammenhänge betrachtet werden: z.B. hat eine Variable erst ab einem gewissen Schwellenwert einen Einfluß?

Fehlerbalkendiagramm nützlich bei Betrachtung vieler Kategorien sehr hoher Fallzahl

Deskriptive Statistiken: Durchschnitte

1. Arithmetisches Mittel oder Mittelwert: Summe der Messwerte dividiert durch ihre Anzahl: E(y)=(n

i=1 yi)/n

2. Median (Zentralwert): gibt zentrales Mittel:

Variable nach Größe ordnen, Wert auf mittlerer Position (Anzahl der Einzelbeobachtungen in Stichprobe + 1) / 2

falls gerade: Median Wert auf dieser Position

falls ungerade: Median Mittelwert zwischen den Werten auf den umliegenden Positionen

3. Modus oder Modalwert (häufigster Wert): gibt die Spitze der Verteilung an

SPSS: Analysieren/ Deskriptive Statistiken/ Häufigkeiten, unter Statistik/ Lagemaße zu berechnende Durchschnitte ankreuzen

Median, Modus und Mittelwert ?12 11 13.57

Beispiel: Zufallsstichprobe

Nr. 1 2 3 4 5 6 7

xj x1 x2 x3 x4 x5 x6 x7

value 1 11 11 12 13 14 33

8

x8

34

Deskriptive Statistiken: Durchschnitte II

Veränderungen bei Hinzufügen von x8?

12.5 11 16.13

Durchschnitte und Verteilung

bi-/multimodale Verteilung=> Median oder Mittelwert uninteressant

=> wichtig: Modalwerte

unimodale Verteilung:wenn symmetrisch => leichter zu analysieren

Deskriptive Statistiken: Normalverteilung

eine symmetrische stetige, glockenförmige Verteilung um das arithmetische Mittel, die allein durch das arithmetische Mittel und die Standardabweichung vollständig beschrieben ist

Modus, Median und Mittelwert sind identisch Kennzahlen zur Schiefe und Kurtosis der Normalverteilung

entsprechen 0 zentrale Bedeutung in der induktiven Statistik

Annahme der Normalverteilung: in der Regel als Basis für Modellierung eines Populationsdurchschnitts

je geringer die Varianz, desto repräsentativer der Mittelwert für den gesamten Datensatz

Standardnormalverteilung

0-1,96 +1,96

=1

2,5% der Fälle 2,5% der Fälle

95% der Fälle

Ablehnungsbereich AblehnungsbereichAnnahmebereich

n

YZ

/

Transformation mittels:

Mittelwertschätzung

der errechnete Mittelwert hängt von den Werten der zufällig gezogenen Stichprobe ab

man kann nicht mit Genauigkeit sagen, inwieweit der errechnete Mittelwert mit dem tatsächlich wahren Mittelwert übereinstimmt

aber: aus der Standardnormalverteilung Bildung eines Konfidenzintervalls (Intervall, in dem mit 95%iger Wahrscheinlichkeit der Mittelwert liegt) möglich

Deskriptive Statistiken: Test auf Normalverteilung

Kolmogorov-Smirnov-Anpassungstest:ist die tatsächliche Abweichung größer als die errechnete maximale Abweichung, dann wird die Normalverteilung abgelehnt

Analysieren/ Nichtparametrische Tests/ K-S bei einer Stichprobe/ unter Testverteilung Normal ankreuzen/ OK

Ausgabe „assymptotische Signifikanz“Werte unter 0,05: Normalverteilung kann zu einem Signifikanzniveau von 5% abgelehnt werden, Werte > 0,05 => Normalverteilung

grafisch: Histogramm: Grafiken/ Histogramm/ Variable/ OK

Schiefe

Werte müssen nicht symmetrisch um den Mittelwert liegen: schiefe Verteilung => Standardabweichung und Mittelwert reichen nicht aus, um die Verteilung ausreichend zu beschreiben

z.B. bei rechtsschiefer bzw.linkssteiler Verteilung: Modus < Median < Mittelwert

a3 > 0 : rechtsschief

a3 < 0 : linksschief

Deskriptive Statistiken: Folgen einer deutlich schiefen Verteilung

vor allem bei sozioökonomischen Daten sind schiefe Verteilungen häufig

bei Regressionen kann Schiefe zu nichtnormalverteilten Residuen führen

verzerrten Schätzung von Teststatistiken sowie Konfidenzintervallen bzw. des Signifikanzniveaus (d.h. zu täuschender Signifikanz oder täuschender Insignifikanz)

Gefahr von Heteroskedastie Autokorrelation bei Zeitreihen deshalb: vor Anwendung der Regressionsanalyse auf

(halbwegs) normalverteilte Variablen achten!

Möglichkeit der Reduzierung der Schiefe

„Ladder of Powers“ (bei Mukherjee et al.): nichtlineare Transformation Wirkung auf SchiefeY³ reduziert extreme LinksschiefeY² reduziert LinksschiefeY1 beläßt Variable unverändertln(Y) reduziert RechtsschiefeY-1 reduziert extreme Rechtsschiefe

Mittelwert der transformierten Variable entspricht Median der Originalvariable

auch viele andere Schätzprobleme verschwinden oft bei korrekt transformierten Variablen (z.B. Heteroskedastie)

Vorteile der logarithmischen Transformation

wenn alle Variablen (außer den Dummies) logarithmiert werden, hat dies zudem den Vorteil, daß die Koeffizienten als prozentuale Veränderungen gelesen werden dürfen (aufgrund der mathematischen Eigenschaft des Logarithmus)

d.h. der Koeffizient sagt uns, wieviel % sich die zu erklärende Variable ändert, wenn die erklärende um 1% steigt

bei Dummies: wieviel % Unterschied besteht zwischen der Konstanten und dem Fall, der durch die Dummy repräsentiert wird

auf diese Weise lassen sich auch leichter Modellrechnungen und Simulationen durchführen

Probleme der logarithmischen Transformation

mögliche Folge der logarithmische Transformation: einzelne erklärende Variablen nicht exakt normalverteilt (unproblematisch wenn nur kleine Abweichungen)

bei vielen Transformationen ergeben sich negativen Zahlen oder Nullwerte

Ausweg: Konstruktion eines Indexes:niedrigster Wert gleich 0 (wenn er selten aufritt, sonst z.B. 1, oder 0,01), höchster gleich 100, und Werte dazwischen werden linear zu positiven Indexwerten transformiert: Index=100*(x - min)/(max-min)

dieser Index kann dann logarithmiert werden, ohne das Beobachtungen entfallen

Deskriptive Statistiken: weitere Momente einer Verteilung

Varianz einer Verteilung: Distanz einer Variable zum Durchschnitt; Maß für die Streuung einer Variablen

Standardabweichung einer Verteilung: Distanz zwischen arithmetischen Mittel und Wendepunkt (Punkt an dem die Rechtskrümmung zu einer Linkskrümmung wird)

Kurtosis einer Verteilung: Wölbung

Varianz einer Verteilung

zwei Variablen mit demselben arithmetischen Mittel, allerdings unterschiedlicher Streuung: z.B. Variable x liegt dichter um den Mittelwert verteilt als Variable y

Interpretation der Varianz: erwartete Distanz der Variable x zum Durchschnitt; Maß für die Streuung einer Variablen

Standardabweichung einer Verteilung

x

f(x)

f(x)

Interpretation der Standardabweichung: Distanz zwischen arithmetischen Mittel und Wendepunkt (Punkt an dem die Rechtskrümmung zu einer Linkskrümmung wird) der Verteilung

xx

Deskriptive Statistiken:Kurtosis einer Verteilung

Variablen mit identischem Mittelwert/ Standardabweichung und symmetrischer Verteilung, allerdings unterschiedlicher Wölbung

im Vergleich zur Normalverteilung

a4 > 0 : höhere Wölbung

a4 < 0 : kleinere Wölbung

3)(

: 4

4

4

YEaKurtosis

OLS-Regression: Streudiagramm

nur für univariate Regression rechtwinkliges Koordinatensystem: Streudiagramm –

linearer, nichtlinearer oder kein Zusammenhang abhängige (=zu erklärende, endogene) Variable: wird auf

der y- Achse abgetragen (z. B.: Körpergröße)erklärende (=exogene, unabhängige) Variable: wird auf der x-Achse abgetragen (z. B.: Zeit)

Graphiken/ Streudiagramm/ Einfach Definieren/ erklärende Variable in x-Achse & zu erklärende Variable in y-Achse/ (Fallbeschriftung) / OK

Einfügen der Regressionsgeraden 2X auf Streudiagramm klicken, führt zum Grafikeditor; darin

auf Diagramme/ Optionen/ Kreuz bei Anpassungslinie gesamt/ OK

Veranschaulichung der Zusammenhänge zwischen UV & AV

OLS-Regression:Einflußreiche Ausreißer

Verteilung der Beobachtungen: Berücksichtigung möglicher Ausreißer

=> verschiedene Streudiagramme identifizieren einflußreiche Ausreißer

Def.: Beobachtungen, die von den mittleren 50% der Werte mehr als drei mal dieser Distanz entfernt liegen (Daumenregel)

Regressionsgerade reagiert möglicherweise sehr sensitiv auf Ausreißer

Lösung: Regression mit und eine ohne Ausreißer durchführen und Veränderung der Regressionskoeffizienten betrachten

Ergebnisse, die auf Ausreißern basieren, sind unglaubwürdig

Ausreißer raus!

Documents

Kurzeinführung in SPSS und Regressionsanalyse. Inhalt 1. Grundlagen 2. Deskriptive Statistiken 3. OLS-Regression 4. WLS-Regression 5. Multiple Regressionsmodelle