Upload
benedict-julius-boehler
View
231
Download
4
Embed Size (px)
Citation preview
Korrelation
• (Benninghaus S 304-344)• Korrelation: Maß für den Zusammenhang zweier
metrischer Variablen (intervall- oder verhältnisskaliert)
• setzt Linearität des Zusammenhangs voraus• ist ein Maß für symmetrische Hypothesen: es wird
nicht zwischen unabhängiger und abhängiger Variable unterschieden
• zur Veranschaulichung wird der Zusammenhang in einem Streudiagramm dargestellt
Lineare (a,b) und nicht lineare Zusammenhänge
fast perfekte positive Korrelation
fast perfekte negative Korrelation
keine Korrelation
positive Korrelation mittlerer Höhe
Beispiel nach Gehring und Weins
• Es soll die Annahme überprüft werden, dass in Orten mit hohem Katholikenanteil der Anteil der CDU-Wähler besonders groß ist. Die Annahme muss bestätigt werden, wenn in Orten mit überdurchschnittlichem Katholikenanteil auch der CDU-Wähler-Anteil überdurchschnittlich ist und wenn in Orten mit unterdurchschnittlichem K-Anteil auch der Anteil der CDU-Wähler unterdurchschnittlich ist. Was über/unterdurchschnittlich ist, erkennen wir am Vergleich mit dem Mittelwert.
Beispiel
• Wenn der Zusammenhang hoch ist, variieren beide Variablen gemeinsam, haben also eine hohe Kovarianz: n
yyxxyx
n
iii
1
)()(),cov(
Beispiel
• Da die Kovarianz sich mit der Maßeinheit ändert, sind Kovarianzen nicht vergleichbar, daher standardisiert man sie, indem man durch die Standardabweichungen beider Variablen teilt (Korrelation ist Kovarianz durch Standardabweichungen)
Formeln für Korrelation
yx
n
iii
ssn
yyxxr
1
)()(
Korrelation = Kovarianz durch Standardabweichungen,
reicht von -1 bis 1
])(][)([ 2222iiii
iiii
yyNxxN
yxyxNr
Formel nach Benninghaus
Formel zum einfacheren Rechnen im Glossar von Andreß
SAP Summe der Abweichungsprodukte
SAQ Summe der Abweichungsquadrate
Praktisches Vorgehen: Arbeitstabelle
Regression
• Regression: auch hier geht es um den Zusammenhang zweier metrischer Variablen (intervall- oder verhältnisskaliert)
• setzt Linearität des Zusammenhangs voraus• ist geeignet für asymmetrische Hypothesen: es
wird zwischen unabhängiger (x) und abhängiger Variable (y) unterschieden
• man spricht von der Regression von y auf x (d.h. auf Grund von x), man will die Varianz von y durch x erklären
Wichtige Begriffe
• Regressionsgerade: y = a + b xWird so in die Punktwolke eingefügt, dass die Summe der quadrierten Abweichungen jedes Meßwerts von der Regressionsgerade ein Minimum erreicht
• aus dieser Vorgabe ergeben sich die Werte der Regressionskoeffizienten a und b (Achsenabschnitt und Steigung)
• es läßt sich ein PRE-Maß formulieren (Determinationskoeffizient R²)
2)())((
xxyyxx
bi
ii
xbya
Formeln für die Regressionskoeffizienten (auch als b1 und b0 bezeichnet)
am obigen Beispiel
Interpretation der Regressionsgeraden
• b: Wenn x um eine Einheit steigt, steigt y um b Einheiten (hier 0.19).
• a: Wenn x Null wäre, läge y bei a.• a ist nur sinnvoll zu interpretieren, wenn x den
Wert Null annehmen kann und wenn y bei x=0 sinnvoll hochzurechnen ist. Beim Zusammenhang zwischen Alter und Einkommen macht es keinen Sinn, das Einkommen beim Alter von 0 Jahren hochzurechnen.
Lineare Einfachregression: Annahmen und OLS-Schätzung (1)
Fragen zur Vorlesung
Frage: Warum betrachtet man die quadrierten Abweichungen von der Regressionsgeraden und nicht die einfachen Abweichungen?Antwort: Weil die Summe der einfachen Abweichungen für jede Regressionsgerade, die durch den Schwerpunkt (x-quer, y-quer) der Punktwolke verläuft, gleich Null ist.
Frage: Gibt es einen Punkt, durch den jede Regressionsgerade laufen muß? Antwort: Ja, der Schwerpunkt der Punktwolke. Der Schwerpunkt entspricht dem Punkt mit den Koordinaten x=x-quer und y=y-quer.
Frage: Gibt es statt Probieren eine mathematische Methode, wie man die Gerade (genauer: die Parameter der Geradengleichung) bestimmen kann, die die Summe der quadrierten Abweichungen minimiert?
Antwort: Die Minimierung einer Funktion, hier die Summe der Abweichungsquadrate als Funktion der Parameter b0 und b1, SAQ =
f(b0, b1), ist ein Problem der Differentialrechnung. Bildet man die ersten
Ableitungen der Funktion SAQ = f(b0, b1) und setzt diese Null, ergeben
sich die Formeln für b0 und b1 in der Formelsammlung.
Lineare Einfachregression: Annahmen und OLS-Schätzung (2)
Erläuterung der proportionalen Fehlerreduktion (PRE)
• Ohne Kenntnis der UV sagen wir für jede Untersuchungseinheit bei der Variable y den Mittelwert y quer vorher.
• Der Fehler, den wir dabei machen, ist die Summe aller quadrierten Abweichungen der Meßwerte aller Untersuchungseinheiten vom Mittelwert y quer (Gesamtvariation)
yyi
2)(
Erläuterung der proportionalen Fehlerreduktion (PRE)
• Mit Kenntnis der UV sagen wir für jede Untersuchungseinheit bei der Variable y den Wert vorher, der sich aus der Regressionsgeraden ergibt: y´i = a + b xi
• Der Fehler, den wir dabei machen, ist die Summe aller quadrierten Abweichungen der Meßwerte aller Untersuchungseinheiten von den geschätzten Werten y´i (nicht erklärte Variation)
2)( ii yy
Erläuterung der proportionalen Fehlerreduktion (PRE)
• Erklärte Variation dagegen sind die quadrierten Abweichungen der geschätzten Werte y ´i vom Mittelwert y quer
2)( yyi
Erläuterung der proportionalen Fehlerreduktion (PRE)
• Varianzzerlegung: Die Gesamtvariation ist die Summe der erklärten und nicht erklärten Variation. Die Gesamtvarianz ist die Summe der erklärten und der nicht erklärten Varianz:
Erläuterung der proportionalen Fehlerreduktion (PRE)
• Fehlerreduktion (E1-E2) / E1
• (Gesamtvariarion – nicht erklärte Variation)geteilt durch Gesamtvariation
• identisch mit: erklärte Variation durch Gesamtvariation
• man erhält die gleichen Werte, wenn man statt der Variation die Varianz verwendet
• das Maß für die Fehlerreduktion heißt R² oder Determinationskoeffizient, er bezeichnet den Teil der erklärten Varianz an der Gesamtvarianz. R² ist ein symmetrisches Maß, ergibt sich also genauso bei der Regression von x auf y.
22
22
1
21 rs
ssE
EEy
yy
Zusammenhang zwischen Korrelation und Regression
Das Bestimmtheitsmaß R2 entspricht dem Quadrat des Korrelationskoeffizienten.
Korrelation ist identisch mit dem Regressionskoeffizienten b bei der Regression der z-transformierten Variable y auf die z-transformierte Variable x.
Interpretation r: das Maß, in dem eine Steigung einer Variablen mit der Steigung (oder dem Absinken bei negativen Korrelationen) einer anderen Variablen einhergeht.Interpretation R²: der Anteil der erklärten Varianz von y durch x (damit ist aber noch keine kausale Aussage verknüpft)