Upload
abuo
View
403
Download
2
Embed Size (px)
DESCRIPTION
ok
Citation preview
Institut für Soziologie Professur für empirische Sozialforschung
Prof. Dr. Johannes Kopp
Einführung in die Mehrebenenanalyse
ppDr. Daniel Lois
Einführung in die Mehrebenenanalyse(und Anwendung in Mplus / SPSS)
Stand: März 2010
Inhaltsverzeichnis
1. Mehrebenenanalyse: Grundlagen 32. Mehrebenenanalyse in Mplus 263. Mehrebenenanalyse in SPSS 544. Exkurs: Fixed oder Random? 645 Hinweise 745. Hinweise 746. Literaturempfehlungen 76
Mehrebenenanalyse 2
Mehrebenenanalyse: Grundlagen
Eine Mehrebenenstruktur liegt vor, wenn Daten einer Analyseebene hierarchisch in einer zweiten geschachtelt sind e a c sc e e e te gesc ac te t s d
Die nächste Folie zeigt hierzu drei Beispiele: Personen (Ebene 1) sind der übergeordneten Ebene „Land“ oder „Haushalt“ zugeordnet
Auch Längsschnitt- bzw. Paneldaten lassen sich als Mehrebenendatenauffassen; hier entspricht Ebene 1 den Messzeitpunkten und die übergeordnete Ebene 2 sind Personen, bei denen eine Variableübergeordnete Ebene 2 sind Personen, bei denen eine Variable mehrfach gemessen wird
Die Beispiele beschränken sich auf 2 Ebenen; grundsätzlich sind jedoch auch komplexere Hierarchien mit 3 oder mehr Ebenen denkbar (z.B. Ebene 3 = Länder, Ebene 2 = Haushalte, Ebene 1 = Personen)
Mehrebenenanalyse 3
Mehrebenenanalyse: Grundlagen
Land 1 Land 2Beispiel 1: Personen (Ebene 1) gruppieren
Person 1 Person 2 Person 3 Person 4
(Ebene 1) gruppieren sich in Ländern (Ebene 2)
Haushalt 1 Haushalt 2Beispiel 2: Personen (Ebene 1) gruppieren
Person 1 Person 2 Person 3 Person 4
sich in Haushalten (Ebene 2)
Person 1 Person 2Beispiel 3: Messzeitpunkte(Ebene 1) gruppieren
Zeitpunkt 1 Zeitpunkt 2 Zeitpunkt 1 Zeitpunkt 2
(Ebene 1) gruppieren sich in Personen (Ebene 2)
Mehrebenenanalyse 4
Mehrebenenanalyse: Grundlagen
Wenn hierarchische Daten vorliegen, sind die einzelnen Beobachtungen auf Ebene 1 (z.B. Personenebene) nicht unabhängig voneinander, was au be e ( e so e ebe e) c t u ab ä g g o e a de , asbei der Datenanalyse zu berücksichtigen ist
Geschieht dies nicht, können Schätzungen von Zusammenhängen, V i d Si ifik i fäl ht dVarianzen und Signifikanzniveaus verfälscht werden
Das folgende Skript beschäftigt sich einführend mit Verfahren zur Analyse von Mehrebenendaten; behandelt werden das Prinzip und dieAnalyse von Mehrebenendaten; behandelt werden das Prinzip und die praktische Umsetzung in den Programmen Mplus und SPSS
Die Darstellung beschränkt sich auf 2 Ebenen, eine metrische abhängige Variable und Querschnittdaten
Erweiterungen (3 oder mehr Ebenen, Verfahren für dichotome AV, Multi-Level-Panelanalyse) sind der genannten Literatur zu entnehmenLevel Panelanalyse) sind der genannten Literatur zu entnehmen
Mehrebenenanalyse 5
Mehrebenenanalyse: Grundlagen
Mehrebenenanalysen sind vor allem zum Zweck der Analyse von Individuen in Gruppen entwickelt worden
Da z.B. Schüler in Schulklassen geschachtelt sind, muss die Leistung eines Schülers als Funktion von Einflüssen auf individueller Ebene (etwa kognitive Fähigkeiten) und auf Klassenebene (z B Erfahrung deskognitive Fähigkeiten) und auf Klassenebene (z.B. Erfahrung des jeweiligen Lehrers) analysiert werden
Merkmale auf Klassenebene sind für alle Schüler einer Klasse gleich, können sich aber zwischen Schulklassen unterscheiden
Daneben kann von Interesse sein, ob die Beziehungen zwischen Variablen auf der Individualebene auf Gruppenebene variieren und obVariablen auf der Individualebene auf Gruppenebene variieren und ob diese Variabilität durch Gruppenmerkmale erklärt werden kann
Mehrebenenanalyse 6
Mehrebenenanalyse: Grundlagen
Ein Beispiel: Es geht um den Zusammenhang zwischen sozialer Herkunft und Schulleistung für einen Datensatz mit 40 Personen aus zwei Schulklassen
Auf der folgenden Folie ist der positive Zusammenhang der beiden Variablen dargestellt; berechnet wurde eine einfache lineare RegressionVariablen dargestellt; berechnet wurde eine einfache lineare Regression
Auf der Regressionsgeraden sind der Gesamtmittelwert (5,27) und die Steigung der Geraden (b = 1,61) eingetragen
Das einfache Regressionsmodell trifft die Wirklichkeit jedoch nicht bzw. führt zu falschen Schlussfolgerungen
Mehrebenenanalyse 7
Mehrebenenanalyse: Grundlagen
Mehrebenenanalyse 8
Quelle: Ditton (1998: 22)
Mehrebenenanalyse: Grundlagen
Es bleibt offen, ob bedeutsame Unterschiede zwischen den Schulklassen bestehen, wobei es hier mehrere Möglichkeiten gibt:
Zum einen kann das Leistungsniveau in den beiden Klassen unterschiedlich sein
Zum anderen kann auch der Zusammenhang zwischen sozialer Herkunft und Leistung in der einen Klasse stärker oder schwächer sein als in der anderen
Zu beiden Fragestellungen bietet die zuvor durchgeführte Analyse mittels einer einzigen linearen Regression keine Informationen; es besteht vielmehr die Gefahr dass Unterschiede verdeckt geblieben sindbesteht vielmehr die Gefahr, dass Unterschiede verdeckt geblieben sind
Mehrebenenanalyse 9
Mehrebenenanalyse: Grundlagen
Mehrebenenanalyse 10Quelle: Ditton (1998: 24)
Mehrebenenanalyse: Grundlagen
Auf der vorangehenden Folie ist das Streudiagramm erneut dargestellt; diesmal sind jedoch – getrennt für beide Klassen – zwei Regressionsgeraden eingezeichnet und es werden gravierende Unterschiede deutlich:
Es ist zu erkennen dass die Schüler aus der zweiten SchulklasseEs ist zu erkennen, dass die Schüler aus der zweiten Schulklasse deutlich höhere Schulleistungen erzielen (der Mittelwert in Klasse 2 beträgt 7,45 gegenüber 3,10 in Klasse 1)
Der zweite Unterschied besteht darin, dass der Zusammenhang zwischen sozialer Herkunft und Schulleistung in Klasse 2 viel stärker ist (b = 2,80) als in Klasse 1 (b = 0,66)
Eine einfache Methode, um die Unterschiede zwischen den Klassen aufzuzeigen, ist die Berechnung von zwei getrennten Regressionen
Mehrebenenanalyse 11
Mehrebenenanalyse: Grundlagen
Der Unterschied zwischen den Schulklassen äußert sich dann a) in den unterschiedlichen Regressionskonstanten (intercepts) und b) in den unterschiedlichen Regressionsgewichten (slopes)
Diese Vorgehensweise wird bei steigender Zahl von Level 2-Einheiten unpraktikabel (Verfahren zur Mehrebenenanalyse lösen dies eleganter)unpraktikabel (Verfahren zur Mehrebenenanalyse lösen dies eleganter), sie soll hier aus didaktischen Gründen jedoch vorläufig genügen
Wenn also Unterschiede zwischen den Klassen im Hinblick auf die Konstanten und die Regressionsgewichte bestehen stellt sich die Frage: wie können diese Unterschiede erklärt werden?
Denkbar wäre dass die Leistungsunterschiede zwischen den KlassenDenkbar wäre, dass die Leistungsunterschiede zwischen den Klassen durch unterschiedliche kognitive Fähigkeiten der Schüler, also durch einen individuellen Faktor, erklärbar sind
Mehrebenenanalyse 12
Mehrebenenanalyse: Grundlagen
Über solche Erklärungen auf der Individualebene hinaus könnten aber auch Merkmale der Schulklassen selbst, z.B. des Lehrers oder des Unterrichts, für die Unterschiede zwischen den Klassen verantwortlich sein
Im Hinblick auf den unterschiedlichen Zusammenhang zwischenIm Hinblick auf den unterschiedlichen Zusammenhang zwischen Herkunft und Leistung könnte es z.B. sein, dass durch Vorurteile der Lehrer Kinder aus oberen Schichten in der einen Klasse bevorzugt werden in der anderen dagegen weniger starkwerden, in der anderen dagegen weniger stark
Damit entsteht eine Fragestellung, die eine Mehrebenenanalyseerfordert: Gibt es über den Effekt individueller Faktoren hinaus Bedingungen und Prozesse in den Schulklassen, die zu Unterschieden im Leistungsniveau oder zu einer größeren Selektivität beitragen?
Mehrebenenanalyse 13
Mehrebenenanalyse: Grundlagen
Das einfache Beispiel hat verdeutlicht: Analysen für hierarchisch strukturierte Daten, welche die Mehrebenenstruktur der Daten ignorieren, sind unbefriedigend und können irreführend sein
Zumindest müssen bei dieser Datenstruktur die folgenden beiden Fragen gestellt werden:Fragen gestellt werden:
Gibt es Differenzen in den Mittelwerten der Level 2-Einheiten (Regressionskonstanten)?
Gibt es Differenzen in den Beziehungen zwischen den Variablen innerhalb der Level 2-Einheiten (Regressionssteigungen)?
Verfahren zur Mehrebenenanalyse können diese Fragen beantworten; ihr Grundprinzip ist, dass Phänomene auf unterschiedlichen Analyseebenen (Individual- und Aggregatebene) gleichzeitig untersucht y ( gg g ) g gwerden
Mehrebenenanalyse 14
Mehrebenenanalyse: Grundlagen
Daten mit Mehrebenenstrukturen wurden lange Zeit mit suboptimalen Verfahren analysiert (dazu zählt z.B. die Aggregation oder Disaggregation der Daten, um Analysen auf nur einer Ebene durchzuführen können)
Seit den 1980er Jahren stehen leistungsfähige Verfahren zur VerfügungSeit den 1980er Jahren stehen leistungsfähige Verfahren zur Verfügung, die für hierarchisch strukturierte Datensätze angemessen sind
Behandelt werden im Folgenden Mehrebenenmodelle mit Zufallskoeffizienten (multilevel random coefficient modeling, MRCM)
Diese Verfahren kann man sich konzeptuell als eine Reihe geschachtelter Regressionsanalysen vorstellen in denen diegeschachtelter Regressionsanalysen vorstellen, in denen die Koeffizienten einer Analyseebene zur abhängigen Variablen auf der nächsten Analyseebene werden (deshalb wird oft auch von hierarchischen linearen Modellen“ (HLM) gesprochen)„hierarchischen linearen Modellen (HLM) gesprochen)
Mehrebenenanalyse 15
Mehrebenenanalyse: Grundlagen
Im Rahmen der „systems of equations“-Notation werden diese Modelle durch separate Gleichungen für jede Analyseebene beschrieben (so auch im Folgenden)
Die einfachsten Analysen, die als Nullmodell bezeichnet werden, modellieren nur den Mittelwert auf jeder Ebene (siehe Tabelle nächstemodellieren nur den Mittelwert auf jeder Ebene (siehe Tabelle nächste Folie, Modell 1)
In diesem Modell wird die kontinuierliche Variable Y für i Individuen in j Gruppen gemessen
Die Regressionskonstante (intercept) β0j gibt den Mittelwert von Y für jede Gruppe j anjede Gruppe j an
Die Variable Y wird auf Ebene 1 als Funktion der Regressionskonstante für jede Gruppe (β0j) und des Fehlers rij modelliert; die Varianz von rijj pp (β0j) ij ijentspricht der Varianz der abhängigen Variablen auf Ebene 1
Mehrebenenanalyse 16
Mehrebenenanalyse: Grundlagen
Klasse Nr Gleichungen AnmerkungKlasse Nr. Gleichungen Anmerkung
Unkonditioniert( Nullmodell“) 1
Level 1: Wird benutzt, um ICC zu berechnenijojij rY +β=
(„Nullmodell ) 1Level 2:
Level 1:
j000j0 u+γ=β
ijijj1ojij rXY +β+β=
Random I t t
2 Level 2: jjjjj
10j1 γ=βj000j0 u+γ=β
Intercept
3
Level 1: Fokus liegt auf Erklärung von UnterschiedenLevel 2:
j
j0j0100j0 uW +γ+γ=βijojij rY +β=
3 zwischen Level 2-Einheiten (z.B. Länder)
j0j0100j0 uWγγβ
Mehrebenenanalyse 17
Mehrebenenanalyse: Grundlagen
Die Regressionskonstante β0j wird in diesem Modell nur als Funktion des Gesamtmittelwertes (γ00) und des Fehlers (u0j) modelliert; die Varianz jvon u0j ist die Varianz der abhängigen Variablen auf Ebene 2
Die Gesamtvarianz von Y entspricht der Summe der Varianzen auf Ebene 1 und 2; Nullmodelle geben also – als erster Schritt in derEbene 1 und 2; Nullmodelle geben also – als erster Schritt in der Analyse – Aufschluss darüber, wie die Varianz auf die einzelnen Analyseebenen verteilt ist
Das Hauptinteresse wird jedoch meist auf Modellen mit Prädiktoren liegen
Die nächste Modellklasse wird unter dem Begriff Random Intercept“Die nächste Modellklasse wird unter dem Begriff „Random Intercept zusammengefasst
Mehrebenenanalyse 18
Mehrebenenanalyse: Grundlagen
Ein solches Modell ist anzuwenden, wenn davon ausgegangen wird, dass es zwar Unterschiede im Y-Mittelwert zwischen den Level 2-Einheiten gibt (die intercepts also variieren), der Effekt einer oder mehrerer Level 1-Variablen X sich aber nicht zwischen den Level 2-Einheiten unterscheidet (siehe Folie 22)
In Modell Nr. 2 ist eine Individualvariable X als Prädiktor enthalten, die Level 2-Modellierung entspricht hier dem unkonditionierten Modell
Dieses Modell ähnelt einer einfachen OLS-Regression, das Subscript j zeigt allerdings, dass je ein Level 1-Modell pro Level 2-Einheit geschätzt wird
In Modell Nr. 3 wird eine Level 2-Variable W als Prädiktor verwendet; die Gleichung auf Level 1 entspricht dem Nullmodell
Mehrebenenanalyse 19
Mehrebenenanalyse: Grundlagen
In diesem Modell wird überprüft, ob der mittlere Y-Wert einer Level 2-Einheit mit dem Level 2-Prädiktor W zusammenhängt, indem die Signifikanz des γ01-Koeffizienten getestet wird; erklärt werden sollen also Unterschiede zwischen Level 2-Einheiten
Die Modelle Nr 3 und Nr 4 erhöhen die Komplexität weiter weil es nunDie Modelle Nr. 3 und Nr. 4 erhöhen die Komplexität weiter, weil es nun einen Random Intercept und zusätzlich einen Random Slope gibt
Derartige „slopes as outcome“-Modelle sind anzuwenden, wenn man davon ausgeht, dass sich nicht nur Unterschiede im mittleren Y-Wert zwischen den Level 2-Einheiten ergeben, sondern dass zusätzlich der Effekt eines Level 1-Prädiktors X zwischen den Level 2-Einheiten variiert (zur Verdeutlichung siehe auch das Diagramm übernächste Folie)
Mehrebenenanalyse 20
Mehrebebenanalyse: Grundlagen
Typ Nr Gleichungen AnmerkungTyp Nr. Gleichungen Anmerkung
Level 1: Intercepts und Slopesvarrieren zwischen ijjj1ojij rXY +β+β=
Random Intercept +
3Level 2-Einheiten, diese Variabilität wird aber nicht durch L2-Prädiktoren erklärt
Level 2: j000j0 u+γ=β
ij10j1 u+γ=βIntercept + Random Slope
4 Level 1:
Level-1 Intercept und Slope werden alsFunktion von Level 2
Level 2:
ijjj1ojij rXY +β+β=
j0j0100j0 uW +γ+γ=βFunktion von Level 2-Variablen modelliert
jjj
j1j1110j1 uW +γ+γ=β
Mehrebenenanalyse 21
Mehrebenenanalyse: Grundlagen
Quelle: Luke (2004: 12)
Mehrebenenanalyse 22
Mehrebenenanalyse: Grundlagen
In den Modellen Nr. 3 und Nr. 4 wird für jede der j Level 2-Einheiten ein Koeffizient β1j (slope) geschätzt, der den Effekt von X auf Y in jeder jGruppe repräsentiert
In Modell Nr. 3 wird der Mittelwert der Regressionssteigungen durch γ10repräsentiert; wenn dieser Koeffizient sich signifikant von Nullrepräsentiert; wenn dieser Koeffizient sich signifikant von Null unterscheidet, ist der mittlere Effekt von X auf Y signifikant
Sowohl β0j (intercept) als auch β1j (slope) werden als Zufallseffekte j jmodelliert; entsprechend ist beiden ein Zufallsfehlerterm (u0j, u1j) zugeordnet, der jeweils Auskunft über ihre (Residual-)Varianz gibt
In Modell Nr 4 wird nun versucht nicht nur die Unterschiede zwischenIn Modell Nr. 4 wird nun versucht, nicht nur die Unterschiede zwischen den Level 2-Einheiten bei den intercepts durch einen Level 2-Prädiktor W zu erklären, sondern auch die Unterschiede zwischen den slopes
Mehrebenenanalyse 23
Mehrebenenanalyse: Grundlagen
Dies bedeutet, dass Interaktionseffekte modelliert werden, nämlich Interaktionen von Prädiktoren auf der Individualebene und der Kontextebene (sog. „cross-level interaction“)
Konkret gibt die Stärke und Signifikanz des Effektes γ11 darüber Auskunft inwieweit der Effekt einer Level 1-Variablen X in AbhängigkeitAuskunft, inwieweit der Effekt einer Level 1-Variablen X in Abhängigkeit der Level 2-Variablen W zwischen den Level 2-Einheiten variiert (siehe das Diagramm nächste Folie)
Alle zuletzt dargestellten Modelle tragen zudem der Tatsache Rechnung, dass die Level 1-Einheiten, die zu derselben Level 2-Einheit gehören, statistisch nicht unabhängig voneinander (d.h.: sich ähnlich) sind
Mehrebenenanalysen führen also – im Gegensatz zu einfachen OLS-Regressionen – zu einer unverzerrten Schätzung der Standardfehler und Signifikanzniveaus in hierarchischen DatensätzenSignifikanzniveaus in hierarchischen Datensätzen
Mehrebenenanalyse 24
Mehrebenenanalyse: Grundlagen
Mehrebenenanalyse 25
Mehrebenenanalyse in Mplus
Nach der formellen Einführung soll das Verfahren nun anhand eines emprischen Beispiels erläutert werden
Die Datengrundlage bildet die 1999er-Welle des SOEP; hier stellen Personen Level 1 und Haushalte Level 2 dar, Personen sind also innerhalb von Haushalten gruppiertinnerhalb von Haushalten gruppiert
Die abhängige Variable ist die allgemeine Lebenszufriedenheit (1 = sehr niedrig bis 10 = sehr hoch)
Folgende allgemeine soziodemografischen Variablen sind unabhängig:
Level 1: Alter, Bildung (casmin), Geschlecht, Ost/West, Familienstand
Level 2: Haushaltseinkommen (gewichtet), Wohnfläche des Haushaltes in qm Kinder 0 1 Jahre im Haushalt (ja/nein) Anzahl derHaushaltes in qm, Kinder 0-1 Jahre im Haushalt (ja/nein), Anzahl der Kinder 2-4 Jahre im Haushalt
Mehrebenenanalyse 26
Mehrebenenanalyse in Mplus
Zur Durchführung von Mehrebenenanalysen stehen verschiedene Programmpakete zur Verfügung (spezialisierte Programme wie HLM und MLwiN sowie allgemeine Programme wie STATA, SAS, R, SPSS, Mplus); im Folgenden wird zunächst die Anwendung in Mplus erläutert
Zum Import der Daten in Mplus (z B aus SPSS) siehe die nächste FolieZum Import der Daten in Mplus (z.B. aus SPSS) siehe die nächste Folie
Zur Datenstruktur: Die Zeilen des Datensatzes stellen Personen dar, in einem Haushalt zusammen lebende Personen werden über eine gemeinsame Haushaltsnummer identifiziert; alle Personen mit missingswurden entfernt
Manche Mehrebenen Programme (z B HLM) erfordern dass Level 1Manche Mehrebenen-Programme (z.B. HLM) erfordern, dass Level 1-Prädiktoren und Level 2-Prädiktoren in separaten Dateien gespeichert werden; dies ist in Mplus oder SPSS nicht notwendig
Mehrebenenanalyse 27
Mehrebenenanalyse in Mplus
Mehrebenenanalyse 28
Mehrebenenanalyse in Mplus
Der erste Analyseschritt ist die Überprüfung der Frage, ob die Anwendung eines Mehrebenenmodells überhaupt notwendig und angemessen ist
Neben verschiedenen grafischen Analysemöglichkeiten (siehe z.B. Luke 2004: 17ff) die sich vor allem bei einer überschaubaren Anzahl von2004: 17ff), die sich vor allem bei einer überschaubaren Anzahl von Level 2-Einheiten anbieten, besteht ein formeller Test in der Berechnung des sog. Intraklassenkorrelationskoeffizienten (ICC)
Dieser gibt den Anteil der Level 2-Varianz an der Gesamtvarianz in der abhängigen Variablen wieder (σu0 = Level 2-Varianz, σr = Level 1-Varianz):
)( 220
20
ru
u
σσσρ+
=)( 0 ru
Mehrebenenanalyse 29
Mehrebenenanalyse in Mplus
Zur Berechnung des ICC in Mplus muss ein unkonditioniertes Modell (Nullmodell) geschätzt werden; die Syntax im entsprechenden Syntaxfile ist auf der nächsten Folie dargestellt
Mit „TYPE = TWOLEVEL“ wird festgelegt, dass eine Mehrebenenanalyseberechnet wird; mit CLUSTER = hhnr“ wird angegeben dass die Levelberechnet wird; mit „CLUSTER = hhnr wird angegeben, dass die Level 2-Einheiten anhand der Haushaltsnummer (hhnr) zu indentifizieren sind
In Mplus wird das Modell getrennt für Ebene 1 (within, hier: Personen) und für Ebene 2 (between, hier: Haushalte) spezifiziert
Bei einem Nullmodell wird auf beiden Ebenen lediglich die abhängige Variable ( zufried“) angegebenVariable („zufried ) angegeben
Mehrebenenanalyse 30
Mehrebenenanalyse in Mplus
Mehrebenenanalyse 31
Mehrebenenanalyse in Mplus
Auf der nächsten Folie ist der Teil des Outputs dargestellt, der grundsätzliche Informationen über die Datenstruktur liefert
Es gibt 7132 Level 2-Einheiten (Haushalte), die durchschnittliche Clustergröße beträgt 1,884 Personen. Im Durchschnitt leben also knapp 2 Personen in einem Haushalt2 Personen in einem Haushalt
Der ICC beträgt für diesen Datensatz 0,477, knapp 50% der Varianz der Lebenszufriedenheit geht also auf Unterschiede zwischen Haushalten zurück; der Rest entfällt auf Unterschiede zwischen Personen
Würde der ICC einen Wert nahe 0 annehmen, wäre eine Mehrebenenanalyse nicht angemessen; in unserem Fall ist sie jedochMehrebenenanalyse nicht angemessen; in unserem Fall ist sie jedoch unbedingt erforderlich, da ein vergleichsweise großer Varianzanteil auf die Aggregatebene, d.h. die Haushaltebene, zurückgeht
Mehrebenenanalyse 32
Mehrebenenanalyse in Mplus
Mehrebenenanalyse 33
Mehrebenenanalyse in Mplus
Die nächste Folie zeigt die Ergebnisse des Nullmodells:
Geschätzt wird nur ein fester Effekt der Gesamtmittelwert derGeschätzt wird nur ein fester Effekt, der Gesamtmittelwert der Lebenszufriedenheit (6,953); dies ist γ00 in Modell Nr. 1 auf Folie 17
Außerdem werden die quadrierten Abweichungen der personenspezifischen Werte von diesem Gesamtmittelwert berechnet; dies ergibt in Summe die Level 1-Varianz zwischen Personen (1,673); dies ist rijj
Parallel werden die quadrierten Abweichungen der Haushaltsmittelwerte vom Gesamtmittelwerte berechnet; dies ergibt die Level 2-Varianz zwischen Haushalten (1 520); dies ist uzwischen Haushalten (1,520); dies ist u0j
Der ICC berechnet sich dann als: 1,520 / (1,520 + 1,673) = 0,477
Mehrebenenanalyse 34
Mehrebenenanalyse in Mplus
Mehrebenenanalyse 35
Mehrebenenanalyse in Mplus
Der nächste Schritt besteht darin, Prädiktoren in das noch leere Modell aufzunehmen; wir beschränken uns zunächst auf Merkmale der Individuen (X) auf Ebene 1
Im Mplus-Input werden dazu im Menü „Variable“ die Merkmale Geschlecht Alter Bildung Ost/West und Familienstand (mit derGeschlecht, Alter, Bildung, Ost/West und Familienstand (mit der Referenz ledig) als within-Variablen definiert und auch unter „Model“ im within-Teil angegeben
Die Ergebnisse sind auf der übernächsten Folie dargestellt; ausgewiesen sind standardisierte Koeffizienten (Betas)
Die Regressionskoeffizienten (β in Modell Nr 2 auf Folie 17) zeigenDie Regressionskoeffizienten (β1j in Modell Nr. 2 auf Folie 17) zeigen folgende Effekte: Ältere und geschiedene (im Vergleich zu ledigen) Personen sind signifikant unzufriedener, westdeutsche und hochgebildete Personen signifikant zufriedenerhochgebildete Personen signifikant zufriedener
Mehrebenenanalyse 36
Mehrebenenanalyse in Mplus
Mehrebenenanalyse 37
Mehrebenenanalyse: Grundlagen
Mehrebenenanalyse 38
Mehrebenenanalyse in Mplus
Die Residualvarianz der Lebenszufriedenheit auf Ebene 1 (rij in Modell Nr. 2 auf Folie 17) beträgt 0,934
Da es sich um standardisierte Ergebnisse handelt, sind die Level 1- und Level 2-Varianz auf 1 normiert; das R² auf Level 1 beträgt daher: 1-0,934 = 0 066; 6 6% der Unterschiede zwischen Personen werden also durch= 0,066; 6,6% der Unterschiede zwischen Personen werden also durch das Modell erklärt
Die standardisierte Varianz auf Level 2 (u0j) beträgt 1,0, da keine jErklärungsfaktoren auf Level 2 im Modell enthalten sind; Unterschiede zwischen Haushalten bleiben also unaufgeklärt
Mehrebenenanalyse 39
Mehrebenenanalyse in Mplus
Im nächsten Schritt werden nun auch Level 2-Prädiktoren (W) in das Modell eingefügt; hierbei handelt es sich um das Haushaltseinkommen, die Wohnfläche des Haushaltes und die Anzahl der Kinder im Haushalt
Diese Merkmale sind für alle Mitglieder eines Haushaltes gleich, sie können sich aber zwischen den Haushalten unterscheidenkönnen sich aber zwischen den Haushalten unterscheiden
Die Level 2-Prädiktoren (hhek2, wohn, k1, k2) werden im Menü „Variable“ als between-Variablen definiert und auch in der Modellspezifikation im between-Teil angegeben
Mehrebenenanalyse 40
Mehrebenenanalysein Mplus
Mehrebenenanalyse 41
Mehrebenenanalyse: Grundlagen
Mehrebenenanalyse 42
Mehrebenenanalyse in Mplus
Im Output sind nun auch für die Level 2-Prädiktoren Regressions-gewichte angegeben; diese entsprechen γ01 in Modell Nr. 3 auf Folie 17
Personen in Haushalten mit hohem Einkommen, mit großer Wohnfläche und mit Kindern im Alter von 0-1 Jahren sind hiernach signifikant zufriedenerzufriedener
Die standardisierte Residualvarianz auf Level 2 (u0j) beträgt nun 0,934; 6,6% der Unterschiede zwischen Haushalten werden also durch die Level 2-Prädiktoren erklärt
Auch auf Level 1 ergeben sich Unterschiede, da vor allem der Bildungseffekt nicht mehr signifikant ist Effekte von Level 1 PrädiktorenBildungseffekt nicht mehr signifikant ist. Effekte von Level 1-Prädiktoren lassen sich also durch Level 2-Prädiktoren erklären
Der Intercept (5,68) bezieht sich wie gewohnt auf den Fall, dass alle p ( ) gLevel 1- und Level 2-Prädiktoren den Wert 0 annehmen
Mehrebenenanalyse 43
Mehrebenenanalyse in Mplus
Nun wird die Komplexität weiter gesteigert, in dem ein Modell mit Random Slope berechnet wird
In diesem Modell wird zugelassen, dass der Effekt des Lebensalters auf die Zufriedenheit zwischen den Haushalten variiert (die Varianz der Slopes zwischen Haushalten wird also geschätzt)Slopes zwischen Haushalten wird also geschätzt)
In der Mplus-Syntax ist bei Random Slopes unter „Analysis“ „TYPE = TWOLEVEL RANDOM“ anzugeben
Der Random Slope wird im within-Teil mit der Befehlszeile „s | zufried ON alter“ definiert, wobei s ein vom Benutzer frei wählbarer Name ist
Mehrebenenanalyse 44
Mehrebenenanalysein Mplus
Mehrebenenanalyse 45
Mehrebenenanalyse in Mplus
Der Output ist auf der nächsten Folie dargestellt; eingegangen wird im Folgenden nur auf die neuen Elemente
Der mittlere Effekt des Alters auf die Zufriedenheit über alle Personen und Haushalte hinweg (γ10 in Model Nr. 3 auf Folie 21) wird unter Means“ angegeben und beträgt b = -0 011„Means angegeben und beträgt b = -0,011
Der Sinn des Modells besteht nun darin zu testen, ob dieser mittlere Alterseffekt überzufällig zwischen den Haushalten variiert, ob es also eine signifikante Varianz der Slopes gibt
Dies ist der Fall: Die haushaltsspezifische Varianz des Slopes für den Effekt des Alters auf die Zufriedenheit (u in Modell Nr 3 auf Folie 21) istEffekt des Alters auf die Zufriedenheit (uij in Modell Nr. 3 auf Folie 21) ist hochsignifikant (t = 11,562)
Mehrebenenanalyse 46
Mehrebenenanalyse: Grundlagen
Mehrebenenanalyse 47
Mehrebenenanalyse in Mplus
Der nächste Schritt besteht nun darin, die Varianz der Slopes zu erklären. Von welchen Haushaltsmerkmalen hängt es also ab, dass der Effekt des Alters in bestimmten Haushalten stärker oder schwächer ist?
Es wird die Hypothese formuliert, dass die Stärke des Zusammenhangs zwischen Alter und Lebenszufriedenheit davon abhängt über wie vielzwischen Alter und Lebenszufriedenheit davon abhängt, über wie viel Einkommen der Haushalt insgesamt verfügt
In Mplus wird dazu der über Haushalte variierende Effekt des Alters auf Zufriedenheit (s) durch den Level 2-Prädiktor Haushaltseinkommen erklärt („s on hhek2“); dies ist eine sog. cross-level-interaction
Mehrebenenanalyse 48
Mehrebenenanalyse in Mplus
Mehrebenenanalyse 49
Mehrebenenanalyse in Mplus
Der mittlere Effekt des Alters auf die Zufriedenheit über alle Personen und Haushalte hinweg (γ01 in Model Nr. 4 auf Folie 21) wird nun unter „Intercepts“ angegeben und beträgt b = -0,011
Dieser Effekt bezieht sich zudem auf den Fall, dass das Haushaltseinkommen den Wert 0 annimmtHaushaltseinkommen den Wert 0 annimmt
Da ein Haushaltseinkommen von 0 ein empirisch nicht vorkommender theoretischer Wert ist, wurde das Haushaltseinkommen um seinen Gesamtmittelwert zentriert (siehe Folie 50, der Befehl lautet „CENTERING = GRANDMEAN (hhek2)“)
Der mittlere Effekt des Alters auf Zufriedenheit von b = 0 011 beziehtDer mittlere Effekt des Alters auf Zufriedenheit von b = -0,011 bezieht sich also zudem auf ein mittleres Haushaltseinkommen
Mehrebenenanalyse 50
Mehrebenenanalyse: Grundlagen
Mehrebenenanalyse 51
Mehrebenenanalyse in Mplus
Der Effekt des Alters wird ferner tatsächlich tendenziell durch das Einkommen des Haushaltes moderiert, wie die cross-level-interaction(b = 0,002) zeigt (diese entspricht γ11 in Model Nr. 4 auf Folie 21)
Der über alle Haushalte und bei mittlerem Einkommen negative Effekt des Alters wird also mit steigendem Haushaltseinkommen positiver; eindes Alters wird also mit steigendem Haushaltseinkommen positiver; ein Level 2-Merkmal beeinflusst demnach tendenziell die Stärke des Effektes eines Level 1-Merkmals
Dennoch kann durch diese cross-level-interaction die Varianz der Slopeszwischen den Haushalten nicht sichtbar aufgeklärt werden:
Die Residualvarianz des Random Slope (u in Modell Nr 4 auf Folie 21)Die Residualvarianz des Random Slope (u1j in Modell Nr. 4 auf Folie 21) bleibt hochsignifikant (t = 11,549)
Mehrebenenanalyse 52
Mehrebenenanalyse in SPSS
Im Folgenden wird anhand desselben Beispiels zur Lebenszufriedenheit kurz erläutert, wie Mehrebenenanalysen in SPSS durchgeführt werden; behandelt werden wie zuvor ein Null-, Random Intercept- und Random-Slope-Modell
Mehrebenenanalysen sind in SPSS seit Version 12 im Rahmen desMehrebenenanalysen sind in SPSS seit Version 12 im Rahmen des MIXED-Moduls (gemischte Modelle) möglich
Im Folgenden wird die – für SPSS-Verhältnisse recht übersichtliche –Syntax vorgestellt; alternativ kann man die Modelle auch per Menü unter „Analysieren – gemischte Modelle“ klicken
Die folgende Folie zeigt wie ein Nullmodell per Syntax angefordert wirdDie folgende Folie zeigt, wie ein Nullmodell per Syntax angefordert wird
Mehrebenenanalyse 53
Mehrebenenanalyse in SPSS
MIXED zufried/RANDOM = INTERCEPT | SUBJECT(hhnr)/METHOD = ML/METHOD = ML/PRINT = G SOLUTION TESTCOV.
EXECUTE.
Der übergreifende Befehl für Mehrebenenmodelle lautet „MIXED“, gefolgt von der abhängigen Variablen, die in SPSS nur metrisch sein darf
Mit der zweiten Befehlszeile wird festgelegt, dass der Mittelwert der Lebenszufriedenheit über verschiedene Level 2-Einheiten (Haushalte) variieren soll (Random Intercept)variieren soll (Random Intercept)
Die dritte Befehlszeile fordert eine Maximum-Likelihood-Schätzung an
In der vierten Befehlszeile werden bestimmte Elemente des OutputsIn der vierten Befehlszeile werden bestimmte Elemente des Outputs angefordert, die für die Berechnung des ICC benötigt werden
Mehrebenenanalyse 54
Mehrebenenanalyse in SPSS
Der auf der nächsten Folie dargestellte Output ist anders strukturiert als in Mplus, enthält aber dieselben Elemente und Ergebnisse:
Der Gesamtmittelwert der Lebenszufriedenheit (6,95) findet sich in der Tabelle „feste Parameter“
Die Varianz zwischen Personen (1,671) und zwischen Haushalten (1,522) können der Tabelle „Kovarianzparameter“ entnommen werden
Der ICC nimmt entsprechend erneut den Wert 0 477 anDer ICC nimmt entsprechend erneut den Wert 0,477 an
Mehrebenenanalyse 55
Mehrebenenanalyse in SPSS
Schätzungen fester Parameter a
6,952630 ,018752 6674,602 370,773 ,000 6,915870 6,989389ParameterKonstanter Term
SchätzungStandardf
ehlerFreiheits
grade T-Statistik Signifikanz Untergrenze ObergrenzeKonfidenzintervall 95%
Abhä i V i bl L b f i d h tiAbhängige Variable: Lebenszufriedenh. gegenwaertig.a.
Schätzungen von Kovarianzparametern aSc ät u ge o o a a pa a ete
1,671727 ,030000 55,724 ,000 1,613950 1,7315731 522519 046072 33 046 000 1 434845 1 615550
ParameterResiduum
VarianzKonstanter Term
Schätzung Std.-Fehler Wald Z Sig. Untergrenze ObergrenzeKonfidenzintervall 95%
1,522519 ,046072 33,046 ,000 1,434845 1,615550VarianzKonstanter Term[S bj kt PHHNR]Abhängige Variable: Lebenszufriedenh. gegenwaertig.a.
Intraklassenkorrelation (ICC): 1,522 / (1,671 + 1,522) = 0,477
Mehrebenenanalyse 56
Mehrebenenanalyse in SPSS
Auf der nächsten Folie wird per Syntax ein Random-Intercept-Modell mit Prädiktoren auf beiden Ebenen spezifiziert
Nach dem Befehl „MIXED zufried“ werden kategoriale Prädiktoren auf beiden Ebenen (in SPSS Faktoren genannt) nach dem Befehl „BY“ aufgelistet während metrische Kovariaten nach dem Befehl WITH“aufgelistet, während metrische Kovariaten nach dem Befehl „WITH aufgeführt werden
Die für die einzelnen Prädiktoren auf beiden Ebenen zu schätzenden Regressionskoeffizienten werden in der Befehlszeile „/FIXED“ angefordert
Außerdem wird wieder festgelegt dass die mittlere LebenszufriedenheitAußerdem wird wieder festgelegt, dass die mittlere Lebenszufriedenheit zwischen Haushalten variieren soll (Zeile „/RANDOM = INTERCEPT“)
Mehrebenenanalyse 57
Mehrebenenanalyse in SPSS
MIXED zufried BY sex verheiratet geschieden verwitwet k1 ow WITH alter bild k2 hhek wohn
/FIXED = sex verheiratet geschieden verwitwet k1 ow alter bildung k2 hhekwohn/RANDOM = INTERCEPT | SUBJECT(hhnr)/METHOD = ML/PRINT = G SOLUTION TESTCOV.
EXECUTE.
Zur Wiederholung: Der Random Intercept ist kein fester, sondern ein zufälliger Effekt, weil eben nicht für jeden Haushalt die mittlere Lebenszufriedenheit „fixed“ (z.B. über eine Dummy-Variable pro Haushalt) geschätzt wird; berechnet wird vielmehr nur die Varianz der Intercepts, d.h. die Abweichungen der Haushaltsmittelwerte vom Gesamtmittelwert
Mehrebenenanalyse 58
Mehrebenenanalyse in SPSS
Die in SPSS geschätzten Effekte der Level 1- und Level 2-Prädiktoren (nächste Folie) entsprechen in ihrer Richtung den Mplus-Ergebnissen (Folie 43)
Die Abweichungen in der Höhe der Koeffizienten erklären sich dadurch, dass im Mplus-Output standardisierte Koeffizienten ausgewiesen wurdendass im Mplus-Output standardisierte Koeffizienten ausgewiesen wurden (Betas), im SPSS-Output dagegen unstandardisierte Koeffizienten; letztere stimmen exakt zwischen SPSS und Mplus überein
Die Abweichungen in der t-Statistik zwischen den beiden Programmen erklären sich dadurch, dass Mplus als Standard eine robuste ML-Schätzung verwendet, die für eine schiefe Verteilung der Variablen korrigiert wird
Wird in Mplus eine normale ML-Schätzung angefordert, sind auch die t-Werte in beiden Programmen exakt identischWerte in beiden Programmen exakt identisch
Mehrebenenanalyse 59
Mehrebenenanalyse in SPSS
Schätzungen fester Parameter b
Standardf Freiheits Konfidenzintervall 95%
6,377651 ,196357 10303,12 32,480 ,000 5,992753 6,762548-,037819 ,023944 7745,809 -1,579 ,114 -,084756 ,009118
0a 0 . . . . .
ParameterKonstanter Term[sex=0][sex=1]
SchätzungStandardf
ehlerFreiheits
grade T-Statistik Signifikanz Untergrenze ObergrenzeKonfidenzintervall 95%
,052058 ,045522 12676,69 1,144 ,253 -,037171 ,1412870a 0 . . . . .
,566820 ,064023 13259,17 8,853 ,000 ,441327 ,6923140a 0 . . . . .
093584 085340 12791 51 1 097 273 073695 260864
[verheiratet=,00][verheiratet=1,00][geschieden=,00][geschieden=1,00][ it t 00] ,093584 ,085340 12791,51 1,097 ,273 -,073695 ,260864
0a 0 . . . . .-,340744 ,100781 6785,664 -3,381 ,001 -,538307 -,143182
0a 0 . . . . .- 416500 042431 6915 763 -9 816 000 - 499677 - 333323
[verwitwet=,00][verwitwet=1,00][k1=,00][k1=1,00][ow= 00] -,416500 ,042431 6915,763 -9,816 ,000 -,499677 -,333323
0a 0 . . . . .-,008528 ,001324 10658,35 -6,442 ,000 -,011123 -,005933,003777 ,006463 12837,28 ,584 ,559 -,008892 ,016446,001271 ,061218 6813,737 ,021 ,983 -,118736 ,121278
[ow ,00][ow=1,00]alterbildk2
,021623 ,001679 7768,872 12,882 ,000 ,018333 ,024913,002725 ,000488 6487,211 5,585 ,000 ,001769 ,003682
hhekwohnqm
Dieser redundante Parameter wird auf null gesetzt.a.
Abhängige Variable: Lebenszufriedenh. gegenwaertig.b.
Mehrebenenanalyse 60
g g g g g
Mehrebenenanalyse in SPSS
Schätzungen von Kovarianzparameterna
1,643688 ,029523 55,675 ,000 1,586830 1,7025821 346182 042927 31 360 000 1 264622 1 433003
ParameterResiduum
VarianzKonstanter Term
Schätzung Std.-Fehler Wald Z Sig. Untergrenze ObergrenzeKonfidenzintervall 95%
1,346182 ,042927 31,360 ,000 1,264622 1,433003VarianzKonstanter Term[S bj kt PHHNR]Abhängige Variable: Lebenszufriedenh. gegenwaertig.a.
Kovarianzstruktur mit zufälligen Effekten (G) a
KonstanterTerm |
PHHNR
1,346182KonstanterTerm | PHHNR
PHHNR
Varianz-KomponentenAbhä i V i bl L b f i d h tia Abhängige Variable: Lebenszufriedenh. gegenwaertig.a.
Mehrebenenanalyse 61
Mehrebenenanalyse in SPSS
Abschließend wird demonstriert, wie ein Random Slope-Modell mit cross-level-interaction in SPSS spezifiziert wird; die entsprechende Syntax ist auf der nächsten Folie dargestellt
Das Ziel der Analyse besteht erneut in der Überprüfung der Frage, ob der Effekt des Alters auf die Zufriedenheit in Abhängigkeit vomder Effekt des Alters auf die Zufriedenheit in Abhängigkeit vom Haushaltseinkommen variiert
Daher wird nun zusätzlich zum einen ein Interaktionseffekt zwischen Alter und Haushaltseinkommen unter „/FIXED“ angefordert (alter*hhek)
Zum anderen wird festgelegt, dass nicht nur der Intercept, sondern auch der Effekt des Alters auf Zufriedenheit zwischen Haushalten variiertder Effekt des Alters auf Zufriedenheit zwischen Haushalten variiert („/RANDOM = alter | SUBJECT (hhnr)“)
Mehrebenenanalyse 62
Mehrebenenanalyse in SPSS
MIXED zufried BY sex k1 ow WITH alter bild k2 hhek wohn/FIXED = sex k1 ow alter bildung k2 hhek wohn alter*hhek/RANDOM = INTERCEPT | SUBJECT(hhnr)/RANDOM = alter | SUBJECT(hhnr)/METHOD = ML/PRINT G SOLUTION TESTCOV/PRINT = G SOLUTION TESTCOV.
EXECUTE.
Die von SPSS für dieses Modell geschätzten Regressionskoeffizienten (nicht dargestellt) stimmen exakt mit den MPlus-Ergebnissen (Folie 52) überein
Mehrebenenanalyse 63
Exkurs: Fixed oder Random?
In der Mehrebenenanalyse können sowohl Fixed-Effects (FE)- als auch Random-Effects(RE)- Modelle geschätzt werden; im Folgenden wird kurz diskutiert, wo die Unterschiede liegen und wann welche Variante verwendet werden sollte
Gegeben ist als Beispiel eine Stichprobe von etwa 7 000 Frauen dieGegeben ist als Beispiel eine Stichprobe von etwa 7.000 Frauen, die abhängige Variable ist das Haushaltsnettoeinkommen (bedarfsgewichtet) und die unabhängigen Variablen auf Level 1 sind das Bildungsniveau der Frau und ihre Autonomie beruflichen HandelnsBildungsniveau der Frau und ihre Autonomie beruflichen Handelns (Nichterwerbstätige = 0)
Das Level 2 wird über die Bundesländer definiert, die 7000 Frauen sind also gruppiert in 16 Level 2-Einheiten
Mehrebenenanalyse 64
Exkurs: Fixed oder Random?
Zum einen kann man nun ein Fixed Effects-Modell spezifizieren, indem man für jedes Bundesland bis auf eines (Referenz) eine Dummy-Variable in eine normale OLS-Regression aufnimmt
Die Effekte dieser Dummy-Variablen sind die Fixed Effects
Zum anderen kann – wie weiter unten dargestellt wurde – ein Random Effects-Modell spezifiziert werden, der Einfachheit halber zunächst ein Random Intercept-Modell
Hier werden die Mittelwertunterschiede zwischen den einzelnen Bundesländern wie beschrieben als eine zufällige Fehlerkomponente aufgefasst deren Varianz geschätzt wird (Random Effect)aufgefasst, deren Varianz geschätzt wird (Random Effect)
Mehrebenenanalyse 65
Exkurs: Fixed oder Random?
Wann sind nun Random Effects angemessen und wann sind ihnen Fixed Effects vorzuziehen? In der Literatur finden sich u.a. folgende Empfehlungen:
Wenn es sich bei den Level 2-Einheiten um eine reale oder hypothetische Stichprobe aus einer Population handelt und manhypothetische Stichprobe aus einer Population handelt und man inferenzstatistisch etwas über diese Population aussagen will, sind RE-Modelle vorzuziehen
Das FE-Modell erklärt, durch die Verwendung von Dummy-Variablen, alle Unterschiede zwischen den Level 2-Einheiten (hier: Bundesländer) auf (es bleibt also keine Varianz zwischen den Gruppen übrig)
Dies bedeutet, dass im FE-Modell keine Level 2-Prädiktoren gleichzeitig mit den Level 2 Dummy-Variablen in das Modell aufgenommen werden können; zur Analyse der Effekte von Level 2 Prädiktoren empfiehlt sichkönnen; zur Analyse der Effekte von Level 2-Prädiktoren empfiehlt sich also ein RE-Modell
Mehrebenenanalyse 66
Exkurs: Fixed oder Random?
Im RE-Modell wird u.a. angenommen, dass die Level 1-Prädiktoren nicht mit den als zufällig definierten Level 2-Effekten korrelieren; dies hat vor allem Konsequenten für die Anwendbarkeit von RE-Modellen bei Panelanalysen:
RE-Modelle sind zwar grundsätzlich auch zur Analyse von PaneldatenRE-Modelle sind zwar grundsätzlich auch zur Analyse von Paneldaten geeignet (das im entsprechenden Skript genannte „Random Effects-Modell“ ist ein Random Intercept-Modell)
Die oben genannte Annahme (Unkorreliertheit von zufälligen Level 2-Effekten und Level 1-Prädiktoren) führt jedoch dazu, dass RE-Modelle nicht für Kausalanalysen eingesetzt werden sollten, da sie anfällig für Selbstselektion sind (die größere Teststärke von RE-Modellen ist hier ein schwaches Argument). Für Kausalanalysen mit Paneldaten sollten also FE-Modelle verwendet werden
Mehrebenenanalyse 67
Exkurs: Fixed oder Random?
Mehrebenenanalysen mit Zufallskoeffizienten (RE) wurden traditionell für die Anwendung mit sehr großen Stichproben entwickelt; in der Literatur finden sich bestimmte Minimalanforderungen an die Zahl der Level 2-Einheiten
Nach neueren Simulationsstudien werden für die Identifizierung vonNach neueren Simulationsstudien werden für die Identifizierung von Kontexteffekten (Random Intercept) mindestens 30 Level 2-Einheiten und für eine korrekte Schätzung der Standardfehler mindestens 50 Level 2 Einheiten benötigt (Netzlek et al 2006)2-Einheiten benötigt (Netzlek et al. 2006)
Bei wenigen Level 2-Einheiten wird empfohlen, FE- anstelle von RE-Modellen einzusetzen
Mehrebenenanalyse 68
Exkurs: Fixed oder Random?
Im Folgenden werden für das genannte Beispiel verschiedene Schätzvarianten mit RE und FE präsentiert; auf der nächsten Folie sind insgesamt vier Modelle dargestellt
Im ersten Modell (einer normalen OLS-Regression) wird die Mehrebenen-Struktur der Daten ignoriert da Niveauunterschiede imMehrebenen-Struktur der Daten ignoriert, da Niveauunterschiede im Haushaltseinkommen zwischen Bundesländern gar nicht (weder mit FE oder RE) modelliert werden
Allerdings ist die Mehrebenen-Struktur eher schwach ausgeprägt, da laut Intraklassen-Korrelation nur etwa 3% der Gesamtvarianz auf Unterschiede zwischen den Bundesländern zurückgehen
Bei den Level 1-Prädiktoren zeigen sich positive Effekte des Bildungsniveaus und der beruflichen Autonomie
Mehrebenenanalyse 69
Exkurs: Fixed oder Random?
Standard-OLS
OLS mit BL-Dummys
OLS mit BL-Dummys +
Random InterceptOLS BL-Dummys Dummys +
robuste SEIntercept
Fixed Effects b-Koeffizient (t-Wert)I t t 1880 6 1949 4 1949 4 1782 7Intercept 1880,6 1949,4 1949,4 1782,7Berufl. Autonomie 200,1 189,8 189,8 190,3
(22,3) (21,5) (12,9) (21,6)Bildungsniveau 50,3 70,9 70,9 69,9
(9,3) (12,9) (4,9) (12,8)Random Effects Schätzer (z Wert)Random Effects Schätzer (z-Wert)
Intercept (BL) - - - 45184
(2,6)(2,6)
AV = Haushaltsäquivalenzeinkommen; N = 7209 Frauen
Mehrebenenanalyse 70
Exkurs: Fixed oder Random?
Im zweiten Modell werden zusätzlich für jedes Bundesland außer für eins Dummy-Variablen (also FE) in das Modell aufgenommen (Effekte der Dummys sind nicht dargestellt)
Dies bedeutet, dass nun die gesamte Ländervarianz, also Unterschiede im Haushaltseinkommen die auf Unterschiede zwischen Bundesländernim Haushaltseinkommen, die auf Unterschiede zwischen Bundesländern zurückgehen, kontrolliert wird
Die Effekte der Level 1-Prädiktoren verändern sich dahingehend, dass das Bildungsniveau nach Kontrolle von Level 2-Effekten an Bedeutsamkeit gewinnt, während der Netto- bzw. Individualeffekt der beruflichen Autonomie kleiner ist als der Effekt in Modell 1
Mehrebenenanalyse 71
Exkurs: Fixed oder Random?
Im dritten Modell werden zusätzlich robuste Standardfehler berechnet mit denen die Clusterung von Personen in Bundesländern berücksichtigt wird (verfügbar z.B. über die cluster-Option in STATA)
Während die Regressionskoeffizienten sich nicht verändern, ist eine deutliche Reduktion der t-Werte im Vergleich zu Modell 2 zu beobachtendeutliche Reduktion der t-Werte im Vergleich zu Modell 2 zu beobachten
Dies deutet darauf hin, dass Personen, die in demselben Bundesland leben, sich überzufällig ähnlich sind, was in Modell 2 offensichtlich zu einer Unterschätzung der Standardfehler führt
Da 16 Level 2-Einheiten streng genommen zu wenig für ein RE-Modell sind wäre Modell 3 die für diesen Fall empfehlenswerte (konservative)sind, wäre Modell 3 die für diesen Fall empfehlenswerte (konservative) Spezifikation
Mehrebenenanalyse 72
Exkurs: Fixed oder Random?
Im vierten Modell wird ein Modell mit Random Intercept berechnet, dessen Varianz (45184), trotz nur 16 Level 2-Einheiten, auf dem 1%-Niveau signifikant ist
Die Effekte der Level 1-Prädiktoren liegen im RE-Modell insgesamt deutlich näher am FE-Modell (3) als an der OLS-Regression ohne FEdeutlich näher am FE-Modell (3) als an der OLS-Regression ohne FE (Modell 1)
Inwieweit es bei den Level 1-Prädiktoren zu größeren Abweichungen zwischen der RE- und der FE-Spezifikation kommen kann, hängt auch davon ab, welcher Anteil der Gesamtvarianz auf die jeweiligen Ebenen entfällt (siehe Skript zur Panelanalyse)
Das RE-Modell weist darüber hinaus offensichtlich eine größere Teststärke auf als das FE-Modell (vgl. die größeren t-Werte)
Mehrebenenanalyse 73
Hinweise
Mehrebenenanalysen sind ein komplexes Thema, das durch das vorliegende Skript nur angerissen werden kann. Es wird daher empfohlen, sich mit der am Ende angegebenen (einführenden) Literatur zu beschäftigen
Im Folgenden werden einige Hinweise zu Aspekten gegeben die beimIm Folgenden werden einige Hinweise zu Aspekten gegeben, die beim Literaturstudium besonders beachtenswert sein könnten:
Ein wichtiges Thema in der Mehrebenenanalyse ist die Zentrierung der Prädiktoren um den Gruppen- oder Gesamtmittelwert. Dieser Aspekt muss beachtet werden, um Fehlinterpretationen der Effekte zu vermeiden (siehe z.B. Luke 2004: 48-53)
Mehrebenenanalyse 74
Hinweise
In normalen OLS-Regressionen wird R² als Anteil aufgeklärter Varianz interpretiert; die Übertragung dieser Interpretation auf Mehrebenen-analysen ist nicht unproblematisch, da hier die Aufnahme zusätzlicher Prädiktoren sogar zu einer Reduzierung des R² für eine Ebene führen kann. Es sind daher alternative Vorgehensweisen zur Beurteilung des Modell-Fits vorgeschlagen worden (siehe z.B. Luke 2004: 33-37)
Mehrebenenanalysen sind nicht auf metrische abhängige Variable beschränkt sondern können mit geeigneten Programmen wie z B HLMbeschränkt, sondern können mit geeigneten Programmen wie z.B. HLM, STATA oder Mplus auch für dichotome AV (und damit auch z.B. im Rahmen von Ereignisdatenanalysen) berechnet werden
Mehrebenenanalyse 75
Literaturempfehlungen
Einführungen / Überblicksliteratur:
Luke, D. A. (2004). Multilevel modeling. Sage University paper series in quantitative applications in the socialsciences; 143. Thousand Oaks: Sage
Ditton, H. (1998). Mehrebenenanalyse. Grundlagen und Anwendungen des Hierarchisch Linearen Modells. Weinheim: Juventa.
Netzlek, J.B., Schröder Abé, M. & Schütz, A. (2006). Mehrebenenmodelle in der psychologischen Forschung. Vorteile und Möglichkeiten der Mehrebenenmodellierung mit Zufallskoeffizienten. Psychologische Rundschau, 57, 213-223.
Weiterführende Literatur:
Langer, W. (2004). Mehrebenenanalyse: Eine Einführung für Forschung und Praxis. Wiesbaden: Verlag für Sozialwissenschaften.
Hox, J. (2002): Multilevel Analysis. Techniques and Applications. Mahwah, New Jersey: Lawrence Erlbaum.
Engel, U. (1998). Einführung in die Mehrebenenanalyse. Grundlagen, Auswertungsverfahren und praktischeEngel, U. (1998). Einführung in die Mehrebenenanalyse. Grundlagen, Auswertungsverfahren und praktische Beispiele. Opladen: Westdeutscher Verlag.
Bryk, A. S. & Raudenbush, S. W. (1992). Hierarchical linear models: Applications and data analysis methods. Newbury Park, CA: Sage.
Snijders, T. & Bosker, R. (1999). Multilevel analysis. An introduction to basic and advanced multilevel modelling. London: Sage.
Kreft, I. G. G. & de Leeuw, J. (1998). Introducing multilevel modeling. Newbury Park, CA: Sage.
Mehrebenenanalyse 76