76
Institut für Soziologie Professur für empirische Sozialforschung Prof. Dr. Johannes Kopp Einführung in die Mehrebenenanalyse Dr. Daniel Lois Einführung in die Mehrebenenanalyse (und Anwendung in Mplus / SPSS) Stand: März 2010

Einfuehrung_Mehrebenenanalyse

  • Upload
    abuo

  • View
    403

  • Download
    2

Embed Size (px)

DESCRIPTION

ok

Citation preview

Page 1: Einfuehrung_Mehrebenenanalyse

Institut für Soziologie Professur für empirische Sozialforschung

Prof. Dr. Johannes Kopp

Einführung in die Mehrebenenanalyse

ppDr. Daniel Lois

Einführung in die Mehrebenenanalyse(und Anwendung in Mplus / SPSS)

Stand: März 2010

Page 2: Einfuehrung_Mehrebenenanalyse

Inhaltsverzeichnis

1. Mehrebenenanalyse: Grundlagen 32. Mehrebenenanalyse in Mplus 263. Mehrebenenanalyse in SPSS 544. Exkurs: Fixed oder Random? 645 Hinweise 745. Hinweise 746. Literaturempfehlungen 76

Mehrebenenanalyse 2

Page 3: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse: Grundlagen

Eine Mehrebenenstruktur liegt vor, wenn Daten einer Analyseebene hierarchisch in einer zweiten geschachtelt sind e a c sc e e e te gesc ac te t s d

Die nächste Folie zeigt hierzu drei Beispiele: Personen (Ebene 1) sind der übergeordneten Ebene „Land“ oder „Haushalt“ zugeordnet

Auch Längsschnitt- bzw. Paneldaten lassen sich als Mehrebenendatenauffassen; hier entspricht Ebene 1 den Messzeitpunkten und die übergeordnete Ebene 2 sind Personen, bei denen eine Variableübergeordnete Ebene 2 sind Personen, bei denen eine Variable mehrfach gemessen wird

Die Beispiele beschränken sich auf 2 Ebenen; grundsätzlich sind jedoch auch komplexere Hierarchien mit 3 oder mehr Ebenen denkbar (z.B. Ebene 3 = Länder, Ebene 2 = Haushalte, Ebene 1 = Personen)

Mehrebenenanalyse 3

Page 4: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse: Grundlagen

Land 1 Land 2Beispiel 1: Personen (Ebene 1) gruppieren

Person 1 Person 2 Person 3 Person 4

(Ebene 1) gruppieren sich in Ländern (Ebene 2)

Haushalt 1 Haushalt 2Beispiel 2: Personen (Ebene 1) gruppieren

Person 1 Person 2 Person 3 Person 4

sich in Haushalten (Ebene 2)

Person 1 Person 2Beispiel 3: Messzeitpunkte(Ebene 1) gruppieren

Zeitpunkt 1 Zeitpunkt 2 Zeitpunkt 1 Zeitpunkt 2

(Ebene 1) gruppieren sich in Personen (Ebene 2)

Mehrebenenanalyse 4

Page 5: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse: Grundlagen

Wenn hierarchische Daten vorliegen, sind die einzelnen Beobachtungen auf Ebene 1 (z.B. Personenebene) nicht unabhängig voneinander, was au be e ( e so e ebe e) c t u ab ä g g o e a de , asbei der Datenanalyse zu berücksichtigen ist

Geschieht dies nicht, können Schätzungen von Zusammenhängen, V i d Si ifik i fäl ht dVarianzen und Signifikanzniveaus verfälscht werden

Das folgende Skript beschäftigt sich einführend mit Verfahren zur Analyse von Mehrebenendaten; behandelt werden das Prinzip und dieAnalyse von Mehrebenendaten; behandelt werden das Prinzip und die praktische Umsetzung in den Programmen Mplus und SPSS

Die Darstellung beschränkt sich auf 2 Ebenen, eine metrische abhängige Variable und Querschnittdaten

Erweiterungen (3 oder mehr Ebenen, Verfahren für dichotome AV, Multi-Level-Panelanalyse) sind der genannten Literatur zu entnehmenLevel Panelanalyse) sind der genannten Literatur zu entnehmen

Mehrebenenanalyse 5

Page 6: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse: Grundlagen

Mehrebenenanalysen sind vor allem zum Zweck der Analyse von Individuen in Gruppen entwickelt worden

Da z.B. Schüler in Schulklassen geschachtelt sind, muss die Leistung eines Schülers als Funktion von Einflüssen auf individueller Ebene (etwa kognitive Fähigkeiten) und auf Klassenebene (z B Erfahrung deskognitive Fähigkeiten) und auf Klassenebene (z.B. Erfahrung des jeweiligen Lehrers) analysiert werden

Merkmale auf Klassenebene sind für alle Schüler einer Klasse gleich, können sich aber zwischen Schulklassen unterscheiden

Daneben kann von Interesse sein, ob die Beziehungen zwischen Variablen auf der Individualebene auf Gruppenebene variieren und obVariablen auf der Individualebene auf Gruppenebene variieren und ob diese Variabilität durch Gruppenmerkmale erklärt werden kann

Mehrebenenanalyse 6

Page 7: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse: Grundlagen

Ein Beispiel: Es geht um den Zusammenhang zwischen sozialer Herkunft und Schulleistung für einen Datensatz mit 40 Personen aus zwei Schulklassen

Auf der folgenden Folie ist der positive Zusammenhang der beiden Variablen dargestellt; berechnet wurde eine einfache lineare RegressionVariablen dargestellt; berechnet wurde eine einfache lineare Regression

Auf der Regressionsgeraden sind der Gesamtmittelwert (5,27) und die Steigung der Geraden (b = 1,61) eingetragen

Das einfache Regressionsmodell trifft die Wirklichkeit jedoch nicht bzw. führt zu falschen Schlussfolgerungen

Mehrebenenanalyse 7

Page 8: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse: Grundlagen

Mehrebenenanalyse 8

Quelle: Ditton (1998: 22)

Page 9: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse: Grundlagen

Es bleibt offen, ob bedeutsame Unterschiede zwischen den Schulklassen bestehen, wobei es hier mehrere Möglichkeiten gibt:

Zum einen kann das Leistungsniveau in den beiden Klassen unterschiedlich sein

Zum anderen kann auch der Zusammenhang zwischen sozialer Herkunft und Leistung in der einen Klasse stärker oder schwächer sein als in der anderen

Zu beiden Fragestellungen bietet die zuvor durchgeführte Analyse mittels einer einzigen linearen Regression keine Informationen; es besteht vielmehr die Gefahr dass Unterschiede verdeckt geblieben sindbesteht vielmehr die Gefahr, dass Unterschiede verdeckt geblieben sind

Mehrebenenanalyse 9

Page 10: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse: Grundlagen

Mehrebenenanalyse 10Quelle: Ditton (1998: 24)

Page 11: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse: Grundlagen

Auf der vorangehenden Folie ist das Streudiagramm erneut dargestellt; diesmal sind jedoch – getrennt für beide Klassen – zwei Regressionsgeraden eingezeichnet und es werden gravierende Unterschiede deutlich:

Es ist zu erkennen dass die Schüler aus der zweiten SchulklasseEs ist zu erkennen, dass die Schüler aus der zweiten Schulklasse deutlich höhere Schulleistungen erzielen (der Mittelwert in Klasse 2 beträgt 7,45 gegenüber 3,10 in Klasse 1)

Der zweite Unterschied besteht darin, dass der Zusammenhang zwischen sozialer Herkunft und Schulleistung in Klasse 2 viel stärker ist (b = 2,80) als in Klasse 1 (b = 0,66)

Eine einfache Methode, um die Unterschiede zwischen den Klassen aufzuzeigen, ist die Berechnung von zwei getrennten Regressionen

Mehrebenenanalyse 11

Page 12: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse: Grundlagen

Der Unterschied zwischen den Schulklassen äußert sich dann a) in den unterschiedlichen Regressionskonstanten (intercepts) und b) in den unterschiedlichen Regressionsgewichten (slopes)

Diese Vorgehensweise wird bei steigender Zahl von Level 2-Einheiten unpraktikabel (Verfahren zur Mehrebenenanalyse lösen dies eleganter)unpraktikabel (Verfahren zur Mehrebenenanalyse lösen dies eleganter), sie soll hier aus didaktischen Gründen jedoch vorläufig genügen

Wenn also Unterschiede zwischen den Klassen im Hinblick auf die Konstanten und die Regressionsgewichte bestehen stellt sich die Frage: wie können diese Unterschiede erklärt werden?

Denkbar wäre dass die Leistungsunterschiede zwischen den KlassenDenkbar wäre, dass die Leistungsunterschiede zwischen den Klassen durch unterschiedliche kognitive Fähigkeiten der Schüler, also durch einen individuellen Faktor, erklärbar sind

Mehrebenenanalyse 12

Page 13: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse: Grundlagen

Über solche Erklärungen auf der Individualebene hinaus könnten aber auch Merkmale der Schulklassen selbst, z.B. des Lehrers oder des Unterrichts, für die Unterschiede zwischen den Klassen verantwortlich sein

Im Hinblick auf den unterschiedlichen Zusammenhang zwischenIm Hinblick auf den unterschiedlichen Zusammenhang zwischen Herkunft und Leistung könnte es z.B. sein, dass durch Vorurteile der Lehrer Kinder aus oberen Schichten in der einen Klasse bevorzugt werden in der anderen dagegen weniger starkwerden, in der anderen dagegen weniger stark

Damit entsteht eine Fragestellung, die eine Mehrebenenanalyseerfordert: Gibt es über den Effekt individueller Faktoren hinaus Bedingungen und Prozesse in den Schulklassen, die zu Unterschieden im Leistungsniveau oder zu einer größeren Selektivität beitragen?

Mehrebenenanalyse 13

Page 14: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse: Grundlagen

Das einfache Beispiel hat verdeutlicht: Analysen für hierarchisch strukturierte Daten, welche die Mehrebenenstruktur der Daten ignorieren, sind unbefriedigend und können irreführend sein

Zumindest müssen bei dieser Datenstruktur die folgenden beiden Fragen gestellt werden:Fragen gestellt werden:

Gibt es Differenzen in den Mittelwerten der Level 2-Einheiten (Regressionskonstanten)?

Gibt es Differenzen in den Beziehungen zwischen den Variablen innerhalb der Level 2-Einheiten (Regressionssteigungen)?

Verfahren zur Mehrebenenanalyse können diese Fragen beantworten; ihr Grundprinzip ist, dass Phänomene auf unterschiedlichen Analyseebenen (Individual- und Aggregatebene) gleichzeitig untersucht y ( gg g ) g gwerden

Mehrebenenanalyse 14

Page 15: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse: Grundlagen

Daten mit Mehrebenenstrukturen wurden lange Zeit mit suboptimalen Verfahren analysiert (dazu zählt z.B. die Aggregation oder Disaggregation der Daten, um Analysen auf nur einer Ebene durchzuführen können)

Seit den 1980er Jahren stehen leistungsfähige Verfahren zur VerfügungSeit den 1980er Jahren stehen leistungsfähige Verfahren zur Verfügung, die für hierarchisch strukturierte Datensätze angemessen sind

Behandelt werden im Folgenden Mehrebenenmodelle mit Zufallskoeffizienten (multilevel random coefficient modeling, MRCM)

Diese Verfahren kann man sich konzeptuell als eine Reihe geschachtelter Regressionsanalysen vorstellen in denen diegeschachtelter Regressionsanalysen vorstellen, in denen die Koeffizienten einer Analyseebene zur abhängigen Variablen auf der nächsten Analyseebene werden (deshalb wird oft auch von hierarchischen linearen Modellen“ (HLM) gesprochen)„hierarchischen linearen Modellen (HLM) gesprochen)

Mehrebenenanalyse 15

Page 16: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse: Grundlagen

Im Rahmen der „systems of equations“-Notation werden diese Modelle durch separate Gleichungen für jede Analyseebene beschrieben (so auch im Folgenden)

Die einfachsten Analysen, die als Nullmodell bezeichnet werden, modellieren nur den Mittelwert auf jeder Ebene (siehe Tabelle nächstemodellieren nur den Mittelwert auf jeder Ebene (siehe Tabelle nächste Folie, Modell 1)

In diesem Modell wird die kontinuierliche Variable Y für i Individuen in j Gruppen gemessen

Die Regressionskonstante (intercept) β0j gibt den Mittelwert von Y für jede Gruppe j anjede Gruppe j an

Die Variable Y wird auf Ebene 1 als Funktion der Regressionskonstante für jede Gruppe (β0j) und des Fehlers rij modelliert; die Varianz von rijj pp (β0j) ij ijentspricht der Varianz der abhängigen Variablen auf Ebene 1

Mehrebenenanalyse 16

Page 17: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse: Grundlagen

Klasse Nr Gleichungen AnmerkungKlasse Nr. Gleichungen Anmerkung

Unkonditioniert( Nullmodell“) 1

Level 1: Wird benutzt, um ICC zu berechnenijojij rY +β=

(„Nullmodell ) 1Level 2:

Level 1:

j000j0 u+γ=β

ijijj1ojij rXY +β+β=

Random I t t

2 Level 2: jjjjj

10j1 γ=βj000j0 u+γ=β

Intercept

3

Level 1: Fokus liegt auf Erklärung von UnterschiedenLevel 2:

j

j0j0100j0 uW +γ+γ=βijojij rY +β=

3 zwischen Level 2-Einheiten (z.B. Länder)

j0j0100j0 uWγγβ

Mehrebenenanalyse 17

Page 18: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse: Grundlagen

Die Regressionskonstante β0j wird in diesem Modell nur als Funktion des Gesamtmittelwertes (γ00) und des Fehlers (u0j) modelliert; die Varianz jvon u0j ist die Varianz der abhängigen Variablen auf Ebene 2

Die Gesamtvarianz von Y entspricht der Summe der Varianzen auf Ebene 1 und 2; Nullmodelle geben also – als erster Schritt in derEbene 1 und 2; Nullmodelle geben also – als erster Schritt in der Analyse – Aufschluss darüber, wie die Varianz auf die einzelnen Analyseebenen verteilt ist

Das Hauptinteresse wird jedoch meist auf Modellen mit Prädiktoren liegen

Die nächste Modellklasse wird unter dem Begriff Random Intercept“Die nächste Modellklasse wird unter dem Begriff „Random Intercept zusammengefasst

Mehrebenenanalyse 18

Page 19: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse: Grundlagen

Ein solches Modell ist anzuwenden, wenn davon ausgegangen wird, dass es zwar Unterschiede im Y-Mittelwert zwischen den Level 2-Einheiten gibt (die intercepts also variieren), der Effekt einer oder mehrerer Level 1-Variablen X sich aber nicht zwischen den Level 2-Einheiten unterscheidet (siehe Folie 22)

In Modell Nr. 2 ist eine Individualvariable X als Prädiktor enthalten, die Level 2-Modellierung entspricht hier dem unkonditionierten Modell

Dieses Modell ähnelt einer einfachen OLS-Regression, das Subscript j zeigt allerdings, dass je ein Level 1-Modell pro Level 2-Einheit geschätzt wird

In Modell Nr. 3 wird eine Level 2-Variable W als Prädiktor verwendet; die Gleichung auf Level 1 entspricht dem Nullmodell

Mehrebenenanalyse 19

Page 20: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse: Grundlagen

In diesem Modell wird überprüft, ob der mittlere Y-Wert einer Level 2-Einheit mit dem Level 2-Prädiktor W zusammenhängt, indem die Signifikanz des γ01-Koeffizienten getestet wird; erklärt werden sollen also Unterschiede zwischen Level 2-Einheiten

Die Modelle Nr 3 und Nr 4 erhöhen die Komplexität weiter weil es nunDie Modelle Nr. 3 und Nr. 4 erhöhen die Komplexität weiter, weil es nun einen Random Intercept und zusätzlich einen Random Slope gibt

Derartige „slopes as outcome“-Modelle sind anzuwenden, wenn man davon ausgeht, dass sich nicht nur Unterschiede im mittleren Y-Wert zwischen den Level 2-Einheiten ergeben, sondern dass zusätzlich der Effekt eines Level 1-Prädiktors X zwischen den Level 2-Einheiten variiert (zur Verdeutlichung siehe auch das Diagramm übernächste Folie)

Mehrebenenanalyse 20

Page 21: Einfuehrung_Mehrebenenanalyse

Mehrebebenanalyse: Grundlagen

Typ Nr Gleichungen AnmerkungTyp Nr. Gleichungen Anmerkung

Level 1: Intercepts und Slopesvarrieren zwischen ijjj1ojij rXY +β+β=

Random Intercept +

3Level 2-Einheiten, diese Variabilität wird aber nicht durch L2-Prädiktoren erklärt

Level 2: j000j0 u+γ=β

ij10j1 u+γ=βIntercept + Random Slope

4 Level 1:

Level-1 Intercept und Slope werden alsFunktion von Level 2

Level 2:

ijjj1ojij rXY +β+β=

j0j0100j0 uW +γ+γ=βFunktion von Level 2-Variablen modelliert

jjj

j1j1110j1 uW +γ+γ=β

Mehrebenenanalyse 21

Page 22: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse: Grundlagen

Quelle: Luke (2004: 12)

Mehrebenenanalyse 22

Page 23: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse: Grundlagen

In den Modellen Nr. 3 und Nr. 4 wird für jede der j Level 2-Einheiten ein Koeffizient β1j (slope) geschätzt, der den Effekt von X auf Y in jeder jGruppe repräsentiert

In Modell Nr. 3 wird der Mittelwert der Regressionssteigungen durch γ10repräsentiert; wenn dieser Koeffizient sich signifikant von Nullrepräsentiert; wenn dieser Koeffizient sich signifikant von Null unterscheidet, ist der mittlere Effekt von X auf Y signifikant

Sowohl β0j (intercept) als auch β1j (slope) werden als Zufallseffekte j jmodelliert; entsprechend ist beiden ein Zufallsfehlerterm (u0j, u1j) zugeordnet, der jeweils Auskunft über ihre (Residual-)Varianz gibt

In Modell Nr 4 wird nun versucht nicht nur die Unterschiede zwischenIn Modell Nr. 4 wird nun versucht, nicht nur die Unterschiede zwischen den Level 2-Einheiten bei den intercepts durch einen Level 2-Prädiktor W zu erklären, sondern auch die Unterschiede zwischen den slopes

Mehrebenenanalyse 23

Page 24: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse: Grundlagen

Dies bedeutet, dass Interaktionseffekte modelliert werden, nämlich Interaktionen von Prädiktoren auf der Individualebene und der Kontextebene (sog. „cross-level interaction“)

Konkret gibt die Stärke und Signifikanz des Effektes γ11 darüber Auskunft inwieweit der Effekt einer Level 1-Variablen X in AbhängigkeitAuskunft, inwieweit der Effekt einer Level 1-Variablen X in Abhängigkeit der Level 2-Variablen W zwischen den Level 2-Einheiten variiert (siehe das Diagramm nächste Folie)

Alle zuletzt dargestellten Modelle tragen zudem der Tatsache Rechnung, dass die Level 1-Einheiten, die zu derselben Level 2-Einheit gehören, statistisch nicht unabhängig voneinander (d.h.: sich ähnlich) sind

Mehrebenenanalysen führen also – im Gegensatz zu einfachen OLS-Regressionen – zu einer unverzerrten Schätzung der Standardfehler und Signifikanzniveaus in hierarchischen DatensätzenSignifikanzniveaus in hierarchischen Datensätzen

Mehrebenenanalyse 24

Page 25: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse: Grundlagen

Mehrebenenanalyse 25

Page 26: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in Mplus

Nach der formellen Einführung soll das Verfahren nun anhand eines emprischen Beispiels erläutert werden

Die Datengrundlage bildet die 1999er-Welle des SOEP; hier stellen Personen Level 1 und Haushalte Level 2 dar, Personen sind also innerhalb von Haushalten gruppiertinnerhalb von Haushalten gruppiert

Die abhängige Variable ist die allgemeine Lebenszufriedenheit (1 = sehr niedrig bis 10 = sehr hoch)

Folgende allgemeine soziodemografischen Variablen sind unabhängig:

Level 1: Alter, Bildung (casmin), Geschlecht, Ost/West, Familienstand

Level 2: Haushaltseinkommen (gewichtet), Wohnfläche des Haushaltes in qm Kinder 0 1 Jahre im Haushalt (ja/nein) Anzahl derHaushaltes in qm, Kinder 0-1 Jahre im Haushalt (ja/nein), Anzahl der Kinder 2-4 Jahre im Haushalt

Mehrebenenanalyse 26

Page 27: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in Mplus

Zur Durchführung von Mehrebenenanalysen stehen verschiedene Programmpakete zur Verfügung (spezialisierte Programme wie HLM und MLwiN sowie allgemeine Programme wie STATA, SAS, R, SPSS, Mplus); im Folgenden wird zunächst die Anwendung in Mplus erläutert

Zum Import der Daten in Mplus (z B aus SPSS) siehe die nächste FolieZum Import der Daten in Mplus (z.B. aus SPSS) siehe die nächste Folie

Zur Datenstruktur: Die Zeilen des Datensatzes stellen Personen dar, in einem Haushalt zusammen lebende Personen werden über eine gemeinsame Haushaltsnummer identifiziert; alle Personen mit missingswurden entfernt

Manche Mehrebenen Programme (z B HLM) erfordern dass Level 1Manche Mehrebenen-Programme (z.B. HLM) erfordern, dass Level 1-Prädiktoren und Level 2-Prädiktoren in separaten Dateien gespeichert werden; dies ist in Mplus oder SPSS nicht notwendig

Mehrebenenanalyse 27

Page 28: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in Mplus

Mehrebenenanalyse 28

Page 29: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in Mplus

Der erste Analyseschritt ist die Überprüfung der Frage, ob die Anwendung eines Mehrebenenmodells überhaupt notwendig und angemessen ist

Neben verschiedenen grafischen Analysemöglichkeiten (siehe z.B. Luke 2004: 17ff) die sich vor allem bei einer überschaubaren Anzahl von2004: 17ff), die sich vor allem bei einer überschaubaren Anzahl von Level 2-Einheiten anbieten, besteht ein formeller Test in der Berechnung des sog. Intraklassenkorrelationskoeffizienten (ICC)

Dieser gibt den Anteil der Level 2-Varianz an der Gesamtvarianz in der abhängigen Variablen wieder (σu0 = Level 2-Varianz, σr = Level 1-Varianz):

)( 220

20

ru

u

σσσρ+

=)( 0 ru

Mehrebenenanalyse 29

Page 30: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in Mplus

Zur Berechnung des ICC in Mplus muss ein unkonditioniertes Modell (Nullmodell) geschätzt werden; die Syntax im entsprechenden Syntaxfile ist auf der nächsten Folie dargestellt

Mit „TYPE = TWOLEVEL“ wird festgelegt, dass eine Mehrebenenanalyseberechnet wird; mit CLUSTER = hhnr“ wird angegeben dass die Levelberechnet wird; mit „CLUSTER = hhnr wird angegeben, dass die Level 2-Einheiten anhand der Haushaltsnummer (hhnr) zu indentifizieren sind

In Mplus wird das Modell getrennt für Ebene 1 (within, hier: Personen) und für Ebene 2 (between, hier: Haushalte) spezifiziert

Bei einem Nullmodell wird auf beiden Ebenen lediglich die abhängige Variable ( zufried“) angegebenVariable („zufried ) angegeben

Mehrebenenanalyse 30

Page 31: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in Mplus

Mehrebenenanalyse 31

Page 32: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in Mplus

Auf der nächsten Folie ist der Teil des Outputs dargestellt, der grundsätzliche Informationen über die Datenstruktur liefert

Es gibt 7132 Level 2-Einheiten (Haushalte), die durchschnittliche Clustergröße beträgt 1,884 Personen. Im Durchschnitt leben also knapp 2 Personen in einem Haushalt2 Personen in einem Haushalt

Der ICC beträgt für diesen Datensatz 0,477, knapp 50% der Varianz der Lebenszufriedenheit geht also auf Unterschiede zwischen Haushalten zurück; der Rest entfällt auf Unterschiede zwischen Personen

Würde der ICC einen Wert nahe 0 annehmen, wäre eine Mehrebenenanalyse nicht angemessen; in unserem Fall ist sie jedochMehrebenenanalyse nicht angemessen; in unserem Fall ist sie jedoch unbedingt erforderlich, da ein vergleichsweise großer Varianzanteil auf die Aggregatebene, d.h. die Haushaltebene, zurückgeht

Mehrebenenanalyse 32

Page 33: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in Mplus

Mehrebenenanalyse 33

Page 34: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in Mplus

Die nächste Folie zeigt die Ergebnisse des Nullmodells:

Geschätzt wird nur ein fester Effekt der Gesamtmittelwert derGeschätzt wird nur ein fester Effekt, der Gesamtmittelwert der Lebenszufriedenheit (6,953); dies ist γ00 in Modell Nr. 1 auf Folie 17

Außerdem werden die quadrierten Abweichungen der personenspezifischen Werte von diesem Gesamtmittelwert berechnet; dies ergibt in Summe die Level 1-Varianz zwischen Personen (1,673); dies ist rijj

Parallel werden die quadrierten Abweichungen der Haushaltsmittelwerte vom Gesamtmittelwerte berechnet; dies ergibt die Level 2-Varianz zwischen Haushalten (1 520); dies ist uzwischen Haushalten (1,520); dies ist u0j

Der ICC berechnet sich dann als: 1,520 / (1,520 + 1,673) = 0,477

Mehrebenenanalyse 34

Page 35: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in Mplus

Mehrebenenanalyse 35

Page 36: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in Mplus

Der nächste Schritt besteht darin, Prädiktoren in das noch leere Modell aufzunehmen; wir beschränken uns zunächst auf Merkmale der Individuen (X) auf Ebene 1

Im Mplus-Input werden dazu im Menü „Variable“ die Merkmale Geschlecht Alter Bildung Ost/West und Familienstand (mit derGeschlecht, Alter, Bildung, Ost/West und Familienstand (mit der Referenz ledig) als within-Variablen definiert und auch unter „Model“ im within-Teil angegeben

Die Ergebnisse sind auf der übernächsten Folie dargestellt; ausgewiesen sind standardisierte Koeffizienten (Betas)

Die Regressionskoeffizienten (β in Modell Nr 2 auf Folie 17) zeigenDie Regressionskoeffizienten (β1j in Modell Nr. 2 auf Folie 17) zeigen folgende Effekte: Ältere und geschiedene (im Vergleich zu ledigen) Personen sind signifikant unzufriedener, westdeutsche und hochgebildete Personen signifikant zufriedenerhochgebildete Personen signifikant zufriedener

Mehrebenenanalyse 36

Page 37: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in Mplus

Mehrebenenanalyse 37

Page 38: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse: Grundlagen

Mehrebenenanalyse 38

Page 39: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in Mplus

Die Residualvarianz der Lebenszufriedenheit auf Ebene 1 (rij in Modell Nr. 2 auf Folie 17) beträgt 0,934

Da es sich um standardisierte Ergebnisse handelt, sind die Level 1- und Level 2-Varianz auf 1 normiert; das R² auf Level 1 beträgt daher: 1-0,934 = 0 066; 6 6% der Unterschiede zwischen Personen werden also durch= 0,066; 6,6% der Unterschiede zwischen Personen werden also durch das Modell erklärt

Die standardisierte Varianz auf Level 2 (u0j) beträgt 1,0, da keine jErklärungsfaktoren auf Level 2 im Modell enthalten sind; Unterschiede zwischen Haushalten bleiben also unaufgeklärt

Mehrebenenanalyse 39

Page 40: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in Mplus

Im nächsten Schritt werden nun auch Level 2-Prädiktoren (W) in das Modell eingefügt; hierbei handelt es sich um das Haushaltseinkommen, die Wohnfläche des Haushaltes und die Anzahl der Kinder im Haushalt

Diese Merkmale sind für alle Mitglieder eines Haushaltes gleich, sie können sich aber zwischen den Haushalten unterscheidenkönnen sich aber zwischen den Haushalten unterscheiden

Die Level 2-Prädiktoren (hhek2, wohn, k1, k2) werden im Menü „Variable“ als between-Variablen definiert und auch in der Modellspezifikation im between-Teil angegeben

Mehrebenenanalyse 40

Page 41: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalysein Mplus

Mehrebenenanalyse 41

Page 42: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse: Grundlagen

Mehrebenenanalyse 42

Page 43: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in Mplus

Im Output sind nun auch für die Level 2-Prädiktoren Regressions-gewichte angegeben; diese entsprechen γ01 in Modell Nr. 3 auf Folie 17

Personen in Haushalten mit hohem Einkommen, mit großer Wohnfläche und mit Kindern im Alter von 0-1 Jahren sind hiernach signifikant zufriedenerzufriedener

Die standardisierte Residualvarianz auf Level 2 (u0j) beträgt nun 0,934; 6,6% der Unterschiede zwischen Haushalten werden also durch die Level 2-Prädiktoren erklärt

Auch auf Level 1 ergeben sich Unterschiede, da vor allem der Bildungseffekt nicht mehr signifikant ist Effekte von Level 1 PrädiktorenBildungseffekt nicht mehr signifikant ist. Effekte von Level 1-Prädiktoren lassen sich also durch Level 2-Prädiktoren erklären

Der Intercept (5,68) bezieht sich wie gewohnt auf den Fall, dass alle p ( ) gLevel 1- und Level 2-Prädiktoren den Wert 0 annehmen

Mehrebenenanalyse 43

Page 44: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in Mplus

Nun wird die Komplexität weiter gesteigert, in dem ein Modell mit Random Slope berechnet wird

In diesem Modell wird zugelassen, dass der Effekt des Lebensalters auf die Zufriedenheit zwischen den Haushalten variiert (die Varianz der Slopes zwischen Haushalten wird also geschätzt)Slopes zwischen Haushalten wird also geschätzt)

In der Mplus-Syntax ist bei Random Slopes unter „Analysis“ „TYPE = TWOLEVEL RANDOM“ anzugeben

Der Random Slope wird im within-Teil mit der Befehlszeile „s | zufried ON alter“ definiert, wobei s ein vom Benutzer frei wählbarer Name ist

Mehrebenenanalyse 44

Page 45: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalysein Mplus

Mehrebenenanalyse 45

Page 46: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in Mplus

Der Output ist auf der nächsten Folie dargestellt; eingegangen wird im Folgenden nur auf die neuen Elemente

Der mittlere Effekt des Alters auf die Zufriedenheit über alle Personen und Haushalte hinweg (γ10 in Model Nr. 3 auf Folie 21) wird unter Means“ angegeben und beträgt b = -0 011„Means angegeben und beträgt b = -0,011

Der Sinn des Modells besteht nun darin zu testen, ob dieser mittlere Alterseffekt überzufällig zwischen den Haushalten variiert, ob es also eine signifikante Varianz der Slopes gibt

Dies ist der Fall: Die haushaltsspezifische Varianz des Slopes für den Effekt des Alters auf die Zufriedenheit (u in Modell Nr 3 auf Folie 21) istEffekt des Alters auf die Zufriedenheit (uij in Modell Nr. 3 auf Folie 21) ist hochsignifikant (t = 11,562)

Mehrebenenanalyse 46

Page 47: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse: Grundlagen

Mehrebenenanalyse 47

Page 48: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in Mplus

Der nächste Schritt besteht nun darin, die Varianz der Slopes zu erklären. Von welchen Haushaltsmerkmalen hängt es also ab, dass der Effekt des Alters in bestimmten Haushalten stärker oder schwächer ist?

Es wird die Hypothese formuliert, dass die Stärke des Zusammenhangs zwischen Alter und Lebenszufriedenheit davon abhängt über wie vielzwischen Alter und Lebenszufriedenheit davon abhängt, über wie viel Einkommen der Haushalt insgesamt verfügt

In Mplus wird dazu der über Haushalte variierende Effekt des Alters auf Zufriedenheit (s) durch den Level 2-Prädiktor Haushaltseinkommen erklärt („s on hhek2“); dies ist eine sog. cross-level-interaction

Mehrebenenanalyse 48

Page 49: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in Mplus

Mehrebenenanalyse 49

Page 50: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in Mplus

Der mittlere Effekt des Alters auf die Zufriedenheit über alle Personen und Haushalte hinweg (γ01 in Model Nr. 4 auf Folie 21) wird nun unter „Intercepts“ angegeben und beträgt b = -0,011

Dieser Effekt bezieht sich zudem auf den Fall, dass das Haushaltseinkommen den Wert 0 annimmtHaushaltseinkommen den Wert 0 annimmt

Da ein Haushaltseinkommen von 0 ein empirisch nicht vorkommender theoretischer Wert ist, wurde das Haushaltseinkommen um seinen Gesamtmittelwert zentriert (siehe Folie 50, der Befehl lautet „CENTERING = GRANDMEAN (hhek2)“)

Der mittlere Effekt des Alters auf Zufriedenheit von b = 0 011 beziehtDer mittlere Effekt des Alters auf Zufriedenheit von b = -0,011 bezieht sich also zudem auf ein mittleres Haushaltseinkommen

Mehrebenenanalyse 50

Page 51: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse: Grundlagen

Mehrebenenanalyse 51

Page 52: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in Mplus

Der Effekt des Alters wird ferner tatsächlich tendenziell durch das Einkommen des Haushaltes moderiert, wie die cross-level-interaction(b = 0,002) zeigt (diese entspricht γ11 in Model Nr. 4 auf Folie 21)

Der über alle Haushalte und bei mittlerem Einkommen negative Effekt des Alters wird also mit steigendem Haushaltseinkommen positiver; eindes Alters wird also mit steigendem Haushaltseinkommen positiver; ein Level 2-Merkmal beeinflusst demnach tendenziell die Stärke des Effektes eines Level 1-Merkmals

Dennoch kann durch diese cross-level-interaction die Varianz der Slopeszwischen den Haushalten nicht sichtbar aufgeklärt werden:

Die Residualvarianz des Random Slope (u in Modell Nr 4 auf Folie 21)Die Residualvarianz des Random Slope (u1j in Modell Nr. 4 auf Folie 21) bleibt hochsignifikant (t = 11,549)

Mehrebenenanalyse 52

Page 53: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in SPSS

Im Folgenden wird anhand desselben Beispiels zur Lebenszufriedenheit kurz erläutert, wie Mehrebenenanalysen in SPSS durchgeführt werden; behandelt werden wie zuvor ein Null-, Random Intercept- und Random-Slope-Modell

Mehrebenenanalysen sind in SPSS seit Version 12 im Rahmen desMehrebenenanalysen sind in SPSS seit Version 12 im Rahmen des MIXED-Moduls (gemischte Modelle) möglich

Im Folgenden wird die – für SPSS-Verhältnisse recht übersichtliche –Syntax vorgestellt; alternativ kann man die Modelle auch per Menü unter „Analysieren – gemischte Modelle“ klicken

Die folgende Folie zeigt wie ein Nullmodell per Syntax angefordert wirdDie folgende Folie zeigt, wie ein Nullmodell per Syntax angefordert wird

Mehrebenenanalyse 53

Page 54: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in SPSS

MIXED zufried/RANDOM = INTERCEPT | SUBJECT(hhnr)/METHOD = ML/METHOD = ML/PRINT = G SOLUTION TESTCOV.

EXECUTE.

Der übergreifende Befehl für Mehrebenenmodelle lautet „MIXED“, gefolgt von der abhängigen Variablen, die in SPSS nur metrisch sein darf

Mit der zweiten Befehlszeile wird festgelegt, dass der Mittelwert der Lebenszufriedenheit über verschiedene Level 2-Einheiten (Haushalte) variieren soll (Random Intercept)variieren soll (Random Intercept)

Die dritte Befehlszeile fordert eine Maximum-Likelihood-Schätzung an

In der vierten Befehlszeile werden bestimmte Elemente des OutputsIn der vierten Befehlszeile werden bestimmte Elemente des Outputs angefordert, die für die Berechnung des ICC benötigt werden

Mehrebenenanalyse 54

Page 55: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in SPSS

Der auf der nächsten Folie dargestellte Output ist anders strukturiert als in Mplus, enthält aber dieselben Elemente und Ergebnisse:

Der Gesamtmittelwert der Lebenszufriedenheit (6,95) findet sich in der Tabelle „feste Parameter“

Die Varianz zwischen Personen (1,671) und zwischen Haushalten (1,522) können der Tabelle „Kovarianzparameter“ entnommen werden

Der ICC nimmt entsprechend erneut den Wert 0 477 anDer ICC nimmt entsprechend erneut den Wert 0,477 an

Mehrebenenanalyse 55

Page 56: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in SPSS

Schätzungen fester Parameter a

6,952630 ,018752 6674,602 370,773 ,000 6,915870 6,989389ParameterKonstanter Term

SchätzungStandardf

ehlerFreiheits

grade T-Statistik Signifikanz Untergrenze ObergrenzeKonfidenzintervall 95%

Abhä i V i bl L b f i d h tiAbhängige Variable: Lebenszufriedenh. gegenwaertig.a.

Schätzungen von Kovarianzparametern aSc ät u ge o o a a pa a ete

1,671727 ,030000 55,724 ,000 1,613950 1,7315731 522519 046072 33 046 000 1 434845 1 615550

ParameterResiduum

VarianzKonstanter Term

Schätzung Std.-Fehler Wald Z Sig. Untergrenze ObergrenzeKonfidenzintervall 95%

1,522519 ,046072 33,046 ,000 1,434845 1,615550VarianzKonstanter Term[S bj kt PHHNR]Abhängige Variable: Lebenszufriedenh. gegenwaertig.a.

Intraklassenkorrelation (ICC): 1,522 / (1,671 + 1,522) = 0,477

Mehrebenenanalyse 56

Page 57: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in SPSS

Auf der nächsten Folie wird per Syntax ein Random-Intercept-Modell mit Prädiktoren auf beiden Ebenen spezifiziert

Nach dem Befehl „MIXED zufried“ werden kategoriale Prädiktoren auf beiden Ebenen (in SPSS Faktoren genannt) nach dem Befehl „BY“ aufgelistet während metrische Kovariaten nach dem Befehl WITH“aufgelistet, während metrische Kovariaten nach dem Befehl „WITH aufgeführt werden

Die für die einzelnen Prädiktoren auf beiden Ebenen zu schätzenden Regressionskoeffizienten werden in der Befehlszeile „/FIXED“ angefordert

Außerdem wird wieder festgelegt dass die mittlere LebenszufriedenheitAußerdem wird wieder festgelegt, dass die mittlere Lebenszufriedenheit zwischen Haushalten variieren soll (Zeile „/RANDOM = INTERCEPT“)

Mehrebenenanalyse 57

Page 58: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in SPSS

MIXED zufried BY sex verheiratet geschieden verwitwet k1 ow WITH alter bild k2 hhek wohn

/FIXED = sex verheiratet geschieden verwitwet k1 ow alter bildung k2 hhekwohn/RANDOM = INTERCEPT | SUBJECT(hhnr)/METHOD = ML/PRINT = G SOLUTION TESTCOV.

EXECUTE.

Zur Wiederholung: Der Random Intercept ist kein fester, sondern ein zufälliger Effekt, weil eben nicht für jeden Haushalt die mittlere Lebenszufriedenheit „fixed“ (z.B. über eine Dummy-Variable pro Haushalt) geschätzt wird; berechnet wird vielmehr nur die Varianz der Intercepts, d.h. die Abweichungen der Haushaltsmittelwerte vom Gesamtmittelwert

Mehrebenenanalyse 58

Page 59: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in SPSS

Die in SPSS geschätzten Effekte der Level 1- und Level 2-Prädiktoren (nächste Folie) entsprechen in ihrer Richtung den Mplus-Ergebnissen (Folie 43)

Die Abweichungen in der Höhe der Koeffizienten erklären sich dadurch, dass im Mplus-Output standardisierte Koeffizienten ausgewiesen wurdendass im Mplus-Output standardisierte Koeffizienten ausgewiesen wurden (Betas), im SPSS-Output dagegen unstandardisierte Koeffizienten; letztere stimmen exakt zwischen SPSS und Mplus überein

Die Abweichungen in der t-Statistik zwischen den beiden Programmen erklären sich dadurch, dass Mplus als Standard eine robuste ML-Schätzung verwendet, die für eine schiefe Verteilung der Variablen korrigiert wird

Wird in Mplus eine normale ML-Schätzung angefordert, sind auch die t-Werte in beiden Programmen exakt identischWerte in beiden Programmen exakt identisch

Mehrebenenanalyse 59

Page 60: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in SPSS

Schätzungen fester Parameter b

Standardf Freiheits Konfidenzintervall 95%

6,377651 ,196357 10303,12 32,480 ,000 5,992753 6,762548-,037819 ,023944 7745,809 -1,579 ,114 -,084756 ,009118

0a 0 . . . . .

ParameterKonstanter Term[sex=0][sex=1]

SchätzungStandardf

ehlerFreiheits

grade T-Statistik Signifikanz Untergrenze ObergrenzeKonfidenzintervall 95%

,052058 ,045522 12676,69 1,144 ,253 -,037171 ,1412870a 0 . . . . .

,566820 ,064023 13259,17 8,853 ,000 ,441327 ,6923140a 0 . . . . .

093584 085340 12791 51 1 097 273 073695 260864

[verheiratet=,00][verheiratet=1,00][geschieden=,00][geschieden=1,00][ it t 00] ,093584 ,085340 12791,51 1,097 ,273 -,073695 ,260864

0a 0 . . . . .-,340744 ,100781 6785,664 -3,381 ,001 -,538307 -,143182

0a 0 . . . . .- 416500 042431 6915 763 -9 816 000 - 499677 - 333323

[verwitwet=,00][verwitwet=1,00][k1=,00][k1=1,00][ow= 00] -,416500 ,042431 6915,763 -9,816 ,000 -,499677 -,333323

0a 0 . . . . .-,008528 ,001324 10658,35 -6,442 ,000 -,011123 -,005933,003777 ,006463 12837,28 ,584 ,559 -,008892 ,016446,001271 ,061218 6813,737 ,021 ,983 -,118736 ,121278

[ow ,00][ow=1,00]alterbildk2

,021623 ,001679 7768,872 12,882 ,000 ,018333 ,024913,002725 ,000488 6487,211 5,585 ,000 ,001769 ,003682

hhekwohnqm

Dieser redundante Parameter wird auf null gesetzt.a.

Abhängige Variable: Lebenszufriedenh. gegenwaertig.b.

Mehrebenenanalyse 60

g g g g g

Page 61: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in SPSS

Schätzungen von Kovarianzparameterna

1,643688 ,029523 55,675 ,000 1,586830 1,7025821 346182 042927 31 360 000 1 264622 1 433003

ParameterResiduum

VarianzKonstanter Term

Schätzung Std.-Fehler Wald Z Sig. Untergrenze ObergrenzeKonfidenzintervall 95%

1,346182 ,042927 31,360 ,000 1,264622 1,433003VarianzKonstanter Term[S bj kt PHHNR]Abhängige Variable: Lebenszufriedenh. gegenwaertig.a.

Kovarianzstruktur mit zufälligen Effekten (G) a

KonstanterTerm |

PHHNR

1,346182KonstanterTerm | PHHNR

PHHNR

Varianz-KomponentenAbhä i V i bl L b f i d h tia Abhängige Variable: Lebenszufriedenh. gegenwaertig.a.

Mehrebenenanalyse 61

Page 62: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in SPSS

Abschließend wird demonstriert, wie ein Random Slope-Modell mit cross-level-interaction in SPSS spezifiziert wird; die entsprechende Syntax ist auf der nächsten Folie dargestellt

Das Ziel der Analyse besteht erneut in der Überprüfung der Frage, ob der Effekt des Alters auf die Zufriedenheit in Abhängigkeit vomder Effekt des Alters auf die Zufriedenheit in Abhängigkeit vom Haushaltseinkommen variiert

Daher wird nun zusätzlich zum einen ein Interaktionseffekt zwischen Alter und Haushaltseinkommen unter „/FIXED“ angefordert (alter*hhek)

Zum anderen wird festgelegt, dass nicht nur der Intercept, sondern auch der Effekt des Alters auf Zufriedenheit zwischen Haushalten variiertder Effekt des Alters auf Zufriedenheit zwischen Haushalten variiert („/RANDOM = alter | SUBJECT (hhnr)“)

Mehrebenenanalyse 62

Page 63: Einfuehrung_Mehrebenenanalyse

Mehrebenenanalyse in SPSS

MIXED zufried BY sex k1 ow WITH alter bild k2 hhek wohn/FIXED = sex k1 ow alter bildung k2 hhek wohn alter*hhek/RANDOM = INTERCEPT | SUBJECT(hhnr)/RANDOM = alter | SUBJECT(hhnr)/METHOD = ML/PRINT G SOLUTION TESTCOV/PRINT = G SOLUTION TESTCOV.

EXECUTE.

Die von SPSS für dieses Modell geschätzten Regressionskoeffizienten (nicht dargestellt) stimmen exakt mit den MPlus-Ergebnissen (Folie 52) überein

Mehrebenenanalyse 63

Page 64: Einfuehrung_Mehrebenenanalyse

Exkurs: Fixed oder Random?

In der Mehrebenenanalyse können sowohl Fixed-Effects (FE)- als auch Random-Effects(RE)- Modelle geschätzt werden; im Folgenden wird kurz diskutiert, wo die Unterschiede liegen und wann welche Variante verwendet werden sollte

Gegeben ist als Beispiel eine Stichprobe von etwa 7 000 Frauen dieGegeben ist als Beispiel eine Stichprobe von etwa 7.000 Frauen, die abhängige Variable ist das Haushaltsnettoeinkommen (bedarfsgewichtet) und die unabhängigen Variablen auf Level 1 sind das Bildungsniveau der Frau und ihre Autonomie beruflichen HandelnsBildungsniveau der Frau und ihre Autonomie beruflichen Handelns (Nichterwerbstätige = 0)

Das Level 2 wird über die Bundesländer definiert, die 7000 Frauen sind also gruppiert in 16 Level 2-Einheiten

Mehrebenenanalyse 64

Page 65: Einfuehrung_Mehrebenenanalyse

Exkurs: Fixed oder Random?

Zum einen kann man nun ein Fixed Effects-Modell spezifizieren, indem man für jedes Bundesland bis auf eines (Referenz) eine Dummy-Variable in eine normale OLS-Regression aufnimmt

Die Effekte dieser Dummy-Variablen sind die Fixed Effects

Zum anderen kann – wie weiter unten dargestellt wurde – ein Random Effects-Modell spezifiziert werden, der Einfachheit halber zunächst ein Random Intercept-Modell

Hier werden die Mittelwertunterschiede zwischen den einzelnen Bundesländern wie beschrieben als eine zufällige Fehlerkomponente aufgefasst deren Varianz geschätzt wird (Random Effect)aufgefasst, deren Varianz geschätzt wird (Random Effect)

Mehrebenenanalyse 65

Page 66: Einfuehrung_Mehrebenenanalyse

Exkurs: Fixed oder Random?

Wann sind nun Random Effects angemessen und wann sind ihnen Fixed Effects vorzuziehen? In der Literatur finden sich u.a. folgende Empfehlungen:

Wenn es sich bei den Level 2-Einheiten um eine reale oder hypothetische Stichprobe aus einer Population handelt und manhypothetische Stichprobe aus einer Population handelt und man inferenzstatistisch etwas über diese Population aussagen will, sind RE-Modelle vorzuziehen

Das FE-Modell erklärt, durch die Verwendung von Dummy-Variablen, alle Unterschiede zwischen den Level 2-Einheiten (hier: Bundesländer) auf (es bleibt also keine Varianz zwischen den Gruppen übrig)

Dies bedeutet, dass im FE-Modell keine Level 2-Prädiktoren gleichzeitig mit den Level 2 Dummy-Variablen in das Modell aufgenommen werden können; zur Analyse der Effekte von Level 2 Prädiktoren empfiehlt sichkönnen; zur Analyse der Effekte von Level 2-Prädiktoren empfiehlt sich also ein RE-Modell

Mehrebenenanalyse 66

Page 67: Einfuehrung_Mehrebenenanalyse

Exkurs: Fixed oder Random?

Im RE-Modell wird u.a. angenommen, dass die Level 1-Prädiktoren nicht mit den als zufällig definierten Level 2-Effekten korrelieren; dies hat vor allem Konsequenten für die Anwendbarkeit von RE-Modellen bei Panelanalysen:

RE-Modelle sind zwar grundsätzlich auch zur Analyse von PaneldatenRE-Modelle sind zwar grundsätzlich auch zur Analyse von Paneldaten geeignet (das im entsprechenden Skript genannte „Random Effects-Modell“ ist ein Random Intercept-Modell)

Die oben genannte Annahme (Unkorreliertheit von zufälligen Level 2-Effekten und Level 1-Prädiktoren) führt jedoch dazu, dass RE-Modelle nicht für Kausalanalysen eingesetzt werden sollten, da sie anfällig für Selbstselektion sind (die größere Teststärke von RE-Modellen ist hier ein schwaches Argument). Für Kausalanalysen mit Paneldaten sollten also FE-Modelle verwendet werden

Mehrebenenanalyse 67

Page 68: Einfuehrung_Mehrebenenanalyse

Exkurs: Fixed oder Random?

Mehrebenenanalysen mit Zufallskoeffizienten (RE) wurden traditionell für die Anwendung mit sehr großen Stichproben entwickelt; in der Literatur finden sich bestimmte Minimalanforderungen an die Zahl der Level 2-Einheiten

Nach neueren Simulationsstudien werden für die Identifizierung vonNach neueren Simulationsstudien werden für die Identifizierung von Kontexteffekten (Random Intercept) mindestens 30 Level 2-Einheiten und für eine korrekte Schätzung der Standardfehler mindestens 50 Level 2 Einheiten benötigt (Netzlek et al 2006)2-Einheiten benötigt (Netzlek et al. 2006)

Bei wenigen Level 2-Einheiten wird empfohlen, FE- anstelle von RE-Modellen einzusetzen

Mehrebenenanalyse 68

Page 69: Einfuehrung_Mehrebenenanalyse

Exkurs: Fixed oder Random?

Im Folgenden werden für das genannte Beispiel verschiedene Schätzvarianten mit RE und FE präsentiert; auf der nächsten Folie sind insgesamt vier Modelle dargestellt

Im ersten Modell (einer normalen OLS-Regression) wird die Mehrebenen-Struktur der Daten ignoriert da Niveauunterschiede imMehrebenen-Struktur der Daten ignoriert, da Niveauunterschiede im Haushaltseinkommen zwischen Bundesländern gar nicht (weder mit FE oder RE) modelliert werden

Allerdings ist die Mehrebenen-Struktur eher schwach ausgeprägt, da laut Intraklassen-Korrelation nur etwa 3% der Gesamtvarianz auf Unterschiede zwischen den Bundesländern zurückgehen

Bei den Level 1-Prädiktoren zeigen sich positive Effekte des Bildungsniveaus und der beruflichen Autonomie

Mehrebenenanalyse 69

Page 70: Einfuehrung_Mehrebenenanalyse

Exkurs: Fixed oder Random?

Standard-OLS

OLS mit BL-Dummys

OLS mit BL-Dummys +

Random InterceptOLS BL-Dummys Dummys +

robuste SEIntercept

Fixed Effects b-Koeffizient (t-Wert)I t t 1880 6 1949 4 1949 4 1782 7Intercept 1880,6 1949,4 1949,4 1782,7Berufl. Autonomie 200,1 189,8 189,8 190,3

(22,3) (21,5) (12,9) (21,6)Bildungsniveau 50,3 70,9 70,9 69,9

(9,3) (12,9) (4,9) (12,8)Random Effects Schätzer (z Wert)Random Effects Schätzer (z-Wert)

Intercept (BL) - - - 45184

(2,6)(2,6)

AV = Haushaltsäquivalenzeinkommen; N = 7209 Frauen

Mehrebenenanalyse 70

Page 71: Einfuehrung_Mehrebenenanalyse

Exkurs: Fixed oder Random?

Im zweiten Modell werden zusätzlich für jedes Bundesland außer für eins Dummy-Variablen (also FE) in das Modell aufgenommen (Effekte der Dummys sind nicht dargestellt)

Dies bedeutet, dass nun die gesamte Ländervarianz, also Unterschiede im Haushaltseinkommen die auf Unterschiede zwischen Bundesländernim Haushaltseinkommen, die auf Unterschiede zwischen Bundesländern zurückgehen, kontrolliert wird

Die Effekte der Level 1-Prädiktoren verändern sich dahingehend, dass das Bildungsniveau nach Kontrolle von Level 2-Effekten an Bedeutsamkeit gewinnt, während der Netto- bzw. Individualeffekt der beruflichen Autonomie kleiner ist als der Effekt in Modell 1

Mehrebenenanalyse 71

Page 72: Einfuehrung_Mehrebenenanalyse

Exkurs: Fixed oder Random?

Im dritten Modell werden zusätzlich robuste Standardfehler berechnet mit denen die Clusterung von Personen in Bundesländern berücksichtigt wird (verfügbar z.B. über die cluster-Option in STATA)

Während die Regressionskoeffizienten sich nicht verändern, ist eine deutliche Reduktion der t-Werte im Vergleich zu Modell 2 zu beobachtendeutliche Reduktion der t-Werte im Vergleich zu Modell 2 zu beobachten

Dies deutet darauf hin, dass Personen, die in demselben Bundesland leben, sich überzufällig ähnlich sind, was in Modell 2 offensichtlich zu einer Unterschätzung der Standardfehler führt

Da 16 Level 2-Einheiten streng genommen zu wenig für ein RE-Modell sind wäre Modell 3 die für diesen Fall empfehlenswerte (konservative)sind, wäre Modell 3 die für diesen Fall empfehlenswerte (konservative) Spezifikation

Mehrebenenanalyse 72

Page 73: Einfuehrung_Mehrebenenanalyse

Exkurs: Fixed oder Random?

Im vierten Modell wird ein Modell mit Random Intercept berechnet, dessen Varianz (45184), trotz nur 16 Level 2-Einheiten, auf dem 1%-Niveau signifikant ist

Die Effekte der Level 1-Prädiktoren liegen im RE-Modell insgesamt deutlich näher am FE-Modell (3) als an der OLS-Regression ohne FEdeutlich näher am FE-Modell (3) als an der OLS-Regression ohne FE (Modell 1)

Inwieweit es bei den Level 1-Prädiktoren zu größeren Abweichungen zwischen der RE- und der FE-Spezifikation kommen kann, hängt auch davon ab, welcher Anteil der Gesamtvarianz auf die jeweiligen Ebenen entfällt (siehe Skript zur Panelanalyse)

Das RE-Modell weist darüber hinaus offensichtlich eine größere Teststärke auf als das FE-Modell (vgl. die größeren t-Werte)

Mehrebenenanalyse 73

Page 74: Einfuehrung_Mehrebenenanalyse

Hinweise

Mehrebenenanalysen sind ein komplexes Thema, das durch das vorliegende Skript nur angerissen werden kann. Es wird daher empfohlen, sich mit der am Ende angegebenen (einführenden) Literatur zu beschäftigen

Im Folgenden werden einige Hinweise zu Aspekten gegeben die beimIm Folgenden werden einige Hinweise zu Aspekten gegeben, die beim Literaturstudium besonders beachtenswert sein könnten:

Ein wichtiges Thema in der Mehrebenenanalyse ist die Zentrierung der Prädiktoren um den Gruppen- oder Gesamtmittelwert. Dieser Aspekt muss beachtet werden, um Fehlinterpretationen der Effekte zu vermeiden (siehe z.B. Luke 2004: 48-53)

Mehrebenenanalyse 74

Page 75: Einfuehrung_Mehrebenenanalyse

Hinweise

In normalen OLS-Regressionen wird R² als Anteil aufgeklärter Varianz interpretiert; die Übertragung dieser Interpretation auf Mehrebenen-analysen ist nicht unproblematisch, da hier die Aufnahme zusätzlicher Prädiktoren sogar zu einer Reduzierung des R² für eine Ebene führen kann. Es sind daher alternative Vorgehensweisen zur Beurteilung des Modell-Fits vorgeschlagen worden (siehe z.B. Luke 2004: 33-37)

Mehrebenenanalysen sind nicht auf metrische abhängige Variable beschränkt sondern können mit geeigneten Programmen wie z B HLMbeschränkt, sondern können mit geeigneten Programmen wie z.B. HLM, STATA oder Mplus auch für dichotome AV (und damit auch z.B. im Rahmen von Ereignisdatenanalysen) berechnet werden

Mehrebenenanalyse 75

Page 76: Einfuehrung_Mehrebenenanalyse

Literaturempfehlungen

Einführungen / Überblicksliteratur:

Luke, D. A. (2004). Multilevel modeling. Sage University paper series in quantitative applications in the socialsciences; 143. Thousand Oaks: Sage

Ditton, H. (1998). Mehrebenenanalyse. Grundlagen und Anwendungen des Hierarchisch Linearen Modells. Weinheim: Juventa.

Netzlek, J.B., Schröder Abé, M. & Schütz, A. (2006). Mehrebenenmodelle in der psychologischen Forschung. Vorteile und Möglichkeiten der Mehrebenenmodellierung mit Zufallskoeffizienten. Psychologische Rundschau, 57, 213-223.

Weiterführende Literatur:

Langer, W. (2004). Mehrebenenanalyse: Eine Einführung für Forschung und Praxis. Wiesbaden: Verlag für Sozialwissenschaften.

Hox, J. (2002): Multilevel Analysis. Techniques and Applications. Mahwah, New Jersey: Lawrence Erlbaum.

Engel, U. (1998). Einführung in die Mehrebenenanalyse. Grundlagen, Auswertungsverfahren und praktischeEngel, U. (1998). Einführung in die Mehrebenenanalyse. Grundlagen, Auswertungsverfahren und praktische Beispiele. Opladen: Westdeutscher Verlag.

Bryk, A. S. & Raudenbush, S. W. (1992). Hierarchical linear models: Applications and data analysis methods. Newbury Park, CA: Sage.

Snijders, T. & Bosker, R. (1999). Multilevel analysis. An introduction to basic and advanced multilevel modelling. London: Sage.

Kreft, I. G. G. & de Leeuw, J. (1998). Introducing multilevel modeling. Newbury Park, CA: Sage.

Mehrebenenanalyse 76