TTEEIILL 33:: MMEESSSSEENN UUNNDD SSKKAALLIIEERREENN · Test-Re-Test – ein Test wird an den selben Objekten zwei Mal durchgeführt und es werden die Ergebnisse auf ihre Überein-stimmung

1

Dozent: Dawid Bekalarczyk Universität Duisburg-Essen Fachbereich Gesellschaftswissenschaften Institut für Soziologie Lehrstuhl für empirische Sozialforschung Raum: LF 161

TTEEIILL 33:: MMEESSSSEENN UUNNDD SSKKAALLIIEERREENN

2


Das Messen – eine Umschreibung

Feststellung der Merkmalsausprägungen von Untersuchungs-einheiten (z.B. „Feststellung, wie viel eine Person wiegt“ oder „Feststellung, wie aggressiv ein Schulkind auf einen Reiz rea-giert“)

Somit ist das Messen die Hauptaufgabe im Prozess der Daten-erhebung

Messen ist die Zuordnung von Variablenwerten zu Objekten oder Ereignissen nach festgelegten Regeln

numerisches Relativ muss dem empirischen Relativ ent-sprechen

3


Begriff Empirisches Relativ Numerisches Relativ

Definition Eine Menge von Objekten, über die eine Relation defi-niert wurde

Eine Menge von Variablen-werten, über die eine Rela-tion definiert wurde

Beispiel: Messung der Körpergröße an vier Personen in cm

Otto > Fritz = Max > Hugo 186 > 179 = 179 > 168

4


Eine Messung ist somit eine strukturtreue Abbildung

Die Relationen zwischen den Objekten werden durch die Beziehungen zwischen den zugeordneten Variablenwer-ten korrekt wiedergegeben

Messung im Kontext von Befragungen: Das Stellen einer Frage und die Erfassung der Antwort des Befragten (Messwert = Ant-wort auf eine Frage bzw. Bewertung einer Aussage)

Theoretische Zerlegung eines Messwerts:

Messwert = Wahrer Wert + Messfehler

5


Drei Gütekriterien von Messungen

1. Objektivität (Intersubjektivität):

Durchführungsobjektivität – Unabhängigkeit zwischen der durchführenden Person und der Durchführung (z.B. standardi-sierte Fragen; kein Spielraum für verschiedene Interviewer)

Auswertungsobjektivität – Unabhängigkeit zwischen einer Auswertung und der auswertenden Personen (Rückgriff auf etablierte statistische Analyseverfahren)

6


Interpretationsobjektivität – Unabhängigkeit zwischen der in-terpretierenden Person und der Interpretation (offene Publika-tion)

7


2. Reliabilität (Zuverlässigkeit von Messungen):

Ausmaß, mit dem bei wiederholten Messungen mit ein und demselben Messinstrument unter den gleichen Bedingungen das gleiche Ergebnis erzielt wird

Die Reliabilität sinkt mit Zunahme von zufälligen Schwankun-gen bzw. zunehmenden Messfehlern

o Beispiel: Ein Kinderarzt misst die Körpergröße von Kindern „schlampig“ – mal misst er zu wenig, mal zu viel; somit sind seine Messungen nicht reliabel

8


Verfahren zur Überprüfung der Reliabilität:

Test-Re-Test – ein Test wird an den selben Objekten zwei Mal durchgeführt und es werden die Ergebnisse auf ihre Überein-stimmung geprüft

Parallel-Test – die Messungen werden mit zwei unterschiedli-chen (leicht abweichenden) Instrumenten durchgeführt (z.B. mit zwei ähnlichen Fragebögen)

Konsistenz (split-half-Methode) – Spaltung eines Messinstru-ments in zwei Hälften und Vergleich der Ergebnisse

9


3. Validität (Gültigkeit von Messungen):

Ausmaß, in dem das Messinstrument tatsächlich das misst, was es messen soll

Die Validität sinkt mit Zunahme systematischer Verzerrungen in den Messwerten

o Beispiel: Personen untertreiben bewusst ihren Alkoholkon-sum in einer Befragung zu Gesundheitsthemen

10


Validitätskonzepte:

Inhaltsvalidität – bezieht sich darauf, dass möglichst alle As-pekte / Dimensionen des Sachverhalts, der gemessen werden soll, berücksichtigt werden (z.B. bei der Messung des Musikwis-sens sollten alle gängigen Musikrichtungen abgefragt werden und nicht nur Rock und Jazz)

11


Kriteriumsvalidität – bezieht sich auf den Zusammenhang zwi-schen den empirisch gemessenen Ergebnissen des Messinstru-mentes und einem anders gemessenen externen Kriterium

o Prädiktive Validität – das externe Kriterium liegt in der Zu-kunft

o known-groups – sind zwei Gruppen bekannt, die auf der in-teressierenden Dimension Unterschiede aufweisen, so muss ein Messinstrument diese beiden Gruppen unterscheiden können

12


Expertenvalidierung – Experten überprüfen gefühlsmäßig die Gültigkeit des Messinstrumentes

Konstruktvalidität

o liegt vor, wenn theoretisch hergeleitete Zusammenhänge zwischen Konstrukten (= theoretischen Begriffen) empirisch anhand der Zusammenhänge zwischen den ihnen zugeord-neten Indikatoren nachgewiesen werden können

o umsetzbar mit Hilfe einer statistischen Überprüfung der Operationalisierung der Konstrukte

13


Praktische Maßnahmen zur Erhöhung von Reliabilität und Validi-tät in Befragungen Präzise Formulierungen

Maßnahmen zur Stärkung des Vertrauens in die Wissenschaftlichkeit und Anonymität einer Befragung (Zusicherung Anonymität in der Fragebogeneinleitung, im Anschreiben,

glaubhafte Darstellung, dass die Organisatoren aus dem wissenschaftlichen Umfeld kommen, evtl. Verzicht auf Inter-viewer, anonyme Zustellwege des ausgefüllten Fragebogens etc.)

Heikle Fragen nicht direkt am Anfang platzieren

Leicht verharmlosende Einleitung der Frage (sofern ethisch vertretbar)

Heikle Fragen nicht zu plump abfragen – oftmals sind Aussagen zur Bewer-tung verschiedener Aspekte eines heiklen Themas geeigneter, als direkte Abfragen

14


Konstruierte Skalen in den Sozialwissenschaften

Skalen geben die Beschaffenheit eines numerischen Relativs an (Wertebereich, Maßenheit), das strukturtreu ein empirische Re-lativ abbilden soll

Konstruierte Skalen: Spezielle Skalen, bei denen die Kombina-tion einer Reihe von „Items“, die entlang einer inhaltlichen Di-mension messen, Skalenwerte liefern

Sie stellen die Produkte von sog. Skalierungsverfahren dar

15


Items:

Spezialfall von Indikatoren: Indikatoren im Kontext eines Fra-gebogens als Messinstrument

Die kleinsten Bestandteile eines Fragebogens (z.B. einzelne Fragen, Aufgaben oder Aussagen, die verbunden sind mit der Aufforderung, den Grad der Zustimmung bzw. Ablehnung oder eine andere Bewertung anzugeben)

Man erschließt soziale Einstellungen aus Reaktionen auf sorg-fältig ausgewählten Statements (Items), die als Indikatoren für eine direkt nicht beobachtbare Einstellung betrachtet werden

16


BEISPIEL:

Einstellung:

Ausländerfeindlichkeit

Item 1: „In wirtschaftlich schlechten Zeiten wie

diesen sollten Ausländer lieber wieder gehen“.

Item 2: „Ausländer können sich nicht an-

passen.“

17


Weitere Anmerkungen:

Skalierungsverfahren werden in der empirischen Sozialfor-schung überwiegend zur Messung von Einstellungen verwen-det

Einstellungen werden dabei als latente Variablen aufgefasst

Zur indirekten Messung dieser latenten Einstellungsvariablen werden den Befragten Aussagen (Items) vorgelegt, auf welche die Befragten mit Zustimmung oder Ablehnung reagieren sollen

18


Es wird davon ausgegangen, dass die interessierenden Auffas-sungen / Einstellungen über die Beantwortung der Items zum Ausdruck gebracht werden

Über verschiedene Regeln, welche von der verwendeten Ska-lenkonstruktion abhängen, werden nun die Ergebnisse der Statements einzelner Personen zu einem Skalenwert pro Per-son verarbeitet

19


Likert-Skala (idealtypischer Ablauf):

1. Schritt:

Die Konstruktion einer Likert-Skala startet mit der Sammlung einer großen Zahl von Items (diese Items stellen hierbei Aussa-gen dar, von denen angenommen wird, dass sie die interessie-rende Einstellung wiedergeben)

Diese Items werden einer Stichprobe von Personen vorgelegt, die Befragten werden nun aufgefordert, zu jedem Statement Stellung zu beziehen

20


Jedes Item hat die gleichen Antwortvorgaben, z.B.:

stimme voll und ganz zu

stimme eher zu

teils / teils

stimme eher nicht zu

stimme gar nicht zu

21


2. Schritt:

Kodierung der Antwortmöglichkeiten mit Zahlenwerten und ggf. Umkehrung der Zahlenwerte bei negativ formulierten Items, damit die Zahlenwerte immer der gleichen Einstellungs-richtung entsprechen

22


Beispiel – Einstellung gegenüber der Familie:

ITEM A: “Meine Familie bedeutet mir sehr viel”

ITEM B: “Meine Familie spielt in meinem Leben keine große Rolle”

Ausprägungen: Werte: Ausprägungen: Werte:

stimme voll und ganz zu 1 stimme voll und ganz zu 5

stimme eher zu 2 stimme eher zu 4

teils / teils 3 teils / teils 3

stimme eher nicht zu 4 stimme eher nicht zu 2

stimme gar nicht zu 5 stimme gar nicht zu 1

23


3. Schritt – Item-Analyse:

Das statistische Verfahren „Item-Analyse“ (Überprüfung der Eindimensionalität) soll ungeeignete Items aus der Skala aus-sondern

Ungeeignete Items: Personen mit sehr unterschiedlicher Ein-stellung beantworten ein Item ähnlich oder alle Personen stimmen dem Item zu bzw. alle Personen lehnen es ab

Items sollten eindimensional, eindeutig gepolt und nicht zu extrem sein

24


4. Schritt – Hauptuntersuchung:

Die reduzierte Anzahl geeigneter Items kann nun in der Haupt-untersuchung den Befragten vorgelegt werden

Der Skalenwert kann der einfachen (oder gewichteten) Summe aller zu einer Likert-Skala gehörenden Item-Werte pro Person entsprechen

Es können aber auch komplexere statistische Verfahren zur Er-mittlung der Skalenwerte zum Zuge kommen, die aufgrund sta-tistischer Gütekriterien eine Gewichtung der einzelnen Items

vornehmen (Stichworte: Faktorenanalyse, Structural Equation Modeling) Anmerkung: Dies ist ein idealtypischer Ablauf, der in der Praxis eher selten vorkommt; häufig wird auf bereits etablierte Items zurückgegriffen, so dass die Schritte 1 und 3 wegfallen; oder es werden zwar neue Items konstruiert, die Analyse, welche Items geeignet sind, wird aber sehr einfach gehalten (z.B. gefühlsmäßige Auswertung eines kleinen Pre-Tests – zum Begriff s. Folge 6)

25


Guttman-Skala:

Basiert auf der Vorgabe einer Reihe von Aussagen, die in bezug auf die interessierende Einstellung immer extremer werden

Die Fragen / Aussagen lassen sich nur mit ja / nein beantwor-ten (oder bei mehrstufigen Zustimmungsskalen werden die Ska-lenpunkte in „tendenzielle Zustimmung“ und „tendenzielle Ab-lehnung“ zusammengefasst; keine Mittelkategorie)

Es wird angenommen, dass ein Befragter mit einer bestimmten Einstellung alle Aussagen, die weniger extreme Anschauungen ausdrücken als er selbst besitzt, zustimmt und alle Aussagen, die extremere Anschauungen ausdrücken, ablehnt

26


BEISPIEL (Verdrossenheit gegenüber Managern großer Wirt-schaftskonzerne):

I. Manager können sich oftmals in die Probleme einfacher Arbei-

ter nicht hineinversetzen

II. Managern sind Geld und andere Vorteile oft wichtiger, als sich um die Probleme der Arbeiter zu kümmern

III. Manager würden über Leichen gehen, um an Geld und Macht

zu gelangen – wer und was dabei auf der Strecke bleibt, interes-siert sie nicht

27


Probleme bei der Guttman-Skala:

Es ist schwierig, geeignete Items für eine solche Skala zu fin-den, welche eindimensional sind und gleichzeitig an Intensität monoton zunehmen

Es können inkonsistente Antwortmuster auftreten

28


Beispiel für drei Aussagen (I. die schwächste, III. die extremste):

I. II. III.

x x x

x x x

x

x

x x

x

x Zelle mit x = Dem Item wurde zugestimmt; leere Zelle: fehlende Zustimmung Zeile = mögliche Antwortmuster einer Person Rote Zeilen = Konsistente Antwortmuster Blaue Zeilen = Inkonsistente Antwortmuster

Documents

TTEEIILL 33:: MMEESSSSEENN UUNNDD SSKKAALLIIEERREENN · Test-Re-Test – ein Test wird an den selben Objekten zwei Mal durchgeführt und es werden die Ergebnisse auf ihre Überein-stimmung