57
Regina Dittrich and Brian Francis Seminar Institut für Statistik, Universität Innsbruck 24 Jänner, 2003 Analyse von unvollständigen Rangreihungen mit Hilfe von Paarvergleichsmethoden : Eine Untersuchung von Wertorientierungen in Europa Regina Dittrich Brian Francis Institut für Statistik, Wirtschaftsuniversität,Wien Centre for Applied Statistics, Lancaster University Eine gemeinsame Arbeit mit Reinhold Hatzinger Institut für Statistik, Wirtschaftsuniversität, Wien Roger Penn, Department of Sociology, Lancaster University

Analyse von unvollständigen Rangreihungen mit …statmath.wu.ac.at/~hatz/PcP_Web/LinkedDocuments...Regina Dittrich and Brian Francis Seminar Institut für Statistik, Universität

  • Upload
    habao

  • View
    216

  • Download
    0

Embed Size (px)

Citation preview

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Universität Innsbruck 24 Jänner, 2003

Analyse von unvollständigen Rangreihungen mit Hilfe von

Paarvergleichsmethoden :

Eine Untersuchung von Wertorientierungen in Europa

Regina Dittrich Brian Francis

Institut für Statistik,Wirtschaftsuniversität,Wien

Centre for Applied Statistics,Lancaster University

Eine gemeinsame Arbeit mit

Reinhold HatzingerInstitut für Statistik, Wirtschaftsuniversität, Wien

Roger Penn,Department of Sociology, Lancaster University

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Universität Innsbruck 24 Jänner, 2003

Ein sehr langer Titel!

Drei Komponenten

Analyse von unvollständigen Rangreihungen mit Hilfe

Paarvergleichsmethoden :

Eine Untersuchung von Werteorientierungen in Europa

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Universität Innsbruck 24 Jänner, 2003

Werteorientierungen

International Social Survey Program 1993

• Sozialwissenschaftliche Studien die jährlich seit 1984 durchgeführt werden

• Jedes Jahr wird eine anderes Thema untersucht. 1993 war es ‘Environmentand green issues’.

• 21 Länder wurden 1993 untersucht . Hauptsächlich Europa, aber auch USA,Kanada, Australien , Neu Seeland, Japan, Israel und die Philippinen. Eswurden dieselben Fragen in jedem Land verwendet.

• Daten verfügbar im Zentral Archiv, Köln.

• Wir analysieren fünf europäische Länder und konzentrieren uns auf denInglehart Index. Inglehart index ist ein wichtiges Erhebungsinstrument fürSoziologen – er wird in vielen modernen sozialwissenschaftlichen Studienerhoben. Oftmals Verwendung sehr einfacher Analysemethoden .

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Universität Innsbruck 24 Jänner, 2003

Wertorientierung

International Social Survey Program 1993

Frage V7

Wenn Sie zwischen den folgenden Zielen wählen müßten, welches Ziel sollte IhrerMeinung nach für Deutschland an erster Stelle stehen?

Items:Aufrechterhaltung von Ruhe und Ordnung in diesem Land 1Mehr Einfluß der Bürger auf die Entscheidungen der Regierung 2Kampf gegen die steigenden Preise 3Schutz des Rechts auf freie Meinungsäußerung 4

Kann ich nicht sagen 8

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Universität Innsbruck 24 Jänner, 2003

Frage V8

Und welches Ziel sollte Ihrer Meinung nach für Deutschland an zweiter Stelle stehen?

Items:Aufrechterhaltung von Ruhe und Ordnung in diesem Land 1Mehr Einfluß der Bürger auf die Entscheidungen der Regierung 2Kampf gegen die steigenden Preise 3Schutz des Rechts auf freie Meinungsäußerung 4

Kann ich nicht sagen 8

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Universität Innsbruck 24 Jänner, 2003

WertorientierungenHintergrund

Die Fragen wurden von Ingelhart (1990) entwickelt ’Cultural shift in Advanced IndustrialSociety’ um postmaterialistische und materialistische Werte zu erfassen.

Postmaterialistische Werte werden definiert als :“social equality, life style choices, participation, concern for environmental quality”

Ingelhart bezeichnet jene mit Item 2 und 4 als höchste Prioritäten als Postmaterialisten‘mehr Einfluß auf Regierung ’ ‘freie Meinungsäußerung’

jene mit Item 1 und 3 als höchste Prioritäten als Materialisten‘Aufrechterhaltung von Ordnung’ 'Kampf gegen steigende Preise’

Alle anderen werden als ‘Mixed’ bezeichnet.

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Universität Innsbruck 24 Jänner, 2003

Untersuchungsfragen:

“Jüngere Europäer sind in Zeiten relativen Wohlstands aufgewachsen und tendieren daherzu postmaterialistischen Werten”

“Postmaterialistische Werte sind in Großbritannien weniger stark entwickelt” Inglehart(1990,1997)

Ist dies vereinfachend? Gibt es die postmaterialistischen -materialistischenWerte?Erfolgt die Veränderung für beide postmaterialistischen Items in gleicher Weise?Welche anderen Kovariaten neben Ländereffekten beeinflussen Antworten auf die IngelhartSkala? Wie variieren die Antworten mit Alter?

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Universität Innsbruck 24 Jänner, 2003

Wie können solche Daten analysiert werden?

Daten sind unvollständige Rangreihungen. Die Befragten wurden nur gebeten die zweiwichtigsten Items von vier möglichen Items zu nennen.

Wie kann man solche Daten analysieren?Einfache Ansätze:

⇒ Man könnte Prozentsätze berechnen, wie oft die 4 Items an erster Stelle gereihtwurden. Hier werden nicht alle Daten berücksichtigt.

⇒ Man könnte jedem Item den Rangwert zuordnen und ‘Normal linear models’ (z.B.Varianzanalysen) rechnen. Aber man müsste auch Scores für die nicht gereihtenund ausgelassenen Items vergeben (3?, 4?). Nicht gut weil viele nur eine Fragebeantworten. Zuviele Annahmen notwendig.

⇒ Man kann Rangkombinationen verwenden, die auf soziologischen Theorien beruhen (Inglehart,nächste Folie). Nicht gut weil viele nur eine Frage beantworten.

⇒ Außerdem....⇒ Interessiert uns, wie die einzelnen Antworten mit verschiedenen Personen

Kovariaten und Länderzugehörigkeit zusammenhängen.⇒ Möglicherweise nicht-lineare Effekte von Alter. Potentiell komplexe Modelle

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Universität Innsbruck 24 Jänner, 2003

Frühere Arbeit

Dalton and Rohrschneider (1994) betrachteten die %werte von Materialisten undPostmaterialisten in 6 westeuropäischen Ländern und präsentierten folgende Tabelle:

Postmaterialisten%

Materialisten%

Differenz

West Deutschland 23 24 -1Niederland 16 23 -7Italien 13 25 -12Irland 13 26 -13Britain 12 26 -14Spanien 12 31 -19

“Materialists outnumber postmaterialists in Britain by 14 points, making Britain morematerialist than every other country except Spain.”

“West Germany and Netherlands are most post-materialist”.

Wie auch immer, im Durchschnitt sind ca. 60% aller Antworten MIXED!

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Universität Innsbruck 24 Jänner, 2003

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Universität Innsbruck 24 Jänner, 2003

Andere Ansätze :

Bean and Papadakis verwendeten Hauptkomponenten Analyse um materialistische –postmaterialistische Dimensionen aufzufinden.

Klein (1995) verwendete logistische Regression um POST vs (MIX, MAT) zu modellieren

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Universität Innsbruck 24 Jänner, 2003

Unsere Lösung

• Umwandlung von unvollständigen Rangreihungen in Paarvergleiche . Dadurch kann dieWertigkeit (Worth) bzw. der Nutzen jedes Items geschätzt werden. Somit werden 36mögliche Antwortmuster in 4 Worthparameter konvertiert. Weiters kann untersuchtwerden, inwiefern sich verschiedene individuelle Eigenschaften der beurteilendenPersonen auf die Wertigkeit der 4 Items auswirken.

• Analyse der Paarvergleiche mittels Bradley-Terry Modell.

• Modell muss erweitert werden, um Eigenschaften auf individuellem Niveauberücksichtigen zu können; hinzufügen von Glättungsfunktionen für Alters-effekte.

Wir untersuchen 5 europäische Länder

West Deutschland Ost Deutschland Großbritannien Polen Italien

West und Ost Deutschland wurden getrennt analysiert, obwohl die Wiedervereinigung vor1993 stattgefunden hat.

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Universität Innsbruck 24 Jänner, 2003

Rankings and orderings

Ignoriert man die fehlenden Werte gibt es vier Items zur Auswahl. Wir fixieren die Anordnung der Items wie sie im Fragebogen verwendet wird: (ORDNUNG, EINFLUSS, PREISE, MEINUNG).

Ein individuelles Antwortmuster kann entweder als Rang Vektor oder als Order Vektordefiniert werden:

Zum Beispiel, EINFLUSS 1ste Wahl und MEINUNG 2te Wahl kann definiert werden als:

• Order Vektor – welches Item war 1ste Wahl 2te Wahl

(EINFLUSS, MEINUNG, -,-) or (2,4,-,-) or (2,4)

• Rang Vektor – welches Item hat welchen RangORDNUNG, EINFLUSS, PREISE, MEINUNG Item1 Item2 Item3 Item4

( - 1 - 2 )

Für fehlende Werte verwenden wir - im Rang und Order Vektor.

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Universität Innsbruck 24 Jänner, 2003

Antworten auf Inglehart Index Items für alle 5 Länder gemeinsam.

2te Wahl 1ste Wahl Ordnung Einfluss Preise Meinung Un-

entschiedenFehlend Total

Ordnung 72 722 1110 347 42 4 2297

Einfluss 699 73 594 407 26 4 1803

Preise 645 375 72 99 43 3 1237

Meinung 149 168 70 4 5 4 400

Unent-schieden

15 8 14 4 93 0 134

Fehlend 7 1 5 2 0 30 45

Total 1587 1347 1865 863 209 45 5916

MaterialistenPostmaterialisten

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Die verschiedenen Antwortarten.

Die häufigste Antwort ist eine materialistische mit dem Order Vektor (ORDNUNG, PREISE) sowohl für alle 5 Länder gemeinsam als auch für jedeseinzelne Land.

Die zweithäufigste Antwort ist eine Mixed Antwort (MEINUNG, ORDNUNG)

Es gibt auch noch• Partielle Antworten (1ste Wahl, keine zweite Wahl) 131 Personen

• Wiederholte Antworten ( 1ste Wahl gleich wie zweite Wahl) 221 Personen

• Ungültige Antworten ( keine 1ste Wahl, 2te Wahl getroffen) 56 Personen

• Fehlende Antworten (keine Wahl getroffen) 123 Personen

Alle Arten von Antworten müssen behandelt werden.

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Umwandlung der Order Vektoren in PaarvergleicheJeder Typ eines Order Vektor ergibt ein Set von Paarvergleichen. Wir behandeln hierUnentschieden als Fehlend, obwohl komplexere Modelle auch unentschieden Antwortenmitberücksichtigen können.Order Vektor Rang Vektor Paarvergleiche

8....unentschieden9....fehlend

-....fehlend 1.... erstes Item bevorzugt 2.... zweites Item bevorzugt-...... fehlend

V7 V8 I1 I2 I3 I4 (12) (13) (23) (14) (24) (34)e.g.Gültig 1 3 1 - 2 - 1 1 2 1 - 1

Fehlend 9 9 - - - - - - - - - -

Partiell 2 9 - 1 - - 2 - 1 - 1 -

Ungültig 9 2 - - - - - - - - - -

Wieder-holt

1 1 1 - - - 1 1 - 1 - -

Eine Antwort von (1,3) impliziert (1, 3, {2&4})1 wichtiger als 2 1 wichtiger als 3 3 wichtiger als 2 1 wichtiger als 43 wichtiger als 4 aber keine INFORMATION über Vergleich (24)

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Die Paarvergleichsmethode (Paired Comparison Method)

4 Items: ORDNUNG (1), EINFLUSS (2), PREISE (3) , MEINUNG (4)

Paarvergleich: im Vergleich von zwei Items wird eine Entscheidung getroffen(ORDNUNG, PREIS) oder kurz (13) oder allgemein (jk)welches Item ist wichtiger? ORDNUNG oder PREIS

ZIEL: Reihung der 4 Items hinsichtlich ihrer Wertigkeit (Worth)

ERGEBNISSE der Paarvergleiche:

Bei 4 Werten gibt es insgesamt 6 Vergleiche, die durchgeführt werden können

Für jeden Vergleich erhält man folgende Daten:

n(13) Anzahl der Personen, die den Vergleich (13) durchgeführt habenN13 Anzahl Personen, denen Item 1 = ORDNUNG wichtiger war als Item 3 = PREIS N31 Anzahl Personen, denen Item 3 = PREIS wichtiger war als Item 1 =ORDNUNG

n(13)= N13 +N31

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Basis Bradley- Terry Modell

Wir definieren 13p als Wahrscheinlichkeit, dass Item 1 (ORDNUNG) wichtiger ist als Item 3 (PREIS) im Vergleich (13)

• Wir modellieren p13 durch Worthparameter π1 , π3

113

1 3p =

+p

p p und 3

311 3

p =+p

p p

Je größer π1 im Verhältnis zu π3 , desto größer die Wahrscheinlichkeit, dass das Item ORDNUNG wichtiger ist als das Item PREIS

• Wir könnten die Chance 13 13 1

31 13 3

p p = = p 1-p

ππ

durch π1 , π3 modellieren

die Chance, dass ORDNUNG wichtiger ist als PREIS als das Verhältnis der Worthparameter von ORDNUNG zu PREIS

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Die logit Form des Bradley-Terry Modells

• Wir modellieren die log Chance

13 1 3 1 1logit p = - wobei = log g g g p

als Differenz der log Worth-parameter von ORDNUNG und PREIS

Vorausetzungen, dass die γ-Parameter für die 4 Items ORDNUNG,EINFLUSS; PREIS, MEINUNG, geschätzt werden können:

N13 ist binomialverteilt mit der Wahrscheinlichkeit p13 und Stichprobengröße n(13)Annahme: Vergleiche unabhängig mit konstanten Wahrscheinlichkeiten

Zur Identifizierbarkeit der γ-Parameter setzen wir den letzten Null γ4= 0 undwir beschränken die Worthparameter, dass sie in Summe 1 ergeben (zwischen 0 und 1 liegen)

∑ =j

j 1π , ergibt ( )( )∑

=j j

jj γ

γπ

expexp

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Die log-lineare Form des Bradley Terry Modells

Gegeben ist N13 , die beobachtete Häufigkeit die Anzahl Personen, für die Item 1 wichtiger ist als Item 3im Vergleich (13)

• Wir modellieren die erwarteten Häufigkeiten für N13 im Vergleich (13) durch

13 (13) 13=m n p

Dann ist der log der erwarteten Häufigkeiten

1 3 1 3113 13 13

1 3 131 3 3 1

Für schreiben wir oder p p pD

π π π πππ π π π π π

= = =+ +

1 113 1 3 13 (13) (13) 1 32 2ln ln ln ln lnm D nπ π α λ λ= − − + = + −

13 (13) 1 3 1 11ln wobei ln 2

m α λ λ λ π= + − =

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Annahme: Njk und Nkj sind poissonverteilt, bedingt auf fixe n(jk) mit Erwartungswerten mjk and mkj und mjk = n(jk)pjk

Die Worthparameter sind jetzt :

( )( )

exp 2exp 2

jj

jj

lp

l=

å

Dieses Modell ist komplexer als das logit Modell, aber es eignet sich besser fürweitere Entwicklungen

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Für alle 5 Länder gemeinsam

VergleichjkN Häufigkeiten

( )jkα 1λ 2λ 3λ 4λ

ORDNUNG EINFLUSS PREIS MEINUNG

(12)12N 722+72 1 1 -1

(12)21N 699+73 1 -1 1

(13)13N 1110+72 2 1 -1

(13)31N 645+72 2 -1 1

(23)23N 594+73 3 1 -1

(23)32N 375+72 3 -1 1

(14)14N 347+72 4 1 -1

(14)41N 149+4 4 -1 1

(24)24N 407+73 5 1 -1

(42)42N 168+4 5 -1 1

(34)34N 99+72 6 1 -1

(34)43N 70+4 6 -1 1

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Für Westdeutschland

VergleichjkN Häufigkeiten

( )jkα 1λ 2λ 3λ 4λ

ORDNUNG EINFLUSS PREIS MEINUNG

(12)12N 439 1 1 -1

(12)21N 477 1 -1 1

(13)13N 494 2 1 -1

(13)31N 248 2 -1 1

(23)23N 535 3 1 -1

(23)32N 309 3 -1 1

(14)14N 523 4 1 -1

(14)41N 268 4 -1 1

(24)24N 515 5 1 -1

(42)42N 213 5 -1 1

(34)34N 383 6 1 -1

(34)43N 314 6 -1 1

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

BeobachteteHäufigkeiten

jkN

ErwarteteHäufigkeiten

jkm439 444.2 477 471.8 494 474.4 248 267.6 535 551.2 309 292.8 523 537.4 268 253.6 515 504.0 213 224.0 383 379.6 314 317.4

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Modell Anpassung für West Deutschland

[o] scaled deviance = 5.8003 at cycle 3[o] residual df = 3

estimate

ils.e. parameter worth

0.3755 0.027 ORDNUNG 0.320.4056 0.030 EINFLUSS 0.340.0893 0.027 PREIS 0.180.000 aliased MEINUNG 0.156.126 0.033 ALPHA(1)5.876 0.037 ALPHA(2)5.996 0.035 ALPHA(3)5.911 0.037 ALPHA(4)5.817 0.039 ALPHA(5)5.850 0.0380 ALPHA(6)

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Adding subject covariates to the PC model

We have already seen that there are differences between countries in the worthsof the four items.

However, we are also interested in how the items are changing according to age,gender, educational level and so on.

As every case is likely to have a unique combination of these variables, we look atdata at the individual subject level. For each subject, we form a set of pairedcomparisons, and list the covariates.

Assume there are a total of nS subjects with a total of t paired comparisons overall subjects.For subject i, Ni,jk + Ni,jk =1, with:

Ni,jk =1 if j is preferred to k in the comparison (jk), and zero otherwise.Ni,kj =1 if k is preferred to j in the comparison (jk), and zero otherwise.

We thus have a separate table for each case.

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Example: Item 1 ranked first, item 3 ranked second for case i

Vergleich Ni,jk Häufig-keiten

1λ 2λ 3λ 4λ XMOD

ORDER SAY PRICE SPEECH AGE GENDER

(12) Ni,12 1 1 -1 36 1(12) Ni,21 0 -1 1 36 1(13) Ni,13 1 1 -1 36 1(13) Ni,31 0 -1 1 36 1(23) Ni,23 0 1 -1 36 1(23) Ni,32 1 -1 1 36 1(14) Ni,14 1 1 -1 36 1(14) Ni,41 0 -1 1 36 1(24)(42)(34) Ni,34 1 1 -1 36 1(34) Ni,43 0 -1 1 36 1

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Adding subject covariates to the PC model

Assume a set of continuous covariates and factors at the individual level whichform a covariate model XMOD, with design matrix X (2t by Q).

Q gives the number of predictor variables (including dummy variables) in themodel.

What is XMOD? Simply an R (or STATA or GLIM) model formulasuch as AGE+GENDER+COUNTRY, which generates a

design matrix.

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Adding subject covariates to the PC model (2)

Remember the log-linear model without covariates:

kjjkjkm λλα −+= )(ln

With data at the individual level, we now have

kijijkijkijki pm ,,)(,,, lnln λλα −+==

and we model λi,j by 0,1

,, =+= ∑=

Ji

Q

qiqjqjji x λβλλ

This gives:

The αi,(jk) are a set of t nuisance parameters – one for each paired comparison foreach individual.

∑=

−+−+=Q

qiqkqjqkjjkijki xm

1,)(,, )(ln ββλλα

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Defining the linear structure of the model.

For each object j there is a separate set of β parameters which describe the effectof the covariates on that item.

With four items, we can define item covariates

ITEM1, ITEM2, ITEM3, ITEM4.

ITEMj = 1 if in the comparison (j,k) j is preferred = -1 if in the comparison (j,k) k is preferred = 0 if j is not one of the two objects being compared.

Then we can write the model as

ALPHA + ITEM1+ITEM2 +ITEM3 +ITEM4 + XMOD.(ITEM1+ITEM2+ITEM3+ITEM4)

Overparameterised - Estimates for ITEM4 will be unestimable and are set to 0.

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Adding smooth effects of covariates to paired comparison models (1)

We want to assess effect of some subset of covariates q=1…M (such as AGE) as smoothnon-linear functions fjq for each item. We might choose to do this for a subset of continuouscovariates where we suspect the relationship is not linear.

What does this mean? Consider linear regression, (or a generalised linear model), with theresult of a response Y against AGE as follows:

The graph shows a steep increasing relationshipwith X until X=8, then a decline, followed by alevelling off past X=15.

2.5 5.0 7.5 10.0 12.5 15.0 17.5 20.0

4

5

6

7

8

9

10

11

12

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Adding smooth effects of covariates to paired comparison models (2)

We can represent the effect of AGE as linear, or categorical – however neither representthe pattern in the data.

Linear Categorical

2.5 5.0 7.5 10.0 12.5 15.0 17.5 20.0

4

5

6

7

8

9

10

11

12

2.5 5.0 7.5 10.0 12.5 15.0 17.5 20.0

4

5

6

7

8

9

10

11

12

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Adding smooth effects of covariates to paired comparison models (3)

Non-linear effects can be introduced by fitting quadratic, cubic functions.etc

The graph here shows a quadratic function, butthis also fails to represent the data.

One possibility is to use a smoothing curve torepresent the pattern. The smoothing curve isnon-parametric and data-dependent.

One of the simplest smoothers is a running meansmoother. This looks at the average of each datapoints and its K nearest neighbours.

2.5 5.0 7.5 10.0 12.5 15.0 17.5 20.0

4

5

6

7

8

9

10

11

12

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Adding smooth effects of covariates to paired comparison models (4)

A smoother is defined by the smoothing matrix Swhich is applied to the raw data y – this gives thefitted values Sy. For example, the running mean smoother withK=1, taking the average of the point and itsnearest neighbour, has an S matrix which mightlook like S y

1/2 1/2 0 0 0 0 0 0 y10 1/2 1/2 0 0 0 0 0 y20 1/2 1/2 0 0 0 0 0 y30 0 0 1/2 1/2 0 0 0 y40 0 0 0 1/2 1/2 0 0 y50 0 0 0 0 1/2 1/2 0 y60 0 0 0 0 0 1/2 1/2 y7... ... ... ... ... ... ...

The equivalent degrees of freedom of thesmoother is the trace of this matrix S, (or more exactly, 1.25 Trace (S))

A smooth fit with 3 df.

2.5 5.0 7.5 10.0 12.5 15.0 17.5 20.0

4

5

6

7

8

9

10

11

12

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Generalised additive models

Hastie and Tibshirani (1990) showed that smoothers can be incorporated into the linearcomponent of a generalised linear model (GLM) by using the backfitting algorithm - extrastep in the weighted least squares cycle. Basically, we smooth the residuals after fitting thelinear part of the model. This is known as a generalised additive model.

How do we incorporate smooth terms into the paired comparison model?

Paired comparison models are GLMs but with negative terms.

kijijkijkijki pm ,,)(,,, lnln λλα −+==

and we now model λi,j by

0)( ,1

,1

,, =++= ∑∑+==

Ji

Q

Mqiqjq

M

qiqjqjji xxf λβλλ

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

This gives

As before, estimation of ßs is easy: -ßx = ß(-x).

But –f(x) is not necessarily equal to f(-x)……

Our trick, which replaces negative parameter estimates with negative terms in thedesign matrix does not work for the smoothing component.

+=

=

+−+−+=

Q

Mqiqkqjq

iqkq

M

qiqjqkjjkijki

x

xfxfp

1,

,1

,)(,,

)(

))()((ln

ββ

λλα

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Reparametrisation

The solution is to use a reparametrisation.Define a new set of nuisance parameters

Then

giving

Sum of positive terms – works! Reparametrisation possible with log-linear form,not with logistic form. The worth parameters are

kijijkijki ,,)(,*

)(,λλαα −−=

ji

kijijkijki

jki

p

,*

,,)(,,

2

ln

)(,λα

λλα

+=

−+=

∑∑+==

+++=Q

Mqiqjq

M

qiqjqjjki xxfp

jki1

,1

,*

)(, 2)(22ln)(,

βλα

∑=

jji

jiji }2exp{

}2exp{

,

,, λ

λπ

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Estimation issues

Log-linear model with smoothers- can be fitted as a complex generalised additivemodel, using R, GLIM, STATA(?) etc.

Problems are:

Number of smoothers – have J-1 smoothers for each of M desired covariates.Complex to interpret.

Large number of nuisance parameters. In our example, there are t=27981separate paired comparisons. Each comparison has a nuisance parameter.

Need powerful computer, but there are also numerical techniques that can invertSSP matrices which are partially generated by a factor with a large number oflevels.

e.g. ELIMINATE directive in GLIM. Not implemented in R or STATA yet.

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Inclusion of covariates.

We examined AGE, GENDER, EDUCATION, RELIGION and COUNTRY.Would like to have looked at INCOME but information not collected for every country.SOCIAL CLASS also differs from country to country.

Different level of information collected on each variable in each country.

EDUCATION RELIGION GENDER COUNTRY1= Low (less than 11 years) 1=Catholic, Orthodox 1=Male 1=West Germany2= Medium (11, 12 or 13 yrs) 2=Protestant 2=Female 2=East Germany3= High (14 or more years) 3= Non-believer 3=Britain

4=Other AGE (range 16 – 80) 4=ItalySmooth continuous 5=Poland

Label items as

ORD maintain order in nationPMS give people more say in governmentPFS protect freedom of speechFRP fight rising prices

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Model fitting strategy

We expect to find strong country to country differences. Covariates will act differently ineach country. So we :

• Fit each country separately

• Fit all covariates and determine the level of smoothing by using AIC. (Akaike InformationCriterion), using the trace of the smoothing matrix S as a measure of the equivalentdegrees of fredom

• Remove non-significant covariates.

modellinear in parameters of no. tr(S)1.25w2w)ˆ;( ,,,

+=+= ∑ jkijkijki

pNDevAIC

Model formula changes from (AGE+SEX+RELI+EDUC)*(PMS+ORD+FRP+PFS)covariates items

tosmooth(AGE.PMS) + smooth(AGE.ORD) + smooth(AGE.FRP) +smooth(AGE.PFS) +(SEX+RELI+EDUC)*(PMS+ORD+FRP+PFS)Overparametrized - set smooth(AGE.PFS) to zero (arbitrary)

Also fit all countries combined, with COUNTRY as an additional factor

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Results:

Country Final covariate model Equivalentdegrees offreedom for agesmoothing

ScaledDeviance

w AIC

All countries All main effects 2,2,2 32349.2 42 32433.2

E. Germany All main effects - GENDER 0,0,0 5768.2 24 5816.5

W. Germany All main effects 3,3,3 5640.5 30 5700.5

Britain All main effects 2,2,2 7086.2 30 7146.2

Italy All main effects 0,0,0 5957.0 21 5999.0

Poland All main effects 3,3,3 7404.4 30 7464.4

Total 31856.3 135 32126.6

Significant country differences. Need to look at each country individually ( or fit complexinteractions). East Germany, Britain and Poland have non-linear effects of age.

We look at some of these results .

Regina Dittrich and Brian Francis Seminar Institut für Statistik, UnversitätInnsbruck 24 Jänner, 2003

West Germany – effect of ageplotting the lambda’s (no smoothing)

20 30 40 50 60 70 80 90

0.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

1.6

1.8

2.0

West Germany

age

maintain order

more say in govt

fight rising prices

freedom of speech

Difficulty with this plot is that freedom of speech is defined tobe zero for every age – all other effects are relative to

‘freedom of speech’

Regina Dittrich and Brian Francis Seminar Institut für Statistik, UnversitätInnsbruck 24 Jänner, 2003

West Germany – effect of agethe ‘worth’ effects

Regina Dittrich and Brian Francis Seminar Institut für Statistik, UnversitätInnsbruck 24 Jänner, 2003

20 30 40 50 60 70 80 900.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9West Germany

age

ORDER

SAY

PRICES

SPEECH

Results for male Catholic with lower level of education.

Freedom of speech not important. More to say ingovernment, and maintain order strongly related to age.However, ORDER is important for older respondents, and‘more to say’ for younger respondents.

Regina Dittrich and Brian Francis Seminar Institut für Statistik, UnversitätInnsbruck 24 Jänner, 2003

Italy – Effect of AGE.

20 30 40 50 60 70 80 900.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9Italy

age

ORDER

SAYPRICES

SPEECH

Results for male Catholic with lower level of education.

Freedom of speech not important. More to say ingovernment, and maintain order strongly related to age.However, ORDER is most important for this group.

Regina Dittrich and Brian Francis Seminar Institut für Statistik, UnversitätInnsbruck 24 Jänner, 2003

Poland – effect of age

20 30 40 50 60 70 80 900.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9Poland

age

ORDER

SAY

PRICES

SPEECH

Effects for male Catholics with lower level of education

• Order is important for older people. • Prices more important for younger people. Both are

materialist items. • More to say in government higher for younger Poles.

Changeover at about age 50 – aged 25 or younger in1968 – “Prague spring”.

Regina Dittrich and Brian Francis Seminar Institut für Statistik, UnversitätInnsbruck 24 Jänner, 2003

Regina Dittrich and Brian Francis Seminar Institut für Statistik, UnversitätInnsbruck 24 Jänner, 2003

Britain – effect of age

20 30 40 50 60 70 80 900.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9Great Britain

age

ORDER

SAYPRICES

SPEECH

Baseline respondent (Male Catholic low level of education)

ORDER very low for all ages and “more to SAY” very highfor young people. After 14 years of Margaret Thatcher,perhaps this is understandable!

Regina Dittrich and Brian Francis Seminar Institut für Statistik, UnversitätInnsbruck 24 Jänner, 2003

West Germany – effect of education

0-10 11-13 14 or more0.0

0.1

0.2

0.3

0.4

0.5

0.6West Germany

years of education

ORDER

SAY

PRICE

SPEECH

Effects are for male Catholic aged 30

Freedom of speech has a worth which increases witheducation.

Those with more education rate postmaterialist items higher“more to say in government” and “freedom of speech”.

Regina Dittrich and Brian Francis Seminar Institut für Statistik, UnversitätInnsbruck 24 Jänner, 2003

Italy – effect of Education

0-10 11-13 14 or more0.0

0.1

0.2

0.3

0.4

0.5

0.6Italy

years of education

ORDER

SAY

PRICESSPEECH

Effects are for male Catholic aged 30

Those with more education rate postmaterialist items higher“more to say in government” and “freedom of speech”.

Regina Dittrich and Brian Francis Seminar Institut für Statistik, UnversitätInnsbruck 24 Jänner, 2003

West Germany – effect of religion

Cath Prot None Other0.0

0.1

0.2

0.3

0.4

0.5

0.6West Germany

religion

ORDER

SAY

PRICES

SPEECH

Effects are for males, low level of education, aged 30.

Postmaterialist values are higher for those with no religionand for those of other religion ( mainly muslim). However,

for the other religion group, ‘more say in government’ has byfar the highest worth. This may reflect the ‘Gastarbeiter’

status of muslim workers.

Regina Dittrich and Brian Francis Seminar Institut für Statistik, UnversitätInnsbruck 24 Jänner, 2003

ITALY – Religion

Cath None Other0.0

0.1

0.2

0.3

0.4

0.5

0.6Italy

religion

ORDER

SAYPRICES

SPEECH

Note – no Protestants in sample!

Effects are for males, low level of education, aged 30.

Those with no religion are most post-materialist, ratingORDER low and SAY high. Other religions rate ORDERhighest.

Regina Dittrich and Brian Francis Seminar Institut für Statistik, UnversitätInnsbruck 24 Jänner, 2003

ITALY – effect of gender.

Males desire ORDER more than females.

Females are more concerned with PRICES than males.

Contrast with Poland, where women rate both materialistitems (PRICES, ORDER) higher than men.

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

Calculating the probability of materialism and postmaterialism

Materialist responses will rank items 1 and 3 in first and second place.

So

)2,4,1,3()4,2,1,3()2,4,3,1()4,2,3,1()4,2,3,1()1,3()3,1()(

iiiii

iii

PPPPPPPMATP

++++=+=

and we can estimate each of these probabilities by decomposing the rank orders intopaired comparisons.

Similarly, we can estimate Pi(POST) and Pi(MIXED) for any set of covariates

04,

12,

21,

33,

24,14,12,34,32,31,)4,2,1,3(

iiii

iiiiiii

K

ppppppCP

ππππ=

=

Regina Dittrich and Brian Francis Seminar Institut für Statistik, UnversitätInnsbruck 24 Jänner, 2003

Italy – post-materialism and materialism by age

20 30 40 50 60 70 80 900.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0Italy

age

POST

MIXEDMAT

Effects for ‘baseline respondent’. Male catholic loweducation

Result is disappointing – lacks information compared withlooking at individual items.

Materialism increases with age…Most individuals are mixed.

Regina Dittrich and Brian Francis Seminar Institut für Statistik, Unversität Innsbruck 24 Jänner, 2003

CONCLUSIONS

• Assumes decisions made by individuals can be decomposed into a set of pairedcomparisons, and these are independent.

Methods exist for dealing with dependencies (Francis and Dittrich, 2000; Dittrich andKatzenbeisser, 2002) but have not been extended into smooth covariate models.

• Would like to separate out generation (birth cohort) effects from age effects. Doindividuals become more materialist as they age, or does a new generation havedifferent values to the previous generation?

• Interactions between covariates can be included, but models will become more complex.Varying coefficient models would play a role here in considering interactions with AGE.

• Individual items give far more information than a simple post-materialist- materialist split.

• Every country appears to be different. Not a simple East- West or North-South split!Viva la differenza!Es lebe der kleine Unterschied!