Multivariate Statistische Verfahren

Preview:

DESCRIPTION

Multivariate Statistische Verfahren. Logistische Funktion, Logistische Regression und Klassifikation Poisson-Regression Psychologisches Institut der Universität Mainz SS 2012 U. Mortensen. Überblick. Grundbegriffe der Dynamik. - PowerPoint PPT Presentation

Citation preview

1

Multivariate Statistische Verfahren

Logistische Funktion, Logistische Regression und KlassifikationPoisson-Regression

Psychologisches Institut der Universität Mainz

SS 2012

U. Mortensen

2

Überblick

Grundbegriffe der Dynamik

Logistische Funktionen, logistische Regression und Klassifikation

Zeitliche Entwicklungen: Ereignisanalyse (Analyse von ‚Wartezeiten‘)

Weitere Analysen von Häufigkeiten: Poisson-Regression, loglineare Analysen

3

Vorbemerkungen: Exponentielles und logistisches Wachstum

Funktionen und ihre Ableitungen

2

2

sin( )

( ) sei irgendeine Funktion von . Etwa

( ) , eine Konstante( ) ,( )

( ) sin( ) cos( ) ,x cx

f x x

f x k kf x ax bf x ax

f x ax e bx eetc

( ) , eine KonstanteDie Funktion hat überall den gleichen Wert , dh sie verändert nirgends ihren Wert - die Veränderung hat überall den Wert Null.

f x k kk

( )Die Funktion ist linear - sie verändert sich für alle im gleichen Ausmaß ( Ort, Zeit - Bewegung mit konstanter Geschwindigkeit).

f x ax bx a

f x t

2( )Die Funktion wächst immer schneller - Veränderung des Wachsens mit .f x ax

x

4

Wie kann man die Veränderung einer Funktion beschreiben?

( ) ( ) : Veränderung von zwischen und f x h f x f

x x h

( ) ( ) ( )

Rate der Veränderung an derStelle (Steigung der Sekante)

f x h f xf x

h

x

0

( ) ( ) ( )lim '( )

Infinitesimale Rate der Veränderung an derStelle (Steigung der Tangente) =Differentialquotient(Maß der Veränderung von an der Stelle x)

h

f x h f x df xf x

h dx

x

f

5

Beispiele

( )

( ) ( ) ( )

für alle

f x ax b

f x h f x a x h ax

h hax ah ax

a hh

Die Rate der Veränderung istkonstant für alle .x

2

2 2 2 2 2

2 2 2

0

( )

( ) ( 2 )

22

lim 2 2 .h

f x ax

a x h ax a x h hx ax

h hax ah ahx ax

ah axh

ah ax ax

Die Rate der Veränderung istproportional zu .x

6

Differential und Integral

Die Umkehrung der Differentiation ist die Integration:

Unbestimmtes Integral:

'( ) ( )f x dx f x c Bestimmtes Integral:

'( ) ( ) ( )b

af x dx f b f a

2

Beispiel:

axdx ax c 2 2 2 2

Beispiel:

( )b

axdx b a b a

( ) ( ) ( )xf u du F x P X x

Wahrscheinlichkeitsdichte und Wahrscheinlichkeitsfunktion :f F

7

Differentialgleichungen

Ausgangspunkt: ist die Funktion f(x) gegeben, so liegt die Ableitung f‘(x) fest, und umgekehrt: ist f‘(x) gegeben, so ist auch f(x) bestimmt (bis auf additive Konstante beim unbestimmten Integral)

Oft sucht man eine Funktion, von der man nur weiß, wie sie sich mit xVerändert, d.h. man hat eine Differentialgleichung, deren Lösung die gesuchte Funktion ist:

Beispiel:( )

( )df x

af xdx

Das Differential (die Ableitung) der gesuchten Funktion sei proportional zur Funktion.

8

Auf diese Differentialgleichung wird man geführt, wenn man den Fall betrachtet, dass eine Größe stets um einen bestimmten Anteil ihres Wertes wächst:

Differentialgleichungen

Nach der Zeiteinheit 1 gelte

( 1) ( ) ( ) (1 ) ( ), d.h.

( 1)1 .

( )

h

f t f t f t f t

f t

f t

Es läßt sich zeigen, dass dann( )

gilt, d.h. ist die Exponentialfunktion, und ist die einzige Funktion, die der Gleichung

( )'( ) ( )

genügt.

atf t cef

f

df tf t af t

dt

Exponentielles Wachstum einer Population: Zeiten mit Quadraten sind „Verdoppelungszeiten“, dh Zeiten, zu denen sich die Population jeweils verdoppelt hat.

Außerdem

( 1) ( ) ( ) (1 ) ( ), d.h.

( 1) ( )( ).

1

f t f t f t f t

f t f tf t

9

Differentialgleichungen

Gilt

( 1) ( ) ( ) (1 ) ( ),

bzw.

( )

so ist die Verdoppelungszeit durch

log 2 .7

log(1 )

gegeben.

d

at

f t f t f t f t

f t ce

t

Verdoppelungszeiten:

0

0

Verzinsung:

Das Anfangskapital sei , die jährliche Ver-

zinsung betrage 5%. Die Verdoppelungs-

zeit ist 14 Jahre, nach Verdoppelungs-

zeiten hat sich um 2 vervielfacht.k

x

k

x

0 0

Ölverbrauch:

Im Jahr hat man Barrel Öl verbraucht,

jährlich wird 1.5% ( =.015) mehr Öl verbraucht.

Dann hat sich nach 70 / 1.5 47 Jahren der

jährliche Verbrauch verdoppelt, d.h. in den letzten

Ja

d

t x

t

0

hren hat die Welt so viel Öl verbraucht wie in

der gesamten Zeit bis !t

Allgemein: benötigt man zum Verbrauch

einer Ressource Verdoppelungszeiten,

so hat man nach 1 Zeiten die Hälfte

verbraucht, und während der letzten Ver-

doppelungszeit verbraucht man den Rest!

n

n

10

Differentialgleichungen

Exponentielles Wachstum der Weltbevölkerung

11

Differentialgleichungen

Logistisches Wachstum

Pierre Verhulst (1804- 1849), belgischer Mathematiker

Ist die Wachstumsrate konstant, so ist das Wachstum exponentiell. Wie istDas Wachstum, wenn die Rate nicht konstant ist, es zB Sättigung im Wachstum gibt?

Verhulst bekam 1838 den Auftrag, das Wachstum der Stadt Paris vorherzusagen – die Vorhersage wurde für die Planung neuer Wohnungen (frz logis), Strassen, zugehöriger Kanalisation benötigt.

Verhulst nahm an, dass es für eine Stadt eine maximale Größe K (Trägerkonstante) geben müsse, da die Stadt aus dem Umland mit Wasser und Nahrung versorgt werden muß.

12

Differentialgleichungen

Ist ( ) die Anzahl der Bewohner zur Zeit( )

, so muß 1 für alle sein.

N tN t

t tK

( )( ) setzt Verhulst nun

( )( )( ( )), mit ( ) .

ist maximale Population ("Trägerkonstante" )

Statt dN t

rN tdt

dN tN t K N t N t K

dtK

Offenbar folgt

0, ( ) ( )

, ( ) 0

N t Kt

r N t

( )( ) ( ).

Mit ( )

(zeitabhängige Proportionalitätskonstante)

( )1 hat man

dN tt N t

dt

t KN t

K

Die Veränderung ist einerseits

proportional zu ( ), andererseits

zur noch verbleibenden Ressource

( ). Je weniger von der Ressouce

noch vorhanden ist, desto kleiner die

Veränderung.

N t

N N t

13

Differentialgleichungen

( ) ( ) ( ) ( )( ) ( ) ( ) 1 ( )

dN t N t N t N tt N t rN t rN t r

dt K K

( ) für ( ) klein (exponentielles Wachstum)( )

(1 ( ) / ) für ( ) groß (negativ expon. Wachstum)

rN t N tdN t

dt r N t K N t

Logistisches Wachstum der Lebenserwartung in Norwegen

14

Differentialgleichungen

Das klassische Modell der Epidemiologie

Annahmen:1. Gegeben sei eine Population mit Umfang 2. Ein Element der Population hat das Merkmal oder hat es nicht3. Das Merkmal (Gerücht, Krankheit) wird durch Kontakt weitergegeben4. Alle Element

NA

e der Population sind gleich infizierbar.

Das "triviale" Modell:1. 2. ( ) Anzahl Infizierter zur Zeit , ( ) Zahl Infizierter zur Zeit durchschnittliche Anzahl von Kontakten noch nicht Infizierter.

Dann soll gelten

( ) ( )

NX t t X t h t h

X t h X t

( )hX t

15

0

Es folgt

( ) ( ) ( ) ( )( ), so dass lim '( ) ( ),

d.h. ( ) wächst exponentiell!

h

x t h X t x t h X tX t X t X t

h h

X t

Differentialgleichungen

Das klassische Modell:, ( ) Infizierte, ( ) ( ) noch nicht Infizierte, und( ) ( ) konstant.

N X t S t N X tN X t S t

Jeder der ( ) Infizierten kann mit jedem nicht Infizierten Kontakt haben; die Anzahl der möglichen Kontakte ist dann ( ) ( ). Mithin

( ) ( ) ( ) ( ), d.h.

( ) ( ) ( ) ( ) ( ( )) ( ).

X tS t X t

X t h X t hS t X t

X t h X t S t X t N X t X th

( ) ( ( )) ( ). (logistische Gleichung)dX t N X t X tdt

16

( )( ( )) ( ).

( ) ( ) / 0, d.h. kleiner werdende Veränderung der Anzahl Infizierter

X(t) 0 ( ) / 0, d.h. nur langsam wachsende Anzahl Infizierter

dX tN X t X t

dt

X t N dX t dt

dX t dt

Differentialgleichungen

Lösung der Differentialgleichung:

(0)( ) , ,

(0)1 )(Logistische Funktion)

t

N N XX t A N

XAe

Wachstumsverläufe für =.1 und .075, 100N

17

Differentialgleichungen – Interaktion von Emotionen

1 2

111 1 12 2 1

212 1 22 2 2

1 2

Frustration, Aggression

gekoppelte Differentialgleichungen,, Störungen (etwa: ''Impulse'')

x xdx

a x a x udtdx

a x a x udt

u u

Dollard & Miller 1939: Frustration erzeugt Aggression

Einmal so…

Und das nächste Mal so:

Existiert ein überhaupt ein Zusammenhang?

18

1 2 sind Konstante bzw. im Vergleich zu . langsam variierende

Funktionen, die durch andere Emotionen/Zuständlichkeiten beein-flußt werden.

ija x x

Differentialgleichungen – Interaktion von Emotionen

Keine Regression im üblichen Sinn!

Keine Regression im üblichen Sinn – Oszillation bis zur Gleichgewichtslage!

Reaktionen auf einen frustrierenden „Stoß“:

19

Differentialgleichungen – Interaktion von Emotionen

Keine Regression im üblichen Sinn – eher eine Explosion!

Keine Regression im üblichen Sinn – eher ein permanentes Pendeln!

Untersuchungen im Rahmen des Allgemeinen Linearen Modells (ANOVA, Regressionsanalyse etc) erfassen die Dynamik grundsätzlich nicht!

20

Logistische Verteilung, Regression und Klassifikation

Die logistische Verteilung

Es sei ( ) ( ), und es gelte

( )( ) ( )(1 ( ))

F x P X x

dF xf x F x F x

dx

1( )

( )1 exp

3

F xx

( ) , ( )E X Var X

Der Faktor / 3 resultiert aus der Normierung: es muß 0 ( ) 1 gelten.

F x

sei ein zufälliges Ereignis, sei eine Indikatorvariable:

0, wenn nicht eingetreten ist,1 sonst:

A Y

Y AY

( ) 1 ( )1

( )

1 exp3

P X x F x

x

trete ein, wenn , und tretenicht ein, wenn , so dass

( 0 | ) ( ),( 1 | ) 1 ( ).

A X x AX x

P Y x F xP Y x F x

Regression:Beispiel (stark vereinfacht): stehe für Herzinfarkt.

sei Ausmaß der Verkalkung der Herzkranzgefäße, x sei ein kritisches Ausmaß. Für folgt ein Infarkt,für nicht.

AX

X xX x

Klassifikation:Beispiel: bedeute, dass eine Person einer bestimmten Klasse angehört (zB für Job geeignet, oder "ist depressiv"), repräsentiert komplexes Merkmal ("Symptom"). signalisiert Zugeh

A

XX x örigkeit

zur Klasse.

21

Logistische Verteilung, Regression und Klassifikation

Die Wahrscheinlichkeiten ( 1 | ) und ( 0 | ) hängen von den Parametern

und der Verteilung ( ) ab.

P Y x P Y x

F x

0 1

0 1

Um diese Abhängigkeit zu modellieren, schreibt man ( ) in reparametrisierter Form an:

1 1( ) ,

( ) 1 exp( )1 exp

3

mit , a3 3

F x

F xx a a

xa

1

2

1 1 2 2

kann von unabhängigen Variablen abhängen: die Anzahl Zigaretten, die eine Person täglich raucht, das Alter der Person, etcso dass .

xx

x x

22

Logistische Verteilung, Regression und Klassifikation

Vergleich logistische Verteilung – Gauss-Verteilung

23

1 2

1 20 1 1 1 2 2

0 1 1 2 2

0 0 1 1 1 2 1 2

( 1 | ) ( 1 | , ) ( 1 | , , ) und

1( 1| , , )

1 exp( ( ( )))1

1 exp( )

(erneute Reparametrisierung, b = - , b - , b - ).

P Y x P Y x P Y x x x

P Y x x xa a x x

b b x b x

a a a

Logistische Verteilung, Regression und Klassifikation

1 20 1 1 2 2

Dies ist die logistische Regression oder Klassifikation:1

( 1| , )1 exp( )

Frage: Impliziert dieser "Ansatz" die Annahme der logistischen Verteilung?

P Y x xb b x b x

24

Logistische Verteilung, Regression und Klassifikation

1

2 1

1 11

Es soll entschieden werden, ob ein Objekt oder eine Person in die Kategorie ( 1)

oder in die Kategorie ( 0) gehört. ( , , ) seien Prädiktoren.

Dann gilt (Bayes)

( | ) ( ) (( | )

( )

n

C Y

C Y x x x

P x C P C P xP C x

P x

1 1

1 1 2 2

( )2 2

1 1

2 2

1 1

| ) ( )

( | ) ( ) ( | ) ( )

1 1 , logistische Funktion?

( | ) ( ) 11

( | ) ( )

mit

( | ) ( )( ) log .

( | ) ( )

a x

C P C

P x C P C P x C P C

P x C P C e

P x C P C

P x C P Ca x

P x C P C

log(Hier wird von Gebrauch gemacht!)aa e

1

1/ 2

sei multivariatGauss-verteilt:

1 1( | ) exp ( ) ' ( , 1, 2

2(2 ) | |i i in

x

f x C x x i

10 1 1

1( | )

1 exp( )

Nach ein wenig Algebra ergibt sich dann

n n

P C xb b x b x

Gauss-Verteilungen mit identischen Varianz-Kovarianz-Matrizen führen auf die logistische Funktion!

25

Logistische Regression

1

0 1 1

1( | )

1 exp( )n n

P C xb b x b x

Wahrscheinlich-keit Wie multiple Regression –

Kein Fehlerterm!

Nichtlineare Beziehung zwischen den unabhängigen Variablen und der Wahrscheinlichkeit!

1

0 1 1

10 1 1

1

1

1

( | )1 exp( )

1 ( | ) exp( )

( | )

( ( ))

1

n n

n n

P C xb b x b x

P C xb b x b x

P C x

p P C x

p

p

Wettchance

0 1 1

1log Logit

n nb b x b x

p

p

Lineare Beziehung zwischen Prädiktoren und Logit!

26

Logistische Verteilung, Regression und Klassifikation

Wahrscheinlichkeit einer Koronarerkrankung in Abhängigkeit vom Blutdruck

27

Logistische Regression

• Wie werden die Koeffizienten geschätzt?• Wie werden sie interpretiert?

0 1 1

1log Logit

n nb x b x

p

pb

Schätzung:

2Da kein Fehler existiert, kann auch keine Summe

minimalisiert werden, d.h. die Methode der Kleinsten Quadrate

ist nicht anwendbar. Daher Schätzung nach der Maximim-

Likelihood-Methode.

ii

e e

28

Logistische Regression -- Interpretation

Wettchance (Odds) und Wahrscheinlichkeit

Wahrscheinlichkeit als Funktion der Odds wird auf (0, 1) abgebildet

Odds als Funktion der Wahrscheinlichkeit wird auf (0, unendlich) abgebildet.

29

Logistische Regression -- Interpretation

0 1 10 1 1

1exp( )

- die Prädiktoren gehen in die Odds ein!

n nb b xb xn n

pb b x b x e e e

pmultiplikativ

001 2

0

0

10

- definiert die Wahrscheinlichkeit des Ereignisses für "neutrale" Werte

der Prädiktoren.

b

n

px x x e

p

p

0 1 2 2

1

1 1reflektiert das Gewicht

11

von für gegebene Werte der übrigen Prädiktoren

n nb b xb b xx

b

pe e e e

px

30

Logistische Regression – Odds, relatives Risiko, etc

Einige grundlegende Begriffe lassen sich anhand eines dichotomen Merkmals erläutern.

1 1 1 2

2 1 2 2

1 2

Die Quotienten

( | ) ( | ) und heißen Wettchancen (Odds)

( | ( | )

P B A P B A

P B A P B A

11 1 21 21 2

12 1 22 2

Die Odds lassen sich aus den Häufigkeiten der Tabelle errechnen:

und / /

/ /

n n n n

n n n n

31

Logistische Regression – Odds, relatives Risiko, etc

1 1 2 2

2 1 1 2

11 22

12 21

Das Verhältnis

( | ) ( | )

( | ) ( | )

heißt Kreuzproduktverhältnis

P B A P B A

P B A P B A

n n

n n 1

2

Der Quotient

( | )

( | )

heißt relatives Risiko.

, 1, 2j

j

P B AR

P B Aj

1 1

1 2

Das relative Risiko für einen Herzinfarkt ist

demnach

( | )

( | )

104 /11037.5501

189 /11034HI

P B AR

P B A 2 1

2 2

Das relative "Risiko",

Herzinfarkt zu bekommen ist dann

( | ) 10933 / 110271.0078

( | ) 10875 / 11034

Die Risiken sind nicht komplementär!

keinHI

keinen

P B AR

P B A

32

Logistische Regression – Odds, relatives Risiko, etc

1 11

2 1

Die Chance (Odds), einen Herzinfarkt zu bekommen, wenn man Aspirin nimmt, sind

( | ) 104 /11037.00951,

( | ) 10875 /11034

die Chance, einen Herzinfakrt zu bekommen, wenn man kein Aspirin

nimmt, sin

P B A

P B A

1 22

2 2

1 11 22

2 12 21

d

( | ) 189 /11034.01743

( | ) 10845 /11034

und das Kreuzproduktverhältnis ist

.00951.546

.01743

P B A

P B A

n n

n n

33

Logistische Regression – Schätzung der Parameter

0 1

0 1 0 1 0 1

1

Es sei 1, wenn Aspirin gegeben wird, 0, wenn Placebo verabreicht wird.HI = Herzinfarkt

exp( )1 1(HI ja| Aspirin) ( 1), (HI nein|Aspirin) 1

1 exp( ) 1 exp( ) 1 exp( )

(HI ja|

x x

b bP x P

b b b b b b

P

0 1 0 1 0 10 1

exp( ) / (1 exp( ))(1 exp( ))Aspirin)exp( )

(HI nein|Aspirin) 1

b b b b b bb b

P

2 0

(HI ja| Placebo)Analog: dazu exp( )

(HI nein|Placebo)

Pb

P

0 1

0 1 0 1

0

11

2

Kreuzprod'verhältnis: log .606b b

b b b bb

ee e b

e

110 1

12

log log .017n

bn

34

Logistische Regression – Zusammenfassung

2 1 1 1 2 2 1 2

1 1 1 1 1 2 2

1 21

1 1 2

Wettchancen (Odds)

Eine allgemeine Definition ist

( | ) 1 ( | ) ( | ) 1 ( | ) =

( | ( | ( | ) ( | )

= das interessierende Ereignis,

1:

= ,) )

und verschiedene Bedingu

P B A P B A P B A P B A

P B A P B A P B A P B A

B A

p

p

A

ngen.

1 1 2 1

1 2 2 2

1 2

Relatives Risiko:

( | ) ( | )

( | ) ( | ),

Vergleich der Wirkung verschiedener Bedingungen in Bezugauf jeweils ein (zufälliges) Ereignis.

P B A P B AR R

P B A P B A

!

2

Kreuzproduktverhältnis

liefert Parameterschätzung.

35

Logistische Regression – Infektionsrisiko

Infektionsrisiko bei Kaiserschnittgeburten

1 2 3 1 2 3

1, nicht geplant 1, RF 1, AB, , , ( , , )

0, geplant 0, kein RF 0, kein ABx x x x x x x

0 1 1 2 2 3 3

(Infektion| )Logit = log (Haupteffektmodell)

(keine Infektion| )

P xb b x b x b x

P x

36

Logistische Regression – Infektionsrisiko

0 3 31 1 2 2(Infektion| )

(keine Infektion| )b b xb x b xP xe e e e

P x

(Infektion| )Für spezielle Vektoren lassen sich Schätzungen der

(keine Infektion| )Parameter gewinnen:

ii

ii

P xx

P x

Ein nicht geplanter Kaiserschnitt erhöht die Chance einer Infektion um den Faktor exp(1.07) 2.92,

Ein vorhandener Risikofaktor erhöht die Chance einer Infektion um den Faktor exp(2.03) 7.6,

Ein Antibiotikum erniedrigt die Chance einer Infektion um den Faktor exp( 3.25) .039

37

Logistische Regression – Infektionsrisiko

(Infektion)kein Antibiotikum Chance = 1

(keine Infektion)

(Infektion)mit Antibiotikum Chance = .0388

(keine Infektion)

P

P

P

P

0 1 1 2 2 3 3 4 1 2

Modelle mit Wechselwirkungen:

(Infektion| )log

(keine Infektion| )

(Wechselwirkung 'Planung des Kaiserschnitts - Risikofaktor)

P xb b x b x b x b x x

P x

38

Logistische Regression – Infektionsrisiko

39

Poisson-Regression

Man hat eine Stichprobe von Fällen, davon haben das interessierende Merkmal, haben es nicht. Der Anteil der Fälle in der Population mit dem Merkmal sei ,

und die Fälle werden unabhängig voneina

n kn k p

nder erhoben.

Bernoulli-Versuche mit "Erfolgs"wahrscheinlichkeit :

( | , ) (1 ) , ( ) , ( ) (1 )k n k

n p

nP K k n p p p E K np Var K np p

k

1 2Generell gilt , {0,1}

Approximationen: (1) Grenzwertsatz von deMoivre-Laplace :für großen Wert von :

(0,1) (Standardnormalverteilung)(1 )

(2) Grenzwertsatz von Poi

n ik x x x x

nn np

z Nnp p

sson: n und eine Konstante:

( | ) , 0,1,2,3!

( ) , Var( )

k

np

P K k e kk

E K K

40

Poisson-Regression

Anmerkungen:

(1) muß nicht klein sein,(2) Man muß nicht von der Annahme ausgehen, dass unendlich groß ist. Man kann die Poisson-Verteilung einfach als eine eigene Verteilung definier

n

en, ohne auf die Herleitung als Approximation der Binomialverteilung auffassen.

heißt auch der "'Intensitätsparameter" der Verteilung.

Man kann zB die Häufigkeit bestimmter Ereignisse während eines Zeitintervallsder Dauer betrachten. Die Wahrscheinlichkeit von ist dann

(

t K k

P K

( )| , ) .

!

Wird das Ereignis (Unfall, Aktionspotential ("Feuern" eines Neurons), etc) unteridentischen Bedingungen betrachtet, hängt die beobachtete Anzahl von derDauer der Beobachtung bzw de

kt t

k t ek

s Zählvorgangs ab!

41

Poisson-Verteilungen (lb = lambda)

lb = 3

lb = 10

lb = 5

42

Poisson-Verteilungen - Beispiele

Generell: „Kleine“ Anzahlen

Poisson-verteilte Häufigkeiten zeigen „Cluster“ – das sind Anhäufungen von Ereignissen. Diese Anhäufungen resultieren aus der Zufälligkeit der Ereignisse und sind nicht notwendig Ausdruck irgendwelcher systematischer Tendenzen.

Systematische Tendenzen kann es ebenfalls geben – aber man muß prüfen, ob die Clusterings solche Tendenzen enthalten.

Beispiele: • Verletzungen von Kindern in einem Distrikt (http://www.ij-healthgeographics.com/content/7/1/51 )• Trauma-Forschung – domestic violence (Gagnon et al 2008)• Häufung von Galaxien (Saslaw, W. C. "Some Properties of a Statistical Distribution Function for Galaxy Clustering." Astrophys.

J. 341, 588-598, 1989. )• Häufigkeit epileptischer Anfälle in einer Gruppe von Patienten im Laufe eines Jahres• Häufigkeit von Arrythmien in 24-Stunden EEGs• Häufigkeiten von Infektionen in einer Stadt (existiert „infective agent“?)

43

Poisson-Regression

Der Wert von reflektiert bestimmte Randbedingungen, = Konstantebedeutet, dass die Randbedingungen konstant sind.

Die Randbedingungen können durch bestimmte unabhängige Variablencharakterisiert sei

n. Wie läßt sich der Einfluß der einzelnen Variablen abschätzen?

0 1 1Ansatz 1:

Es muß notwendig 0 gelten ( ) Verzerrung der

n n

i

b b x b x

np b

0 1 1

Ansatz 2: log-lineares Modell:

exp( )

Keine Einschränkung bezüglich der

n n

i

b b x b x

b

44

Poisson-Regression

0 1 1 1 1 2

Log-lineares Modell mit Wechselwirkungen

exp( )

_

n n nb b x b x b x x

Beispiel: (nach Frome 1983, Analysis of rates using Poisson Regression Models, Reanalyse der Daten von Doll Hill (1966): Lungenkrebs und Rauchen)

exp( ) exp( )exp( ) geschätzte Anzahljk j k j k

Lungenkrebstoter per

100 000 Mann-Jahre, Effekt der -ten Altersgruppe, Effekt -ter Effekt des Rauchensj kj k

Age Fit: exp( ), Smoking Effekt: exp( ) j k

45

Poisson-Regression

Alternatives Modell (Whittemore & Keller 1978):

( , ) ( )

Betrag des Karzinogens per Zeiteinheit (konstante Rate) Zeitpunkt, von dem an dem Karzinogen ausgesetzt (time from f

t d ad t

dt

irst exposure) Hintergrund (= Nichtraucher) Inzidenzrate. ( 1) Todesrate für

Lungenkrebs. ( , ) liefert Hazard-Rate, wie sie in der (noch zu behandelnden)Ereignisanalyse verwendet wird.

adt d

Das Modell ist an molekularbiologischen Prozessen bei derKrebsentstehung orientiert. Der Ansatz der Modellbildung ist auch für psychologische Prozesse interessant.

Inferenzstatistische Fragen werden in einer separaten Präsentationvorgestellt.

Recommended