24
5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten unabhängigen Modellparametern

5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten

Embed Size (px)

Citation preview

Page 1: 5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten

5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten unabhängigen Modellparametern

Page 2: 5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten

pxpc...xcxccy 22110

Gesucht sei ein lineares multiples Regressionsmodell : (5.1)

für eine bestmögliche Abbildung von y, wobei aber die einzelnen erklärenden Modellvariablen (x1,…,xp) dann auch ein statistisch signifikantes Erklärungspotential für die abhängige Variable (y) besitzen sollen.

Achtung:Das bedeutet dann nicht, dass jeder Parameter xi für sich (allein!) ein Erklärungspotential besitzen muss! Nur in der Kombination des (linearen) Modellansatzes aller (!) erklärenden Parameter x1,…,xp soll dann aber jeder einzelne Parameter xi ein von den (restlichen) Parametern xj (für j<>i) jeweils unabhängiges Erklärungspotential besitzen!!

Page 3: 5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten

Beispiel :

Modelliert wurden tägliche Messungen des forcierten Ausatemvolumen (PF) eines Kindes mit chronischer Atemwegserkrankung während einer 4-wöchigen (Winter) Kur in Zingst mit Hilfe von Messdaten der UBA-MST Zingst:

PF(%) = 104.4 – 0.152*Fe – 0.095*SO2 R=0.723 (10%IW)

mit: PF: Peak - Flow in % des Maximalwertes der MesswertreiheFe: Relative Luftfeuchte (%)SO2: Schwefeldioxidkonzentration der Luft (µg/m3)

PF = f(Fe) und PF = f(SO2) nicht signifikant , ! !

Interpretation der Modellgleichung:In der winterlichen Jahreszeit, bei nebligem Wetter (Fe~100%) und gleichzeitig hohen SO2-Werten (~150 µg/m3), muss dieser Patient mit einer Abnahme seiner PF - Werte um ca. 30% und bei ~100 µg/m3 SO2 dann noch um ca. 20% rechnen.

)2

f(SOFe

Page 4: 5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten

Iterative Verfahren der Modellentwicklung

-Vorwärtsselektion:Beginn mit „bester“ Einzelkorrelation, schrittweise Erhöhung der erklärenden Parameter im Modell nach „Vorauswahl“, gemessen nach ihrer jeweiligen Einzelbedeutung für y, z.B. durch den Einzelkorrelationskoeffizienten.

-Rückwärtselimination:Start mit allen zur Verfügung stehenden erklärenden Variablen bei schrittweiser Elimination von nicht signifikanten Parametern.

-schrittweise Regression:Kombination der Rückwärtselimination mit der Vorwärtsselektion.

Page 5: 5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten

Da nun mögliche Kombinationswirkungen von (Mess)Parametern evtl. für den zu beschreibenden Prozess bedeutende, nicht gemessene Parameter widerspiegeln könnten (Stellvertretereffekt), soll

hier dem Verfahren der Rückwärtselimination mit Elementen der schrittweisen Regression der Vorrang

gegeben werden

(siehe dazu auch das obige Beispiel !)

Page 6: 5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten

Verfahren (Vorschlag)

Page 7: 5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten

Kontrolle der Modelldimension

…. dass die Anzahl der Modellparameter (p) in einem „vernünftigen“ Verhältnis zur Größe der Stichprobe (n) steht, so dass nach den Regeln der statistischen Lerntheorie kein „Überlerneffekt“ (Overfitting) zu erwarten ist.

Hierzu wird ein „adjusted R^2“ definiert [16]:

)R()pn(

pR)p,n,R(faR 211

222

im Gegensatz zu R^2 geht Ra^2 nicht gegen 1, wenn die Anzahl der erklärenden Parameter: p sich der Anzahl der Messungen: n nähert !

(5.2)

Page 8: 5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten

)R()pn(

dRdp

211

2

02 )aR(dIm Maximum des Ra^2 ist: ,so dass dort für dn=0 (d.h. für eine

konstante Datenmenge ) gelten muss:

(5.3)

Ra^2 geht nicht gegen 1, wenn die Anzahl der erklärenden Parameter: p sich der Anzahl der Messungen: n nähert !

Page 9: 5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten

Ist die Anzahl der erklärenden Parameter: p bzgl. n so gewählt worden, dass Ra^2 noch vor dem Maximum zu liegen kommt, so ist mit keinem Overfitting- Effekt zu rechnen. Das Modell ist dann mit hoher Wahrscheinlichkeit nicht „überdimensioniert“!

220

20

22 R/p)RR/()pp(R/pdR/dp

Somit folgt für den Test zur Modelldimension :Ist die Anzahl der erklärenden Parameter (p) geteilt durch den (multiplen) Korrelationskoeffizienten (R^2) größer als die rechte Seite von Gleichung (5.3):

so ist dass Modell überdimensioniert und die Anzahl der erklärenden Parameter: p muss reduziert werden !

)R(

pndR/dp21

12

Für die linke Seite von (5.3) gilt in erster Näherung:

Page 10: 5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten

Überschreitet der nach (5.4) berechnete F- Wert den Tabellenwert, so ist der multiple Korrelationskoeffizient R^2 mit der dazugehörenden Irrtumswahrscheinlichkeit signifikant verschieden von Null, d.h. y kann durch die p Parameter (statistisch) erklärt werden.

Signifikanztest des multiplen Korrelationskoeffizienten: R^2

F-Test (Fisher- Test):

)pn/()R(p/RF

121

2

Nullhypothese: R^2 ist nur zufällig verschieden von Null, die p Variablen haben also keinen Einfluss auf y. Tabellenwerte für F mit den entsprechenden Irrtumswahrscheinlichkeiten (IW) findet man z.B.: bei Schuchard- Ficher[14].

(5.4)

Page 11: 5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten

Achtung:

Die Aussagekraft des F- Test setzt „Unabhängigkeit in den Daten“ und Linearität voraus, so dass bei jedem Schritt der Modellreduktion die folgenden weiteren Tests durchzuführen sind auf:

(- Linearität)- Multikollinarität („Querkorrelationen“)- Autokorrelation („Erhaltungsneigung“)(- Heteroskedastizität)

Streng genommen werden normalverteilte Daten verlangt. Nur dann kann R^2 die „volle stochastische“ Abhängigkeit zwischen den Daten auch beschreiben!

Page 12: 5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten

Zur Linearität:

Entsprechend Modellansatz (5.1) muss die abhängige Größe y zu den unabhängigen Parametern: x1,...,xp in einem linearen Zusammenhang stehen!

Lässt sich eine bessere Angleichung als eine Gerade finden (z.B. eine Exponentialfunktion (EXP)), so wird die Güte des Zusammenhangs durch R^2 in der Regel unterschätzt.

Führt der Signifikanztest für R^2 dann zu keinem signifikanten Wert, so kann er evtl. nach einer Linearisierung der Daten (indem z.B. x := EXP(x) in (5.1) gesetzt wird) zu einem signifikanten Ergebnis führen.

Page 13: 5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten

Zur Autokorrelation:

Die durch das Modell nicht erklärten Restschwankungen (Residuen) müssen untereinander unabhängig sein.

Dies ist vor allem ein Problem bei Zeitreihen von Messwerten (Erhaltungsneigung).

Zur Abschätzung der Autokorrelation kann der Durbin/Watson-Test (d-Test) benutzt werden, da eine Verletzung dieser Bedingungen zu erheblichen Fehlern bei der Abschätzung der Signifikanz des multiplen R^2 führen kann (Schuchard-Ficher[14]).

Page 14: 5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten

n

i ie

n

i)

ie

ie(

d

12

22

1

Durbin / Watson Test:

mit : Restschwankung (Residuum) der i- ten Beobachtung (i=1,2,...,n) i

yi

yi

e

Indexwert: d zur Prüfung der Autokorrelation (Schuchard-Ficher[14])

d- Werte von etwa 2.0 bedeuten keine Autokorrelation (genaue Tabellen- werte z.B. in Schuchard-Ficher [14])

Ist eine Autokorrelation vorhanden, so kann durch Reduktion der Daten (z.B. durch Streichen jedes 2. oder 3. Wertes der Datenreihe) versucht werden, die Erhaltungsneigung zu beseitigen.

(5.7)

Page 15: 5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten

Zur Multikollinarität:

Die unabhängigen Parameter x1,...,xp müssen untereinander unabhängig sein!

Test: Ist die Summe der R^2 für jede einzelne Beziehung: y = f(x1) ,..., y =f(xp) (wesentlich) größer als das R^2 der multiplen Regression, so muss Multikollinarität vermutet werden.

Mit Hilfe des Programms: mlregr_mk.exe werden durch Vorgabe eines F-Grenzwertes (Fu) mit dem obigen F-Test die Parameter: xi aus: x1...xp selektiert, für die sämtliche (paarweise) Einzelregressionen einen F- Wert (nach Gleichung(5.4)) kleiner als dieser Grenzwert Fu besitzen, für die also insgesamt keine Korrelation untereinander nachgewiesen werden kann!Diese Parameter werden dann in erster Näherung(!) als untereinander (linear) unabhängig definiert. Sie bilden dann in erster Näherung mathematisch ein sogenanntes Orthogonalsystem.

Page 16: 5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten

Zur Heteroskedastizität:

Diese liegt vor wenn die Varianz der Restschwankungen nicht unabhängig ist vom Betrag der abhängigen Größe y, bzw. von deren Reihenfolge, z.B. durch einen zunehmenden Messfehler dieser Größe, d.h. also wenn : )y(fe

Zumindest die Tests zur Autokorrelation und Multikollinarität müssen bei der Modellreduktion immer durchgeführt werden, da diese Effekte besonders häufig in den Daten beobachtet werden und einen großen Einfluss auf die Aussagekraft der Testverfahren haben !

Page 17: 5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten
Page 18: 5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten

Test auf Signifikanz der Koeffizienten: cj

t- Test (z.B.: in Schuchard- Ficher[14]):

jcSj

c

)j(empt

22221j

cj

xS/yS)N(/j

cS

yS;j

cS;j

xS - Varianzen der xj, cj und y

Der t-Test lautet dann:Ist nun t nach Gleichung (5.5):

%)IW(tab

t)j(emp

t 5

mit : %)IW(tab

t 5 - Tabellenwert für 5%- IW (Tabellenwerte z.B. in [14])

(5.5)

mit:(5.6)

so muss die Nullhypothese verworfen werden, dass cj nur zufällig verschieden von Null ist !

Page 19: 5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten

Mit diesen so ermittelten (signifikanten) Parametern wird nun erneut ein (reduziertes) multiples Regressionsmodell aufgestellt und nun analog zum vorhergehenden Schritt die entsprechenden Tests für dieses Modell wiederholt….

Page 20: 5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten

Dieses Verfahren wird nun solange wiederholt, bis sich nach der jeweiligen Modellreduktion NUR noch signifikante Parameter im Modell befinden, d.h. KEIN Parameter mehr „herausfällt“!!

Page 21: 5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten

Das Modell:

6644110 xcxcxccy

liefert mit einem R^2 (4. Schritt) mit der entsprechenden IW (des F- Tests) eine signifikante Abbildung der y- Werte

in der die x1,x4 und x6 – Parameter ein mit der entsprechenden IW (des t- Tests) signifikantes Erklärungspotential besitzen !

Page 22: 5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten
Page 23: 5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten
Page 24: 5. Abbildende versus erklärende Modelle – Ein schrittweises Verfahren zur Reduktion eines multiplen linearen Regressionsmodells zur Bestimmung von signifikanten