59
Versuchsplanung und multivariate Statistik Kapitel 4: Lineare und nichtlineare Modellierung Prof. Dr. Hans-J¨ org Starkloff TU Bergakademie Freiberg Institut f¨ ur Stochastik Sommersemester 2019 Prof. Dr. Hans-J¨ org Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 1

Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Embed Size (px)

Citation preview

Page 1: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Versuchsplanung und multivariate Statistik

Kapitel 4: Lineare und nichtlineare Modellierung

Prof. Dr. Hans-Jorg Starkloff

TU Bergakademie FreibergInstitut fur Stochastik

Sommersemester 2019

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 1

Page 2: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

4 Lineare und nichtlineare Modellierung

I In den Naturwissenschaften und ihren Anwendungen mussen oftZusammenhange zwischen verschiedenen Großen untersucht werden.Dies geschieht auf der Basis theoretischer Untersuchungen und/odermit Hilfe von experimentellen Daten.

I Verfahren, um uberhaupt eine Abhangigkeit einer Große von anderenGroßen zu erkennen, werden in der Statistik unter anderem imRahmen der Korrelationsanalyse oder Varianzanalyse entwickelt.

I Mit Hilfe von Verfahren der Regressionsanalyse konnen beivorliegenden Messdaten (bei denen in der Regel Zufallseinflusseunterstellt und beobachtet werden) konkrete funktionaleAbhangigkeiten gefunden und statistisch uberpruft werden.

I In der Chemometrie werden vor allem Fragestellungen derKalibrierung und der Optimierung mit Hilfe von Wirkungsflachen(Response-Surface-Modellen) durch die Regressionsanalysebearbeitet.

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 2

Page 3: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Die Methode der kleinsten Quadrate

I Eine grundlegende Methode fur die Regressionsanalyse ist dieMethode der kleinsten Quadrate. Sie kann als heuristische Methodezur beschreibenden Regressionsanalyse genutzt werden, aber auchfur geeignete stochastische Modelle gut begrundet werden.

I Es seien z.B. Punkte (x1, y1), . . . , (xn, yn) gegeben und eine KlasseR von moglichen Regressionsfunktionen, so dass die funktionaleAbhangigkeit der Große y von der Große x voraussichtlich gutdurch eine Funktion aus dieser Klasse beschreibbar ist.

I Die Methode der kleinsten Quadrate besteht dann darin, aus Rdiejenige Funktion y = f (x) als empirische Regressionsfunktion zuden Daten auszuwahlen, fur die die Summe der Quadrate derAbstande zwischen den theoretischen Funktionswerten f (xi ) undden beobachteten Funktionswerten yi (jeweils bei den Argumentenxi , i = 1, . . . , n), d.h. die Summe der Abweichungsquadrate oder

Residual-Quadratsumme d =n∑

i=1

(yi − f (xi ))2 minimal wird.

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 3

Page 4: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Weitere Bezeichnungen und Bemerkungen

I Die Abweichungen εi = yi − f (xi ) (bei einer gewahlten Funktiony = f (x) ) nennt man Residuen.

I Ist eine funktionale Abhangigkeit der Große y von der Große xgesucht, nennt man x auch Regressor, exogene Variable oderEinflussgroße. Die Große y wird auch Regressand, endogeneVariable oder Wirkungsgroße genannt.

I Der Name”Regression“ (

”Ruckschritt“) geht auf Galton zuruck.

Ausgangspunkt war damals eine Untersuchung von Pearson uberdie Große der Sohne (Variable y) im Zusammenhang mit der Großeder Vater (Variable x). Galton schrieb damals:

”Each pecularity in a

man is shared by his kinsman but on the average in a less degree.“(vgl. Hartung, Statistik. Lehr- und Handbuch der angewandtenStatistik, Oldenbourg Verlag Munchen, 15. Auflage, 2009, S. 569)

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 4

Page 5: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

4.1 Lineare Regressionsmodelle

I Bei linearen (auch: parameterlinearen) Regressionsmodellen gehtman von gesuchten funktionalen Abhangigkeiten aus, bei der dieParameter linear in die Funktionsgleichung eingehen, zum Beispielfur eine abhangige Große y und unabhangige Großen x1, . . . , xm

y = θ1x1 + . . .+ θmxm

bzw. bei einer unabhangigen Große x

y = θ0 + θ1x + . . .+ θkxk .

I Fur vorliegende n Messergebnisse (yi , xi1, . . . , xim) bzw. (yi , xi ) ,i = 1, . . . , n , sind geeignete Parameter θ` , ` = 1, . . . ,m , bzw.` = 0, . . . , k , zu bestimmen, die die Messergebnisse moglichst gut(oder bestmoglichst in einem bestimmten Sinne) beschreiben. Manspricht von linearen Regressionsmodellen, da die gesuchtenParameter linear in die Abhangigkeitsbeziehung eingehen.

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 5

Page 6: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

4.1.1 Einfache lineare Regression

I Gegeben seien Punkte (x1, y1), . . . , (xn, yn) .

I Die Abhangigkeit der y−Werte von den x−Werten soll bei dereinfachen linearen Regression durch eine (affin-)lineare Funktiony = f (x) = a + bx beschrieben werden. Die Grafik der mit derMethode der kleinsten Quadrate geschatzten Regressionsfunktionnennt man Ausgleichsgerade oder Regressionsgerade.

I Zur Bestimmung der geschatzten Regressionsfunktion muss dieResiduen-Quadratsumme d = d(a, b) als Funktion der beidenParameter (Variablen) minimiert werden,

d = d(a, b) =n∑

i=1

(yi − f (xi ))2 =n∑

i=1

(yi − a− bxi )2 .

I Als notwendige Bedingung mussen fur die optimalen Werte (dieSchatzwerte) a und b die ersten partiellen Ableitungen derFunktion d(a, b) nach a und b Null gesetzt werden.

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 6

Page 7: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Die Regressionsgerade

I Die Schatzwerte sind mit x = 1n

∑ni=1 xi , y = 1

n

∑ni=1 yi

b =

n∑i=1

(xi − x)(yi − y)

n∑i=1

(xi − x)2=

n∑i=1

xiyi − nx y

n∑i=1

x2i − nx2, a = y − bx

und damit die Gleichung der geschatzten Regressionsgeraden

y = a + bx .

I Dann gelten mit den Schatzwerten yi = a + bxiI die Summe der Residuen ist Null,

∑ni=1(yi − yi ) = 0 ;

I die Summe∑n

i=1 xi (yi − yi ) ist Null;I das arithmetische Mittel y der beobachteten y−Werte ist gleich

dem arithmetischen Mittel der geschatzten y−Werte yi = a + bxi ;I die Regressionsgerade verlauft durch den Schwerpunkt der

Punktwolke mit den Koordinaten (x , y) .

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 7

Page 8: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Beispiel: Loslichkeit von NaNO3 (Mendelejew)

Bsp. 4.1.1

I Daten aus Linnik, Methode der kleinsten Quadrate in modernerDarstellung, Berlin, 1961; entnommen aus Mendelejew,Grundlagen der Chemie, 1906 .

I Daten:i Nummer der Messungxi Temperatur in ◦Cyi Loslichkeit von NaNO3 (in g pro 100 ml)

i 1 2 3 4 5 6 7 8 9

xi 0 4 10 15 21 29 36 51 68

yi 66.7 71.0 76.3 80.6 85.7 92.9 99.4 113.6 125.1

I Theoretische Uberlegungen lassen eine gute Beschreibung durch einelineare Abhangigkeit vermuten.

I In Tafelwerken: Loslichkeit bei 20 ◦C : 874 g l−1 .

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 8

Page 9: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Regressionsgerade im Beispiel 4.1.1

Regressionsgerade: y = 67.5 + 0.87x .

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 9

Page 10: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Residuenplot zum Beispiel 4.1.1

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 10

Page 11: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Streuungszerlegung

Es gilt die Streuungszerlegung

SST = SSE + SSR

mit (erste Bezeichnungen entsprechend dem Buch von Otto (2017))

I SScorr = SST =n∑

i=1

(yi − y)2, der Totalvariabilitat (Totalvarianz;

korrigiert um Mittelwert);

I SSfact = SSE =n∑

i=1

(yi − y)2, der”erklarten“ Variabilitat (erklarte

Varianz; Faktoren);

I SSR = SSR =n∑

i=1

(yi − yi )2, der Restvariabilitat (Restvarianz;

Residuen).

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 11

Page 12: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Bestimmtheitsmaß

I Das Verhaltnis B =SSE

SST= 1− SSR

SSTheißt Bestimmtheitsmaß.

I Es gelten 0 ≤ B ≤ 1 und B = r2X ,Y mit dem gewohnlichenempirischen Korrelationskoeffizienten rX ,Y .

I Liegt der Wert des Bestimmtheitsmaßes nahe bei 1, deutet dies aufdie gute Approximation der Punktwolke durch die Regressionsgeradehin.

I Im Beispiel 4.1.1 ist das Bestimmtheitsmaß fur die einfache lineareRegression gleich B = 0.998 .

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 12

Page 13: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

4.2 Weitere Ergebnisse zu linearen Regressionsmodellen

Bem. 4.2.1

I Ist die gesuchte Abhangigkeitsfunktion eine nichtlineare Funktion(eine Gerade ist schlecht an die Daten anpassbar), kann manmitunter durch geeignete Variablentransformationen dieAufgabenstellung in eine der einfachen linearen Regressiontransformieren. Diese ist dann aber eigentlich nicht aquivalent zurursprunglichen Aufgabenstellung.

I Nichtlineare, in lineare transformierbare Funktionen sind z.B.

y = αxβ ⇒ ln y = lnα + β ln x

y = αeβx ⇒ ln y = lnα + βx

y = (α + βx)−1 ⇒ y−1 = α + βx

y = x(α + βx)−1 ⇒ y−1 = αx−1 + β

y = αeβ/x ⇒ ln y = lnα + βx−1

y =(α + βe−x

)−1 ⇒ y−1 = α + βe−x

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 13

Page 14: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Matrix-Vektor-Form fur die einfache lineare Regression

Bem. 4.2.2

I Die Modellgleichungen fur die einfache lineare Regression lauten

yi = a + bxi + εi , i = 1, . . . , n .

I In Matrix-Vektor-Form lauten diese Gleichungen

y = xθ + ε

mitI y = (y1, . . . , yn)T (Vektor der abhangigen Variablen) ,

I ε = (ε1, . . . , εn)T (Vektor der Residuen) ,

I θ = (a, b)T (Parametervektor, Vektor der Regressionskoeffizienten) ,

I x =

1 x11 x2...

...1 xn

(Planmatrix, Designmatrix) .

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 14

Page 15: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Normalgleichungssystem fur die einfache lineare Regression

Bem. 4.2.3Die Methode der kleinsten Quadrate besteht in der Bestimmung desSchatzvektors θ durch

θ = arg minθ∈R2

(y − xθ)T(y − xθ) = arg minθ∈R2

εTε .

Satz 4.2.4Ein in Bem. 4.2.3 definierter Vektor θ ist Losung des linearenGleichungssystems (des Normalgleichungssystems)

xTx θ = xTy .

Ist die Matrix xTx regular (invertierbar), dann existiert eine eindeutigeLosung

θ =(

xTx)−1

xTy .

Die empirischen Regressionskoeffizienten (die Komponenten von θ ) sindLinearkombinationen der Messwerte y1, . . . , yn .

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 15

Page 16: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Beispiel Fe-Bestimmung

Bsp. 4.2.5

I Daten aus: Danzer, Hobert, Fischbacher, Jagemann,Chemometrik Grundlagen und Anwendungen, Springer, 2001,Tabelle 7.2, S. 265.

I Daten: Fe-Bestimmung,die mittels GF-AAS (Graphitrohr-Atomabsorbtionsspektrometrie) beiλ = 334.1 nm uber eine Variation der Einwage durchgefuhrt wurde.xi Masse in ngyi Peakhohe

i 1 2 3 4 5 6 7

xi 0.0162 1.4094 3.0132 5.5080 8.1000 10.3032 11.8422yi 0.0089 0.0265 0.0400 0.0650 0.0835 0.1017 0.1092

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 16

Page 17: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Regressionsgerade im Beispiel 4.2.5

Regressionsgerade: y = 0.013567 + 0.008455x .

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 17

Page 18: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Residuenplot zum Beispiel 4.2.5 (Regressionsgerade)

Bestimmtheitsmaß: B = 0.9919 .

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 18

Page 19: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Regressionsparabel im Beispiel 4.2.5

Regressionsparabel: y = 0.0095075 + 0.0111917x − 0.0002308x2 .

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 19

Page 20: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Residuenplot zum Beispiel 4.2.5 (Regressionsparabel)

Bestimmtheitsmaß: B = 0.9989 .

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 20

Page 21: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Gleichungssystem zur Bestimmung der Regressionsparabel

Satz 4.2.6Das lineare Gleichungssystem zur Bestimmung der Regressionsparabel(Ausgleichsparabel) y = a + bx + cx2 lautet

nn∑

i=1xi

n∑i=1

x2in∑

i=1xi

n∑i=1

x2in∑

i=1x3i

n∑i=1

x2in∑

i=1x3i

n∑i=1

x4i

a

bc

=

1 . . . 1x1 . . . xnx21 . . . x2n

y1

...yn

oder xTx θ = xTy mit

x =

1 . . . 1x1 . . . xnx21 . . . x2n

T

, θ = (a , b , c)T

und y = (y1 , . . . , yn)T .

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 21

Page 22: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Der Fall symmetrisch liegender Werte xi

Bem. 4.2.7Liegen die Werte xi , i = 1, . . . , n , symmetrisch zu Null (dies kann ggf.durch eine affin lineare Transformation erreicht werden), ergeben sicheinfachere Formeln, da dann

∑ni=1 x

pi = 0 fur ungerade p gilt.

I Im Fall der einfachen linearen Regression erhalt man so

a =

∑ni=1 yin

= y , b =

∑ni=1 xiyi∑ni=1 x

2i

.

I Fur die Regressionsparabel erhalt man in diesem Fall mith1 =

∑ni=1 x

2i , h2 =

∑ni=1 x

4i , h3 = nh1h2 − h31 die Formeln

a =h1h3

(h2

n∑i=1

yi − h1

n∑i=1

x2i yi

), b =

nh2 − h21h3

n∑i=1

xiyi ,

c =h1h3

(n

n∑i=1

x2i yi − h1

n∑i=1

yi

).

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 22

Page 23: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Das stochastische Modell (einfache lineare Regression)

Fur weiterfuhrende statistische Aussagen wie Konfidenzintervalle oderTests muss ein stochastisches Modell genutzt werden.

Modell 4.2.8

Yi = a + bxi + εi , i = 1, . . . , n,

wobei die Werte xi deterministische, einstellbare Werte sind und derZufallseinfluss (Messfehler bei der Messung der Große y , nichtberucksichtigte Einflussgroßen, Fehler in der Wahl der Klasse derRegressionsfunktionen –

”zufallige Fehler“) durch unabhangige

normalverteilte Zufallsgroßen εi mit E[εi ] = 0 und Var[εi ] = σ2

(unbekannt, nicht von i abhangig) modelliert werden. Damit werden diebeobachteten Werte als Realisierungen von Zufallsgroßen angesehen,wobei obige Gleichungen das stochastische Beobachtungsmodell (oderMessmodell) definieren. Die Koeffizienten a und b werden alsdeterministische, aber unbekannte Parameter angesehen (im Rahmen derklassischen mathematischen Statistik).

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 23

Page 24: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Eigenschaften der Schatzer fur die Parameter a und b

Satz 4.2.9Unter den Voraussetzungen fur Modell 4.2.8 gelten:

I Die Kleinste-Quadrat-Schatzwerte b bzw. a sind Realisierungenerwartungstreuer und konsistenter Schatzfunktionen

B =

n∑i=1

(xi − x)(Yi − Y )

n∑i=1

(xi − x)2=

n∑i=1

xiYi − nx Y

n∑i=1

x2i − nx2, A = Y − Bx

fur die Modellparameter b bzw. a .

I Die Schatzfunktionen fur a bzw. b sind auch die besten linearenunverzerrten Schatzer (d.h. die linearen erwartungstreuen Schatzermit kleinstmoglicher Varianz, ”BLUE”, ”best linear unbiasedestimator”) fur die Modellparameter a bzw. b .

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 24

Page 25: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Schatzung der Fehlervarianz

Satz 4.2.10Unter den Voraussetzungen fur Modell 4.2.8 gilt:Die Fehlervarianz Var[εi ] = σ2 kann geschatzt werden durch

σ2 = s2Rest =1

n − 2SSR =

1

n − 2

n∑i=1

(yi − yi )2 .

Der Schatzwert ist die Realisierung der erwartungstreuen Schatzfunktion

σ2 = S2Rest =

1

n − 2SSR =

1

n − 2

n∑i=1

(Yi − Yi )2 .

(Der Nenner n − 2 gewahrleistet die Erwartungstreue, d.h.Unverzerrtheit, des Schatzers und hangt damit zusammen, dass 2Parameter geschatzt werden und nicht als bekannte Werte vorliegen.)

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 25

Page 26: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Tests fur die Parameter a und b

Satz 4.2.11Unter den Voraussetzungen fur Modell 4.2.8 gelten:

I Hypothesen: H0 : a = a0, HA : a 6= a0bzw. H0 : b = b0, HA : b 6= b0 .

I Testwerte: t =a− a0sa

mit s2a =(1n + x2∑n

i=1(xi−x)2

)σ2

bzw. t =b − b0sb

mit s2b = σ2∑ni=1(xi−x)2

.

Die dazugehorigen Testgroßen sind unter H0 t−verteilt mit n − 2Freiheitsgraden.

I Kritischer Bereich zum Niveau α: K = {t ∈ R : |t| > tn−2;1−α/2} .

I Analog konnen einseitige Tests durchgefuhrt werden.

I Unter den angegebenen Bedingungen gelten

Var[A]

=

(1

n+

x2∑ni=1(xi − x)2

)σ2, Var

[B]

=σ2∑n

i=1(xi − x)2.

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 26

Page 27: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Konfidenzintervalle fur die Parameter

Satz 4.2.12Unter den Voraussetzungen fur Modell 4.2.8 gelten:

I Ein Konfidenzintervall fur a zum Niveau 1− α ist

[a− satn−2;1−α/2; a + satn−2;1−α/2] .

I Ein Konfidenzintervall fur b zum Niveau 1− α ist

[b − sbtn−2;1−α/2; b + sbtn−2;1−α/2] .

I Ein Konfidenzintervall fur die Fehlervarianz σ2 zum Niveau 1−α ist[(n − 2)σ2/χ2

n−2;1−α/2; (n − 2)σ2/χ2n−2;α/2

].

I Simultane Konfidenzintervalle zum Niveau 1− α sind die folgenden.Das erste Intervall uberdeckt a, das zweite b, wobei insgesamt dasNiveau 1− α eingehalten wird:[

a−√

2s2aF2;n−2;1−α; a +√

2s2aF2;n−2;1−α

],[

b −√

2s2bF2;n−2;1−α; b +√

2s2bF2;n−2;1−α

].

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 27

Page 28: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Konfidenzintervalle fur die Regressionsgerade

I Haufig mochte man jedoch Konfidenzintervalle fur den Wert derRegressionsgerade an einer Stelle x (oder fur ein Intervall vonx−Werten) bestimmen, d.h. fur E[Y (x)] = a + bx .

I Satz 4.2.13Ein solches Konfidenzintervall zum Niveau 1− α kann unter denVoraussetzungen fur Modell 4.2.8 berechnet werden durch

[y(x)− d ; y(x) + d ] mit y(x) = a + bx und

d = sRest · tn−2,1−α/2

√1

n+

(x − x)2∑ni=1(xi − x)2

.

I Fur unterschiedliche Werte x erhalt man unterschiedliche Abstandezwischen der oberen und unteren Grenze. Fur alle x−Wertebetrachtet ergibt sich ein Konfidenzstreifen (Konfidenzschlauch), deran der Stelle x = x am schmalsten ist.

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 28

Page 29: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Prognoseintervalle fur Y (x)

I Berechnet man ein zufalliges Intervall, welches mit einervorgegebenen Wahrscheinlichkeit 1− α eine Realisierung vonY (x) = a + bx + ε(x) uberdeckt, erhalt man ein sogenanntesPrognoseintervall fur Y (x) zum Niveau 1− α .

I Satz 4.2.14Ein solches Prognoseintervall zum Niveau 1− α kann unter denVoraussetzungen fur Modell 4.2.8 berechnet werden durch

[y(x)− d ; y(x) + d ] mit y(x) = a + bx und

d = sRest · tn−2,1−α/2

√1 +

1

n+

(x − x)2∑ni=1(xi − x)2

.

I Bei Betrachtung beliebiger x−Werte erhalt man wieder einenStreifen um die Regressionsgerade, den Prognosestreifen. Er istbreiter als der zugehorige Konfidenzstreifen zum selben Niveau.

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 29

Page 30: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Konfidenzstreifen fur Loslichkeitsdaten von NaNO3

Bsp. 4.2.15 Regressionsgerade (blau), Konfidenzstreifen (rot),Prognosestreifen (grun), Mittelwertlinie (grau) fur Daten aus Bsp. 4.1.1(Konfidenzniveau 0.95)

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 30

Page 31: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Einfache lineare Regression durch den Koordinatenursprung

Bem. 4.2.16

I Bei bestimmten Problemstellungen ist es sinnvoll zu fordern, dassdie Regressionsgerade durch den Koordinatenursprung geht. Manspricht dann auch von einer Regression ohne Absolutglied oder einereigentlich-linearen Regression.

I Man erhalt nun als Modellansatz

Yi = b xi + εi , i = 1, . . . , n ;

als Schatzung fur den Parameter b

b =

∑ni=1 xiyi∑ni=1 x

2i

und als Schatzung fur die Varianz der zufalligen Fehler

σ2 =1

n − 1

n∑i=1

(yi − yi )2 mit yi = b xi .

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 31

Page 32: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Regressionsgerade durch den Nullpunkt im Beispiel 4.2.5

Regressionsgerade: y = 0.009998x .

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 32

Page 33: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Residuenplot zum Beispiel 4.2.5 lin. Regression durch 0

Bestimmtheitsmaß: B = 0.9855 .

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 33

Page 34: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Residualanalyse zur Uberprufung des Modells

Bem. 4.2.17

I Durch eine Analyse der Residuen ist eine Uberprufung derModellannahmen moglich, z.B. bei der linearen Einfachregression.

I Zu den Modellannahmen gehoren sowohl die Wahl der Klasse derRegressionsfunktionen als auch die Annahmen an die zufalligenFehler: der Typ der Verteilung (oft Normalverteilung) und derenParameter (Erwartungswerte gleich Null und konstante Varianzen –Homoskedastizitat) und Unabhangigkeit.

I Ist der Modellansatz, z.B. die Annahme einer Normalverteilung furdie zufalligen Fehler εi , i = 1, . . . , n , richtig, dann sind die Residuenεi = Yi − yi approximativ unabhangig und identisch normalverteilt.

I Die Uberprufung der Modellannahmen mit Hilfe der Residuen kanndurch statistische Tests erfolgen (z.B. Verteilungstests). Hinweisekann auch eine grafische Analyse liefern.

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 34

Page 35: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Grafische Analyse der Residuen - Heteroskedastizitat

Bem. 4.2.18Bei bestimmten typischen Mustern in den Grafiken kann man dann unterUmstanden auf spezielle Modellfehler schliessen.

⇒ Vermutung, dass Fehlerzufallsgroßen unterschiedliche Varianzenbesitzen (Heteroskedastizitat).

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 35

Page 36: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Grafische Analyse der Residuen

⇒ Vermutung: Fehlspezifikationder Regressionsfunktion, z.B. qua-dratische Regression oder Struk-turbruch.

⇒ Vermutung: richtige Spezi-fikation des Regressionsmodellsund Homoskedastizitatsannahmeerfullt.

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 36

Page 37: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Verschiedene Residuendarstellungen

Bem. 4.2.19Die grafische Darstellung der Residuen kann z.B. bezuglich derFallnummern, der xi−Werte oder der geschatzten Werte yi erfolgen.

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 37

Page 38: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

4.3 Multiple parameterlineare Regression

Bem. 4.3.1

I Im Folgenden soll die Abhangigkeit eines Regressanden (einerWirkungsgroße oder einer endogenenen Variablen) Y von mehrerenRegressoren (Einflussgroßen oder exogenen Variablen) X1, . . . ,Xm

beschrieben werden, d.h. es soll gelten

Y ≈ f (X1, . . . ,Xm)

mit einer geeigneten Funktion f : Rm → R .

I Wir werden wieder annehmen, dass die Regressoren deterministischsind (z.B. mit exakt einstellbaren Werten) und dies durch kleineBuchstaben x1, . . . , xm in den Gleichungen kennzeichnen.

I Man erhalt dann als Modellgleichung

Y (x1, . . . , xm) = f (x1, . . . , xm) + ε

mit einem zufalligen Fehler ε = ε(x1, . . . , xm) .

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 38

Page 39: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Beispiele fur parameterlineare Ansatze

Bsp. 4.3.2

I Haufig werden bei solchen Aufgabenstellungen parameterlineareAnsatze verwendet, d.h. man setzt eine Beziehung

Y (x1, . . . , xm) = a1f1(x1, . . . , xm) + . . .+ ar fr (x1, . . . , xm) + ε

mit speziell gewahlten, bekannten Funktionen f1, . . . , fr und zubestimmenden Koeffizienten (Parametern) a1, . . . , ar voraus.

I Im eigentlich nichtmultiplen Fall m = 1 (nur eine Einflussgroße)gilt bei der polynomiellen Regression vom Grade k

Y (x) = a0 + a1x + . . .+ akxk + ε .

I Der m−faktorielle Ansatz ohne Wechselwirkungen

Y (x1, . . . , xm) = a0 + a1x1 + . . .+ amxm + ε

definiert die Ausgleichsebene (ebene Regression).

I Bem.: Eine Gleichung y = a0 + a1x1 + . . .+ amxm definiert eine(Hyper-)Ebene im (m + 1)−dimensionalen Raum.

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 39

Page 40: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Fortsetzung Beispiele fur parameterlineare Ansatze

I Als Beispiel eines m−faktoriellen Ansatzes mit Wechselwirkungenwerde hier noch der Fall einer multiplen quadratischen Regressionvorgestellt:

Y (x1, . . . , xm) = a0 + a1x1 + . . .+ amxm

+ a12 x1x2 + . . .+ am−1,m xm−1xm

+ a11 x21 + . . .+ amm x2m

+ ε .

I Auch hohere Polynomgrade oder andere Funktionen der Variablenx1, . . . , xm sind moglich und werden auch verwendet.

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 40

Page 41: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Regressionsansatz in Vektorschreibweise

Bem. 4.3.3

I Analog zu fruheren Ausfuhrungen ist es vorteilhaft, dieVektorschreibweise zu nutzen. Es seien

x = (x1, . . . , xm)T =

x1...xm

, a = (a1, . . . , ar )T =

a1...ar

,

f(x) = (f1(x), . . . , fr (x))T =

f1(x)...

fr (x)

.

I Der parameterlineare Ansatz kann dann geschrieben werden als

Y (x) = aTf(x) + ε(x) . (1)

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 41

Page 42: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Die Methode der kleinsten Quadrate

Bem. 4.3.4I Sind die (zufallsbeeinflussten)

”Wirkungen“ yi fur i = 1, . . . , n an

den”Einflussstellen“ xi = (xi1, . . . , xim)T durch Messungen

bestimmt worden, kann man mit Hilfe der Methode der kleinstenQuadrate eine geeignete Schatzung a des Vektors a derRegressionskoeffizienten im parameterlinearen Ansatz (1) finden.

I Die Schatzung a ist ein Vektor von Regressionskoeffizienten a , fur

denn∑

i=1

(yi − aTf(xi )

)2minimal wird.

I Die geschatzte Regressionsfunktion ist dann

y(x) = a1f1(x) + . . .+ ar fr (x) = aTf(x) = f(x)Ta .I Im Weiteren genutzte Bezeichnungen sind y = (y1, . . . , yn)T und

f = (f(x1), . . . , f(xn))T =

f1(x1) . . . fr (x1)...

. . ....

f1(xn) . . . fr (xn)

.

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 42

Page 43: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Das Normalgleichungssystem

Satz 4.3.5

I Die Schatzung a des Vektors a der Regressionskoeffizienten kanndann mit Hilfe des Normalgleichungssystems gefunden werden:

fTf a = fTy . (2)

Dies ist ein lineares Gleichungssystem zur Bestimmung derKomponenten von a .

I Ist die Matrix fTf regular, dann ist (2) eindeutig auflosbar und esgilt

a =(

fTf)−1

fTy . (3)

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 43

Page 44: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Eigenschaften der Schatzung

Satz 4.3.6Unter der Annahme, dass die beobachteten Werte yi Realisierungen derZufallsgroßen

Yi = a1f1(xi ) + . . .+ ar fr (xi ) + εi

sind, wobei die zufalligen Fehler εi unabhangige normalverteilteZufallsgroßen mit Erwartungswert 0 und konstanter Varianz σ2

sind, ist die Schatzung a aus (3) erwartungstreu und konsistent.

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 44

Page 45: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Beispiel

Bsp. 4.3.7Bearbeitungszeit y , Durchmesser x1 und Lange x2 von Werkstucken(Quelle: Hartung, Elpelt, Klosener, Statistik – Lehr- undHandbuch der angewandten Statistik, Oldenbourg Verlag, 2009, Kap. 10,Tab. 9)

I Daten:

y 24 28 25 13 27 14 15 32 14 28

x1 4 6 5 3 5 3 3 6 4 5

x2 31 3 7 29 27 18 28 17 8 12

I Gleichung der Regressionsebene

y = −12.3787 + 6.8289x1 + 0.2406x2 .

I Bestimmheitsmaß: B = 0.9253 .

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 45

Page 46: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Beobachtete versus geschatzte Werte im Beispiel 4.3.7

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 46

Page 47: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Residuenplot zum Beispiel 4.3.7

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 47

Page 48: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Streuungszerlegung

Beh. und Def. 4.3.8

I Wie im Fall der einfachen linearen Regression gilt fur denparameterlinearen Ansatz die Quadratsummenzerlegung(Streuungszerlegung) SST = SSE + SSR (bei Schatzung derRegressionskoeffizienten mit der Methode der kleinsten Quadrate).

I Dabei sind wieder

SST =n∑

i=1

(yi − y)2, die Totalvariabilitat (Totalvarianz);

SSE =n∑

i=1

(yi − y)2, die”erklarte“ Variabilitat (erklarte Varianz);

SSR =n∑

i=1

(yi − yi )2, die Restvariabilitat (Restvarianz).

I Das Bestimmtheitsmaß ist B = SSESST = 1− SSR

SST = r2Y |(f1(X),...,fr (X))

(multipler Korrelationskoeffizient).

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 48

Page 49: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Schatzung der Fehlervarianz

Bem. 4.3.9

I Eine konstante Varianz der zufalligen Fehler εi (und damit derZufallsgroßen Y (xi ) kann analog zum Fall der einfachen linearenRegression durch

σ2 = s2Rest =SSR

n − r

geschatzt werden. Der Nenner n− r ist durch die Schatzung von rParametern bedingt.

I Fur die folgenden Aussagen zu Konfidenzschatzungen und Testssetzen wir wieder voraus, dass die zufalligen Fehler εiunabhangige normalverteilte Zufallsgroßen mitErwartungswert 0 und konstanter Varianz σ2 sind.

I Mit mi wird in den nachsten Folien das i−te Diagonalelement derMatrix (fTf)−1 bezeichnet.

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 49

Page 50: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Konfidenzschatzungen

Bem. 4.3.10

I Konfidenzintervall zum Niveau 1− α fur die Komponente ai von a :

I =

[ai − tn−r ;1−α/2

√s2Restmi ; ai + tn−r ;1−α/2

√s2Restmi

].

I Konfidenzintervall zum Niveau 1− α fur die Regressionsfunktionf(x)Ta :

I =

[f(x)Ta− tn−r ;1−α/2

√s2Restf(x)T(fTf)−1f(x) ;

f(x)Ta + tn−r ;1−α/2

√s2Restf(x)T(fTf)−1f(x)

].

I Auch Prognoseintervalle konnen konstruiert werden.

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 50

Page 51: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

t−Test fur die einzelnen Parameter

Bem. 4.3.11

I Hypothesen: H0 : ai = a(0)i , HA : ai 6= a

(0)i .

I Testgroße: T =ai − a

(0)i√

s2Restmi

.

Diese Testgroße ist unter H0 t−verteilt mit n− r Freiheitsgraden.

I Kritischer Bereich zum Niveau α :

K = {t ∈ R : |t| > tn−r ;1−α/2 } .

I Analog konnen einseitige Tests durchgefuhrt werden.

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 51

Page 52: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

F−Test fur das Modell (Varianzanalyse)

Bem. 4.3.12

I Wir setzen voraus, dass f1(x) = 1 gilt, d.h. a1 ist die Konstanteim Modell.

I Hypothesen: H0 : a2 = . . . = ar = 0 , HA : ai 6= 0 fur ein i > 1 .

I Testgroße: T =MSE

MSRmit MSE =

SSE

r − 1, MSR =

SSR

n − r.

Diese Testgroße ist unter H0 F−verteilt mit (r − 1; n − r)Freiheitsgraden.

I Kritischer Bereich zum Niveau α :

K = {t ∈ R : t > Fr−1;n−r ;1−α } .

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 52

Page 53: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

t−Test bezuglich der ganzen Regressionsfunktion

Bem. 4.3.13 Bem.

I Hypothesen: H0 : dTa = c , HA : dTa 6= c

mit gegebenem Vektor d und reeller Zahl c .

I Testgroße: T =dTa− c√

s2RestdT(fTf)−1d

.

Diese Testgroße ist unter H0 t−verteilt mit n − r Freiheitsgraden.

I Kritischer Bereich zum Niveau α :

K = {t ∈ R : |t| > tn−r ;1−α/2 } .I Setzt man insbesondere d = f(x) fur einen bestimmten Vektor x

der Regressoren, so kann man damit testen, ob der Wert derRegressionsfunktion f (x) = aTf(x) an der Stelle x signifikant vonc abweicht.

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 53

Page 54: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

F−Test zur Modelluberprufung

Bem. 4.3.14

I Allgemein gilt, dass bei großen Werten der Restvarianz (derRestquadratsumme) das gewahlte Modell schlecht ist.

I Ist eine gute Anpassung aber moglich, dann interessiert oft dieFrage, ob auch schon ein

”kleineres“ Modell, d.h. ein Modell mit

einer geringeren Anzahl von Ansatzfunktionen adaquat ist. Dieseskann fur ein gewahltes

”großes“ Modell (rg Ansatzfunktionen,

Restquadratsumme SSRg ) und ein gewahltes”kleines“ Modell (rk

Ansatzfunktionen, Restquadratsumme SSRk) mit Hilfe einesF−Tests uberpruft werden.

I Hypothesen: H0 : kleines Modell ist ausreichend ,HA : kleines Modell ist nicht ausreichend .

I Testgroße: T =n − rgrk

SSRk − SSRg

SSRg.

I Kritischer Bereich (Niveau α): K = {t ∈ R : t > Frk ;n−rg ;1−α}.

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 54

Page 55: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

4.4 Erganzungen

Bem. 4.4.1

I Gehen die zu bestimmenden Parameter nichtlinear in dieModellgleichung der Regressionsfunktion ein, muss dies bei Nutzungder Methode der kleinsten Quadrate entstehendeMinimierungsproblem mit Hilfe anderer, nichtlinearer Methoden,gelost werden.

I In der Chemometrie hat man es ofters mit vielen Merkmalen (undnicht so vielen Beobachtungen) zu tun. In diesen Fallen kann zumBeispiel die Hauptkomponentenregression oder die Methode derpartiellen kleinsten Quadrate (”partial least squares regression”,”PLS regression”) genutzt werden.

I Bei diesen Methoden werden als Regressoren nicht die urprunglichenMerkmale genutzt, sondern wenige, gut geeignete latente Variablen,die wieder linear mit den Beobachtungsvariablen zusammenhangen.

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 55

Page 56: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Beispielanwendung: Datensatz ”gasoline”

Bsp. 4.4.2

I Die Nutzung des R-Paketes ”pls” wird z.B. in Mevik, Wehrens,Introduction to the pls Package, 2016, beschrieben.

I Ein Beispiel ist der Datensatz ”gasoline”, wobei die Oktanzahl durchgeeignete latente Variablen, basierend auf den NIR-Spektrenwerten,beschrieben werden sollen.

I Beispielhaft wird eine PLS-Regression mit 10 Komponentenberechnet.

I Die Werte der Anteile der erklarten Varianzen fur die Gesamtdatendurch die berechneten Komponenten betragen

1 2 3 4 5 6 7 8 9 10

78.2 7.4 7.8 2.7 0.88 0.95 0.49 0.47 0.17 0.17

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 56

Page 57: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

RMSEP-Grafik Beispiel 4.4.2

(RMSEP: Root Mean Squared Error of Prediction)

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 57

Page 58: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Beobachtete versus geschatzte Werte im Beispiel 4.4.2

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 58

Page 59: Versuchsplanung und multivariate Statistik file4 Lineare und nichtlineare Modellierung I In den Naturwissenschaften und ihren Anwendungen m ussen oft Zusammenh ange zwischen verschiedenen

Ladungen im Beispiel 4.4.2, erste 2 Komponenten

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 59