72
CE071 - Análise de Regressão Linear Cesar Augusto Taconeli 21 de março, 2018 Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 1 / 72

CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

CE071 - Análise de Regressão Linear

Cesar Augusto Taconeli

21 de março, 2018

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 1 / 72

Page 2: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Aula 2 - Regressão linear simples

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 2 / 72

Page 3: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Definição e propriedades

O modelo de regressão linear simples é definido por uma reta queestabelece a relação entre uma variável resposta y e uma única variávelexplicativa x , da seguinte forma:

y = β0 + β1x + ε, (1)

em que β0 é o intercepto e β1 a inclinação da reta, e ε representa o erroaleatório.

Usualmente assumimos que os erros tem média zero e variância(desconhecida) constante, isso é, E (ε) = 0 e Var(ε) = σ2.Adicionalmente, vamos supor que os erros associados a diferentesobservações sejam não correlacionados, o que implica Cov(εi , εi ′) = 0.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 3 / 72

Page 4: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Definição e propriedades

Condicional a um valor observado x , a média da distribuição de y ficadada por:

E (y |x) = β0 + β1x . (2)

A variância de y , condicional a x , é dada por:

Var(y |x) = σ2. (3)

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 4 / 72

Page 5: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Definição e propriedades

●●

●●

●●

●●

x

y

εi=yi−β0−β1xi

E(y|x) = β0+β1x

xi

yi

Figura 1: Regressão linear simples.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 5 / 72

Page 6: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Definição e propriedades

Interpretação dos parâmetros do modelo:β1 expressa a alteração no valor esperado de y associada ao acréscimode uma unidade em x ;β0 é o valor esperado de y quando x = 0 (caso x = 0 faça parte dosuporte do problema).

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 6 / 72

Page 7: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Definição e propriedades

β0

x x + 1

β1

E(y|x) = β0+β1x

Figura 2: Interpretação dos parâmetros.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 7 / 72

Page 8: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Estimação por mínimos quadrados

A estimação de β0 e β1 por mínimos quadrados baseia-se em nobservações para as quais se dispõe dos valores de x e y , ou seja,(x1, y1), (x2, y2),. . . , (xn, yn):

yi = β0 + β1xi + εi , i = 1, 2, ..., n. (4)

O método de mínimos quadrados baseia-se na determinação de β0 e β1tal que a soma de quadrados dos erros, definida na sequência, sejamínima:

S = S(β0, β1) =n∑

i=1(yi − β0 − β1xi )2. (5)

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 8 / 72

Page 9: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Estimação por mínimos quadrados

Exemplo 1Os dados a seguir referem-se às alturas de plantas (y , em centímetros) comdiferentes idades (x, em semanas).

Idade (x) 1 2 3 4 5 6 7Altura (y) 5 13 16 23 33 38 40

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 9 / 72

Page 10: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Estimação por mínimos quadrados

1 2 3 4 5 6 7

0

10

20

30

40

Idade da planta (semanas)

Altu

ra (

cm)

Figura 3: Gráfico de dispersão para os dados das plantas.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 10 / 72

Page 11: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Estimação por mínimos quadrados

−1.5

−1.0

−0.5

0.0

0.5

4

5

6

78

200

400

600

β1

β0

SQE

0

100

200

300

400

500

600

700

800

Figura 4: Ilustração da estimação por mínimos quadrados.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 11 / 72

Page 12: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Estimação por mínimos quadrados

Observando a figura 4, as estimativas de mínimos quadrados para β0 eβ1 (denotadas por β0 e β1) correspondem aos valores de β0 e β1 taisque SQE seja mínimo.Para o presente problema, as estimativas de mínimos quadrados sãodadas por β0 = −0.57 e β1 = 6.14.O modelo ajustado é usualmente expresso da seguinte forma:

y = −0.57 + 6.14x , (6)

em que y denota a altura predita pelo modelo para uma planta com idade x .

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 12 / 72

Page 13: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Estimação por mínimos quadrados

1 2 3 4 5 6 7

0

10

20

30

40

Idade da planta (semanas)

Altu

ra (

cm)

Figura 5: Gráfico de dispersão para os dados das plantas com a reta de regressãode mínimos quadrados.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 13 / 72

Page 14: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Estimação por mínimos quadrados

Os estimadores de mínimos quadrados devem satisfazer:

∂S∂β0

∣∣∣β0,β1

= −2n∑

i=1

(yi − β0 − β1xi

)= 0; (7)

∂S∂β1

∣∣∣β0,β1

= −2n∑

i=1

(yi − β0 − β1xi

)xi = 0. (8)

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 14 / 72

Page 15: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Estimação por mínimos quadrados

A solução do sistema apresentado resulta nos seguintes estimadores demínimos quadrados:

β0 = y − β1x (9)

e

β1 =∑

(xi − x) (yi − y)∑(xi − x)2 =

∑(xi − x)∑(xi − x)2 yi . (10)

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 15 / 72

Page 16: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Estimação por mínimos quadrados

O modelo de regressão linear simples ajustado pode ser representado,genericamente, da seguinte forma:

y = β0 + β1x . (11)

A diferença entre o valor observado e o valor ajustado para umaparticular observação é definido resíduo:

ri = yi − yi = yi − β0 − β1xi , i = 1, 2, ..., n. (12)

Ao contrário dos erros, resíduos podem ser calculados, e sãoimportantes para a checagem da qualidade do ajuste.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 16 / 72

Page 17: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Propriedades dos estimadores de mínimos quadrados

Os estimadores de mínimos quadrados são combinações lineares dosy ′s;Os estimadores de mínimos quadrados são não viciados em relação aosrespectivos parâmetros:

E (β0) = β0; E (β1) = β1. (13)

As variâncias de β1 e β0 são dadas, respectivamente, por:

Var(β1) = σ2∑ni=1(xi − x)2 ; (14)

Var(β0) = σ2(1n + x2∑n

i=1(xi − x)2

). (15)

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 17 / 72

Page 18: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Propriedades dos estimadores de mínimos quadrados

Teorema de Gauss MarkovSatisfeitas as suposições assumidas para a distribuição dos erros, osestimadores de mínimos quadrados tem menor variância que quaisqueroutros estimadores não viciados que sejam combinações lineares dos y ′s.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 18 / 72

Page 19: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Estimação de σ2

A estimação de σ2 é necessária para avaliar a precisão de β0 e β1,construir intervalos de confiança e executar testes de hipóteses.O estimador usual de σ2 é baseado na soma de quadrados de resíduos:

SQRes =n∑

i=1(yi − yi )2. (16)

Como o valor esperado de SQRes é (n − 2)σ2, um estimador nãoviciado de σ2 é dado por:

σ2 = SQResn − 2 = QMRes. (17)

Por depender da soma de quadrados de resíduos, a especificaçãoincorreta do modelo compromete o uso de σ2 na estimação de σ2.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 19 / 72

Page 20: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Regressão com dados centrados

Uma forma alternativa de conduzir a análise de regressão éconsiderando os desvios da variável explicativa em torno de sua média:

yi = β′0 + β′1(xi − x) + εi . (18)

O efeito de centrar os valores de xi em torno de x é deslocar a origemdos x ′s de zero para x .

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 20 / 72

Page 21: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Regressão com dados centrados

Como resultado, apenas o intercepto do modelo fica alterado paraβ′0 = β0 + β1x , em que β0 e β1 são os parâmetros do modelo com avariável x não centrada.

O estimador de mínimos quadrados de β′0 fica dado por y , e oestimador de β1 não é afetado pela transformação. Portanto, o modeloajustado fica dado por:

y = y + β1(x − x) (19)

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 21 / 72

Page 22: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Testes de hipóteses e intervalos de confiança paraos parâmetros do modelo

Neste ponto teremos que assumir, adicionalmente, que os erros sãonormalmente distribuídos (isto é, os erros são independentes comε ∼ Normal(0, σ2)).

A suposição de que os erros têm distribuição Normal implicay |x ind∼ Normal(β0 + β1x , σ2).

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 22 / 72

Page 23: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Testes de hipóteses e intervalos de confiança paraos parâmetros do modelo

Como β1 é uma combinação linear dos y’s, decorre que também β1tem distribuição Normal:

β1 ∼ Normal(β1,

σ2∑ni=1(xi − x)2

). (20)

De maneira semelhante:

β0 ∼ Normal(β0, σ

2[1n + x2∑n

i=1(xi − x)2

])(21)

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 23 / 72

Page 24: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Testes de hipóteses e intervalos de confiança paraos parâmetros do modelo

A distribuição conjunta dos estimadores de mínimos quadrados é dadapor:

(β0β1

)∼ N2

[β0β1

],

σ2(

1n + x2∑n

i=1(xi−x)2

)−xσ2∑n

i=1(xi−x)2

−xσ2∑ni=1(xi−x)2

σ2∑ni=1(xi−x)2

, (22)

em que Cov(β0, β1) = −xσ2∑ni=1(xi−x)2 e N2 denota a distribuição Normal

bivariada.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 24 / 72

Page 25: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Testes de hipóteses e intervalos de confiança para β1

Vamos considerar o teste de que β1 é igual a um particular valorpostulado constante β10:

H0 : β1 = β10 vs H1 : β1 6= β10. (23)

Então, sob a hipótese H0 (ou seja, assumindo que β1 = β10:

Z = β1 − β10√σ2∑n

i=1(xi−x)2

∼ Normal(0, 1). (24)

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 25 / 72

Page 26: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Testes de hipóteses e intervalos de confiança para β1

Como σ2 geralmente é desconhecido, ele usualmente é estimadousando o seguinte estimador:

σ2 =∑n

i=1(yi − yi )2

n − 2 = SQResn − 2 = QMRes. (25)

O estimador σ2 é não viciado e consistente na estimação de σ2. Alémdisso, sua distribuição, sob as especificações do modelo, é dada por:

(n − 2)σ2

σ2 ∼ χn−2, (26)

em que χ2 denota a distribuição qui-quadrado com n− 2 graus de liberdade.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 26 / 72

Page 27: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Testes de hipóteses e intervalos de confiança para β1

Substituindo σ2 por σ2 em (24), temos:

t = β1 − β10√σ2∑n

i=1(xi−x)2

∼ tn−2, (27)

em que tn−2 representa a distribuição t-Student com n − 2 graus deliberdade.

Com base no resultado (30) pode-se conduzir o teste da hipóteseH0 : β1 = β10.

Fixando o nível de significância em α, H0 será rejeitada se|t| > |tn−2;α/2|, em que tn−2;α/2 é o quantil α/2 da distribuição tn−2.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 27 / 72

Page 28: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Testes de hipóteses e intervalos de confiança para β1

O nível descritivo (valor-p) do teste fica definido por:

p = 2× P(X > |t|), em que X ∼ tn−2. (28)

Um intervalo de confiança 100(1− α)% para β1 é definido pelo par delimites:

β1 ∓ tn−2;α/2

√σ2∑n

i=1(xi − x)2 . (29)

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 28 / 72

Page 29: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Teste da significância da regressão

Uma importante hipótese a ser testada é H0 : β1 = 0 vs H0 : β1 6= 0.

Chamamos esse teste de teste da significância da regressão linearsimples.

Neste caso, a estatística do teste fica dada por:

t = β1√σ2∑n

i=1(xi−x)2

∼ tn−2, , (30)

que será rejeitada, a um nível de significância α, se |t| > |tn−2;α/2|

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 29 / 72

Page 30: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Teste da significância da regressão

É importante ressaltar que a não rejeição de H0 : β1 = 0 permiteconcluir que não há relação linear entre y e x , mas não que não setenha relação entre as variáveis.

Além disso, ainda que H0 seja rejeitada, isso não implica que ummodelo não linear (como um polinômio, por exemplo), seja maisadequado para explicar a relação entre as variáveis.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 30 / 72

Page 31: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Testes de hipóteses e intervalos de confiança para β0

De maneira similar, considere H0 : β0 = β00 vs H1 : β0 6= β00 um par

de hipóteses postuladas para o intercepto do modelo.Sob as suposições do modelo:

t = β0 − β00√σ2(

1n + x2∑n

i=1(xi−x)2

) ∼ tn−2, (31)

sob a suposição de que a hipótese nula é verdadeira.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 31 / 72

Page 32: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Testes de hipóteses e intervalos de confiança para β0

Fixando o nível de significância em α, novamente H0 será rejeitada se|t| > |tn−2;α/2|, em que tn−2;α/2 é o quantil α/2 da distribuição tn−2.

Um intervalo de confiança 100(1− α)% para β0 é definido pelo par delimites:

β0 ∓ tn−2;α/2

√σ2(1

n + x2∑ni=1(xi − x)2

)(32)

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 32 / 72

Page 33: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Intervalo de confiança para σ2

Um intervalo de confiança 100(1− α)% para σ2 pode ser obtido combase na distribuição qui-quadrado (χ2):

(n − 2)σ2

χ2n−2;1−α/2

; (n − 2)σ2

χ2n−2;α/2

, (33)

em que χ2n−2;α/2 e χ2

n−2;1−α/2 são os quantis α/2 e 1− α/2 da distribuiçãoqui-quadrado com n − 2 graus de liberdade.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 33 / 72

Page 34: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Intervalo de confiança para a resposta média

Suponha que se deseja estimar a média de y para um particular valorx = x0.A estimativa pontual pode ser calculada por:

µy |x0 = E (y |x = x0) = β0 + β1x0. (34)

Como β0 e β1 têm distribuição Normal, µy |x0 também é normalmentedistribuído (pois é uma combinação linear de β0 e β1).A variância de µy |x0 é dada por:

Var(µy |x0) = σ2(1n + (x0 − x)2∑n

i=1(xi − x)2

). (35)

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 34 / 72

Page 35: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Intervalo de confiança para a resposta média

O intervalo de confiança para µy |x0 baseia-se na seguinte distribuiçãoamostral:

µy |x0 ∼ Normal(µy |x0 ,

√σ2(1

n + (x0 − x)2∑ni=1(xi − x)2

))(36)

Substituindo σ2 por σ2 = QMRes:

µy |x0 − µy |x0√σ2(

1n + (x0−x)2∑n

i=1(xi−x)2

) ∼ tn−2 (37)

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 35 / 72

Page 36: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Intervalo de confiança para a resposta média

Dessa forma, o intervalo de confiança 100(1− α)% para a média de yquando x = x0 tem limites:

µy |x0 ∓ tn−2;α/2

√σ2(1

n + (x0 − x)2∑ni=1(xi − x)2

)(38)

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 36 / 72

Page 37: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Predição de uma nova observação

Seja y0 a predição de uma nova observação para um particular valorx = x0. A estimativa pontual é a mesma de µy |x0 :

y0 = β0 + β1x0 (39)

A variância de y0, no entanto, é dada por:

var(y0) = Var(µy |x0) + var(y0|µy |x0 = µy |x0) =

σ2(1n + (x0 − x)2∑n

i=1(xi − x)2

)+ σ2 =

σ2(1 + 1

n + (x0 − x)2∑ni=1(xi − x)2

).

(40)

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 37 / 72

Page 38: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Predição de uma nova observação

Um intervalo de predição 100(1− α)% para uma observação futura emx0 tem os seguintes limites:

y0 ∓ tn−2;α/2

√σ2(1 + 1

n + (x0 − x)2∑ni=1(xi − x)2

)(41)

Em problemas de regressão linear com apenas uma variável explicativa,é comum representar graficamente o modelo de regressão ajustadoacompanhado das bandas de confiança para a média e bandas depredição para observações futuras.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 38 / 72

Page 39: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Estimação por máxima verossimilhança

A estimação de β0 e β1 por máxima verossimilhança baseia-se,novamente, em n observações para as quais se dispõe dos valores de xe y , ou seja, (x1, y1), (x2, y2),. . . , (xn, yn):Vamos assumir ε ∼ N(0, σ2), tal que y |x ∼ N(β0 + β1x , σ2).Assumindo que os erros sejam independentes, a função deverossimilhança fica dada pelo produto da f.d.p. normal avaliada nas nobservações:

L(β0, β1, σ2; y , x) =

n∏i=1

(2πσ2

)−1/2exp

[− 12σ2 (yi − β0 − β1xi )2

]

=(2πσ2

)−n/2exp

[− 12σ2

n∑i=1

(yi − β0 − β1xi )2] (42)

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 39 / 72

Page 40: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Estimação por máxima verossimilhança

Dessa forma, a função de log-verossimilhança fica dada por:

ln L(β0, β1, σ2; y , x) = −n

2 ln 2π− n2 lnσ2− 1

2σ2

n∑i=1

(yi −β0−β1xi )2 (43)

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 40 / 72

Page 41: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Estimação por máxima verossimilhança

Os estimadores de máxima verossimilhança devem satisfazer a:

∂S∂β0

∣∣∣β0,β1,σ2

lnL(β0, β1, σ2; y , x) = 0;

∂S∂β1

∣∣∣β0,β1,σ2

lnL(β0, β1, σ2; y , x) = 0;

∂S∂σ2

∣∣∣β0,β1,σ2

lnL(β0, β1, σ2; y , x) = 0.

(44)

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 41 / 72

Page 42: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Estimação por máxima verossimilhança

Observe que maximizar ln L(β0, β1, σ2; y , x) com relação a β0 e β1

equivale a maximizar −∑n

i=1(yi − β0 − β1xi )2 = −SQE em funçãodesses parâmetros;

Lembre que na estimação por mínimos quadrados a obtenção dosestimadores dos parâmetros do modelo era obtida pela minimização deSQE =

∑ni=1(yi − β0 − β1xi )2;

Uma vez que minimizar SQE é equivalente a maximizar −SQE , osestimadores de máxima verossimilhança para β0 e β1 são idênticos aosde mínimos quadrados.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 42 / 72

Page 43: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Estimação por máxima verossimilhança

O estimador de máxima verossimilhança de σ2, por sua vez, é dado por:

σ2ML =

∑ni=1

(yi − β0 − β1xi

)2

n , (45)

que, diferentemente do estimador estudado anteriormente, é viciado para σ2

(mas assintoticamente não viciado).

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 43 / 72

Page 44: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Análise de variância aplicada à regressão linearsimples

A análise de variância é uma técnica que permite particionar a variaçãototal dos dados em parcelas atribuíveis a diferentes fontes.

No contexto de regressão, a análise de variância baseia-se na seguinteidentidade:

yi − y = (yi − y) + (yi − yi ), i = 1, 2, ..., n. (46)

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 44 / 72

Page 45: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Análise de variância aplicada à regressão linearsimples

Figura 6: Decomposição da variação dos dados na regressão linear simples.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 45 / 72

Page 46: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Análise de variância aplicada à regressão linearsimples

Para um conjunto de n observações, a variabilidade total dos dados(em torno da média) pode ser decomposta da seguinte forma:

n∑i=1

(yi − y)2

SQTotal

=n∑

i=1(yi − y)2

SQReg

+n∑

i=1(yi − yi )2

SQRes

, (47)

em que:

SQTotal é a variabilidade total dos dados (corrigida pela média);SQReg é a variabilidade dos dados explicada pela regressão;SQRes é a variabilidade dos dados não explicada pela regressão(variação residual).

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 46 / 72

Page 47: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Análise de variância aplicada à regressão linearsimples

Dessa forma, quanto maior SQReg em detrimento a SQRes , maior aparcela da variação total dos dados explicada pela regressão.

Associado a cada componente dessa decomposição temos:n − 1 graus de liberdade para SQTotal (perda de um grau devido àestimação da média);n − 2 graus de liberdade para SQRes (perda de dois graus devido àestimação de β0 e β1);(n − 1)− (n − 2) = 1 graus de liberdade para SQReg .

O resultado da análise de variância pode ser sumarizado através doquadro da análise.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 47 / 72

Page 48: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Análise de variância aplicada à regressão linearsimples

Tabela 2: Quadro de análise de variância

Fonte de variação Graus de liberdade Soma de quadrados Quadrados médios F

Regressão 1∑n

i=1(yi − yi )2 QMReg =

SQReg1 F =

QMRegQMRes

Resíduos n-2∑n

i=1(yi − yi )2 QMRes = SQRes

n−2

Total n-1∑n

i=1(yi − y)2

A significância da regressão linear pode ser testada com base na análisede variância, com resultado idêntico ao apresentado anteriormenteno teste da hipótese H0 : β1 = 0.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 48 / 72

Page 49: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Análise de variância aplicada à regressão linearsimples

O teste da significância do modelo via ANOVA baseia-se em:(n−2)QMRes

σ2 ∼ χn−2;Sob a hipótese nula (isso é, se β1 = 0), então SQReg

σ2 tem distribuição χ1;SQReg e SQRes são independentes.

Então:

F = SQReg/1SQRes/(n − 2) = QMReg

QMRes(48)

tem distribuição F − Snedecor com parâmetros 1 e n − 2.

Assim, H0 : β1 = 0 será rejeitada, a um nível de significância α seF > F1,n−2;1−α.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 49 / 72

Page 50: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Análise de variância aplicada à regressão linearsimples

O coeficiente de determinação do modelo é definido por:

R2 = SQRegSQTotal

, (49)

tal que 0 ≤ R2 ≤ 1.

Dessa forma, R2 corresponde à proporção da variação dos dadosexplicada pela regressão.Para o caso da regressão linear simples, R2 = r2, em que r é ocoeficiente de correlação linear.O valor de R2 deve ser interpretado com cautela uma vez que umelevado valor de R2 não implica, necessariamente, num modelo bemajustado.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 50 / 72

Page 51: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Análise de variância aplicada à regressão linearsimples

●●

●●

●●

5 10 15

46

810

12

x1

y1●

●●●

5 10 15

46

810

12

x2

y2

●●

●●

●●

●●

5 10 15

46

810

12

x3

y3

●●

●●

5 10 15

46

810

12

x4

y4

Figura 7: Quatro conjuntos de dados que produzem mesmo valor de R2

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 51 / 72

Page 52: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Caso em que x também é aleatório - análise decorrelação

Em algumas situações, pode não ser razoável admitir que a variávelexplicativa x seja fixa.

Como exemplo, num experimento na agronomia em que está seestudando produção vegetal, pode ser pouco realista assumir a alturadas plantas ou o número de folhas como não sendo aleatórios;

Vamos estudar agora o caso em que x e y são variáveis aleatórias e oestudo da distribuição conjunta.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 52 / 72

Page 53: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

O caso de x e y com distribuição normal bivariada -análise de correlação

Considere que o par de variáveis aleatórias x e y tenha distribuiçãonormal bivariada:

f (x, y) =1

2πσxσy

√1− ρ2

exp{−

12(1− ρ2)

[(x − µx

σx

)2+(

y − µy

σy

)2− 2ρ(

x − µx

σx

)(y − µy

σy

)]},

(50)

em que µx e σ2x são a média e a variância de x ; µy e σ2

y são a média e avariância de y e

ρ = E [(x − µx )(y − µy )]σxσy

= Cov(x , y)DP(x)DP(y) (51)

é o coeficiente de correlação entre x e y .Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 53 / 72

Page 54: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

O caso de x e y com distribuição normal bivariada -análise de correlação

x y

f(x,y)

x

y

0.02

0.04

0.06

0.08

0.1

0.12

0.14

−4 −2 0 2 4

−4

−2

02

4

Figura 8: Distribuição normal bivariada: ρ = 0.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 54 / 72

Page 55: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

O caso de x e y com distribuição normal bivariada -análise de correlação

x y

f(x,y)

x

y 0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0.2

0.22

0.24

0.26

−4 −2 0 2 4

−4

−2

02

4

Figura 9: Distribuição normal bivariada: ρ = 0.8.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 55 / 72

Page 56: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

O caso de x e y com distribuição normal bivariada -análise de correlação

x y

f(x,y)

x

y 0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0.2

0.22

0.24

0.26

−4 −2 0 2 4

−4

−2

02

4

Figura 10: Distribuição normal bivariada: ρ = −0.8.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 56 / 72

Page 57: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Análise de correlação

O estimador de ρ é o coeficiente de correlação amostral, dados por:

r =∑n

i=1(xi − x)(yi − y)[∑n

i=1(xi − x)2∑ni=1(yi − y)2]1/2 . (52)

Verifica-se facilmente que:

β1 =(∑n

i=1(yi − y)2∑ni=1(xi − x)2

)r , (53)

de forma que β1, a inclinação da reta de mínimos quadrados, é o coeficientede correlação amostral multiplicado por um fator de escala.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 57 / 72

Page 58: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Análise de correlação

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

0.0 0.2 0.4 0.6 0.8 1.0

−1.0

−0.5

0.0

0.5

1.0

r ≈ 1

y

y1 ●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

0.0 0.2 0.4 0.6 0.8 1.0

−1.0

−0.5

0.0

0.5

1.0

r ≈ 1

y

y2 ●●

●●

●●

●●●

● ●●●●

●●● ●●

●●

● ●●

●●●

●●●

●●●

● ●●

● ● ●●●● ●● ●● ●

●●

●● ●

●●● ●

●●

●● ●

●● ● ●●

●●● ●

●●●●●

● ●●

●●

●●●

●●

●●●

●●

●●

●●

0.0 0.2 0.4 0.6 0.8 1.0

−1.0

−0.5

0.0

0.5

1.0

r ≈ 1

y

y3

●●

●●

●●

●●

●●

●●

●●

●●

●●●

● ●

●●

●●

●●

●●

●●

● ●●

●●

●●

● ●

●● ●

●●

●●

0.0 0.2 0.4 0.6 0.8 1.0

−3−2−1

0123

r ≈ 0.5

y

y7

●●

●●

●●

● ●

●●

●● ●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

0.0 0.2 0.4 0.6 0.8 1.0

−2

−1

0

1

2

r ≈ 0.75

y

y8 ●

●●

●●

●●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

● ●

●●

●●

0.0 0.2 0.4 0.6 0.8 1.0

−1.5−1.0−0.5

0.00.51.01.5

r ≈ 0.95

y

y9

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

● ●●

●● ●

●●

●●●

●●

●●

●●

●●

0.0 0.2 0.4 0.6 0.8 1.0

−2.0−1.5−1.0−0.5

0.00.51.01.5

r ≈ 0

y

y4

●●

●●

●●

●●

●●

●●

●●●

●●

● ●

●●

●●

●●

●●

● ●

●●

●●

0.0 0.2 0.4 0.6 0.8 1.0

−1.0

−0.5

0.0

0.5

1.0

r ≈ 0

y

y5 ●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●● ●

● ●

●●

●●

●● ●

●● ●

●●

●●

●●

● ●

●●

●●●

−0.4 0.0 0.4 0.8

−1.0

−0.5

0.0

0.5

1.0

r ≈ 0

y

y6

Figura 11: Ilustração de dados com diferentes níveis de correlação linear.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 58 / 72

Page 59: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Análise de correlação

Pode se testar a hipótese que a correlação linear entre um par devariáveis é igual a zero, configurando o seguinte par de hipóteses:

H0 : ρ = 0 vs H1 : ρ 6= 0

.

A estatística teste, neste caso, é dada por:

t = r√

n − 21− r2 , (54)

que, sob a hipótese nula (ρ = 0), tem distribuição tn−2.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 59 / 72

Page 60: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Análise de correlação

Assim, a hipótese de correlação nula deverá ser rejeitada, ao nível designificância de α, se |t| > |tn−2;α/2|.

O nível descritivo do teste pode ser calculado por p = 2× P(X > |t|),sendo X ∼ tn−2.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 60 / 72

Page 61: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Análise de correlação

Um intervalo de confiança 100(1− α)% para ρ pode ser obtido daseguinte forma:

tanh(

arctan r −zα/2√n − 3

; arctan r +zα/2√n − 3

), (55)

em que:

arctan r = 12 ln 1 + ρ

1− ρ ; tanh u = eu − e−u

eu + e−u . (56)

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 61 / 72

Page 62: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Teste da falta de ajuste da regressão linear

O teste da falta de ajuste permite testar formalmente a adequação doajuste do modelo de regressão.

Neste ponto assumimos que os pressupostos de normalidade, variânciaconstante e independência são satisfeitos.

A suposição sob teste é a de relação linear entre as variáveis.

O teste da falta de ajuste baseia-se na decomposição da variaçãoresidual em dois componentes, o primeiro atribuído à própria falta deajuste e o segundo ao erro puro.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 62 / 72

Page 63: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Teste da falta de ajuste da regressão linear

●●

●●

0.0 0.5 1.0 1.5 2.0

−0.5

0.0

0.5

1.0

1.5

2.0

x

y

Falta de ajusteErro puro

Figura 12: Ilustração da análise da falta de ajuste da regressão linear.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 63 / 72

Page 64: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Teste da falta de ajuste da regressão linear

O teste da falta de ajuste requer que se disponha de replicaçõesindependentes de y para ao menos um valor de x .

Dispondo de replicações de y em diferentes valores de x , temoscondições de obter uma estimativa para a variância do erro (σ2)independente do modelo de regressão ajustado.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 64 / 72

Page 65: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Teste da falta de ajuste da regressão linear

Seja yij a j-ésima observação da variável resposta para um particularvalor xi , i = 1, 2, ...,m; j = 1, 2, ..., ni , n =

∑mi=1 ni . Então:

ri = yij − yiResíduo

= (yij − yi )Erro puro

+ (yi − yi )Falta de ajuste

, (57)

em que yi é a média das ni observações tomadas em xi .

Tomando o quadrado de cada componente e somando-os, obtemos:

m∑i=1

ni∑j=1

(yij − yi )2

SQRes

=m∑

i=1

ni∑j=1

(yij − yi )2

SQEP

+m∑

i=1ni (yi − yi )2

SQFA

. (58)

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 65 / 72

Page 66: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Teste da falta de ajuste da regressão linear

Assim, sob a suposição de variância constante SQEP é uma medida dedispersão dos erros independente do modelo, uma vez que é calculadacom base nas variações dos y ′s para cada valor de xi .

Cada valor xi contribui com ni − 1 graus de liberdade para o erro puro;

Dessa forma, temos∑m

i=1(ni − 1) = n −m graus de liberdade para oerro puro e (n − 2)− (n −m) = m − 2 graus de liberdade para a faltade ajuste.

Os resultados da análise da falta de ajuste podem ser apresentados naforma de um quadro de análise de variância.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 66 / 72

Page 67: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Teste da falta de ajuste da regressão linear

Tabela 3: Quadro de análise de variância para o teste da falta de ajuste

Fonte de variação Graus de liberdade Soma de quadrados Quadrados médios F

Regressão 1∑n

i=1(yi − yi )2 QMReg =

SQReg1 F =

QMRegQMRes

Resíduos n-2∑n

i=1(yi − yi )2 QMRes = SQRes

n−2

Falta de ajuste m-2∑m

i=1ni (yi − yi )2 QMFA = SQFA

m−2 F = QMFAQMEP

Erro puro n-m∑m

i=1

∑nij=1

(yij − yi )2 QMEP = SQEPn−m

Total n-1∑n

i=1(yi − y)2

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 67 / 72

Page 68: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Teste da falta de ajuste da regressão linear

Se a função de regressão verdadeira de fato é linear, então tantoQMEP quanto QMFA são estimadores não viciados de σ2.

Caso a real função de regressão seja não linear, então E (QMFA) > σ2.

Sob a hipótese nula de que não há falta de ajuste (a função deregressão verdadeira é linear), então:

F0 = SQFA/(m − 2)SQEP/(n −m) = QMFA

QMEP(59)

tem distribuição F-Snedecor com graus de liberdade m − 2 e n −m.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 68 / 72

Page 69: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Teste da falta de ajuste da regressão linear

Assim, a hipótese nula de que não há falta de ajuste (a regressão defato é linear) deverá ser rejeitada, ao nível de significância α, seF0 > Fm−2,n−m;1−α.

O nível descritivo (p-valor) do teste pode ser calculado por P(X > F0),sendo X ∼ Fm−2,n−m.

No caso em que não se dispõe de réplicas de y para testar a falta deajuste, uma estratégia consiste em agrupar indivíduos com valorespróximos de x e proceder a análise (para mais informações consultarMontgomery, Peck e Vinning, 2006).

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 69 / 72

Page 70: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Modelos intrinsicamente lineares

Em alguns casos em a relação entre as variáveis é não linear mas podeser linearizada aplicando alguma transformação adequada.

Os modelos de regressão resultantes são denominados modelosintrinsicamente lineares.

Usar transformações pode remediar o não atendimento de diferentespressupostos do modelo (como variância não constante ou ausência denormalidade).

Neste ponto vamos nos ater à aplicação de transformações com oobjetivo de linearizar a relação entre as variáveis.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 70 / 72

Page 71: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Modelos intrinsicamente lineares

Tabela 4: Exemplos de modelos intrinsicamente lineares

Função linearizável Transformação Forma lineary = β0xβ1 y ′ = log(y); x ′ = log(x) y ′ = log(β0) + β1xy = β0eβ1x y ′ = ln(y) y ′ = lnβ0 + β1xy = β0 + β1log(x) x ′ = log(x) y ′ = β0 + β1x ′y = x

β0x−β1y ′ = 1

y ; x ′ = 1x y ′ = β0 − β1x ′

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 71 / 72

Page 72: CE071 - Análise de Regressão Linear - UFPRtaconeli/CE07118/Aula2.pdf · CE071-AnálisedeRegressãoLinear CesarAugustoTaconeli 21demarço,2018 CesarAugustoTaconeli CE071-AnálisedeRegressãoLinear

Modelos intrinsicamente lineares

Qualquer uma dessas transformações requer que os erros na escalatransformada sejam independentes, normalmente distribuídos commédia zero e variância σ2.

Quando o método de mínimos quadrados é aplicado apóstransformação as propriedades dos estimadores, que estudamosanteriormente, valem para os dados transformados e nãonecessariamente para os dados originais.

Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 21 de março, 2018 72 / 72