CE071 - ANÁLISE DE REGRESSÃO LINEARtaconeli/CE071/Aula1.pdfde tal forma que ε corresponde à diferença entre o valor observado y e o valor verificado na reta para o respectivo

1

CE071 - ANÁLISE DE REGRESSÃO LINEAR

2

Parte 1 – Introdução

3

Análise de Regressão – Metodologia estatística aplicada na investigação e modelagem da relação entre

variáveis.

• Mais especificamente, a análise de regressão explora a distribuição de uma variável (ou de algum parâmetro

de sua distribuição, como a média), condicionada aos valores de outras variáveis.

“Todos os modelos são errados, mas alguns são úteis”

George Box

4

Algumas possíveis aplicações de análise de regressão

o Existe relação entre a dose administrada de certa medicação e a redução da pressão arterial?

o Existe relação entre a nota obtida num exame e o tempo dedicado ao estudo?

o Qual a relação entre o valor de venda de terrenos em certa localidade com as respectivas áreas?

• A análise de regressão baseia-se na proposição (e ajuste, a partir dos dados amostrados) de funções que

expliquem adequadamente a relação entre as variáveis.

5

o Existe relação da pontuação final de times de um campeonato de futebol com o investimento em

contratações e o número de títulos obtidos anteriormente?

o Qual a relação do índice de massa corporal de crianças de certa localidade e as seguintes variáveis:

renda familiar per-capita, escolaridade da mãe, idade e peso da criança ao nascer?

o Qual a relação entre a quantia aplicada em fundos de determinado banco e características dos clientes

como: sexo, ocupação, renda, idade, nível de escolaridade, estado civil, se o cliente tem conta em

outros bancos,...?

6

Objetivos principais da análise de regressão

• Analisar (descrever) a relação entre uma variável de interesse e uma ou mais variáveis explicativas;

Retomando o exemplo da pressão arterial vs dose da medicação, para fins de ilustração:

o A pressão sangüínea diminui conforme se aumenta a dose da medicação? Mantém-se constante?

Aumenta?

o A diminuição na pressão arterial é linear conforme o aumento da dose (diminui a uma taxa constante)?

Diminui de forma não linear?

o Há alguma dose a partir da qual a pressão sanguínea já não responde mais a incrementos na dose? Em

algum momento o aumento na dose pode ocasionar o efeito contrário (aumento na pressão)?

7

• Seleção e análise das variáveis que de fato estão relacionadas à resposta;

o No estudo do desempenho acadêmico de alunos de certo nível, pode-se ter interesse em identificar

variáveis sócio-econômicas e demográficas (como renda familiar, ocupação, escolaridade e situação

conjugal dos pais, número de irmãos, tipo de residência,...) relacionadas;

o No estudo do valor devido por inadimplentes de uma instituição de crédito, pode-se ter interesse em

identificar variáveis sócio-econômicas e demográficas (como renda, ocupação, escolaridade, número de

filhos, sexo, idade,...), e comportamentais (existência de dívidas anteriores, situação do cliente em

diferentes cadastros, como Serasa,...) relacionadas;

8

• Estimação de parâmetros e testes de hipóteses de interesse;

o A redução na pressão arterial é estatisticamente significativa frente ao aumento na dose da medicação?

o Qual a alteração esperada na pressão arterial decorrente do acréscimo de 1 mg na dose da medicação?

o Qual a alteração esperada na pressão arterial decorrente do acréscimo de k mg na dose da medicação?

9

• Predição do valor da resposta para valores específicos das variáveis explicativas.

o Qual a diminuição média na pressão arterial para uma dose administrada 0x ?

o Qual a diminuição a ser observada na pressão arterial para uma dose administrada 0x ?

o Qual a dose necessária 0x para se obter uma resposta desejada 0y ?

10

Exemplo 1 – Deseja-se investigar se o ganho de peso de bovinos está relacionado à quantidade de certa

substância presente no pasto. Para isso, um estudo foi conduzido com 15 bois de mesma raça e idade, submetidos

a dietas com diferentes concentrações da referida substância.

Variáveis consideradas:

−X Concentração da substância (em litromg | );

−Y Ganho de peso do animal após 30 dias (em kg );

11

Dados:

Quadro 1 – Concentração da substância adicionada à dieta e ganhos de peso para os 15 bois.

Animal X Y Animal X Y

1 0,2 9,4 9 3,0 16,2

2 0,5 11,4 10 3,5 17,7

3 0,6 12,3 11 4,0 18,8

4 0,7 10,2 12 4,5 19,9

5 1,0 11,9 13 5,0 22,5

6 1,5 13,6 14 5,5 24,7

7 2,0 14,2 15 6,0 23,1

8 2,5 16,2

• Uma primeira avaliação da relação entre as variáveis pode ser obtida por meio de um gráfico de dispersão.

12

Concentração (mg|l)

Ganho d

e p

eso (kg)

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0

9

11

13

15

17

19

21

23

Figura 1 – Gráfico de dispersão – Ganho de peso vs concentração da substância na dieta.

13

• A Figura 1 evidencia fortemente uma relação linear entre o ganho de peso e a concentração da substância

na dieta.

• Uma forma de explicar a relação entre o ganho de peso e a concentração da substância na dieta seria por

meio da equação da reta (modelo) que descrevesse tal relação, de tal forma que, para um animal submetido

a uma dieta com concentração x o ganho de peso fosse dado por:

xy 10 ββ += . (1)

• Problema: diferentemente do modelo (1), o ganho de peso não pode ser determinado simplesmente a

partir da concentração da substância na dieta (há uma oscilação dos pontos em torno da reta, conforme

notado na Figura 2).

14

Concentração (mg|l)

Ganho d

e p

eso (

kg)

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0

9

11

13

15

17

19

21

23

Figura 2 – Gráfico de dispersão – Ganho de peso vs concentração da substância na dieta.

15

• Assim, um modelo mais apropriado para o problema seria da seguinte forma:

εββ ++= xy 10 , (2)

de tal forma que ε corresponde à diferença entre o valor observado y e o valor verificado na reta para o

respectivo x ( x10 ββ + ), ( )xy 10 ββε +−= configurando uma quantidade aleatória à qual denominamos erro.

16

Um pouco de terminologia

o O modelo apresentado em (2) configura um modelo de regressão, e com algumas suposições adicionais

acerca da distribuição do componente aleatório que estudaremos adiante, é denominado modelo de

regressão linear simples (o termo simples refere-se ao fato dele conter apenas uma variável explicativa).

o No contexto de análise de regressão, é usual denominarmos a variável a ser explicada (no caso do

Exemplo 2, o ganho de peso), como variável resposta (ou variável dependente), e as variáveis que

explicam a resposta como variáveis explicativas (ou variáveis independentes).

o As constantes que compõem o modelo (no caso do exemplo 2 os coeficientes da reta, 0β e 1β ), são

denominadas parâmetros. Os parâmetros exprimem a relação entre as variáveis.

o O termo ajuste de um modelo refere-se ao processo de estimação dos parâmetros (e, consequentemente, da

função de regressão) do modelo com base nos dados disponíveis, ou à própria função de regressão gerada

pelas estimativas obtidas.

17

Modelos de regressão lineares e não lineares

• O modelo apresentado em (2) pode ser expresso, numa forma mais geral, por:

( ) ε+= β;xfy , (3)

em que ( )′= 10 , βββ é o vetor de parâmetros, sendo ( ) ( )β;xfxf = a parte fixa (não aleatória) e ε o erro (parte

aleatória) do modelo.

• Diferentes alternativas podem ser consideradas para ( )β;xf , produzindo diferentes modelos de regressão.

• O modelo apresentado em (3) pode ser generalizado para um maior número (k ) de variáveis:

( ) ε+= βx ;fy

em que ( )pβββ ,...,, 10=β é o vetor de parâmetros e ( )kxxx ,...,, 21=x é o vetor de variáveis explicativas,

sendo ( ) ( )βx ;fxf = a parte fixa (não aleatória) e ε o erro (parte aleatória) do modelo.

18

• Uma representação informal dos modelos de regressão a serem tratados nesta disciplina é a seguinte:

aleatórioerroelodofunçãorespostaVariável += mod .

• No entanto, nessa disciplina trataremos prioritariamente dos modelos de regressão lineares. O termo linear,

neste caso, se refere à forma como os parâmetros (e não as variáveis explicativas) aparecem na função do

modelo.

• Assim, dizemos que um modelo de regressão da forma ( ) ε+= βx ;fy é linear se:

( )[ ]( ) pjh

fy

jj

,...,2,1,0,;

==∂

+∂=

∂

∂x

βxβ

ε

β,

ou seja, cada uma das derivadas parciais relativas aos sβ ′ não depende de parâmetros, mas apenas dos

dados.

19

Exercício 1 – Considere os modelos de regressão relacionados abaixo. Verifique se cada um deles

corresponde a um modelo de regressão linear.

a) εββ ++= xy 10 ;

b) ( ) εββ ++= xy ln10 ;

c) εββββ ++++= 33

2210 xxxy ;

d) εββββ ++++= 3322110 xxxy ;

e) ( ) εββ

ββ ++++= 2132

2110 ln xx

xxy ;

f) εββ β ++= 2210

xey ;

g) εβ

β+

+=

xe

y21

0 ;

h) ( ) εβββ ++= xseny 210 .

• Na sequencia são apresentados mais alguns exemplos de possíveis aplicações de análise de regressão.

20

Exemplo 2 – Dados referentes à resistência de amostras de papel ( y , expressas em libras por polegada

quadrada – psi) e à concentração de madeira na mistura usada na produção do papel ( x , expressa em %).

Quadro 2 – Concentração de madeira e resistência do papel.

Amostra X Y Amostra X Y

1 1 6,3 11 7 42,0

2 1,5 11,1 12 8 46,1

3 2 20,0 13 9 53,1

4 3 24,0 14 10 52,0

5 4 26,1 15 11 52,5

6 4,5 30,0 16 12 48,0

7 5 33,8 17 13 42,8

8 5,5 34,0 18 14 27,8

9 6 38,1 19 15 21,9

10 6,5 39,9

21

Concentração (%)

Resis

tência

(psi)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

5

10

15

20

25

30

35

40

45

50

Figura 3 – Gráfico de dispersão – Resistência do papel vs concentração de madeira na mistura.

22

• A relação entre a resistência do papel e a quantidade de madeira na mistura claramente não é linear.

• Um polinômio de segundo grau pode proporcionar melhor explicação da relação entre as variáveis do que

uma reta.

• Neste caso, pode-se considerar ( ) 2210; xxxf βββ ++=β , produzindo:

εβββ +++= 2210 xxy .

• A figura 3 apresenta a curva referente ao modelo ajustado. Trataremos adiante do ajuste de modelos de

regressão e, mais especificamente, de modelos baseados em polinômios (modelos polinomiais).

23

Concentração (%)

Resis

tência

(psi)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

5

10

15

20

25

30

35

40

45

50

Figura 4 – Gráfico de dispersão – Resistência do papel vs concentração de madeira na mistura.

24

Exemplo 4 – Dados (adaptados) referentes à velocidade de uma reação enzimática ( y , expressa em

contagens/min2) e à concentração de certo substrato ( x , expressa em ppm).

Quadro 2 – Velocidade da reação e concentração de substrato.

Repetição X Y Repetição X Y

1 0,02 47 7 0,02 76

2 0,06 97 8 0,06 107

3 0,11 123 9 0,11 139

4 0,22 152 10 0,22 159

5 0,56 191 11 0,56 201

6 1,10 200 12 1,10 207

25

Concentração (ppm)

Velo

cid

ade (c/m

in2)

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1

60

80

100

120

140

160

180

200

Figura 5 – Gráfico de dispersão para os dados da reação enzimática.

26

• Novamente, observa-se uma relação não linear entre as variáveis. Uma alternativa seria considerar algum

modelo polinomial.

• No entanto, sabe-se da teoria da Química, que o modelo de Michaelis-Menten descreve adequadamente

problemas de cinética enzimática, como o estudo em questão.

• Neste caso, considera-se ( )2

1;β

β

+=

x

xxf β , produzindo:

εβ

β+

+=

2

1

x

xy .

Nota – É prática comum usar algum modelo proveniente da teoria correspondente (no caso, da Química, mas

poderia ser da Física, Matemática,...) como base para a proposição de um modelo de regressão. Isso é

conveniente por vários motivos, dentre os quais o fato de se obter um melhor ajuste, do modelo ter propriedades

pertinentes ao problema em questão e dos parâmetros terem interpretações práticas.

27

Concentração (ppm)

Velo

cid

ade (c/m

in2)

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1

60

80

100

120

140

160

180

200

Figura 6 – Gráfico de dispersão para os dados da reação enzimática com modelo de regressão ajustado.

28

Exemplo 5 – Os dados apresentados na sequência referem-se ao tempo de serviço ( 1x , em anos) e à renda ( y , em

reais), de 20 profissionais de um mesmo segmento. Adicionalmente, sabe-se se cada um deles possui ou não

curso superior, o que configura uma segunda variável indicadora, que podemos definir da seguinte forma:

=eriorcursopossuise

eriorcursopossuinãosex

sup,1

sup,02

Nota – Este problema envolve uma variável explicativa quantitativa (tempo de serviço) e outra qualitativa

(formação). Modelos de regressão para tal situação são contemplados por uma técnica denominada análise de

covariância, que será estudada adiante.

29

Quadro 3 – Dados de renda, tempo de serviço e formação de 20 profissionais

Profissional 1X 2X Y Profissional 1X 2X Y

1 21 0 4535 11 3 1 3414

2 6 0 3195 12 20 1 6928

3 10 0 3539 13 11 1 4651

4 11 0 3742 14 5 1 3836

5 24 0 4707 15 15 1 5595

6 24 0 5034 16 12 1 5172

7 15 0 4331 17 12 1 4732

8 10 0 3748 18 24 1 7612

9 17 0 3887 19 18 1 6478

10 17 0 4436 20 20 1 6779

30

Tempo de serviço (anos)

Renda (

reais

)

3500

4000

4500

5000

5500

6000

6500

7000

7500

3 6 9 12 15 18 21 24

Curso superior

NãoSim

Figura 7 – Gráfico de dispersão para a renda segundo tempo de serviço e formação de 20 profissionais.

31

• Neste caso, parece haver uma relação linear entre a renda e o tempo de serviço. No entanto, essa relação

não é a mesma nos dois grupos (graduados e não graduados).

• Considerando relação linear entre a renda e o tempo de serviço, diferentes modelos poderiam ser

considerados, de acordo com algum dos seguintes cenários:

1. Uma única reta é capaz de descrever a relação entre as variáveis para os dois grupos (interceptos e taxas

de variação iguais nos dois grupos):

εββ ++= 110 xy .

2. A relação entre as variáveis para os dois grupos requer o ajuste de duas retas, mas o coeficiente angular é

o mesmo para os dois grupos (taxas de variação iguais):

εβββ +++= 22110 xxy .

32

3. A relação entre as variáveis para os dois grupos requer o ajuste de duas retas, mas o coeficiente linear é o

mesmo para os dois grupos (interceptos iguais):

εβββ +++= 212110 xxxy .

4. A relação entre as variáveis para os dois grupos requer o ajuste de duas retas, com interceptos e

coeficientes angulares distintos:

εββββ ++++= 21322110 xxxxy .

• Dos quatro cenários apresentados, o terceiro ou o quarto parecem mais plausíveis, de acordo com a Figura 8.

33


Renda (re

ais

)

3500

4000

4500

5000

5500

6000

6500

7000

7500

3 6 9 12 15 18 21 24

Curso superior

Não

Sim


Renda (re

ais

)

3500

4000

4500

5000

5500

6000

6500

7000

7500

3 6 9 12 15 18 21 24

Curso superior

Não

Sim


Renda (re

ais

)

3500

4000

4500

5000

5500

6000

6500

7000

7500

3 6 9 12 15 18 21 24

Curso superior

Não

Sim


Renda (re

ais

)3500

4000

4500

5000

5500

6000

6500

7000

7500

3 6 9 12 15 18 21 24

Curso superior

Não

Sim

Figura 8 – Gráficos de dispersão para a renda segundo tempo de serviço e formação de 20 profissionais com

retas de regressão ajustadas.

34

• Os problemas a serem abordados com análise de regressão, em geral, contemplam bases de dados maiores,

com amostras numerosas e grande quantidade (e diversidade de tipos) de variáveis explicativas.

35

Processo de ajuste de um modelo de regressão

1) Fase de especificação - Com base na teoria e nos dados disponíveis, propor um modelo de regressão;

o Determinar quais variáveis explicativas são relevantes para explicar a variável resposta;

o Especificar o escopo do modelo – a região de valores para as variáveis explicativas que será considerada

no estudo;

o Determinar a forma funcional que relaciona a variável resposta e as variáveis explicativas (Linear?

Quadrática? Alguma forma não linear extraída da teoria da área do problema?).

Nota – A análise preliminar dos dados, com a construção de diagramas de dispersão, ajuste de regressão não

paramétrica,... é fundamental na etapa de se propor o modelo.

36

2) Fase de ajuste - Usando a teoria estatística estimar os parâmetros do modelo;

3) Fase de diagnóstico - Analisar a adequação e validar o modelo ajustado;

o Avaliar se o modelo proposto é compatível com os dados disponíveis;

o Caso o modelo não se mostre adequado, deve-se voltar ao primeiro passo e rever sua especificação.

Nota – A Figura 9 apresenta quatro cenários distintos, envolvendo apenas duas variáveis, que produzem a

mesma reta de regressão. Tente diagnosticar, com base na dispersão dos dados, cada um dos ajustes. Você

diria que os quatro ajustes são adequados?

37

Figura 9 – Quatro cenários distintos que produzem a mesma reta de regressão. Fonte: Anscombe, 1973.

4) Fase de análise - Se o ajuste se mostrar adequado, o modelo pode ser usado para fins de descrição,

inferência e predição.

38

Alguns problemas recorrentes em análise de regressão

1) Extrapolação: corresponde à extensão indevida do modelo obtido, particularmente para fins de predição,

para valores não amostrados das variáveis explicativas.

Exemplo – Considere duas variáveis x e y , que apresentam uma relação não linear, conforme representado

pela linha contínua na Figura 9. Suponha que se tenha amostrado apenas valores de x no intervalo ( )21, xx e

proposto um modelo de regressão linear simples (ajuste de uma reta), conforme representado pela linha

tracejada.

o Como pode ser verificado, a relação entre as variáveis pode ser bem aproximada por uma reta no

intervalo que se dispõe de dados. Fora desse intervalo, a aproximação é insatisfatória. A predição do

valor de y correspondente a 3x , por exemplo, seria bem problemática.

39

x

y

x1 x2 x3

Figura 9 – Ilustração de problemas de extrapolação.

40

2) Generalização: os resultados produzidos por uma análise de regressão não devem ser generalizados para

outras populações que não a população sob estudo. Por exemplo, o fato de a renda estar relacionada ao grau

de escolaridade numa região não implica que o mesmo ocorra em outras regiões;

o A definição adequada da população sob estudo e do delineamento do estudo são fundamentais para

que os modelos de regressão produzidos possam ser adequadamente utilizados.

41

3) Dedução de relações de causa- efeito: modelos de regressão, em geral, não permitem comprovar relações

de causa e efeito, possibilitando apenas avaliar possíveis relações entre as variáveis. Muitas das relações

observadas podem ser espúrias, não configurando relação de causa-efeito. Segue um exemplo de ilustração.

o Um levantamento realizado com crianças e adolescentes pode facilmente revelar a relação entre a

habilidade de leitura e o tamanho dos pés (quanto maior o tamanho dos pés, maior habilidade de

leitura). Obviamente isso configura uma relação espúria. Ocorre que o tamanho dos pés está

relacionado à idade da criança (fator não considerado no estudo), e a habilidade de leitura aumenta

conforme a criança cresce.

• A comprovação de relações de causa-efeito requer a realização de estudos controlados (experimentos),

delineados com tal finalidade. Falaremos um pouco sobre os tipos de estudo logo adiante.

• Embora estudos observacionais não permitam comprovar relações de causa-efeito, a avaliação cuidadosa

dos resultados produzidos e o bom conhecimento do contexto do estudo possibilitam extrair indicativos de

tais relações.

42

Trabalho 1

Os alunos (divididos em duplas) deverão pesquisar um artigo científico de qualquer área do conhecimento

que contenha uma análise estatística de dados baseada no ajuste de modelos de regressão. Para o artigo escolhido,

caberá ao aluno redigir um breve relatório (de aproximadamente duas ou três páginas, descontando a capa com

nome dos alunos, da instituição, da disciplina e do professor, além do título do trabalho), no qual sejam

devidamente identificados e descritos:

• O contexto e o objetivo do estudo;

• A população sob estudo;

• O delineamento amostral;

• As variáveis consideradas (identificar a variável resposta e as variáveis explicativas, indicando as

respectivas escalas);

• A metodologia estatística aplicada;

• As técnicas descritivas (medidas resumo, tabelas e gráficos) utilizadas;

• O objetivo do uso da análise de regressão;

43

• As relações funcionais entre as variáveis (linear, quadrática, exponencial, alguma forma não-linear

específica...);

• O escopo do estudo;

• Os modelos de regressão utilizados são lineares ou não lineares?

• Tente identificar as quatro fases do processo de ajuste de um modelo de regressão. Apresente, se possível,

elementos do texto que caracterizem cada uma delas;

• Os principais resultados indicados no texto;

• Comentários ou críticas dos alunos com relação ao artigo;

• Há algum problema no artigo referente a extrapolação, generalização ou relações de causa-efeito

equivocadas? Há a menção dos autores sobre cuidados específicos para evitar tais erros?

Será realizada uma discussão em sala de aula, a respeito dos artigos, em data agendada pelo professor.

Documents

CE071 - ANÁLISE DE REGRESSÃO LINEARtaconeli/CE071/Aula1.pdfde tal forma que ε corresponde à diferença entre o valor observado y e o valor verificado na reta para o respectivo