Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
1
CE071 - ANÁLISE DE REGRESSÃO LINEAR
2
Parte 1 – Introdução
3
Análise de Regressão – Metodologia estatística aplicada na investigação e modelagem da relação entre
variáveis.
• Mais especificamente, a análise de regressão explora a distribuição de uma variável (ou de algum parâmetro
de sua distribuição, como a média), condicionada aos valores de outras variáveis.
“Todos os modelos são errados, mas alguns são úteis”
George Box
4
Algumas possíveis aplicações de análise de regressão
o Existe relação entre a dose administrada de certa medicação e a redução da pressão arterial?
o Existe relação entre a nota obtida num exame e o tempo dedicado ao estudo?
o Qual a relação entre o valor de venda de terrenos em certa localidade com as respectivas áreas?
• A análise de regressão baseia-se na proposição (e ajuste, a partir dos dados amostrados) de funções que
expliquem adequadamente a relação entre as variáveis.
5
o Existe relação da pontuação final de times de um campeonato de futebol com o investimento em
contratações e o número de títulos obtidos anteriormente?
o Qual a relação do índice de massa corporal de crianças de certa localidade e as seguintes variáveis:
renda familiar per-capita, escolaridade da mãe, idade e peso da criança ao nascer?
o Qual a relação entre a quantia aplicada em fundos de determinado banco e características dos clientes
como: sexo, ocupação, renda, idade, nível de escolaridade, estado civil, se o cliente tem conta em
outros bancos,...?
6
Objetivos principais da análise de regressão
• Analisar (descrever) a relação entre uma variável de interesse e uma ou mais variáveis explicativas;
Retomando o exemplo da pressão arterial vs dose da medicação, para fins de ilustração:
o A pressão sangüínea diminui conforme se aumenta a dose da medicação? Mantém-se constante?
Aumenta?
o A diminuição na pressão arterial é linear conforme o aumento da dose (diminui a uma taxa constante)?
Diminui de forma não linear?
o Há alguma dose a partir da qual a pressão sanguínea já não responde mais a incrementos na dose? Em
algum momento o aumento na dose pode ocasionar o efeito contrário (aumento na pressão)?
7
• Seleção e análise das variáveis que de fato estão relacionadas à resposta;
o No estudo do desempenho acadêmico de alunos de certo nível, pode-se ter interesse em identificar
variáveis sócio-econômicas e demográficas (como renda familiar, ocupação, escolaridade e situação
conjugal dos pais, número de irmãos, tipo de residência,...) relacionadas;
o No estudo do valor devido por inadimplentes de uma instituição de crédito, pode-se ter interesse em
identificar variáveis sócio-econômicas e demográficas (como renda, ocupação, escolaridade, número de
filhos, sexo, idade,...), e comportamentais (existência de dívidas anteriores, situação do cliente em
diferentes cadastros, como Serasa,...) relacionadas;
8
• Estimação de parâmetros e testes de hipóteses de interesse;
o A redução na pressão arterial é estatisticamente significativa frente ao aumento na dose da medicação?
o Qual a alteração esperada na pressão arterial decorrente do acréscimo de 1 mg na dose da medicação?
o Qual a alteração esperada na pressão arterial decorrente do acréscimo de k mg na dose da medicação?
9
• Predição do valor da resposta para valores específicos das variáveis explicativas.
o Qual a diminuição média na pressão arterial para uma dose administrada 0x ?
o Qual a diminuição a ser observada na pressão arterial para uma dose administrada 0x ?
o Qual a dose necessária 0x para se obter uma resposta desejada 0y ?
10
Exemplo 1 – Deseja-se investigar se o ganho de peso de bovinos está relacionado à quantidade de certa
substância presente no pasto. Para isso, um estudo foi conduzido com 15 bois de mesma raça e idade, submetidos
a dietas com diferentes concentrações da referida substância.
Variáveis consideradas:
−X Concentração da substância (em litromg | );
−Y Ganho de peso do animal após 30 dias (em kg );
11
Dados:
Quadro 1 – Concentração da substância adicionada à dieta e ganhos de peso para os 15 bois.
Animal X Y Animal X Y
1 0,2 9,4 9 3,0 16,2
2 0,5 11,4 10 3,5 17,7
3 0,6 12,3 11 4,0 18,8
4 0,7 10,2 12 4,5 19,9
5 1,0 11,9 13 5,0 22,5
6 1,5 13,6 14 5,5 24,7
7 2,0 14,2 15 6,0 23,1
8 2,5 16,2
• Uma primeira avaliação da relação entre as variáveis pode ser obtida por meio de um gráfico de dispersão.
12
Concentração (mg|l)
Ganho d
e p
eso (kg)
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0
9
11
13
15
17
19
21
23
Figura 1 – Gráfico de dispersão – Ganho de peso vs concentração da substância na dieta.
13
• A Figura 1 evidencia fortemente uma relação linear entre o ganho de peso e a concentração da substância
na dieta.
• Uma forma de explicar a relação entre o ganho de peso e a concentração da substância na dieta seria por
meio da equação da reta (modelo) que descrevesse tal relação, de tal forma que, para um animal submetido
a uma dieta com concentração x o ganho de peso fosse dado por:
xy 10 ββ += . (1)
• Problema: diferentemente do modelo (1), o ganho de peso não pode ser determinado simplesmente a
partir da concentração da substância na dieta (há uma oscilação dos pontos em torno da reta, conforme
notado na Figura 2).
14
Concentração (mg|l)
Ganho d
e p
eso (
kg)
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0
9
11
13
15
17
19
21
23
Figura 2 – Gráfico de dispersão – Ganho de peso vs concentração da substância na dieta.
15
• Assim, um modelo mais apropriado para o problema seria da seguinte forma:
εββ ++= xy 10 , (2)
de tal forma que ε corresponde à diferença entre o valor observado y e o valor verificado na reta para o
respectivo x ( x10 ββ + ), ( )xy 10 ββε +−= configurando uma quantidade aleatória à qual denominamos erro.
16
Um pouco de terminologia
o O modelo apresentado em (2) configura um modelo de regressão, e com algumas suposições adicionais
acerca da distribuição do componente aleatório que estudaremos adiante, é denominado modelo de
regressão linear simples (o termo simples refere-se ao fato dele conter apenas uma variável explicativa).
o No contexto de análise de regressão, é usual denominarmos a variável a ser explicada (no caso do
Exemplo 2, o ganho de peso), como variável resposta (ou variável dependente), e as variáveis que
explicam a resposta como variáveis explicativas (ou variáveis independentes).
o As constantes que compõem o modelo (no caso do exemplo 2 os coeficientes da reta, 0β e 1β ), são
denominadas parâmetros. Os parâmetros exprimem a relação entre as variáveis.
o O termo ajuste de um modelo refere-se ao processo de estimação dos parâmetros (e, consequentemente, da
função de regressão) do modelo com base nos dados disponíveis, ou à própria função de regressão gerada
pelas estimativas obtidas.
17
Modelos de regressão lineares e não lineares
• O modelo apresentado em (2) pode ser expresso, numa forma mais geral, por:
( ) ε+= β;xfy , (3)
em que ( )′= 10 , βββ é o vetor de parâmetros, sendo ( ) ( )β;xfxf = a parte fixa (não aleatória) e ε o erro (parte
aleatória) do modelo.
• Diferentes alternativas podem ser consideradas para ( )β;xf , produzindo diferentes modelos de regressão.
• O modelo apresentado em (3) pode ser generalizado para um maior número (k ) de variáveis:
( ) ε+= βx ;fy
em que ( )pβββ ,...,, 10=β é o vetor de parâmetros e ( )kxxx ,...,, 21=x é o vetor de variáveis explicativas,
sendo ( ) ( )βx ;fxf = a parte fixa (não aleatória) e ε o erro (parte aleatória) do modelo.
18
• Uma representação informal dos modelos de regressão a serem tratados nesta disciplina é a seguinte:
aleatórioerroelodofunçãorespostaVariável += mod .
• No entanto, nessa disciplina trataremos prioritariamente dos modelos de regressão lineares. O termo linear,
neste caso, se refere à forma como os parâmetros (e não as variáveis explicativas) aparecem na função do
modelo.
• Assim, dizemos que um modelo de regressão da forma ( ) ε+= βx ;fy é linear se:
( )[ ]( ) pjh
fy
jj
,...,2,1,0,;
==∂
+∂=
∂
∂x
βxβ
ε
β,
ou seja, cada uma das derivadas parciais relativas aos sβ ′ não depende de parâmetros, mas apenas dos
dados.
19
Exercício 1 – Considere os modelos de regressão relacionados abaixo. Verifique se cada um deles
corresponde a um modelo de regressão linear.
a) εββ ++= xy 10 ;
b) ( ) εββ ++= xy ln10 ;
c) εββββ ++++= 33
2210 xxxy ;
d) εββββ ++++= 3322110 xxxy ;
e) ( ) εββ
ββ ++++= 2132
2110 ln xx
xxy ;
f) εββ β ++= 2210
xey ;
g) εβ
β+
+=
xe
y21
0 ;
h) ( ) εβββ ++= xseny 210 .
• Na sequencia são apresentados mais alguns exemplos de possíveis aplicações de análise de regressão.
20
Exemplo 2 – Dados referentes à resistência de amostras de papel ( y , expressas em libras por polegada
quadrada – psi) e à concentração de madeira na mistura usada na produção do papel ( x , expressa em %).
Quadro 2 – Concentração de madeira e resistência do papel.
Amostra X Y Amostra X Y
1 1 6,3 11 7 42,0
2 1,5 11,1 12 8 46,1
3 2 20,0 13 9 53,1
4 3 24,0 14 10 52,0
5 4 26,1 15 11 52,5
6 4,5 30,0 16 12 48,0
7 5 33,8 17 13 42,8
8 5,5 34,0 18 14 27,8
9 6 38,1 19 15 21,9
10 6,5 39,9
21
Concentração (%)
Resis
tência
(psi)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
5
10
15
20
25
30
35
40
45
50
Figura 3 – Gráfico de dispersão – Resistência do papel vs concentração de madeira na mistura.
22
• A relação entre a resistência do papel e a quantidade de madeira na mistura claramente não é linear.
• Um polinômio de segundo grau pode proporcionar melhor explicação da relação entre as variáveis do que
uma reta.
• Neste caso, pode-se considerar ( ) 2210; xxxf βββ ++=β , produzindo:
εβββ +++= 2210 xxy .
• A figura 3 apresenta a curva referente ao modelo ajustado. Trataremos adiante do ajuste de modelos de
regressão e, mais especificamente, de modelos baseados em polinômios (modelos polinomiais).
23
Concentração (%)
Resis
tência
(psi)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
5
10
15
20
25
30
35
40
45
50
Figura 4 – Gráfico de dispersão – Resistência do papel vs concentração de madeira na mistura.
24
Exemplo 4 – Dados (adaptados) referentes à velocidade de uma reação enzimática ( y , expressa em
contagens/min2) e à concentração de certo substrato ( x , expressa em ppm).
Quadro 2 – Velocidade da reação e concentração de substrato.
Repetição X Y Repetição X Y
1 0,02 47 7 0,02 76
2 0,06 97 8 0,06 107
3 0,11 123 9 0,11 139
4 0,22 152 10 0,22 159
5 0,56 191 11 0,56 201
6 1,10 200 12 1,10 207
25
Concentração (ppm)
Velo
cid
ade (c/m
in2)
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1
60
80
100
120
140
160
180
200
Figura 5 – Gráfico de dispersão para os dados da reação enzimática.
26
• Novamente, observa-se uma relação não linear entre as variáveis. Uma alternativa seria considerar algum
modelo polinomial.
• No entanto, sabe-se da teoria da Química, que o modelo de Michaelis-Menten descreve adequadamente
problemas de cinética enzimática, como o estudo em questão.
• Neste caso, considera-se ( )2
1;β
β
+=
x
xxf β , produzindo:
εβ
β+
+=
2
1
x
xy .
Nota – É prática comum usar algum modelo proveniente da teoria correspondente (no caso, da Química, mas
poderia ser da Física, Matemática,...) como base para a proposição de um modelo de regressão. Isso é
conveniente por vários motivos, dentre os quais o fato de se obter um melhor ajuste, do modelo ter propriedades
pertinentes ao problema em questão e dos parâmetros terem interpretações práticas.
27
Concentração (ppm)
Velo
cid
ade (c/m
in2)
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1
60
80
100
120
140
160
180
200
Figura 6 – Gráfico de dispersão para os dados da reação enzimática com modelo de regressão ajustado.
28
Exemplo 5 – Os dados apresentados na sequência referem-se ao tempo de serviço ( 1x , em anos) e à renda ( y , em
reais), de 20 profissionais de um mesmo segmento. Adicionalmente, sabe-se se cada um deles possui ou não
curso superior, o que configura uma segunda variável indicadora, que podemos definir da seguinte forma:
=eriorcursopossuise
eriorcursopossuinãosex
sup,1
sup,02
Nota – Este problema envolve uma variável explicativa quantitativa (tempo de serviço) e outra qualitativa
(formação). Modelos de regressão para tal situação são contemplados por uma técnica denominada análise de
covariância, que será estudada adiante.
29
Quadro 3 – Dados de renda, tempo de serviço e formação de 20 profissionais
Profissional 1X 2X Y Profissional 1X 2X Y
1 21 0 4535 11 3 1 3414
2 6 0 3195 12 20 1 6928
3 10 0 3539 13 11 1 4651
4 11 0 3742 14 5 1 3836
5 24 0 4707 15 15 1 5595
6 24 0 5034 16 12 1 5172
7 15 0 4331 17 12 1 4732
8 10 0 3748 18 24 1 7612
9 17 0 3887 19 18 1 6478
10 17 0 4436 20 20 1 6779
30
Tempo de serviço (anos)
Renda (
reais
)
3500
4000
4500
5000
5500
6000
6500
7000
7500
3 6 9 12 15 18 21 24
Curso superior
NãoSim
Figura 7 – Gráfico de dispersão para a renda segundo tempo de serviço e formação de 20 profissionais.
31
• Neste caso, parece haver uma relação linear entre a renda e o tempo de serviço. No entanto, essa relação
não é a mesma nos dois grupos (graduados e não graduados).
• Considerando relação linear entre a renda e o tempo de serviço, diferentes modelos poderiam ser
considerados, de acordo com algum dos seguintes cenários:
1. Uma única reta é capaz de descrever a relação entre as variáveis para os dois grupos (interceptos e taxas
de variação iguais nos dois grupos):
εββ ++= 110 xy .
2. A relação entre as variáveis para os dois grupos requer o ajuste de duas retas, mas o coeficiente angular é
o mesmo para os dois grupos (taxas de variação iguais):
εβββ +++= 22110 xxy .
32
3. A relação entre as variáveis para os dois grupos requer o ajuste de duas retas, mas o coeficiente linear é o
mesmo para os dois grupos (interceptos iguais):
εβββ +++= 212110 xxxy .
4. A relação entre as variáveis para os dois grupos requer o ajuste de duas retas, com interceptos e
coeficientes angulares distintos:
εββββ ++++= 21322110 xxxxy .
• Dos quatro cenários apresentados, o terceiro ou o quarto parecem mais plausíveis, de acordo com a Figura 8.
33
Tempo de serviço (anos)
Renda (re
ais
)
3500
4000
4500
5000
5500
6000
6500
7000
7500
3 6 9 12 15 18 21 24
Curso superior
Não
Sim
Tempo de serviço (anos)
Renda (re
ais
)
3500
4000
4500
5000
5500
6000
6500
7000
7500
3 6 9 12 15 18 21 24
Curso superior
Não
Sim
Tempo de serviço (anos)
Renda (re
ais
)
3500
4000
4500
5000
5500
6000
6500
7000
7500
3 6 9 12 15 18 21 24
Curso superior
Não
Sim
Tempo de serviço (anos)
Renda (re
ais
)3500
4000
4500
5000
5500
6000
6500
7000
7500
3 6 9 12 15 18 21 24
Curso superior
Não
Sim
Figura 8 – Gráficos de dispersão para a renda segundo tempo de serviço e formação de 20 profissionais com
retas de regressão ajustadas.
34
• Os problemas a serem abordados com análise de regressão, em geral, contemplam bases de dados maiores,
com amostras numerosas e grande quantidade (e diversidade de tipos) de variáveis explicativas.
35
Processo de ajuste de um modelo de regressão
1) Fase de especificação - Com base na teoria e nos dados disponíveis, propor um modelo de regressão;
o Determinar quais variáveis explicativas são relevantes para explicar a variável resposta;
o Especificar o escopo do modelo – a região de valores para as variáveis explicativas que será considerada
no estudo;
o Determinar a forma funcional que relaciona a variável resposta e as variáveis explicativas (Linear?
Quadrática? Alguma forma não linear extraída da teoria da área do problema?).
Nota – A análise preliminar dos dados, com a construção de diagramas de dispersão, ajuste de regressão não
paramétrica,... é fundamental na etapa de se propor o modelo.
36
2) Fase de ajuste - Usando a teoria estatística estimar os parâmetros do modelo;
3) Fase de diagnóstico - Analisar a adequação e validar o modelo ajustado;
o Avaliar se o modelo proposto é compatível com os dados disponíveis;
o Caso o modelo não se mostre adequado, deve-se voltar ao primeiro passo e rever sua especificação.
Nota – A Figura 9 apresenta quatro cenários distintos, envolvendo apenas duas variáveis, que produzem a
mesma reta de regressão. Tente diagnosticar, com base na dispersão dos dados, cada um dos ajustes. Você
diria que os quatro ajustes são adequados?
37
Figura 9 – Quatro cenários distintos que produzem a mesma reta de regressão. Fonte: Anscombe, 1973.
4) Fase de análise - Se o ajuste se mostrar adequado, o modelo pode ser usado para fins de descrição,
inferência e predição.
38
Alguns problemas recorrentes em análise de regressão
1) Extrapolação: corresponde à extensão indevida do modelo obtido, particularmente para fins de predição,
para valores não amostrados das variáveis explicativas.
Exemplo – Considere duas variáveis x e y , que apresentam uma relação não linear, conforme representado
pela linha contínua na Figura 9. Suponha que se tenha amostrado apenas valores de x no intervalo ( )21, xx e
proposto um modelo de regressão linear simples (ajuste de uma reta), conforme representado pela linha
tracejada.
o Como pode ser verificado, a relação entre as variáveis pode ser bem aproximada por uma reta no
intervalo que se dispõe de dados. Fora desse intervalo, a aproximação é insatisfatória. A predição do
valor de y correspondente a 3x , por exemplo, seria bem problemática.
39
x
y
x1 x2 x3
Figura 9 – Ilustração de problemas de extrapolação.
40
2) Generalização: os resultados produzidos por uma análise de regressão não devem ser generalizados para
outras populações que não a população sob estudo. Por exemplo, o fato de a renda estar relacionada ao grau
de escolaridade numa região não implica que o mesmo ocorra em outras regiões;
o A definição adequada da população sob estudo e do delineamento do estudo são fundamentais para
que os modelos de regressão produzidos possam ser adequadamente utilizados.
41
3) Dedução de relações de causa- efeito: modelos de regressão, em geral, não permitem comprovar relações
de causa e efeito, possibilitando apenas avaliar possíveis relações entre as variáveis. Muitas das relações
observadas podem ser espúrias, não configurando relação de causa-efeito. Segue um exemplo de ilustração.
o Um levantamento realizado com crianças e adolescentes pode facilmente revelar a relação entre a
habilidade de leitura e o tamanho dos pés (quanto maior o tamanho dos pés, maior habilidade de
leitura). Obviamente isso configura uma relação espúria. Ocorre que o tamanho dos pés está
relacionado à idade da criança (fator não considerado no estudo), e a habilidade de leitura aumenta
conforme a criança cresce.
• A comprovação de relações de causa-efeito requer a realização de estudos controlados (experimentos),
delineados com tal finalidade. Falaremos um pouco sobre os tipos de estudo logo adiante.
• Embora estudos observacionais não permitam comprovar relações de causa-efeito, a avaliação cuidadosa
dos resultados produzidos e o bom conhecimento do contexto do estudo possibilitam extrair indicativos de
tais relações.
42
Trabalho 1
Os alunos (divididos em duplas) deverão pesquisar um artigo científico de qualquer área do conhecimento
que contenha uma análise estatística de dados baseada no ajuste de modelos de regressão. Para o artigo escolhido,
caberá ao aluno redigir um breve relatório (de aproximadamente duas ou três páginas, descontando a capa com
nome dos alunos, da instituição, da disciplina e do professor, além do título do trabalho), no qual sejam
devidamente identificados e descritos:
• O contexto e o objetivo do estudo;
• A população sob estudo;
• O delineamento amostral;
• As variáveis consideradas (identificar a variável resposta e as variáveis explicativas, indicando as
respectivas escalas);
• A metodologia estatística aplicada;
• As técnicas descritivas (medidas resumo, tabelas e gráficos) utilizadas;
• O objetivo do uso da análise de regressão;
43
• As relações funcionais entre as variáveis (linear, quadrática, exponencial, alguma forma não-linear
específica...);
• O escopo do estudo;
• Os modelos de regressão utilizados são lineares ou não lineares?
• Tente identificar as quatro fases do processo de ajuste de um modelo de regressão. Apresente, se possível,
elementos do texto que caracterizem cada uma delas;
• Os principais resultados indicados no texto;
• Comentários ou críticas dos alunos com relação ao artigo;
• Há algum problema no artigo referente a extrapolação, generalização ou relações de causa-efeito
equivocadas? Há a menção dos autores sobre cuidados específicos para evitar tais erros?
Será realizada uma discussão em sala de aula, a respeito dos artigos, em data agendada pelo professor.