Introducao aos modelos de regressao normais
lineares
Prof. Caio Azevedo
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 1
Introducao
Estatıstica (link 1, link 2, link 3) (ciencia de dados): area do
conhecimento/Ciencia que trata de metodologias
(estatıstica/matematicas/computacionais) apropriadas para se
coletar, organizar e analisar dados.
A Estatıstica e uma ferramenta muito importante na resolucao de
problemas levantados nas diversas areas: Biologia, Psicometria,
Educacao, Medicina, Fısica, Computacao entre outras.
E importante que o Estatıstico (Cientista de Dados) participe de
todas as etapas de um estudo (pesquisa/consultoria).
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 2
Introducao (fonte da figura link)
Em geral a Estatıstica considera aspectos (amostragem,
planejamento de experimentos) que nao sao considerados em
Ciencias de Dados e vice-versa (certos algoritmos).
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 3
Etapas para a resolucao de um problema
1 Determinacao do problema/objeto de estudo (incluindo a populacao
de interesse).
2 Determinacao dos objetivos (gerais e especıficos).
3 Determinacao do tamanho da amostra-delineamento
amostral/experimental.
4 Levantamento dos dados: entrevistas, experimento, coleta de dados
etc.
5 Analise Descritiva.
6 Analise Inferencial (Modelos de regressao).
7 Conclusoes e elaboracao dos relatorios/artigos/trabalhos pertinentes.
Pode-se retornar a pontos anteriores ou mesmo avancar,
desconsiderando-se alguns pontos, consoante a necessidade.Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 4
Introducao
Foram vistas (?) ou estao sendo vistas (?) ate o momento, diversas
ferramentes de analise: descritiva, probabilıstica e inferencial.
Estudaremos como analisar a influencia de uma ou mais variaveis
(variaveis explicativas, covariaveis, variaveis explanatorias) em uma
variavel de interesse (variavel resposta ou resposta).
Nos focaremos nos modelos de regressao normal linear
homocedasticos (simples/multipla).
Entretanto, outros modelos (com outras distribuicoes) serao
discutidos.
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 5
Comentarios
(Alguns dos) Objetivos da Estatıstica
1 Identificar e estudar padroes (similaridade e dissimilaridade).
2 Explicar variabilidade.
3 Identificar e estudar estruturas de dependencia.
4 Realizar comparacoes, identificando e quantificando diferencas.
5 Estabelecer conclusoes para uma (ou mais) populacao(oes) de
interesse com base em uma (ou mais) amostra(s) dela(s) retirada(s).
6 Fazer previsoes.
7 Criar mecanismos de classificacao e/ou de formacao de grupos
(“clusterizacao”)
8 Estabelecer relacoes de causa e efeito.
Em geral, os modelos de regressao se prestam ao objetivos de 1 a 7.
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 6
Causalidade
Existencia de correlacao (correlacao significativa) nao implica,
necessariamente, numa relacao de causalidade (ref 2, ref 3) (do
ponto de vista do problema).
Em geral, altura e peso sao positivamente correlacionados, mas a
altura nao e determinada (biologicamente) pelo peso e vice-versa.
Outros fatores: genetica, alimentacao, meio-ambiente, de fato
determinam (simultaneamente) a altura e peso.
Dependencia e uma conceito mais amplo do que correlacao.
Existem algumas formas de definir, identificar e estudar (a existencia
de) estruturas de causalidade, como a Modelagem de Equacoes
Estruturais. Veja tambem: aqui, aqui e aqui.
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 7
Correlacoes espurias
Espurio: “sem sentido em termos do problema”.
Os dois graficos a seguir foram extraıdos do site: link
Eles apresentam exemplos de correlacao espuria.
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 8
Numero de divorcios em Maine × Consumo per capita de
margarina (EUA)
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 9
Numero de pessoas que se afogaram em piscinas ×
numero de filmes em que o Nicolas Cage apareceu
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 10
Motivacao
Em geral, principalmente com o advento do “Big data” e
(res)surgimento da nomenclatura “Data Science”, os problemas, das
mais diversas areas, demandam a utilizacao de pelo menos um dos
pontos de 1 a 7, mencionados anteriormente.
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 11
Motivacao
A maioria das metodologias de analise estatıstica ou sao modelos de
regressao, ou sao baseadas em modelos de regressao: analise de
sobrevivencia, analise de dados categorizados, analise de dados
hierarquicos, analise de dados longitudinais, teoria da resposta ao
item, estatıstica espacial, series temporais, analise multivariada,
modelos lineares generalizados, dentre outras. Assim, esta disciplina
e fundamentel para a compreensao e desenvolvimento da modelagem
estatıstica.
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 12
Objetivos
Desenvolver habilidades de compreensao e desenvolvimento das
ferramentas Estatısticas e Matematicas de analise de dados, via
modelos de regressao.
Desenvolvimento de habilidades computacionais.
Aprendizado de modelagem e resolucao de problemas com dados
univariados, com a respectiva capacidade de reportar os resultados.
O quanto possıvel, estimular a interacao com o responsavel pelo
problema, a fim de buscar as melhores solucoes. Neste curso,
analisar-se-a conjuntos de dados reais para os quais, basicamente,
nunca, nao se dispora de um consulente (o Prof. tentara fazer esse
papel).Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 13
Pre-requisitos
Calculo diferencial e integral: Calculo I, Calculo II, Calculo III.
Probabilidade I : pagina do curso de Probabilidade I
Probabilidade II : pagina do curso de Probabilidade II
Inferencia: pagina do curso de ME 419/ME 420 e MI 402
OBS: Em relacao a Probabilidade e Inferencia, em um primeiro
momento (ao menos), sugere-se pelo menos o conhecimento aos
nıveis de ME323 e ME414.
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 14
Exemplo introdutorio: estudo entre renda e escolaridade
O conjunto de dados foi extraıdo do censo do IBGE de 2000,
apresenta para cada unidade da federacao o numero medio de anos
de estudo (anos de estudo) e a renda media mensal em reais (renda)
do chefe ou chefes do domicılio.
Esses dados estao tambem armazenados no arquivo censo.dat,
disponıvel na pagina do curso.
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 15
Exemplo introdutorio: bancos de dados
ID UF anos de estudo renda
1 RR 5,70 685
2 AP 6,00 683
3 AC 4,50 526...
......
...
24 MT 5,40 775
25 GO 5,50 689
26 MS 5,70 731
27 DF 8,20 1499
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 16
Exemplo introdutorio: grafico de dispersao
4 5 6 7 8
400
600
800
1000
1200
1400
número médio de anos de estudo
renda
méd
ia me
nsal
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 17
Exemplo introdutorio: grafico de dispersao
4 5 6 7 8
400
600
800
1000
1200
1400
número médio de anos de estudo
renda
méd
ia me
nsal
RR AP
AC
RO
PA
AM
TO
PB
MA
RN
SE
PI
BA
PE
AL CE
SP
RJ
ESMG
SCRSPRMT
GOMS
DF
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 18
Exemplo introdutorio: estudo entre renda e escolaridade
Como esperado, a correlacao estimada e elevada e positiva. Mas isso
nao implica numa relacao de causa e efeito, necessariamente.
Ou seja, nao e o fato de uma pessoa (chefes de famılia) ter muitos
anos de estudo que a leva a ter uma renda elevada e vice-versa.
Devem existir outros fatores (ocupacao, condicao financeira dos
antepassados-heranca, idade, local de residencia, quantidade de
chefes de famılia) que influenciem ambas as variaveis e que as facam
estar positivamente relacionadas.
Alem disso, correlacoes altas (positivas ou negativas) podem ser
espurias (sem sentido).
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 19
Exemplo 0: altura e peso de homens e mulheres (espacos
em branco) missing
Os dados correspondem aos pesos (em kg) e alturas (em cm)
medidos e informados, de 200 indivıduos.
O sexo de cada um tambem foi coletado, sendo 112 mulheres e 88
homens.
Este conjunto de dados esta disponıvel em no R no pacote “car” sob
o nome “Davis”.
Consideraremos os valores medidos.
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 20
Exemplo 0: bancos de dados
subject sex weight height repwt repht
1 M 77 182 77 180
2 F 58 161 51 159
3 F 53 161 54 158...
......
......
...
47 M 73 180 NA NA
48 F 49 161 NA NA
199 M 90 181 91 178
200 M 79 177 81 178
“rep” significa “reportado”.Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 21
Exemplo 0: grafico de dispersao
60 80 100 120 140 160 180 200
4060
8010
012
014
016
0
altura
peso
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 22
Exemplo 0: altura e peso de homens e mulheres
(ρ = 0, 7707) sem a observacao discrepante
150 160 170 180 190
4060
8010
012
0
altura
peso
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 23
Exemplo 0: altura e peso de homens e mulheres
Como esperado, a correlacao estimada e elevada e positiva, mas isso
nao implica numa relacao de causa e efeito, necessariamente.
Ou seja, nao e o fato de uma pessoa ser alta que a faz ter uma peso
elevado e vice-versa.
Devem existir outros fatores (genetica, qualidade de vida,
alimentacao, fatores ambientais) que influenciem ambas as variaveis
e que as facam estar positivamente relacionadas.
Alem disso, correlacoes altas (positivas ou negativas) podem ser
espurias (sem sentido).
O sexo deve ser levado em consideracao?
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 24
Exemplo 0: grafico de dispersao por sexo
150 170 190
4060
8010
012
0Mulheres
altura
peso
150 170 19040
6080
100
120
Homens
altura
peso
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 25
Exemplo 0: grafico de dispersao por sexo
150 160 170 180 190 200
4060
8010
012
0
altura
peso
mulhereshomens
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 26
Exemplo 1: Teste de esforco cardiopulmonar
Considere o estudo sobre teste de esforco cardiopulmonar em
pacientes com insufiencia cardıaca realizado no InCor da Faculdade
de Medicina da USP pela Dra. Ana Fonseca Braga.
Um dos objetivos do estudo e comparar os grupos formados pelas
diferentes etiologias cardıacas quanto as respostas respiratorias e
metabolicas obtidas do teste de esforco cardiopulmonar.
Outro objetivo do estudo e saber se alguma das caracterısticas
observadas (ou combinacao delas) pode ser utilizada como fator
prognostico de obito.
Os dados podem ser encontrados em link.
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 27
Etiologias : CH: chagasicos, ID: idiopaticos, IS: isquemicos, C:
controle.
Considere que o objetivo e explicar a variacao do consumo de
oxigenio no limiar anaerobio (ml/(kg .min)) em funcao da carga
utilizada na esteira ergometrica para pacientes com diferentes
etiologias (causas) de insuficiencia cardıaca.
A grosso modo o Limiar Anaerobio e um ponto (limite), de divisao
entre metabolismo essencialmente aerobio e metabolismo
essencialmente anaerobio.
Aerobio (com a utilizacao de oxigenio) ; anaerobio (sem a utilizacao
de oxigenio).
Como responder a pergunta de interesse?
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 28
Dados (constantes no site sob o nome Braga1998.txt)
ID Etiologia Carga VO2
1 CH 41 10,0
2 CH 56 11,5
3 ID 8 7,0
4 ID 53 8,9
......
...
7 ID 0 6,5
......
...
123 C 64 14,1
124 C 70 12,4
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 29
0 20 40 60 80 100
510
1520
Consumo de oxigênio em função da carga
carga
vo2
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 30
0 20 40 60 80 100
510
1520
Consumo de oxigênio em função da carga
carga
vo2
diferentes valores do consumo para o mesmo valor da carga
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 31
Comentarios
Existe uma relacao entre as duas variaveis? De que tipo?
O fato de que quanto maior o valor da carga maior, maior o valor do
consumo de oxigenio, implica numa relacao de causa e efeito?
Ha outros fatores biologicos (hereditariedade, outras doencas),
comportamentais (dieta, pratica de exercıcios, remedios) e
ambientais (poluicao, clima), que, verdadeiramente, ditariam os
valores dessas duas variaveis para cada indivıduo?
O que significa dizer: para um dado valor da carga, o
comportamento do consumo de oxigenio e aleatorio e que pode ser
modelado “apropriadamente” por uma estrutura probabilıstica
(parametrica)?Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 32
Consumo de oxigênio em função da carga
carga
vo2
5
10
15
20
0 20 40 60 80 100
C CH
ID
0 20 40 60 80 100
5
10
15
20
IS
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 33
Comentarios
E importante levar em consideracao as diferentes etiologias?
Se sim, como considera-las na analise?
Ha interesse em comparar a influencia da carga no consumo de
oxigenio entre as diferentes etiologias cardıacas ?
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 34
Exemplo 2: Estudo da eficacia de escovas de dentes
Considere o seguinte estudo na area de Odontopediatria.
O objetivo e comparar duas escovas de dente (convencional e
experimental, chamada de “hugger”) com respeito a reducao de um
ındice de placa bacteriana (IPB) em criancas de ambos os sexos em
idade pre-escolar.
Os valores obtidos correspondem aos IPB’s medidos em alguns
dentes antes e depois da escovacao dental de 14 criancas do sexo
feminino e 12 do sexo masculino. Cada crianca utilizou cada um dos
tipos de escova sendo sempre a experimental, a primeira. O tipo de
escova tende a ser melhor quanto maior for sua “capacidade de
remocao” da placa bacteriana.Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 35
Dados
Tipo de escova
Hugger Convencional
Crianca Sexo Antes Depois Antes Depois
1 F 2,18 0,43 1,2 0,75
2 F 2,05 0,08 1,43 0,55
......
......
......
25 M 1,3 0,05 2,73 0,85
26 M 2,65 0,25 3,43 0,88
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 36
Exemplo 2: Estudo da eficacia de escovas de dentes
Como utilizar os IPB’s antes e depois ?
Deve-se considerar a variavel sexo?
O fato de sempre se utilizar o tipo de escova experimental
primeiramente pode ter influenciado os resultados?
Medidas repetidas: cada crianca e avaliada duas vezes. Possıvel
existencia de dependencia entre as observacoes.
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 37
0 1 2 3 4
0.0
0.5
1.0
1.5
2.0
Escova − Hugger
IPB antes da escovação
IPB
depo
is da
esc
ovaç
ão
0 1 2 3 4
0.0
0.5
1.0
1.5
2.0
Escova − Covencional
IPB antes da escovação
IPB
depo
is da
esc
ovaç
ão
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 38
0 1 2 3 4
0.0
0.5
1.0
1.5
2.0
Escova − Hugger
IPB antes da escovação
IPB
depo
is da
esc
ovaç
ão
0 1 2 3 4
0.0
0.5
1.0
1.5
2.0
Escova − Covencional
IPB antes da escovação
IPB
depo
is da
esc
ovaç
ão
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 39
Exemplo 3: efeito do fosforo na producao de milho
Tem-se o interesse em se saber se a quantidade (kg/ha) de fosforo
existente (administrada) no solo afeta a producao de milho (de uma
certa variedade) kg/parcela.
Fator: quantidade de fosforo, k = 5 nıveis (0,25,50,75,100),
ni = 4, i = 1, 2, 3, 4 repeticoes por tratamento (quantidade de
fosforo administrada).
Procedimento: 20 porcoes de terras, chamadas de parcelas (em
condicoes semelhantes) foram consideradas e cada uma delas
recebeu uma determinada quantidade de fosforo, de modo aleatorio
(completamente casualizado).
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 40
0 20 40 60 80 100
46
810
Produção de milho (kg/parcela) em função da quantidade de fósforo (kg/ha)
quantidade de fósforo(kg/ha)
prod
ução
de
milh
o (k
g/pa
rcel
a)
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 41
Exemplo 3: efeito do fosforo na producao de milho
Aparentemente, ha uma “tendencia crescente” na producao de
milho em funcao da quantidade de fosforo (ate certo valor).
Contudo, provavelmente, depois de uma certa quantidade de fosforo,
a producao tendera a diminuir.
Isso deve ser levado em consideracao.
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 42
Modelagem
Para todos os exemplos, podemos considerar algum tipo de
modelagem estatıstica para responder as perguntas de interesse.
Em nosso curso, consideraremos modelos lineares, em geral, normais
e homocedasticos (variabilidade constante).
A escolha de um modelo deve ser pautada: nos objetivos do
experimento, nas caracterısticas dos dados, em experiencias
anteriores (informacoes a priori) e na analise descritiva.
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 43
Cont.
Tais modelos (de regressao, de planejamento ou de analise de
covariancia) podem ser decompostos em uma parte sistematica e
uma parte aleatoria.
Todos eles podem ser acomodados em uma estrutura geral que
estudaremos ao longo do semestre.
Vamos discutir uma possibilidade para cada situacao.
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 44
Exemplo 1: desconsiderando as etiologias cardıacas
Yi = β0 + β1xi + ξi , i = 1, ..., 124
ξii.i.d.∼ N(0, σ2).
(β0, β1, σ2)′ : parametros desconhecidos.
xi : carga a que o paciente i foi submetido (conhecida e nao
aleatoria).
Parte sistematica: E(Yi ) = β0 + β1xi .
Parte aleatoria: ξi .
O modelo acima implica que Yiind.∼ N(β0 + β1xi , σ
2), Yi : valor do
consumo de oxigenio do paciente i .
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 45
β1 : e o incremento (positivo ou negativo) esperado no consumo de
oxigenio para o aumento de uma unidade na carga imposta.
Se for possıvel observar xi = 0, carga igual a 0, temos que:
β0 : valor esperado do consumo de oxigenio para pacientes
submetidos a uma carga igual a 0.
Caso contrario, podemos considerar o seguinte modelo:
Yi = β0 + β1(xi − x) + ξi , i = 1, ..., 124, x =1
124
n∑i=1
xi .
Neste caso, β0 e o valor esperado do consumo de oxigenio para
pacientes submetidos a uma carga igual a media amostral.
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 46
0 20 40 60 80 100
510
1520
Consumo de oxigênio em função da carga
carga
vo2
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 47
0 20 40 60 80 100
510
1520
Consumo de oxigênio em função da carga
carga
vo2
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 48
Exemplo 2: desconsiderando o sexo
Yij = β0i + β1i (xij − x) + ξij , i = 1, 2 (tipo de escova, 1 - Hugger;,
2 - Convencional); j = 1, ..., 26 (crianca) , x =1
52
2∑i=1
26∑j=1
xij = 1, 76
ξiji.i.d.∼ N(0, σ2).
(β01, β02, β11, β12, σ2)′ : parametros desconhecidos.
xij : IPB pre-escovacao da crianca j utilizando a escova do tipo i .
Parte sistematica: E(Yij) = β0i + β1i (xij − x).
Parte aleatoria: ξij .
O modelo acima implica que Yijind.∼ N(β0i + β1i (xij − x), σ2),
Yij :(IPB pos - escovacao) da crianca j utilizando a escova do tipo i .
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 49
β1i : e o incremento (positivo ou negativo) esperado no IPB
pos-escovacao para o aumento em uma unidade no IPB
pre-escovacao quando se utiliza a escova i.
β0i e o valor esperado no IPB pos-escovacao para criancas com IPB
pre-escovacao igual a x quando se utiliza a escova i.
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 50
Exemplo 3
Yi = β0 + β1xi + β2x2i + ξi , i = 1, 2, ..., 20
ξii.i.d.∼ N(0, σ2).
(β0, β1, β2, σ2)′ : parametros desconhecidos.
xi : quantidade de fosforo ministrada a i-esima parcela.
Parte sistematica: E(Yi ) = β0 + β1xi + β2x2i .
Parte aleatoria: ξi .
O modelo acima implica que Yiind.∼ N(β0 + β1xi + β2x
2i , σ
2), Yi : e
producao de milho da i-esima parcela.
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 51
β0 : valor esperado (media) da producao de milho quando a
quantidade de fosforo aplicada e igual a 0.
A interpretacao isolada dos parametros β1 e β2 e complicada mas,
podemos dizer que −β1
2β2e a quantidade de fosforo que retornar a
producao maxima (ou mınima (?)) esperada de milho.
Neste caso, o valor esperado da producao maxima (ou mınima) de
milho e dado por : µmax =4β0β2−β2
1
4β2
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 52
Modelo de regressao normal linear simples homocedastico
(MRNLSH)
Yi = β0 + β1xi + ξi , i = 1, ..., n
ξii.i.d.∼ N(0, σ2).
Estimacao de β = (β0, β1)′:
Maxima verossimilhanca: maximizar a verossimilhanca.
Mınimos quadrados ordinarios (MQO). Minimizar
Q =n∑
i=1
(yi − β0 − β1xi )2,
em relacao a β.
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 53
Ilustracao grafica do MRNLSH
0
250
500
0 10 20 30 40 50x
y
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 54
Estimacao
Resolver o sistema de equacoes a seguir (defina:
S(βi ) = ∂Q∂βi, i = 0, 1) S(β0) = 0
S(β1) = 0
Temos que S(β0) = −2∑n
i=1(yi − β0 − β1xi ) e
S(β1) = −2∑n
i=1 xi (yi − β0 − β1xi )
Portanto∑n
i=1(yi − β0 − β1xi ) = 0∑ni=1 xi (yi − β0 − β1xi ) = 0
→∑n
i=1 yi − β0n − β1
∑ni=1 xi = 0∑n
i=1 xiyi − β0
∑ni=1 xi − β1
∑ni=1 x
2i = 0
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 55
Logo y − β0 − β1x = 0 (1)
yx − β0x − β1x2 = 0 (2)(1)
em que y =∑n
i=1yin , x j =
∑ni=1
x ji
n , j = 1, 2 e yx =∑n
i=1yixin .
Da Equacao (1) do sistema (1) temos que
β0 = y − β1x . (2)
De (2) na Equacao (2) do sistema (1), temos que
yx − y x + β1x2 − β1x2 = 0→ β1 =
yx − y x
x2 − x2
=1
n(x2 − x2)
[n∑
i=1
yi (xi − x)
]=
1∑ni=1(xi − x)2
[n∑
i=1
yi (xi − x)
]Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 56
Prove que 1n
∑ni=1(xi − x)2 = x2 − x2
Assim os estimadores de MQ de β0 e β1 sao, respectivamente,
β0 = Y − β1x =n∑
i=1
[Yi
(1
n− x
(xi − x)∑ni=1(xi − x)2
)](3)
β1 =1∑n
i=1(xi − x)2
[n∑
i=1
Yi (xi − x)
](4)
e as respectivas estimativas sao dadas por
β0 = y − β1x =n∑
i=1
[yi
(1
n− x
(xi − x)∑ni=1(xi − x)2
)](5)
β1 =1∑n
i=1(xi − x)2
[n∑
i=1
yi (xi − x)
](6)
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 57
Define-se o valore predito para a i-esima observacao (que coincide
com o valor predito para sua esperanca) como
Yi = E(Yi ) = β0 + β1xi .
Em aulas vindouras veremos como construir intervalos de confianca
(esperanca) e de previsao (valor individual).
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 58
Note que o metodo de MQO nao requer suposicoes para a
distribuicao dos erros. Exercıcio: prove que, sob as suposicoes
consideradas (independencia, normalidade e homocedasticidade dos
erros) os estimatimadores de MQ de β coincidem com os de MV
(maxima verossimilhanca). Obtenha tambem o EMV de σ2.
Vamos obter as distribuicoes dos estimadores de MQ. Como ambos
sao combinacoes lineares de normais (veja (3) e (4)), entao segue-se
que β0 ∼ N(E(β0),V(β0)) e β1 ∼ N(E(β1),V(β1)).
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 59
Temos que
E(β0) = E(Y )− E(β1)x = β0 + β1x − E(β1)x (7)
Por outro lado
E(β1) =1∑n
i=1(xi − x)2
[n∑
i=1
E(Yi )(xi − x)
]
=1∑n
i=1(xi − x)2
[n∑
i=1
(β0 + β1xi )(xi − x)
]
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 60
Continuando
E(β1) =1∑n
i=1(xi − x)2
[β0
n∑i=1
(xi − x) + β1
n∑i=1
(x2i − xix)
]
=1∑n
i=1(xi − x)2
β0
n∑i=1
(xi − x)︸ ︷︷ ︸0
+β1
n∑i=1
(x2i − xix)︸ ︷︷ ︸∑n
i=1(xi−x)2
=
1∑ni=1(xi − x)2
[β1
n∑i=1
(xi − x)2
]= β1 (8)
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 61
De (8) em (7), vem que:
E(β0) = β0 + β1x − β1x = β0
Portanto, ambos os estimadores sao nao viciados.
Por outro lado
V(β1)ind.=
1
(∑n
i=1(xi − x)2)2
[n∑
i=1
V(Yi )(xi − x)2
]
= σ2 1
(∑n
i=1(xi − x)2)2
[n∑
i=1
(xi − x)2
]=
σ2∑ni=1(xi − x)2
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 62
Alem disso,
V(β0) = V(Y ) + x2V(β1)− 2Cov(Y , β1x)
=σ2
n+ x2 σ2∑n
i=1(xi − x)2− 2xCov(Y , β1)
Mas, note que β1 =∑n
i=1 Yiai , em que
ai =(xi − x)∑ni=1(xi − x)2
(9)
com∑n
i=1 ai = 0
Cov(Y , β1) = xCov
(1
n
n∑i=1
Yi ,
n∑i=1
Yiai
)= Cov
(n∑
i=1
Yi ,
n∑i=1
Yiai
)
=1
n
n∑i=1
ai Cov(Yi ,Yi )︸ ︷︷ ︸V(Yi )=σ2
=σ2
n
n∑i=1
ai = 0 (10)
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 63
Logo
V(β0) = σ2
[1
n+
x2∑ni=1(xi − x)2
]Portanto β0 ∼ N
(β0, σ
2[
1n + x2∑n
i=1(xi−x)2
])e
β1 ∼ N(β1,
σ2∑ni=1(xi−x)2 )
). Como V(βj) −−−→
n→∞0, j = 0, 1, e possıvel
provar que ambos os estimadores sao consistentes(βj
P−−−→n→∞
0, j = 0, 1)
(exercıcio).
A distribuicao conjunta de β0 = (β0, β1)′ (provaremos tal resultado
mais a frente) e dada por:
N2
β0
β1
,
V(β0) Cov(β0, β1)
. V(β1)
(normal bivariada)
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 64
Em que
Cov(β0, β1) = Cov(Y − β1x , β1) = Cov(Y , β1)︸ ︷︷ ︸0
−xV(β1)
= −x σ2∑ni=1(xi − x)2
(11)
Inferencia: para construirmos intervalos de confianca (IC) bem como
testes de hipotese (TH) precisaremos (e uma forma) de obter a
distribuicao exata ou assintotica de quantidades pivotais bem como
de estatıstica de teste apropriadas.
Contudo, note que σ2 e desconhecido. Devemos, portanto, utilizar
um estimador apropriado para ele.
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 65
Sugestao:
σ2 =1
n − 2
n∑i=1
(Yi − β0 − β1xi )2 (12)
em que σ2 = 1n−2
∑ni=1(yi − β0 − β1xi )
2 e a respectiva estimativa.
Este estimador e nao viciado e consistente, alem do que
(n−2)σ2
σ2 ∼ χ2(n−2). Tambem, temos que β0⊥σ2, β1⊥σ2 (provaremos
mais adiante).
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 66
Vamos provar, por hora, que ele e nao viciado. Note que:
E(σ2) =1
n − 2
n∑i=1
E(Yi − β0 − β1xi
)2
=1
n − 2
n∑i=1
V(Yi − β0 − β1xi ) + E2(Yi − β0 − β1xi )︸ ︷︷ ︸0
No proximo slide, de (10), (11) e (9) e provando que
Cov(Yi , β0) = σ2
n − xaiσ2, vem que:
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 67
E(σ2) =1
n − 2
n∑i=1
[V(Yi ) + V(β0) + V(β1)x2
i − 2Cov(Yi , β0)
− 2xiCov(Yi , β1) + 2xiCov(β0, β1)
]
=1
n − 2
n∑i=1
[σ2 +
σ2
n+
x2σ2∑ni=1(xi − x)2
+x2i σ
2∑ni=1(xi − x)2
− 2σ2
n
+ 2xaiσ2 − 2xiaiσ
2 − 2xixσ2∑n
i=1(xi − x)2
]
=1
n − 2
[nσ2 − σ2 +
nx2σ2∑ni=1(xi − x)2
+σ2∑n
i=1 x2i∑n
i=1(xi − x)2
− 2σ2∑n
i=1 xi (xi − x)∑ni=1(xi − x)2
− 2nx2σ2∑n
i=1(xi − x)2
]= σ2
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 68
Voltando a questao da inferencia com respeito ao vetor β. Temos
que (definindo d = 1n + x2∑n
i=1(xi−x)2 )
β0 − β0√σ2d
∼ N(0, 1) ;β1 − β1√
σ2/(∑n
i=1(xi − x)2)∼ N(0, 1)
Alem disso, ja vimos que (n−2)σ2
σ2 ∼ χ2n−2 e que e independente de
β0 e β1, logo
β0 − β0√σ2d
/
√(n − 2)σ2
(n − 2)σ2=β0 − β0√σ2d
∼ t(n−2)
Analogamente, temos que β1−β1√σ2/(
∑ni=1(xi−x)2)
∼ t(n−2)
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 69
Intervalos de confianca: considerando-se
P(X ≤ t 1+γ2
) = 1+γ2 , (X ∼ t(n−2)), temos que (j = 0, 1; γ ∈ (0, 1))
IC (βj , γ) =
[βj − t 1+γ
2
√σ2ψj ; βj + t 1+γ
2
√σ2ψj
]em que ψ0 = d , ψ1 = 1
(∑n
i=1(xi−x)2) .
IC numerico:
IC (βj , γ) =
[βj − t 1+γ
2
√σ2ψj ; βj + t 1+γ
2
√σ2ψj
]em que (.) sao as respectivas estimativas.
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 70
Testes de hipoteses
Suponha que queremos testar H0 : βj = βj0 vs H1 : βj 6= βj0, para
algum j , em que βj0 e um valor fixado, j=0,1.
Estatıstica do teste Tt =βj−βj0√σ2ψj
, em que βj , j = 0, 1 sao dados por
(3) e (4), respectivamente e σ2 e dado por (12).
Sob H0, Tt ∼ t(n−2). Assim, rejeita-se H0 se |tt | ≥ tc , em que
tt =βj−βj0√σ2ψj
, em que βj , j = 0, 1 sao dados por (5) e (6),
respectivamente, e P(X ≥ tc |H0) = α/2,X ∼ t(n−2), α ∈ (0, 1).
Alem disso, σ2 e como definido anteriormente.
De modo equivalente, rejeita-se H0 se p-valor ≤ α, em que
p-valor = 2P(X ≥ |tt ||H0), X ∼ t(n−2).
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 71
Ajuste de modelos de regressao linear simples normais
homocedasticos no R
Funcao lm.
Comando geral lm(y ∼ x1), y: variavel resposta, x1: variavel
explicativa.
Modelo sem intercepto lm(y ∼ −1 + x1), y: variavel resposta, x1:
variavel explicativa.
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 72
Exemplo 1: sem considerar as etiologias cardıacas
Yi = β0 + β1xi + ξi
Parametro Estimativa EP IC(95%) Estat. t p-valor
β0 6,563 0,356 [5,859 ; 7,268] 18,434 <0,0001
β1 0,085 0,006 [0,072 ; 0,100] 12,516 <0,0001
Os dois parametros sao diferentes de 0.
A carga influencia positivamente o consumo de oxigenio.
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 73
Exemplo 1: sem considerar as etiologias cardıacas
Yi = β0 + β1xi + ξi (cont.)
O consumo de oxigenio para pacientes submetidos a carga 0 tende a
se apresentar entre 5,859 e 7,268 ml/(kg.min).
Por outro lado, o aumento esperado no consumo para o aumento em
uma unidade da carga tende a se apresentar entre 0,072 e 0,100
ml/(kg.min).
A etapa de verificacao de qualidade de ajuste do modelo, que
deve preceder a sua utilizacao para fins inferenciais, sera
discutida posteriormente. Isso vale para todos os exemplos
que veremos.
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 74
Dispersao entre carga e consumo e reta ajustada
0 20 40 60 80 100
510
1520
Consumo de oxigênio em função da carga
carga
vo2
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 75
Consumos de oxigenio observado e predito modelo
5 10 15 20
510
1520
consumo de oxigênio observado
cons
umo d
e oxig
ênio
predit
o
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 76
Otimalidade dos estimadores
Vamos provar que β0 e o melhor (menor variancia) estimador linear
nao viciado para β0. A prova para β1 e analoga e fica como
exercıcio.
Estamos restritos a classe dos estimadores β0 =∑n
i=1 aiYi com
ai , i = 1, 2, ..., n nao aleatorios, tais que
E(β0) =n∑
i=1
aiE(Yi ) =n∑
i=1
ai (β0 + β1xi )
= β0
n∑i=1
ai + β1
n∑i=1
aixi = β0
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 77
Otimalidade dos estimadores
Isso implica que
n∑i=1
ai = 1 ;n∑
i=1
aixi = 0 (13)
Alem disso, V(β0) =∑n
i=1 a2i V(Yi ) = σ2
∑ni=1 a
2i .
Portanto, devemos minimizar∑n
i=1 a2i sujeito a (13). Utilizando a
metodologia dos multiplicadores de Lagrange, isto equivale a
minimizar (em ai ) a funcao:
L =n∑
i=1
a2i + λ1
(n∑
i=1
ai − 1
)+ λ2
(n∑
i=1
aixi
)Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 78
Otimalidade dos estimadores
As derivadas de interesse sao: ∂L∂ai
= 2ai + λ1 + λ2xi ,
∂Lλ1
=∑n
i=1 ai − 1 e ∂Lλ2
=∑n
i=1 aixi .
Assim, obtemos o seguinte sistema de equacoes:2ai + λ1 + λ2xi = 0 (1), i = 1, 2, ..., n∑n
i=1 ai = 1 (2)∑ni=1 aixi = 0 (3)
(14)
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 79
Somando-se as “n” em (1) equacoes do sistema (14), vem que:
2n∑
i=1
ai︸ ︷︷ ︸1
+nλ1 + λ2
n∑i=1
xi = 0→ nλ1 + λ2
n∑i=1
xi = −2 (15)
Multiplicando as “n” em (1) equacoes do sistema (14) por xi e
somando-as, vem que:
2n∑
i=1
aixi︸ ︷︷ ︸0
+λ1
n∑i=1
xi + λ2
n∑i=1
x2i = 0→ λ1
n∑i=1
xi + λ2
n∑i=1
x2i = 0
→ λ1 = −λ2
∑ni=1 x
2i∑n
i=1 xi(16)
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 80
De (16) em (15), temos que:
−nλ2
∑ni=1 x
2i∑n
i=1 xi+ λ2
n∑i=1
xi = −2→ λ2
[n∑
i=1
xi − n
∑ni=1 x
2i∑n
i=1 xi
]= −2
→ λ2
[nx −
∑ni=1 x
2i
x
]= −2→ λ2 =
−2x
nx2 −∑n
i=1 x2i
=2x∑n
i=1(xi − x)2(17)
De (17) em (16), vem que:
λ1 = −∑n
i=1 x2i∑n
i=1 xi
2x∑ni=1(xi − x)2
= −2∑n
i=1 x2i
n∑n
i=1(xi − x)2(18)
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 81
De (17) e (18) na Equacao (1) do sistema (14), temos que:
2ai = −2∑n
i=1 x2i
n∑n
i=1(xi − x)2+ xi
2x∑ni=1(xi − x)2
→ ai =
∑ni=1 x
2i /n − xxi∑n
i=1(xi − x)2=
1
n− x(xi − x)∑n
i=1(xi − x)2.
Veja a equacao (3). Assim, o resultado esta provado.
Prof. Caio Azevedo
Introducao aos modelos de regressao normais lineares 82