82
Introdu¸c˜ ao aos modelos de regress˜ ao normais lineares Prof. Caio Azevedo Prof. Caio Azevedo Introdu¸ ao aos modelos de regress˜ ao normais lineares 1

Introdução aos modelos de regressão normais lineares

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Introducao aos modelos de regressao normais

lineares

Prof. Caio Azevedo

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 1

Introducao

Estatıstica (link 1, link 2, link 3) (ciencia de dados): area do

conhecimento/Ciencia que trata de metodologias

(estatıstica/matematicas/computacionais) apropriadas para se

coletar, organizar e analisar dados.

A Estatıstica e uma ferramenta muito importante na resolucao de

problemas levantados nas diversas areas: Biologia, Psicometria,

Educacao, Medicina, Fısica, Computacao entre outras.

E importante que o Estatıstico (Cientista de Dados) participe de

todas as etapas de um estudo (pesquisa/consultoria).

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 2

Introducao (fonte da figura link)

Em geral a Estatıstica considera aspectos (amostragem,

planejamento de experimentos) que nao sao considerados em

Ciencias de Dados e vice-versa (certos algoritmos).

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 3

Etapas para a resolucao de um problema

1 Determinacao do problema/objeto de estudo (incluindo a populacao

de interesse).

2 Determinacao dos objetivos (gerais e especıficos).

3 Determinacao do tamanho da amostra-delineamento

amostral/experimental.

4 Levantamento dos dados: entrevistas, experimento, coleta de dados

etc.

5 Analise Descritiva.

6 Analise Inferencial (Modelos de regressao).

7 Conclusoes e elaboracao dos relatorios/artigos/trabalhos pertinentes.

Pode-se retornar a pontos anteriores ou mesmo avancar,

desconsiderando-se alguns pontos, consoante a necessidade.Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 4

Introducao

Foram vistas (?) ou estao sendo vistas (?) ate o momento, diversas

ferramentes de analise: descritiva, probabilıstica e inferencial.

Estudaremos como analisar a influencia de uma ou mais variaveis

(variaveis explicativas, covariaveis, variaveis explanatorias) em uma

variavel de interesse (variavel resposta ou resposta).

Nos focaremos nos modelos de regressao normal linear

homocedasticos (simples/multipla).

Entretanto, outros modelos (com outras distribuicoes) serao

discutidos.

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 5

Comentarios

(Alguns dos) Objetivos da Estatıstica

1 Identificar e estudar padroes (similaridade e dissimilaridade).

2 Explicar variabilidade.

3 Identificar e estudar estruturas de dependencia.

4 Realizar comparacoes, identificando e quantificando diferencas.

5 Estabelecer conclusoes para uma (ou mais) populacao(oes) de

interesse com base em uma (ou mais) amostra(s) dela(s) retirada(s).

6 Fazer previsoes.

7 Criar mecanismos de classificacao e/ou de formacao de grupos

(“clusterizacao”)

8 Estabelecer relacoes de causa e efeito.

Em geral, os modelos de regressao se prestam ao objetivos de 1 a 7.

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 6

Causalidade

Existencia de correlacao (correlacao significativa) nao implica,

necessariamente, numa relacao de causalidade (ref 2, ref 3) (do

ponto de vista do problema).

Em geral, altura e peso sao positivamente correlacionados, mas a

altura nao e determinada (biologicamente) pelo peso e vice-versa.

Outros fatores: genetica, alimentacao, meio-ambiente, de fato

determinam (simultaneamente) a altura e peso.

Dependencia e uma conceito mais amplo do que correlacao.

Existem algumas formas de definir, identificar e estudar (a existencia

de) estruturas de causalidade, como a Modelagem de Equacoes

Estruturais. Veja tambem: aqui, aqui e aqui.

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 7

Correlacoes espurias

Espurio: “sem sentido em termos do problema”.

Os dois graficos a seguir foram extraıdos do site: link

Eles apresentam exemplos de correlacao espuria.

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 8

Numero de divorcios em Maine × Consumo per capita de

margarina (EUA)

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 9

Numero de pessoas que se afogaram em piscinas ×

numero de filmes em que o Nicolas Cage apareceu

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 10

Motivacao

Em geral, principalmente com o advento do “Big data” e

(res)surgimento da nomenclatura “Data Science”, os problemas, das

mais diversas areas, demandam a utilizacao de pelo menos um dos

pontos de 1 a 7, mencionados anteriormente.

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 11

Motivacao

A maioria das metodologias de analise estatıstica ou sao modelos de

regressao, ou sao baseadas em modelos de regressao: analise de

sobrevivencia, analise de dados categorizados, analise de dados

hierarquicos, analise de dados longitudinais, teoria da resposta ao

item, estatıstica espacial, series temporais, analise multivariada,

modelos lineares generalizados, dentre outras. Assim, esta disciplina

e fundamentel para a compreensao e desenvolvimento da modelagem

estatıstica.

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 12

Objetivos

Desenvolver habilidades de compreensao e desenvolvimento das

ferramentas Estatısticas e Matematicas de analise de dados, via

modelos de regressao.

Desenvolvimento de habilidades computacionais.

Aprendizado de modelagem e resolucao de problemas com dados

univariados, com a respectiva capacidade de reportar os resultados.

O quanto possıvel, estimular a interacao com o responsavel pelo

problema, a fim de buscar as melhores solucoes. Neste curso,

analisar-se-a conjuntos de dados reais para os quais, basicamente,

nunca, nao se dispora de um consulente (o Prof. tentara fazer esse

papel).Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 13

Pre-requisitos

Calculo diferencial e integral: Calculo I, Calculo II, Calculo III.

Probabilidade I : pagina do curso de Probabilidade I

Probabilidade II : pagina do curso de Probabilidade II

Inferencia: pagina do curso de ME 419/ME 420 e MI 402

OBS: Em relacao a Probabilidade e Inferencia, em um primeiro

momento (ao menos), sugere-se pelo menos o conhecimento aos

nıveis de ME323 e ME414.

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 14

Exemplo introdutorio: estudo entre renda e escolaridade

O conjunto de dados foi extraıdo do censo do IBGE de 2000,

apresenta para cada unidade da federacao o numero medio de anos

de estudo (anos de estudo) e a renda media mensal em reais (renda)

do chefe ou chefes do domicılio.

Esses dados estao tambem armazenados no arquivo censo.dat,

disponıvel na pagina do curso.

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 15

Exemplo introdutorio: bancos de dados

ID UF anos de estudo renda

1 RR 5,70 685

2 AP 6,00 683

3 AC 4,50 526...

......

...

24 MT 5,40 775

25 GO 5,50 689

26 MS 5,70 731

27 DF 8,20 1499

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 16

Exemplo introdutorio: grafico de dispersao

4 5 6 7 8

400

600

800

1000

1200

1400

número médio de anos de estudo

renda

méd

ia me

nsal

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 17

Exemplo introdutorio: grafico de dispersao

4 5 6 7 8

400

600

800

1000

1200

1400

número médio de anos de estudo

renda

méd

ia me

nsal

RR AP

AC

RO

PA

AM

TO

PB

MA

RN

SE

PI

BA

PE

AL CE

SP

RJ

ESMG

SCRSPRMT

GOMS

DF

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 18

Exemplo introdutorio: estudo entre renda e escolaridade

Como esperado, a correlacao estimada e elevada e positiva. Mas isso

nao implica numa relacao de causa e efeito, necessariamente.

Ou seja, nao e o fato de uma pessoa (chefes de famılia) ter muitos

anos de estudo que a leva a ter uma renda elevada e vice-versa.

Devem existir outros fatores (ocupacao, condicao financeira dos

antepassados-heranca, idade, local de residencia, quantidade de

chefes de famılia) que influenciem ambas as variaveis e que as facam

estar positivamente relacionadas.

Alem disso, correlacoes altas (positivas ou negativas) podem ser

espurias (sem sentido).

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 19

Exemplo 0: altura e peso de homens e mulheres (espacos

em branco) missing

Os dados correspondem aos pesos (em kg) e alturas (em cm)

medidos e informados, de 200 indivıduos.

O sexo de cada um tambem foi coletado, sendo 112 mulheres e 88

homens.

Este conjunto de dados esta disponıvel em no R no pacote “car” sob

o nome “Davis”.

Consideraremos os valores medidos.

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 20

Exemplo 0: bancos de dados

subject sex weight height repwt repht

1 M 77 182 77 180

2 F 58 161 51 159

3 F 53 161 54 158...

......

......

...

47 M 73 180 NA NA

48 F 49 161 NA NA

199 M 90 181 91 178

200 M 79 177 81 178

“rep” significa “reportado”.Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 21

Exemplo 0: grafico de dispersao

60 80 100 120 140 160 180 200

4060

8010

012

014

016

0

altura

peso

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 22

Exemplo 0: altura e peso de homens e mulheres

(ρ = 0, 7707) sem a observacao discrepante

150 160 170 180 190

4060

8010

012

0

altura

peso

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 23

Exemplo 0: altura e peso de homens e mulheres

Como esperado, a correlacao estimada e elevada e positiva, mas isso

nao implica numa relacao de causa e efeito, necessariamente.

Ou seja, nao e o fato de uma pessoa ser alta que a faz ter uma peso

elevado e vice-versa.

Devem existir outros fatores (genetica, qualidade de vida,

alimentacao, fatores ambientais) que influenciem ambas as variaveis

e que as facam estar positivamente relacionadas.

Alem disso, correlacoes altas (positivas ou negativas) podem ser

espurias (sem sentido).

O sexo deve ser levado em consideracao?

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 24

Exemplo 0: grafico de dispersao por sexo

150 170 190

4060

8010

012

0Mulheres

altura

peso

150 170 19040

6080

100

120

Homens

altura

peso

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 25

Exemplo 0: grafico de dispersao por sexo

150 160 170 180 190 200

4060

8010

012

0

altura

peso

mulhereshomens

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 26

Exemplo 1: Teste de esforco cardiopulmonar

Considere o estudo sobre teste de esforco cardiopulmonar em

pacientes com insufiencia cardıaca realizado no InCor da Faculdade

de Medicina da USP pela Dra. Ana Fonseca Braga.

Um dos objetivos do estudo e comparar os grupos formados pelas

diferentes etiologias cardıacas quanto as respostas respiratorias e

metabolicas obtidas do teste de esforco cardiopulmonar.

Outro objetivo do estudo e saber se alguma das caracterısticas

observadas (ou combinacao delas) pode ser utilizada como fator

prognostico de obito.

Os dados podem ser encontrados em link.

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 27

Etiologias : CH: chagasicos, ID: idiopaticos, IS: isquemicos, C:

controle.

Considere que o objetivo e explicar a variacao do consumo de

oxigenio no limiar anaerobio (ml/(kg .min)) em funcao da carga

utilizada na esteira ergometrica para pacientes com diferentes

etiologias (causas) de insuficiencia cardıaca.

A grosso modo o Limiar Anaerobio e um ponto (limite), de divisao

entre metabolismo essencialmente aerobio e metabolismo

essencialmente anaerobio.

Aerobio (com a utilizacao de oxigenio) ; anaerobio (sem a utilizacao

de oxigenio).

Como responder a pergunta de interesse?

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 28

Dados (constantes no site sob o nome Braga1998.txt)

ID Etiologia Carga VO2

1 CH 41 10,0

2 CH 56 11,5

3 ID 8 7,0

4 ID 53 8,9

......

...

7 ID 0 6,5

......

...

123 C 64 14,1

124 C 70 12,4

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 29

0 20 40 60 80 100

510

1520

Consumo de oxigênio em função da carga

carga

vo2

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 30

0 20 40 60 80 100

510

1520

Consumo de oxigênio em função da carga

carga

vo2

diferentes valores do consumo para o mesmo valor da carga

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 31

Comentarios

Existe uma relacao entre as duas variaveis? De que tipo?

O fato de que quanto maior o valor da carga maior, maior o valor do

consumo de oxigenio, implica numa relacao de causa e efeito?

Ha outros fatores biologicos (hereditariedade, outras doencas),

comportamentais (dieta, pratica de exercıcios, remedios) e

ambientais (poluicao, clima), que, verdadeiramente, ditariam os

valores dessas duas variaveis para cada indivıduo?

O que significa dizer: para um dado valor da carga, o

comportamento do consumo de oxigenio e aleatorio e que pode ser

modelado “apropriadamente” por uma estrutura probabilıstica

(parametrica)?Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 32

Consumo de oxigênio em função da carga

carga

vo2

5

10

15

20

0 20 40 60 80 100

C CH

ID

0 20 40 60 80 100

5

10

15

20

IS

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 33

Comentarios

E importante levar em consideracao as diferentes etiologias?

Se sim, como considera-las na analise?

Ha interesse em comparar a influencia da carga no consumo de

oxigenio entre as diferentes etiologias cardıacas ?

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 34

Exemplo 2: Estudo da eficacia de escovas de dentes

Considere o seguinte estudo na area de Odontopediatria.

O objetivo e comparar duas escovas de dente (convencional e

experimental, chamada de “hugger”) com respeito a reducao de um

ındice de placa bacteriana (IPB) em criancas de ambos os sexos em

idade pre-escolar.

Os valores obtidos correspondem aos IPB’s medidos em alguns

dentes antes e depois da escovacao dental de 14 criancas do sexo

feminino e 12 do sexo masculino. Cada crianca utilizou cada um dos

tipos de escova sendo sempre a experimental, a primeira. O tipo de

escova tende a ser melhor quanto maior for sua “capacidade de

remocao” da placa bacteriana.Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 35

Dados

Tipo de escova

Hugger Convencional

Crianca Sexo Antes Depois Antes Depois

1 F 2,18 0,43 1,2 0,75

2 F 2,05 0,08 1,43 0,55

......

......

......

25 M 1,3 0,05 2,73 0,85

26 M 2,65 0,25 3,43 0,88

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 36

Exemplo 2: Estudo da eficacia de escovas de dentes

Como utilizar os IPB’s antes e depois ?

Deve-se considerar a variavel sexo?

O fato de sempre se utilizar o tipo de escova experimental

primeiramente pode ter influenciado os resultados?

Medidas repetidas: cada crianca e avaliada duas vezes. Possıvel

existencia de dependencia entre as observacoes.

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 37

0 1 2 3 4

0.0

0.5

1.0

1.5

2.0

Escova − Hugger

IPB antes da escovação

IPB

depo

is da

esc

ovaç

ão

0 1 2 3 4

0.0

0.5

1.0

1.5

2.0

Escova − Covencional

IPB antes da escovação

IPB

depo

is da

esc

ovaç

ão

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 38

0 1 2 3 4

0.0

0.5

1.0

1.5

2.0

Escova − Hugger

IPB antes da escovação

IPB

depo

is da

esc

ovaç

ão

0 1 2 3 4

0.0

0.5

1.0

1.5

2.0

Escova − Covencional

IPB antes da escovação

IPB

depo

is da

esc

ovaç

ão

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 39

Exemplo 3: efeito do fosforo na producao de milho

Tem-se o interesse em se saber se a quantidade (kg/ha) de fosforo

existente (administrada) no solo afeta a producao de milho (de uma

certa variedade) kg/parcela.

Fator: quantidade de fosforo, k = 5 nıveis (0,25,50,75,100),

ni = 4, i = 1, 2, 3, 4 repeticoes por tratamento (quantidade de

fosforo administrada).

Procedimento: 20 porcoes de terras, chamadas de parcelas (em

condicoes semelhantes) foram consideradas e cada uma delas

recebeu uma determinada quantidade de fosforo, de modo aleatorio

(completamente casualizado).

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 40

0 20 40 60 80 100

46

810

Produção de milho (kg/parcela) em função da quantidade de fósforo (kg/ha)

quantidade de fósforo(kg/ha)

prod

ução

de

milh

o (k

g/pa

rcel

a)

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 41

Exemplo 3: efeito do fosforo na producao de milho

Aparentemente, ha uma “tendencia crescente” na producao de

milho em funcao da quantidade de fosforo (ate certo valor).

Contudo, provavelmente, depois de uma certa quantidade de fosforo,

a producao tendera a diminuir.

Isso deve ser levado em consideracao.

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 42

Modelagem

Para todos os exemplos, podemos considerar algum tipo de

modelagem estatıstica para responder as perguntas de interesse.

Em nosso curso, consideraremos modelos lineares, em geral, normais

e homocedasticos (variabilidade constante).

A escolha de um modelo deve ser pautada: nos objetivos do

experimento, nas caracterısticas dos dados, em experiencias

anteriores (informacoes a priori) e na analise descritiva.

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 43

Cont.

Tais modelos (de regressao, de planejamento ou de analise de

covariancia) podem ser decompostos em uma parte sistematica e

uma parte aleatoria.

Todos eles podem ser acomodados em uma estrutura geral que

estudaremos ao longo do semestre.

Vamos discutir uma possibilidade para cada situacao.

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 44

Exemplo 1: desconsiderando as etiologias cardıacas

Yi = β0 + β1xi + ξi , i = 1, ..., 124

ξii.i.d.∼ N(0, σ2).

(β0, β1, σ2)′ : parametros desconhecidos.

xi : carga a que o paciente i foi submetido (conhecida e nao

aleatoria).

Parte sistematica: E(Yi ) = β0 + β1xi .

Parte aleatoria: ξi .

O modelo acima implica que Yiind.∼ N(β0 + β1xi , σ

2), Yi : valor do

consumo de oxigenio do paciente i .

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 45

β1 : e o incremento (positivo ou negativo) esperado no consumo de

oxigenio para o aumento de uma unidade na carga imposta.

Se for possıvel observar xi = 0, carga igual a 0, temos que:

β0 : valor esperado do consumo de oxigenio para pacientes

submetidos a uma carga igual a 0.

Caso contrario, podemos considerar o seguinte modelo:

Yi = β0 + β1(xi − x) + ξi , i = 1, ..., 124, x =1

124

n∑i=1

xi .

Neste caso, β0 e o valor esperado do consumo de oxigenio para

pacientes submetidos a uma carga igual a media amostral.

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 46

0 20 40 60 80 100

510

1520

Consumo de oxigênio em função da carga

carga

vo2

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 47

0 20 40 60 80 100

510

1520

Consumo de oxigênio em função da carga

carga

vo2

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 48

Exemplo 2: desconsiderando o sexo

Yij = β0i + β1i (xij − x) + ξij , i = 1, 2 (tipo de escova, 1 - Hugger;,

2 - Convencional); j = 1, ..., 26 (crianca) , x =1

52

2∑i=1

26∑j=1

xij = 1, 76

ξiji.i.d.∼ N(0, σ2).

(β01, β02, β11, β12, σ2)′ : parametros desconhecidos.

xij : IPB pre-escovacao da crianca j utilizando a escova do tipo i .

Parte sistematica: E(Yij) = β0i + β1i (xij − x).

Parte aleatoria: ξij .

O modelo acima implica que Yijind.∼ N(β0i + β1i (xij − x), σ2),

Yij :(IPB pos - escovacao) da crianca j utilizando a escova do tipo i .

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 49

β1i : e o incremento (positivo ou negativo) esperado no IPB

pos-escovacao para o aumento em uma unidade no IPB

pre-escovacao quando se utiliza a escova i.

β0i e o valor esperado no IPB pos-escovacao para criancas com IPB

pre-escovacao igual a x quando se utiliza a escova i.

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 50

Exemplo 3

Yi = β0 + β1xi + β2x2i + ξi , i = 1, 2, ..., 20

ξii.i.d.∼ N(0, σ2).

(β0, β1, β2, σ2)′ : parametros desconhecidos.

xi : quantidade de fosforo ministrada a i-esima parcela.

Parte sistematica: E(Yi ) = β0 + β1xi + β2x2i .

Parte aleatoria: ξi .

O modelo acima implica que Yiind.∼ N(β0 + β1xi + β2x

2i , σ

2), Yi : e

producao de milho da i-esima parcela.

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 51

β0 : valor esperado (media) da producao de milho quando a

quantidade de fosforo aplicada e igual a 0.

A interpretacao isolada dos parametros β1 e β2 e complicada mas,

podemos dizer que −β1

2β2e a quantidade de fosforo que retornar a

producao maxima (ou mınima (?)) esperada de milho.

Neste caso, o valor esperado da producao maxima (ou mınima) de

milho e dado por : µmax =4β0β2−β2

1

4β2

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 52

Modelo de regressao normal linear simples homocedastico

(MRNLSH)

Yi = β0 + β1xi + ξi , i = 1, ..., n

ξii.i.d.∼ N(0, σ2).

Estimacao de β = (β0, β1)′:

Maxima verossimilhanca: maximizar a verossimilhanca.

Mınimos quadrados ordinarios (MQO). Minimizar

Q =n∑

i=1

(yi − β0 − β1xi )2,

em relacao a β.

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 53

Ilustracao grafica do MRNLSH

0

250

500

0 10 20 30 40 50x

y

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 54

Estimacao

Resolver o sistema de equacoes a seguir (defina:

S(βi ) = ∂Q∂βi, i = 0, 1) S(β0) = 0

S(β1) = 0

Temos que S(β0) = −2∑n

i=1(yi − β0 − β1xi ) e

S(β1) = −2∑n

i=1 xi (yi − β0 − β1xi )

Portanto∑n

i=1(yi − β0 − β1xi ) = 0∑ni=1 xi (yi − β0 − β1xi ) = 0

→∑n

i=1 yi − β0n − β1

∑ni=1 xi = 0∑n

i=1 xiyi − β0

∑ni=1 xi − β1

∑ni=1 x

2i = 0

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 55

Logo y − β0 − β1x = 0 (1)

yx − β0x − β1x2 = 0 (2)(1)

em que y =∑n

i=1yin , x j =

∑ni=1

x ji

n , j = 1, 2 e yx =∑n

i=1yixin .

Da Equacao (1) do sistema (1) temos que

β0 = y − β1x . (2)

De (2) na Equacao (2) do sistema (1), temos que

yx − y x + β1x2 − β1x2 = 0→ β1 =

yx − y x

x2 − x2

=1

n(x2 − x2)

[n∑

i=1

yi (xi − x)

]=

1∑ni=1(xi − x)2

[n∑

i=1

yi (xi − x)

]Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 56

Prove que 1n

∑ni=1(xi − x)2 = x2 − x2

Assim os estimadores de MQ de β0 e β1 sao, respectivamente,

β0 = Y − β1x =n∑

i=1

[Yi

(1

n− x

(xi − x)∑ni=1(xi − x)2

)](3)

β1 =1∑n

i=1(xi − x)2

[n∑

i=1

Yi (xi − x)

](4)

e as respectivas estimativas sao dadas por

β0 = y − β1x =n∑

i=1

[yi

(1

n− x

(xi − x)∑ni=1(xi − x)2

)](5)

β1 =1∑n

i=1(xi − x)2

[n∑

i=1

yi (xi − x)

](6)

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 57

Define-se o valore predito para a i-esima observacao (que coincide

com o valor predito para sua esperanca) como

Yi = E(Yi ) = β0 + β1xi .

Em aulas vindouras veremos como construir intervalos de confianca

(esperanca) e de previsao (valor individual).

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 58

Note que o metodo de MQO nao requer suposicoes para a

distribuicao dos erros. Exercıcio: prove que, sob as suposicoes

consideradas (independencia, normalidade e homocedasticidade dos

erros) os estimatimadores de MQ de β coincidem com os de MV

(maxima verossimilhanca). Obtenha tambem o EMV de σ2.

Vamos obter as distribuicoes dos estimadores de MQ. Como ambos

sao combinacoes lineares de normais (veja (3) e (4)), entao segue-se

que β0 ∼ N(E(β0),V(β0)) e β1 ∼ N(E(β1),V(β1)).

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 59

Temos que

E(β0) = E(Y )− E(β1)x = β0 + β1x − E(β1)x (7)

Por outro lado

E(β1) =1∑n

i=1(xi − x)2

[n∑

i=1

E(Yi )(xi − x)

]

=1∑n

i=1(xi − x)2

[n∑

i=1

(β0 + β1xi )(xi − x)

]

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 60

Continuando

E(β1) =1∑n

i=1(xi − x)2

[β0

n∑i=1

(xi − x) + β1

n∑i=1

(x2i − xix)

]

=1∑n

i=1(xi − x)2

β0

n∑i=1

(xi − x)︸ ︷︷ ︸0

+β1

n∑i=1

(x2i − xix)︸ ︷︷ ︸∑n

i=1(xi−x)2

=

1∑ni=1(xi − x)2

[β1

n∑i=1

(xi − x)2

]= β1 (8)

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 61

De (8) em (7), vem que:

E(β0) = β0 + β1x − β1x = β0

Portanto, ambos os estimadores sao nao viciados.

Por outro lado

V(β1)ind.=

1

(∑n

i=1(xi − x)2)2

[n∑

i=1

V(Yi )(xi − x)2

]

= σ2 1

(∑n

i=1(xi − x)2)2

[n∑

i=1

(xi − x)2

]=

σ2∑ni=1(xi − x)2

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 62

Alem disso,

V(β0) = V(Y ) + x2V(β1)− 2Cov(Y , β1x)

=σ2

n+ x2 σ2∑n

i=1(xi − x)2− 2xCov(Y , β1)

Mas, note que β1 =∑n

i=1 Yiai , em que

ai =(xi − x)∑ni=1(xi − x)2

(9)

com∑n

i=1 ai = 0

Cov(Y , β1) = xCov

(1

n

n∑i=1

Yi ,

n∑i=1

Yiai

)= Cov

(n∑

i=1

Yi ,

n∑i=1

Yiai

)

=1

n

n∑i=1

ai Cov(Yi ,Yi )︸ ︷︷ ︸V(Yi )=σ2

=σ2

n

n∑i=1

ai = 0 (10)

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 63

Logo

V(β0) = σ2

[1

n+

x2∑ni=1(xi − x)2

]Portanto β0 ∼ N

(β0, σ

2[

1n + x2∑n

i=1(xi−x)2

])e

β1 ∼ N(β1,

σ2∑ni=1(xi−x)2 )

). Como V(βj) −−−→

n→∞0, j = 0, 1, e possıvel

provar que ambos os estimadores sao consistentes(βj

P−−−→n→∞

0, j = 0, 1)

(exercıcio).

A distribuicao conjunta de β0 = (β0, β1)′ (provaremos tal resultado

mais a frente) e dada por:

N2

β0

β1

,

V(β0) Cov(β0, β1)

. V(β1)

(normal bivariada)

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 64

Em que

Cov(β0, β1) = Cov(Y − β1x , β1) = Cov(Y , β1)︸ ︷︷ ︸0

−xV(β1)

= −x σ2∑ni=1(xi − x)2

(11)

Inferencia: para construirmos intervalos de confianca (IC) bem como

testes de hipotese (TH) precisaremos (e uma forma) de obter a

distribuicao exata ou assintotica de quantidades pivotais bem como

de estatıstica de teste apropriadas.

Contudo, note que σ2 e desconhecido. Devemos, portanto, utilizar

um estimador apropriado para ele.

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 65

Sugestao:

σ2 =1

n − 2

n∑i=1

(Yi − β0 − β1xi )2 (12)

em que σ2 = 1n−2

∑ni=1(yi − β0 − β1xi )

2 e a respectiva estimativa.

Este estimador e nao viciado e consistente, alem do que

(n−2)σ2

σ2 ∼ χ2(n−2). Tambem, temos que β0⊥σ2, β1⊥σ2 (provaremos

mais adiante).

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 66

Vamos provar, por hora, que ele e nao viciado. Note que:

E(σ2) =1

n − 2

n∑i=1

E(Yi − β0 − β1xi

)2

=1

n − 2

n∑i=1

V(Yi − β0 − β1xi ) + E2(Yi − β0 − β1xi )︸ ︷︷ ︸0

No proximo slide, de (10), (11) e (9) e provando que

Cov(Yi , β0) = σ2

n − xaiσ2, vem que:

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 67

E(σ2) =1

n − 2

n∑i=1

[V(Yi ) + V(β0) + V(β1)x2

i − 2Cov(Yi , β0)

− 2xiCov(Yi , β1) + 2xiCov(β0, β1)

]

=1

n − 2

n∑i=1

[σ2 +

σ2

n+

x2σ2∑ni=1(xi − x)2

+x2i σ

2∑ni=1(xi − x)2

− 2σ2

n

+ 2xaiσ2 − 2xiaiσ

2 − 2xixσ2∑n

i=1(xi − x)2

]

=1

n − 2

[nσ2 − σ2 +

nx2σ2∑ni=1(xi − x)2

+σ2∑n

i=1 x2i∑n

i=1(xi − x)2

− 2σ2∑n

i=1 xi (xi − x)∑ni=1(xi − x)2

− 2nx2σ2∑n

i=1(xi − x)2

]= σ2

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 68

Voltando a questao da inferencia com respeito ao vetor β. Temos

que (definindo d = 1n + x2∑n

i=1(xi−x)2 )

β0 − β0√σ2d

∼ N(0, 1) ;β1 − β1√

σ2/(∑n

i=1(xi − x)2)∼ N(0, 1)

Alem disso, ja vimos que (n−2)σ2

σ2 ∼ χ2n−2 e que e independente de

β0 e β1, logo

β0 − β0√σ2d

/

√(n − 2)σ2

(n − 2)σ2=β0 − β0√σ2d

∼ t(n−2)

Analogamente, temos que β1−β1√σ2/(

∑ni=1(xi−x)2)

∼ t(n−2)

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 69

Intervalos de confianca: considerando-se

P(X ≤ t 1+γ2

) = 1+γ2 , (X ∼ t(n−2)), temos que (j = 0, 1; γ ∈ (0, 1))

IC (βj , γ) =

[βj − t 1+γ

2

√σ2ψj ; βj + t 1+γ

2

√σ2ψj

]em que ψ0 = d , ψ1 = 1

(∑n

i=1(xi−x)2) .

IC numerico:

IC (βj , γ) =

[βj − t 1+γ

2

√σ2ψj ; βj + t 1+γ

2

√σ2ψj

]em que (.) sao as respectivas estimativas.

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 70

Testes de hipoteses

Suponha que queremos testar H0 : βj = βj0 vs H1 : βj 6= βj0, para

algum j , em que βj0 e um valor fixado, j=0,1.

Estatıstica do teste Tt =βj−βj0√σ2ψj

, em que βj , j = 0, 1 sao dados por

(3) e (4), respectivamente e σ2 e dado por (12).

Sob H0, Tt ∼ t(n−2). Assim, rejeita-se H0 se |tt | ≥ tc , em que

tt =βj−βj0√σ2ψj

, em que βj , j = 0, 1 sao dados por (5) e (6),

respectivamente, e P(X ≥ tc |H0) = α/2,X ∼ t(n−2), α ∈ (0, 1).

Alem disso, σ2 e como definido anteriormente.

De modo equivalente, rejeita-se H0 se p-valor ≤ α, em que

p-valor = 2P(X ≥ |tt ||H0), X ∼ t(n−2).

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 71

Ajuste de modelos de regressao linear simples normais

homocedasticos no R

Funcao lm.

Comando geral lm(y ∼ x1), y: variavel resposta, x1: variavel

explicativa.

Modelo sem intercepto lm(y ∼ −1 + x1), y: variavel resposta, x1:

variavel explicativa.

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 72

Exemplo 1: sem considerar as etiologias cardıacas

Yi = β0 + β1xi + ξi

Parametro Estimativa EP IC(95%) Estat. t p-valor

β0 6,563 0,356 [5,859 ; 7,268] 18,434 <0,0001

β1 0,085 0,006 [0,072 ; 0,100] 12,516 <0,0001

Os dois parametros sao diferentes de 0.

A carga influencia positivamente o consumo de oxigenio.

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 73

Exemplo 1: sem considerar as etiologias cardıacas

Yi = β0 + β1xi + ξi (cont.)

O consumo de oxigenio para pacientes submetidos a carga 0 tende a

se apresentar entre 5,859 e 7,268 ml/(kg.min).

Por outro lado, o aumento esperado no consumo para o aumento em

uma unidade da carga tende a se apresentar entre 0,072 e 0,100

ml/(kg.min).

A etapa de verificacao de qualidade de ajuste do modelo, que

deve preceder a sua utilizacao para fins inferenciais, sera

discutida posteriormente. Isso vale para todos os exemplos

que veremos.

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 74

Dispersao entre carga e consumo e reta ajustada

0 20 40 60 80 100

510

1520

Consumo de oxigênio em função da carga

carga

vo2

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 75

Consumos de oxigenio observado e predito modelo

5 10 15 20

510

1520

consumo de oxigênio observado

cons

umo d

e oxig

ênio

predit

o

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 76

Otimalidade dos estimadores

Vamos provar que β0 e o melhor (menor variancia) estimador linear

nao viciado para β0. A prova para β1 e analoga e fica como

exercıcio.

Estamos restritos a classe dos estimadores β0 =∑n

i=1 aiYi com

ai , i = 1, 2, ..., n nao aleatorios, tais que

E(β0) =n∑

i=1

aiE(Yi ) =n∑

i=1

ai (β0 + β1xi )

= β0

n∑i=1

ai + β1

n∑i=1

aixi = β0

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 77

Otimalidade dos estimadores

Isso implica que

n∑i=1

ai = 1 ;n∑

i=1

aixi = 0 (13)

Alem disso, V(β0) =∑n

i=1 a2i V(Yi ) = σ2

∑ni=1 a

2i .

Portanto, devemos minimizar∑n

i=1 a2i sujeito a (13). Utilizando a

metodologia dos multiplicadores de Lagrange, isto equivale a

minimizar (em ai ) a funcao:

L =n∑

i=1

a2i + λ1

(n∑

i=1

ai − 1

)+ λ2

(n∑

i=1

aixi

)Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 78

Otimalidade dos estimadores

As derivadas de interesse sao: ∂L∂ai

= 2ai + λ1 + λ2xi ,

∂Lλ1

=∑n

i=1 ai − 1 e ∂Lλ2

=∑n

i=1 aixi .

Assim, obtemos o seguinte sistema de equacoes:2ai + λ1 + λ2xi = 0 (1), i = 1, 2, ..., n∑n

i=1 ai = 1 (2)∑ni=1 aixi = 0 (3)

(14)

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 79

Somando-se as “n” em (1) equacoes do sistema (14), vem que:

2n∑

i=1

ai︸ ︷︷ ︸1

+nλ1 + λ2

n∑i=1

xi = 0→ nλ1 + λ2

n∑i=1

xi = −2 (15)

Multiplicando as “n” em (1) equacoes do sistema (14) por xi e

somando-as, vem que:

2n∑

i=1

aixi︸ ︷︷ ︸0

+λ1

n∑i=1

xi + λ2

n∑i=1

x2i = 0→ λ1

n∑i=1

xi + λ2

n∑i=1

x2i = 0

→ λ1 = −λ2

∑ni=1 x

2i∑n

i=1 xi(16)

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 80

De (16) em (15), temos que:

−nλ2

∑ni=1 x

2i∑n

i=1 xi+ λ2

n∑i=1

xi = −2→ λ2

[n∑

i=1

xi − n

∑ni=1 x

2i∑n

i=1 xi

]= −2

→ λ2

[nx −

∑ni=1 x

2i

x

]= −2→ λ2 =

−2x

nx2 −∑n

i=1 x2i

=2x∑n

i=1(xi − x)2(17)

De (17) em (16), vem que:

λ1 = −∑n

i=1 x2i∑n

i=1 xi

2x∑ni=1(xi − x)2

= −2∑n

i=1 x2i

n∑n

i=1(xi − x)2(18)

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 81

De (17) e (18) na Equacao (1) do sistema (14), temos que:

2ai = −2∑n

i=1 x2i

n∑n

i=1(xi − x)2+ xi

2x∑ni=1(xi − x)2

→ ai =

∑ni=1 x

2i /n − xxi∑n

i=1(xi − x)2=

1

n− x(xi − x)∑n

i=1(xi − x)2.

Veja a equacao (3). Assim, o resultado esta provado.

Prof. Caio Azevedo

Introducao aos modelos de regressao normais lineares 82