8
REGRESSAO MULTIPLA - complementação Introdução O modelo linear de regressão múltipla é da forma: ε + β + + β + β + β = p p 2 2 1 1 0 X X X Y sendo classificado como modelo de primeira ordem com (p) variáveis independentes. onde: Y é a variável de estudo (dependente, explicada, resposta ou endógena); β0 é o coeficiente linear do modelo, isto é, o valor de E(Y) para X = 0; e βj é o coeficiente angular da ja. variável, ou seja, a variação no componente determinístico do modelo, E(Y), para 1 unidade de variação na medida de Xj; Xj é a ja. variável independente, explicativa ou exógena; e p p X X X Y E β β β β + + + + = 2 2 1 1 0 ) ( é o componente determinístico do modelo; ε é a parte probabilística do modelo (erro aleatório) com média 0 e variância constante 2 σ . Utilizando a notação matricial, podemos expressar essa relação por meio de: Y = X.β + ε, Observação: Se p=1, o modelo se identifica ao modelo de regressão linear simples. Para se obter estimativas para os parâmetros k β , são realizadas n observações da variável Y, ou sejam i Y , i = 1,2,...,n, conforme o esquema seguinte: A variável k X será identificada por ik X e indicará o valor de k X correspondente à observação i Y , i = 1,2,..,n e k = 1,2,...,p. De um modo geral as n observações serão denotadas pelas n equações abaixo: i p i p i i i X X X Y ε β β β β + + + + + = , 2 , 2 1 , 1 0 Para i = 1,2,...,n , obtemos as n equações seguintes: n p n p n n n p p p p X X X Y X X X Y X X X Y ε β β β β ε β β β β ε β β β β + + + + + = + + + + + = + + + + + = , 2 , 2 1 , 1 0 2 , 2 2 , 2 2 1 , 2 1 0 2 1 , 1 2 , 1 2 1 , 1 1 0 1 . .......... .......... .......... .......... .......... .......... .......... . .......... .......... .......... .......... .......... .......... ..........

regressao-multipla-complemento

Embed Size (px)

Citation preview

Page 1: regressao-multipla-complemento

REGRESSAO MULTIPLA - complementação

Introdução

O modelo linear de regressão múltipla é da forma:

ε+β++β+β+β= pp22110 XXXY

sendo classificado como modelo de primeira ordem com (p) variáveis independentes.

onde: Y é a variável de estudo (dependente, explicada, resposta ou endógena);β0 é o coeficiente linear do modelo, isto é, o valor de E(Y) para X = 0; eβj é o coeficiente angular da ja. variável, ou seja, a variação no componente determinístico do modelo, E(Y), para 1 unidade de variação na medida de Xj;Xj é a ja. variável independente, explicativa ou exógena; e

ppXXXYE ββββ ++++= 22110)( é o componente determinístico do modelo;ε é a parte probabilística do modelo (erro aleatório) com média 0 e variância

constante 2σ .

Utilizando a notação matricial, podemos expressar essa relação por meio de:

Y = X.β + ε,

Observação: Se p=1, o modelo se identifica ao modelo de regressão linear simples.

Para se obter estimativas para os parâmetros kβ , são realizadas n observações da variável Y, ou sejam iY , i = 1,2,...,n, conforme o esquema seguinte:

A variável kX será identificada por ikX e indicará o valor de kX correspondente à observação iY , i = 1,2,..,n e k = 1,2,...,p. De um modo geral as n observações serão denotadas pelas n equações abaixo:

ipipiii XXXY εββββ +++++= ,2,21,10

Para i = 1,2,...,n , obtemos as n equações seguintes:

npnpnnn

pp

pp

XXXY

XXXYXXXY

εββββ

εββββεββββ

+++++=

+++++=

+++++=

,2,21,10

2,22,221,2102

1,12,121,1101

.......................................................................

.......................................................................

Page 2: regressao-multipla-complemento

Apresentação matricial do modelo

Uma forma simples e muito útil para representar o modelo de regressão linear múltipla é através da representação matricial das equações acima. Para isto consideremos as definições dos seguintes vetores e matrizes:

1

2

1

nXnY

YY

Y

=

( )11

221

111

1

11

+

=

pnXnpn

p

p

XX

XXXX

X

( ) 11

1

0

Xpp +

=

β

ββ

β

1

2

1

nXn

=

ε

εε

ε

.

De modo que:

+

=

npnpn

p

p

n XX

XXXX

Y

YY

ε

εε

β

ββ

2

1

1

0

1

221

111

2

1

1

11

A representação matricial das equações se torna:

εβ += XY

As hipóteses básicas para construir o modelo de regressão linear múltipla são:

β é um vetor de parâmetros desconhecidos.

X é uma matriz de valores fixados.

ε é um vetor aleatório com distribuição normal tal que:E(ε) = 0 e ( ) 2

nE I′ε ε = σ .

Com respeito à última hipótese, temos que ( )iE 0ε = para todo i =1,2,...,n, e, portanto

( )( )

( )

11

22

nn

E 0E 0

E . 0. ... .

E 0

ε ε εε = = = εε

r

Além disso,

Page 3: regressao-multipla-complemento

( )

1 1 1 2 1 n

2 1 2 2 2 n

n 1 n 2 n n

E E

ε ε ε ε − − ε ε ε ε ε ε − − ε ε

′ ε ε = − − − − − − − − − − ε ε ε ε − − ε ε

ou

( )

1 1 2 1 n

2 1 2 2 n

n 1 n 2 n

Var( ) Cov( ) Cov( )Cov( ) Var( ) Cov( )

E

Cov( ) Cov( ) Var( )

ε ε ε − − ε ε ε ε ε − − ε ε

′ ε ε = − − − − − − − − − − ε ε ε ε − − ε

Como ( ) 2nE I′ε ε = σ para todo i = 1,2,...,n, a matriz acima se transforma em

( )

2

2

2n

2

2

0 0 0 00 0 0 0

E I0 0 0 00 0 0 0

σ σ ′ε ε = = σ− − − − −

σ σ

Os termos da diagonal principal mostram que os erros satisfazem a condição de homocedasticidade, e aqueles fora da diagonal mostram que os erros são não correlacionados e portanto independentes, pois têm distribuição normal.

Estimadores de mínimos quadrados do vetor de parâmetros β

Analogamente ao processo de estimação estudado em regressão linear simples, o critério dos mínimos quadrados consiste em minimizar soma dos quadrados dos erros.

Em termos matriciais, escrevemos:Y X= β + ε e

( ) ( ) ( )E Y E X X E X= β + ε = β + ε = β

De maneira que,

= −Y Xε β

A soma dos quadrados dos erros pode ser escrita matricialmente, como segue

Page 4: regressao-multipla-complemento

( ) ( ) ( )ββε XYXYSQn

iErros −−== ∑

=

'

1

2

ou

ββββββββ XXYXYXYYXXXYYXYYSQescalar

Erros''''''''''''' +−−=+−−=

Logo, βββ XXYXYYSQErros

''''' 2 +−= .

Derivando S em relação a β,

ββ

XXYXSQErros '' 22 +−=∂

Igualando-se a zero, obtemos

ββ

XXYXSQErros '' 22 +−=∂

X Y X X′ ′= β

( ) 1ˆ X X X Y−′ ′β =

A reta de mínimos quadrados ajustada é dada pelas equações na forma matricial,

ˆY X= β

Cálculo da média do estimador β

Substituindo-se Y X= β + ε no estimador de β , temos

( ) [ ]( ) ( )

( )

1

1 1

1

ˆ X X X Xˆ X X X X X X Xˆ X X X

− −

′ ′β = β + ε

′ ′ ′ ′β = β + ε

′ ′β = β + εCalculando a média

( ) 1ˆE( ) X X X E( )−′ ′β = β + ε

Page 5: regressao-multipla-complemento

ou ( )ˆE β = β

Assim, o vetor de estimadores de mínimos quadrados é composto por estimadores não tendenciosos dos parâmetros kβ , k = 0,1,2,...,p.

Cálculo da variância do estimador β

Como ( )k kˆE β = β para k = 0,1,2,...,p, então a variância de kβ é calculada por

2

k k kˆ ˆVar( ) E β = β − β , para k = 0,1,2,...,p-1.

Por outro lado ( ) ( )ˆ ˆE′

β − β β − β

define a seguinte matriz de covariância.

( )( )( ) ( )( ) ( )( )

( )( ) ( ) ( )( )

( )( ) ( )( ) ( )

−−−−−

−−−−−

−−−−−

=

−−

2

1100

11

2

110011

001100

2

00

'

ˆˆˆˆˆ

ˆˆˆˆˆ

ˆˆˆˆˆ

ˆˆ

pppppp

pp

pp

EE

ββββββββββ

ββββββββββ

ββββββββββ

ββββ

Esta matriz contém as variâncias dos estimadores β em sua diagonal principal e as covariâncias entre os mesmos estimadores nas demais células.

Por outro lado, ( )( )

1

1

ˆ X X Xˆ X X X

′ ′β = β + ε

′ ′β − β = ε

Então a variância de β é calculada por

( ) ( ) ( ) ( )1 1ˆ ˆ ˆVar( ) E E X X X X X X− −′ ′ ′ ′ ′β = β − β β − β = ε ε

( ) ( )( ) ( )

1 1

1 12n

ˆVar( ) X X X E( )X X XˆVar( ) I X X (X X) X X

− −

− −

′ ′ ′ ′β = ε ε

′ ′ ′β = σ

Finalmente, obtemos a variância do estimador β

( ) 12ˆVar( ) X X −′β = σ

Page 6: regressao-multipla-complemento

Estimador da variância 2σ

Denotemos o resíduo da regressão por i i iˆe Y Y= − , i = 1,2,...,n. Sob a forma matricial

escrevemos= − ˆe Y Xβ

Substituindo-se Y e β por seus respectivos valores, o vetor de resíduos é então:

( ) 1e X X X X X Y− ′ ′= β + ε −

( ) 1e X X X X X (X )− ′ ′= β + ε − β + ε

( )

( )

1

1

e X X X X X

e X X X X X X

′ ′= β + ε − β + ε ′ ′= β + ε − β − ε

Finalmente o vetor de resíduos é escrito sob a forma,

( ) 1ne I X X X X− ′ ′= − ε

e isto significa que o vetor de resíduos é uma combinação linear dos erros ε.

Seja ( ) '1' XXXXH −= , H é uma matriz quadrada de ordem n .

Então:[ ]YHIYSQ s −= '

Re

A matriz H é chamada de matriz chapéu ou de matriz de projeção pois ela transforma Y em Y .

( ) β' '1 XYXXXXHY == −

Podemos escrever:( ) ( )YHIHYYYYe −=−=−= ˆ

Repare que a matriz H exerce um papel importante na análise dos resíduos na busca de outliers e valores influentes

A matriz H é uma matriz simétrica, pois: ( ) '1' XXXXH −= = ( ) '1' ' XXXXH −= e idempotente,

( )[ ] ( )[ ] ( ) ( ) ( ) HXXXXXXXXXXXXXXXXXXXHH ====× −−−−− '1''1''1'1'1 ''

Page 7: regressao-multipla-complemento

Por outro lado, seja a matriz ( )[ ]'1' XXXXIA n−−= da relação

( )[ ]ε'1' XXXXIe n−−=

εAe = .A é simétrica e idempotente, conforme verificaremos a seguir:

A é simétrica pois:( )( ) ( )

1n

1 1n n

A I X X X X

A I X X X X I X X X X A

− −

′ ′= −

′ ′ ′ ′ ′ ′= − = − =

A é idempotente pois:( ) ( )

( ) ( ) ( ) ( )

1 1n n

1 1 1 12n

A A I X X X X I X X X X

A I X X X X X X X X X X X X .X X X X

− −

− − − −

′ ′ ′ ′× = − − ′ ′ ′ ′ ′ ′ ′ ′= − − +

( ) ( )( )

1 12n

12n

A I 2X X X X X X X X

A I X X X X

− −

′ ′ ′ ′= − +

′ ′= −

Então, a soma dos quadrados dos resíduos é obtida por

εε AAee ''' =εε Aee '' =

( )[ ]εε '1''' XXXXIee n−−=

Agora abriremos um parênteses para exibir alguns resultados matrizes importantes para finalizar a demonstração:

1. Se M é uma matriz quadrada de dimensão n e se para i = 1,2,...,n , E( iε ) = 0 e Var( iε ) = 2

nIσ , então [ ] 2E M tr(M)′ε ε = σ .

Exemplo: [ ] 1 2 2 21 2 1 1 2 1 2 2

2

1 2E E 3 2 4 5

3 4 ε ε ε = ε + ε ε + ε ε + ε = σ ε

2. Se M é uma matriz quadrada, tr(M) = tr( M′ ).

3. Dadas as matrizes quadradas A e B, se AB e BA existem, tr(AB)=tr(BA).

4. Dadas as matrizes quadradas A, B e C, se os produtos entre elas existem, então

tr(ABC)=tr(BCA)=tr(CAB).

5. Dadas duas matrizes quadradas A e B, tr(A-B) = tr(A)-tr(B)

Page 8: regressao-multipla-complemento

Utilizando os resultados acima calculemos a esperança das soma dos quadrados dos resíduos

( ) ( )[ ]{ } ( ) ( )[ ][ ]'1'2'1''' XXXXtrItrXXXXIEeeE nn−− −=−= σεε

( ) ( )[ ][ ] [ ][ ]pItrnXXXXtrneeE −=−= − 2'1'2' σσ

( ) [ ]pneeE −= 2' σ

Desta maneira a média da soma dos quadrados dos resíduos é igual à variância dos erros, multiplicada pela diferença entre o número de observações e o número de parâmetros a serem estimados no modelo de regressão linear múltipla.

Logo um estimador não tendencioso para a variância do modelo, é:

( ) 2'1 σ=−

eeEpn

2'

σ=

− pneeE

pn

en

ii

−==

∑= 1

2

22 ˆˆ εσσ