52
REGRESSÃO LINEAR Parte I Vitor Vieira Vasconcelos BH1350 – M étodos e Técnicas de Análise da I nformação para o Planejamento Julho de 2016

Regressão Linear I

Embed Size (px)

Citation preview

Page 1: Regressão Linear I

REGRESSÃO LINEARParte I

Vitor Vieira Vasconcelos

BH1350 – Métodos e Técnicas de Análise da Informação para o PlanejamentoJulho de 2016

Page 2: Regressão Linear I

Conteúdo

• Revisão• Modelos

• Correlação

• Teste de Significância

• Regressão Linear

• Estimação dos parâmetros

• Avaliação do ajuste do modelo

• Interpretação dos resultados

Page 3: Regressão Linear I

Inferência Estatística se resumindo a uma equação…

Saídai = (Modeloi) + erroi

Ou seja, os dados que observamos podem serprevistos pelo modelo que escolhemos para

ajustar os dados mais um erro

Page 4: Regressão Linear I

Média como um modelo estatístico

Uma maneira útil de descrever um grupo comoum todo:

• Qual é a renda média das famílias residentes naMooca?

• Qual é a altura média dos edifícios em São Caetano?

• Qual é o PIB médio dos municípios localizadosno arco do desmatamento?

Page 5: Regressão Linear I

Para além de médias… Modelos Lineares São modelos baseados sobre uma linha reta,

utilizados para representar a relação entre variáveis

Ou seja, geralmente estamos tentando resumir as RELAÇÕES observadas a partir de nossos dados observados em termos de uma linha reta.

Cons

umo

de Á

gua

per

Capi

ta (m

3/di

a/an

o)

Renda per Capita (R$)

RELAÇÃO ENTRE CONSUMO DE ÁGUA E

RENDA

Page 6: Regressão Linear I

CORRELAÇÃO

É uma medida do relacionamento linear entre duas variáveis

Duas variáveis podem estar:

(a) Positivamente relacionadas quando maior a renda, maioro consumo de água

(b) Negativamente relacionadas quanto maior a renda, menor o consumo de água

(c) Não há relação entre as variáveis

Page 7: Regressão Linear I

Correlação de PearsonMedida padronizada da correlação entre variáveis

Valor de r situa-se entre -1 e +1r = +1 duas variáveis estão perfeitamente correlacionadas de forma positiva(se uma aumenta, a outra aumenta proporcionalmente)

r = -1 relacionamento negativo perfeito (se uma aumenta, a outra diminuiem valor proporcional

r = 0 indica ausência de relacionamento linear

COEFICIENTE DE CORRELAÇÃO DE PEARSON

Page 8: Regressão Linear I

Teste de Significância do r de Pearson

Para testar a significância do r, calculamos uma estatísticateste conhecida como “razão t”, com graus de liberdadeigual a N-2.

Olhar na tabela o valor crítico de t, com graus de liberdade“N-2” e α=0,05

Se tcalculado > tcrítico, podemos rejeitar a hipótese nula de queρ=0.

Neste caso, os graus de liberdade indicam o quãopróxima a distribuição t está da distribuição normal. Qto maior, mais póximo da dist. normal.

Page 9: Regressão Linear I

ANÁLISE DE REGRESSÃO

CORRELAÇÃO: Indica a força e a direção do relacionamento linear entre duas variáveisaleatórias

Vamos avançar um passo:

Obter uma equação matemática quedescreva a relação entre duas ou mais

variáveis.

Esta é a essência da

(Lembrando que não estamos lidando com relações de causa-efeito)

Page 10: Regressão Linear I

Análise de regressão é uma ferramenta estatísticaque permite explorar e inferir a relação de umavariável dependente (Y variável resposta/dependente/ saída) com variáveis independentesespecíficas (X variáveis indicadoras/ previsoras/explicativas/ independentes).

Y = aX + b

NETER J. et al. Applied Linear Statistical Models. Boston, MA: McGraw-Hill, 1996.

ANÁLISE DE REGRESSÃO

Page 11: Regressão Linear I

Criminalidade (+) X Renda (-), Investimentos (-)

Longevidade (+) X Escolaridade (+), Renda (+)

Consumo de Água (+) X Renda per Capita (+)

Outros exemplos? ...

Exemplo

Page 12: Regressão Linear I

1. Determinar como duas ou mais variáveis se relacionam.

2. Estimar a função que determina a relação entre duas variáveis.

3. Usar a equação para projetar/estimar valores da variável dependente.

Lembrete importante: A existência de uma relação estatística entre a variável resposta Y e a variável explicativa X não implica na existência de uma relação causal entre elas.

Objetivos da Análise de Regressão

Page 13: Regressão Linear I

Os dados para a análise de regressão são da forma:

(x1, y1), (x2, y2), ..., (xi, yi), ... (xn, yn)

Com os dados constrói-se o diagrama de dispersão. Este deve exibir uma tendência linear para que se possa usar a regressão linear.

Ou seja, o diagrama permite decidir empiricamente se um relacionamento linear entre X e Y deve ser assumido.

Diagrama de Dispersão

Page 14: Regressão Linear I

Sugerem uma regressão/relação linear.

Assim, a relação entre as variáveis poderá ser descrita por uma equação linear.

Diagrama de Dispersão

Page 15: Regressão Linear I

Sugerem uma regressão/relação não linear.

Assim, a relação entre as variáveis poderá ser descrita por uma equação não linear.

(ou podemos verificar a possibilidade de “linearizar” a relação através de transformações nas variáveis)

Diagrama de Dispersão

Page 16: Regressão Linear I

Por análise do diagrama de dispersão pode-se também concluir (empiricamente) se o grau de relacionamento linear entre as variáveis é forte ou fraco, conforme o modo como se situam os pontos ao redor de uma reta imaginária que passa através da concentração de pontos.

Diagrama de Dispersão

Page 17: Regressão Linear I

Diagrama de Dispersão

Existência de correlação linear positiva: em média, quanto maior o X, maior será o Y

Existência de correlação linear negativa: em média, quanto maior o X, menor será o Y

Page 18: Regressão Linear I

Um modelo de regressão contendo somente uma variável preditora (X) é denominado modelo de regressão simples.

Um modelo com mais de uma variável preditora (X) é denominado modelo de regressão múltiplo.

Modelos de Regressão

Page 19: Regressão Linear I

onde:Yi é o valor da variável resposta na i-ésima observação;β0 e β1 são parâmetros;Xi é uma constante conhecida; é o valor da variável

preditora na i-ésima observação;ξi é um termo de erro aleatório com média zero e variância

constante σ2 (E(ξi)=0 e σ2 (ξi)= σ2 )ξi e ξj são não correlacionados (independentes) para i j

(σ2 (ξi,ξj)= 0 )

Regressão Linear Simples

Saídai = (Modeloi) + erroi

Lembrando:

Page 20: Regressão Linear I

Yi

ξi

X

Y

β0

β1Coeficiente

angular

µY = E(Y) = β0 + β1 X

InclinaçãoPopulacional

InterceptoPopulacional

Erro Aleatório

Variável Preditora

Variável Resposta Yi=β0+β1Xi +εi

Ŷi=b0+b1Xi

εi =Yi-Ŷi

Modelo estimado

Resíduo

Regressão Linear Simples

Page 21: Regressão Linear I

Os parâmetros β0 e β1 são denominados coeficientes deregressão:

1. β1 é a inclinação da reta de regressão. Ela indica a mudançana média de Y quando X é acrescido de uma unidade.

2. β0 é o intercepto em Y da equação de regressão (é o valor deY quando X = 0.)β0 só tem significado se o modelo incluir X = 0.

Significado de β0 e β1

Y

X0

Page 22: Regressão Linear I

β0

θ

x x+1

∆x=1

∆yyi = β0 + β1xi

xy

∆∆=1β

β0 (intercepto); quando a região experimental inclui X=0, β0 é o valor damédia da distribuição de Y em X=0, cc, não tem significado prático comoum termo separado (isolado) no modelo; β1 (inclinação) expressa a taxade mudança em Y, isto é, é a mudança em Y quando ocorre a mudança deuma unidade em X. Ele indica a mudança na média da distribuição deprobabilidade de Y por unidade de acréscimo em X.

Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html

Page 23: Regressão Linear I

Como encontrar a “linha” que melhor se ajusta aos nossos dados?

Ou seja: Como estimar os valores de β0 e β1?

Yi

ξi

X

Y

β0

β1Coeficiente

angular

Y = β0 + β1 X

Page 24: Regressão Linear I

Em geral não se conhece os valores de β0 e β1 .

Eles podem ser estimados através de dados obtidos poramostras.

O método utilizado na estimação dos parâmetros é ométodo dos mínimos quadrados, o qual considera osdesvios dos Yi de seu valor esperado (E(Yi )):

ξi = Yi – (β0 + β1 Xi)

Estimação dos Parâmetros

Ŷi

Page 25: Regressão Linear I

Em particular, o método dos mínimosquadrados requer que a soma dos n desviosquadrados, denotado por Q, seja mínima:

210

1][ ii

n

iXYQ ββ −−=∑

=

Estimação dos Parâmetros

Page 26: Regressão Linear I

Procedimento matemático para minimizar Q (soma dos desviosquadrados):

(1) Q deve ser derivado em relação a β0 e β1:

(1) Com derivadas parciais igualadas à zero, obtêm-se os valores estimados de β0 e β1:

=

=

−−= n

ii

n

iii

XX

YYXX

1

2

11

)(

))((β̂

=∂∂

=∂∂

−−−=

−−−=

n

iiii

Q

n

iii

Q

XYX

XY

110

110

)(2

)(2

1

0

ββ

ββ

β

β

Estimação dos Parâmetros

Os estimadores β0 e β1 possuem distribuição normal e intervalos de confiança com uma distribuição t, com n-2 graus de liberdade

Derivação

Apresentador
Notas de apresentação
Teorema de Gauss Markov
Page 27: Regressão Linear I

Correlação linear Não determina causalidade,

mas pode dar pistas. Identifica se duas variáveis se

relacionam de forma linear. Determina o quão mais

próximo de uma reta é a relação entre as variáveis. 0: não há relação linear 1: relação linear perfeita

Não indica o quanto uma variável pode estar influenciando a outra.

Pode ser testada estatisticamente.

Regressão linear Não determina causalidade,

mas pode dar pistas. Determina uma relação

linear entre duas variáveis. Traz elementos que

permitem fazer predições. Identifica o quanto uma

variável afeta a outra. Necessita de uma análise dos

resíduos para decidir sobre sua adequação.

Pode ser testada estatisticamente.

Slides: Marcos Pó

Correlação vs. Regressão

Page 28: Regressão Linear I

Como avaliar o quão bem nossa “linha” adere aos dados?

Ou seja: Como avaliar a qualidade de ajuste

do modelo?

Page 29: Regressão Linear I

Análise da Variância da Regressão

Page 30: Regressão Linear I

Análise da Variância da Regressão

Desvio Total Diferença entre dados

observados (Yi) e média de Y

Desvio não Explicado pelo ModeloDiferença entre dados observados (Yi)

e o modelo (linha de regressão)

Desvio Explicado Pelo ModeloDiferença entre média de Y e Modelo (linha de regressão)

Desvio Total = Desvio Explicado pelo Modelo + Desvio Não Explicado pelo Modelo

Ŷi

Page 31: Regressão Linear I

Análise da Variância da Regressão

Page 32: Regressão Linear I

)ˆ()ˆ( YYYYYY iii −+−=−

Elevando-se ao quadrado os dois lados da igualdade e fazendo-sea soma para todas as observações de uma determinada amostratem-se que:

Soma dos quadrados total (SQT)

Soma dos quadrados do modelo (SQM)

Soma dos quadrados residual (SQR)

Desvio Total Desvio Explicado

pelo ModeloDesvio Não-explicado

pelo Modelo

Inferência: Análise da Variância

Page 33: Regressão Linear I

Se SQT=0, então todas as observações Y são iguais.

Quanto maior for SQT, maior será a variação entre os Y’s.

SQT é uma medida da variação dos Y’s quando não se leva em consideração a variável independente X.

Se SQR = 0, então as observações caem na linha de regressão.

Quanto maior SQR, maior será a variação das observações Yao redor da linha de regressão.

Se a linha de regressão for horizontal, de modo

que então SQM = 0.

0^

=−−

YY i

Particionando a Soma dos QuadradosSQT SQM SQR

Page 34: Regressão Linear I

SQTotal = SQModelo + SQResíduos.

Um modo de se saber quão útil será a linha de regressão para a predição é verificar quanto da SQTestá na SQM e quanto está na SQR. Idealmente, gostaríamos que SQM fosse muito maior que SQR.

Gostaríamos, portanto, que fosse próximo de 1.SQTSQM

Particionando a Soma dos Quadrados

Page 35: Regressão Linear I

Uma medida do efeito de X em reduzir avariabilidade do Y é:

Note que: 0 ≤ R2 ≤ 1

R2 é denominado coeficiente de determinação. Emum modelo de regressão simples, o coeficiente dedeterminação é o quadrado do coeficiente decorrelação de Pearson (r) entre Y e X. Note que emum modelo de regressão simples

SQTSQR1

SQTSQR-SQT

SQTSQM2 −===R

112 ≤≤−⇒±= rRr

Coeficiente de Determinação

Page 36: Regressão Linear I

Temos dois casos extremos:

R2 = 1 todas as observações caem na linha deregressão ajustada. A variável preditora X explicatoda a variação nas observações.

R2 = 0 isto ocorre quando b1 = 0. Não existerelação linear em Y e X. A variável X não ajuda aexplicar a variação dos Yi .

Coeficiente de Determinação

Page 37: Regressão Linear I

Outra maneira de avaliar o modelo utilizando a soma dos quadrados é por

meio do Teste F

O Teste F tem por base a razão F, que é a razão de melhoria devida ao modelo e a diferença entre o modelo e os dados observados

A razão F é uma medida do quanto o modelo melhorou na previsão de valores comparado com o nível de não precisão do modelo

Page 38: Regressão Linear I

Graus deLiberdade(df)

Soma dos quadrados(SQ)

Quadrado médioQM=SQ/df

Razão da variância (F)

Regressão(X)

Resíduo

1 (p-1)

28 (n-p)

SQT-SQR= SQM= 6394.02

SQR=8393.44

6394.02(QMModelo)

299.77(QMResíduo)

21.33(p<0.001)

Total 29 (n-1) SQT = 14787.46

43.046.1478702.63942 ==

−=

SQTSQRSQTR

Tabela ANOVA - F

Apresentador
Notas de apresentação
P=número de parâmetros (bo e b1) Quadrado médio do Resíduo (QMR) é um estimador não tendencioso da variância dos erros no modelo de regressão. SQT, gl = n-1, 1 grau de liberdade é perdido porque a média da amostra é usada para estimar a média populacional
Page 39: Regressão Linear I

Graus deLiberdade(df)

Soma dos quadrados(SQ)

Quadrado médioQM=SQ/df

Razão da variância (F)

Regressão(X)

Resíduo

1 (p-1)

28 (n-p)

SQT-SQR= SQM= 6394.02

SQR=8393.44

6394.02(QMModelo)

299.77(QMResíduo)

21.33(p<0.001)

Total 29 (n-1) SQT = 14787.46

43.046.1478702.63942 ==

−=

SQTSQRSQTR

Tabela ANOVA - F

Importante Lembrar!A razão F é uma medida do quanto o

modelo melhorou na previsão de valores comparado com o nível de

não precisão do modeloUm bom modelo deverá ter

uma razão F grande

Apresentador
Notas de apresentação
P=número de parâmetros (bo e b1) Quadrado médio do Resíduo (QMR) é um estimador não tendencioso da variância dos erros no modelo de regressão. SQT, gl = n-1, 1 grau de liberdade é perdido porque a média da amostra é usada para estimar a média populacional
Page 40: Regressão Linear I

0:

0ˆ...ˆˆ: 210

===

jdosummenospeloexisteHa

H k

β

βββ

onde Fc ~ F p-1, n-p

Se F*> F (α; p-1,n-p), rejeitamos a hipótese nula, caso contrário, aceitamos a hipótese.

Inferência: Teste F (Adequação Global)

Apresentador
Notas de apresentação
MQM= média dos quadrados do modelo / MQR = média dos quadrados do resíduo F for próximo de 1 confirma H0 // F muito alto confirma Ha
Page 41: Regressão Linear I

-∞ +∞0 t1-a/2;n-2

tn-2

-t1-a/2;n-2

1 α−

a/2a/2

1. Construir intervalos de confiança para :

2. Teste de hipótese para :

0ˆ:

0ˆ:

1

10

=

β

β

Ha

H

Se = 0 , significa que não há correlação entre X e Y.

Rejeitar , significa que o modelo que inclui X é melhor do que o modelo que não inclui X mesmo que a linha reta não seja a relação mais apropriada.

1β̂Testando se a inclinação é zero.

0H

Inferência: Significância de b

Apresentador
Notas de apresentação
Studentized statistic (b1 – beta1)/s{b1} distribuição t(n-2)
Page 42: Regressão Linear I

1. Construir intervalos de confiança para:1β̂

=

=

−−= n

ii

n

iii

XX

YYXX

1

2

11

)(

))((β̂

Média:

Variânciaestimada: ( )∑

=− 2 )ˆ( 1

2XX

QMR

is β

).2(~)ˆ(

ˆ

1

11 −− nt

s βββ

Distribuição da estatística studentizada (σ é desconhecido)

Intervalo de confiança

)ˆ( )2;2/1(ˆ11 βαβ snt −−±

Inferência

Apresentador
Notas de apresentação
Studentized statistic (b1 – beta1)/s{b1} distribuição t(n-2)
Page 43: Regressão Linear I

2. Teste estatístico formal: feito de maneira padrão usando a distribuição de Student

-∞ +∞0 t1-α/2;n-2

tn-2

-t1-α/2;n-2

1 α−

α/2α/2

)ˆ(

ˆ*

1

1

βββ

st esperado−=

0*

0*

H rejeita ),2;2/1(|| H rejeita não ),2;2/1(||

−−>

−−≤

nttSenttSe

α

α

0ˆ:

0ˆ:

1

10

=

β

β

Ha

H

Inferência

)ˆ(

ˆ*

1

1

β

β

st =

Qual a probabilidade de que t* tenha ocorrido por acaso

se o valor de b1 fosse de fato zero?Se esse valor (significância) for

menor do que 0,05 (5%), b1 é significativamente diferente de zero

Apresentador
Notas de apresentação
Studentized statistic (b1 – beta1)/s{b1} distribuição t(n-2)
Page 44: Regressão Linear I

0:H0:H

01

00

≠=

ββ

Se a hipótese nula H0= 0 não for rejeitada, pode-se excluir a constante do modelo, já que a reta inclui a origem.

0β̂De forma semelhante testamos se é zero

Inferência

Page 45: Regressão Linear I

Executando uma Regressão Simples no SPSS

Page 46: Regressão Linear I

Regressão Simples no SPSS1. No SPSS, abra o arquivo

“Agua2010_SNIS.sav”

1. Vá em Analisar > Regressão > Linear

(Analyze > Regression > Linear )

Selecione a variável “dependente” e “independente”

Existe uma variedade de opções disponíveis, mas serão exploradas no contexto da regressão múltipla.

Page 47: Regressão Linear I

Ajuste Global do ModeloResumo do Modelo

R = 0,601 Como temos apenas um previsor, este valor representa a correlação simples entre Y (renda) e X (consumo).

R2 = 0,362 Coeficiente de Determinação. Nos informa que nosso modeloconsegue explicar 36,2% da variação do consumo de água. Devem existirmuitos fatores que podem explicar esta variação, mas nosso modelo, queinclui somente a renda per capita, pode explicar 36,2% dela. No entanto, 63,8% da variação do consumo de água não pode ser explicada pela variação da renda per capita.

Page 48: Regressão Linear I

Ajuste Global do ModeloAnálise de Variância

Soma dos Quadrados do Modelo (SQM), Soma dos Quadrados dos Resíduos(SQR) e Soma dos Quadrados Total (SQT)

Lembrando: SQT = SQM + SQR

Razão F = Quadrado Médio do Modelo / Quadrado Médio do ResíduoRazão F = 2499,709 (É um número bem grande!!! O que isso significa?)

Page 49: Regressão Linear I

Ajuste Global do ModeloAnálise de Variância

Para estes dados, F é 2499.709, que é significativo ao nível de p<0,001 (pois o valor na coluna Sig. é menor do que 0,001)

Esse resultado nos informa que existe uma probabilidade menor do que 0,1% de que um valor F tão alto tenha ocorrido apenas por acaso. Ou seja, pode-se concluir que nosso modelo de regressão representa melhor o consumo de água do que se tivéssemos usado apenas o valor médio do consumo.

Page 50: Regressão Linear I

Parâmetros do ModeloA análise de variância apresentada na tabela ANOVA nos informa se o modelo, em geral, resulta em um grau de previsão significativamente bomdos valores da variável de saída (no caso, consumo de água). No entanto, a ANOVA não nos informa sobre a contribuição individual das variáveis no modelo (embora neste caso simples exista uma única variável X no modeloe, assim, podemos inferir que esta variável é um bom previsor.)

A tabela dos coeficientes fornece detalhes dos parâmetros do modelo (osvalores beta) e da significância desses valores.

Page 51: Regressão Linear I

Parâmetros do Modelo

b0= intercepto y (ponto onde a linha corta o eixo y) b0= 4,252 (Valor que Y assume quando X=0)

b1= inclinação reta de regressãoMudança da variável de saída (Y) para cadaalteração de uma unidade no previsor (X)

b1= 0,041 Em média, um aumento de R$ 1 na renda per capita, estárelacionado a um aumento de 0,041 m3/ano de consumo de água (41 litros/ano)

Esta variável preditora (renda) está tendo impacto?

Page 52: Regressão Linear I

Parâmetros do Modelo

Esta variável preditora (renda) está tendo impacto?

Para isso, b1 deve ser diferente de zero!!! O teste t nos informa se b1 difere de zero.

Em “Sig.” temos a probabilidade de que o valor de t ocorra se o valor de b é zero. Se esta probabilidade é menor do 0,05 (5%) aceita-se que o resultado reflete um efeito genuíno, não é fruto do acaso.

Como as probabilidades são próximas de 0,000 (zero até a terceira casa), podemos dizer que a esta probabilidade é menor do que 0,001 (p<0,001).

Concluímos que a renda tem uma contribuição significativa (p<0,001) naexplicação da variação do consumo de água.