Regressão Linear I

Preview:

Citation preview

REGRESSÃO LINEARParte I

Vitor Vieira Vasconcelos

BH1350 – Métodos e Técnicas de Análise da Informação para o PlanejamentoJulho de 2016

Conteúdo

• Revisão• Modelos

• Correlação

• Teste de Significância

• Regressão Linear

• Estimação dos parâmetros

• Avaliação do ajuste do modelo

• Interpretação dos resultados

Inferência Estatística se resumindo a uma equação…

Saídai = (Modeloi) + erroi

Ou seja, os dados que observamos podem serprevistos pelo modelo que escolhemos para

ajustar os dados mais um erro

Média como um modelo estatístico

Uma maneira útil de descrever um grupo comoum todo:

• Qual é a renda média das famílias residentes naMooca?

• Qual é a altura média dos edifícios em São Caetano?

• Qual é o PIB médio dos municípios localizadosno arco do desmatamento?

Para além de médias… Modelos Lineares São modelos baseados sobre uma linha reta,

utilizados para representar a relação entre variáveis

Ou seja, geralmente estamos tentando resumir as RELAÇÕES observadas a partir de nossos dados observados em termos de uma linha reta.

Cons

umo

de Á

gua

per

Capi

ta (m

3/di

a/an

o)

Renda per Capita (R$)

RELAÇÃO ENTRE CONSUMO DE ÁGUA E

RENDA

CORRELAÇÃO

É uma medida do relacionamento linear entre duas variáveis

Duas variáveis podem estar:

(a) Positivamente relacionadas quando maior a renda, maioro consumo de água

(b) Negativamente relacionadas quanto maior a renda, menor o consumo de água

(c) Não há relação entre as variáveis

Correlação de PearsonMedida padronizada da correlação entre variáveis

Valor de r situa-se entre -1 e +1r = +1 duas variáveis estão perfeitamente correlacionadas de forma positiva(se uma aumenta, a outra aumenta proporcionalmente)

r = -1 relacionamento negativo perfeito (se uma aumenta, a outra diminuiem valor proporcional

r = 0 indica ausência de relacionamento linear

COEFICIENTE DE CORRELAÇÃO DE PEARSON

Teste de Significância do r de Pearson

Para testar a significância do r, calculamos uma estatísticateste conhecida como “razão t”, com graus de liberdadeigual a N-2.

Olhar na tabela o valor crítico de t, com graus de liberdade“N-2” e α=0,05

Se tcalculado > tcrítico, podemos rejeitar a hipótese nula de queρ=0.

Neste caso, os graus de liberdade indicam o quãopróxima a distribuição t está da distribuição normal. Qto maior, mais póximo da dist. normal.

ANÁLISE DE REGRESSÃO

CORRELAÇÃO: Indica a força e a direção do relacionamento linear entre duas variáveisaleatórias

Vamos avançar um passo:

Obter uma equação matemática quedescreva a relação entre duas ou mais

variáveis.

Esta é a essência da

(Lembrando que não estamos lidando com relações de causa-efeito)

Análise de regressão é uma ferramenta estatísticaque permite explorar e inferir a relação de umavariável dependente (Y variável resposta/dependente/ saída) com variáveis independentesespecíficas (X variáveis indicadoras/ previsoras/explicativas/ independentes).

Y = aX + b

NETER J. et al. Applied Linear Statistical Models. Boston, MA: McGraw-Hill, 1996.

ANÁLISE DE REGRESSÃO

Criminalidade (+) X Renda (-), Investimentos (-)

Longevidade (+) X Escolaridade (+), Renda (+)

Consumo de Água (+) X Renda per Capita (+)

Outros exemplos? ...

Exemplo

1. Determinar como duas ou mais variáveis se relacionam.

2. Estimar a função que determina a relação entre duas variáveis.

3. Usar a equação para projetar/estimar valores da variável dependente.

Lembrete importante: A existência de uma relação estatística entre a variável resposta Y e a variável explicativa X não implica na existência de uma relação causal entre elas.

Objetivos da Análise de Regressão

Os dados para a análise de regressão são da forma:

(x1, y1), (x2, y2), ..., (xi, yi), ... (xn, yn)

Com os dados constrói-se o diagrama de dispersão. Este deve exibir uma tendência linear para que se possa usar a regressão linear.

Ou seja, o diagrama permite decidir empiricamente se um relacionamento linear entre X e Y deve ser assumido.

Diagrama de Dispersão

Sugerem uma regressão/relação linear.

Assim, a relação entre as variáveis poderá ser descrita por uma equação linear.

Diagrama de Dispersão

Sugerem uma regressão/relação não linear.

Assim, a relação entre as variáveis poderá ser descrita por uma equação não linear.

(ou podemos verificar a possibilidade de “linearizar” a relação através de transformações nas variáveis)

Diagrama de Dispersão

Por análise do diagrama de dispersão pode-se também concluir (empiricamente) se o grau de relacionamento linear entre as variáveis é forte ou fraco, conforme o modo como se situam os pontos ao redor de uma reta imaginária que passa através da concentração de pontos.

Diagrama de Dispersão

Diagrama de Dispersão

Existência de correlação linear positiva: em média, quanto maior o X, maior será o Y

Existência de correlação linear negativa: em média, quanto maior o X, menor será o Y

Um modelo de regressão contendo somente uma variável preditora (X) é denominado modelo de regressão simples.

Um modelo com mais de uma variável preditora (X) é denominado modelo de regressão múltiplo.

Modelos de Regressão

onde:Yi é o valor da variável resposta na i-ésima observação;β0 e β1 são parâmetros;Xi é uma constante conhecida; é o valor da variável

preditora na i-ésima observação;ξi é um termo de erro aleatório com média zero e variância

constante σ2 (E(ξi)=0 e σ2 (ξi)= σ2 )ξi e ξj são não correlacionados (independentes) para i j

(σ2 (ξi,ξj)= 0 )

Regressão Linear Simples

Saídai = (Modeloi) + erroi

Lembrando:

Yi

ξi

X

Y

β0

β1Coeficiente

angular

µY = E(Y) = β0 + β1 X

InclinaçãoPopulacional

InterceptoPopulacional

Erro Aleatório

Variável Preditora

Variável Resposta Yi=β0+β1Xi +εi

Ŷi=b0+b1Xi

εi =Yi-Ŷi

Modelo estimado

Resíduo

Regressão Linear Simples

Os parâmetros β0 e β1 são denominados coeficientes deregressão:

1. β1 é a inclinação da reta de regressão. Ela indica a mudançana média de Y quando X é acrescido de uma unidade.

2. β0 é o intercepto em Y da equação de regressão (é o valor deY quando X = 0.)β0 só tem significado se o modelo incluir X = 0.

Significado de β0 e β1

Y

X0

β0

θ

x x+1

∆x=1

∆yyi = β0 + β1xi

xy

∆∆=1β

β0 (intercepto); quando a região experimental inclui X=0, β0 é o valor damédia da distribuição de Y em X=0, cc, não tem significado prático comoum termo separado (isolado) no modelo; β1 (inclinação) expressa a taxade mudança em Y, isto é, é a mudança em Y quando ocorre a mudança deuma unidade em X. Ele indica a mudança na média da distribuição deprobabilidade de Y por unidade de acréscimo em X.

Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html

Como encontrar a “linha” que melhor se ajusta aos nossos dados?

Ou seja: Como estimar os valores de β0 e β1?

Yi

ξi

X

Y

β0

β1Coeficiente

angular

Y = β0 + β1 X

Em geral não se conhece os valores de β0 e β1 .

Eles podem ser estimados através de dados obtidos poramostras.

O método utilizado na estimação dos parâmetros é ométodo dos mínimos quadrados, o qual considera osdesvios dos Yi de seu valor esperado (E(Yi )):

ξi = Yi – (β0 + β1 Xi)

Estimação dos Parâmetros

Ŷi

Em particular, o método dos mínimosquadrados requer que a soma dos n desviosquadrados, denotado por Q, seja mínima:

210

1][ ii

n

iXYQ ββ −−=∑

=

Estimação dos Parâmetros

Procedimento matemático para minimizar Q (soma dos desviosquadrados):

(1) Q deve ser derivado em relação a β0 e β1:

(1) Com derivadas parciais igualadas à zero, obtêm-se os valores estimados de β0 e β1:

=

=

−−= n

ii

n

iii

XX

YYXX

1

2

11

)(

))((β̂

=∂∂

=∂∂

−−−=

−−−=

n

iiii

Q

n

iii

Q

XYX

XY

110

110

)(2

)(2

1

0

ββ

ββ

β

β

Estimação dos Parâmetros

Os estimadores β0 e β1 possuem distribuição normal e intervalos de confiança com uma distribuição t, com n-2 graus de liberdade

Derivação

Apresentador
Notas de apresentação
Teorema de Gauss Markov

Correlação linear Não determina causalidade,

mas pode dar pistas. Identifica se duas variáveis se

relacionam de forma linear. Determina o quão mais

próximo de uma reta é a relação entre as variáveis. 0: não há relação linear 1: relação linear perfeita

Não indica o quanto uma variável pode estar influenciando a outra.

Pode ser testada estatisticamente.

Regressão linear Não determina causalidade,

mas pode dar pistas. Determina uma relação

linear entre duas variáveis. Traz elementos que

permitem fazer predições. Identifica o quanto uma

variável afeta a outra. Necessita de uma análise dos

resíduos para decidir sobre sua adequação.

Pode ser testada estatisticamente.

Slides: Marcos Pó

Correlação vs. Regressão

Como avaliar o quão bem nossa “linha” adere aos dados?

Ou seja: Como avaliar a qualidade de ajuste

do modelo?

Análise da Variância da Regressão

Análise da Variância da Regressão

Desvio Total Diferença entre dados

observados (Yi) e média de Y

Desvio não Explicado pelo ModeloDiferença entre dados observados (Yi)

e o modelo (linha de regressão)

Desvio Explicado Pelo ModeloDiferença entre média de Y e Modelo (linha de regressão)

Desvio Total = Desvio Explicado pelo Modelo + Desvio Não Explicado pelo Modelo

Ŷi

Análise da Variância da Regressão

)ˆ()ˆ( YYYYYY iii −+−=−

Elevando-se ao quadrado os dois lados da igualdade e fazendo-sea soma para todas as observações de uma determinada amostratem-se que:

Soma dos quadrados total (SQT)

Soma dos quadrados do modelo (SQM)

Soma dos quadrados residual (SQR)

Desvio Total Desvio Explicado

pelo ModeloDesvio Não-explicado

pelo Modelo

Inferência: Análise da Variância

Se SQT=0, então todas as observações Y são iguais.

Quanto maior for SQT, maior será a variação entre os Y’s.

SQT é uma medida da variação dos Y’s quando não se leva em consideração a variável independente X.

Se SQR = 0, então as observações caem na linha de regressão.

Quanto maior SQR, maior será a variação das observações Yao redor da linha de regressão.

Se a linha de regressão for horizontal, de modo

que então SQM = 0.

0^

=−−

YY i

Particionando a Soma dos QuadradosSQT SQM SQR

SQTotal = SQModelo + SQResíduos.

Um modo de se saber quão útil será a linha de regressão para a predição é verificar quanto da SQTestá na SQM e quanto está na SQR. Idealmente, gostaríamos que SQM fosse muito maior que SQR.

Gostaríamos, portanto, que fosse próximo de 1.SQTSQM

Particionando a Soma dos Quadrados

Uma medida do efeito de X em reduzir avariabilidade do Y é:

Note que: 0 ≤ R2 ≤ 1

R2 é denominado coeficiente de determinação. Emum modelo de regressão simples, o coeficiente dedeterminação é o quadrado do coeficiente decorrelação de Pearson (r) entre Y e X. Note que emum modelo de regressão simples

SQTSQR1

SQTSQR-SQT

SQTSQM2 −===R

112 ≤≤−⇒±= rRr

Coeficiente de Determinação

Temos dois casos extremos:

R2 = 1 todas as observações caem na linha deregressão ajustada. A variável preditora X explicatoda a variação nas observações.

R2 = 0 isto ocorre quando b1 = 0. Não existerelação linear em Y e X. A variável X não ajuda aexplicar a variação dos Yi .

Coeficiente de Determinação

Outra maneira de avaliar o modelo utilizando a soma dos quadrados é por

meio do Teste F

O Teste F tem por base a razão F, que é a razão de melhoria devida ao modelo e a diferença entre o modelo e os dados observados

A razão F é uma medida do quanto o modelo melhorou na previsão de valores comparado com o nível de não precisão do modelo

Graus deLiberdade(df)

Soma dos quadrados(SQ)

Quadrado médioQM=SQ/df

Razão da variância (F)

Regressão(X)

Resíduo

1 (p-1)

28 (n-p)

SQT-SQR= SQM= 6394.02

SQR=8393.44

6394.02(QMModelo)

299.77(QMResíduo)

21.33(p<0.001)

Total 29 (n-1) SQT = 14787.46

43.046.1478702.63942 ==

−=

SQTSQRSQTR

Tabela ANOVA - F

Apresentador
Notas de apresentação
P=número de parâmetros (bo e b1) Quadrado médio do Resíduo (QMR) é um estimador não tendencioso da variância dos erros no modelo de regressão. SQT, gl = n-1, 1 grau de liberdade é perdido porque a média da amostra é usada para estimar a média populacional

Graus deLiberdade(df)

Soma dos quadrados(SQ)

Quadrado médioQM=SQ/df

Razão da variância (F)

Regressão(X)

Resíduo

1 (p-1)

28 (n-p)

SQT-SQR= SQM= 6394.02

SQR=8393.44

6394.02(QMModelo)

299.77(QMResíduo)

21.33(p<0.001)

Total 29 (n-1) SQT = 14787.46

43.046.1478702.63942 ==

−=

SQTSQRSQTR

Tabela ANOVA - F

Importante Lembrar!A razão F é uma medida do quanto o

modelo melhorou na previsão de valores comparado com o nível de

não precisão do modeloUm bom modelo deverá ter

uma razão F grande

Apresentador
Notas de apresentação
P=número de parâmetros (bo e b1) Quadrado médio do Resíduo (QMR) é um estimador não tendencioso da variância dos erros no modelo de regressão. SQT, gl = n-1, 1 grau de liberdade é perdido porque a média da amostra é usada para estimar a média populacional

0:

0ˆ...ˆˆ: 210

===

jdosummenospeloexisteHa

H k

β

βββ

onde Fc ~ F p-1, n-p

Se F*> F (α; p-1,n-p), rejeitamos a hipótese nula, caso contrário, aceitamos a hipótese.

Inferência: Teste F (Adequação Global)

Apresentador
Notas de apresentação
MQM= média dos quadrados do modelo / MQR = média dos quadrados do resíduo F for próximo de 1 confirma H0 // F muito alto confirma Ha

-∞ +∞0 t1-a/2;n-2

tn-2

-t1-a/2;n-2

1 α−

a/2a/2

1. Construir intervalos de confiança para :

2. Teste de hipótese para :

0ˆ:

0ˆ:

1

10

=

β

β

Ha

H

Se = 0 , significa que não há correlação entre X e Y.

Rejeitar , significa que o modelo que inclui X é melhor do que o modelo que não inclui X mesmo que a linha reta não seja a relação mais apropriada.

1β̂Testando se a inclinação é zero.

0H

Inferência: Significância de b

Apresentador
Notas de apresentação
Studentized statistic (b1 – beta1)/s{b1} distribuição t(n-2)

1. Construir intervalos de confiança para:1β̂

=

=

−−= n

ii

n

iii

XX

YYXX

1

2

11

)(

))((β̂

Média:

Variânciaestimada: ( )∑

=− 2 )ˆ( 1

2XX

QMR

is β

).2(~)ˆ(

ˆ

1

11 −− nt

s βββ

Distribuição da estatística studentizada (σ é desconhecido)

Intervalo de confiança

)ˆ( )2;2/1(ˆ11 βαβ snt −−±

Inferência

Apresentador
Notas de apresentação
Studentized statistic (b1 – beta1)/s{b1} distribuição t(n-2)

2. Teste estatístico formal: feito de maneira padrão usando a distribuição de Student

-∞ +∞0 t1-α/2;n-2

tn-2

-t1-α/2;n-2

1 α−

α/2α/2

)ˆ(

ˆ*

1

1

βββ

st esperado−=

0*

0*

H rejeita ),2;2/1(|| H rejeita não ),2;2/1(||

−−>

−−≤

nttSenttSe

α

α

0ˆ:

0ˆ:

1

10

=

β

β

Ha

H

Inferência

)ˆ(

ˆ*

1

1

β

β

st =

Qual a probabilidade de que t* tenha ocorrido por acaso

se o valor de b1 fosse de fato zero?Se esse valor (significância) for

menor do que 0,05 (5%), b1 é significativamente diferente de zero

Apresentador
Notas de apresentação
Studentized statistic (b1 – beta1)/s{b1} distribuição t(n-2)

0:H0:H

01

00

≠=

ββ

Se a hipótese nula H0= 0 não for rejeitada, pode-se excluir a constante do modelo, já que a reta inclui a origem.

0β̂De forma semelhante testamos se é zero

Inferência

Executando uma Regressão Simples no SPSS

Regressão Simples no SPSS1. No SPSS, abra o arquivo

“Agua2010_SNIS.sav”

1. Vá em Analisar > Regressão > Linear

(Analyze > Regression > Linear )

Selecione a variável “dependente” e “independente”

Existe uma variedade de opções disponíveis, mas serão exploradas no contexto da regressão múltipla.

Ajuste Global do ModeloResumo do Modelo

R = 0,601 Como temos apenas um previsor, este valor representa a correlação simples entre Y (renda) e X (consumo).

R2 = 0,362 Coeficiente de Determinação. Nos informa que nosso modeloconsegue explicar 36,2% da variação do consumo de água. Devem existirmuitos fatores que podem explicar esta variação, mas nosso modelo, queinclui somente a renda per capita, pode explicar 36,2% dela. No entanto, 63,8% da variação do consumo de água não pode ser explicada pela variação da renda per capita.

Ajuste Global do ModeloAnálise de Variância

Soma dos Quadrados do Modelo (SQM), Soma dos Quadrados dos Resíduos(SQR) e Soma dos Quadrados Total (SQT)

Lembrando: SQT = SQM + SQR

Razão F = Quadrado Médio do Modelo / Quadrado Médio do ResíduoRazão F = 2499,709 (É um número bem grande!!! O que isso significa?)

Ajuste Global do ModeloAnálise de Variância

Para estes dados, F é 2499.709, que é significativo ao nível de p<0,001 (pois o valor na coluna Sig. é menor do que 0,001)

Esse resultado nos informa que existe uma probabilidade menor do que 0,1% de que um valor F tão alto tenha ocorrido apenas por acaso. Ou seja, pode-se concluir que nosso modelo de regressão representa melhor o consumo de água do que se tivéssemos usado apenas o valor médio do consumo.

Parâmetros do ModeloA análise de variância apresentada na tabela ANOVA nos informa se o modelo, em geral, resulta em um grau de previsão significativamente bomdos valores da variável de saída (no caso, consumo de água). No entanto, a ANOVA não nos informa sobre a contribuição individual das variáveis no modelo (embora neste caso simples exista uma única variável X no modeloe, assim, podemos inferir que esta variável é um bom previsor.)

A tabela dos coeficientes fornece detalhes dos parâmetros do modelo (osvalores beta) e da significância desses valores.

Parâmetros do Modelo

b0= intercepto y (ponto onde a linha corta o eixo y) b0= 4,252 (Valor que Y assume quando X=0)

b1= inclinação reta de regressãoMudança da variável de saída (Y) para cadaalteração de uma unidade no previsor (X)

b1= 0,041 Em média, um aumento de R$ 1 na renda per capita, estárelacionado a um aumento de 0,041 m3/ano de consumo de água (41 litros/ano)

Esta variável preditora (renda) está tendo impacto?

Parâmetros do Modelo

Esta variável preditora (renda) está tendo impacto?

Para isso, b1 deve ser diferente de zero!!! O teste t nos informa se b1 difere de zero.

Em “Sig.” temos a probabilidade de que o valor de t ocorra se o valor de b é zero. Se esta probabilidade é menor do 0,05 (5%) aceita-se que o resultado reflete um efeito genuíno, não é fruto do acaso.

Como as probabilidades são próximas de 0,000 (zero até a terceira casa), podemos dizer que a esta probabilidade é menor do que 0,001 (p<0,001).

Concluímos que a renda tem uma contribuição significativa (p<0,001) naexplicação da variação do consumo de água.

Recommended