1
Introdução à Introdução à Correlação e Correlação e
Regressão LinearRegressão Linear
Rui Carvalho [email protected]
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear Estatística Descritiva – amostras bivariadas
Amostras bivariadas: cada entidade (indivíduo/objecto) é caracterizado por um par de variáveis (atributos)
9618515
7918114
8918013
7217712
8217411
7617210
811709
711708
641707
761686
701675
641674
591633
691612
581591
Peso (Y)
Altura (X)Ind. (i) Representação: Gráfico de dispersão
0
20
40
60
80
100
120
155 160 165 170 175 180 185 190
Altura
Peso
Nota: as duas variáveis parecem estar relacionadas, podendo até fazer-se previsões sobre uma (Y) a partir de conhecimento sobre o valor da outra (X)
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear Medida de associação (linear) entre variáveis
YX
YXσσ
),(covCoeficiente de correlação: ρ =
Cov (X,Y) - covariância de (X,Y) : valor esperado (médio) do produto dos desvios de X e Y relativamente às médias respectivas
Cov (X,Y) = E [ ( Y-µY ) ( X -µX ) ]
σ2X = E [ (X -µX )2 ] – variância de X
10 ≤≤ ρ
ρ = 0 , as duas variáveis são linearmente independentes
ρ = 1 , as duas variáveis têm uma relação linear perfeita (Y= α + β X )
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear
Produto de desviospositivo
(- ) x (-) = +
Produto de desviospositivo
(+ ) x (+) = +
Indivíduos altos(altura > média)
Xix >
0 )( >−Xix
Estimação do coeficiente de correlaçãoMedida de associação entre variáveis: coeficiente de correlação
^ρ = r =
∑∑∑
−−
−−22 ) ( ) (
) ( ) (
yyxx
yyxx
ii
ii
Exemplo: altura (X) vs peso (Y) de pessoas
Indivíduos pesados(peso > média)
0 )( >−Yiy
Yiy > 0 )X - ()( >− ixYiy
Tendencialmente
Indivíduos baixos(altura < média)
Xix <
0 )( <−Xix
Indivíduos leves(peso < média)
0 )( <−Yiy
Yiy <Tendencialmente
Coeficiente de correlação positivo (r > 0)
0 )X - ()( >− ixYiy
2
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear
Carros leves(peso < média)
Xix <
0 )( <−Xix
Produto de desviosnegativo
(+ ) x (-) = -
Produto de desviosnegativo
(- ) x (+) = -
Carro pesado(peso > média)
Xix >
0 )( >−Xix
Medida de associação entre variáveis: coeficiente de correlação^ρ = r =
∑∑∑
−−
−−22 ) ( ) (
) ( ) (
yyxx
yyxx
ii
ii
Exemplo: peso (X) vs velocidade de ponta (Y) de automóveis
Velocidade baixa(velocidade<média)
0 )( <−Yiy
Yiy < 0 )X - ()( <− ixYiy
Tendencialmente
Velocidade alta(velocidade>média)
0 )( >−Yiy
Yiy >Tendencialmente
Coeficiente de correlação negativo (r < 0)
0 )X - ()( <− ixYiy
Estimação do coeficiente de correlação
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear Coeficiente de correlação
Diagramas de dispersão e respectivo coeficiente de correlação
Correlação perfeita
Correlação imperfeita
Correlação nula
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear Medida de associação (linear) entre variáveis
Coeficiente de correlação (ρ)10 ≤≤ ρ
ρ = 0 , as duas variáveis são linearmente independentes
ρ = 1 , as duas variáveis têm uma relação linear perfeita (Y= α + β X )
0 < ρ < 1, a variável independente X contem alguma informação sobre Y
é possível fazer previsões, mas estas não serão perfeitas
No exemplo Peso vs Altura: r = 0,833 correlação elevada
Deste modo, é legítimo esperar previsões razoáveis (mas não perfeitas, isto é, não isentas de erro) do peso de um indivíduo a partir doconhecimento da sua altura
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear REGRESSÃO LINEAR
Regressão: técnica estatística que permite estabelecer relações entre variáveis através das quais se procura estimar (ou prever) uma delas (a variável dependente) quando se supõem conhecidas as restantes (ditas variáveis independentes ou explicativas).
Por exemplo:- prever a procura de um produto numa região usando como variáveis explicativas a população residente, o índice de poder de compra e o número de lojas dessa região
- estimar o valor de um apartamento a partir da área, número de assoalhadas, idade e localização do mesmo
- prever as vendas de combustível num posto de abastecimento a partir da áreado mesmo, existência (ou não) de loja de conveniência, tráfego na via e população residente na área de influência do posto- .....- prever o peso de uma pessoa a partir da sua altura
- etc
3
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear REGRESSÃO LINEAR SIMPLES
Vamos considerar:• 1 só variável explicativa • relação linear do tipo Y= α + β X
Mas ... previsões não são perfeitas...
Y = α + β X + ε
ε - resíduo, ruído, erro, desvio ... (componente aleatória resultante de outros factores não considerados no modelo, erros de observação/medida, inadequação da forma funcional, variabilidade inerente ao fenómeno…)
Hipóteses sobre o resíduo aleatório ε :i. o valor médio do resíduo é nulo, quer globalmente (E[ε] = 0), quer para
cada valor de X (E[ε /X] = 0) ii. os resíduos são independentes e a sua variância ( ) não depende de X
(homocedasticidade: constância de )iii. os resíduos têm uma distribuição normal
2εσ
2εσ R
ui C
arva
lho
Oliv
eira
C
orre
laçã
o e
Reg
ress
ão L
inea
r REGRESSÃO LINEAR SIMPLES
Daquelas hipóteses sobre os resíduos resulta:
• E[ Y/X ] = E [ α + β X + ε ] = α + β X + E [ε] = α + β X
Y = α + β X + ε
Esta equação de regressão avalia o valor médio de Y para um dado valor de X …
… mas Y variará de modo aleatório à volta desse valor médio, com uma distribuição normal de variância 2
εσ
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear REGRESSÃO LINEAR SIMPLES
Y = α + β X + ε
E [ Y/X ] = α + β X Esta equação de regressão avalia o valor médio de Y para um dado valor de X …
… mas Y variará de modo aleatório àvolta desse valor médio, com uma distribuição normal de variância 2
εσ
Recta de regressãoE[ Y/X ] = α + β X R
ui C
arva
lho
Oliv
eira
C
orre
laçã
o e
Reg
ress
ão L
inea
r REGRESSÃO LINEAR SIMPLES
Hipótese de constância da variância do resíduo para todos os valores de X (homocedasticidade)
4
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear REGRESSÃO LINEAR SIMPLES
Hipótese de constância da variância do resíduo para todos os valores de X (homocedasticidade)
Admitir que X e Y têm uma distribuição conjunta normal bivariada garante homocedasticidade + distribuição normal dos resíduos (além de que a regressão de Y em X é linear)
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear Estimação dos parâmetros do modelo de regressão
Partindo de uma amostra aleatória (bi-variada) de n pares de observações da população ( xi , yi ) com i = 1, 2,..., npretende-se obter…
… uma estimativa do parâmetro α, identificada por (ou a) …
… e uma estimativa do parâmetro β, identificada por (ou b) …
… utilizando um critério de estimação
αβ
o mais correntemente utilizado é o critério dos mínimos quadrados
Y = α + β X + εR
ui C
arva
lho
Oliv
eira
C
orre
laçã
o e
Reg
ress
ão L
inea
r Estimação dos parâmetros do modelo de regressão
Critério dos mínimos quadrados
Estimativa (previsão):
Y = a + b X
Erro (ou desvio):
iYei = Yi – = Yi - ( a + b Xi )
Soma dos erros quadráticos :
SE = =∑=
n
iie
1
2 ∑=
−−n
iii XbaY
1
2)(
Para minimizar SE
⎪⎪⎩
⎪⎪⎨
⎧
=∂∂
=∂∂
⇒0
0
bSEa
SER
ui C
arva
lho
Oliv
eira
C
orre
laçã
o e
Reg
ress
ão L
inea
r Estimação dos parâmetros do modelo de regressão
Critério dos mínimos quadrados : minimização da soma do quadrado dos desvios
Min SE = ∑=
n
iie
1
2
Resulta:
⎪⎪⎪
⎩
⎪⎪⎪
⎨
⎧
−=
−−
=∑∑
XbYa
XnXYXnYX
bi
ii22 )(
Adicionalmente, a variância do resíduo 2εσ pode ser estimada por
=2εσ) ( )[ ]
22
22
−
+−=
−∑∑
nxbay
ne iii
5
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear Modelo de regressão linear simples - exemplo
Pretende-se prever o peso (Y) de uma pessoa a partir da sua altura (X).Recolheram-se dados sobre 15 pessoas (amostra)
961857918189180721778217476172811707117064170761687016764167591636916158159(Y)(X)
PESOALTURA
O gráfico de dispersão sugere um modelo linear para representar o peso em função da altura.
Confirme-se esta sugestão avaliando o coeficiente de correlação:r = 0,833 correlação elevada
0
20
40
60
80
100
120
155 160 165 170 175 180 185 190
Altura
Peso
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear
PESO
y = 1,1933x - 130,24R2 = 0,6945
0
20
40
60
80
100
120
155 160 165 170 175 180 185 190
Modelo de regressão linear simples - exemplo
Equação (recta) de regressão: Y = -130,24 + 1,193 X
1- Para pessoas com altura x0 = 1.70 m,a previsão do seu peso médio é )(ˆ
0xY = 72.6 kg
2- Para pessoas com altura x0 = 1.85 m,a previsão do seu peso médio é )(ˆ
0xY = 90.5 kg
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear Modelo de regressão linear simples - exemplo
ALTURA (X)
PESO (Y)
Peso previsto
Erro
Quadrado dos erros
159 58 59,5 -1,5 2,23 161 69 61,9 7,1 50,70 163 59 64,3 -5,3 27,74 167 64 69,0 -5,0 25,40 167 70 69,0 1,0 0,92 168 76 70,2 5,8 33,26 170 64 72,6 -8,6 74,30 170 71 72,6 -1,6 2,62 170 81 72,6 8,4 70,23 172 76 75,0 1,0 0,98 174 82 77,4 4,6 21,22 177 72 81,0 -9,0 80,50 180 89 84,6 4,4 19,77 181 79 85,7 -6,7 45,50 185 96 90,5 5,5 30,03
Soma 2564 1106 0 485,44 Média 170,93 73,73
Variância (estimada) do resíduo aleatório = 485,44 /(15-2) = 37,34
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear Regressão linear simples - PRECISÃO DAS ESTIMATIVAS
[ ]( )( )∑ −−
+
=−
2
20
00
1ˆ
/)(
xxxx
n
xXYExY
iεσ
)
Para o valor médio de Y dado que X= x0 (na população) - E[Y/X= x0]
Prova-se que ∩ t n-2
distribuição t-Studentcom (n-2) graus de liberdade
onde 00 )(ˆ xbaxY +=
1-γ %γ/2 γ/2
-tγ/2 +tγ/20
Estimativa (previsão) produzida pelo modelo de regressão do verdadeiro valor médio de Y (para X=x0)
Qual a precisão desta estimativa?
Que margens de erro lhe estão associadas?
6
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear Operações com distribuição t-Student
sDw− ∩ tk distribuição t-Student com k graus de liberdade
Para uma dada probabilidade (1-γ):
1-γ %γ/2 γ/2
-tγ/2 +tγ/2
γγγ −=⎥⎦⎤
⎢⎣⎡ +≤
−≤− 12/2/ t
sDwtP
[ ] γγγ −=+≤−≤− 12/2/ tsDwtsP
[ ] γγγ −=+≤≤− 12/2/ tswDtswP
-2.16 +2.16 95%
Exemplo para k=13 graus de liberdade 0
+2.16 - 2.16
2.5 % 2.5 %
95 %
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear Regressão linear simples - PRECISÃO DAS ESTIMATIVAS
[ ]( )( )∑ −−
+
=−
2
20
00
1ˆ
/)(
xxxx
n
xXYExY
iεσ
)
Para o valor médio de Y dado que X= x0 (na população) - E[Y/X= x0]
Prova-se que ∩ t n-2
distribuição t-Studentcom (n-2) graus de liberdade
onde 00 )(ˆ xbaxY +=
1-γ %γ/2 γ/2
-tγ/2 +tγ/2
Daqui resulta que o Intervalo de Confiança a (1- γ) % para o verdadeiro valor médio de Y dado X na população tem por limites os valores:
( )( )∑ −−
+±− 2
20
2,20
1ˆ)(ˆxx
xxn
txYi
n εγ σ
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear Regressão linear simples - PRECISÃO DAS ESTIMATIVAS
2- Para pessoas com altura x0 = 1.85 m,
a previsão do seu peso (médio) é = 90.5 kg
e, para um grau de confiança (1-γ)% = 95% , o intervalo de confiança
tem os limites 90.5 ± 7.5
Intervalo de confiança (a 95%) : [83 ;98] kg
)(ˆ0xY
O Intervalo de Confiança a (1- γ) % para o verdadeiro valor médio de Y dado X na população tem por limites os valores:
Exemplos, para o modelo Peso vs Altura:1- Para pessoas com altura x0 = 1.70 m,
a previsão do seu peso (médio) é = 72.6 kg
e, para um grau de confiança (1-γ)% = 95% , o intervalo de confiança
tem os limites 72.6 ± 3.4
Intervalo de confiança (a 95%) : [69.2 ; 76.0] kg
)(ˆ0xY
( )( )∑ −−
+±− 2
20
2,20
1ˆ)(ˆxx
xxn
txYi
n εγ σ
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear Regressão linear simples - PRECISÃO DAS ESTIMATIVAS
Amplitude do intervalo de confiança de E [ Y/ X = x0 ] (diferença entre a estimativa baseada na amostra e o verdadeiro valor para a população )depende de :
i. grau de confiança, que influencia tγ/2
ii. - desvio padrão (estimado) do resíduo aleatório
iii. n - tamanho da amostra
iv. - concluindo-se que, para obter maior rigor na
estimação de E[ Y/ X ], a gama de valores observados da variável
independente deve ser tão alargada quanto possível
v. - concluindo-se que, à medida que X0 se afasta de , o
intervalo se vai alargando
εσ
( )∑ − 2xxi
( )20 xx − X
7
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear Regressão linear simples - PRECISÃO DAS ESTIMATIVAS
Esta última constatação resulta de a recta ajustada pelo critério dos mínimos quadrados passar sempre pelo ponto ( )YX ,
X0 = 170 IC : 72.6 ± 3.4
X1 = 185 IC : 90.5 ± 7.5
XPara o modelo Peso vs Altura: = 170.93
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear Regressão linear simples - PRECISÃO DAS ESTIMATIVAS
Para o verdadeiro valor de Y dado que X= x0 (na população) - Y(x0)
onde 00 )(ˆ xbaxY +=
Relativamente ao modelo Peso vs Altura, até agora fizemos previsão sobre o valor médio do peso das pessoas que têm altura x0.
Agora procuramos um intervalo para o verdadeiro valor do peso de uma certa pessoa que tem altura x0 , chamado intervalo de predição
Limites do IP a (1-γ )% para o verdadeiro valor de Y dado x0 :
( )( )∑ −−
++±− 2
20
2,20
11ˆ)(ˆxx
xxn
txYi
n εγ σ
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear Regressão linear simples - PRECISÃO DAS ESTIMATIVAS
2- Para pessoas com altura x0 = 1.85 m,
a previsão do seu peso (médio) é = 90.5 kg
e, para um grau de confiança (1-γ)% = 95% , o intervalo de confiança
tem os limites 90.5 ± 15.2
Intervalo de predição (a 95%) : [75.3 ;105.7] kg
)(ˆ0xY
Limites do intervalo de predição a (1-γ )% para o verdadeiro valor de Y dado x0 :
Exemplos, para o modelo Peso vs Altura:1- Para pessoas com altura x0 = 1.70 m,
a previsão do seu peso (médio) é = 72.6 kg
e, para um grau de confiança (1-γ)% = 95% , o intervalo de predição tem
os limites 72.6 ± 13.6
Intervalo de predição (a 95%) : [59.0 ; 86.2] kg
)(ˆ0xY
( )( )∑ −−
++±− 2
20
2,20
11ˆ)(ˆxx
xxn
txYi
n εγ σ
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear
Estimador do parâmetro α, identificado por (ou a)
INFERÊNCIAS SOBRE PARÂMETROS do modelo de Regressão Linear
• Prova-se que :
E[a] = α a é um estimador centrado de α
=2aσ) ( )
( ) ⎟⎟⎠
⎞⎜⎜⎝
⎛
−+∑ 2
22 1
xxx
n iεσ)
aσα)−a ∩ t n-2
distribuição t-Student com (n-2) graus de liberdade
• Intervalo de confiança a (1-γ )% para o parâmetro α da população:
( )( )∑ −
+±− 2
2
2,2
1 axx
xn
tin εσγ
)
α
8
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear INFERÊNCIAS SOBRE PARÂMETROS do modelo de Regressão Linear
Estimador do parâmetro α, identificado por (ou a)
• Teste de hipóteses sobre o parâmetro α da população:
H0 : α = 0 H1 : α ≠ 0
aσ)a ∩ t n-2
Estatística t do parâmetro a
A hipótese α = 0 é rejeitada se a estatística sair fora do intervalo definido pelos valores críticos (- tγ /2 , +tγ /2) retirados de uma distribuição t-Student com (n-2) graus de liberdade
α
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear INFERÊNCIAS SOBRE PARÂMETROS do modelo de Regressão Linear
Parâmetro α :
Para o exemplo do modelo Peso vs Altura
2.130ˆ −==aα
( )( )
8.141012
222 =⎟
⎟⎠
⎞⎜⎜⎝
⎛
−+=∑ xx
xn i
a εσσ )) 6.37=aσ)
aσα)-a ∩ t n-2
distribuição t-Student com 13 graus de liberdade 95 %2.5% 2.5%
-2.16 +2.16
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear INFERÊNCIAS SOBRE PARÂMETROS do modelo de Regressão Linear
Intervalo de confiança a 95% para o parâmetro α da população:
aσα)-a ∩ t n-2
Distribuição t-Student com 13 graus de liberdade
95 %2.5% 2.5%
-2.16 +2.16
-130.2 ± 2.16 x 37.6 [ -211.4 ; -49.1 ]
Teste de hipótese sobre o parâmetro α da população:
H0 : α = 0 H1 : α ≠ 0
16.247.36.37
2.130a−<−=
−==
at
σ)
Estatística t do parâmetro a
Valor crítico (- tγ /2)(Retirado da distribuição t-Student
para um nível de significância de 5%)
Conclusão: o teste é significativo e a hipótese H0 (α = 0) é rejeitada (o parâmetro α é significativamente diferente de 0) R
ui C
arva
lho
Oliv
eira
C
orre
laçã
o e
Reg
ress
ão L
inea
r INFERÊNCIAS SOBRE PARÂMETROS do modelo de Regressão Linear
Estimador do parâmetro β, identificado por (ou b)• Prova-se que :
E[b] = β b é um estimador centrado de β
( )∑ −= 2
22
xxib
εσσ)
)
∩ t n-2b
bσβ
)−
distribuição t-Student com (n-2) graus de liberdade
• Intervalo de confiança a (1-γ )% para o parâmetro β da população:
( )22,2
b∑ −
±− xx
ti
n
εγ
σ)
β
9
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear INFERÊNCIAS SOBRE PARÂMETROS do modelo de Regressão Linear
Estimador do parâmetro β, identificado por (ou b)
• Teste de hipóteses sobre o parâmetro β da população:
H0 : β = 0 H1 : β ≠ 0
bσ)b ∩ t n-2
Estatística t do parâmetro β
A hipótese β = 0 é rejeitada se a estatística sair fora do intervalo definido pelos valores críticos (- tγ /2 , +tγ /2) retirados de uma distribuição t-Student com (n-2) graus de liberdade
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear INFERÊNCIAS SOBRE PARÂMETROS do modelo de Regressão Linear
Parâmetro β :
Para o exemplo do modelo Peso vs Altura
bσβ)-b ∩ t n-2
distribuição t-Student com 13 graus de liberdade 95 %2.5% 2.5%
-2.16 +2.16
193.1ˆ ==bβ
( )0484.02
22 =
−=∑ xxi
bεσσ)
) 22.0=bσ)
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear INFERÊNCIAS SOBRE PARÂMETROS do modelo de Regressão Linear
Intervalo de confiança a 95% para o parâmetro β da população:
bσβ)-b ∩ t n-2
Distribuição t-Student com 13 graus de liberdade
95 %2.5% 2.5%
-2.16 +2.16
1.193 ± 2.16 x 0.22 [ 0.719 ; 1.668 ]
Teste de hipótese sobre o parâmetro β da população:
H0 : α = 0 H1 : α ≠ 0
Estatística t do parâmetro b
Valor crítico (- tγ /2)(Retirado da distribuição t-Student
para um nível de significância de 5%)
Conclusão: o teste é significativo e a hipótese H0 (β = 0) é rejeitada (o parâmetro βé significativamente diferente de 0)
16.244.522.0
193.1b>===
bt
σ)
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear CAPACIDADE EXPLICATIVA DO MODELO DE REGRESSÃO
Sem regressão a melhor estimativa de Yi será Y ; erro de estimação, ou desvio total: dt = Yi - Y
Com o modelo de regressão a estimativa será ii XbaY +=ˆ
erro de estimação: Yi - iY ,
desvio não explicado pela regressão : dn = Yi - iY
Assim, o desvio explicado pela regressão é: de = dt - dn = iY - Y
10
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear CAPACIDADE EXPLICATIVA DO MODELO DE REGRESSÃO
Medidas de análise (síntese para todos os pontos):
Variação inicial (variação total): soma do quadrado dos desvios totais
( )2∑ −= YYST i
Variação explicada pela regressão: soma do quadrado dos desvios explicados pela regressão:
( )2ˆ∑ −= YYSR i
Variação não explicada: soma do quadrado dos desvios não explicados pela regressão:
( )22 ˆ∑∑ −== iii YYeSE
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear Regressão Linear - exemplos
Relação com o coeficiente de correlação - prova-se que :
SR = 2ρ ST
SE = (1- 2ρ ) ST
STSR
=2ρ representa a fracção da variação inicial que é explicada pela regressão
coeficiente de determinação(é uma medida da capacidade explicativa do modelo, ou da qualidade do ajustamento)
• se ρ = ± 1 → a regressão explica tudo ( SE=0 ) • à medida que ρ diminui , a capacidade explicativa diminui também,
• até que ρ = 0 significa que o modelo não tem capacidade explicativa ( SR=0 ; ST= SE )
Variação explicadaVariação não explicada
Variaçãototal
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear
Output do EXCEL
SUMMARY OUTPUT
Regression StatisticsMultiple R 0,8334R Square 0,6945Adjusted R Square 0,6710Standard Error 6,11Observations 15
ANOVAdf SS MS F Significance F
Regression 1 1103,49 1103,49 29,55 0,0001139Residual 13 485,44 37,34Total 14 1588,93
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%Intercept -130,243 37,556 -3,468 0,004162 -211,377 -49,109X Variable 1 1,193 0,220 5,436 0,000114 0,719 1,668
Modelo de regressão linear simples – exemplo Peso vs Altura RESIDUAL OUTPUT
Observation Predicted Y Residuals159 58 1 59,5 -1,49161 69 2 61,9 7,12163 59 3 64,3 -5,27167 64 4 69,0 -5,04167 70 5 69,0 0,96168 76 6 70,2 5,77170 64 7 72,6 -8,62170 71 8 72,6 -1,62170 81 9 72,6 8,38172 76 10 75,0 0,99174 82 11 77,4 4,61177 72 12 81,0 -8,97180 89 13 84,6 4,45181 79 14 85,7 -6,75185 96 15 90,5 5,48
Soma = 0,00
Altura (X) Peso (Y)
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear Análise dos resíduos da regressão
Análises e testes incidindo sobre as hipóteses de base:
•Normalidade dos resíduos•Independência dos resíduos•Homocedasticidade (constância da variância dos resíduos)
Um simples “plot” dos resíduos pode ser elucidativo:
-10
-8
-6
-4
-2
0
2
4
6
8
10
155 165 175 185X - Altura
Res
íduo
s Resíduos aparentam ser aleatórios e de variância constante
11
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear REGRESSÃO – Análise de resíduos
Homocedasticidade ?
0
10
20
30
40
50
60
1500 2000 2500 3000 3500 4000 4500
Peso
Con
sum
o (m
pg)
Diagrama de resíduos
-15
-10
-5
0
5
10
15
20
1500 2000 2500 3000 3500 4000 4500
Peso
Res
íduo
s
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear REGRESSÃO – Análise de resíduos
Homocedasticidade ?
Transformação de variáveis : logaritmo do consumo
2,0
2,5
3,0
3,5
4,0
4,5
1500 2000 2500 3000 3500 4000 4500
Peso
LN (c
onsu
mo)
Diagrama de resíduos
-0,4
-0,3
-0,2
-0,1
0
0,1
0,2
0,3
0,4
1500 2000 2500 3000 3500 4000 4500
Peso
Res
íduo
s
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear REGRESSÃO – Análise de resíduos
Relações não lineares (e variância não constante – heterocedasticidade)Exemplo: salário vs nível educacional (nº de anos de escolaridade)
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear REGRESSÃO – Análise de resíduos
Linearização por transformação de variáveis (logaritmo do salário) correspondente a modelo Salário = e Eduβα +
12
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear Regressão Linear - exemplos
Circulação de jornais (matutinos nacionais) vs população residente (por distrito)
0
20000
40000
60000
80000
0 500 1000 1500 2000 2500
PopulaçãoC
ircul
ação
jorn
ais
Coeficiente de correlação: 0.968
Circulação = -9939 + 42.9 x População423,33441Viseu
262,92842Vila Real
266,45280V.Castelo
779,614820Setúbal
460,65769Santarém
1670,676964Porto
137,51401Portalegre
2126,479180Lisboa
435,95648Leiria
196,21287Guarda
341,212048Faro
174,32062Évora
446,54783Coimbra
223,71825C.Branco
184,71111Bragança
771,414454Braga
177,71546Beja
665,515678Aveiro
População residente
Circulação JornaisDistrito
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear Regressão Linear - exemplos
Modelo “potência”: Circulação = 0.41 x (População)1.59
(ρ = 0.954)
0
10000
20000
30000
40000
50000
60000
70000
80000
90000
0 500 1000 1500 2000 2500
População
Circ
ulaç
ão jo
rnai
s Previsão (potência)Circulação Jornais
Circulação de jornais (matutinos nacionais) vs população residente (por distrito)
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear RLS- exemplos - Circulação de jornais vs população residente (por distrito)
5306445812048341,2Faro
209530055280266,4V.Castelo
194529432842262,9Vila Real
26222751825223,7C.Branco
-91818461287196,2Guarda
-141216771111184,7Bragança
-171215761546177,7Beja
-185815292062174,3Évora
-343810481401137,5Portalegre
LinearPotênciaJornaisPop.Distrito
8193082273791802126,4Lisboa
6236656017769641670,6Porto
241221663114820779,6Setúbal
237711635314454771,4Braga
192251292515678665,5Aveiro
1043071915769460,6Santarém
982568434783446,5Coimbra
937065865648435,9Leiria
882962853441423,3Viseu
LinearPotênciaJornaisPop.Distrito
-10000
0
10000
20000
30000
40000
50000
60000
70000
80000
90000
Portale
greÉvo
raBeja
Bragan
çaGua
rdaC.B
ranco
Vila R
eal
V.Cas
telo
Faro
Viseu
Leiria
Coimbr
aSan
taré
mAve
iroBrag
aSetú
bal
Porto
Lisbo
a
Circulação JornaisPrevisão (potência)Previsão (linear)
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear Regressão Linear - Exemplos
Modelo “potência”: Circulação = 0.41 x (População)1.59
(ρ = 0.954)
0
10000
20000
30000
40000
50000
60000
70000
80000
90000
0 500 1000 1500 2000 2500
População
Circ
ulaç
ão jo
rnai
s Previsão (potência)Circulação Jornais
Eliminando Lisboa, Porto e Faro
Modelo “potência”: Circulação = 0.71 x (População)1.48
(ρ = 0.942)
02000400060008000
1000012000140001600018000
100 200 300 400 500 600 700 800
População
Circ
ulaç
ão jo
rnai
s
Previsão (potência)Circulação Jornais
Viseu
Aveiro
V. Castelo
Nota: eliminando Aveiro, V. Castelo e Viseu, parâmetros mantêm-se praticamente inalterados
13
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear RLS exemplo: População em Inglaterra + País de Gales
22,5187120186118185116184114183112182110181191801
PopAno
05
101520253035404550
1800 1820 1840 1860 1880 1900 1920 1940 1960
Ano
Popu
laçã
o
461961441951401931381921361911
32,51901291891261881
PopAno
População = - 441.469 + 0.249 x AnoRegression Statistics
M ultip le R 0.995457396R Square 0.990935426Adjusted R Square 0.990287957S tandard Error 1.223482369Observations 16
ANOVA df SS MS F Significance FRegression 1 2290.98 2290.98 1530.47 1.05752E-15Residual 14 20.96 1.50Total 15 2311.94
Coefficients Standard Error t Stat P-valueIntercept -441.469 11.948 -36.948 2.3E-15X Variable 1 0.249 0.006 39.121 1.1E-15
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear Regressão Linear - exemplos
020406080
100120140160
0 500 1000 1500 2000Fluxo
Cus
to
Custo total de funcionamento de centros logísticos vs fluxo total anual (“troughput”)
121817125,59231401924
116,5665105386
109,5692113,5554101,5107
Custo anual
Fluxo(throughput)
Coeficiente de correlação: 0.956Custo anual = 99.83 + 0.022 x Fluxo
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear Regressão Linear - exemplos
Custo de fretes de transporte (por ton.) vs distância do trajecto
020406080
100
200 400 600 800Distância (km)
Cus
to/to
n
60393
72663
54440
80804
5855630221
Custo por ton.
Distância (km)
Coeficiente de correlação: 0.94Custo do frete = 18.91 + 0.078 x Distância R
ui C
arva
lho
Oliv
eira
C
orre
laçã
o e
Reg
ress
ão L
inea
r Regressão Linear - exemplos
Produção Térmica + Importação de energia eléctrica vs coeficiente de hidraulicidade
020406080
100120140160
2500 3500 4500 5500 6500 7500 8500
Produção térmica+Importação
Coe
f. de
hid
raul
icid
ade
1462800
1213000
1073400
1003700
984000
954200
944600
944900
715900
716500
578200
Coeficiente de
hidraulicidade
Produção térmica +
importação
Coeficiente de correlação: 0.914Coef. hidraulicidade = 159.6 - 0.014 x (Prod. Térmica + Importação)
14
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear CORRELAÇÃO E REGRESSÃO
É perigoso inferir sobre relações causais (tipo causa-efeito) a partir de simples correlações estatísticas entre variáveis!
•Desejavelmente, a hipótese de relação causal entre variáveis deve decorrer de um modelo teórico que estabeleça uma relação lógica entre as variáveis, servindo a análise de correlação e regressão como mais um elemento de apoio (ou invalidação) desse modelo teórico.
Exemplo: investigação da relação entre consumo de gelados per capita e taxa de delinquência juvenil
Detectada uma correlação (negativa) entre as duas variáveis, poderemos concluir (?):
• Gelados são tão bons para os jovens que contribuem para os afastar da delinquência (!!!?)
• Altos níveis de delinquência fazem os jovens perder o apetite por gelados (!!!?)
Rui
Car
valh
o O
livei
ra
Cor
rela
ção
e R
egre
ssão
Lin
ear
Talvez que a relação entre as duas variáveis resulte da influência de uma terceira variável (como o nível de rendimentos) que “explique” o comportamento conjunto das duas primeiras:
Rendimento (Z) alto ⇒ consumo de gelados (Y) alto
Rendimento (Z) alto ⇒ baixa delinquência (X)
⇒ Y ↑ ⇔ X ↓Z ↑ ⇒ Y ↑
Z ↑ ⇒ X ↓
Para relações causais do tipo ZX
Y
• Coeficiente de correlação parcial de X com Y, eliminando o efeito de Z, deve ser (aproximadamente) nulo
CORRELAÇÃO E REGRESSÃO