Author
others
View
1
Download
0
Embed Size (px)
Modelo de Regressão Simples
2
Historia
HistóriaTermo regressão foi introduzido por Francis Galton(1822-1911). Estudo sobre altura de pais e filhos. Karl Pearson coletou mais de mil registros e verificou a “lei de regressão universal” de Galton (1857-1936)
Atualmente é uma das técnicas de estimação mais usadas.
Aplicações: Industria, Economia, Estudos Biológicos, etcObjetivos: descrição de dados, estimação de parâmetros, predição e controle.Ampla literatura
Modelo de Regressão LinearModelo de Regressão Não-LinearModelo Linear GeneralizadoEntre outros
3
Exemplos
X1 = rendaX2 = taxa de jurosX3 = poupança
Y = consumo
Aplicação na economia:
X1 = área construídaX2 = custo do m2X3 = localização
Y = preço doimóvel
Aplicação no mercado mobiliário (avaliação) :
X1 = memória RAMX2 = sistema operacionalX3 = tipo de processador
Y = tempo deresposta
Aplicação na ciência da computação:
4
Análise de regressãoDados
Teoria
Especificação domodelo
Estimação dosparâmetros Testando a adequacidade
do modelo
Validaçãodo modelo
sim
não
Uso doModelo
“método estatístico que utiliza a relação entre duas ou mais variáveis de modo que uma variável pode ser estimada (ou predita) a partir da
outra ou das outras”
sim
não
5
RelaRelaçção funcional x Relaão funcional x Relaçção ão estatestatíísticastica
As variáveis podem possuir dois tipos de relações:1) Funcional: a relação é expressa por uma
fórmula matemática: Y = f(X)Todos os pontos caem na curva da relação funcional
Nesse caso, temos um modelo determinístico. Ex: relação entre o perímetro (P) e o lado de um
quadrado (L)
6
RelaRelaçção funcional x Relaão funcional x Relaçção ão estatestatíísticastica
Estatística: não é uma relação perfeita como no caso da relação funcional. As observações em geral não caem exatamente na curva da relação.
Nesse caso temos um modelo probabilístico. O modelo captura a aleatoriedade que é parte de um processo do mundo real.
Ex: relação entre tamanho de casa (T) e preço (P). Todas as casas de mesmo tamanho são vendidas pelo mesmo preço?
7
Relação estatística:
50556065707580859095
100
150 160 170 180 190
Altura (cm)
Peso
(kg)
A existência de uma relação estatística entre a variável dependente Y e a variável independente X não implica que Y depende de X, ou que existe uma relação de causa-efeito entre X e Y.
8
Medida de AssociaMedida de Associaççãoão
X
Y
XY
X
YX
Y
Coeficiente de Correlação (de Pearson)mede o grau de relação linear entre X e Y
( , )( ) * ( )
Cov X YrVar X Var Y
=
( )( )
( ) ( )1
2 2
1 1
n
i ii
n n
i ii i
X X Y Yr
X X Y Y
=
= =
− −=
− −
∑
∑ ∑
1 1r− ≤ ≤
1 1 1
2 22 2
1 1 1 1
n n n
i i i ii i i
n n n n
i i i ii i i i
n X Y X Y
n X X n Y Y
= = =
= = = =
−=
⎡ ⎤ ⎡ ⎤⎛ ⎞ ⎛ ⎞− −⎢ ⎥ ⎢ ⎥⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
∑ ∑ ∑
∑ ∑ ∑ ∑
r = 0,9 r = 0,3 r = 0
r = - 0,9
9
Coeficiente de CorrelaCoeficiente de CorrelaççãoãoInterpretações errôneas dos coeficientes de correlação
1. Um alto coeficiente de correlação nem sempre indica que a equação de regressão estimada está bem ajustada aos dados.
X
Y
X
Y
?
?
10
Coeficiente de CorrelaCoeficiente de CorrelaççãoãoInterpretações errôneas dos coeficientes de correlação
2. Um coeficiente de correlação próximo de zero nem sempre indica que X e Y não são relacionadas.
X
Y
X
Y X
Y A
X
Y B
11
Um modelo determinístico
Tamanho da casa
Preço dacasa
Preço= 2
5000 +
75×(tam
anho)
Neste modelo, o preço da casa é completamente determinado pelo tamanho.
12
Um modelo estatístico
Tamanho da casa
Preçoda Casa
25$
VariabilidadeBaixa vs. Alta
x
Preço = 25,000 + 75(Tamanho) + ξ
É o termo aleatório (variável erro). É a diferença entre o preço atual e o preço estimadobaseando-se no tamanho da casa.
13
AnAnáálise de Regressãolise de Regressão1. Determinar como duas ou mais variáveis se relacionam.
2. Estimar a função que determina a relação entre as variáveis.
3. Usar a equação ajustada para prever valores da variável dependente.
Regressão Linear Simples
Yi = β0 + β1Xi + ξi
E(ξi) = 0; Var (ξi) = σ2 e COV (ξi,ξj) = 0
14
Modelo de Regressão Modelo de Regressão Linear SimplesLinear Simples
iii XY ξββ ++= 10
Inclinaçãopopulacional
Interceptopopulacional Erro Aleatório
Variável Independente
Variável Dependente
ξi
X
Y
β0
β1 Coeficienteangular
E(Y) = β0 + β1 X
15
Em geral não se conhece os valores de β0 e β1. Eles podem ser estimados através de dados obtidos por amostras. O método utilizado na estimação dos parâmetros é o método dos mínimos quadrados, o qual considera os desvios dos Yi de seu valor esperado:
ξi = Yi – (β0 + β1 Xi)Em particular, o método dos mínimos quadrados requer que consideremos a soma dos n desvios quadrados, denotado por Q:
210
1
][ iin
i
XYQ ββ −−=∑=
EstimaEstimaçção dos parâmetrosão dos parâmetros
16
EstimaEstimaçção dos parâmetrosão dos parâmetrosDe acordo com o método dos mínimos quadrados, os estimadores de β0 e β1 são aqueles, denotados por b0 e b1, que tornam mínimo o valor de Q.Derivando ][2 10
10ii
n
iXYQ ββ
β−−−=
∂∂ ∑
=
iii
n
iXXYQ ][2 10
11
βββ
−−−=∂∂ ∑
=
2
1
11
)(
))((
XX
YYXXb
i
n
i
ii
n
i
−
−−=
∑
∑
=
=
XbYb 10 −=iii YYe
XbbY
XYE
ˆ
ˆ)(
10
10
−=
+=
+= ββ
(resíduo)
Igualando-se essas equações a zero obtém-se os valores b0 e b1 que minimizam Q:
17
1)
2) é mínima
3)
4) A reta de regressão passa sempre pelo ponto
01
=∑=
n
iie
∑=
n
iie
1
2
∑∑==
=n
ii
n
ii YY
11
ˆ
Propriedades da equaPropriedades da equaçção ão de regressãode regressão
),( YX
X
Y
X
Y
18
Predição
Um dos objetivos da análise de regressãoPara um determinado valor x0 de X, queremos prever o valor que deveráser assumido por Y.
0ˆˆˆ xy βα +=
19
Inferência em AnInferência em Anáálise de Regressãolise de Regressão
Considere o modelo: Yi = β0 + β1 Xi + ξi
ξ ~ N(0; σ2) e COV (ξi,ξj)= 0
∑=
−= n
ii XX
bs
1
21
2
)(
QMRes)(2
1
11 ~)( −
−= ntbs
bt β
0:H0:H
11
10
<=
ββ
IC para β0 e β1, IC para Ynovo
β0 = 0 ? β1 = 0 ? (teste de hipótese)
X
Y ?
21
1 ~)( −
= ntbsbt
20
} YYi −Yi
{iiYY ˆ−
{YYi −ˆ iŶ
Precisão do modeloPrecisão do modelo
0 20 40 60 80 X
Y∑∑∑===
−+−=−n
iii
n
ii
n
ii YYYYYY
1
2
1
2
1
2 )ˆ()ˆ()(
SQTo = SQReg + SQRes
SQToSQRes1
SQToSQRes-SQTo
SQToSQReg2
−=
=
=RCoeficiente de determinação
0 ≤ R2 ≤ 1
XbbY 10ˆ +=
Y
Interpretação: R2 mede a fração da variação total de Y explicada pela regressão.
21
Considerações sobre o coeficiente de determinação
O coeficiente de determinação deve ser usado com cautela. Embora o coeficiente não pode diminuir quando mais regressores são adicionados no modelo, isto não significa que o novo modelo é melhor do que o anterior.O coeficiente depende do range de variabilidade de x. Um alto valor do coeficiente pode ser porque x teve um grande range de variação não realístico. Por outro lado, um valor pequeno do coeficiente pode ser porque x teve um pequeno range de variação que não permitiu que a sua relação com y seja detectada.. A média dos quadrados dos resíduos é uma medida adequada de qualidade do ajuste.
22
Análise de variância: teste de significância do modelo
SQT tem n-1 graus de liberdadeSQR tem n-2 graus de liberdadeSQM tem 1 grau de liberdade
Soma de quadrados
Graus de liberdade
Média
1
n-2
n-1
SQM
SQR
SQT
Regressão
Residual
Total
( )∑=
−n
ii yy
1
2ˆ
( )
2
ˆ1
2
−
−∑=
n
yyn
iii
( )
11
2
−
−∑=
n
yyn
ii
( )
0F
H0: β1=0
If H0 é verdadeira SQR/n-2 tem distribuição qui-quadrado com n-2 graus de liberdade. SQM/1 tem distribuição qui-quadrado com 1 grau de liberdade. SQR e SQM são independentes. Por definição, F0 segue uma distribuição F-Snedecor com 1 e n-2 graus de liberdade. Rejeita H0 F0 >F1,n2
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
−
−∑=
2
/ˆ 21
2
n
yyn
iii σ
( )
1
/ˆ 21
2 σ⎥⎦
⎤⎢⎣
⎡−∑
=
n
ii yy
23
Considerações
Os modelos de regressão são construídos baseando-se no range de valores dos regressores.A equação dos mínimos quadrados é fortemente afetada por pontos extremos da distribuição de x. Os métodos de mínimos quadrados são influenciados por outliers (pontos aberrantes). Porque a regressão indicou forte correlação entre duas variáveis não significa que exista uma relação de causa e efeito.
24
Modelos LinearizModelos LinearizááveisveisModelo Padrão: Yi = β0 + β1Xi + ξi
iiiiXY ξβ β0= iii XY ξββ lnlnlnln 10 ++= iii XY ξββ ′+′+′=′ 10
iX
iieY ξβ β10= iii XY ξββ lnlnln 10 ++= iii XY ξββ ′++′=′ 10
exponencial
potencial
iii XY ξββ +′+=′ 10logaritmopotênciainverso
),0(~ 2σξ Ni′
25
AnAnáálise de Reslise de Resííduosduos
Resíduo = iii YYe ˆ−=
Y = 0,9983X + 0,1306R2 = 0,9496
0
2
4
6
8
10
0 2 4 6 8 10
X
Y
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
0 2 4 6 8 10
XRe
sídu
os
9496,01306,09983,0ˆ
2 =
+=
RXY
26
AnAnáálise de Reslise de Resííduosduos
MQReseiResíduo Padronizado =
Y = 0,9983X + 0,1306R2 = 0,9496
0
2
4
6
8
10
0 2 4 6 8 10
X
Y
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
XRe
sídu
os P
adro
niza
do9496,01306,09983,0ˆ
2 =
+=
RXY
27
AnAnáálise de Reslise de Resííduosduos
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
Resí
duos
Pad
roni
zado
s
“ideal”
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
Resí
duos
Pad
roni
zado
s
σ2 não constante
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
Resí
duos
Pad
roni
zado
s
não linearidade
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
Resí
duos
Pad
roni
zado
s
não independência
tempo-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
Resí
duos
Pad
roni
zado
s
“outlier”
28
x y8 782 925 90
12 5815 439 746 81
FaltasNotafinal
Aplicação
959085807570656055
4540
50
0 2 4 6 8 10 12 14 16
Not
a fin
al
FaltasX
29
6.0848.4648.1003.3641.8495.4766.56139.898
y2
624 184450696 645666486
3.75157 516
1 8 782 2 923 5 904 12 58 5 15 436 9 747 6 81
x y
579
644
251442258136
x2xy
Cálculo de r
975.013030804
31552
11
22
11
2
111 −=−
=
⎟⎠
⎞⎜⎝
⎛−⎟
⎠
⎞⎜⎝
⎛−
−=
∑∑∑∑
∑∑∑
====
===
n
ii
n
ii
n
ii
n
ii
n
ii
n
ii
n
iii
yynxxn
yxyxnr
Escreva a equação dareta de regressão comx = número de faltase y = nota final.
6.0848.4648.1003.3641.8495.4766.561
624 184450696 645666486
57 516 39.898
1 8 782 2 923 5 904 12 58 5 15 436 9 747 6 81
644
251442258136
xy x2 y2x y
3.751 579
924,3)(
)()(ˆ
1
2
1 −=−
−−=
∑
∑
=
=n
ii
i
n
ii
xx
yyxxβ
667,105ˆˆ =−= xy βα
ixy 924,3667,105ˆ −=
A equação de regressão é dada por:
31
Com a reta de regressão, é possível prevervalores de y correspondentes aos valores de x.
Usando a equação de regressão podemosprever a nota esperada de um aluno com:
(a) 3 faltas (b) 12 faltas
(a)
(b)
Prevendo Valores
= –3,924(3) + 105,667 = 93,895= –3,924(12) + 105,667 = 58,579
Modelo de Regressão SimplesHistoriaExemplosAnálise de regressãoRelação funcional x Relação estatísticaRelação funcional x Relação estatísticaRelação estatística:Medida de AssociaçãoCoeficiente de CorrelaçãoCoeficiente de CorrelaçãoUm modelo determinísticoUm modelo estatísticoAnálise de RegressãoModelo de Regressão Linear SimplesEstimação dos parâmetrosEstimação dos parâmetrosPropriedades da equação de regressãoPrediçãoInferência em Análise de RegressãoPrecisão do modeloConsiderações sobre o coeficiente de determinaçãoAnálise de variância: teste de significância do modeloConsideraçõesModelos LinearizáveisAnálise de ResíduosAnálise de ResíduosAnálise de ResíduosAplicaçãoCálculo de rPrevendo Valores