Upload
internet
View
104
Download
1
Embed Size (px)
Citation preview
Estatística: Aplicação ao Sensoriamento RemotoEstatística: Aplicação ao Sensoriamento Remoto
SER 202 - ANO 2015SER 202 - ANO 2015
Análise de RegressãoAnálise de Regressão
Camilo Daleles Rennó[email protected]://www.dpi.inpe.br/~camilo/
estatistica/
“método estatístico que utiliza a relação entre duas ou mais variáveis para que uma variável possa ser
estimada (ou predita) a partir da outra ou das outras”
RegressãoRegressão
Análise de Regressão
relação
Neter, J. et al. Applied Linear Statistical Models. McGraw Hill, 1996
Relação funcional x Relação estatísticaRelação funcional x Relação estatística
As variáveis podem possuir dois tipos de relações:1) Funcional: a relação é expressa por uma fórmula
matemática: Y = f(X)
Ex: relação entre o perímetro (P) e o lado de um quadrado (L)
Todos os pontos caem perfeitamente sobre a reta que representa a relação funcional entre L e P
y = 4x
0
50
100
150
0 10 20 30 40
Perím
etro
P = 4 L
Lado do Quadrado (L)
Perí
metr
o (
P)
Relação funcional x Relação estatísticaRelação funcional x Relação estatística
2) Estatística: não há uma relação perfeita como no caso da relação funcional.As observações em geral não caem exatamente na curva da relação.
Ex: relação entre o peso (P) e a altura (A) de uma pessoa
A existência de uma relação estatística entre a variável dependente Y e a variável independente X não implica que Y dependa de X, ou que exista uma relação de causa-efeito entre X e Y.
Altura (A, cm)
Peso
(P, kg
)
50
55
60
65
70
75
80
85
90
95
100
150 160 170 180 190
Altura (cm)
Medida de AssociaçãoMedida de Associação
X
Y
XY
X
YX
Y
Coeficiente de Correlação (de Pearson)mede o grau de relação linear entre X e Y
( , )
( ) ( )
Cov X Yr
Var X Var Y
1
2 2
1 1
n
i ii
n n
i ii i
X X Y Yr
X X Y Y
1 1r
1 1 1
2 2
2 2
1 1 1 1
n n n
i i i ii i i
n n n n
i i i ii i i i
n X Y X Y
n X X n Y Y
r = 0,9 r = 0,3 r = 0
r = - 0,9
Coeficiente de CorrelaçãoCoeficiente de Correlação
Interpretações errôneas dos coeficientes de correlação
1) Um alto coeficiente de correlação nem sempre indica que a equação de regressão estimada está bem ajustada aos dados.
X
Y
X
Y
X
Y
1
1
0
0i i i i
i i i i
Y Y y y
X X x x
X
Y
X
Y
?
?
Coeficiente de CorrelaçãoCoeficiente de Correlação
Interpretações errôneas dos coeficientes de correlação
2) Um coeficiente de correlação próximo de zero nem sempre indica que X e Y não são relacionadas.
X
Y
X
Y X
Y A
XY B
Modelo de RegressãoModelo de Regressão1) Descrever como duas ou mais variáveis se relacionam
2) Estimar os parâmetros da função que determina a relação entre as variáveis dependente (Y) e independentes (X)
3) Usar a equação ajustada para prever valores da variável dependente.
Regressão Linear Simples
Yi = 0 + 1Xi + i
2
E 0
Var
, 0
i
i
i jCOV i j
variável independente(valores fixos conhecidos)
componente aleatório
variável dependente(variável resposta)
Modelo de Regressão Linear SimplesModelo de Regressão Linear Simples
iii XY 10
Inclinaçãopopulacional
Interceptopopulacional
i
X
Y
0
1 Coeficienteangular
E(Yi) = 0 + 1 Xi
Em geral não se conhece os valores de 0, 1 e 2
Eles podem ser estimados através de dados obtidos por amostras. O método utilizado na estimação dos parâmetros é o método dos
mínimos quadrados, o qual considera os desvios dos Yi de seu valor esperado:
i = Yi – (0 + 1 Xi)
Em particular, o método dos mínimos quadrados requer que consideremos a soma dos n desvios quadrados, denotado por Q:
210
1
][ ii
n
i
XYQ
Estimação dos parâmetrosEstimação dos parâmetros
De acordo com o método dos mínimos quadrados, os estimadores de 0 e 1 são aqueles, denotados por b0 e b1, que tornam mínimo o valor de Q.
Derivando ][2 1010
ii
n
i
XYQ
iii
n
i
XXYQ
][2 1011
2
1
11
)(
))((
XX
YYXXb
i
n
i
ii
n
i
0 1b Y b X iii YYe
XbbY
XYE
ˆ
ˆ
)(
10
10
(resíduo)
Igualando-se essas equações a zero obtém-se os valores b0 e b1 que minimizam Q:
Estimação dos parâmetrosEstimação dos parâmetros
Soma de quadrados dos resíduos (SQRes):
n
ii
n
iii
n
iii eXbbYYY
1
2
1
210
1
2 )()ˆ(SQRes
2
)(
2
)ˆ(
2
SQResQMResˆ 1
210
1
2
2
n
XbbY
n
YY
n
n
iii
n
iii
Estimação da Variância do Erro (Estimação da Variância do Erro (22))
2E[QMRes] Pode ser demonstrado que:
Portanto, o estimador de 2, denominado de Quadrado Médio do Resíduo (QMRes), é dado pela razão entre a soma dos quadrados dos resíduos e (n – 2):
A soma dos quadrados dos resíduos tem n – 2 graus de liberdade, pois 2 graus de liberdade foram perdidos por estimar 0 e 1.
A variância dos erros i,, denotada por 2, é um parâmetro do modelo de regressão, e necessita ser estimada através dos desvios de Yi em torno de sua própria média estimada . iY
Inferência em Análise de RegressãoInferência em Análise de RegressãoConsidere o modelo:
Yi = 0 + 1 Xi + i
~ N(0; 2) e COV (i,j)= 0
n
ii XX
bs
1
21
2
)(
QMRes)(
21
11 ~)(
ntbs
bt
n
ii XX
X
ns
1
2
2
02
)(
1QMRes)(b 2
0
00 ~)(
ntbs
bt
0:H
0:H
11
10
se H0 verdadeira E(t) = 0se H0 falso E(t) <<<< 0
IC para 0 e 1
IC para Ynovo
0 = 0 ? 1 = 0 ? (teste de hipótese)
X
Y
?
21
1 ~)( ntbs
bt
YYi
Yi
ii YY ˆ
YYi ˆiY
ANOVA x Análise de RegressãoANOVA x Análise de Regressão
0 20 40 60 80 X
Y
n
iii
n
ii
n
ii YYYYYY
1
2
1
2
1
2 )ˆ()ˆ()(
SQTo = SQReg + SQRes
SQTo
SQRes1
SQTo
SQRes-SQTo
SQTo
SQReg2
RCoeficiente de determinação
0 R2 1
XbbY 10ˆ
Y
Interpretação: R2 mede a fração da variação total de Y explicada pela regressão e por isso pode ser representada em porcentagem
Causas da Variação
Soma de Quadrados
Graus de Liberdade
Quadrados Médios
Regressão
1
Resíduo
n - 2
Total
n - 1
n
ii YY
1
2)ˆ(
n
iii YY
1
2)ˆ(
n
ii YY
1
2)(
n
ii YY
1
2)ˆ(
2
)ˆ(1
2
n
YYn
iii
2;1~QMRes
QMReg nFF
0:H
0:H
11
10
se H0 verdadeiro E(F) = 1se H0 falso E(F) >>>> 1
ANOVA x Análise de RegressãoANOVA x Análise de Regressão
0
2
4
6
8
10
0 2 4 6 8 10
X
Y
Análise de Regressão no EXCELAnálise de Regressão no EXCEL
X Y
1 1,1
2 1,9
3 2,5
4 4,3
5 6,1
6 6,3
7 7,8
8 7,0
9 9,1
Y = 0,9983X + 0,1306
R2 = 0,9496
0
2
4
6
8
10
0 2 4 6 8 10
X
Y
9496,0
1306,09983,0ˆ
2
R
XY
s
valor-P
OBS: Para regressão linear simples: teste F = teste t para 1 (bilateral)
s2
RESUMO DOS RESULTADOS
Estatística de regressãoR múltiplo 0,9745R-Quadrado 0,9496R-quadrado ajustado 0,9424Erro padrão 0,6735Observações 9
ANOVA
gl SQ MQ FF de
significaçãoRegressão 1 59,8002 59,8002 131,8267 8,55E-06Resíduo 7 3,1754 0,4536Total 8 62,9756
Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superioresInterseção 0,1306 0,4893 0,2668 0,7973 -1,0265 1,2876X 0,9983 0,0870 11,4816 8,55E-06 0,7927 1,2039
Modelos LinearizáveisModelos Linearizáveis
Modelo Padrão: Yi = 0 + 1Xi + i
iiiiXY
0 iii XY lnlnlnln 10 iii XY 10
iX
iieY 1
0 iii XY lnlnln 10 iii XY 10
exponencial
potencial
iii XY 10
logaritmopotênciainverso
),0(~ 2 Ni
Análise de ResíduosAnálise de Resíduos
Resíduo =iii YYe ˆ
Y = 0,9983X + 0,1306
R2 = 0,9496
0
2
4
6
8
10
0 2 4 6 8 10
X
Y
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
0 2 4 6 8 10
XR
esíd
uos
9496,0
1306,09983,0ˆ
2
R
XY
Análise de ResíduosAnálise de Resíduos
ie QMResResíduo Padronizado =
Y = 0,9983X + 0,1306
R2 = 0,9496
0
2
4
6
8
10
0 2 4 6 8 10
X
Y
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
XR
esíd
uos
Padr
oniz
ado9496,0
1306,09983,0ˆ
2
R
XY
Análise de ResíduosAnálise de Resíduos
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
“ideal”
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
2 não constante
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
não linearidade
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
não independência
tempo
Res
íduo
s P
adro
niza
dos
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
“outlier”
Res
íduo
s P
adro
niza
dos
Regressão passando pela origem (Regressão passando pela origem (00 = 0 = 0))
y = 1.2121x
R2 = 0.8862
0
2
4
6
8
10
12
0 2 4 6 8 10
X
Y
8862,0
2121,1ˆ
2
R
XYy = 1.1721x
R2 = -0.1268
0
2
4
6
8
10
12
0 2 4 6 8 10
X
Y
1268,0
1721,1ˆ
2
R
XY
n
ii
n
iii
X
YXb
1
2
11
n
iiX
bs
1
21
2 QMRes)( SQRes/SQToR 12 (R2 pode ser negativo!)
n
ii
n
iii
YSQTo
XbYSQRes
1
2
1
21
*