Upload
internet
View
106
Download
0
Embed Size (px)
Citation preview
Análise de Regressão com Dados Espaciais:
Uma Breve Introdução
Análise Espacial de Dados GeográficosSER-301 - 2012
Material Elaborado por
Virginia Ragoni, INPE Flávia Feitosa, INPE
Revisado em 2010: Antônio Miguel V. MonteiroRevisado em 2011-2013: Flávia Feitosa
Análise de Regressão
Análise de regressão é uma ferramenta estatística que utiliza a relação entre duas ou mais variáveis tal que uma variável possa ser explicada (variável resposta/ dependente) pela outra ou outras (variáveis indicadoras/ preditoras/ explicativas/ independentes).
Y = aX + b
NETER J. et al. Applied Linear Statistical Models. Boston, MA: McGraw-Hill, 1996.
Exemplos Alunos
Criminalidade (+) X Renda (-), Investimentos (-)
Longevidade (+) X Escolaridade (+), Renda (+)
...
Objetivos da Análise de Regressão
1.Determinar como duas ou mais variáveis se relacionam.
2.Estimar a função que determina a relação entre duas variáveis.
3.Usar a equação para projetar/estimar valores futuros da variável dependente.
Lembrete importante: A existência de uma relação estatística entre a variável resposta Y e a variável explicativa X não implica na existência de uma relação causal entre elas.
Diagrama de Dispersão
Os dados para a análise de regressão são da forma:
(x1, y1), (x2, y2), ..., (xi, yi), ... (xn, yn)
Com os dados constrói-se o diagrama de dispersão. Este deve exibir uma tendência linear para que se possa usar a regressão linear.
Ou seja, o diagrama permite decidir empiricamente se um relacionamento linear entre X e Y deve ser assumido.
Diagrama de Dispersão
Sugerem uma regressão/relação não linear.
Assim, a relação entre as variáveis poderá ser descrita por uma equação não linear.
Diagrama de Dispersão
Sugerem uma regressão/relação linear.
Assim, a relação entre as variáveis poderá ser descrita por uma equação linear.
Diagrama de Dispersão
Por análise do diagrama de dispersão pode-se também concluir (empiricamente) se o grau de relacionamento linear entre as variáveis é forte ou fraco, conforme o modo como se situam os pontos ao redor de uma reta imaginária que passa através da concentração de pontos.
Diagrama de Dispersão
Existência de correlação linear positiva: em média, quanto maior o X, maior será o Y
Existência de correlação linear negativa: em média, quanto maior o X, menor será o Y
Um modelo de regressão contendo somente uma variável preditoravariável preditora é denominado modelo de regressão simples.
Modelos de Regressão
Um modelo com mais de uma variável variável preditorapreditora é denominado modelo de regressão múltiplo.
Regressão Linear Simples
onde:onde:
Yi é o valor da variável resposta na i-ésima observação;
0 e 1 são parâmetros;
Xi é uma constante conhecida; é o valor da variável preditora na i-ésima observação;
i é um termo de erro aleatório com média zero e variância constante 2 (E(i)=0 e 2 (i)= 2 )
i e j são não correlacionados (independentes) para i j (2 (i,j)= 0 )
iii XY 10
Modelo de Regressão Linear
Yi
i
X
Y
0
1 Coeficienteangular
Y = E(Y) = 0 + 1 X
InclinaçãoPopulacional
InterceptoPopulacional
Erro Aleatório
Variável Preditora
Variável Resposta Yi=0+1Xi +i
Ŷi=b0+b1Xi
i =Yi-Ŷi
Modelo estimado
Resíduo
Os parâmetros 0 e 1 são denominados coeficientes de regressãocoeficientes de regressão:
1. 1 é a inclinação da reta de regressãoinclinação da reta de regressão. Ela indica a mudança na média de Y quando X é acrescido de uma unidade.
2. 0 é o intercepto em Y da equação de regressãointercepto em Y da equação de regressão (é o valor de Y quando X = 0.)
0 só tem significado se o modelo incluir X = 0.
Significado de 0 e 1
0
1
iXiYE10
][ Y
X0
0
x x+1
x=1
yyi = 0 + 1xi
xy
1
00 (intercepto); quando a região experimental inclui (intercepto); quando a região experimental inclui X=0, X=0, 00 é o valor da média da distribuição de Y em X=0, cc, não tem é o valor da média da distribuição de Y em X=0, cc, não tem significado significado práticoprático como um termo separado (isolado) no como um termo separado (isolado) no modelo; modelo; 11 (inclinação) expressa a (inclinação) expressa a taxa de mudançataxa de mudança em em Y,Y, isto é, é a mudança em isto é, é a mudança em YY quando ocorre a mudança de uma quando ocorre a mudança de uma unidade em unidade em X. X. Ele indica a mudança na média da distribuição Ele indica a mudança na média da distribuição de probabilidade de de probabilidade de YY por unidade de acréscimo em por unidade de acréscimo em X.X.Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.htmlFonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html
Premissas
1) Distribuição Normal Para um valor fixo da variável aleatória X, Y é uma variável aleatória com distribuição Normal (com média e variâncias finitas);
Yi ~ N(E(y/x); σ2)
2) LinearidadeTodos os valores médios de Y (E(y/x)=μY/x) permanecem sobre uma reta, para um particular valor de X.
E(y/x)=μy/x = 0 + 1x
Premissas
3) IndependênciaOs valores de Yi e Yj são estatisticamente independentes.
4) HomocedasticidadeA variância de Y é igual, qualquer que seja X.
A figura mostra a distribuição de A figura mostra a distribuição de YY para vários valores de para vários valores de XX. . Mostra onde cai a observação Mostra onde cai a observação YY11. Mostra que o erro é a . Mostra que o erro é a
diferença entre diferença entre YY11 e e E(YE(Y11)). Observe que as distribuições de . Observe que as distribuições de
probabilidade apresentam a mesma variabilidade. probabilidade apresentam a mesma variabilidade.
Modelos de Regressão
Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.htmlFonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html
Resumo da situaçãoResumo da situação: para qualquer valor : para qualquer valor XXii,, a média de a média de YYii é é ii
= = 00 + + 11XXii. As médias estão sobre a linha reta para todos os . As médias estão sobre a linha reta para todos os
valores de valores de XX. Devido aos erros aleatórios, os valores de . Devido aos erros aleatórios, os valores de YYii se se
distribuem ao redor da retadistribuem ao redor da reta..
Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.htmlFonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html
Regressão Linear Múltipla
Yi=0+1Xi1 + 2Xi2 +…+ pXip + i
Yi é o valor da variável resposta na i-ésima observação
0, …, p são parâmetros
Xi1 ,…,Xip são os valores das variáveis preditoras na i-ésima observação
i é um termo de erro aleatório com distribuição normal, média zero e variância constante 2 (E(i )=0 e 2 (i )= 2 )
i e j são não correlacionados (independentes) para i j
0
Plano de resposta
•(1,33;1,67)
E(Yi) = 20,00
Yi•
i
Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.htmlFonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html
Superfície de RespostaSuperfície de Resposta: Função de Regressão na Regressão Linear Múltipla
O parâmetro 0 é o intercepto do plano de regressão. Se a abrangência do modelo inclui X1=0 e X2=0 então 0=10 representa a resposta média E(Y) neste ponto. Em outras situações, 0 não tem qualquer outro significado como um termo separado no modelo de regressão.
Significado dos Coeficientes de regressão: 0, 1, 2,.., p
Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.htmlFonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html
Parâmetro 1 indica a mudança na resposta média E(Y) por unidade de acréscimo em X1 quando X2 é mantido constante. Da mesma forma 2 indica a mudança na resposta média por unidade de aumento em X2 quando X1 é mantido constante.
“Ceteris Paribus”
Significado dos Coeficientes de regressão: 0, 1, 2,.., p
Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.htmlFonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html
Quando o efeito de X1 sobre a resposta média não depende de X2 e vice-versa, e assim, para cada X de [1 a p], dizemos que as variáveis preditorasvariáveis preditoras tem efeito aditivoefeito aditivo ou não interagemnão interagem.
Se temos somente X1 e X2 por exemplo, dizemos que temos um modelo de um modelo de primeira ordem sem interaçãoprimeira ordem sem interação.
Significado dos Coeficientes de regressão: 0, 1, 2,.., p
Fonte: Adaptado de Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.htmlFonte: Adaptado de Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html
Outros modelos de regressão
Modelo quadrático ou de 2º grau
Não é uma linha reta, mas permanece linear nos parâmetros mesmos métodos são aplicáveis
Pode ser linearizado:
X2 = (X1)2
Fonte: Adaptado de Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.htmlFonte: Adaptado de Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html
Outros modelos de regressão
Modelo não linear nos parâmetros
Necessita de métodos para modelos não-lineares
Fonte: Adaptado de Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.htmlFonte: Adaptado de Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html
XeY
32
1
1Modelo de crescimento logístico (X=tempo)
Superfície de RespostaSuperfície de Resposta
Fonte: Adaptado de Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.htmlFonte: Adaptado de Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html
Estimação dos parâmetros
Em geral não se conhece os valores de 0 e 1 .
Eles podem ser estimados através de dados obtidos por amostras.
O método utilizado na estimação dos parâmetros é o método dos mínimos quadrados, o qual considera os desvios dos Yi de seu valor esperado (E(Yi )):
i = Yi – (0 + 1 Xi)
Estimação dos parâmetros
Em particular, o método dos mínimos quadrados requer que a soma dos n desvios quadrados, denotado por Q, seja mínima:
210
1
][ ii
n
i
XYQ
Estimação dos parâmetros
Para minimizar Q (soma dos desvios quadrados):
(1) Q deve ser derivado em relação a 0 e 1:
(2) Com derivadas parciais igualadas à zero, obtêm-se os valores estimados de 0 e 1:
n
i
i
n
i
ii
XX
YYXX
1
2
11
)(
))((̂
n
iiii
Q
n
iii
Q
XYX
XY
110
110
)(2
)(2
1
0
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0 5 10 15 20- +0 t1-/2;n-2
tn-2
-t1-/2;n-2
1
/2/2
Inferência
1. Construir intervalos de confiança para :
2. Teste de hipótese para :
1̂
0ˆ:
0ˆ:
1
10
Ha
H
Se = 0 , significa que não há correlação entre X e Y.
Rejeitar , significa que o modelo que inclui X é melhor do que o modelo que não inclui X mesmo que a linha retanão seja a relação mais apropriada.
1̂Testando se a inclinação é zero.
1̂
0H
Inferência1. Construir intervalos de confiança para : 1̂
n
i
i
n
i
ii
XX
YYXX
1
2
11
)(
))((̂
Média:
Variânciaestimada:
Distribuição da estatística studentizada (σ é desconhecido)
Intervalo de confiança
Inferência2. Teste estatístico formal: feito de maneira padrão usando a distribuição de Student
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0 5 10 15 20- +0 t1-/2;n-2
tn-2
-t1-/2;n-2
1
/2/2
0ˆ:
0ˆ:
1
10
Ha
H
Inferência
0:H
0:H
01
00
Se a hipótese nula = 0 não for rejeitada, pode-se excluir a constante do modelo, já que a reta inclui a origem.
0̂De forma semelhante testa-se é zero
0H
Análise de Variância da Regressão
Inferência: Análise de Variância
)ˆ()ˆ( YYYYYY iii
Elevando-se ao quadrado os dois lados da igualdade e fazendo-se a soma para todas as observações de uma determinada amostra tem-se que:
2
1
2
1 1
2 )ˆ()ˆ()(
n
i
i
n
i
n
i
ii YYYYYY
Soma de quadrados total (SQT)
Soma de quadradosdevido ao modelo (SQM)
Soma de quadrados devido aos resíduos (SQR)
Desvio Total Desvio Explicado
pelo ModeloDesvio Não-explicado
pelo Modelo
Particionando a soma dos quadrados
2
1
2
1 1
)ˆ()ˆ()(
n
i
i
n
i
n
i
ii YYYYYY
•Se SQT=0, então todas as observações Y são iguais. •Quanto maior for SQT, maior será a variação entre os Y´s.•SQT é uma medida da variação dos Y´s quando não se leva em consideração a variável independente X.
Se SQR = 0, então as observações caem na linha de regressão.Quanto maior SQR, maior será a variação das observações Y ao redor da linha de regressão.
Se a linha de regressão for horizontal, de modo
que então SQM = 0.
0^
YY i
SQT = SQM + SQR.
Um modo de se saber quão útil será a linha de regressão para a predição é verificar quanto da SQT está na SQM e quanto está na SQR.
Idealmente, gostaríamos que SQM fosse muito maior que SQR.
Gostaríamos, portanto, que fosse próximo de 1.SQT
SQM
Particionando a Soma de Quadrados
Coeficiente de determinação
Uma medida do efeito de X em reduzir a variabilidade do Y é:
Note que: 0 R2 1
R2 é denominado coeficiente de determinação. Em um modelo de regressão simples, o coeficiente de determinação é o quadrado do coeficiente de correlação (r) entre Y e X. Note que em um modelo de regressão simples
SQT
SQR1
SQT
SQR-SQT
SQT
SQM2 R
112 rRr
Coeficiente de determinação
Temos dois casos extremos:
1. R2 = 1 todas as observações caem na linha de regressão ajustada. A variável preditora X explica toda a variação nas observações.
2. R2 = 0 isto ocorre quando b1 = 0. Não existe relação linear em Y e X. A variável X não ajuda a explicar a variação dos Yi .
112 rRr
Tabela ANOVA - FGraus de
Liberdade
(df)
Soma dos quadrados
(SQ)
Quadrado médio
QM=SQ/df
Razão da variância
Regressão(X)
Residuo
1 (p-1)
28 (n-p)
SQT-SQR= SQM= 6394.02
SQR=8393.44
6394.02
(QMModelo)
299.77
(QMResíduo)
21.33(p<0.001)
Total 29 (n-1) SQT = 14787.46
)1/(1(
/2
2
knR
kRF
Inferência – Teste F (Adequação Global)
0:
0ˆ...ˆˆ: 210
jdosummenospeloexisteHa
H k
onde Fc ~ F p-1, n-p
Se F*> F(; p-1,n-p), rejeitamos a hipótese nula, caso contrário, aceitamos a hipótese.
Inferência – Teste F ParcialCompara um modelo reduzido com um modelo completo
0ˆ:
0ˆ:*
*0
Ha
H
Ha: X* melhora significativamente a predição de Y, dado que X1, X2,...Xp já estão no modelo
Modelo completo Y =0+1X1+...pXp+*X*Modelo reduzido Y =0+1X1+...pXp
Compara as somas de quadrados dos erros do modelo completo (SQR(C)) e reduzido (SQR(R)). O modelo reduzido é adequado (não rejeita H0) se SQR(C) não for muito menor que (SQR(R))
Etapas da Análise de Regressão
1.Seleção e preparação das variáveis Transformações podem ser necessárias para linearizar relações
Transformações para não linearidade do modelo
Transformações quando a distribuição dos erros é aproximadamente normal e com variância constante. Deve-se realizar uma transformação apenas na variável X.
Padrões de relação entre X e Y:
XX
XX
'
log10'
)exp('
2'
XX
XX
Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.htmlFonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html
Etapas da Análise de Regressão
1.Seleção e preparação das variáveis Transformações podem ser necessárias para linearizar relações
Analisar multicolinearidade aumenta DP dos coeficientes estimados )
2.Escolha e ajuste do modelo de regressão
3.Diagnóstico para verificar se o modelo ajustado é adequado
Análise dos Resíduos Se modelo for adequado, resíduos devem refletir as propriedades impostas pelo termo de erro do modelo.
Linearidade do modelo
Não Linearidade
0
X
Res
íduo
Análise dos Resíduos Normalidade dos resíduos: Suposição essencial para
que os resultados do ajuste do modelo sejam confiáveis
Outros diagnósticos: Shapiro-Wilk, Anderson-Darling, Kolmogorov-Smirnov
Análise dos Resíduos Homocedasticidade (variância constante)
Gráfico resíduos vs. valores ajustados
0
X
Variância Não Constante
Res
íduo
Outros diagnósticos: Teste de Breusch-Pagan, Goldfeld-Quandt
Análise dos Resíduos
-0,4
-0,2
0
0,2
0,4
0,6
0,8
1
150 155 160 165 170 175 180 185
X
Res
ídu
os
Pad
ron
izad
os
Pontos influentes: DFFITS, DFBETA, Distância de Cook
Análise dos Resíduos
Independência
X
0
Erros Correlacionados
Res
íduo
Outros diagnósticos: Teste de Durbin-Watson
Autocorrelação espacial: Mapa dos resíduos, Índice de Moran
Análise dos Resíduos Modelo Adequado
0
Res
íduo
X
Análise dos Resíduos DADOS ESPACIAIS
Caso a hipótese de independência das observações seja Falsa Dependência Espacial
Efeitos EspaciaisEfeitos Espaciais
Se existir forte tendência ou correlação espacial, os resultados serão influenciados, apresentando associação estatística onde não existe (e vice-versa).
Análise dos Resíduos
Como verificar?Como verificar?
Medir a autocorrelação espacial dos resíduos da regressãoresíduos da regressão (ex. Índice de Moran dos resíduosresíduos)
Exemplo São José dos Campos
Crescimento Populacional 91-00 X Densidade Populacional 91
1. Mapear os resíduos da regressão – índícios de correlação
2. Índice de Moran sobre mapa de resíduos I=0,45
3. Testes de pseudo-significância indicam autocorrelação espacial
Autocorrelação Espacial Constatada!!!
As observações não são independentes espacialmente.
Portanto... temos uma violação das nossas premissas (violação do MMQ).
Dependendo da natureza da dependência, parâmetros estimados por mínimos quadrados será ineficiente ou inconsistente.
E agora?
Modelos de regressão que incorporam efeitos espaciaisregressão que incorporam efeitos espaciais
Regressão Espacial
Incorpora a estrutura de dependência espacial no modelo
PREMISSA: Assumimos que conhecemos a estrutura de
dependência espacial (ela não é estimada) Premissa forte? Sim! Porém não tão forte quanto assumir que todas as
observações são independentes espacialmente Matrizes de ponderação tipicamente consideradas:
contiguidade (queen, rook...) ou distância (k vizinhos mais próximos...)
Regressão Espacial
Podem ser globais ou locais
Globais: inclui no modelo de regressão um parâmetro/elemento para capturar a estrutura de autocorrelação espacial
Locais: parâmetros variam continuamente no espaço
Global vs. Local
Global Local
Estatísticas dizem respeito à região como um todo (1 valor)
Disagregações locais das estatísticas globais (Muitos valores)
Estatísticas globais e não mapeáveis
Estatísticas locais e mapeáveis
Ênfase nas similaridades da região
Ênfase nas diferenças ao longo do espaço
Procura regularidades ou “leis” Procura por exceções ou “hot-spots” locais
Ex.: Regressão Clássica, Spatial Lag, Spatial Error
Ex.: GWR, Regimes Espaciais
Adaptado de: Fotheringham, A.S., Brunsdon, C., and Charlton, M.E., 2002, Geographically Weighted Regression: The Analysis of Spatially Varying Relationships, Chichester: Wiley.
Modelos com Efeitos Espaciais Globais
Premissa: Premissa: É possível capturar a estrutura de correlação
espacial num único parâmetro (adicionado ao modelo de regressão).
Alternativas: Alternativas:
Spatial Lag Models (SAR): atribuem a autocorrelação espacial à variável resposta Y. (Spatial Autoregressive Spatial Autoregressive
ModelingModeling)Spatial Error Models (CAR): atribuem a autocorrelação
ao erro. (Conditional Autoregressive Modeling)Conditional Autoregressive Modeling)
Spatial Lag Model (LAG)
HipóteseHipótesea variável Yi é afetada pelos valores da variável resposta nas
áreas vizinhas a i:
Y = WY + X +
= coeficiente espacial autoregressivocoeficiente espacial autoregressivo - medida de correlação espacial
= 0, se autocorrelação é nula (hipótese nula)W = matriz de proximidade espacialWY expressa a dependência espacial em Y
Exemplo: Valor dos imóveis
Spatial Error Model (CAR)
Hipótese:Hipótese: As observações são interdependentes graças a variáveis
não mensuradas, e que são espacialmente correlacionadas
Ou seja: efeitos espaciais são um ruído Por que ele ocorre? Porque não conseguimos modelar
todas as características de uma unidade geográfica que podem influenciar as regiões vizinhas.
Assume que, se pudéssemos adicionar as variáveis certas para remover o erro do modelo, o espaço não importaria mais.
Spatial Error Model (CAR)
Modelo:Modelo:
Y = X + = W + ξ
W = erro com efeitos espaciaiserro com efeitos espaciais = medida de correlação espacialξ = componente do erro com variância constante e não
correlacionada.
Spatial Lag Model X Spatial Error Model
Diagnóstico:
Testes Multiplicadores de Langrange (Langrange Multiplier Tests, Anselin et al. 1996)
Executa regressão dos resíduos em relação às variáveis originais e aos resíduos das áreas vizinhas
LM-Lag: testes para dependência em relação às variáveis originais nas áreas vizinhas – lag dependence /missing error
LM-Error: testes para dependência em relação aos resíduos nas áreas vizinhas - error dependence / missing lag
Auxilia na escolha de um modelo ou outro !
Spatial Lag Model X Spatial Error Model
Motivações diferentes, porém próximos em termos formais.
Premissa:Premissa: processo espacial analisado é
estacionário e pode ser capturado em um único parâmetro.
Spatial Lag Model X Spatial Error Model
Porém isto nem sempre é verdade!
Verificar se padrões diversos de associação espacial estão presentes.
Uma Solução Exploratória: Indicadores Locais de Autocorrelação Espacial
distribuição dos valores de correlação local para o índice de exclusão
Não significantes
p = 0.05 [95% (1,96)]p = 0.01 [99% (2,54)]p = 0.001 [99,9% (3,2)]
% Exclusão
Indicadores Locais de Variabilidade Indicadores Locais de Variabilidade EspacialEspacial
Modelos com Efeitos Espaciais Locais
Modelos de Regressão com Efeitos Espaciais Discretos
Variações espaciais modeladas de maneira discreta.
Regimes Espaciais
Modelos de Regressão com Efeitos Espaciais Contínuos
Variações espaciais modeladas de forma contínua, com parâmetros variando no espaço.
“Geographically Weighted Regression” – GWR. [Regressão Geograficamente Ponderada]
Quantitative Geography; A. S. Fotheringham, C. Brunsdon, M. Charlton, 2000 (print 2004)Quantitative Geography; A. S. Fotheringham, C. Brunsdon, M. Charlton, 2000 (print 2004)
Regimes Espaciais
A idéia é regionalizarregionalizar a área de estudo obtendo sub-regiões com seu padrão próprio.
Realizar regressões separadasregressões separadas para cada sub-região.
Utilizam-se variáveis preditorasvariáveis preditoras para classificar os subconjuntos
2222 XY
3333 XY
1111 XY para Ind =1
para Ind=2
para Ind=3
Esses valores são estimados conjuntamente em um modelo de regressão usando as variáveis preditoras
Regimes Espaciais
Regionalizações da área de estudo
Diferentes tipos de variabilidade espacial
Métricas: Diagrama de espalhamento e índices locais e globais – regionalização tipo k-medias espacial
Ex: Regimes espaciais para índice de exclusão
Regimes Espaciais x Regiões Administrativas
Impacto de Regimes Espaciais
Análise de Regressão
Idosos = f ( Domicílios Sem Esgoto)
Regressão Linear
R2 = 0,35
Regressão Espacial
Regiões Adm (R2 = 0,72)
Regimes Espaciais (R2 = 0,83)
Para dados socioeconômicos:Para dados socioeconômicos: modelo de regimes espaciais tende a apresentar resultados modelo de regimes espaciais tende a apresentar resultados
melhores que os de regressão simples ou de regressão melhores que os de regressão simples ou de regressão espacial com efeitos globais.espacial com efeitos globais.
Diagnóstico de modelos de efeitos espaciais
1.1. Análise gráfica dos resíduosAnálise gráfica dos resíduos
2.2. Mapear os resíduosMapear os resíduos – concentração de resíduos negativos ou positivos em parte do mapa indica presença de autocorrelação espacial
3.3. Índice de Moran dos resíduosÍndice de Moran dos resíduos
4. Indicadores de qualidade de ajuste dos modelos baseados no coeficiente de determinação (R2) serão incorretos.
5. Utilização do AIC – critério de informação de AkaikeAIC – critério de informação de Akaike, a avaliação do ajuste é penalizada por função do # de parâmetros
Comparação das regressões para SP
Longevidade X renda
Regressão simples
Spatial Lag Regimes espaciais (3)
R2 ajustado 0.280 0.586 0.80
Log verossimilhança (LIK)
-187.92 -150.02 -124.04
AIC 379.84 306.51 260.09
Indice Moran dos resíduos
0.620 0.020
GWR – Geographically Weighted Regression
Ajusta um modelo de regressão a cada ponto Ajusta um modelo de regressão a cada ponto observado, ponderando todas as demais observado, ponderando todas as demais observações como função da distância a este observações como função da distância a este ponto.ponto.
Y(s) = (s)X +
Y(s): variável que representa o processo no ponto s.
(s): parâmetros estimados no ponto s.
Quantitative Geography; A. S. Fotheringham, C. Brunsdon, M. Charlton, 2000 (print 2004)Quantitative Geography; A. S. Fotheringham, C. Brunsdon, M. Charlton, 2000 (print 2004)
y = b0 + b1x1 + e regressão simples com um preditor
b0 , b1 é o mesmo para toda área
Se existe alguma variação geográfica na relação essa variação fica incluída como erro.
GWR – Geographically Weighted Regression
y(u,v) = b0(u,v) + b1(u,v) x1 + e(u,v) GWRGWR
b0(u,v), b1(u,v) para cada ponto do espaço há um b0 e b1 diferentes
Existe uma função (kernel)kernel) sobre cada ponto do espaço que determina todos os pontos da regressão local que é poderada pela distância. Pontos mais próximos do ponto central tem maior peso.
Assim como no kernelkernel – a escolha da largura da banda é importante (pode ser fixa ou adaptável à densidade dos dados)
GWR – Geographically Weighted Regression
GWR – Geographically Weighted Regression
Adaptado de: Fotheringham, A.S., Brunsdon, C., and Charlton, M.E., 2002, Geographically Weighted Regression: The Analysis of Spatially Varying Relationships, Chichester: Wiley.
LARGURA DE BANDA
FUNÇÃO DE PONDERAÇÃO
Modelos locais vs. Modelos Globais
Mesmas técnicas de análise do ajuste do modelo, porém comparação é problemática
GWR apresentará sempre melhores ajustes pois envolve o ajuste de muito mais parâmetros
Sugestão: medida AIC, que leva em consideração a complexidade do modelo.
Ajuste do Modelo GWR
GWR – Geographically Weighted RegressionOs parâmetros podem ser apresentados visualmente
para identificar como se comportam espacialmente os relacionamentos entre as variáveis.
Ex: Crescimento Pop. (resposta) X Densidade Pop. (preditora)
GWR – Geographically Weighted Regression
Ex: Crescimento Pop. (resposta) X Densidade Pop. (preditora)
Mapa de resíduos (I = 0,04) :
GWR – Geographically Weighted Regression
Consumo de Água per Capita (resposta) X Renda per capita(preditora)
CARMO, Roberto Luiz do; DAGNINO, Ricardo Sampaio; FEITOSA, Flávia da Fonseca; JOHANSEN, Igor Cavallini; CRAICE, Carla. População, Renda e Consumo Urbano de Água no Brasil: Interfaces e Desafios. XX Simpósio Brasileiro de Recursos Hídricos. 17 a 22 de novembro de 2013. Bento Gonçalves, RS.
Distribuição espacial de consumo residencial de água e renda da população em 2010. Fonte: SNIS (2010) e IBGE (2010).
GWR – Geographically Weighted Regression
Consumo de Água per Capita (resposta) X Renda per capita(preditora)
MODELO DE REGRESSÃO LINEAR GLOBAL
CARMO, Roberto Luiz do; DAGNINO, Ricardo Sampaio; FEITOSA, Flávia da Fonseca; JOHANSEN, Igor Cavallini; CRAICE, Carla. População, Renda e Consumo Urbano de Água no Brasil: Interfaces e Desafios. XX Simpósio Brasileiro de Recursos Hídricos. 17 a 22 de novembro de 2013. Bento Gonçalves, RS.
GWR – Geographically Weighted Regression
Consumo de Água per Capita (resposta) X Renda per capita(preditora)
GWR:
CARMO, Roberto Luiz do; DAGNINO, Ricardo Sampaio; FEITOSA, Flávia da Fonseca; JOHANSEN, Igor Cavallini; CRAICE, Carla. População, Renda e Consumo Urbano de Água no Brasil: Interfaces e Desafios. XX Simpósio Brasileiro de Recursos Hídricos. 17 a 22 de novembro de 2013. Bento Gonçalves, RS.
GWR – Geographically Weighted Regression
Consumo de Água per Capita (resposta) X Renda per capita(preditora)
CARMO, Roberto Luiz do; DAGNINO, Ricardo Sampaio; FEITOSA, Flávia da Fonseca; JOHANSEN, Igor Cavallini; CRAICE, Carla. População, Renda e Consumo Urbano de Água no Brasil: Interfaces e Desafios. XX Simpósio Brasileiro de Recursos Hídricos. 17 a 22 de novembro de 2013. Bento Gonçalves, RS.
Os menores coeficientes estimados para a variável RENDA foram observados em municípios do Estado do Rio Grande do Sul e os maiores em Alagoas.
Região do Município de Traipu (AL) maior coeficiente estimadoUm aumento de R$ 1 na renda per capita da população está associado a um incremento do consumo de água de 100,3 ml/dia/hab.
Região do município de Floriano Peixoto (RS) um dos menores coeficientes significativos (t-valor > 1,96): Um aumento de R$ 1 na renda per capita da população está associado a um aumento do consumo de 10,22 ml/dia/hab.
Hipóteses???
GWR – Geographically Weighted Regression
Consumo de Água per Capita (resposta) X Renda per capita(preditora)
CARMO, Roberto Luiz do; DAGNINO, Ricardo Sampaio; FEITOSA, Flávia da Fonseca; JOHANSEN, Igor Cavallini; CRAICE, Carla. População, Renda e Consumo Urbano de Água no Brasil: Interfaces e Desafios. XX Simpósio Brasileiro de Recursos Hídricos. 17 a 22 de novembro de 2013. Bento Gonçalves, RS.
De maneira geral, as regiões apresentadas na como aquelas onde a elevação da renda está relacionada a um maior incremento do consumo (áreas mais escuras) tendem a coincidir com as áreas onde o aumento do poder de consumo – que acompanhou o recente processo de estabilização econômica, crescimento econômico e ampliação dos programas redistributivos – apresentou os maiores impactos na redução da pobreza e extrema pobreza do país.
São regiões onde a redução da pobreza ampliou de maneira expressiva o acesso a recursos básicos para a manutenção de vida desta população, entre eles a água potável.
Já em regiões como a Sul, caracterizada por níveis mais elevados de renda, um aumento na renda tende a gerar um impacto menor no consumo de bens essenciais como a água e maior no consumo de bens de outra natureza.
GWR – Geographically Weighted Regression
Outros modelos GWR
Regressão Poisson (GWPR) Regressão Logística (GWLR)
Softwares para o Curso
ComCom
R, aRT + TerraView
É possível testar tudo que vimos nestes slides!
Um tutorial está disponível na Wiki
R-Spatial Project: http://cran.r-project.org/web/views/Spatial.html
Outros Tutoriais
Spatial Regression Analysis: A Workbook (Luc Anselin): Spatial Regression Analysis: A Workbook (Luc Anselin): http://geodacenter.asu.edu/system/files/rex1.pdf
Fitting and Interpreting Spatial Regression Models: An Fitting and Interpreting Spatial Regression Models: An Applied Survey (Roger Bivand): Applied Survey (Roger Bivand): http://www.nek.lu.se/ryde/NordicEcont09/Papers/bivand.pdf
Spatial Econometrics functions in R: Classes and Spatial Econometrics functions in R: Classes and Methods: Methods: http://www.springerlink.com/content/xkmdbdk9jtfwbg9v/
Introduction to Geographically Weighted Regression Introduction to Geographically Weighted Regression (GWR) and to Grid Enabled GWR (Daniel Grose, (GWR) and to Grid Enabled GWR (Daniel Grose, Chris Brunsdon, Richard Harris): Chris Brunsdon, Richard Harris): http://www.esrc.ac.uk/my-esrc/grants/RES-149-25-1041/outputs/Read/d68adfdb-50d5-4104-882e-a7028549ee37
Softwares EspecíficosSão Sw Livres disponíveis na WEBSão Sw Livres disponíveis na WEB
GeoDa Índice de Moran, LISA maps, Regressão Clássica e Espacial (Spatial Lag &
Spatial Error)
SPRING e Terraview Índice de Moran, LISA map
CrimeStat Índices de Autocorrelação, Taxas e Regressões
SAM (Spatial Analysis in Macroecology, www.ecoevol.ufg.br/sam) Índices de Autocorrelação, Taxas e Regressões (inclui GWR)
Rangel, T.; Diniz-Filho, J; Bini, L. (2010) SAM: a comprehensive application for Spatial Analysis in Macroecology. Ecography, 33:46-50
Não é Livre: Não é Livre: GWR 3.0Regressão Clássica e Espacial (GWR)
Fotheringham, A.S., Brunsdon, C., and Charlton, M.E., 2002, Geographically Weighted Regression: The Analysis of Spatially Varying Relationships, Chichester: Wiley.