Análise de Regressão com Dados Espaciais: Uma Breve Introdução Análise Espacial de Dados Geográficos SER-301 - 2012

Análise de Regressão com Dados Espaciais:

Uma Breve Introdução

Análise Espacial de Dados GeográficosSER-301 - 2012

Material Elaborado por

Virginia Ragoni, INPE Flávia Feitosa, INPE

Revisado em 2010: Antônio Miguel V. MonteiroRevisado em 2011-2013: Flávia Feitosa

Análise de Regressão

Análise de regressão é uma ferramenta estatística que utiliza a relação entre duas ou mais variáveis tal que uma variável possa ser explicada (variável resposta/ dependente) pela outra ou outras (variáveis indicadoras/ preditoras/ explicativas/ independentes).

Y = aX + b

NETER J. et al. Applied Linear Statistical Models. Boston, MA: McGraw-Hill, 1996.

Exemplos Alunos

Criminalidade (+) X Renda (-), Investimentos (-)

Longevidade (+) X Escolaridade (+), Renda (+)

...

Objetivos da Análise de Regressão

1.Determinar como duas ou mais variáveis se relacionam.

2.Estimar a função que determina a relação entre duas variáveis.

3.Usar a equação para projetar/estimar valores futuros da variável dependente.

Lembrete importante: A existência de uma relação estatística entre a variável resposta Y e a variável explicativa X não implica na existência de uma relação causal entre elas.

Diagrama de Dispersão

Os dados para a análise de regressão são da forma:

(x1, y1), (x2, y2), ..., (xi, yi), ... (xn, yn)

Com os dados constrói-se o diagrama de dispersão. Este deve exibir uma tendência linear para que se possa usar a regressão linear.

Ou seja, o diagrama permite decidir empiricamente se um relacionamento linear entre X e Y deve ser assumido.


Sugerem uma regressão/relação não linear.

Assim, a relação entre as variáveis poderá ser descrita por uma equação não linear.


Sugerem uma regressão/relação linear.

Assim, a relação entre as variáveis poderá ser descrita por uma equação linear.


Por análise do diagrama de dispersão pode-se também concluir (empiricamente) se o grau de relacionamento linear entre as variáveis é forte ou fraco, conforme o modo como se situam os pontos ao redor de uma reta imaginária que passa através da concentração de pontos.


Existência de correlação linear positiva: em média, quanto maior o X, maior será o Y

Existência de correlação linear negativa: em média, quanto maior o X, menor será o Y

Um modelo de regressão contendo somente uma variável preditoravariável preditora é denominado modelo de regressão simples.

Modelos de Regressão

Um modelo com mais de uma variável variável preditorapreditora é denominado modelo de regressão múltiplo.

Regressão Linear Simples

onde:onde:

Yi é o valor da variável resposta na i-ésima observação;

0 e 1 são parâmetros;

Xi é uma constante conhecida; é o valor da variável preditora na i-ésima observação;

i é um termo de erro aleatório com média zero e variância constante 2 (E(i)=0 e 2 (i)= 2 )

i e j são não correlacionados (independentes) para i j (2 (i,j)= 0 )

iii XY 10

Modelo de Regressão Linear

Yi

i

X

Y

0

1 Coeficienteangular

Y = E(Y) = 0 + 1 X

InclinaçãoPopulacional

InterceptoPopulacional

Erro Aleatório

Variável Preditora

Variável Resposta Yi=0+1Xi +i

Ŷi=b0+b1Xi

i =Yi-Ŷi

Modelo estimado

Resíduo

Os parâmetros 0 e 1 são denominados coeficientes de regressãocoeficientes de regressão:

1. 1 é a inclinação da reta de regressãoinclinação da reta de regressão. Ela indica a mudança na média de Y quando X é acrescido de uma unidade.

2. 0 é o intercepto em Y da equação de regressãointercepto em Y da equação de regressão (é o valor de Y quando X = 0.)

0 só tem significado se o modelo incluir X = 0.

Significado de 0 e 1

0

1

iXiYE10

][ Y

X0

0

x x+1

x=1

yyi = 0 + 1xi

xy

1

00 (intercepto); quando a região experimental inclui (intercepto); quando a região experimental inclui X=0, X=0, 00 é o valor da média da distribuição de Y em X=0, cc, não tem é o valor da média da distribuição de Y em X=0, cc, não tem significado significado práticoprático como um termo separado (isolado) no como um termo separado (isolado) no modelo; modelo; 11 (inclinação) expressa a (inclinação) expressa a taxa de mudançataxa de mudança em em Y,Y, isto é, é a mudança em isto é, é a mudança em YY quando ocorre a mudança de uma quando ocorre a mudança de uma unidade em unidade em X. X. Ele indica a mudança na média da distribuição Ele indica a mudança na média da distribuição de probabilidade de de probabilidade de YY por unidade de acréscimo em por unidade de acréscimo em X.X.Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.htmlFonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html

Premissas

1) Distribuição Normal Para um valor fixo da variável aleatória X, Y é uma variável aleatória com distribuição Normal (com média e variâncias finitas);

Yi ~ N(E(y/x); σ2)

2) LinearidadeTodos os valores médios de Y (E(y/x)=μY/x) permanecem sobre uma reta, para um particular valor de X.

E(y/x)=μy/x = 0 + 1x

Premissas

3) IndependênciaOs valores de Yi e Yj são estatisticamente independentes.

4) HomocedasticidadeA variância de Y é igual, qualquer que seja X.

A figura mostra a distribuição de A figura mostra a distribuição de YY para vários valores de para vários valores de XX. . Mostra onde cai a observação Mostra onde cai a observação YY11. Mostra que o erro é a . Mostra que o erro é a

diferença entre diferença entre YY11 e e E(YE(Y11)). Observe que as distribuições de . Observe que as distribuições de

probabilidade apresentam a mesma variabilidade. probabilidade apresentam a mesma variabilidade.

Modelos de Regressão

Fonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.htmlFonte: Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html

Resumo da situaçãoResumo da situação: para qualquer valor : para qualquer valor XXii,, a média de a média de YYii é é ii

= = 00 + + 11XXii. As médias estão sobre a linha reta para todos os . As médias estão sobre a linha reta para todos os

valores de valores de XX. Devido aos erros aleatórios, os valores de . Devido aos erros aleatórios, os valores de YYii se se

distribuem ao redor da retadistribuem ao redor da reta..


Regressão Linear Múltipla

Yi=0+1Xi1 + 2Xi2 +…+ pXip + i

Yi é o valor da variável resposta na i-ésima observação

0, …, p são parâmetros

Xi1 ,…,Xip são os valores das variáveis preditoras na i-ésima observação

i é um termo de erro aleatório com distribuição normal, média zero e variância constante 2 (E(i )=0 e 2 (i )= 2 )

i e j são não correlacionados (independentes) para i j

0

Plano de resposta

•(1,33;1,67)

E(Yi) = 20,00

Yi•

i


Superfície de RespostaSuperfície de Resposta: Função de Regressão na Regressão Linear Múltipla

O parâmetro 0 é o intercepto do plano de regressão. Se a abrangência do modelo inclui X1=0 e X2=0 então 0=10 representa a resposta média E(Y) neste ponto. Em outras situações, 0 não tem qualquer outro significado como um termo separado no modelo de regressão.

Significado dos Coeficientes de regressão: 0, 1, 2,.., p


Parâmetro 1 indica a mudança na resposta média E(Y) por unidade de acréscimo em X1 quando X2 é mantido constante. Da mesma forma 2 indica a mudança na resposta média por unidade de aumento em X2 quando X1 é mantido constante.

“Ceteris Paribus”



Quando o efeito de X1 sobre a resposta média não depende de X2 e vice-versa, e assim, para cada X de [1 a p], dizemos que as variáveis preditorasvariáveis preditoras tem efeito aditivoefeito aditivo ou não interagemnão interagem.

Se temos somente X1 e X2 por exemplo, dizemos que temos um modelo de um modelo de primeira ordem sem interaçãoprimeira ordem sem interação.


Fonte: Adaptado de Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.htmlFonte: Adaptado de Slide de Paulo José Ogliari, Informática, UFSC. Em http://www.inf.ufsc.br/~ogliari/cursoderegressao.html

Outros modelos de regressão

Modelo quadrático ou de 2º grau

Não é uma linha reta, mas permanece linear nos parâmetros mesmos métodos são aplicáveis

Pode ser linearizado:

X2 = (X1)2


Outros modelos de regressão

Modelo não linear nos parâmetros

Necessita de métodos para modelos não-lineares


XeY

32

1

1Modelo de crescimento logístico (X=tempo)

Superfície de RespostaSuperfície de Resposta


Estimação dos parâmetros

Em geral não se conhece os valores de 0 e 1 .

Eles podem ser estimados através de dados obtidos por amostras.

O método utilizado na estimação dos parâmetros é o método dos mínimos quadrados, o qual considera os desvios dos Yi de seu valor esperado (E(Yi )):

i = Yi – (0 + 1 Xi)


Em particular, o método dos mínimos quadrados requer que a soma dos n desvios quadrados, denotado por Q, seja mínima:

210

1

][ ii

n

i

XYQ


Para minimizar Q (soma dos desvios quadrados):

(1) Q deve ser derivado em relação a 0 e 1:

(2) Com derivadas parciais igualadas à zero, obtêm-se os valores estimados de 0 e 1:

n

i

i

n

i

ii

XX

YYXX

1

2

11

)(

))((̂

n

iiii

Q

n

iii

Q

XYX

XY

110

110

)(2

)(2

1

0

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0 5 10 15 20- +0 t1-/2;n-2

tn-2

-t1-/2;n-2

1

/2/2

Inferência

1. Construir intervalos de confiança para :

2. Teste de hipótese para :

1̂

0ˆ:

0ˆ:

1

10

Ha

H

Se = 0 , significa que não há correlação entre X e Y.

Rejeitar , significa que o modelo que inclui X é melhor do que o modelo que não inclui X mesmo que a linha retanão seja a relação mais apropriada.

1̂Testando se a inclinação é zero.

1̂

0H

Inferência1. Construir intervalos de confiança para : 1̂

n

i

i

n

i

ii

XX

YYXX

1

2

11

)(

))((̂

Média:

Variânciaestimada:

Distribuição da estatística studentizada (σ é desconhecido)

Intervalo de confiança

Inferência2. Teste estatístico formal: feito de maneira padrão usando a distribuição de Student

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0 5 10 15 20- +0 t1-/2;n-2

tn-2

-t1-/2;n-2

1

/2/2

0ˆ:

0ˆ:

1

10

Ha

H

Inferência

0:H

0:H

01

00

Se a hipótese nula = 0 não for rejeitada, pode-se excluir a constante do modelo, já que a reta inclui a origem.

0̂De forma semelhante testa-se é zero

0H

Análise de Variância da Regressão

Inferência: Análise de Variância

)ˆ()ˆ( YYYYYY iii

Elevando-se ao quadrado os dois lados da igualdade e fazendo-se a soma para todas as observações de uma determinada amostra tem-se que:

2

1

2

1 1

2 )ˆ()ˆ()(

n

i

i

n

i

n

i

ii YYYYYY

Soma de quadrados total (SQT)

Soma de quadradosdevido ao modelo (SQM)

Soma de quadrados devido aos resíduos (SQR)

Desvio Total Desvio Explicado

pelo ModeloDesvio Não-explicado

pelo Modelo

Particionando a soma dos quadrados

2

1

2

1 1

)ˆ()ˆ()(

n

i

i

n

i

n

i

ii YYYYYY

•Se SQT=0, então todas as observações Y são iguais. •Quanto maior for SQT, maior será a variação entre os Y´s.•SQT é uma medida da variação dos Y´s quando não se leva em consideração a variável independente X.

Se SQR = 0, então as observações caem na linha de regressão.Quanto maior SQR, maior será a variação das observações Y ao redor da linha de regressão.

Se a linha de regressão for horizontal, de modo

que então SQM = 0.

0^

YY i

SQT = SQM + SQR.

Um modo de se saber quão útil será a linha de regressão para a predição é verificar quanto da SQT está na SQM e quanto está na SQR.

Idealmente, gostaríamos que SQM fosse muito maior que SQR.

Gostaríamos, portanto, que fosse próximo de 1.SQT

SQM

Particionando a Soma de Quadrados

Coeficiente de determinação

Uma medida do efeito de X em reduzir a variabilidade do Y é:

Note que: 0 R2 1

R2 é denominado coeficiente de determinação. Em um modelo de regressão simples, o coeficiente de determinação é o quadrado do coeficiente de correlação (r) entre Y e X. Note que em um modelo de regressão simples

SQT

SQR1

SQT

SQR-SQT

SQT

SQM2 R

112 rRr

Coeficiente de determinação

Temos dois casos extremos:

1. R2 = 1 todas as observações caem na linha de regressão ajustada. A variável preditora X explica toda a variação nas observações.

2. R2 = 0 isto ocorre quando b1 = 0. Não existe relação linear em Y e X. A variável X não ajuda a explicar a variação dos Yi .

112 rRr

Tabela ANOVA - FGraus de

Liberdade

(df)

Soma dos quadrados

(SQ)

Quadrado médio

QM=SQ/df

Razão da variância

Regressão(X)

Residuo

1 (p-1)

28 (n-p)

SQT-SQR= SQM= 6394.02

SQR=8393.44

6394.02

(QMModelo)

299.77

(QMResíduo)

21.33(p<0.001)

Total 29 (n-1) SQT = 14787.46

)1/(1(

/2

2

knR

kRF

Inferência – Teste F (Adequação Global)

0:

0ˆ...ˆˆ: 210

jdosummenospeloexisteHa

H k

onde Fc ~ F p-1, n-p

Se F*> F(; p-1,n-p), rejeitamos a hipótese nula, caso contrário, aceitamos a hipótese.

Inferência – Teste F ParcialCompara um modelo reduzido com um modelo completo

0ˆ:

0ˆ:*

*0

Ha

H

Ha: X* melhora significativamente a predição de Y, dado que X1, X2,...Xp já estão no modelo

Modelo completo Y =0+1X1+...pXp+*X*Modelo reduzido Y =0+1X1+...pXp

Compara as somas de quadrados dos erros do modelo completo (SQR(C)) e reduzido (SQR(R)). O modelo reduzido é adequado (não rejeita H0) se SQR(C) não for muito menor que (SQR(R))

Etapas da Análise de Regressão

1.Seleção e preparação das variáveis Transformações podem ser necessárias para linearizar relações

Transformações para não linearidade do modelo

Transformações quando a distribuição dos erros é aproximadamente normal e com variância constante. Deve-se realizar uma transformação apenas na variável X.

Padrões de relação entre X e Y:

XX

XX

'

log10'

)exp('

2'

XX

XX


Etapas da Análise de Regressão

1.Seleção e preparação das variáveis Transformações podem ser necessárias para linearizar relações

Analisar multicolinearidade aumenta DP dos coeficientes estimados )

2.Escolha e ajuste do modelo de regressão

3.Diagnóstico para verificar se o modelo ajustado é adequado

Análise dos Resíduos Se modelo for adequado, resíduos devem refletir as propriedades impostas pelo termo de erro do modelo.

Linearidade do modelo

Não Linearidade

0

X

Res

íduo

Análise dos Resíduos Normalidade dos resíduos: Suposição essencial para

que os resultados do ajuste do modelo sejam confiáveis

Outros diagnósticos: Shapiro-Wilk, Anderson-Darling, Kolmogorov-Smirnov

Análise dos Resíduos Homocedasticidade (variância constante)

Gráfico resíduos vs. valores ajustados

0

X

Variância Não Constante

Res

íduo

Outros diagnósticos: Teste de Breusch-Pagan, Goldfeld-Quandt

Análise dos Resíduos

-0,4

-0,2

0

0,2

0,4

0,6

0,8

1

150 155 160 165 170 175 180 185

X

Res

ídu

os

Pad

ron

izad

os

Pontos influentes: DFFITS, DFBETA, Distância de Cook


Independência

X

0

Erros Correlacionados

Res

íduo

Outros diagnósticos: Teste de Durbin-Watson

Autocorrelação espacial: Mapa dos resíduos, Índice de Moran

Análise dos Resíduos Modelo Adequado

0

Res

íduo

X

Análise dos Resíduos DADOS ESPACIAIS

Caso a hipótese de independência das observações seja Falsa Dependência Espacial

Efeitos EspaciaisEfeitos Espaciais

Se existir forte tendência ou correlação espacial, os resultados serão influenciados, apresentando associação estatística onde não existe (e vice-versa).


Como verificar?Como verificar?

Medir a autocorrelação espacial dos resíduos da regressãoresíduos da regressão (ex. Índice de Moran dos resíduosresíduos)

Exemplo São José dos Campos

Crescimento Populacional 91-00 X Densidade Populacional 91

1. Mapear os resíduos da regressão – índícios de correlação

2. Índice de Moran sobre mapa de resíduos I=0,45

3. Testes de pseudo-significância indicam autocorrelação espacial

Autocorrelação Espacial Constatada!!!

As observações não são independentes espacialmente.

Portanto... temos uma violação das nossas premissas (violação do MMQ).

Dependendo da natureza da dependência, parâmetros estimados por mínimos quadrados será ineficiente ou inconsistente.

E agora?

Modelos de regressão que incorporam efeitos espaciaisregressão que incorporam efeitos espaciais

Regressão Espacial

Incorpora a estrutura de dependência espacial no modelo

PREMISSA: Assumimos que conhecemos a estrutura de

dependência espacial (ela não é estimada) Premissa forte? Sim! Porém não tão forte quanto assumir que todas as

observações são independentes espacialmente Matrizes de ponderação tipicamente consideradas:

contiguidade (queen, rook...) ou distância (k vizinhos mais próximos...)

Regressão Espacial

Podem ser globais ou locais

Globais: inclui no modelo de regressão um parâmetro/elemento para capturar a estrutura de autocorrelação espacial

Locais: parâmetros variam continuamente no espaço

Global vs. Local

Global Local

Estatísticas dizem respeito à região como um todo (1 valor)

Disagregações locais das estatísticas globais (Muitos valores)

Estatísticas globais e não mapeáveis

Estatísticas locais e mapeáveis

Ênfase nas similaridades da região

Ênfase nas diferenças ao longo do espaço

Procura regularidades ou “leis” Procura por exceções ou “hot-spots” locais

Ex.: Regressão Clássica, Spatial Lag, Spatial Error

Ex.: GWR, Regimes Espaciais

Adaptado de: Fotheringham, A.S., Brunsdon, C., and Charlton, M.E., 2002, Geographically Weighted Regression: The Analysis of Spatially Varying Relationships, Chichester: Wiley.

Modelos com Efeitos Espaciais Globais

Premissa: Premissa: É possível capturar a estrutura de correlação

espacial num único parâmetro (adicionado ao modelo de regressão).

Alternativas: Alternativas:

Spatial Lag Models (SAR): atribuem a autocorrelação espacial à variável resposta Y. (Spatial Autoregressive Spatial Autoregressive

ModelingModeling)Spatial Error Models (CAR): atribuem a autocorrelação

ao erro. (Conditional Autoregressive Modeling)Conditional Autoregressive Modeling)

Spatial Lag Model (LAG)

HipóteseHipótesea variável Yi é afetada pelos valores da variável resposta nas

áreas vizinhas a i:

Y = WY + X +

= coeficiente espacial autoregressivocoeficiente espacial autoregressivo - medida de correlação espacial

= 0, se autocorrelação é nula (hipótese nula)W = matriz de proximidade espacialWY expressa a dependência espacial em Y

Exemplo: Valor dos imóveis

Spatial Error Model (CAR)

Hipótese:Hipótese: As observações são interdependentes graças a variáveis

não mensuradas, e que são espacialmente correlacionadas

Ou seja: efeitos espaciais são um ruído Por que ele ocorre? Porque não conseguimos modelar

todas as características de uma unidade geográfica que podem influenciar as regiões vizinhas.

Assume que, se pudéssemos adicionar as variáveis certas para remover o erro do modelo, o espaço não importaria mais.

Spatial Error Model (CAR)

Modelo:Modelo:

Y = X + = W + ξ

W = erro com efeitos espaciaiserro com efeitos espaciais = medida de correlação espacialξ = componente do erro com variância constante e não

correlacionada.

Spatial Lag Model X Spatial Error Model

Diagnóstico:

Testes Multiplicadores de Langrange (Langrange Multiplier Tests, Anselin et al. 1996)

Executa regressão dos resíduos em relação às variáveis originais e aos resíduos das áreas vizinhas

LM-Lag: testes para dependência em relação às variáveis originais nas áreas vizinhas – lag dependence /missing error

LM-Error: testes para dependência em relação aos resíduos nas áreas vizinhas - error dependence / missing lag

Auxilia na escolha de um modelo ou outro !


Motivações diferentes, porém próximos em termos formais.

Premissa:Premissa: processo espacial analisado é

estacionário e pode ser capturado em um único parâmetro.


Porém isto nem sempre é verdade!

Verificar se padrões diversos de associação espacial estão presentes.

Uma Solução Exploratória: Indicadores Locais de Autocorrelação Espacial

distribuição dos valores de correlação local para o índice de exclusão

Não significantes

p = 0.05 [95% (1,96)]p = 0.01 [99% (2,54)]p = 0.001 [99,9% (3,2)]

% Exclusão

Indicadores Locais de Variabilidade Indicadores Locais de Variabilidade EspacialEspacial

Modelos com Efeitos Espaciais Locais

Modelos de Regressão com Efeitos Espaciais Discretos

Variações espaciais modeladas de maneira discreta.

Regimes Espaciais

Modelos de Regressão com Efeitos Espaciais Contínuos

Variações espaciais modeladas de forma contínua, com parâmetros variando no espaço.

“Geographically Weighted Regression” – GWR. [Regressão Geograficamente Ponderada]

Quantitative Geography; A. S. Fotheringham, C. Brunsdon, M. Charlton, 2000 (print 2004)Quantitative Geography; A. S. Fotheringham, C. Brunsdon, M. Charlton, 2000 (print 2004)

Regimes Espaciais

A idéia é regionalizarregionalizar a área de estudo obtendo sub-regiões com seu padrão próprio.

Realizar regressões separadasregressões separadas para cada sub-região.

Utilizam-se variáveis preditorasvariáveis preditoras para classificar os subconjuntos

2222 XY

3333 XY

1111 XY para Ind =1

para Ind=2

para Ind=3

Esses valores são estimados conjuntamente em um modelo de regressão usando as variáveis preditoras

Regimes Espaciais

Regionalizações da área de estudo

Diferentes tipos de variabilidade espacial

Métricas: Diagrama de espalhamento e índices locais e globais – regionalização tipo k-medias espacial

Ex: Regimes espaciais para índice de exclusão

Regimes Espaciais x Regiões Administrativas

Impacto de Regimes Espaciais

Análise de Regressão

Idosos = f ( Domicílios Sem Esgoto)

Regressão Linear

R2 = 0,35

Regressão Espacial

Regiões Adm (R2 = 0,72)

Regimes Espaciais (R2 = 0,83)

Para dados socioeconômicos:Para dados socioeconômicos: modelo de regimes espaciais tende a apresentar resultados modelo de regimes espaciais tende a apresentar resultados

melhores que os de regressão simples ou de regressão melhores que os de regressão simples ou de regressão espacial com efeitos globais.espacial com efeitos globais.

Diagnóstico de modelos de efeitos espaciais

1.1. Análise gráfica dos resíduosAnálise gráfica dos resíduos

2.2. Mapear os resíduosMapear os resíduos – concentração de resíduos negativos ou positivos em parte do mapa indica presença de autocorrelação espacial

3.3. Índice de Moran dos resíduosÍndice de Moran dos resíduos

4. Indicadores de qualidade de ajuste dos modelos baseados no coeficiente de determinação (R2) serão incorretos.

5. Utilização do AIC – critério de informação de AkaikeAIC – critério de informação de Akaike, a avaliação do ajuste é penalizada por função do # de parâmetros

Comparação das regressões para SP

Longevidade X renda

Regressão simples

Spatial Lag Regimes espaciais (3)

R2 ajustado 0.280 0.586 0.80

Log verossimilhança (LIK)

-187.92 -150.02 -124.04

AIC 379.84 306.51 260.09

Indice Moran dos resíduos

0.620 0.020

GWR – Geographically Weighted Regression

Ajusta um modelo de regressão a cada ponto Ajusta um modelo de regressão a cada ponto observado, ponderando todas as demais observado, ponderando todas as demais observações como função da distância a este observações como função da distância a este ponto.ponto.

Y(s) = (s)X +

Y(s): variável que representa o processo no ponto s.

(s): parâmetros estimados no ponto s.

Quantitative Geography; A. S. Fotheringham, C. Brunsdon, M. Charlton, 2000 (print 2004)Quantitative Geography; A. S. Fotheringham, C. Brunsdon, M. Charlton, 2000 (print 2004)

y = b0 + b1x1 + e regressão simples com um preditor

b0 , b1 é o mesmo para toda área

Se existe alguma variação geográfica na relação essa variação fica incluída como erro.


y(u,v) = b0(u,v) + b1(u,v) x1 + e(u,v) GWRGWR

b0(u,v), b1(u,v) para cada ponto do espaço há um b0 e b1 diferentes

Existe uma função (kernel)kernel) sobre cada ponto do espaço que determina todos os pontos da regressão local que é poderada pela distância. Pontos mais próximos do ponto central tem maior peso.

Assim como no kernelkernel – a escolha da largura da banda é importante (pode ser fixa ou adaptável à densidade dos dados)



Adaptado de: Fotheringham, A.S., Brunsdon, C., and Charlton, M.E., 2002, Geographically Weighted Regression: The Analysis of Spatially Varying Relationships, Chichester: Wiley.

LARGURA DE BANDA

FUNÇÃO DE PONDERAÇÃO

Modelos locais vs. Modelos Globais

Mesmas técnicas de análise do ajuste do modelo, porém comparação é problemática

GWR apresentará sempre melhores ajustes pois envolve o ajuste de muito mais parâmetros

Sugestão: medida AIC, que leva em consideração a complexidade do modelo.

Ajuste do Modelo GWR

GWR – Geographically Weighted RegressionOs parâmetros podem ser apresentados visualmente

para identificar como se comportam espacialmente os relacionamentos entre as variáveis.

Ex: Crescimento Pop. (resposta) X Densidade Pop. (preditora)


Ex: Crescimento Pop. (resposta) X Densidade Pop. (preditora)

Mapa de resíduos (I = 0,04) :


Consumo de Água per Capita (resposta) X Renda per capita(preditora)

CARMO, Roberto Luiz do; DAGNINO, Ricardo Sampaio; FEITOSA, Flávia da Fonseca; JOHANSEN, Igor Cavallini; CRAICE, Carla. População, Renda e Consumo Urbano de Água no Brasil: Interfaces e Desafios. XX Simpósio Brasileiro de Recursos Hídricos. 17 a 22 de novembro de 2013. Bento Gonçalves, RS.

Distribuição espacial de consumo residencial de água e renda da população em 2010. Fonte: SNIS (2010) e IBGE (2010).



MODELO DE REGRESSÃO LINEAR GLOBAL




GWR:





Os menores coeficientes estimados para a variável RENDA foram observados em municípios do Estado do Rio Grande do Sul e os maiores em Alagoas.

Região do Município de Traipu (AL) maior coeficiente estimadoUm aumento de R$ 1 na renda per capita da população está associado a um incremento do consumo de água de 100,3 ml/dia/hab.

Região do município de Floriano Peixoto (RS) um dos menores coeficientes significativos (t-valor > 1,96): Um aumento de R$ 1 na renda per capita da população está associado a um aumento do consumo de 10,22 ml/dia/hab.

Hipóteses???




De maneira geral, as regiões apresentadas na como aquelas onde a elevação da renda está relacionada a um maior incremento do consumo (áreas mais escuras) tendem a coincidir com as áreas onde o aumento do poder de consumo – que acompanhou o recente processo de estabilização econômica, crescimento econômico e ampliação dos programas redistributivos – apresentou os maiores impactos na redução da pobreza e extrema pobreza do país.

São regiões onde a redução da pobreza ampliou de maneira expressiva o acesso a recursos básicos para a manutenção de vida desta população, entre eles a água potável.

Já em regiões como a Sul, caracterizada por níveis mais elevados de renda, um aumento na renda tende a gerar um impacto menor no consumo de bens essenciais como a água e maior no consumo de bens de outra natureza.


Outros modelos GWR

Regressão Poisson (GWPR) Regressão Logística (GWLR)

Softwares para o Curso

ComCom

R, aRT + TerraView

É possível testar tudo que vimos nestes slides!

Um tutorial está disponível na Wiki

R-Spatial Project: http://cran.r-project.org/web/views/Spatial.html

Outros Tutoriais

Spatial Regression Analysis: A Workbook (Luc Anselin): Spatial Regression Analysis: A Workbook (Luc Anselin): http://geodacenter.asu.edu/system/files/rex1.pdf

Fitting and Interpreting Spatial Regression Models: An Fitting and Interpreting Spatial Regression Models: An Applied Survey (Roger Bivand): Applied Survey (Roger Bivand): http://www.nek.lu.se/ryde/NordicEcont09/Papers/bivand.pdf

Spatial Econometrics functions in R: Classes and Spatial Econometrics functions in R: Classes and Methods: Methods: http://www.springerlink.com/content/xkmdbdk9jtfwbg9v/

Introduction to Geographically Weighted Regression Introduction to Geographically Weighted Regression (GWR) and to Grid Enabled GWR (Daniel Grose, (GWR) and to Grid Enabled GWR (Daniel Grose, Chris Brunsdon, Richard Harris): Chris Brunsdon, Richard Harris): http://www.esrc.ac.uk/my-esrc/grants/RES-149-25-1041/outputs/Read/d68adfdb-50d5-4104-882e-a7028549ee37

Softwares EspecíficosSão Sw Livres disponíveis na WEBSão Sw Livres disponíveis na WEB

GeoDa Índice de Moran, LISA maps, Regressão Clássica e Espacial (Spatial Lag &

Spatial Error)

SPRING e Terraview Índice de Moran, LISA map

CrimeStat Índices de Autocorrelação, Taxas e Regressões

SAM (Spatial Analysis in Macroecology, www.ecoevol.ufg.br/sam) Índices de Autocorrelação, Taxas e Regressões (inclui GWR)

Rangel, T.; Diniz-Filho, J; Bini, L. (2010) SAM: a comprehensive application for Spatial Analysis in Macroecology. Ecography, 33:46-50

Não é Livre: Não é Livre: GWR 3.0Regressão Clássica e Espacial (GWR)

Fotheringham, A.S., Brunsdon, C., and Charlton, M.E., 2002, Geographically Weighted Regression: The Analysis of Spatially Varying Relationships, Chichester: Wiley.

Documents

Análise de Regressão com Dados Espaciais: Uma Breve Introdução Análise Espacial de Dados Geográficos SER-301 - 2012