Upload
internet
View
114
Download
5
Embed Size (px)
Citation preview
Análise de Dados de ÁreaAnálise de Dados de Área
Parte 3 - Análise Exploratória
Análise Exploratória
• Definição– Conjunto de ferramentas estatísticas gráficas e
descritivas direcionado ao descobrimento de padrões em dados.
• ESDA (Exploratory Spatial Data Analysis). “Coleção de técnicas para descrever e visualizar
distribuições espaciais, identificar situações atípicas, descobrir padrões de associação espacial, clusters e sugerir regimes espaciais ou formas de heterogeneidade espacial” (Anselin).
Técnicas de Análise Exploratória
• Indicadores Globais de Autocorrelação– suposição: estacionariedade (função da
“distância”).– Ex: variograma, correlograma, etc.
• Indicadores Locais de Associação Espacial– Ressaltam as situações atípicas (“outliers” ). – Ex: Mapa de LISA, gráfico de espalhamento
de Moran.
• Indicadores multivariados da associação espacial– generalização do variograma em múltiplas
dimensões
Proximidade espacial
• Na geoestatística: distância euclidiana.
• Principal diferença para objetos áreas, é na formalização da proximidade espacial!– Qual distância de São José à Jacareí?
• 10 mim, 15 km ou “são colados” .• Depende!
• proporção da fronteira pelo perímetro.
Exemplos de medidas
4321
214
LLLL
Lw
- wij wji
- “média ponderada!”
• distância linear entre centróides dos obejtos.
Exemplos de medidas
1
0
14
14
w
w para d > limiar
para d limiar
• inverso da distância linear.
dw 114
• Existência de fronteira comum.
Exemplos de medidas
0
1
24
14
w
w P1 faz fronteira com P4
P2 não tem fronteira com P4
Matriz de Proximidade
44434241
34333231
24232221
14131211
wwww
wwww
wwww
wwww
W
wij : “distância” do objeto i ao objeto j.
Matriz de Proximidade Espacial
• Conteúdo– Matriz (n x n) W , cujos
elementos wij representa uma medida de proximidade entre Oi e Oj
• Critérios:-wij =1, se Oi toca Oj
wij = 1, se dist(Oi, Oj) < h
wij = lij/li, onde lij é o tamanho da
fronteira entre Oi e Oj e li é o
perímetro de Oi
AB
C
DE
A B C D E
A 0 1 0 1 0
B 1 0 1 1 1
C 0 1 0 0 1
D 1 1 0 0 1
E 0 1 1 1 0
Média Espacial Móvel
• O Método de Média Espacial Móvel é uma técnica que explora o valor médio i do atributo na região de estudo (primeira ordem).
• Seu estimador é definido como:
onde: Wij é a matriz de proximidade. yi é o valor do atributo em cada área. n é o número de polígonos (áreas).
nin
jij
n
jiij
i
W
yW
...,,2,1
1
1ˆ
nin
jij
n
jiij
i
W
yW
...,,2,1
1
1ˆ
Média Espacial Móvel
nin
jij
n
jiij
i
W
yW
...,,2,1
1
1ˆ
nin
jij
n
jiij
i
W
yW
...,,2,1
1
1ˆ
AA BB
CC DD552424
15152020
5
24
15
20
3
1
3
1
3
10
4
1
4
1
4
1
4
1
4
1
4
1
4
1
4
1
03
1
3
1
3
1
66,14
00,16
00,16
66,19
5
24
15
20
3
1
3
1
3
10
4
1
4
1
4
1
4
1
4
1
4
1
4
1
4
1
03
1
3
1
3
1
66,14
00,16
00,16
66,19 19,66 (5x0) (24x1/3) (15x1/3) (20x1/3)ˆ A 19,66 (5x0) (24x1/3) (15x1/3) (20x1/3)ˆ A
16,0 (5x1/4) (24x1/4) (15x1/4) (20x1/4)ˆ B 16,0 (5x1/4) (24x1/4) (15x1/4) (20x1/4)ˆ B
14,66 (5x1/3) (24x1/3) (15x1/3) (20x0)ˆ D 14,66 (5x1/3) (24x1/3) (15x1/3) (20x0)ˆ D
16,0 (5x1/4) (24x1/4) (15x1/4) (20x1/4)ˆ C 16,0 (5x1/4) (24x1/4) (15x1/4) (20x1/4)ˆ C
AntesAntesAA BB
CC DD14,6614,6616,016,0
16,016,019,6619,66
DepoisDepois
Média Espacial Móvel
Agrupamento estatísticoAgrupamento estatístico Média Espacial MóvelMédia Espacial Móvel
Efeito de Efeito de suavizaçãosuavização
Média Espacial Móvel
Regiões onde existe disparidade entre o valorRegiões onde existe disparidade entre o valordo atributo e o valor da média local indicamdo atributo e o valor da média local indicampontos de transição entre regimes espaciais. pontos de transição entre regimes espaciais.
Atributo
Média local
Indicadores Globais de Autocorrelação Espacial
• Explorar a dependência espacial• Autocorrelação espacial.
– Mede o quanto o valor observado de um atributo numa região é independente dos valores desta mesma variável nas localizações vizinhas.
• Indicadores Globais– Moran, Geary, Variograma
• Indicadores Locais– Local Moran, Local Geary
Variabilidade Espacial: Variograma
• Passo1: Transformar mapas poligonais em amostras
••
••
h
••
••
h
••••
h
••••
h
••
••h
••
••h
hhhh
Vetor distância Vetor distância hhVetor distância Vetor distância hh
Variabilidade Espacial: Variograma
• Passo2 : Medir a Variância no Espaço
• Para cada par Z(x) e Z(x+h), separados por um vetor distância h, medimos a variância entre eles
Variograma para Dados de Área
• Gerar Centróides a partir de Áreas • Modelar o Variograma • Interpolar uma Superfície (se
desejar)
.
• forma genérica:
Forma genérica dos Forma genérica dos índicesíndices
onde:
ijw : medida de proximidade entre objetos i e j
ija :expressão que representa a associaçãoentre os atributos do objeto i com os demais objetos de sua vizinhança.
n
jijiji aw w aij ij
j
n
i
n
local global
xxxx ji z zi j Moran (covariância)
2ji xx 2
ji zz Geary (variância)
jij xxoux z ou z zj i j G ou G* (média móvel)
n
jijiji aw w aij ij
j
n
i
n
Forma genérica dos índices
Quando aij é da forma:
Indice Global de MoranIndice Global de Moran
onde:
– n corresponde ao número de áreas,
– yi é o valor do atributo considerado na área i,
– representa o valor médio do atributo na região de estudo,
– wij são os pesos atribuídos conforme a conexão entre as áreas i e j.
n
ii
n
i
n
jjiij
n
i
n
jij yy
yyyyw
w
nI
1
1 1
1 1
2
n
ii
n
i
n
jjiij
n
i
n
jij yy
yyyyw
w
nI
1
1 1
1 1
2
yy
Indicadores Globais Moran
• Qual o significado do índice global de Moran ( I ) ?
• Como interpretar a equação acima ?• Qual sua siginificância ou validade
estatística ? Como avaliar ?
n
ii
n
i
n
jjiij
n
i
n
jij yy
yyyyw
w
nI
1
1 1
1 1
2
n
ii
n
i
n
jjiij
n
i
n
jij yy
yyyyw
w
nI
1
1 1
1 1
2
Índice Globais de Moran
• É análogo ao coeficiente de correlação convencional, porque têm em seu numerador um termo que é produto de momento.
• Como um coeficiente de correlação, os valores de I também variam de -1 a +1, quantificando o grau de autocorrelação espacial existente.
-1 autocorrelação espacial negativa ou inversa. 0 significa aleatoriedade+1 significa autocorrelação espacial positiva ou direta.
n
ii
n
i
n
jjiij
n
i
n
jij yy
yyyyw
w
nI
1
1 1
1 1
2
n
ii
n
i
n
jjiij
n
i
n
jij yy
yyyyw
w
nI
1
1 1
1 1
2
Indicadores Globais de Autocorrelação Espacial
• Consideremos o exemplo que segue:
5,50
4
165162416151620 22222
2
n
yyVariância
n
ii
1
5,504
165162416151620 22222
2
n
yyVariância
n
ii
1
164
5241520
yMédia 16
4
5241520
yMédia
1063,75,502 PadrãoDesvio 1063,75,502 PadrãoDesvio
AA BB
CC DD552424
15152020
A B C D
A 0 1 1 0
B 1 0 1 1
C 1 1 0 1
D 0 1 1 0
Matriz de ProximidadeMatriz de Proximidade
• A equação de I pode ser simplificada [N(=0 e =1)] e alteramos W, de forma que a soma dos elementos de cada linha seja igual a 1.
Indicadores Globais de Autocorrelação Espacial
n
ii
n
i
n
jjiij
n
i
n
jij yy
yyyyw
w
nI
1
1 1
1 1
2
n
ii
n
i
n
jjiij
n
i
n
jij yy
yyyyw
w
nI
1
1 1
1 1
2
n
ii
n
i
n
jjiij
z
zzw
I
1
1 1
2
n
ii
n
i
n
jjiij
z
zzw
I
1
1 1
2
yyz i
i
yyz i
i
A B C D
A 0 1 1 0
B 1 0 1 1
C 1 1 0 1
D 0 1 1 0
A B C D
A 0 1/2 1/2 0
B 1/3 0 1/3 1/3
C 1/3 1/3 0 1/3
D 0 1/2 1/2 0
Indicadores Globais de Autocorrelação Espacial
n
ii
n
i
n
jjiij
z
zzw
I
1
1 1
2
n
ii
n
i
n
jjiij
z
zzw
I
1
1 1
2
A B C D
A 0 1/2 1/2 0
B 1/3 0 1/3 1/3
C 1/3 1/3 0 1/3
D 0 1/2 1/2 0
AA BB
CC DD552424
15152020
yyz i
i
yyz i
i
zA = 0,5628
zC = 1,1257
zD = -1,5479
zB = -0,1407
1063,7
0,16
y
1063,7
0,16
y
08712,01088,000,0
5808,000527,02111,0
0725,00527,000264,0
03167,00396,00
3959,27424,12177,08711,0
7424,12672,11583,06335,0
2177,01583,00197,00792,0
8711,06335,00792,03167,0
*
02
1
2
10
3
10
3
1
3
13
1
3
10
3
1
02
1
2
10
08712,01088,000,0
5808,000527,02111,0
0725,00527,000264,0
03167,00396,00
3959,27424,12177,08711,0
7424,12672,11583,06335,0
2177,01583,00197,00792,0
8711,06335,00792,03167,0
*
02
1
2
10
3
10
3
1
3
13
1
3
10
3
1
02
1
2
10
9143,01 11 1
n
i
n
jij
n
i
n
jjiij Mzzw 9143,0
1 11 1
n
i
n
jij
n
i
n
jjiij Mzzw 4
1
2
n
iiz 4
1
2
n
iiz 288,0
4
9143,0
I 288,0
4
9143,0
I
wwijij zzi i zzjj MMijij** ==
Avaliação da siginificância do índice de Moran (I).
Para estimar a significância de I, será preciso associar a este uma distribuição estatística, para tanto, duas abordagens são possíveis:
• Teste de pseudo-significância (experimento aleatório).
• Distribuição aproximada (hipótese da normalidade).
Significância do Índice de Moran
• A validade estatística do índice de Moran (I) sob o teste de pseudo-significância.
• Se o índice I efetivamente medido corresponder a um “extremo” da distribuição simulada, então trata-se de evento com significância estatística.
Indicadores Globais de Autocorrelação Espacial
Distribuiçãosimulada
extr
emo
extr
emo
• Para um número suficiente de sub-regiões o índice I tem uma distribuição amostral que é aproximadamente normal, dada por:
onde: n = número de regiões,
I de Moran: Validade Estatística
)1(
1)(
nIE
)1(
1)(
nIE
22
221
22
)1)(1(
2)1()1(
o
o
Snn
SSnnSnn
22
221
22
)1)(1(
2)1()1(
o
o
Snn
SSnnSnn
jiparawS ijo jiparawS ijo jiparawwS ijij 2
1 jiparawwS ijij 21
jiparawwS ijij 2
2 jiparawwS ijij 2
200
Normal PadrãoNormal Padrão
1,961,96-1,96-1,96
95%
)(IEI
IN
)(IEI
IN
Índice Moran NormalizadoÍndice Moran Normalizado
Km.
0 100 200
S
São Paulo
Minas Gerais
EspíritoSanto
Rio de JaneiroN
LO
LEGENDA
classes (n de municípios)
0,95 a 1,906 (28)
1,906 a 2,862 (209)
2,862 a 3,818 (460)
3,818 a 4,774 (223)
4,774 a 5,73 (64)
0 óbitos (448)
Capitais
Mapeando a Violência: Dados de Área
Fonte: Carvalho, M. S., 1998.Fonte: Carvalho, M. S., 1998.FIOCRUZ - RJFIOCRUZ - RJ
-0.2-0.2
0.00.0
0.20.2
0.40.4
0.60.6
ES
00 100100 200200 300300 400400 500500 600600
MG
RJ
-0.2-0.2
0.00.0
0.20.2
0.40.4
0.60.6
SP
00 100100 200200 300300 400400 500500 600600
distância
auto
-cor
rela
ção
Indicadores Globais de Autocorrelação Espacial
Fonte: Carvalho, M. S., 1998.Fonte: Carvalho, M. S., 1998.FIOCRUZ - RJFIOCRUZ - RJ
Diagrama de Espalhamento de Moran
Este diagrama relata espacialmente o relacionamento entre os valores do vetor de desvios Z ( ) e os valores das médias locais WZ, indicando diferentes regimes espaciais presentes nos dados.
zzi zzi
I é equivalente a tg 00
00 zz
WZWZ
Reta de regressão de WZ em Z
QQ33QQ33QQ22QQ22
QQ11QQ11QQ44QQ44
ZZ
WZZI
t
t
ZZ
WZZI
t
t
Nesta formulação, Nesta formulação, II equivale ao equivale aocoeficiente de regressão linear, oucoeficiente de regressão linear, ou
seja a inclinação da reta de regressão.seja a inclinação da reta de regressão.
Diagrama de Espalhamento de Moran
00
00 zz
WZWZ
QQ33QQ33QQ22QQ22
QQ11QQ11QQ44QQ44
QQ11 (val. [+], médias [+]) e Q (val. [+], médias [+]) e Q22 (val. [-], médias (val. [-], médias [-])[-])
Indicam pontos de associação espacial Indicam pontos de associação espacial positiva, no sentido que uma localização positiva, no sentido que uma localização possui vizinhos com valores semelhantes.possui vizinhos com valores semelhantes.
QQ33 (val. [+], médias [-]) e Q (val. [+], médias [-]) e Q44 (val. [-], médias (val. [-], médias [+])[+])
Indicam pontos de associação espacial Indicam pontos de associação espacial negativa, no sentido que uma localização negativa, no sentido que uma localização possui vizinhos com valores distintos.possui vizinhos com valores distintos.Nota:-Nota:- os pontos localizados em Q os pontos localizados em Q33 e Q e Q44 podem ser podem ser vistos como extremos, tanto por estar afastados da vistos como extremos, tanto por estar afastados da reta de regres- são linear, como por indicar regiões reta de regres- são linear, como por indicar regiões que não seguem o mes-mo processo de dependência que não seguem o mes-mo processo de dependência espacial das demais observa-espacial das demais observa-ções. Estes pontos marcam regiões de transição ções. Estes pontos marcam regiões de transição entre regi- mes espaciais distintos.entre regi- mes espaciais distintos.
Autocorrelação Espacial
O Diagrama de Espalhamento de Moran pode ser apresentado na forma de um mapa coroplético bidimensional, no qual cada polígono é apresentado indicando-se seu quadrante no diagrama de espalhamento.
00
00 zz
WZWZ
QQ3 = 3 = HLHLQQ3 = 3 = HLHLQQ2= 2= LLLLQQ2= 2= LLLL
QQ1= 1= HHHHQQ1= 1= HHHHQQ4 = 4 = LHLHQQ4 = 4 = LHLH
São Paulo
Atributo consideradopercentagem de idosos
Indicadores Locais de Associação Espacial (LISA)
• Como vimos anteriormente o estimador de autocorrelação espacial, Moran (I), fornece um valor único como medida da associação espacial.
• Por outro lado, muitas vezes é necessário examinar padrões numa escala maior.
• Neste caso, é preciso utilizar indicadores locais de associação espacial que possam ser associados a diferentes localizações de uma variável distribuída espacialmente.
• A utilização destes indicadores em conjunto com os indicadores globais, refinam nosso conhecimento sobre o processos que dão origem a dependência espacial.
• Índices locais (LISA):– Permitem avaliar diferentes regimes
espaciais existentes na área de estudo.– Medem a associação espacial entre uma
observação i e sua vizinhança.– Requisitos (Anselin)
• A soma dos índices locais deve ser proporcional ao índice global.
• Indicar a significância da associação espacial para cada observação.
Introdução
Indicadores Locais de Associação Espacial (LISA)
• Os indicadores locais de associação espacial, produzem um valor específico para cada objeto.
• Isto acarreta a identificação de:– “Clusters”: objetos com valores de atributos
semelhantes,– “Outliers”: objetos anómalos,– A presença de mais de um regime espacial.
• Tem que atender a dois objetivos:
– Permitir a identificação de padrões de associação
espacial significativos;
– Ser uma decomposição do índice global de
associação espacial.
Índice local de Moran
I Iii
n
• Formulação:
I
w z z
z
n
i
ij i jj
n
jj
n
1
2
1
Iz wz
mii i
2
II
n
ii
n
• Indicadores locais Ii de Moran (Anselin, 1996)
• Indicadores locais Gi e Gi * (Getis e Ord, 1992)
• O indicador local de Moran Ii é assim definido: Ii > 0 “clusters” de valores similares (altos ou
baixos).
Ii < 0 “clusters” de valores distintos (Ex: uma localização
com valores altos rodeada por uma vizinhança de
valores baixos).
• Normalizando as variáveis o indicador reduz-se a:
Indicadores Locais de Associação Espacial (LISA)
n
yy
yywyy
I n
ii
n
jjiji
i
1
1
2
n
yy
yywyy
I n
ii
n
jjiji
i
1
1
2
n
jjijii zwzI
1
n
jjijii zwzI
1
Indicadores Locais de Associação Espacial (LISA)
• De forma similiar aos indicadores globais, a significância do índice local de Moran (Ii) deve ser avaliado, utilizando hipótese de normalidade ou simulação de distribuição por permutação aleatória nos valores dos atributos (Anselin, 1995).
• Uma vez determinada a significância estatística de Moran (Ii) é muito útil gerar um mapa indicando as regiões que apresentam correlação local significativamente diferente do resto dos dados.
• Este mapa é denominado por Anselin (1995) de “LISA MAP”.
• Na geração do LISA MAP, os índices locais Ii são classificados como:
– não significantes
– com significância de 95% (1,96), 99% (2,54) e 99,9% (3,2).
• Os indicadores locais Gi e Gi * (Getis e Ord, 1992):
onde:
– wij valor na matriz de proximidade para região i com a região j em função da distância.
– xi e xj são os valores dos atributos considerados nas áreas i e j.
– d é distância entre pontos
– n o número de áreas (polígonos)
• NOTA: a estatística Gi, inclui no numerador a soma de todos os valores de todos vizinhos dentro de uma distância d do ponto considerado. Gi
* difere de Gi por incluir a localização visitada.
Indicadores Locais de Associação Espacial (LISA)
ij
x
xdw
dG n
ij
n
jiij
i
,)(
1
1
ij
x
xdw
dG n
ij
n
jiij
i
,)(
1
1
ij
x
xdw
dG n
ij
n
jiij
i
,)(*
1
1
ij
x
xdw
dG n
ij
n
jiij
i
,)(*
1
1
• Os indicadores locais Gi e Gi * (Getis e Ord,
1992):
• onde:
– wij valor na matriz de proximidade para região i com a região j em função da distância.
– xi e xj são os valores dos atributos considerados nas áreas i e j.
– d é distância entre pontos
– n o número de áreas (polígonos)
Indicadores Locais de Associação Espacial (LISA)
ij
x
xdw
dG n
ij
n
jiij
i
,)(
1
1
ij
x
xdw
dG n
ij
n
jiij
i
,)(
1
1
ij
x
xdw
dG n
ij
n
jiij
i
,)(*
1
1
ij
x
xdw
dG n
ij
n
jiij
i
,)(*
1
1
Indicadores Locais de Autocorrelação Espacial
• “Bolsões” de exclusão/inclusão social em São Paulo
não signif.
95% sign.
99% sign.
Indicadores Locais de Associação Espacial (LISA)
• Uma outra forma de análise é através do mapa denominado “Moran Map” (Anselin, 1999). Neste caso, os índices locais Ii são associados ao diagra-ma de espalhamento de Moran.
não não significantessignificantesQ1 [HH]Q1 [HH]
Q2 [LL]Q2 [LL]
% I d o s o s% I d o s o s
Nota:Nota: este resultado apresenta somente este resultado apresenta somente as regiões para os quais os valores de as regiões para os quais os valores de Ii ,foram considerados significantes ,foram considerados significantes (com (com intervalo >95%).intervalo >95%).