46
Análise de Dados de Área Análise de Dados de Área Parte 3 - Análise Exploratória

Análise de Dados de Área Parte 3 - Análise Exploratória

Embed Size (px)

Citation preview

Page 1: Análise de Dados de Área Parte 3 - Análise Exploratória

Análise de Dados de ÁreaAnálise de Dados de Área

Parte 3 - Análise Exploratória

Page 2: Análise de Dados de Área Parte 3 - Análise Exploratória

Análise Exploratória

• Definição– Conjunto de ferramentas estatísticas gráficas e

descritivas direcionado ao descobrimento de padrões em dados.

• ESDA (Exploratory Spatial Data Analysis). “Coleção de técnicas para descrever e visualizar

distribuições espaciais, identificar situações atípicas, descobrir padrões de associação espacial, clusters e sugerir regimes espaciais ou formas de heterogeneidade espacial” (Anselin).

Page 3: Análise de Dados de Área Parte 3 - Análise Exploratória

Técnicas de Análise Exploratória

• Indicadores Globais de Autocorrelação– suposição: estacionariedade (função da

“distância”).– Ex: variograma, correlograma, etc.

• Indicadores Locais de Associação Espacial– Ressaltam as situações atípicas (“outliers” ). – Ex: Mapa de LISA, gráfico de espalhamento

de Moran.

• Indicadores multivariados da associação espacial– generalização do variograma em múltiplas

dimensões

Page 4: Análise de Dados de Área Parte 3 - Análise Exploratória

Proximidade espacial

• Na geoestatística: distância euclidiana.

• Principal diferença para objetos áreas, é na formalização da proximidade espacial!– Qual distância de São José à Jacareí?

• 10 mim, 15 km ou “são colados” .• Depende!

Page 5: Análise de Dados de Área Parte 3 - Análise Exploratória

• proporção da fronteira pelo perímetro.

Exemplos de medidas

4321

214

LLLL

Lw

- wij wji

- “média ponderada!”

Page 6: Análise de Dados de Área Parte 3 - Análise Exploratória

• distância linear entre centróides dos obejtos.

Exemplos de medidas

1

0

14

14

w

w para d > limiar

para d limiar

• inverso da distância linear.

dw 114

Page 7: Análise de Dados de Área Parte 3 - Análise Exploratória

• Existência de fronteira comum.

Exemplos de medidas

0

1

24

14

w

w P1 faz fronteira com P4

P2 não tem fronteira com P4

Page 8: Análise de Dados de Área Parte 3 - Análise Exploratória

Matriz de Proximidade

44434241

34333231

24232221

14131211

wwww

wwww

wwww

wwww

W

wij : “distância” do objeto i ao objeto j.

Page 9: Análise de Dados de Área Parte 3 - Análise Exploratória

Matriz de Proximidade Espacial

• Conteúdo– Matriz (n x n) W , cujos

elementos wij representa uma medida de proximidade entre Oi e Oj

• Critérios:-wij =1, se Oi toca Oj

wij = 1, se dist(Oi, Oj) < h

wij = lij/li, onde lij é o tamanho da

fronteira entre Oi e Oj e li é o

perímetro de Oi

AB

C

DE

A B C D E

A 0 1 0 1 0

B 1 0 1 1 1

C 0 1 0 0 1

D 1 1 0 0 1

E 0 1 1 1 0

Page 10: Análise de Dados de Área Parte 3 - Análise Exploratória

Média Espacial Móvel

• O Método de Média Espacial Móvel é uma técnica que explora o valor médio i do atributo na região de estudo (primeira ordem).

• Seu estimador é definido como:

onde: Wij é a matriz de proximidade. yi é o valor do atributo em cada área. n é o número de polígonos (áreas).

nin

jij

n

jiij

i

W

yW

...,,2,1

1

nin

jij

n

jiij

i

W

yW

...,,2,1

1

Page 11: Análise de Dados de Área Parte 3 - Análise Exploratória

Média Espacial Móvel

nin

jij

n

jiij

i

W

yW

...,,2,1

1

nin

jij

n

jiij

i

W

yW

...,,2,1

1

AA BB

CC DD552424

15152020

5

24

15

20

3

1

3

1

3

10

4

1

4

1

4

1

4

1

4

1

4

1

4

1

4

1

03

1

3

1

3

1

66,14

00,16

00,16

66,19

5

24

15

20

3

1

3

1

3

10

4

1

4

1

4

1

4

1

4

1

4

1

4

1

4

1

03

1

3

1

3

1

66,14

00,16

00,16

66,19 19,66 (5x0) (24x1/3) (15x1/3) (20x1/3)ˆ A 19,66 (5x0) (24x1/3) (15x1/3) (20x1/3)ˆ A

16,0 (5x1/4) (24x1/4) (15x1/4) (20x1/4)ˆ B 16,0 (5x1/4) (24x1/4) (15x1/4) (20x1/4)ˆ B

14,66 (5x1/3) (24x1/3) (15x1/3) (20x0)ˆ D 14,66 (5x1/3) (24x1/3) (15x1/3) (20x0)ˆ D

16,0 (5x1/4) (24x1/4) (15x1/4) (20x1/4)ˆ C 16,0 (5x1/4) (24x1/4) (15x1/4) (20x1/4)ˆ C

AntesAntesAA BB

CC DD14,6614,6616,016,0

16,016,019,6619,66

DepoisDepois

Page 12: Análise de Dados de Área Parte 3 - Análise Exploratória

Média Espacial Móvel

Agrupamento estatísticoAgrupamento estatístico Média Espacial MóvelMédia Espacial Móvel

Efeito de Efeito de suavizaçãosuavização

Page 13: Análise de Dados de Área Parte 3 - Análise Exploratória

Média Espacial Móvel

Regiões onde existe disparidade entre o valorRegiões onde existe disparidade entre o valordo atributo e o valor da média local indicamdo atributo e o valor da média local indicampontos de transição entre regimes espaciais. pontos de transição entre regimes espaciais.

Atributo

Média local

Page 14: Análise de Dados de Área Parte 3 - Análise Exploratória

Indicadores Globais de Autocorrelação Espacial

• Explorar a dependência espacial• Autocorrelação espacial.

– Mede o quanto o valor observado de um atributo numa região é independente dos valores desta mesma variável nas localizações vizinhas.

• Indicadores Globais– Moran, Geary, Variograma

• Indicadores Locais– Local Moran, Local Geary

Page 15: Análise de Dados de Área Parte 3 - Análise Exploratória

Variabilidade Espacial: Variograma

• Passo1: Transformar mapas poligonais em amostras

Page 16: Análise de Dados de Área Parte 3 - Análise Exploratória

••

••

h

••

••

h

••••

h

••••

h

••

••h

••

••h

hhhh

Vetor distância Vetor distância hhVetor distância Vetor distância hh

Variabilidade Espacial: Variograma

• Passo2 : Medir a Variância no Espaço

• Para cada par Z(x) e Z(x+h), separados por um vetor distância h, medimos a variância entre eles

Page 17: Análise de Dados de Área Parte 3 - Análise Exploratória

Variograma para Dados de Área

• Gerar Centróides a partir de Áreas • Modelar o Variograma • Interpolar uma Superfície (se

desejar)

Page 18: Análise de Dados de Área Parte 3 - Análise Exploratória
Page 19: Análise de Dados de Área Parte 3 - Análise Exploratória
Page 20: Análise de Dados de Área Parte 3 - Análise Exploratória

.

Page 21: Análise de Dados de Área Parte 3 - Análise Exploratória

• forma genérica:

Forma genérica dos Forma genérica dos índicesíndices

onde:

ijw : medida de proximidade entre objetos i e j

ija :expressão que representa a associaçãoentre os atributos do objeto i com os demais objetos de sua vizinhança.

n

jijiji aw w aij ij

j

n

i

n

local global

Page 22: Análise de Dados de Área Parte 3 - Análise Exploratória

xxxx ji z zi j Moran (covariância)

2ji xx 2

ji zz Geary (variância)

jij xxoux z ou z zj i j G ou G* (média móvel)

n

jijiji aw w aij ij

j

n

i

n

Forma genérica dos índices

Quando aij é da forma:

Page 23: Análise de Dados de Área Parte 3 - Análise Exploratória

Indice Global de MoranIndice Global de Moran

onde:

– n corresponde ao número de áreas,

– yi é o valor do atributo considerado na área i,

– representa o valor médio do atributo na região de estudo,

– wij são os pesos atribuídos conforme a conexão entre as áreas i e j.

n

ii

n

i

n

jjiij

n

i

n

jij yy

yyyyw

w

nI

1

1 1

1 1

2

n

ii

n

i

n

jjiij

n

i

n

jij yy

yyyyw

w

nI

1

1 1

1 1

2

yy

Page 24: Análise de Dados de Área Parte 3 - Análise Exploratória

Indicadores Globais Moran

• Qual o significado do índice global de Moran ( I ) ?

• Como interpretar a equação acima ?• Qual sua siginificância ou validade

estatística ? Como avaliar ?

n

ii

n

i

n

jjiij

n

i

n

jij yy

yyyyw

w

nI

1

1 1

1 1

2

n

ii

n

i

n

jjiij

n

i

n

jij yy

yyyyw

w

nI

1

1 1

1 1

2

Page 25: Análise de Dados de Área Parte 3 - Análise Exploratória

Índice Globais de Moran

• É análogo ao coeficiente de correlação convencional, porque têm em seu numerador um termo que é produto de momento.

• Como um coeficiente de correlação, os valores de I também variam de -1 a +1, quantificando o grau de autocorrelação espacial existente.

-1 autocorrelação espacial negativa ou inversa. 0 significa aleatoriedade+1 significa autocorrelação espacial positiva ou direta.

n

ii

n

i

n

jjiij

n

i

n

jij yy

yyyyw

w

nI

1

1 1

1 1

2

n

ii

n

i

n

jjiij

n

i

n

jij yy

yyyyw

w

nI

1

1 1

1 1

2

Page 26: Análise de Dados de Área Parte 3 - Análise Exploratória

Indicadores Globais de Autocorrelação Espacial

• Consideremos o exemplo que segue:

5,50

4

165162416151620 22222

2

n

yyVariância

n

ii

1

5,504

165162416151620 22222

2

n

yyVariância

n

ii

1

164

5241520

yMédia 16

4

5241520

yMédia

1063,75,502 PadrãoDesvio 1063,75,502 PadrãoDesvio

AA BB

CC DD552424

15152020

A B C D

A 0 1 1 0

B 1 0 1 1

C 1 1 0 1

D 0 1 1 0

Matriz de ProximidadeMatriz de Proximidade

Page 27: Análise de Dados de Área Parte 3 - Análise Exploratória

• A equação de I pode ser simplificada [N(=0 e =1)] e alteramos W, de forma que a soma dos elementos de cada linha seja igual a 1.

Indicadores Globais de Autocorrelação Espacial

n

ii

n

i

n

jjiij

n

i

n

jij yy

yyyyw

w

nI

1

1 1

1 1

2

n

ii

n

i

n

jjiij

n

i

n

jij yy

yyyyw

w

nI

1

1 1

1 1

2

n

ii

n

i

n

jjiij

z

zzw

I

1

1 1

2

n

ii

n

i

n

jjiij

z

zzw

I

1

1 1

2

yyz i

i

yyz i

i

A B C D

A 0 1 1 0

B 1 0 1 1

C 1 1 0 1

D 0 1 1 0

A B C D

A 0 1/2 1/2 0

B 1/3 0 1/3 1/3

C 1/3 1/3 0 1/3

D 0 1/2 1/2 0

Page 28: Análise de Dados de Área Parte 3 - Análise Exploratória

Indicadores Globais de Autocorrelação Espacial

n

ii

n

i

n

jjiij

z

zzw

I

1

1 1

2

n

ii

n

i

n

jjiij

z

zzw

I

1

1 1

2

A B C D

A 0 1/2 1/2 0

B 1/3 0 1/3 1/3

C 1/3 1/3 0 1/3

D 0 1/2 1/2 0

AA BB

CC DD552424

15152020

yyz i

i

yyz i

i

zA = 0,5628

zC = 1,1257

zD = -1,5479

zB = -0,1407

1063,7

0,16

y

1063,7

0,16

y

08712,01088,000,0

5808,000527,02111,0

0725,00527,000264,0

03167,00396,00

3959,27424,12177,08711,0

7424,12672,11583,06335,0

2177,01583,00197,00792,0

8711,06335,00792,03167,0

*

02

1

2

10

3

10

3

1

3

13

1

3

10

3

1

02

1

2

10

08712,01088,000,0

5808,000527,02111,0

0725,00527,000264,0

03167,00396,00

3959,27424,12177,08711,0

7424,12672,11583,06335,0

2177,01583,00197,00792,0

8711,06335,00792,03167,0

*

02

1

2

10

3

10

3

1

3

13

1

3

10

3

1

02

1

2

10

9143,01 11 1

n

i

n

jij

n

i

n

jjiij Mzzw 9143,0

1 11 1

n

i

n

jij

n

i

n

jjiij Mzzw 4

1

2

n

iiz 4

1

2

n

iiz 288,0

4

9143,0

I 288,0

4

9143,0

I

wwijij zzi i zzjj MMijij** ==

Page 29: Análise de Dados de Área Parte 3 - Análise Exploratória

Avaliação da siginificância do índice de Moran (I).

Para estimar a significância de I, será preciso associar a este uma distribuição estatística, para tanto, duas abordagens são possíveis:

• Teste de pseudo-significância (experimento aleatório).

• Distribuição aproximada (hipótese da normalidade).

Significância do Índice de Moran

Page 30: Análise de Dados de Área Parte 3 - Análise Exploratória

• A validade estatística do índice de Moran (I) sob o teste de pseudo-significância.

• Se o índice I efetivamente medido corresponder a um “extremo” da distribuição simulada, então trata-se de evento com significância estatística.

Indicadores Globais de Autocorrelação Espacial

Distribuiçãosimulada

extr

emo

extr

emo

Page 31: Análise de Dados de Área Parte 3 - Análise Exploratória

• Para um número suficiente de sub-regiões o índice I tem uma distribuição amostral que é aproximadamente normal, dada por:

onde: n = número de regiões,

I de Moran: Validade Estatística

)1(

1)(

nIE

)1(

1)(

nIE

22

221

22

)1)(1(

2)1()1(

o

o

Snn

SSnnSnn

22

221

22

)1)(1(

2)1()1(

o

o

Snn

SSnnSnn

jiparawS ijo jiparawS ijo jiparawwS ijij 2

1 jiparawwS ijij 21

jiparawwS ijij 2

2 jiparawwS ijij 2

200

Normal PadrãoNormal Padrão

1,961,96-1,96-1,96

95%

)(IEI

IN

)(IEI

IN

Índice Moran NormalizadoÍndice Moran Normalizado

Page 32: Análise de Dados de Área Parte 3 - Análise Exploratória

Km.

0 100 200

S

São Paulo

Minas Gerais

EspíritoSanto

Rio de JaneiroN

LO

LEGENDA

classes (n de municípios)

0,95 a 1,906 (28)

1,906 a 2,862 (209)

2,862 a 3,818 (460)

3,818 a 4,774 (223)

4,774 a 5,73 (64)

0 óbitos (448)

Capitais

Mapeando a Violência: Dados de Área

Fonte: Carvalho, M. S., 1998.Fonte: Carvalho, M. S., 1998.FIOCRUZ - RJFIOCRUZ - RJ

Page 33: Análise de Dados de Área Parte 3 - Análise Exploratória

-0.2-0.2

0.00.0

0.20.2

0.40.4

0.60.6

ES

00 100100 200200 300300 400400 500500 600600

MG

RJ

-0.2-0.2

0.00.0

0.20.2

0.40.4

0.60.6

SP

00 100100 200200 300300 400400 500500 600600

distância

auto

-cor

rela

ção

Indicadores Globais de Autocorrelação Espacial

Fonte: Carvalho, M. S., 1998.Fonte: Carvalho, M. S., 1998.FIOCRUZ - RJFIOCRUZ - RJ

Page 34: Análise de Dados de Área Parte 3 - Análise Exploratória

Diagrama de Espalhamento de Moran

Este diagrama relata espacialmente o relacionamento entre os valores do vetor de desvios Z ( ) e os valores das médias locais WZ, indicando diferentes regimes espaciais presentes nos dados.

zzi zzi

I é equivalente a tg 00

00 zz

WZWZ

Reta de regressão de WZ em Z

QQ33QQ33QQ22QQ22

QQ11QQ11QQ44QQ44

ZZ

WZZI

t

t

ZZ

WZZI

t

t

Nesta formulação, Nesta formulação, II equivale ao equivale aocoeficiente de regressão linear, oucoeficiente de regressão linear, ou

seja a inclinação da reta de regressão.seja a inclinação da reta de regressão.

Page 35: Análise de Dados de Área Parte 3 - Análise Exploratória

Diagrama de Espalhamento de Moran

00

00 zz

WZWZ

QQ33QQ33QQ22QQ22

QQ11QQ11QQ44QQ44

QQ11 (val. [+], médias [+]) e Q (val. [+], médias [+]) e Q22 (val. [-], médias (val. [-], médias [-])[-])

Indicam pontos de associação espacial Indicam pontos de associação espacial positiva, no sentido que uma localização positiva, no sentido que uma localização possui vizinhos com valores semelhantes.possui vizinhos com valores semelhantes.

QQ33 (val. [+], médias [-]) e Q (val. [+], médias [-]) e Q44 (val. [-], médias (val. [-], médias [+])[+])

Indicam pontos de associação espacial Indicam pontos de associação espacial negativa, no sentido que uma localização negativa, no sentido que uma localização possui vizinhos com valores distintos.possui vizinhos com valores distintos.Nota:-Nota:- os pontos localizados em Q os pontos localizados em Q33 e Q e Q44 podem ser podem ser vistos como extremos, tanto por estar afastados da vistos como extremos, tanto por estar afastados da reta de regres- são linear, como por indicar regiões reta de regres- são linear, como por indicar regiões que não seguem o mes-mo processo de dependência que não seguem o mes-mo processo de dependência espacial das demais observa-espacial das demais observa-ções. Estes pontos marcam regiões de transição ções. Estes pontos marcam regiões de transição entre regi- mes espaciais distintos.entre regi- mes espaciais distintos.

Page 36: Análise de Dados de Área Parte 3 - Análise Exploratória

Autocorrelação Espacial

O Diagrama de Espalhamento de Moran pode ser apresentado na forma de um mapa coroplético bidimensional, no qual cada polígono é apresentado indicando-se seu quadrante no diagrama de espalhamento.

00

00 zz

WZWZ

QQ3 = 3 = HLHLQQ3 = 3 = HLHLQQ2= 2= LLLLQQ2= 2= LLLL

QQ1= 1= HHHHQQ1= 1= HHHHQQ4 = 4 = LHLHQQ4 = 4 = LHLH

São Paulo

Atributo consideradopercentagem de idosos

Page 37: Análise de Dados de Área Parte 3 - Análise Exploratória

Indicadores Locais de Associação Espacial (LISA)

• Como vimos anteriormente o estimador de autocorrelação espacial, Moran (I), fornece um valor único como medida da associação espacial.

• Por outro lado, muitas vezes é necessário examinar padrões numa escala maior.

• Neste caso, é preciso utilizar indicadores locais de associação espacial que possam ser associados a diferentes localizações de uma variável distribuída espacialmente.

• A utilização destes indicadores em conjunto com os indicadores globais, refinam nosso conhecimento sobre o processos que dão origem a dependência espacial.

Page 38: Análise de Dados de Área Parte 3 - Análise Exploratória

• Índices locais (LISA):– Permitem avaliar diferentes regimes

espaciais existentes na área de estudo.– Medem a associação espacial entre uma

observação i e sua vizinhança.– Requisitos (Anselin)

• A soma dos índices locais deve ser proporcional ao índice global.

• Indicar a significância da associação espacial para cada observação.

Introdução

Page 39: Análise de Dados de Área Parte 3 - Análise Exploratória

Indicadores Locais de Associação Espacial (LISA)

• Os indicadores locais de associação espacial, produzem um valor específico para cada objeto.

• Isto acarreta a identificação de:– “Clusters”: objetos com valores de atributos

semelhantes,– “Outliers”: objetos anómalos,– A presença de mais de um regime espacial.

• Tem que atender a dois objetivos:

– Permitir a identificação de padrões de associação

espacial significativos;

– Ser uma decomposição do índice global de

associação espacial.

Page 40: Análise de Dados de Área Parte 3 - Análise Exploratória

Índice local de Moran

I Iii

n

• Formulação:

I

w z z

z

n

i

ij i jj

n

jj

n

1

2

1

Iz wz

mii i

2

II

n

ii

n

Page 41: Análise de Dados de Área Parte 3 - Análise Exploratória

• Indicadores locais Ii de Moran (Anselin, 1996)

• Indicadores locais Gi e Gi * (Getis e Ord, 1992)

• O indicador local de Moran Ii é assim definido: Ii > 0 “clusters” de valores similares (altos ou

baixos).

Ii < 0 “clusters” de valores distintos (Ex: uma localização

com valores altos rodeada por uma vizinhança de

valores baixos).

• Normalizando as variáveis o indicador reduz-se a:

Indicadores Locais de Associação Espacial (LISA)

n

yy

yywyy

I n

ii

n

jjiji

i

1

1

2

n

yy

yywyy

I n

ii

n

jjiji

i

1

1

2

n

jjijii zwzI

1

n

jjijii zwzI

1

Page 42: Análise de Dados de Área Parte 3 - Análise Exploratória

Indicadores Locais de Associação Espacial (LISA)

• De forma similiar aos indicadores globais, a significância do índice local de Moran (Ii) deve ser avaliado, utilizando hipótese de normalidade ou simulação de distribuição por permutação aleatória nos valores dos atributos (Anselin, 1995).

• Uma vez determinada a significância estatística de Moran (Ii) é muito útil gerar um mapa indicando as regiões que apresentam correlação local significativamente diferente do resto dos dados.

• Este mapa é denominado por Anselin (1995) de “LISA MAP”.

• Na geração do LISA MAP, os índices locais Ii são classificados como:

– não significantes

– com significância de 95% (1,96), 99% (2,54) e 99,9% (3,2).

Page 43: Análise de Dados de Área Parte 3 - Análise Exploratória

• Os indicadores locais Gi e Gi * (Getis e Ord, 1992):

onde:

– wij valor na matriz de proximidade para região i com a região j em função da distância.

– xi e xj são os valores dos atributos considerados nas áreas i e j.

– d é distância entre pontos

– n o número de áreas (polígonos)

• NOTA: a estatística Gi, inclui no numerador a soma de todos os valores de todos vizinhos dentro de uma distância d do ponto considerado. Gi

* difere de Gi por incluir a localização visitada.

Indicadores Locais de Associação Espacial (LISA)

ij

x

xdw

dG n

ij

n

jiij

i

,)(

1

1

ij

x

xdw

dG n

ij

n

jiij

i

,)(

1

1

ij

x

xdw

dG n

ij

n

jiij

i

,)(*

1

1

ij

x

xdw

dG n

ij

n

jiij

i

,)(*

1

1

Page 44: Análise de Dados de Área Parte 3 - Análise Exploratória

• Os indicadores locais Gi e Gi * (Getis e Ord,

1992):

• onde:

– wij valor na matriz de proximidade para região i com a região j em função da distância.

– xi e xj são os valores dos atributos considerados nas áreas i e j.

– d é distância entre pontos

– n o número de áreas (polígonos)

Indicadores Locais de Associação Espacial (LISA)

ij

x

xdw

dG n

ij

n

jiij

i

,)(

1

1

ij

x

xdw

dG n

ij

n

jiij

i

,)(

1

1

ij

x

xdw

dG n

ij

n

jiij

i

,)(*

1

1

ij

x

xdw

dG n

ij

n

jiij

i

,)(*

1

1

Page 45: Análise de Dados de Área Parte 3 - Análise Exploratória

Indicadores Locais de Autocorrelação Espacial

• “Bolsões” de exclusão/inclusão social em São Paulo

não signif.

95% sign.

99% sign.

Page 46: Análise de Dados de Área Parte 3 - Análise Exploratória

Indicadores Locais de Associação Espacial (LISA)

• Uma outra forma de análise é através do mapa denominado “Moran Map” (Anselin, 1999). Neste caso, os índices locais Ii são associados ao diagra-ma de espalhamento de Moran.

não não significantessignificantesQ1 [HH]Q1 [HH]

Q2 [LL]Q2 [LL]

% I d o s o s% I d o s o s

Nota:Nota: este resultado apresenta somente este resultado apresenta somente as regiões para os quais os valores de as regiões para os quais os valores de Ii ,foram considerados significantes ,foram considerados significantes (com (com intervalo >95%).intervalo >95%).