Upload
others
View
6
Download
0
Embed Size (px)
Citation preview
Capítulo 5 - Medindo e TestandoDistâncias Multivariadas
Livro Métodos Estatísticos Multivariados(MANLY, 2008)
Hiron Pereira FariasTalita Tanaka FernandesAdriele Giaretta Biase
Piracicaba - SP22 de Janeiro de 2016
26 de Janeiro de 2016(ESALQ/USP)
Distâncias multivariadas
Motivação:
1 Muitas técnicas de análise de dados multivariados empregamconceito de distância.
2 Quão longe os grupos de cães , lobos, chacais, cuons e dingosda Tabela 1.4 estão um dos outros, considerando todas asmedidas de mandíbula?
3 Com os dados da Tabela 1.3, em que se têm variáveis ambien-tais e genéticas, para 16 colônias de uma espécie de borbole-tas, dois conjuntos de distâncias podem então ser calculadosentre as colônias. [O teste de Mantel (Seção 5.6) responderáa isso!]
Uso: Análise de Agrupamento
(ESALQ/USP)
Distâncias entre observações individuais
Considere n objetos nos quais são medidas p variáveisX1, X2, · · · , Xp.Os valores para os i-ésimo objeto são xi1, xi2, · · · , xip e para o j-ésimo objeto são xj1, xj2, · · · ,xjp.Problema: medir a distância entre esses dois objetos.
(ESALQ/USP)
Figura 1 : A distância Euclidiana entre objetos i e j com p = 2variáveis
(ESALQ/USP)
O teorema de Pitágoras diz então que o comprimento dij do seg-mento ligando o ponto para o objeto i ao ponto para o objeto j(a distância Euclidiana) é
dij ={((xi1 − xj1)2 + (xi2 − xj2)2
} 12 (1)
Com p = 3 variáveis, os valores podem ser tomados como ascoordenadas no espaço para marcar as posições dos indivíduos ie j (Figura 5.2)
dij ={((xi1 − xj1)2 + (xi2 − xj2)2 + (xi3 − xj3)2
} 12 (2)
(ESALQ/USP)
Distância Euclidiana generalizada
dij =
{p∑
k=1
(xik − xjk)2}1/2
(3)
Obs. Da Eq. 3, está claro que se uma das variáveis medidassão muito mais variável do que as outras, então isto dominará ocálculo das distâncias.
(ESALQ/USP)
Exemplo (MINGOTI, 2005)
Os dados da tabela a seguir representam a renda mensal (emquantidade de salários mínimos) e a idade de seis indivíduos deuma localidade.
Tabela 1 : Renda e idade de seis indivíduos.
Indivíduo Renda(X1) Idade(X2)A 9.6 28B 8.8 31C 2.4 42D 18.20 38E 3.9 25F 6.4 41
(ESALQ/USP)
EXEMPLO 5.1 Distãncias entre cães e espéciesrelacionadas
Procedimento:1 Padronizar as medidas:
(valor−média)desvio padrão
(4)
Cão moderno X1:largura(9,7− 10,486)
1,697= -0,46
Chacal dourado(8,1− 10,486)
1,697= -1,41
Cão pré-histórico(10,3− 10,486)
1,697= -0,11
(ESALQ/USP)
Tabela 2 : Valores da variável padronizada calculados dos dadosoriginais na Tabela 1.4
Grupo X1 X2 X3 X4 X5 X6Cão moderno -0,46 -0,46 -0,68 -0,69 -0,45 -0,57Chacal dourado -1,41 -1,79 -1,04 -1,29 -0,80 -1,21Lobo chinês 1,78 1,48 1,70 1,80 1,55 1,50Lobo indiano 0,60 0,55 0,96 0,69 1,17 0,88Cuon 0,13 0,31 -0,04 0,00 -1,10 -0,37Dingo -0,52 0,03 -0,13 -0,17 0,03 0,61Cão pré-histórico -0,11 -0,12 -0,78 -0,34 -0,41 -0,83
(ESALQ/USP)
Distâncias entre populações
Uma desvantagem da distância euclidiana é que ela não leva emconsideração informações estatísticas como:
médias;variâncias;covariâncias ou correlações.
(ESALQ/USP)
Distância estatística de Penrose (1953):
Pij =
p∑k=1
(µki − µkj)2
(pVk)(5)
µki é a média da variável Xk na i-ésima população;Vk é a variância da variável Xk;
Desvantagem: Não leva em consideração as covariâncias ou cor-relações entre as p variáveis.
(ESALQ/USP)
Distância estatística de Mahalanobis (1948)
D2ij =
p∑r=1
p∑s=1
(µri − µrj)vrs(µsi − µsj) (6)
em vrs é o elemento na r-ésima linha e s-ésima coluna da inversada matriz de covariância populacional para as p variáveis.
(ESALQ/USP)
A distância de Mahalanobis é uma forma quadrática que tambémpode ser escrita como:
D2ij = (µi − µj)
′V −1(µi − µj) (7)
Obs.: Esta medida requer que V seja a mesma para todas aspopulações
(ESALQ/USP)
Uso: Medir a distância de uma única observação multivariadaxi, ao centro da população (média µ)
D2 =
p∑r=1
p∑s=1
(xr − µr)vrs(xs − µs)
= (xi − µ)′V −1(xi − µ) (8)
em que xi = (xi1, xi2, . . . , xip)
(ESALQ/USP)
Obs.: A Distância de Mahalanobis
1 é um resíduo multivariado para a observação xi2 Se a população tem distribuição normal multivariada, então
os valores deD2 seguirão uma distribuição qui-quadrado comp gl.
3 Um valor significativamente grande de D2 significa:(a) um genuíno, mais improvável registro;(b) uma observação de outra distribuição ou população;(c) um registro contendo algum erro.
4 As equações de 5.2 à 5.4 podem ser usadas com dados amos-trais para médias, variâncias e covariâncias e V deve ser subs-tituída pela matriz de covariância combinada amostral.
5 As distância de Mahalanobis é superior a de Penrose, poisusa a informação de covariância. Para amostras pequenas émelhor usar a distância de Penrose (n < 100).
(ESALQ/USP)
Distâncias Baseadas em Proporções
Uma situação particular que ocorre é que as variáveis sendousadas para medir a distância entre populações ou amostrassão proporções que somam 1.
d1 =
k∑i=1
|pi − qi|2
d2 = 1−∑k
i=1 |piqi|{∑ki=1 p
2i
∑q2i
}1/2
s1 = 1− d1
(ESALQ/USP)
Dados Presença-Ausência
Outra situação comum é onde a similaridade ou distânciaentre dois itens precisa ser baseada em uma lista de suaspresenças e ausências.
Tabela 3 : Presenças e ausências de duas espécies em dez locais.
Local 1 2 3 4 5 6 7 8 9 10Espécie 1 0 0 1 1 1 0 1 1 1 0Espécie 2 1 1 1 1 0 0 0 0 1 1
Nota: 1=Presença, 0=Ausência
(ESALQ/USP)
Tabela 4 : Presenças e ausências para duas espécies em n locais.
Espécie 2Presente Ausente Total
Espécie 1Presente a b a+bAusente c d c+dTotal a+c b+d n
(ESALQ/USP)
Índice de empates simples =a+ d
n
Índice de Ochiai =a
{(a+ b)(a+ c)}1/2
Índice de Dice-Sorensen =2a
(2a+ b+ c)
Índice de Jaccard =a
(a+ b+ c)
(ESALQ/USP)
Teste de Aleatorização de Mantel(1967)
Útil para comparar duas matrizes de distâncias ou similari-dades como uma solução para o problema de detectar aglo-meração de doenças no espaço e no tempo.O teste estatístico usado é algumas vezes a correlação entreos elementos correspondentes das duas matrizes, ou simples-mente a soma dos produtos destes elementos pareados. Parao caso geral de matrizes nxn, uma estatística é então:
Z =
n∑i=2
i−1∑i=1
mijeij
(ESALQ/USP)
Referências
MANLY, B. J. F. Métodos estatísticos Multivariados: uma introdução, 3a ed., PortoAlegre: Bookman, 2008.
MINGOTI, S. A. Análise de dados através de métodos de estatística multivariada: Umaabordagem aplicada. Belo Horizonte, Editora UFMG, 2005.
(ESALQ/USP)