Mestrado em Análise de Dados e Sistemas de Apoio à Decisão
Disciplina: Análise de Dados
Tema: Aplicação de métodos leccionados no curso para a análise
de dados recorrendo aos Softwares SPSS e SPAD
Data: 04 de Julho de 2005
Aluna: Elisabeth Silva Fernandes
Nº 050414012
Analise de Dados MADSAD-FEP
2/105
Índice
1 - Introdução .............................................................................................. 3
Descrição dos dados em estudo .................................................................................... 4
2- Análise Univariada ................................................................................. 7
2.1- Área Total, Freguesias e Densidade Populacional ................................................ 7
2.2- Taxa de Natalidade, Mortalidade ........................................................................ 15
Taxa de Mortalidade ............................................................................................... 18
2.3- Médicos por 1000, Farmácias por 1000, Hospitais Oficiais. .............................. 20
Farmácias por 1000 ................................................................................................ 22
Hospitais Oficiais ................................................................................................... 24
2.4-Variáveis relacionadas com acidentes de viação.................................................. 25
3 - Análise Bivariada ................................................................................. 33
3.1 - Algumas experiências! ....................................................................................... 36
3.2- Análise das variáveis relacionadas com acidentes de viação em conjunto com a
variável densidade populacional. ................................................................................ 39
4 - Descrição multidimensional dos dados .............................................. 40
4.1- Alguns conceitos introdutórios: .......................................................................... 40
4.2 – Análise Classificatória ....................................................................................... 43
4.2.1 – Classificação hierárquica ............................................................................ 45
4.2.2 – Classificação não hierárquica ..................................................................... 53
4.3 - Análise Discriminante ........................................................................................ 57
4.4- Análise em Componentes Principais Normada ................................................... 72
4.4.1 – ACP Normada para os concelhos da classe 1. ............................................ 82
4.4.2 - ACP para concelhos com densidade populacional inferior á média ........... 84
5 - Conclusão .............................................................................................. 91
6 – Bibliografia .......................................................................................... 92
Anexo 1 ....................................................................................................... 93
Anexo 3- Classificação Hierárquica entre variáveis - Matriz de
Proximidade ............................................................................................... 94
Anexo 4- Classificação hierárquica entre indivíduos ............................ 95
Anexo 5 ....................................................................................................... 98
Anexo 6 – Classificação não-hierárquica – dados estandardizados ... 101
Analise de Dados MADSAD-FEP
3/105
1 - Introdução
No âmbito da disciplina de Análise de Dados foi proposta a realização de um
trabalho cujo objectivo é estudar e analisar dados aplicando métodos leccionados no
curso. O Software utilizado foi o SPSS e o SPAD.
O objectivo deste trabalho é estudar algumas estatísticas registadas nas
diferentes unidades territoriais de Portugal com valores relacionados com acidentes de
viação, algumas variáveis podem parecer fora de contexto mas penso que para aprender
a analisar dados devemos ter um quadro variado que permita tirar o maior proveito dos
métodos leccionados.
Analise de Dados MADSAD-FEP
4/105
Descrição dos dados em estudo
Para a realização deste trabalho escolhi um tema que me desse um certo gozo
trabalhar os dados.
O quadro de dados utilizado foi retirado da base estatística disponibilizada pelo
INE, e tem dimensão 308 x 20. Isto é, tratam-se de estatísticas recolhidas pelo INE em
308 concelhos de Portugal (continente e ilhas) no ano de 2004 com a excepção das que
no próprio nome indicam 2001.
As 22 variáveis em estudo são as seguintes:
Variável Tipo Descrição
NUTIII String 29 Regiões de Portugal
Concelhos String Nome de cada Concelho
AreaTotal Numérica
Freguesias Numérica
Número
Dens.Pop Numérica
Pop.ResHM2001 Numérica Número
Pop.Res.H2001 Numérica Número
NadosVivosHM Numérica Número
ObitosHM Numérica Número
T.Natalidade Numérica Permilagem
T.Mortalidade Numérica Permilagem
T.ActividadeHM2001 Numérica Percentagem
T.DesempregoHM2001 Numérica Percentagem
Medicospor1000 Numérica Número por 1000
Farmaciapor1000 Numérica Número por 1000
HospitaisOficiais Numérica Número
AcViaçaoCVitimas Numérica Número
2km
2kmhab
Analise de Dados MADSAD-FEP
5/105
Ac.ViaçaoCVitMort Numérica Número
VitAcViaçao Numérica Número
VitMortAçViaçao Numérica Número
FerGravACViaçao Numérica Número
FerLigAcViaçao Numérica Número
Para melhor compreender alguns resultados coloquei os seguintes mapas de Portugal.
Mapa de Portugal 1
Analise de Dados MADSAD-FEP
6/105
Mapa de Portugal 2
Analise de Dados MADSAD-FEP
7/105
2- Análise Univariada
Neste capítulo apresento um pequeno estudo de algumas das variáveis mencio-
nadas anteriormente, começo com as variáveis Área Total, Freguesias e Densidade
Populacional.
2.1- Área Total, Freguesias e Densidade Populacional
Área Total
No quadro 1 é possível observar alguns valores importantes relativos à Área
Total de cada Concelho, o valor média ronda os 299 2km , verifica-se ainda que os
valores mínimo e máximo são muito diferentes da média o que mostra que esta variável
toma valores muito diferentes consoante o Concelho em causa, este facto é observável
no histograma 1. Neste histograma existe um pico por volta dos 180 2km , daí a mediana
ser 209 2km . A média desloca-se bastante para a direita devido à existência de alguns
valores elevados da área, pois esta medida não é tão resistente quanto a mediana.
Quadro 1- Estatísticas Descritivas da variável Área Total
Analise de Dados MADSAD-FEP
8/105
Quadro 2- Valores de máximos e mínimos de Área Total
Os Concelhos com maior área total são 221-Odemira, 222-Alcácer do Sal, e com menor
são 52-Oliveira de Azeméis e 196-Ferreira do Zêzere.
Histograma 1- Histograma da Área Total
Quanto à normalidade desta variável não tenho garantias da existência de
normalidade uma vez que o nível de significância é zero nos testes de normalidade.
Como temos mais de 30 casos o teste que se estuda é o de Kolmogorov Smirnov.
Quadro 3- Testes de Normalidade
Analise de Dados MADSAD-FEP
9/105
A não normalidade também se conclui nos gráficos seguintes:
-
Gráfico 1- Q-Qplot
Gráfico 2- Q-Q Plot Detrended
No Q-Qplot os pontos não acompanham a recta dos quartis o que mostra a não
normalidade. O Q-Qplot Detrended não apresenta um comportamento aleatório dos
pontos que aconteceria se houvesse normalidade.
Na caixa de bigodes seguinte é possível observar a existência de outliers severos, que
correspondem às seguintes unidades territoriais:
221- Odemira, 222- Alcácer do Sal, 245- Évora, 246- Montemor-o-Novo.
Caixa de Bigodes 1- Área Total
A caixa de bigodes seguinte indica os outliers consoante a divisão em NUTIII,
isto é, o outliers 221 pertence à região Alentejo Litoral.
Analise de Dados MADSAD-FEP
10/105
Caixa de Bigodes 2- Área Total (NUTIII)
Freguesias
O valor médio das Freguesias ronda os 13, a mediana é inferior à média por existem
mais Concelhos com menos que 13 freguesias do que com mais de 13, este facto é
observável no histograma 2.
Quadro 4- Estatísticas descritivas da variável Freguesias
No quadro seguinte verifica-se que é na região do Cavado que se encontram os
Concelhos com maior número de Freguesias, o Concelho com 89 freguesias é o 12-
Barcelos. O Concelho de Porto Santo (308) tem uma única freguesia, mas não é o único
por exemplo Corvo também só tem uma freguesia, o que há aqui a salientar é que é
Analise de Dados MADSAD-FEP
11/105
numa zona de máximo de área total (Baixo Alentejo) que encontramos concelhos com
uma ou muito poucas freguesias. As zonas com menos Área Total estão mais divididas.
Quadro 5- Valores extremos por Região
Quanto à assimetria esta variável apresenta uma assimetria positiva, que como já referi
apresenta média superior à mediana.
Histograma 2- Freguesias
Na caixa de bigodes 3 verifica-se que é na região do Cávado que cada concelho está
mais divido, é nesta região que se encontra o concelho de Barcelos.
Analise de Dados MADSAD-FEP
12/105
Caixa de Bigodes 3- Freguesias (NUTIII)
A distribuição desta variável também não se aproxima de uma distribuição normal
como se observa no histograma 2, e nos testes de normalidade uma vez que o valor de
significância é menos que 0,05.
Quadro 6
Analise de Dados MADSAD-FEP
13/105
Densidade populacional
A média da densidade populacional é 298,24 2kmhab .
Quadro 7- Estatísticas descritivas da Densidade Populacional
A Densidade populacional varia entre uma gama bastante grande de valores, de
5,9 2kmhab a 7411,2 2km
hab o que origina um elevado valor de variância 676635.1. Quanto
à assimetria esta variável apresenta uma distribuição assimétrica positiva, o valor de
curtose é positivo logo as caudas são mais pesadas que as da curva normal.
Como era de esperar os valores elevados da densidade populacional correspondem às
zonas do Grande Porto e Grande Lisboa.
Quadro 8- Valores extremos da Densidade Populacional
Também era de esperar que os valores mais pequenos desta variável estivessem
associados às zonas mais inóspitas do país, isto é, Alentejo e Algarve.
Analise de Dados MADSAD-FEP
14/105
Aplicando os testes da normalidade verifica-se que esta variável não segue uma
distribuição normal, uma vez que o valor de significância é inferior a 0,05.
Quadro 9- Testes de Normalidade
Na caixa de bigodes 4 verifica-se, mais uma vez, a não normalidade uma vez que a
caixa não é simétrica e apresenta muitos outliers severos. Os outliers severos
correspondem aos seguintes concelhos: 210- Amadora, 204- Lisboa, 29– Porto, 211-
Odivelas, 207- Oeiras, 52- São João da Madeira.
Caixa de Bigodes 4- Densidade Populacional
Isto indica que o concelho com maior densidade populacional é o concelho da Amadora.
Analise de Dados MADSAD-FEP
15/105
2.2- Taxa de Natalidade, Mortalidade
Taxa de Natalidade
A média da taxa de Natalidade e a mediana são muito próximas logo a distribuição é
quase simétrica, a variância é pequena o que leva a concluir que a taxa de natalidade em
Portugal não varia muito de região para região.
Quadro 10- Estatísticas Descritivas
Quadro 11- Máximos e mínimos da Taxa de Natalidade
A taxa de Natalidade é elevada nos concelhos 284-Vila Franca do Campo, 304-Ribeira
Brava, 305-Santa Cruz, e é mínima nos concelhos 133-Pampilhosa da Serra,
88- Alcoutim e 177- Vila Velha de Ródão.
As caudas desta variável são mais leves que as caudas da normal porque a curtose é
negativa.
Os testes de normalidade indicam que não se deve rejeitar a normalidade desta variável
com 95% de confiança (0,2 > 0,05).
Analise de Dados MADSAD-FEP
16/105
Quadro 12- Testes da Normalidade
Histograma 3- Taxa de Natalidade
O Q-Qplot que se segue mostra a sobreposição dos pontos na recta dos quartis, isto
indica a normalidade da variável.
Gráfico 3- Q-Qplot
A caixa de Bigodes 5 é simétrica e apresenta dois valores muito elevados na Região
Autónoma dos Açores - Ribeira Grande e na Região Autónoma da Madeira - Santa
Cruz.
Analise de Dados MADSAD-FEP
17/105
Caixa de Bigodes 5- Taxa de Natalidade
Apesar de ser interessante ter uma variável normal não me parece nada boa ideia que
esta seja a Taxa Natalidade! Pois estes dados indicam uma queda acentuada da taxa de
natalidade o que reafirma o problema do envelhecimento do país.
Analise de Dados MADSAD-FEP
18/105
Taxa de Mortalidade
A Taxa de Mortalidade apresenta distribuição assimétrica positiva, uma vez que,
a média é maior que a mediana
Quadro 13- Estatísticas Descritivas
Pelos testes de normalidade rejeita-se a normalidade da taxa de Mortalidade.
Quadro 14- Testes de Normalidade
No histograma seguinte verifica-se o pico à esquerda da média.
Histograma 4- Taxa de Mortalidade
Analise de Dados MADSAD-FEP
19/105
O Q-Qplot apresenta os pontos não sobrepostos sobre a recta dos quartis.
Gráfico 4- Q-Qplot
A caixa de bigodes 6 apresenta valores extremos que são os concelhos:
88- Alcoutim
238- Nisa
177- Vila Velha de Ródão
Caixa de Bigodes 6- Taxa de Mortalidade
É de notar que o concelho 177 tem taxa de Natalidade muito baixa e taxa de mortalidade
muito elevada.
T.Mortalidade
25
20
15
10
5
88
238
177
Analise de Dados MADSAD-FEP
20/105
2.3- Médicos por 1000, Farmácias por 1000, Hospitais Oficiais.
Médicos por 1000
Esta variável apresenta 3 missing values.
A média e a mediana estão bastante afastadas logo a distribuição não vai ser
simétrica. Os valores de mínimo e de máximo são muitos diferentes o que indica que há
concelhos com muitos e outros com poucos médios.
Quadro 15- Estatísticas descritivas
Pelos testes de normalidade concluo que com 95% de confiança esta variável não é
normal.
Quadro 16- Testes de Normalidade
Analise de Dados MADSAD-FEP
21/105
O mesmo se verifica no Q-Qplot seguinte:
Gráfico 5- Q-Qplot
Na caixa de bigodes seguinte é possível observar a presença de outliers, que
correspondem aos concelhos 116- Coimbra, 29-Porto, 204- Lisboa, 207-Oeiras, 203-
Cascais, isto mostra que os médicos estão em maior número nas zonas urbanas.
Caixa de Bigodes 7- Médicos por 1000
O caso de Coimbra é um exemplo de um outlier severo uma vez que o seu valor é
20,50, isto é, é superior a 2,433 DQ em que 9,0D e 5.13 Q .
Analise de Dados MADSAD-FEP
22/105
Farmácias por 1000
A média e a mediana desta variável são próximas.
Quadro 17- Estatíticas Descritivas
Quanto à normalidade esta variável não é gaussiana, uma vez que nos testes de
Kolmogorov-Smirnov se rejeita essa hipótese com 99% de confiança.
Quadro 18 – Testes de Normalidade
Analise de Dados MADSAD-FEP
23/105
O Concelho que tem mais farmácias por 1000 hab. é o Corvo (207), de seguida surge o
concelho Crato (232).
Caixa de Bigodes 8- Farmácias por 1000
Analise de Dados MADSAD-FEP
24/105
Hospitais Oficiais
No quadro seguinte apresento algumas estatísticas destas variáveis.
Quadro 19- Estatísticas descritivas
Esta variável não segue uma distribuição normal.
Quadro 20- Testes de Normalidade
Os concelhos com mais hospitais são Lisboa (204) e Porto (29) como era de esperar!
Caixa de Bigodes 9- Hospitais Oficiais
Analise de Dados MADSAD-FEP
25/105
2.4-Variáveis relacionadas com acidentes de viação
Acidentes de Viação com Vitimas
Esta variável apresenta 30 Missing Values que correspondem aos Concelhos da Região
Autónoma da Madeira e dos Açores, visto que na base de dados do INE não aparecem
valores desta variável para estes Concelhos, o mesmo acontece nas variáveis seguintes.
Quadro 21- Valores em estudo
A média desta variável é muito maior que a mediana, logo esta variável tem uma
distribuição assimétrica positiva.
Quadro 22- Estatísticas Descritivas
No quadro seguinte é possível verificar que o maior número de acidentes com vitimas
em 2004 foi em Lisboa (204) e Sintra (208), o concelho com menos acidentes com
vitimas foi Barrancos (258) seguido de Alvito (257).
Analise de Dados MADSAD-FEP
26/105
Quadro 23- Valores extremos
Os testes de Normalidade rejeitam a hipótese nula, isto é, esta variável não segue uma
distribuição normal.
Quadro 24- Testes de Normalidade
Na caixa de bigodes 10 verifica-se a existência de um outlier severo, que se trata do
concelho de Lisboa.
AcViaçaoCVitimas
3.000
2.500
2.000
1.500
1.000
500
0
94
204
208
33
205
Caixa de Bigodes 10- AcViaçaoCVitimas
Analise de Dados MADSAD-FEP
27/105
Acidentes de Viação com Vitimas Mortais
Quadro 25- Valores em estudo
A média de acidentes de viação com vitimas mortais é de 3,68.
Quadro 26- Estatísticas Descritivas
Os testes da normalidade mostram que esta variável não é normal.
Quadro 27- Testes de Normalidade
Analise de Dados MADSAD-FEP
28/105
Os valores mais elevados registam-se em Lisboa (204) e no Pombal (126).
Caixa de Bigodes 11- Acidentes de Viação com Vitimas Mortais
Dos valores mais elevados também me parece importante referir:
33- Vila Nova de Gaia
124- Leiria
Procurei perceber porque é que o concelho de Pombal regista um valor tão elevado de
acidentes com vítimas mortais. Como é possível observar no Mapa de Portugal 2 este
concelho situa-se no Centro do Pais, e no mapa seguinte observa-se que se trata de uma
zona de confluência de várias vias. As informações que obtive foram de que estas vias
têm muita circulação de trânsito tanto vinda de Norte como de Sul, e que o IC8 e o IC3
apresentam inclinações muito acentuadas.
Analise de Dados MADSAD-FEP
29/105
Análise conjunta das seguintes variáveis:
Vitimas de Acidentes de Viação, Vitimas mortais em Acidentes de Viação,
Feridos Graves em Acidentes de Viação, Feridos ligeiros em Acidentes de
Viação
Quadro 28 – Valores em estudo
No quadro seguinte podemos analisar algumas estatísticas destas variáveis.
Quadro 29- Estatísticas Descritivas
Analise de Dados MADSAD-FEP
30/105
Em todas estas variáveis os valores da média são maiores que o valor das respectivas
medianas.
Em todas estas variáveis o valor máximo é registado em Lisboa.
Os testes de normalidade rejeitam a hipótese de normalidade das variáveis para um
nível de confiança de 5%.
Quadro 30- Testes de Normalidade
Analise de Dados MADSAD-FEP
31/105
Os valores mais elevados de vítimas de acidentes de viação registaram-se em Lisboa e
em Sintra, seguidos de Vila Nova de Gaia (33) e Braga (13)
VitAcViaçao
4.000
3.000
2.000
1.000
0
213
204
208
33
13
Caixa de Bigodes 12
Na variável Vitimas mortais em Acidentes de Viação mais uma vez Lisboa destaca-se
como um valor muito elevado, outros concelhos que também se destacam são Pombal
(126), Amarante (37), Vila Nova de Gaia (33).
Caixa de Bigodes 13
Os concelhos de Lisboa e Mafra apresentam um elevado valor de Feridos Graves em
Acidentes de Viação como podemos observar na caixa de bigodes seguintes.
Analise de Dados MADSAD-FEP
32/105
Caixa de Bigodes 14
Mais uma vez Lisboa destaca-se na variável Feridos ligeiros em Acidentes de Viação.
Caixa de Bigodes 15
Analise de Dados MADSAD-FEP
33/105
3 - Análise Bivariada
Neste capítulo apresento uma pequena análise em que estudo as correlações
entre as variáveis para ver quais as que estão mais correlacionadas, apesar de se rejeitar
a hipótese de normalidade em quase todas as variáveis decido fazer este estudo pois
penso que pode fornecer alguma informação a confirmar nos próximos métodos.
O quadro seguinte apresenta o coeficiente de Correlação de Pearson.
AreaTotal Freg Dens.Pop Pop.ResHM2001 Pop.Res.H2001
AreaTotal 1 0,216 -0,242 -0,084 -0,088
Freguesias 0,216 1 0,070 0,380 0,377
Dens.Pop -0,242 0,070 1 0,719 0,717
Pop.ResHM2001 -0,084 0,380 0,719 1 0,987
Pop.Res.H2001 -0,088 0,377 0,717 0,987 1
NadosVivosHM -0,113 0,342 0,690 0,976 0,990
ObitosHM -0,040 0,336 0,716 0,940 0,935 T.Natalidade -0,274 0,006 0,244 0,325 0,334
T.Mortalidade 0,282 -0,244 -0,297 -0,405 -0,425
T.ActividadeHM2001 -0,184 -0,013 0,411 0,501 0,520
T.Des.HM2001 0,215 -0,119 0,005 -0,062 -0,063
Medicospor1000 -0,024 0,197 0,523 0,615 0,602
Farmaciapor1000 0,187 -0,217 -0,153 -0,208 -0,221
HospitaisOficiais -0,023 0,266 0,567 0,705 0,675
AcViaçaoCVitimas -0,032 0,369 0,620 0,934 0,930 Ac.ViaçaoCVitMort 0,169 0,392 0,322 0,670 0,665
VitAcViaçao -0,007 0,394 0,525 0,894 0,895
VitMortAçViaçao 0,170 0,403 0,304 0,641 0,636
FerGravACViaçao 0,070 0,335 0,509 0,812 0,802
FerLigAcViaçao -0,019 0,394 0,529 0,898 0,900
NadosV.HM ObitosHM T.Nat T.Mort. T.Act.HM2001
AreaTotal -0,113 -0,040 -0,274 0,282 -0,184
Freguesias 0,342 0,336 0,006 -0,244 -0,013
Dens.Pop 0,690 0,716 0,244 -0,297 0,411
Pop.ResHM2001 0,976 0,940 0,325 -0,405 0,501
Pop.Res.H2001 0,990 0,935 0,334 -0,425 0,520
NadosVivosHM 1 0,902 0,394 -0,451 0,546
ObitosHM 0,902 1 0,247 -0,266 0,387
T.Natalidade 0,394 0,247 1 -0,685 0,642
T.Mortalidade -0,451 -0,266 -0,685 1 -0,715
T.ActividadeHM2001 0,546 0,387 0,642 -0,715 1
T.DesHM2001 -0,073 -0,025 -0,194 0,217 -0,243
Medicospor1000 0,553 0,644 0,167 -0,203 0,322
Farmaciapor1000 -0,240 -0,131 -0,457 0,551 -0,284
HospitaisOficiais 0,607 0,852 0,100 -0,097 0,190
AcViaçaoCVitimas 0,907 0,946 0,296 -0,365 0,496
Ac.ViaçaoCVitMort 0,640 0,642 0,270 -0,366 0,466
Analise de Dados MADSAD-FEP
34/105
VitAcViaçao 0,889 0,891 0,313 -0,387 0,509
VitMortAçViaçao 0,612 0,612 0,262 -0,361 0,446
FerGravACViaçao 0,776 0,891 0,222 -0,248 0,378
FerLigAcViaçao 0,895 0,887 0,319 -0,397 0,517
T.Des.HM2001 Medicos Farm HospOf AcViaCVit
AreaTotal 0,215 -0,024 0,187 -0,023 -0,032
Freguesias -0,119 0,197 -0,217 0,266 0,369
Dens.Pop 0,005 0,523 -0,153 0,567 0,620
Pop.ResHM2001 -0,062 0,615 -0,208 0,705 0,934
Pop.Res.H2001 -0,063 0,602 -0,221 0,675 0,930
NadosVivosHM -0,073 0,553 -0,240 0,607 0,907
ObitosHM -0,025 0,644 -0,131 0,852 0,946
T.Natalidade -0,194 0,167 -0,457 0,100 0,296
T.Mortalidade 0,217 -0,203 0,551 -0,097 -0,365
T.ActividadeHM2001 -0,243 0,322 -0,284 0,190 0,496
T.DesHM2001 1 -0,002 0,147 0,007 -0,089
Medicospor1000 -0,002 1 -0,053 0,725 0,640
Farmaciapor1000 0,147 -0,053 1 0,006 -0,172
HospitaisOficiais 0,007 0,725 0,006 1 0,789
AcViaçaoCVitimas -0,089 0,640 -0,172 0,789 1
Ac.ViaçaoCVitMort -0,139 0,465 -0,224 0,495 0,763
VitAcViaçao -0,110 0,537 -0,196 0,690 0,967
VitMortAçViaçao -0,144 0,427 -0,215 0,477 0,734
FerGravACViaçao -0,056 0,487 -0,097 0,777 0,915
FerLigAcViaçao -0,113 0,542 -0,202 0,680 0,966
Ac.ViaCVitMort VitAcVia VitMortAçVia FerGravACVia FerLigAcVia
AreaTotal 0,169 -0,007 0,170 0,070 -0,019
Freguesias 0,392 0,394 0,403 0,335 0,394
Dens.Pop 0,322 0,525 0,304 0,509 0,529
Pop.ResHM2001 0,670 0,894 0,641 0,812 0,898
Pop.Res.H2001 0,665 0,895 0,636 0,802 0,900
NadosVivosHM 0,640 0,889 0,612 0,776 0,895
ObitosHM 0,642 0,891 0,612 0,891 0,887
T.Natalidade 0,270 0,313 0,262 0,222 0,319
T.Mortalidade -0,366 -0,387 -0,361 -0,248 -0,397
T.ActividadeHM2001 0,466 0,509 0,446 0,378 0,517
T.DesHM2001 -0,139 -0,110 -0,144 -0,056 -0,113
Medicospor1000 0,465 0,537 0,427 0,487 0,542
Farmaciapor1000 -0,224 -0,196 -0,215 -0,097 -0,202
HospitaisOficiais 0,495 0,690 0,477 0,777 0,680
AcViaçaoCVitimas 0,763 0,967 0,734 0,915 0,966
Ac.ViaçaoCVitMort 1 0,770 0,983 0,711 0,763
VitAcViaçao 0,770 1 0,745 0,917 0,999
VitMortAçViaçao 0,983 0,745 1 0,692 0,736
FerGravACViaçao 0,711 0,917 0,692 1 0,901
FerLigAcViaçao 0,763 0,999 0,736 0,901 1
As variáveis mais correlacionadas são Pop.Res.H2001e Nados Vivos HM em que o
coeficiente de Correlação de Pearson é 0,99.
Analise de Dados MADSAD-FEP
35/105
As variáveis menos correlacionadas são Médicospor1000 e T.Desemprego2001, cuja
correlação é de -0,002.
No quadro seguinte apresentam-se as variáveis mais correlacionadas. As correlações são
todas positivas logo à medida que uma variável aumenta a outra também aumenta.
Uma vez que as variáveis em estudo (com excepção da Taxa de Natalidade) não são
normais, não faz sentido efectuar uma análise variância uma vez que esta tem como
pressuposto a normalidade dos dados.
Analise de Dados MADSAD-FEP
36/105
3.1 - Algumas experiências!
1- Estudo dos concelhos com densidade populacional superior a 298 2/ kmhab .
Decidi usar só os Concelhos com Densidade populacional superior à média 298
2/ kmhab , para ver o que acontecia. Ora os concelhos considerados, como seria de
esperar correspondem, na sua generalidade, às zonas urbanas (ver anexo 2).
O que verifiquei é que em algumas variáveis já não se rejeita a normalidade,
como se vê no quadro seguinte:
Quadro 31- Testes da Normalidade
Nas variáveis T.Natalidade, T.Mortalidade T.Actividade HM1991, T.Actividade
HM2001, T.DesempregoHM1991, T.DesempregoHM2001, T.Analfab.HM1991,
T.Analf.HM2001, não se rejeita a hipótese de normalidade. No entanto os histogramas
seguintes mostram um grande desfasamento entre a curva normal e as barras.
Analise de Dados MADSAD-FEP
37/105
Apesar de estar a correr algum risco, uma vez que esta correlação pressupõe a
normalidade e esta pode ser duvidosa, decidi observar as correlações entre estas
variáveis e verifiquei que as que apresentavam maior coeficiente de correlação de
Pearson era T.Analfab.HM1991 e T.Analfab.HM2001.
Após esta análise efectuei uma análise de variância com o objectivo de estudar
o efeito da variável independente (T.Analfab.HM1991) na variável resposta
(T.Analfab.HM2001), uma vez que não se rejeita a normalidade, as observações são
independentes entre si e o número de observações é igual.
Analise de Dados MADSAD-FEP
38/105
Quadro 32- Anova a um factor
Este teste rejeita a hipótese nula para um nível de significância de 5%, isto é, existe
diferença entre estas variáveis. Quanto à existência de relação neste caso é quadrática
para um nível de significância de 5%.
Análise de regressão
Nesta análise de regressão posso concluir que 91.4% da variabilidade total da
T.Analfab.HM2001 é explicada pela T.Analafab.HM1991.
Quadro 33- Análise de Regressão
Posso concluir ainda que, a variação de T.AnalfabHM2001 é explicada pela
T.ANalfab.HM1991.
O modelo obtido é: 1991..*123.12001. HMAnalfabTHMTAnalfab
Analise de Dados MADSAD-FEP
39/105
3.2- Análise das variáveis relacionadas com acidentes de viação em
conjunto com a variável densidade populacional.
Apesar destas variáveis não verificarem o pressuposto da normalidade decidi analisar as
correlações de Pearson entre elas.
As variáveis com maior coeficiente de correlação são FerLigACViação e VitAcViaçao.
Quadro 34- Correlações
Efectuei um Análise de regressão em que a variável dependente é Pop.Res.HM2001 e as
restantes variáveis são explicativas, obtive os seguintes resultados:
- 91.1% da variabilidade total da variável dependente é explicada pelas restantes
variáveis.
- O modelo obtido é constituído pelos coeficientes dados na tabela seguinte:
Analise de Dados MADSAD-FEP
40/105
4 - Descrição multidimensional dos dados
4.1- Alguns conceitos introdutórios:
Matriz dos dados
Seja n é o número de observações da amostra e p o número de variáveis
observadas, então o quadro de dados que se obtêm contêm as pn observações e terá n
linhas e p colunas. Cada linha é considerada como um ponto no espaço de dimensão p
munido de uma estrutura euclideana. As coordenadas de cada ponto são obtidas a partir
dos valores das p variáveis da observação/indivíduo correspondente.
pj
j
ix
n
iX
.........................1
.
.
....
.
.
.
.
1
Neste trabalho a matriz de dados tem 308 indivíduos e 22 variáveis.
j
ix - é o valor que o concelho i assume na variável j .
Matriz dos pesos
Matriz diagonal em que cada valor ii, da diagonal é o peso do individuo i ,
neste caso os pesos são todos iguais e a matriz dos pesos é ID148
1 .
Centro de gravidade
Vector das médias aritméticas de cada variável,
)1(,...,,' 21 DXxxxg tt
Analise de Dados MADSAD-FEP
41/105
Matriz das variâncias e covariâncias
DYYggDXXV '''
Matriz de correlações
1,
.
.
1,
,,1
1
12
121
xxr
xxr
xxrxxr
R
p
p
21
21
21
21
diagVVdiagVdiagVDXXdiagVR t
onde
pxs
xs
diagV
1
1
0
.
.
.
01
21
Como já referi o espaço dos indivíduos de dimensão p é munido de uma
estrutura euclideana, logo podemos calcular distâncias entre indivíduos. Considere-seQ
a métrica no espaço dos indivíduos. Na Análise em componentes principais as métricas
mais usuais são:
- IQ , que corresponde a usar o produto escalar usual. Esta métrica tem
tendência a privilegiar a variáveis mais dispersas.
- A métrica mais utilizada é a métrica da diagonal das inversas das variâncias:
2
22
21
21
1
1
1
0
.
.
0
n
s
s
s
s
DQ
Analise de Dados MADSAD-FEP
42/105
Esta métrica restabelece o equilíbrio entre as variáveis fornecendo a todas a
variância 1.
Como todas as matrizes simétricas positivas podem ser escritas da forma
TTQ ' o produto escalar entre dois indivíduos com a métrica Q pode ser escrito da
seguinte forma:
IjiIjijijijiji yyTxTxTxTxTxTxQxxxx ,,)(''',
Inércia
A inércia total de uma nuvem de pontos é a media ponderada dos quadrados das
distâncias ao centro de gravidade.
2
11
'
n
i
ii
n
i
iiig gxpgxQgxpI
A inércia da nuvem de pontos num ponto a é definida como sendo,
2
1
n
i
iia axpI
Relação de Huyghens
2agII ga
Nos dados em estudo neste trabalho 1p logo gI é a variância da variável em
estudo.
Analise de Dados MADSAD-FEP
43/105
4.2 – Análise Classificatória
A partir da representação dos n pontos da matriz de dados no espaço, tendo em
conta a distância entre eles, estes irão ser agrupados em classes de tal forma que, a
distâncias dentro da mesma classe sejam pequenas e as distâncias entre classes sejam
grandes.
Métodos:
- Métodos não-hierárquicos cujo objectivo é obter partições.
- Métodos hierárquicos cujo objectivo é obter estruturas encaixadas.
Para classificar é necessário definir um índice de comparação, ou medida de
proximidade, entre elementos a classificar, existem essencialmente dois tipos de
medidas de proximidade:
1 – Índices de semelhança-Similarities: calcula a matriz de proximidades,
semelhanças entre pares de sujeitos ou variáveis. Por defeito, a correlação de Pearson
para medidas de intervalo e o coeficiente de Russell e Rao para binomiais.
2 – Índices de dissemelhança- Dissimilarities: calcula a matriz de
distâncias entre pares de sujeitos ou variáveis. Por defeito, o SPSS usa a distância
euclideana para medidas de intervalo ou binomiais e 2 para frequências.
- Exemplos de distâncias entre objectos descritos por variáveis quantitativas:
- Distância euclideana genérica: 21
jkik
t
jkikij xxAxxd
- IA temos a distância euclideana;
- IAp1 temos a distância euclideana média;
- 1
21
s
DA temos a distância euclideana estandardizada;
- 1ˆ A temos a distância estatística ou de Mahalanobis.
- Distância distribucional do qui-quadrado:
p
l j
jl
i
il
l
ijX
X
X
X
Xd
1
2
...
1
- Métricas de Minkowski: rp
k
r
jkikij xxd
1
1
, em que 1r ;
Analise de Dados MADSAD-FEP
44/105
a) 1r : Distância dos valores absolutos;
b) 2r : Distância euclideana;
c) r : Métrica de Chebychev.
- Medidas de proximidade.
- para variáveis quantitativas: Coeficiente de correlação de Pearson.
- para dados binários: Índice de Jacard, Índice de Russel Rao, e etc.
Analise de Dados MADSAD-FEP
45/105
4.2.1 – Classificação hierárquica
No SPSS encontramos a classificação hierárquica no menu Analyse>
Classify>Hierarquical Cluster na opção Statistics seleccionando
Aglomeration Schedule obtém-se uma tabela resumo dos passos seguidos na
obtenção das classes, seleccionando ainda Proximity matrix obtém-se a matriz de
proximidade ( de semelhança ou dissemelhança consoante o que pretendemos estudar).
- Classificação Hierárquica entre indivíduos:
O método utilizado para esta classificação foi o método de Ward que calcula
para cada classe a média de todas as variáveis. Depois para cada indivíduo calcula a
distância euclidiana ao quadrado e soma-se para todos eles. Em cada passo as classes
que se vão formando são aquelas que resultam num menor incremento da soma global
de distâncias ao quadrado dentro da classe.
O dendograma obtido com o método de Ward encontra-se no anexo 4, as
classes obtidas foram as seguintes:
Classe 1: {Ansião, Cadaval, Murtosa, ViladoBispo, Óbidos,Nazaré,
SãoBrásdeAlportel, VilaNovadePoiares, Redondo, ReguengosdeMonsara, Mira,Nelas,
CampoMaior, Borba, VilaViçosa, Tavira, Estremoz, Elvas, Portalegre, PesodaRégua,
CarregaldoSal, MesãoFrio, Lamego,SãoPedrodoSul,SeverdoVouga,Montemor-o-Velho,
SãoJoãodaPesqueir, Mortágua, Vouzela,Belmonte, Manteigas,Soure, SantaCombaDão,
Penacova, OliveiradoHospital, Anadia, Cantanhede, TorresNovas, Tomar, Covilhã,
Amares, MarcodeCanaveses, PóvoadeLanhoso, PontedeLima, VilaVerde, Estarreja,
Bombarral, MirandadoCorvo, VilaNovadaBarquin, Arouca, RioMaior, Mealhada,
Vagos, Albergaria-a-Velha, ValedeCambra, VendasNovas, OliveiradeFrades, Lourinhã,
Condeixa-a-Nova, OliveiradoBairro, Alcanena, SobraldeMonteAgra, Lagoa,Lousã,
ArrudadosVinhos, CastelodePaiva, VilaRealdeSantoA, Peniche,Sines, Almeirim,
Alpiarça, SalvaterradeMagos, CastelodeVide, Marvão, FigueiródosVinhos,
Góis,Mação,Monchique,Arronches,VilaVelhadeRódão,AlterdoChão,Avis,Crato,Alcouti
m,Nisa,Penamacor,Gavião,PedrógãoGrande,Constância,VianadoAlentejo,Monforte,Sou
sel,Alvito,Fronteira,Mourão,Golegã,Cuba,Arraiolos,Chamusca,FerreiradoAlentejo,Ouri
que,Portel,CastroVerde,Mora,Aljustrel,Alandroal,VieiradoMinho,CastroDaire,Baião,M
Analise de Dados MADSAD-FEP
46/105
ondimdeBasto,Tarouca,Resende,FornosdeAlgodres,PenalvadoCastelo,Vidigueira,Pared
esdeCoura,VilaNovadeCerveir,SantaMartadePenag,Sabrosa,Sernancelhe,Armamar,Vila
PoucadeAguiar,Sertã,CabeceirasdeBasto,Mangualde,Caminha,Valença,PontedaBarca,C
eloricodeBasto,Alijó,Gouveia,Vimioso,Pinhel,Trancoso,VilaNovadeFozCôa,Celoricoda
Beira164Alvaiázere, FigueiradeCastelo, Aljezur, Tábua, Sardoal, Penela,
FerreiradoZêzere, ViladeRei, MirandadoDouro, Arganil, CastroMarim, Proença-a-
Nova, Almodôvar, Tabuaço, Meda,Melgaço, Boticas, AguiardaBeira, Penedono,
FreixodeEspadaàC,CarrazedadeAnsiães,AlfândegadaFé,TorredeMoncorvo,Valpaços,Ri
beiradePena,VilaNovadePaiva,Murça,VilaFlor,Sátão,CastanheiradePêra,Barrancos,Cast
eloBranco,Évora,Beja,Grândola,PontedeSor,Abrantes,SantiagodoCacém,Coruche,Alcác
erdoSal,Mirandela,Chaves,Bragança,Guarda,Tondela,Seia,Mogadouro,Fundão,Monção,
Almeida,ArcosdeValdevez,MacedodeCavaleiros,Vinhais,Montalegre,Sabugal,Idanha-a-
Nova, Odemira, Montemor-o-Novo, Moura,Serpa, Mértola}
Classe 2 ={VilaNovadeFamalic, SantaMariadaFeira, Braga, Guimarães,
Barcelos,VilaNovadeGaia,Loures, Sintra, Porto, Coimbra, Amadora, Odivelas, Cascais,
Oeiras, Matosinhos,Almada,Maia,Seixal,Setúbal, Lisboa, Olhão, Sesimbra, Alcochete,
Portimão, Montijo, Benavente, Albufeira, Mafra, Espinho, SãoJoãodaMadeira, Barreiro,
Vizela, Trofa, Entroncamento, Moita, Azambuja, Cartaxo, Batalha, CaldasdaRainha,
Alenquer, Lagos, Ílhavo, Batalha, Esposende, Lousada, Paredes, PaçosdeFerreira,
PóvoadeVarzim, Valongo, Faro, VilaFrancadeXira, SantoTirso, ViladoConde,
OliveiradeAzeméis, Ovar, Gondomar, Aveiro,Amarante, Batalha, Loulé, Palmela,
Batalha, FigueiradaFoz, Santarém, Águeda, Alcobaça, TorresVedras, Ourém, Silves,
Felgueiras, Penafiel, VianadoCastelo, Viseu,Fafe, VilaReal}
Desta classificação não constam os concelhos das ilhas porque estas apresentam muitos
missing values.
Analise de Dados MADSAD-FEP
47/105
Comparação de medias das classes com a média global
Neste ponto pretendo comparar estatísticas das duas classes com as estatísticas
do quadro de dados completo.
N Minimum Maximum Mean Std. Deviation
AREATOTA 233 17,10 1720,60 325,0614 299,89334
FREGUESI 233 1,00 58,00 12,4421 10,58575
DENS.POP 233 5,90 1331,80 80,7588 116,26266
POP.RESH 233 425,00 103961,00
15055,3348
13022,23710
POP.RES 233 224,00 48497,00 7285,6996 6241,20333
NADOSVIV 233 2,00 1115,00 137,7468 144,96620
OBITOSHM 233 8,00 1127,00 181,5193 133,10192
T.NATALI 233 3,30 17,00 8,4343 2,33436
T.MORTAL 233 6,90 25,20 13,5635 3,47903
T.ACTIVI 233 27,60 51,90 41,1446 4,60712
T.DESEMP 233 2,30 22,10 7,3339 2,65283
MEDICOSP 230 ,10 4,50 1,0961 ,81215
FARMACIA 233 ,10 2,20 ,4021 ,22732
HOSPITAI 233 ,00 2,00 ,1288 ,34826
ACVIAÇAO 203 2,00 244,00 60,9901 52,06964
AC.VIAÇA 203 ,00 12,00 2,1429 2,21701
VITACVIA 203 2,00 341,00 85,4778 71,88731
VITMORTA 203 ,00 13,00 2,3596 2,58398
FERGRAVA 203 ,00 40,00 7,8966 8,24045
FERLIGAC 203 1,00 299,00 75,2217 63,90521
Quadro 35 - Estatísticas da primeira classe.
No gráfico seguinte é possível observar as caixas de bigodes de todas as variáveis para a
primeira classe, apesar de não ser um gráfico muito elucidativo, este permite-nos usá-lo
como termo de comparação com o gráfico seguinte.
Caixa de Bigodes 16 – Classe 1
Analise de Dados MADSAD-FEP
48/105
Para a segunda classe obtêm-se o quadro seguinte:
N Minimum Maximum Mean Std. Deviation
AREATOTA 75 7,90 764,20 218,4053 168,85628
FREGUESI 75 1,00 89,00 18,1067 16,26601
DENS.POP 75 25,90 7411,20 973,8720 1467,36881
POP.RESH 75 7642,00 564657,00
89336,3200
86611,81726
POP.RES 75 3693,00 257987,00
44034,3067
40603,79548
NADOSVIV 75 42,00 5668,00 1029,3200 946,92247
OBITOSHM 75 111,00 7528,00 795,4267 942,20453
T.NATALI 75 5,80 14,80 11,0507 1,49787
T.MORTAL 75 4,80 15,30 8,6640 2,15912
T.ACTIVI 75 33,30 56,40 50,2000 3,48786
T.DESEMP 75 2,50 10,70 6,2573 1,84597
MEDICOSP 75 ,30 20,50 2,6800 3,28745
FARMACIA 75 ,10 ,60 ,2440 ,08094
HOSPITAI 75 ,00 23,00 1,1200 2,99982
ACVIAÇAO 75 21,00 2621,00 353,9867 331,22041
AC.VIAÇA 75 ,00 27,00 7,8533 5,17189
VITACVIA 75 ,00 3290,00 462,0133 415,33202
VITMORTA 75 ,00 30,00 8,7467 6,02718
FERGRAVA 75 1,00 366,00 34,4933 42,92903
FERLIGAC 75 ,00 2894,00 419,4800 372,20110
Quadro 36 – Estatísticas da segunda classe.
O que se observa de imediato é que é nesta classe que se encontram os concelhos
das zonas urbanas.
Caixa de Bigodes 17 – Classe 2
No quadro seguinte pode observar-se a primeira classe apresenta média superior que o
total dos dados para as variáveis: Área Total, Taxa Mortalidade, Taxa Desemprego e
Analise de Dados MADSAD-FEP
49/105
Farmácias. Para as restantes variáveis é na classe dois que se apresentam os valores
mais elevados.
N Mean1 Mean2 Mean
AREATOTA 308 325,0614 218,4053 299,0899
FREGUESI 308 12,4421 18,1067 13,8214
DENS.POP 308 80,7588 973,8720 298,2377
POP.RESH 308 15055,3348 89336,3200 33143,2370
POP.RES 308 7285,6996 44034,3067 16234,2240
NADOSVIV 308 137,7468 1029,3200 354,8506
OBITOSHM 308 181,5193 795,4267 331,0097
T.NATALI 308 8,4343 11,0507 9,0714
T.MORTAL 308 13,5635 8,6640 12,3705
T.ACTIVI 308 41,1446 50,2000 43,3497
T.DESEMP 308 7,3339 6,2573 7,0718
MEDICOSP 305 1,0961 2,6800 1,4856
FARMACIA 308 ,4021 ,2440 ,3636
HOSPITAI 308 ,1288 1,1200 ,3701
ACVIAÇAO 278 60,9901 353,9867 140,0360
AC.VIAÇA 278 2,1429 7,8533 3,6835
VITACVIA 278 85,4778 462,0133 187,0612
VITMORTA 278 2,3596 8,7467 4,0827
FERGRAVA 278 7,8966 34,4933 15,0719
FERLIGAC 278 75,2217 419,4800 168,0971
Quadro 37- Comparação das médias
Como verifiquei a segunda classe apresenta médias, em geral, mais elevadas que a
primeira classe. Esta classificação separa concelhos com valores elevados das varáveis,
Densidade populacional, Pop. Residente, dos restantes como se pode ver na caixa de
bigodes seguinte, logo esta classificação separa as zonas urbanas e densas
populacionalmente das zonas interiores.
SelectedNot Selected
clasHier = 2 (FILTER)
600.000
500.000
400.000
300.000
200.000
100.000
0
204125 3716 204174 29240 2954232 5482 204
204
7
208
33
204
168
208
33
186 21094FERLIGAC
FERGRAVA
VITMORTA
VITACVIA
AC.VIAÇA
ACVIAÇAO
HOSPITAI
FARMACIA
MEDICOSP
T.DESEMP
T.ACTIVI
T.MORTAL
T.NATALI
OBITOSHM
NADOSVIV
POP.RES
POP.RESH
DENS.POP
FREGUESI
AREATOTA
Caixa de Bigodes 18 – Comparação do comportamento das variáveis nas duas classes.
Analise de Dados MADSAD-FEP
50/105
- Classificação hierárquica entre variáveis
O critério de ligação que usei nesta classificação foi o critério de Ward.
Se escolher para medida de proximidade distância euclideana obtenho os
seguintes resultados:
- Resumo dos passos seguidos na obtenção das classes:
Stage
Cluster Combined
Coefficients
Stage Cluster First Appears
Next Stage Cluster 1 Cluster 2 Cluster 1 Cluster 2
1 17 20 ,037 0 0 7
2 5 6 ,182 0 0 3
3 4 5 ,383 0 2 10
4 7 15 ,598 0 0 6
5 16 18 ,847 0 0 16
6 7 19 1,165 4 0 7
7 7 17 1,613 6 1 8
8 7 14 2,315 7 0 10
9 3 12 3,229 0 0 11
10 4 7 4,351 3 8 11
11 3 4 5,504 9 10 17
12 11 13 7,001 0 0 15
13 8 10 8,644 0 0 18
14 1 2 10,303 0 0 16
15 9 11 12,379 0 12 18
16 1 16 14,657 14 5 17
17 1 3 18,981 16 11 19
18 8 9 24,593 13 15 19
19 1 8 41,949 17 18 0
Analise de Dados MADSAD-FEP
51/105
- Dendograma:
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
VitAcVia 17
FerLigAc 20
ObtiosHM 7
AcViaCVi 15
FerGravA 19
Hosp.Ofi 14
Pop.Res. 5
NadosViv 6
PopResHM 4
DensPop 3
Medicosp 12
AcViaC_1 16
VitMorAc 18
AreaTota 1
Freguesi 2
TNatalid 8
TActivid 10
TDesempr 11
Farmacia 13
TMortali 9
Este dendograma sugere a divisão em duas classes, a minha escolha para
“cortar” seria por volta de 15. As classes que obteria eram:
Classe1 = { VitAcVia, FerLigAc,ObtiosHM, AcViaCVi, FerGravA, Hosp.Ofi, Pop.Res., NadosViv, PopResHM, DensPop, Medicosp, AcViaC_1,
VitMorAc,AreaTota, Freguesi}
Classe2 = { TNatalid, TActivid, TDesempr, TMortali, Farmacia}.
Analise de Dados MADSAD-FEP
52/105
Se utilizar para medida de proximidade o coeficiente de correlação de Pearson
obtenho o seguinte dendograma:
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
VitAcVia 17
FerLigAc 20
AcViaCVi 15
Pop.Res. 5
NadosViv 6
PopResHM 4
ObtiosHM 7
FerGravA 19
AcViaC_1 16
VitMorAc 18
Medicosp 12
Hosp.Ofi 14
DensPop 3
TNatalid 8
TActivid 10
Freguesi 2
TMortali 9
Farmacia 13
AreaTota 1
TDesempr 11
A partição que penso mais adequada é em duas classe por volta de 20.
Classe1 = { TNatalid, TActivid, VitAcVia, FerLigAc,ObtiosHM, AcViaCVi, FerGravA, Hosp.Ofi, Pop.Res., NadosViv, PopResHM, DensPop, Medicosp,
AcViaC_1, VitMorAc, Freguesi}
Classe2 = { TMortali, Farmácia, AreaTota, TDesempr }.
Que era de esperar uma vez que como vimos na análise bivariada as variáveis mais
correlacionadas são as que primeiro se juntam e que nesta classificação pertencem à
classe 1.
Analise de Dados MADSAD-FEP
53/105
Proximity Matrix
4.2.2 – Classificação não hierárquica
A Classificação hierárquica aglomerativa que acabei de apresentar não é o único
método deste tipo. Existem outros métodos hierárquicos, partitivos ou de optimização
que têm por objectivo realizar uma só partição dos indivíduos em K grupos, o que
implica que previamente se deve fixar o número de grupos. Esta é uma das grandes
diferenças dos métodos não- hierárquicos relativamento ao hierárquicos.
“Os métodos não-hierárquicos são capazes de reagrupar os sujeitos numa
determinada classe diferente daquele em que estes foram inicialmente incluídos o que
não acontece com os métodos hierárquicos onde a inclusão de um sujeito numa
determinada classe é definitiva. A probabilidade de classificação errada de um
determinado sujeito numa determinada classe é pois menor nos métodos não-
hierárquicos, e esta vantagem sobrepõe-se à dificuldade de adivinhar à partida o
número de classes a usar.” [1]
Um dos procedimentos não hierárquicos, bastante conhecido, é “K-Médias”,
baseado na filosofia da atribuir ao indivíduo a classe cujo centro está mais próximo.
Passos deste método:[1]
i) Partição dos concelhos em k classes
ii) Cálculo dos centróides para cada uma das k classes (no SPSS as
primeiras k observações são usadas como centróides das k classes no
primeiro passo do algoritmo) e cálculo da distância euclideana dos
centróides a cada concelho na base de dados;
iii) Agrupar os ceoncelhos às classes cujos centros estão mais próximos, e
voltar ao passo anterior até que não ocorra variação significativa na
distância mínima de cada concelho da base de dados a cada um dos
centros das k classes.
Analise de Dados MADSAD-FEP
54/105
Os centros das classes podem ser conhecidos ou não. No caso aqui em estudo os
centros não são conhecidos. A escolha do valor k foi feita com base na classificação
obtida anteriormente, logo o k escolhido foi 2.
Cluster
1 2
Zscore: AREATOTA -,77255 -,47152
Zscore: FREGUESI 3,15313 -1,03188
Zscore: DENS.POP 7,23076 -,34944
Zscore: NADOSVIV 8,63132 -,55534
Zscore: OBITOSHM 13,20548 -,56516
Zscore: T.NATALI ,62803 -,80999
Zscore: T.MORTAL ,45100 ,03378
Zscore: T.ACTIVI ,81316 -,05986
Zscore: T.DESEMP ,13022 5,96198
Zscore: MEDICOSP 6,07342 ,06036
Zscore: FARMACIA 1,11111 ,64102
Zscore: HOSPITAI 14,48028 -,23684
Zscore: ACVIAÇAO 11,29368 -,62836
Zscore: AC.VIAÇA 5,62581 -,88874
Zscore: VITACVIA 11,11863 -,66312
Zscore: VITMORTA 5,44700 -,85806
Zscore: FERGRAVA 13,44063 -,53896
Zscore: FERLIGAC 10,82435 -,66353
Quadro 38 – Centros iniciais
Em anexo consta a tabela dos concelhos com a respectiva classe atribuída por
este método.
Cluster
1 2
Zscore: AREATOTA -,77255 ,07561
Zscore: FREGUESI 3,15313 ,05008
Zscore: DENS.POP 7,23076 -,00775
Zscore: NADOSVIV 8,63132 ,00008
Zscore: OBITOSHM 13,20548 -,01246
Zscore: T.NATALI ,62803 -,06476
Zscore: T.MORTAL ,45100 -,00453
Zscore: T.ACTIVI ,81316 ,03289
Zscore: T.DESEMP ,13022 ,05723
Zscore: MEDICOSP 6,07342 ,00339
Zscore: FARMACIA 1,11111 -,00342
Zscore: HOSPITAI 14,48028 -,03440
Zscore: ACVIAÇAO 11,29368 -,03691
Zscore: AC.VIAÇA 5,62581 -,01487
Zscore: VITACVIA 11,11863 -,03614
Zscore: VITMORTA 5,44700 -,01433
Zscore: FERGRAVA 13,44063 -,04509
Zscore: FERLIGAC 10,82435 -,03510
Analise de Dados MADSAD-FEP
55/105
Quadro 39 – Centros finais
Cluster 1 2
1 34,297
2 34,297
Quadro 40 – Distância entre os centros finais
No quadro seguinte vemos que uma classe contêm um único concelho e os restantes
estão na outra classe, penso que esta classificação não é satisfatória, um vez que
apresenta um partição desajustada dos concelhos.
Cluster 1 1,000
2 275,000
Valid 276,000
Missing 32,000
Quadro 41 – Numero de casos em casa cluster
Se não estandardizar os dados a partição obtida já é melhor porque uma classe contêm
22 concelhos, o que é melhor que um único concelho.
Os resultados obtidos sem estandardizar são os seguintes:
Centros iniciais
Cluster
1 2
AREATOTA 84,80 168,30
FREGUESI 53,00 1,00
DENS.POP 6246,10 10,80
POP.RESH 564657,00 1924,00
POP.RES 257987,00 942,00
NADOSVIV 5668,00 13,00
OBITOSHM 7528,00 23,00
T.NATALI 10,60 7,10
T.MORTAL 14,10 12,50
T.ACTIVI 48,10 43,00
T.DESEMP 7,40 22,10
MEDICOSP 13,00 1,60
FARMACIA ,60 ,50
HOSPITAI 23,00 ,00
ACVIAÇAO 2621,00 2,00
AC.VIAÇA 27,00 ,00
VITACVIA 3290,00 2,00
VITMORTA 30,00 ,00
FERGRAVA 366,00 1,00
FERLIGAC 2894,00 1,00
Analise de Dados MADSAD-FEP
56/105
Iteration History(a)
Iteration
Change in Cluster Centers
1 2
1 72211,845 33464,188
2 75066,245 918,904
3 51945,640 935,601
4 88979,562 1872,101
5 27020,581 552,755
6 89731,610 6338,735
7 7396,816 459,277
8 321,601 1,801
9 13,983 ,007
10 ,608 2,77E-005
11 ,026 1,09E-007
12 ,001 4,30E-010
13 5,00E-005 3,64E-012
14 2,17E-006 ,000
15 9,45E-008 ,000
16 4,11E-009 ,000
17 1,30E-010 ,000
18 7,38E-015 ,000
19 ,000 ,000
Final Cluster Centers
Cluster
1 2
AREATOTA 176,47 331,57
FREGUESI 26,64 13,54
DENS.POP 2185,54 151,29
POP.RESH 187937,95 21948,07
POP.RES 90004,68 10943,68
NADOSVIV 2111,23 223,70
OBITOSHM 1609,14 241,29
T.NATALI 11,07 8,73
T.MORTAL 7,89 12,75
T.ACTIVI 52,36 42,80
T.DESEMP 6,94 7,24
MEDICOSP 4,91 1,24
FARMACIA ,24 ,37
HOSPITAI 2,64 ,20
ACVIAÇAO 653,64 96,54
AC.VIAÇA 10,41 3,13
VITACVIA 808,14 134,56
VITMORTA 11,36 3,48
FERGRAVA 57,50 11,50
FERLIGAC 741,68 119,58
Cluster 1 2
1
183885,920
2 183885,920
Quadro 42- Distância entre centros finais
Cluster 1 22,000
2 254,000
Valid 276,000
Missing 32,000
Quadro 43- Número de casos em casa cluster
4.3 - Análise Discriminante
Uma outra técnica de estatística multivariada é a Análise Dicriminante e cujos
objectivos são:
- Identificação das variáveis que melhor diferenciam entre dois ou mais grupos de
indivíduos estruturalmente diferentes e mutuamente exclusivos;
- Utilização destas variáveis para criar uma função discriminante que represente as
diferenças entre os indivíduos;
- Utilização da função discriminante para classificar à priori novos indivíduos.
Com o Método STEPWISE
No método Stepwise a análise começa sem nenhuma variável e nos passos
seguintes as variáveis são adicionadas ou removidas consoante a sua contribuição para a
capacidade discriminante da 1ª função discriminante. Desta forma, uma variável
presente na função discriminante é removida se a capacidade da função discriminante
não for significativamente reduzida pela remoção dessa variável. Por outro lado, uma
variável é adicionada se aumentar significativamente a capacidade discriminativa da
função discriminante.
Analise discritiva
Unweighted Cases N Percent
Valid 276 89,6
Excluded Missing or out-of-range group codes 0 ,0
At least one missing discriminating variable 32 10,4
Both missing or out-of-range group codes and at least one missing discriminating variable
0 ,0
Total 32 10,4
Total 308 100,0
Quadro 44 – Sumário da análise
Analise de Dados MADSAD-FEP
58/105
Como já referi, na análise bivariada, as variáveis mais correlacionadas são:
Logo estas variáveis não deveriam ser incluídas na análise, no entanto de
seguida apresento os resultados obtidos com todas as variáveis e sem as variáveis da
tabela anterior.
O quadro seguinte apresenta a ANOVA one-way para cada uma das variáveis
independentes: Tests of Equality of Group Means
Wilks'
Lambda F df1 df2 Sig.
Zscore: AREATOTA ,953 13,522 1 274 ,000
Zscore: FREGUESI ,972 7,993 1 274 ,005
Zscore: DENS.POP ,781 76,858 1 274 ,000
Zscore: NADOSVIV ,610 175,440 1 274 ,000
Zscore: OBITOSHM ,770 81,753 1 274 ,000
Zscore: T.NATALI ,663 139,384 1 274 ,000
Zscore: T.MORTAL ,651 146,917 1 274 ,000
Zscore: T.ACTIVI ,546 228,290 1 274 ,000
Zscore: T.DESEMP ,945 15,999 1 274 ,000
Zscore: MEDICOSP ,872 40,127 1 274 ,000
Zscore: FARMACIA ,851 48,070 1 274 ,000
Zscore: HOSPITAI ,928 21,269 1 274 ,000
Zscore: ACVIAÇAO ,650 147,862 1 274 ,000
Zscore: AC.VIAÇA ,626 163,584 1 274 ,000
Zscore: VITACVIA ,641 153,239 1 274 ,000
Zscore: VITMORTA ,645 150,638 1 274 ,000
Zscore: FERGRAVA ,796 70,238 1 274 ,000
Zscore: FERLIGAC ,632 159,714 1 274 ,000
Uma vez que os valores de significância são quase nulos posso assumir que para
estas variáveis existe pelo menos um grupo onde as médias são diferentes.
Analise de Dados MADSAD-FEP
59/105
Nos quadros seguintes é possível verificar os pressupostos da análise discriminante.
Log Determinants
clasHier Rank Log
Determinant
classe 1 8 -20,627
classe2 8 -5,287
Pooled within-groups 8 -8,157
The ranks and natural logarithms of determinants printed are those of the group covariance matrices.
O valor de significância do teste de box é inferior a 5% logo rejeita-se a hipótese
da igualdade das matrizes de variância-covariância para os dois grupos em estudo.
Test Results
Box's M 2281,605
F Approx. 60,711
df1 36
df2 70471,209
Sig. ,000
Tests null hypothesis of equal population covariance matrices.
Apesar de se rejeitar a hipótese nula penso que não haverá problema em
continuar a análise uma vez que este método é bastante robusto.
O próximo quando são apresentadas as variáveis de entrada-saída do modelo com o
método Stepwise. As variáveis vão entrando e saindo do modelo à medida que
diminui.
Step Entered Wilks' Lambda
Statistic df1 df2 df3 Exact F
Statistic df1 df2 Sig.
1 Zscore: T.ACTIVI
,546 1 1 274,000 228,290 1 274,000 ,000
2 Zscore: AC.VIAÇA
,433 2 1 274,000 178,985 2 273,000 ,000
3 Zscore: AREATOTA
,405 3 1 274,000 133,255 3 272,000 ,000
4 Zscore: DENS.POP
,390 4 1 274,000 105,852 4 271,000 ,000
5 Zscore: HOSPITAI
,375 5 1 274,000 89,844 5 270,000 ,000
6 Zscore: ACVIAÇAO
,365 6 1 274,000 78,071 6 269,000 ,000
Analise de Dados MADSAD-FEP
60/105
7 Zscore: OBITOSHM
,351 7 1 274,000 70,927 7 268,000 ,000
8 Zscore: T.NATALI
,345 8 1 274,000 63,443 8 267,000 ,000
At each step, the variable that minimizes the overall Wilks' Lambda is entered. a Maximum number of steps is 36. b Minimum partial F to enter is 3.84. c Maximum partial F to remove is 2.71. d F level, tolerance, or VIN insufficient for further computation.
No quadro seguinte apresentam-se as variáveis em análise em cada passo da análise
discriminante. Neste quadro aparece a tolerância é uma estatística que mede as relações
lineares entre as variáveis. O valor é igual a 21 R , sendo 2R o coeficiente de
correlação múltipla entre uma variável e todas as outras, actuando a primeira como
dependente no modelo de regressão múltipla e o resto como independentes. Quanto
mais próximo de zero for este coeficiente, maior a probabilidade de que a variável possa
ser uma combinação linear das outras variáveis independentes. No passo 0 e como
nenhuma variável entrou no modelo, os níveis de tolerância são 1 para todas as
variáveis. Logo interessa um valor de tolerância elevado pois significa essas variáveis
contribuíram muito para o modelo.
Verifica-se que das variáveis que não entram no primeiro passo a que vai ser escolhida
para entra do segundo passo é a que tem maior valor de F e um valor de de Wilks
relativamente baixo.
Step Tolerance F to Remove Wilks'
Lambda
1 Zscore: T.ACTIVI 1,000 228,290
2 Zscore: T.ACTIVI ,991 122,092 ,626
Zscore: AC.VIAÇA ,991 71,195 ,546
3 Zscore: T.ACTIVI ,976 91,866 ,542
Zscore: AC.VIAÇA ,881 90,350 ,539
Zscore: AREATOTA ,882 18,651 ,433
4 Zscore: T.ACTIVI ,963 75,887 ,500
Zscore: AC.VIAÇA ,871 75,986 ,500
Zscore: AREATOTA ,847 12,016 ,408
Zscore: DENS.POP ,940 10,167 ,405
5 Zscore: T.ACTIVI ,942 59,546 ,458
Zscore: AC.VIAÇA ,665 88,063 ,498
Zscore: AREATOTA ,845 12,570 ,393
Zscore: DENS.POP ,653 20,105 ,403
Zscore: HOSPITAI ,545 10,684 ,390
6 Zscore: T.ACTIVI ,897 43,204 ,423
Zscore: AC.VIAÇA ,494 34,227 ,411
Zscore: AREATOTA ,843 11,183 ,380
Zscore: DENS.POP ,615 12,563 ,382
Zscore: HOSPITAI ,285 18,753 ,390
Zscore: ACVIAÇAO ,216 7,835 ,375
7 Zscore: T.ACTIVI ,840 27,136 ,386
Zscore: AC.VIAÇA ,485 26,568 ,385
Zscore: AREATOTA ,821 7,178 ,360
Zscore: DENS.POP ,402 23,441 ,381
Zscore: HOSPITAI ,255 8,143 ,361
Zscore: ACVIAÇAO ,056 18,484 ,375
Analise de Dados MADSAD-FEP
61/105
Zscore: OBITOSHM ,046 10,870 ,365
8 Zscore: T.ACTIVI ,580 8,751 ,356
Zscore: AC.VIAÇA ,485 25,275 ,377
Zscore: AREATOTA ,797 5,003 ,351
Zscore: DENS.POP ,396 25,380 ,377
Zscore: HOSPITAI ,254 7,287 ,354
Zscore: ACVIAÇAO ,056 18,467 ,369
Zscore: OBITOSHM ,045 11,348 ,359
Zscore: T.NATALI ,634 4,525 ,351
Quadro 45 – Variáveis em analise
Em anexo 5 apresento o quadro das variáveis que ficam de fora em cada passo.
De todas as variáveis que ficam de fora do modelo no primeiro passo, a seguinte a
entrar no mesmo será a que tem F maior e um de Wilks com valor mais pequeno.
No quadro seguinte é testada a significância das funções discriminantes, em todas as
comparações o valor de significância é nulo logo pode concluir-se que pelo menos uma
função discriminante é altamente significativa.
Step Number of Variables Lambda df1 df2 df3 Exact F
Statistic df1 df2 Sig.
1 1 ,546 1 1 274 228,290 1 274,000 ,000
2 2 ,433 2 1 274 178,985 2 273,000 ,000
3 3 ,405 3 1 274 133,255 3 272,000 ,000
4 4 ,390 4 1 274 105,852 4 271,000 ,000
5 5 ,375 5 1 274 89,844 5 270,000 ,000
6 6 ,365 6 1 274 78,071 6 269,000 ,000
7 7 ,351 7 1 274 70,927 7 268,000 ,000
8 8 ,345 8 1 274 63,443 8 267,000 ,000
Quadro 46 – Lambda de Wilks
Os próximos quadros resumem a análise discriminante mas agora apenas com as
variáveis seleccionadas com o método Stepwise. Estes quadros teriam mais interesse se
fosse um caso de mais de dois grupos.
Function Eigenvalue % of Variance Cumulative % Canonical Correlation
1 1,901(a) 100,0 100,0 ,809
a First 1 canonical discriminant functions were used in the analysis.
Este quadro apresenta a proporção de variância explicada pela função, como só tenho
uma função, esta explica 100% da variância.
A correlação canónica de 0,809 é a raiz quadrada do quociente entre a soma entregrupos
e o total da função discriminante.
O quadro seguinte mostra que a função discriminante é estatisticamente significativa,
como era de esperar!
Analise de Dados MADSAD-FEP
62/105
Test of Function(s) Wilks'
Lambda Chi-square df Sig.
1 ,345 287,556 8 ,000
No quadro seguinte temos uma forma de interpreter a contribuição de cada variável na
função discriminante através dos coeficientes estandardizados da função discriminante.
Function
1
AREATOTA -,188
DENS.POP ,578
OBITOSHM -1,169
T.NATALI ,200
T.ACTIVI ,289
HOSPITAI -,399
ACVIAÇAO 1,322
AC.VIAÇA ,522
Quadro 47 - Coeficientes estandardizados das funções discriminante
Correlações entre as variáveis e as funções
discriminante
Function
1
Zscore: T.ACTIVI ,662
Zscore: AC.VIAÇA ,560
Zscore: NADOSVIV(a)
,540
Zscore: FERLIGAC(a)
,540
Zscore: VITMORTA(a)
,536
Zscore: VITACVIA(a) ,534
Zscore: ACVIAÇAO ,533
Zscore: T.NATALI ,517
Zscore: T.MORTAL(a)
-,513
Zscore: FERGRAVA(a)
,403
Zscore: OBITOSHM ,396
Zscore: DENS.POP ,384
Zscore: MEDICOSP(a)
,265
Zscore: FARMACIA(a)
-,229
Zscore: HOSPITAI ,202
Zscore: T.DESEMP(a)
-,181
Zscore: AREATOTA -,161
Zscore: FREGUESI(a)
,048
a Variável não usada na análise.
Coeficientes não estandardizados da função
discriminante
Function
1
Zscore: AREATOTA -,187
Zscore: DENS.POP ,622
Zscore: OBITOSHM -1,276
Zscore: T.NATALI ,266
Zscore: T.ACTIVI ,378
Zscore: HOSPITAI -,393
Zscore: ACVIAÇAO 1,634
Zscore: AC.VIAÇA ,657
(Constant) ,047
No quadro seguinte observa-se que os valores são muito distintos o que mostra que as
classes estão bem separadas.
Médias dos Grupos para a função discriminante
clasHier
Function
1
classe 1 -,839
classe2 2,249
O quadro seguinte apresenta as probabilidade á priori calculadas apartir da
amostra porque seleccionei a opção Compute from group sizes. E no seguinte apresento
os coeficientes das funções de Classificação.
A 1ª função discriminante é :
107.1.535.0062.2293.0
066.0436.0786.1651.0200.0
VIAÇAACACVIACAOHOSP
TACTTNATOBITDENSPAREAT
Prior Probabilities for Groups
clasHier Prior
Cases Used in Analysis
Unweighted Weighted
classe 1 ,728 201 201,000
classe2 ,272 75 75,000
Total 1,000 276 276,000
Classification Function Coefficients
clasHier
classe 1 classe2
Zscore: AREATOTA ,200 -,378
Zscore: DENS.POP -,651 1,270
Zscore: OBITOSHM 1,786 -2,154
Zscore: T.NATALI -,436 ,386
Zscore: T.ACTIVI -,066 1,102
Zscore: HOSPITAI ,293 -,922
Zscore: ACVIAÇAO -2,062 2,983
Zscore: AC.VIAÇA -,535 1,494
(Constant) -1,107 -3,138
Fisher's linear discriminant functions
Analise de Dados MADSAD-FEP
64/105
Os histogramas seguintes apresentam as pontuações discriminantes para cada um dos
grupos separadamente. As medias do primeiro grupo é de 0,66 , do segundo é 2,25.
210-1-2-3-4
25
20
15
10
5
0
clasHier = classe 1
Mean =-0,66Std. Dev. =0,946
N =233
Canonical Discriminant Function 1
5,02,50,0
20
15
10
5
0
clasHier = classe2
Mean =2,25Std. Dev. =1,35
N =75
Canonical Discriminant Function 1
Os resultados da classificação, apresentados a seguir, mostram que 93,2% dos casos
foram classificados correctamente e que 2 concelhos da classe 2 (classe com concelhos
mais densos populacionalmente) foram classificados na classe 1.
clasHier
Predicted Group Membership
Total classe 1 classe2
Original Count classe 1 214 19 233
classe2 2 73 75
% classe 1 91,8 8,2 100,0
classe2 2,7 97,3 100,0
Quadro 48 – Resultados da classificação
a 93,2% of original grouped cases correctly classified.
Analise de Dados MADSAD-FEP
65/105
Um análise que considerei pertinente foi fazer a análise discriminante com o
método stepwise mas sem as variáveis mais correlacionadas. Os resultados obtidos
foram os seguintes.
Tests of Equality of Group Means
Wilks'
Lambda F df1 df2 Sig.
Zscore: AREATOTA ,953 13,522 1 274 ,000
Zscore: FREGUESI ,972 7,993 1 274 ,005
Zscore: DENS.POP ,781 76,858 1 274 ,000
Zscore: T.NATALI ,663 139,384 1 274 ,000
Zscore: T.MORTAL ,651 146,917 1 274 ,000
Zscore: T.ACTIVI ,546 228,290 1 274 ,000
Zscore: T.DESEMP ,945 15,999 1 274 ,000
Zscore: MEDICOSP ,872 40,127 1 274 ,000
Zscore: FARMACIA ,851 48,070 1 274 ,000
Zscore: HOSPITAI ,928 21,269 1 274 ,000
Zscore: AC.VIAÇA ,626 163,584 1 274 ,000
Zscore: VITACVIA ,641 153,239 1 274 ,000
Zscore: VITMORTA ,645 150,638 1 274 ,000
Log Determinants
clasHier Rank Log
Determinant
classe 1 7 -15,726
classe2 7 -2,405
Pooled within-groups 7 -4,355
The ranks and natural logarithms of determinants printed are those of the group covariance matrices.
Test Results
Box's M 2130,095
F Approx. 73,266
df1 28
df2 72558,687
Sig. ,000
Tests null hypothesis of equal population covariance matrices.
Analise de Dados MADSAD-FEP
66/105
Variables Entered/Removed(a,b,c,d)
Step Entered Wilks' Lambda
Statistic df1 df2 df3 Exact F
Statistic df1 df2 Sig.
1 Zscore: T.ACTIVI
,546 1 1 274,0
00 228,290 1 274,000 ,000
2 Zscore: AC.VIAÇA
,433 2 1 274,0
00 178,985 2 273,000 ,000
3 Zscore: AREATOTA
,405 3 1 274,0
00 133,255 3 272,000 ,000
4 Zscore: DENS.POP
,390 4 1 274,0
00 105,852 4 271,000 ,000
5 Zscore: HOSPITAI
,375 5 1 274,0
00 89,844 5 270,000 ,000
6 Zscore: VITACVIA
,367 6 1 274,0
00 77,437 6 269,000 ,000
7 Zscore: T.NATALI
,361 7 1 274,0
00 67,691 7 268,000 ,000
Variables in the Analysis
Step Tolerance F to Remove Wilks'
Lambda
1 Zscore: T.ACTIVI 1,000 228,290
2 Zscore: T.ACTIVI ,991 122,092 ,626
Zscore: AC.VIAÇA ,991 71,195 ,546
3 Zscore: T.ACTIVI ,976 91,866 ,542
Zscore: AC.VIAÇA ,881 90,350 ,539
Zscore: AREATOTA ,882 18,651 ,433
4 Zscore: T.ACTIVI ,963 75,887 ,500
Zscore: AC.VIAÇA ,871 75,986 ,500
Zscore: AREATOTA ,847 12,016 ,408
Zscore: DENS.POP ,940 10,167 ,405
5 Zscore: T.ACTIVI ,942 59,546 ,458
Zscore: AC.VIAÇA ,665 88,063 ,498
Zscore: AREATOTA ,845 12,570 ,393
Zscore: DENS.POP ,653 20,105 ,403
Zscore: HOSPITAI ,545 10,684 ,390
6 Zscore: T.ACTIVI ,903 45,355 ,428
Zscore: AC.VIAÇA ,523 41,115 ,423
Zscore: AREATOTA ,844 11,608 ,382
Zscore: DENS.POP ,649 17,750 ,391
Zscore: HOSPITAI ,402 16,986 ,390
Zscore: VITACVIA ,375 6,407 ,375
7 Zscore: T.ACTIVI ,618 16,933 ,384
Zscore: AC.VIAÇA ,523 39,609 ,415
Zscore: AREATOTA ,821 8,856 ,373
Zscore: DENS.POP ,642 19,208 ,387
Zscore: HOSPITAI ,402 15,943 ,383
Zscore: VITACVIA ,374 5,720 ,369
Zscore: T.NATALI ,635 4,012 ,367
Analise de Dados MADSAD-FEP
67/105
Variables Not in the Analysis
Step Tolerance Min.
Tolerance F to Enter Wilks'
Lambda
0 Zscore: AREATOTA 1,000 1,000 13,522 ,953
Zscore: FREGUESI 1,000 1,000 7,993 ,972
Zscore: DENS.POP 1,000 1,000 76,858 ,781
Zscore: T.NATALI 1,000 1,000 139,384 ,663
Zscore: T.MORTAL 1,000 1,000 146,917 ,651
Zscore: T.ACTIVI 1,000 1,000 228,290 ,546
Zscore: T.DESEMP 1,000 1,000 15,999 ,945
Zscore: MEDICOSP 1,000 1,000 40,127 ,872
Zscore: FARMACIA 1,000 1,000 48,070 ,851
Zscore: HOSPITAI 1,000 1,000 21,269 ,928
Zscore: AC.VIAÇA 1,000 1,000 163,584 ,626
Zscore: VITACVIA 1,000 1,000 153,239 ,641
Zscore: VITMORTA 1,000 1,000 150,638 ,645
1 Zscore: AREATOTA ,993 ,993 3,088 ,539
Zscore: FREGUESI ,959 ,959 19,552 ,509
Zscore: DENS.POP ,979 ,979 24,194 ,501
Zscore: T.NATALI ,662 ,662 7,512 ,531
Zscore: T.MORTAL ,654 ,654 8,704 ,529
Zscore: T.DESEMP ,974 ,974 1,396 ,543
Zscore: MEDICOSP ,989 ,989 12,386 ,522
Zscore: FARMACIA ,984 ,984 13,941 ,519
Zscore: HOSPITAI 1,000 1,000 11,234 ,524
Zscore: AC.VIAÇA ,991 ,991 71,195 ,433
Zscore: VITACVIA ,968 ,968 52,407 ,458
Zscore: VITMORTA ,995 ,995 68,136 ,437
2 Zscore: AREATOTA ,882 ,881 18,651 ,405
Zscore: FREGUESI ,832 ,832 1,665 ,430
Zscore: DENS.POP ,978 ,972 16,752 ,408
Zscore: T.NATALI ,662 ,658 6,358 ,423
Zscore: T.MORTAL ,654 ,651 6,446 ,423
Zscore: T.DESEMP ,970 ,968 ,309 ,432
Zscore: MEDICOSP ,881 ,881 ,473 ,432
Zscore: FARMACIA ,982 ,977 8,931 ,419
Zscore: HOSPITAI ,802 ,796 ,157 ,432
Zscore: VITACVIA ,603 ,603 5,380 ,424
Zscore: VITMORTA ,055 ,054 ,038 ,433
3 Zscore: FREGUESI ,824 ,791 2,821 ,401
Zscore: DENS.POP ,940 ,847 10,167 ,390
Zscore: T.NATALI ,649 ,649 3,444 ,400
Zscore: T.MORTAL ,622 ,622 2,446 ,401
Zscore: T.DESEMP ,937 ,851 ,057 ,405
Zscore: MEDICOSP ,876 ,781 ,123 ,405
Zscore: FARMACIA ,949 ,852 4,647 ,398
Zscore: HOSPITAI ,784 ,691 1,036 ,403
Zscore: VITACVIA ,594 ,547 3,003 ,400
Zscore: VITMORTA ,055 ,054 ,044 ,405
Analise de Dados MADSAD-FEP
68/105
4 Zscore: FREGUESI ,824 ,785 2,562 ,387
Zscore: T.NATALI ,637 ,637 5,084 ,383
Zscore: T.MORTAL ,615 ,615 3,537 ,385
Zscore: T.DESEMP ,899 ,805 ,160 ,390
Zscore: MEDICOSP ,715 ,715 1,215 ,389
Zscore: FARMACIA ,943 ,815 5,569 ,382
Zscore: HOSPITAI ,545 ,545 10,684 ,375
Zscore: VITACVIA ,507 ,507 ,302 ,390
Zscore: VITMORTA ,054 ,054 ,154 ,390
5 Zscore: FREGUESI ,814 ,539 3,698 ,370
Zscore: T.NATALI ,637 ,545 4,688 ,369
Zscore: T.MORTAL ,607 ,538 2,212 ,372
Zscore: T.DESEMP ,898 ,544 ,072 ,375
Zscore: MEDICOSP ,493 ,376 ,717 ,374
Zscore: FARMACIA ,909 ,525 2,988 ,371
Zscore: VITACVIA ,375 ,375 6,407 ,367
Zscore: VITMORTA ,054 ,052 ,055 ,375
6 Zscore: FREGUESI ,765 ,352 1,762 ,364
Zscore: T.NATALI ,635 ,374 4,012 ,361
Zscore: T.MORTAL ,605 ,373 1,740 ,364
Zscore: T.DESEMP ,898 ,375 ,055 ,367
Zscore: MEDICOSP ,477 ,275 1,706 ,364
Zscore: FARMACIA ,906 ,374 2,472 ,363
Zscore: VITMORTA ,054 ,050 ,155 ,366
7 Zscore: FREGUESI ,762 ,352 1,406 ,359
Zscore: T.MORTAL ,543 ,373 ,504 ,361
Zscore: T.DESEMP ,897 ,373 ,090 ,361
Zscore: MEDICOSP ,477 ,275 1,763 ,359
Zscore: FARMACIA ,843 ,373 1,152 ,360
Zscore: VITMORTA ,054 ,050 ,115 ,361
Wilks' Lambda
Step Number of Variables Lambda df1 df2 df3 Exact F
Statistic df1 df2 Sig.
1 1 ,546 1 1 274 228,290 1 274,000 ,000
2 2 ,433 2 1 274 178,985 2 273,000 ,000
3 3 ,405 3 1 274 133,255 3 272,000 ,000
4 4 ,390 4 1 274 105,852 4 271,000 ,000
5 5 ,375 5 1 274 89,844 5 270,000 ,000
6 6 ,367 6 1 274 77,437 6 269,000 ,000
7 7 ,361 7 1 274 67,691 7 268,000 ,000
Eigenvalues
Function Eigenvalue % of Variance Cumulative % Canonical Correlation
1 1,768(a) 100,0 100,0 ,799
Analise de Dados MADSAD-FEP
69/105
Wilks' Lambda
Test of Function(s) Wilks'
Lambda Chi-square df Sig.
1 ,361 275,408 7 ,000
Standardized Canonical Discriminant Function Coefficients
Function
1
Zscore: AREATOTA -,247
Zscore: DENS.POP ,404
Zscore: T.NATALI ,191
Zscore: T.ACTIVI ,388
Zscore: HOSPITAI -,468
Zscore: AC.VIAÇA ,621
Zscore: VITACVIA ,296
Function
1
Zscore: T.ACTIVI ,686
Zscore: AC.VIAÇA ,581
Zscore: VITACVIA ,562
Zscore: VITMORTA(a)
,552
Zscore: T.NATALI ,536
Zscore: T.MORTAL(a)
-,511
Zscore: DENS.POP ,398
Zscore: FARMACIA(a)
-,240
Zscore: MEDICOSP(a)
,218
Zscore: HOSPITAI ,210
Zscore: AREATOTA -,167
Zscore: T.DESEMP(a)
-,160
Zscore: FREGUESI(a)
,049
Mais uma vez as classes estão bem discriminadas. Canonical Discriminant Function Coefficients
Function
1
Zscore: AREATOTA -,246
Zscore: DENS.POP ,435
Zscore: T.NATALI ,253
Zscore: T.ACTIVI ,508
Zscore: HOSPITAI -,461
Zscore: AC.VIAÇA ,782
Zscore: VITACVIA ,368
(Constant) ,010
Functions at Group Centroids
clasHier Function
1
classe 1 -,809
classe2 2,169
Classification Processing Summary
Processed 308
Excluded Missing or out-of-range group codes 0
At least one missing discriminating variable
0
Used in Output 308
Prior Probabilities for Groups
clasHier Prior
Cases Used in Analysis
Unweighted Weighted
classe 1 ,728 201 201,000
classe2 ,272 75 75,000
Total 1,000 276 276,000
As variáveis que entraram na função discriminante no modelo anterior foram:
AREAT- área total, DENSP- densidade populacional, OBIT- Obitos2001, TNAT- taxa
natalidade, HOSP- nº hospitais, ACVIACAO- acidentes de viação com vitimas, e
AC.VIAÇA- acidentes de viação com vitimas mortais.
Enquanto que nesta análise entram TACT- Taxa de actividade, VITACVIA- vitimas em
acidentes de viação, e não entram OBIT- Obitos2001, ACVIACAO- acidentes de viação
com vitimas.
A primeira função discriminante é :
665.0324.0663.0404.0
220.0407.0347.0269.0
VITACVIAACVIAHOSP
TACTTNATDENSPAREAT
Coeficientes da Função de Classificação
clasHier
classe 1 classe2
Zscore: AREATOTA ,269 -,464
Zscore: DENS.POP -,347 ,947
Zscore: T.NATALI -,407 ,348
Zscore: T.ACTIVI -,220 1,293
Zscore: HOSPITAI ,404 -,968
Zscore: AC.VIAÇA -,663 1,667
Zscore: VITACVIA -,324 ,772
(Constant) -,665 -3,646
Fisher's linear discriminant functions
210-1-2-3-4
30
25
20
15
10
5
0
clasHier = classe 1
Mean =-0,68Std. Dev. =0,904
N =233
Canonical Discriminant Function 1
5,02,50,0
20
15
10
5
0
clasHier = classe2
Mean =2,17Std. Dev. =1,305
N =75
Canonical Discriminant Function 1
Analise de Dados MADSAD-FEP
71/105
Resultados da Classificação
clasHier
Predicted Group Membership
Total classe 1 classe2
Original Count classe 1 228 5 233
classe2 8 67 75
% classe 1 97,9 2,1 100,0
classe2 10,7 89,3 100,0
a 95,8% of original grouped cases correctly classified.
A percentagem de classificação correcta foi superior neste caso de 95,8%.
Analise de Dados MADSAD-FEP
72/105
4.4- Análise em Componentes Principais Normada
Nesta secção mostro como apliquei o método ACP ao quadro de dados em
estudo que, como já referi, tem dimensão 308 x 22.
Quero encontrar a matriz T que representa uma transformação linear dos dados
X por forma a obter umas novas coordenadas Y , isto é:
XTY t
Esta transformação toma o nome de transformação de Karhunen-Loéwe ou de
Hotelling.
O objectivo é encontrar o espaço W de dimensão q que representa
aproximadamente a nuvem de pontos dos n indivíduos e em que pq . Esse espaço é
obtido da seguinte forma:
- quero minimizar a deformação em projecção da nuvem de indivíduos inicial ou
seja, maximizar a inércia da nuvem dos indivíduos projectados.
k
q
k
t
k
n
i
k
q
k
t
kQiiW VQuQuMaxVQuQuxpMinIMin11 1
2
Considerando kk uQv 21
e 21
21
VQQS quero maximizar
q
k
k
t
k Svv1
.
S é uma matriz simétrica definida não negativa, então S é diagonizável e existe
uma base ortonormada de vectores próprios pwww ,...,, 21 em que os valores próprios
são não negativos. Sejam pqq ...... 121 os valores próprios de S
por ordem crescente.
Proposição: Os vectores quuu ,...,, 21 , com kk vQu 21
, são os vectores próprios
de VQ associados aos valores próprios p ,...,, 21 , que são também os valores
próprios de S .(6)
Os eixos de inércia são os eixos gerados por quuu ,...,, 21 . As projecções dos n
indivíduos em W formam uma nova nuvem de pontos, em que cada ponto possui q
coordenadas. (6)
Definição: ky é a kª componente principal que é um vector cujas componentes
são as coordenandas dos pontos da nuvem no kº eixo principal de inércia, ku . (6)
Analise de Dados MADSAD-FEP
73/105
Este método consiste basicamente em obter uma combinação linear de todas as
variáveis de modo a que a primeira componente principal seja uma combinação que
explique a maior percentagem da variância da amostra.
A comunalidade é a proporção da variança explicada pelos factores comuns de
uma variavel. Logo a comunalidade inicial é sempre igual à unidade porque se
utilizarmos tantas componentes principais como variáveis cada variável pode ser
explicada por ela mesma e portanto toda a variabilidade de cada variável é igual à
unidade como mostra o quadro seguinte:
Comunalidades
Initial Extraction
AreaTotal 1,000 ,560
Freguesias 1,000 ,470
Dens.Pop 1,000 ,714
Pop.ResHM2001 1,000 ,941
Pop.Res.H2001 1,000 ,931
NadosVivosHM 1,000 ,896
ObitosHM 1,000 ,967
T.Natalidade 1,000 ,713
T.Mortalidade 1,000 ,812
T.ActividadeHM2001 1,000 ,725
T.DesempregoHM2001 1,000 ,243
Medicospor1000 1,000 ,510
Farmaciapor1000 1,000 ,492
HospitaisOficiais 1,000 ,772
AcViaçaoCVitimas 1,000 ,976
Ac.ViaçaoCVitMort 1,000 ,819
VitAcViaçao 1,000 ,924
VitMortAçViaçao 1,000 ,801
FerGravACViaçao 1,000 ,839
FerLigAcViaçao 1,000 ,921
Extraction Method: Principal Component Analysis.
Na coluna Extraccion temos a capacidade que têm as componentes retidas de
explicar a variação de cada variável original, por exemplo 56.0% da variação da
variável AreaTotal é explicada pelas componentes retidas.
Analise de Dados MADSAD-FEP
74/105
Quadro da variância total explicada - onde constam percentagens individuais
e acumuladas, e a proporção de variância total explicada por cada factor. Esta proporção
é obtida da seguinte forma:
%100%100)(
1
p
k
k
kk
VQtr
Como os três maiores valores próprios são maiores que um decido reter os três
primeiros eixos, pois estes são suficientes para retirar conclusões sobre o quadro de
dados em estudo, uma vez que são capazes de explicar 76.27 % da variabilidade total,
que é uma percentagem relativamente alta.
A soma dos valores próprios dá 20 que é o número de componentes.
Gráfico dos resultados, nas abcissas vem o número de factores e nas ordenadas
os valores próprios respectivos;
Analise de Dados MADSAD-FEP
75/105
Este gráfico fornece-nos uma forma visual de avaliar quantas componentes se
devem seleccionar, neste caso seriam seleccionadas as três primeiras porque da quarta
para a quinta a linha que as une é quase horizontal (Critério Screen Plot). O SPSS retém
as componentes principais com valor próprio superior a um (Critério de Keiser).
O quadro seguinte contêm os coeficientes utilizados para expressar cada variável
estandardizada, estes coeficientes indicam-nos o peso de cada variável em cada
componente.
Component
1 2 3
AREATOTA -,105 ,436 ,599
FREGUESI ,382 ,078 ,564
DENS.POP ,668 ,050 -,515
POP.RESH ,959 ,096 -,113
POP.RES ,956 ,077 -,105
NADOSVIV ,940 ,014 -,111
OBITOSHM ,936 ,271 -,135
T.NATALI ,491 -,685 -,057
T.MORTAL -,514 ,739 -,040
T.ACTIVI ,590 -,603 -,115
T.DESEMP -,170 ,401 -,230
MEDICOSP ,651 ,211 -,207
FARMACIA -,307 ,615 -,141
HOSPITAI ,750 ,425 -,170
ACVIAÇAO ,978 ,136 -,019
AC.VIAÇA ,794 -,032 ,433
VITACVIA ,955 ,076 ,081
VITMORTA ,767 -,037 ,460
FERGRAVA ,881 ,241 ,071
FERLIGAC ,955 ,062 ,070
Extraction Method: Principal Component Analysis. a 3 components extracted.
Na figura 1 podemos pode observar-se que as variáveis estão quase todas bem
representadas uma vez que estão quase todas muito próximo da circunferência, à
excepção das variáveis T.Desemp., AREA TOTAL, DENS.POP.
Analise de Dados MADSAD-FEP
76/105
As variáveis que mais contribuíram para a formação do primeiro eixo foram, por
exemplo, NADOSVIV e VITAÇVIA. As variáveis relacionadas com os acidentes de
viação são as que mais contribuíram para o 1º eixo.
Figura 1- Gráfico da projecção das variáveis no plano formado pelos eixos factoriais 1 e 2
O mesmo resultado se obtém no SPSS.
È possível ainda observar que as variáveis T.Natalidade e T.Activi se opõem às
variáveis T.Mortalidade, Farmácia, T.Desemp, AreaTotal, logo o segundo eixo está
associado ao envelhecimento dos concelhos.
Analise de Dados MADSAD-FEP
77/105
Na figura 2 obtemos as projecções das variáveis nos eixos factoriais 1 e 3, aqui
hà variáveis em todos os quadrantes. Este eixo opõe concelhos com elevada densidade
populacional e pequena área, isto é, está relacionado com a dimensão do Concelho.
As variáveis pior representadas são a T.Desemp. e Farmácia.
Pode observar-se ainda que associados a elevadas áreas estão concelhos com
elevados valores de acidentes de viação e com baixas densidades populacionais o que
contribui para a desertificação do país.
Figura 2 - Gráfico da projecção das variáveis no plano formado pelos eixos factoriais 1 e 3
Na figura 3 obtemos as projecções das variáveis nos eixos factoriais 2 e 3, nestas
projecções a maior parte das variáveis estão mal representadas porque se encontram
muito afastadas do círculo das correlações.
Analise de Dados MADSAD-FEP
78/105
Figura 3- Gráfico da projecção das variáveis no plano formado pelos eixos factoriais 2 e 3
No quadro seguinte é possível observar os valores das contribuições do
indivíduo Sintra para a formação dos eixos e o valor do quadrado do coseno, que se for
próximo de 1 indica que o indivíduo sofreu pouca deformação na projecção.
- Gráficos da projecção dos indivíduos sobre os eixos factoriais
Os concelhos do lado positivo do eixo estão associados a valores elevados das
variáveis Feridos Graves, Feridos Ligeiros, Vitimas em Acidentes de Viação, Acidentes
de Viação, Nados vivos e População Residente. A azul encontram-se os concelhos da
classe 1 obtida na classificação hierárquica.
Verifica-se que Sintra e Vila Nova de Gaia são zonas problemáticas a nível de
acidentes. Os concelhos da classe 2 estão mais no primeiro quadrante o que indica que
na sua generalidade estes concelhos têm taxas de Natalidade e Taxas de actividade
Analise de Dados MADSAD-FEP
79/105
elevadas. Os concelhos mais desertificados estão no terceiro quadrante e um deles é por
exemplo Corvo.
Ilustração 1- Projecção dos concelhos no plano formado pelo eixo 1 e 2.
Na ilustração 2 é possível observar que os concelho de Lisboa, Sintra, Oeiras,
Matosinhos, Porto e Amadora (2º quadrante) têm elevada Densidade populacional e
baixa área total Os concelhos com maior valor nas variáveis relacionadas com acidentes
são, como já tinha referido, Sintra e Vila Nova de Gaia.
O concelho de Pombal destaca-se no primeiro quadrante que corresponde a
concelhos com elevado número de Vitimas Mortais em Acidentes de Viação, e
Acidentes de Viação com Vitimas Mortais (este facto está justificado na página 28).
Ilustração 2 - Projecção dos concelhos no plano formado pelo eixo 1 e 3.
Analise de Dados MADSAD-FEP
80/105
O concelho de Santa Cruz tem elevada taxa de Natalidade e Taxa de actividade A
2ºclasse encontra-se quase toda do lado direito, associada ao lado positivo do eixo 2,
isto é associadas as valores elevados de Taxa de Natalidade e Taxa de Actividade.
Ilustração 3 - Projecção dos concelhos no plano formado pelo eixo 2 e 3.
No quadro seguinte é possível observar mais uma vez que, por exemplo, a taxa de
Natalidade se encontra do lado positivo dos 3 eixos, e a apresenta maior correlação no
2º eixo, e correlação nula com o 3º eixo. A variável que apresenta maior correlação no
1º eixo é ACVIAÇAO, todas as variáveis relacionadas com acidentes de viação
apresentam correlações elevadas no 1º eixo dai que o 1º eixo esteja associado aos
problemas das estradas portuguesas.
Analise de Dados MADSAD-FEP
81/105
Concelhos com maiores contribuições para o 1º eixo:
Logo estes são os concelhos mais problemáticos a nível de acidentes, e são os que
apresentam mais hospitais.
Concelhos com maiores contribuições para o 2º eixo:
Os concelhos Vizela, Lousada, Paços de Ferreira estão associados a valores elevados de
Taxa de Natalidade e Taxa de Actividade, enquanto os restantes concelhos (do lado
negativo de eixo) estão associados a valores elevados de taxa de Mortalidade.
Concelhos com maiores contribuições para o 3º eixo:
Analise de Dados MADSAD-FEP
82/105
4.4.1 – ACP Normada para os concelhos da classe 1.
Nesta secção apresento um pequeno estudo aos concelhos de classe 1.
Nesta ACP os eixos a reter são os 3 primeiros que explicam 76,27% da variabilidade
total dos dados.
O comportamento das variáveis no plano formado pelo 1º e 2º eixos é análogo ao
comportamento das mesmas mas com todos os concelhos.
O mesmo acontece com a projecção das variáveis no plano formado pelos eixos 1 e 3, e
pelos eixos 2 e 3.
Analise de Dados MADSAD-FEP
83/105
Projecção dos concelhos nos planos formados pelos eixos 1vs2 e 1vs3.
O que verifiquei é que os concelhos associados à classe 1 são concelhos muito densos
populacionalmente, e que como o comportamento da ACP para estes é análogo à ACP
dos dados todos, achei que estes concelhos estavam a esconder alguns comportamentos
que poderiam ser importantes dos concelhos menos densos. Logo na próxima secção
apresento um estudo dos concelhos com densidade populacional inferior à média.
Analise de Dados MADSAD-FEP
84/105
4.4.2 - ACP para concelhos com densidade populacional inferior á média
O número de eixos a reter neste caso são 4 que explicam 80.15% da variância total dos
dados.
Projecção das variáveis:
As variáveis relacionadas com os acidentes de viação e a variável NadosVivos
são as que mais contribuíram para o 1º eixo.
Analise de Dados MADSAD-FEP
85/105
No gráfico seguinte observam-se as projecções das variáveis no plano formado pelo
primeiro e terceiros eixos factoriais, o terceiro eixo está associado aos recursos de saúde
disponíveis (Médicos e Hospitais).
As variáveis taxa de desemprego e Farmácia foram as que mais contribuíram para a
formação do quarto eixo.
O segundo eixo está relacionado com o envelhecimento da população, as variáveis que
mais contribuíram para a sua formação foram AreaTotal (que se encontra do lado
positivo do eixo) e Taxa de Natalidade e Dens. Populacional (que se encontram do lado
negativo do eixo).
Analise de Dados MADSAD-FEP
86/105
No gráfico seguinte a azul encontram-se os concelhos da primeira classe com
densidade populacional inferior a 298 2/ kmhab .
Os concelhos da classe 2 encontram-se quase todos do lado positivo do primeiro
eixo isto indica que estarão associados a valores elevados de variáveis relacionadas com
acidentes de viação. O concelho de Leiria é o que mais se destaca quando ás
contribuições, é um concelho com valores elevados de Hospitais e Vitimas mortais em
acidentes de Viação assim como Pombal e Viseu.
Os concelhos melhor representados por esta projecção são os que apresentam valores de
cos2 próximos de 1. Que neste caso correspondem aos concelhos seleccionados em
cima.
Analise de Dados MADSAD-FEP
87/105
Os concelhos com mais recursos de saúde são, por exemplo, Viana do Castelo e Viseu.
Por exemplo Carrezeda de Ansiães e Manteigas estão associados a elevadas taxas de
mortalidade e Recursos de saúde baixos.
O concelho de Monforte é um exemplo de um concelho associado a valores elevados de
farmácias e elevada taxa de mortalidade. Carrezeda de Ansiães e Barrancos estão
associados a uma elevada taxa de desemprego.
É interessante verificar que Carrezeda de Ansiãos é a “ovelha negra” da classe 2, porque
é um concelho com características diferentes dos restantes concelhos desta classe.
Quanto ao plano formado pelos eixo 2 e 4 posso concluir que alguns concelhos
associados a taxa de desemprego elevadas estão também associados a taxas de
natalidade elevadas, por exemplo, Vila Franca do Campo.
Analise de Dados MADSAD-FEP
88/105
Os concelhos como Pombal, Castelo Branco e Santarém sofrem de desertificação
porque apresentam AreaTotal elevada e elevada Taxa de Mortalidade.
Analise de Dados MADSAD-FEP
89/105
4.5- Classificação em SPAD
A classificação em SPAD é feita apartir das coordenades dos eixos factoriais.
Utilizam-se o subconjunto dos primeiros k eixos factoriais que projectem no mínimo
80% da inércia original. Este procedimento realiza-se aplicando sobre os dados dois
algoritmos: classificação hierárquica, com o objectivo de escolher em quantos grupoe se
devem classificar os indivíduos e o algoritmo de centros móveis, com o objectivo de
majorar a classificação.
Classif ication hiérarchique direct e
527 470 545 556 558 512 534 491 539 553 Corv 475 Barr 544 535 557 546 542 550 529 563 499 562 560 566 513 528 564 555 565 549 505 561 559 554 540 551 522 538 Coim Port 501 548 541 485 547 537 Vila Sint Lisb
O dendograma que o SPAD fornece é parecido com a que foi utilizada ao longo
do trabalho, no entanto decidi colocar esta experiência para experimentar uma outra
modalidade da classificação hierárquica. No SPSS a classe 2 tem 75 concelhos, neste
caso o SPAD fornece a 2ª classe com 23 concelhos.
Os resultados que o SPAD apresenta são os seguintes:
Analise de Dados MADSAD-FEP
90/105
A divisão nesta classificação foi de 23 concelhos para a classe 2 e os restantes para a
primeira classe, os elementos de cada classe foram os seguintes:
É de notar que os concelhos da classe 2 são quase os mesmos que os obtidos pela
classificação não-hierárquica com os dados em bruto. Após obter este resultado fiquei a
duvidar da classificação que escolhi anteriormente.
Apesar da classificação não-hierárquica ter a desvantagem de se decidir o número de
classes iniciais, pensei que neste caso, talvez esta classificação seria melhor que a que
considerei anteriormente. Mas depois comparei os elementos das classes 2 obtidas na
classificação não-hierárquica com os obtidos na hierárquica e o que observei é que os
concelhos da classe 2 – não-hierárquica estão contidos na classe 2-hierárquica logo a
partição que considerei é razoável.
Classe 2 da classificação não-hierárquica = {Barcelos, Braga, Guimarães, Vila Nova de
Famalicão, Maia, Matosinhos, Porto, Gaia, Santa Maria da Feira, Leiria, Coimbra,
Lisboa, Cascais, Loures, Oeiras, Sintra, Vila Franca de Xira, Amadora, Seixal e
Setúbal} (ver anexo 5)
Analise de Dados MADSAD-FEP
91/105
5 - Conclusão
Este trabalho permitiu observar a situação de estatísticas importantes do nosso
país.
Este trabalho permitiu detectar que existem concelhos problemáticos a nível de
acidentes rodoviários como o concelho de Pombal, e existem zonas problemáticas
quanto aos recursos de saúde e quanto á desertificação populacional.
Quanto á classificação obtida, penso que discrimina bem os concelhos em dois
grupos, este facto foi verificado na análise discriminante que efectuei e pode ser
observado na projecção dos concelhos no plano formado pelo primeiro e segundo eixo
principais, neste plano observa-se claramente a separação dos dois grupos.
Os métodos aqui implementados foram de grande utilidade porque facilitam a
interpretação das características do nosso país, e permitem detectar casos interessantes
que ainda não tinham sido detectados!
Analise de Dados MADSAD-FEP
92/105
6 – Bibliografia
[1] – “Análise Estatística- Com utilização do SPSS”- João Maroco – Edições Silabo;
[2] - “Análisis Estadísitico com SPSS para Windows”- Volume II – Bienvenido
Visauta Vinacua _ Mc Graw Hill;
[3] - Manual de SPAD- Universidade de Barcelona
Analise de Dados MADSAD-FEP
93/105
Anexo 1
Concelhos com Densidade Populacional superior a 298 2/ kmhab
Barcelos,
Braga,
Esposende,
Vizela,
Santo Tirso,
Trofa,
Espinho,
Gondomar,
Maia,
Matosinhos,
Porto,
Póvoa de Varzim,
Valongo,
Vila do Conde,
Vila Nova de Gaia,
Santa Maria da Feira,
Oliveira de Azeméis,
São João da Madeira,
Sintra,
Vila Franca de Xira,
Amadora,
Odivelas,
Almada,
Barreiro,
Moita,
Setúbal
Lagoa (R.A.A),
Câmara de Lobos,
Funchal,
Machico.
Anexo 3- Classificação Hierárquica entre variáveis - Matriz de Proximidade
Proximity Matrix
Case Matrix File Input
AREATOTA
FREGUESI
DENS.POP
POP.RESH
POP.RES
NADOSVIV
OBITOSHM
T.NATALI
T.MORTAL
T.ACTIVI
T.DESEMP
MEDICOSP
FARMACIA
HOSPITAI
ACVIAÇAO
AC.VIAÇA
VITACVIA
VITMORTA
FERGRAVA
FERLIGAC
AREATOTA
,000 3,317 4,435 3,938 3,945 4,051 3,856 8,087 5,950 10,37
9 3,796 3,718 3,852 4,120 3,854 3,608 3,805 3,657 3,800 3,822
FREGUESI
3,317 ,000 3,598 2,899 2,885 2,986 3,024 8,047 6,675 10,55
0 4,242 3,008 4,586 3,401 2,943 2,819 2,883 2,843 3,074 2,877
DENS.POP
4,435 3,598 ,000 1,416 1,457 1,559 1,361 9,700 8,274 12,29
5 5,437 1,828 5,575 1,648 1,529 3,091 1,703 3,173 1,673 1,709
POP.RESH
3,938 2,899 1,416 ,000 ,300 ,447 ,703 9,303 7,951 11,92
1 5,108 1,453 5,260 1,397 ,596 2,258 ,726 2,367 1,034 ,707
POP.RES
3,945 2,885 1,457 ,300 ,000 ,291 ,802 9,232 7,922 11,84
6 5,072 1,508 5,251 1,526 ,680 2,229 ,780 2,342 1,135 ,752
NADOSVIV
4,051 2,986 1,559 ,447 ,291 ,000 ,982 9,230 7,998 11,86
3 5,141 1,675 5,342 1,699 ,835 2,284 ,873 2,395 1,270 ,837
OBITOSHM
3,856 3,024 1,361 ,703 ,802 ,982 ,000 9,563 8,002 12,18
2 5,189 1,328 5,247 ,819 ,431 2,492 ,638 2,591 ,558 ,672
T.NATALI
8,087 8,047 9,700 9,303 9,232 9,230 9,563 ,000 5,027 3,287 5,745 9,170 6,630 10,08
0 9,418 8,228 9,354 8,259 9,638 9,333
T.MORTAL
5,950 6,675 8,274 7,951 7,922 7,998 8,002 5,027 ,000 6,172 3,851 7,632 3,873 8,374 7,980 7,241 7,944 7,281 8,061 7,942
T.ACTIVI
10,379 10,55
0 12,29
5 11,92
1 11,84
6 11,86
3 12,182 3,287 6,172 ,000 7,957
11,755
8,602 12,69
2 12,047
10,804
11,988
10,832 12,264 11,96
8 T.DESEMP
3,796 4,242 5,437 5,108 5,072 5,141 5,189 5,745 3,851 7,957 ,000 4,858 2,994 5,596 5,167 4,676 5,135 4,736 5,270 5,130
MEDICOSP
3,718 3,008 1,828 1,453 1,508 1,675 1,328 9,170 7,632 11,75
5 4,858 ,000 4,948 1,451 1,313 2,512 1,475 2,636 1,548 1,477
FARMACIA
3,852 4,586 5,575 5,260 5,251 5,342 5,247 6,630 3,873 8,602 2,994 4,948 ,000 5,546 5,244 4,966 5,226 5,011 5,283 5,230
HOSPITAI
4,120 3,401 1,648 1,397 1,526 1,699 ,819 10,08
0 8,374
12,692
5,596 1,451 5,546 ,000 1,039 2,973 1,226 3,047 ,878 1,269
ACVIAÇAO
3,854 2,943 1,529 ,596 ,680 ,835 ,431 9,418 7,980 12,04
7 5,167 1,313 5,244 1,039 ,000 2,242 ,371 2,345 ,612 ,389
AC.VIAÇA
3,608 2,819 3,091 2,258 2,229 2,284 2,492 8,228 7,241 10,80
4 4,676 2,512 4,966 2,973 2,242 ,000 2,193 ,497 2,493 2,185
VITACVIA
3,805 2,883 1,703 ,726 ,780 ,873 ,638 9,354 7,944 11,98
8 5,135 1,475 5,226 1,226 ,371 2,193 ,000 2,292 ,638 ,074
VITMORTA
3,657 2,843 3,173 2,367 2,342 2,395 2,591 8,259 7,281 10,83
2 4,736 2,636 5,011 3,047 2,345 ,497 2,292 ,000 2,573 2,287
FERGRAVA
3,800 3,074 1,673 1,034 1,135 1,270 ,558 9,638 8,061 12,26
4 5,270 1,548 5,283 ,878 ,612 2,493 ,638 2,573 ,000 ,708
FERLIGAC
3,822 2,877 1,709 ,707 ,752 ,837 ,672 9,333 7,942 11,96
8 5,130 1,477 5,230 1,269 ,389 2,185 ,074 2,287 ,708 ,000
Anexo 4- Classificação hierárquica entre indivíduos
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *
Dendrogram using Ward Method
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
Ansião 137
Cadaval 187
Murtosa 110
Vila do Bispo 101
Óbidos 183
Nazaré 182
São Brás de Alportel 98
Vila Nova de Poiares 135
Redondo 247
Reguengos de Monsara 248
Mira 119
Nelas 146
Campo Maior 228
Borba 241
Vila Viçosa 251
Tavira 100
Estremoz 242
Elvas 231
Portalegre 238
Peso da Régua 61
Carregal do Sal 142
Mesão Frio 60
Lamego 66
São Pedro do Sul 150
Sever do Vouga 113
Montemor-o-Velho 120
São João da Pesqueir 69
Mortágua 145
Vouzela 155
Belmonte 176
Manteigas 167
Soure 122
Santa Comba Dão 149
Penacova 121
Oliveira do Hospital 132
Anadia 105
Cantanhede 115
Torres Novas 198
Tomar 197
Covilhã 177
Amares 11
Marco de Canaveses 41
Póvoa de Lanhoso 19
Ponte de Lima 7
Vila Verde 16
Estarreja 107
Bombarral 180
Miranda do Corvo 131
Vila Nova da Barquin 199
Arouca 49
Rio Maior 274
Mealhada 109
Vagos 114
Albergaria-a-Velha 104
Vale de Cambra 53
Vendas Novas 249
Oliveira de Frades 147
Lourinhã 188
Condeixa-a-Nova 117
Oliveira do Bairro 111
Alcanena 192
Sobral de Monte Agra 189
Lagoa 92
Lousã 130
Arruda dos Vinhos 186
Castelo de Paiva 34
Vila Real de Santo A 102
Peniche 184
Sines 223
Almeirim 267
Alpiarça 268
Salvaterra de Magos 275
Castelo de Vide 229
Marvão 234
Figueiró dos Vinhos 139
Góis 129
Mação 159
Monchique 95
Arronches 226
Vila Velha de Ródão 175
Alter do Chão 225
Avis 227
Analise de Dados MADSAD-FEP
96/105
Crato 230
Alcoutim 88
Nisa 236
Penamacor 174
Gavião 233
Pedrógão Grande 140
Constância 193
Viana do Alentejo 250
Monforte 235
Sousel 252
Alvito 255
Fronteira 232
Mourão 245
Golegã 273
Cuba 259
Arraiolos 240
Chamusca 271
Ferreira do Alentejo 260
Ourique 263
Portel 246
Castro Verde 258
Mora 224
Aljustrel 253
Alandroal 239
Vieira do Minho 20
Castro Daire 143
Baião 38
Cinfães 47
Terras de Bouro 15
Moimenta da Beira 67
Mondim de Basto 45
Tarouca 72
Resende 48
Fornos de Algodres 160
Penalva do Castelo 148
Vidigueira 265
Paredes de Coura 5
Vila Nova de Cerveir 10
Santa Marta de Penag 63
Sabrosa 62
Sernancelhe 70
Armamar 65
Vila Pouca de Aguiar 86
Sertã 157
Cabeceiras de Basto 35
Mangualde 144
Caminha 2
Valença 8
Ponte da Barca 6
Celorico de Basto 36
Alijó 59
Gouveia 161
Vimioso 79
Pinhel 169
Trancoso 171
Vila Nova de Foz Côa 58
Celorico da Beira 164
Alvaiázere 136
Figueira de Castelo 165
Aljezur 89
Tábua 134
Sardoal 196
Penela 133
Ferreira do Zêzere 195
Vila de Rei 158
Miranda do Douro 76
Arganil 128
Castro Marim 90
Proença-a-Nova 156
Almodôvar 254
Tabuaço 71
Meda 168
Melgaço 3
Boticas 81
Aguiar da Beira 141
Penedono 68
Freixo de Espada à C 55
Carrazeda de Ansiães 54
Alfândega da Fé 73
Torre de Moncorvo 56
Valpaços 85
Ribeira de Pena 46
Vila Nova de Paiva 153
Murça 84
Vila Flor 57
Sátão 151
Castanheira de Pêra 138
Barrancos 256
Castelo Branco 172
Évora 243
Beja 257
Grândola 221
Ponte de Sor 237
Abrantes 191
Santiago do Cacém 222
Coruche 272
Alcácer do Sal 220
Analise de Dados MADSAD-FEP
97/105
Mirandela 77
Chaves 82
Bragança 74
Guarda 166
Tondela 152
Seia 162
Mogadouro 78
Fundão 178
Monção 4
Almeida 163
Arcos de Valdevez 1
Macedo de Cavaleiros 75
Vinhais 80
Montalegre 83
Sabugal 170
Idanha-a-Nova 173
Odemira 219
Montemor-o-Novo 244
Moura 262
Serpa 264
Mértola 261
Vila Nova de Famalic 21
Santa Maria da Feira 50
Braga 13
Guimarães 18
Barcelos 12
Vila Nova de Gaia 33
Loures 203
Sintra 206
Porto 29
Coimbra 116
Amadora 208
Odivelas 209
Cascais 201
Oeiras 205
Matosinhos 28
Almada 211
Maia 27
Seixal 216
Setúbal 218
Lisboa 202
Olhão 96
Sesimbra 217
Alcochete 210
Portimão 97
Montijo 214
Benavente 269
Albufeira 87
Mafra 204
Espinho 25
São João da Madeira 52
Barreiro 212
Vizela 22
Trofa 24
Entroncamento 194
Moita 213
Azambuja 266
Cartaxo 270
Batalha 123
Batalha 127
Caldas da Rainha 181
Alenquer 185
Lagos 93
Ílhavo 108
Batalha 125
Esposende 14
Lousada 40
Paredes 43
Paços de Ferreira 42
Póvoa de Varzim 30
Valongo 31
Faro 91
Vila Franca de Xira 207
Santo Tirso 23
Vila do Conde 32
Oliveira de Azeméis 51
Ovar 112
Gondomar 26
Aveiro 106
Amarante 37
Batalha 126
Loulé 94
Palmela 215
Batalha 124
Figueira da Foz 118
Santarém 276
Águeda 103
Alcobaça 179
Torres Vedras 190
Ourém 200
Silves 99
Felgueiras 39
Penafiel 44
Viana do Castelo 9
Viseu 154
Fafe 17
Vila Real 64
Analise de Dados MADSAD-FEP
98/105
Anexo 5 Variables Not in the Analysis
Step Tolerance Min.
Tolerance F to Enter Wilks'
Lambda
0 Zscore: AREATOTA 1,000 1,000 13,522 ,953 Zscore: FREGUESI 1,000 1,000 7,993 ,972
Zscore: DENS.POP 1,000 1,000 76,858 ,781
Zscore: NADOSVIV 1,000 1,000 175,440 ,610
Zscore: OBITOSHM 1,000 1,000 81,753 ,770
Zscore: T.NATALI 1,000 1,000 139,384 ,663
Zscore: T.MORTAL 1,000 1,000 146,917 ,651
Zscore: T.ACTIVI 1,000 1,000 228,290 ,546
Zscore: T.DESEMP 1,000 1,000 15,999 ,945
Zscore: MEDICOSP 1,000 1,000 40,127 ,872
Zscore: FARMACIA 1,000 1,000 48,070 ,851
Zscore: HOSPITAI 1,000 1,000 21,269 ,928
Zscore: ACVIAÇAO 1,000 1,000 147,862 ,650
Zscore: AC.VIAÇA 1,000 1,000 163,584 ,626
Zscore: VITACVIA 1,000 1,000 153,239 ,641
Zscore: VITMORTA 1,000 1,000 150,638 ,645
Zscore: FERGRAVA 1,000 1,000 70,238 ,796
Zscore: FERLIGAC 1,000 1,000 159,714 ,632
1 Zscore: AREATOTA ,993 ,993 3,088 ,539
Zscore: FREGUESI ,959 ,959 19,552 ,509 Zscore: DENS.POP ,979 ,979 24,194 ,501
Zscore: NADOSVIV ,953 ,953 56,814 ,452
Zscore: OBITOSHM ,992 ,992 32,394 ,488
Zscore: T.NATALI ,662 ,662 7,512 ,531
Zscore: T.MORTAL ,654 ,654 8,704 ,529
Zscore: T.DESEMP ,974 ,974 1,396 ,543
Zscore: MEDICOSP ,989 ,989 12,386 ,522
Zscore: FARMACIA ,984 ,984 13,941 ,519 Zscore: HOSPITAI 1,000 1,000 11,234 ,524
Zscore: ACVIAÇAO ,973 ,973 52,435 ,458
Zscore: AC.VIAÇA ,991 ,991 71,195 ,433
Zscore: VITACVIA ,968 ,968 52,407 ,458
Zscore: VITMORTA ,995 ,995 68,136 ,437
Zscore: FERGRAVA ,989 ,989 25,284 ,499
Zscore: FERLIGAC ,965 ,965 54,253 ,455
2 Zscore: AREATOTA ,882 ,881 18,651 ,405
Zscore: FREGUESI ,832 ,832 1,665 ,430
Zscore: DENS.POP ,978 ,972 16,752 ,408
Zscore: NADOSVIV ,783 ,783 15,144 ,410 Zscore: OBITOSHM ,739 ,739 2,172 ,429
Zscore: T.NATALI ,662 ,658 6,358 ,423
Zscore: T.MORTAL ,654 ,651 6,446 ,423
Zscore: T.DESEMP ,970 ,968 ,309 ,432
Zscore: MEDICOSP ,881 ,881 ,473 ,432
Zscore: FARMACIA ,982 ,977 8,931 ,419
Zscore: HOSPITAI ,802 ,796 ,157 ,432
Zscore: ACVIAÇAO ,616 ,616 5,652 ,424
Analise de Dados MADSAD-FEP
99/105
Zscore: VITACVIA ,603 ,603 5,380 ,424
Zscore: VITMORTA ,055 ,054 ,038 ,433
Zscore: FERGRAVA ,639 ,639 ,000 ,433
Zscore: FERLIGAC ,619 ,619 6,596 ,422
3 Zscore: FREGUESI ,824 ,791 2,821 ,401
Zscore: DENS.POP ,940 ,847 10,167 ,390 Zscore: NADOSVIV ,765 ,707 10,076 ,390
Zscore: OBITOSHM ,724 ,645 ,700 ,404
Zscore: T.NATALI ,649 ,649 3,444 ,400
Zscore: T.MORTAL ,622 ,622 2,446 ,401
Zscore: T.DESEMP ,937 ,851 ,057 ,405 Zscore: MEDICOSP ,876 ,781 ,123 ,405 Zscore: FARMACIA ,949 ,852 4,647 ,398
Zscore: HOSPITAI ,784 ,691 1,036 ,403
Zscore: ACVIAÇAO ,599 ,545 2,637 ,401
Zscore: VITACVIA ,594 ,547 3,003 ,400
Zscore: VITMORTA ,055 ,054 ,044 ,405
Zscore: FERGRAVA ,638 ,583 ,040 ,405
Zscore: FERLIGAC ,608 ,561 3,774 ,399 4 Zscore: FREGUESI ,824 ,785 2,562 ,387
Zscore: NADOSVIV ,500 ,500 2,469 ,387
Zscore: OBITOSHM ,372 ,372 3,606 ,385
Zscore: T.NATALI ,637 ,637 5,084 ,383
Zscore: T.MORTAL ,615 ,615 3,537 ,385
Zscore: T.DESEMP ,899 ,805 ,160 ,390 Zscore: MEDICOSP ,715 ,715 1,215 ,389
Zscore: FARMACIA ,943 ,815 5,569 ,382
Zscore: HOSPITAI ,545 ,545 10,684 ,375
Zscore: ACVIAÇAO ,412 ,412 ,034 ,390
Zscore: VITACVIA ,507 ,507 ,302 ,390 Zscore: VITMORTA ,054 ,054 ,154 ,390 Zscore: FERGRAVA ,518 ,518 2,946 ,386
Zscore: FERLIGAC ,522 ,522 ,616 ,389 5 Zscore: FREGUESI ,814 ,539 3,698 ,370
Zscore: NADOSVIV ,469 ,469 5,751 ,368
Zscore: OBITOSHM ,174 ,174 ,477 ,375
Zscore: T.NATALI ,637 ,545 4,688 ,369
Zscore: T.MORTAL ,607 ,538 2,212 ,372 Zscore: T.DESEMP ,898 ,544 ,072 ,375
Zscore: MEDICOSP ,493 ,376 ,717 ,374
Zscore: FARMACIA ,909 ,525 2,988 ,371
Zscore: ACVIAÇAO ,216 ,216 7,835 ,365
Zscore: VITACVIA ,375 ,375 6,407 ,367
Zscore: VITMORTA ,054 ,052 ,055 ,375 Zscore: FERGRAVA ,316 ,316 ,170 ,375
Zscore: FERLIGAC ,394 ,394 7,338 ,365
6 Zscore: FREGUESI ,771 ,204 1,676 ,363
Zscore: NADOSVIV ,121 ,056 ,001 ,365
Zscore: OBITOSHM ,046 ,046 10,870 ,351 Zscore: T.NATALI ,636 ,215 4,034 ,359 Zscore: T.MORTAL ,605 ,215 1,757 ,362
Zscore: T.DESEMP ,898 ,216 ,057 ,365 Zscore: MEDICOSP ,490 ,214 1,131 ,363
Zscore: FARMACIA ,907 ,216 2,556 ,361
Analise de Dados MADSAD-FEP
100/105
Zscore: VITACVIA ,072 ,041 ,001 ,365
Zscore: VITMORTA ,054 ,048 ,300 ,364
Zscore: FERGRAVA ,178 ,122 3,518 ,360 Zscore: FERLIGAC ,071 ,039 ,165 ,365
7 Zscore: FREGUESI ,771 ,046 1,705 ,348
Zscore: NADOSVIV ,088 ,033 3,702 ,346
Zscore: T.NATALI ,634 ,045 4,525 ,345 Zscore: T.MORTAL ,600 ,045 1,006 ,349
Zscore: T.DESEMP ,886 ,045 ,018 ,351 Zscore: MEDICOSP ,458 ,043 ,052 ,350
Zscore: FARMACIA ,907 ,046 2,581 ,347
Zscore: VITACVIA ,070 ,030 ,224 ,350
Zscore: VITMORTA ,053 ,045 ,036 ,351
Zscore: FERGRAVA ,168 ,043 1,176 ,349 Zscore: FERLIGAC ,070 ,028 ,536 ,350 8 Zscore: FREGUESI ,767 ,045 1,324 ,343
Zscore: NADOSVIV ,088 ,033 3,175 ,341 Zscore: T.MORTAL ,536 ,045 ,104 ,345
Zscore: T.DESEMP ,886 ,045 ,006 ,345
Zscore: MEDICOSP ,458 ,043 ,061 ,345
Zscore: FARMACIA ,844 ,045 1,151 ,343
Zscore: VITACVIA ,070 ,030 ,173 ,344 Zscore: VITMORTA ,053 ,045 ,014 ,345
Zscore: FERGRAVA ,168 ,043 1,346 ,343
Zscore: FERLIGAC ,070 ,028 ,466 ,344
Analise de Dados MADSAD-FEP
101/105
Anexo 6 – Classificação não-hierárquica – dados estandardizados
Case Number Cluster Distance
1 2 3,660
2 2 1,462
3 2 3,344
4 2 2,675
5 2 2,230
6 2 2,024
7 2 3,529
8 2 1,507
9 2 4,019
10 2 1,878
11 2 2,247
12 2 7,313
13 2 7,389
14 2 2,330
15 2 2,792
16 2 4,211
17 2 2,863
18 2 7,978
19 2 2,420
20 2 1,960
21 2 5,595
22 2 3,862
23 2 2,997
24 2 2,979
25 2 2,894
26 2 4,360
27 2 5,087
28 2 5,957
29 2 14,238
30 2 3,204
31 2 3,925
32 2 3,406
33 2 9,848
34 2 2,631
35 2 1,982
36 2 1,662
37 2 5,952
38 2 2,254
39 2 3,853
40 2 3,371
41 2 2,624
42 2 3,685
43 2 3,722
44 2 5,070
45 2 2,560
46 2 3,318
47 2 2,069
48 2 2,590
49 2 1,382
50 2 5,445
51 2 2,807
52 2 4,386
53 2 2,192
54 2 3,130
55 2 4,037
56 2 2,967
57 2 3,151
58 2 2,676
59 2 2,265
60 2 2,716
61 2 1,911
62 2 2,375
63 2 2,773
64 2 3,064
65 2 2,232
66 2 1,476
67 2 2,784
68 2 3,184
69 2 2,104
70 2 2,433
71 2 3,095
72 2 2,268
73 2 3,192
74 2 4,382
75 2 3,214
76 2 2,578
77 2 2,970
78 2 2,992
79 2 3,215
80 2 4,686
81 2 2,947
82 2 3,696
83 2 4,067
84 2 2,969
85 2 3,308
86 2 2,004
87 2 3,986
88 2 4,897
89 2 1,815
90 2 2,523
91 2 4,684
92 2 2,374
93 2 1,957
94 2 5,263
95 2 3,265
96 2 2,418
97 2 3,304
98 2 2,064
99 2 2,807
100 2 1,388
101 2 2,003
102 2 1,960
103 2 3,252
104 2 1,814
105 2 1,855
106 2 3,822
107 2 1,491
108 2 2,649
109 2 1,675
110 2 2,014
111 2 2,122
112 2 2,538
113 2 1,957
114 2 1,705
115 2 1,559
116 2 13,145
117 2 2,343
118 2 3,584
119 2 1,826
120 2 1,017
121 2 1,537
122 2 1,546
123 2 2,748
124 2 7,914
125 2 2,585
126 2 7,171
127 2 2,467
128 2 2,286
129 2 3,447
130 2 2,330
131 2 2,065
132 2 1,609
133 . .
134 2 2,399
135 2 1,576
136 2 1,787
137 2 2,976
Analise de Dados MADSAD-FEP
102/105
138 2 1,757
139 2 4,612
140 2 3,724
141 2 4,243
142 2 2,993
143 2 2,088
144 2 2,239
145 2 1,848
146 2 1,874
147 2 1,470
148 2 1,903
149 2 2,536
150 2 1,910
151 2 1,534
152 2 3,253
153 2 1,475
154 2 2,962
155 2 5,300
156 2 1,645
157 . .
158 2 2,593
159 2 1,546
160 2 3,220
161 2 3,318
162 2 2,247
163 2 2,594
164 2 2,096
165 2 2,751
166 2 2,254
167 2 2,841
168 2 3,960
169 2 2,613
170 2 3,177
171 2 2,617
172 2 4,864
173 2 2,930
174 2 5,238
175 2 5,767
176 2 4,374
177 2 4,070
178 2 2,743
179 2 1,911
180 2 2,314
181 2 4,000
182 2 1,400
183 2 1,963
184 2 2,054
185 2 1,728
186 2 1,699
187 2 1,973
188 2 3,031
189 2 1,463
190 2 1,864
191 2 2,526
192 2 2,804
193 2 2,253
194 2 1,857
195 2 3,545
196 2 3,464
197 2 2,561
198 2 2,526
199 2 1,615
200 2 1,158
201 2 1,964
202 2 4,130
203 2 7,267
204 1 ,000
205 2 7,871
206 2 3,459
207 2 8,057
208 2 11,662
209 2 5,310
210 2 9,718
211 2 7,540
212 2 3,282
213 2 5,728
214 2 3,812
215 2 3,456
216 2 2,857
217 2 5,601
218 2 5,192
219 2 2,782
220 2 4,924
221 2 5,281
222 2 5,233
223 2 3,132
224 2 3,345
225 2 2,498
226 2 3,710
227 2 4,609
228 2 3,649
229 2 4,320
230 2 2,118
231 2 3,495
232 2 5,696
233 2 2,327
234 2 3,526
235 2 4,878
236 2 3,629
237 2 4,518
238 2 4,528
239 2 2,769
240 2 2,154
241 2 2,737
242 2 2,935
243 2 2,516
244 2 1,450
245 2 4,856
246 2 3,745
247 2 2,532
248 2 3,125
249 2 2,078
250 2 1,832
251 2 2,256
252 2 2,793
253 2 2,372
254 2 2,740
255 2 3,118
256 2 2,730
257 2 3,006
258 2 6,399
259 2 3,721
260 2 2,644
261 2 2,908
262 2 3,355
263 2 4,997
264 2 4,544
265 2 3,746
266 2 5,042
267 2 2,328
268 2 2,071
269 2 2,176
270 2 2,611
271 2 3,203
272 2 1,566
273 2 3,622
274 2 3,937
275 2 2,414
276 2 1,441
277 2 2,502
278 2 4,168
279 . .
280 . .
281 . .
282 . .
283 . .
284 . .
285 . .
286 . .
287 . .
288 . .
289 . .
290 . .
Analise de Dados MADSAD-FEP
103/105
291 . .
292 . .
293 . .
294 . .
295 . .
296 . .
297 . .
298 . .
299 . .
300 . .
301 . .
302 . .
303 . .
304 . .
305 . .
306 . .
307 . .
308 . .
Classificação não-hierárquica com os dados brutos Case Number Cluster Distance
1 2 2843,409
2 2 5767,753
3 2 13606,577
4 2 2738,436
5 2 13947,621
6 2 10278,210
7 2 24547,410
8 2 8913,798
9 2 73475,859
10 2 14739,537
11 2 3943,797
12 1 72665,672
13 1 26228,863
14 2 12463,582
15 2 15253,874
16 2 27218,964
17 2 34002,217
18 1 30679,249
19 2 857,138
20 2 8100,477
21 1 66363,232
22 2 1117,110
23 2 55988,807
24 2 17360,021
25 2 12956,958
26 2 69440,972
27 1 74844,412
28 1 22798,531
29 1 80947,379
30 2 45925,040
31 2 71165,911
32 2 58275,189
33 1 112449,451
34 2 5208,520
35 2 4641,556
36 2 1812,828
37 2 41811,580
38 2 475,789
39 2 39565,498
40 2 25351,602
41 2 33898,971
42 2 34797,737
43 2 68532,096
44 2 55564,978
45 2 14973,556
46 2 16250,366
47 2 503,220
48 2 10758,288
49 2 2465,546
50 1 57062,195
51 2 54246,976
52 2 2859,478
53 2 3131,669
54 2 16041,530
55 2 19884,502
56 2 13522,684
57 2 15731,372
58 2 15118,036
59 2 8569,469
60 2 19066,108
61 2 3655,048
62 2 16699,476
63 2 15018,352
64 2 30917,974
65 2 16201,855
66 2 6646,864
67 2 12259,053
68 2 20713,519
69 2 14869,480
70 2 17598,879
71 2 17004,516
72 2 15276,278
73 2 17894,456
74 2 14091,291
75 2 5169,782
76 2 15561,077
77 2 4201,238
78 2 11994,413
79 2 18609,578
80 2 12665,899
81 2 17370,861
82 2 24014,307
83 2 10318,319
84 2 16998,668
85 2 2847,224
86 2 7825,471
87 2 10758,647
88 2 20306,486
89 2 18620,706
90 2 17137,856
91 2 39966,340
92 2 1428,147
93 2 3773,260
94 2 41520,717
95 2 16690,818
96 2 20988,102
97 2 25366,325
98 2 13315,078
99 2 13438,870
100 2 3429,285
101 2 18522,266
102 2 4562,999
103 2 29975,918
104 2 2920,247
105 2 10506,605
106 2 56840,361
107 2 6797,325
108 2 16837,752
109 2 1489,587
110 2 14049,887
111 2 1170,610
112 2 36871,898
113 2 9896,914
114 2 329,715
115 2 17549,981
Analise de Dados MADSAD-FEP
104/105
116 1 44503,230
117 2 7586,922
118 2 44851,935
119 2 10292,546
120 2 3795,080
121 2 6001,007
122 2 1318,722
123 2 7830,942
124 1 75057,111
125 2 15057,541
126 2 38070,603
127 2 2502,616
128 2 9429,611
129 2 19156,998
130 2 7038,752
131 2 9987,415
132 2 359,035
133 . .
134 2 17200,602
135 2 10546,687
136 2 16691,861
137 2 15202,481
138 2 9313,687
139 2 20405,136
140 2 16393,128
141 2 19657,288
142 2 17610,289
143 2 12981,561
144 2 5617,815
145 2 1283,434
146 2 12976,193
147 2 8655,739
148 2 12787,796
149 2 14516,552
150 2 10725,235
151 2 3380,473
152 2 9964,822
153 2 10045,388
154 2 17708,203
155 2 79148,776
156 2 11279,221
157 . .
158 2 13815,749
159 2 6001,875
160 2 20817,132
161 2 15167,912
162 2 18284,818
163 2 6736,818
164 2 6705,432
165 2 15185,526
166 2 14674,155
167 2 16592,341
168 2 24034,941
169 2 19991,656
170 2 17623,771
171 2 12375,502
172 2 8107,565
173 2 12471,400
174 2 37236,138
175 2 11659,697
176 2 17136,886
177 2 19983,694
178 2 16130,469
179 2 35970,276
180 2 10468,944
181 2 37161,002
182 2 9683,567
183 2 29681,539
184 2 7788,233
185 2 12386,709
186 2 5903,161
187 2 19148,109
188 2 12988,543
189 2 9006,663
190 2 1434,355
191 2 14590,671
192 2 55929,985
193 2 22425,301
194 2 8284,440
195 2 20291,566
196 2 4535,696
197 2 14086,647
198 2 19964,418
199 2 23128,611
200 2 16417,889
201 2 16066,220
202 2 26691,089
203 1 19387,554
204 1 412570,283
205 1 13331,474
206 2 36176,136
207 1 29003,716
208 1 196330,518
209 1 71574,047
210 1 14314,557
211 1 59606,935
212 2 10040,570
213 1 29731,887
214 2 63325,183
215 2 50533,330
216 2 18953,832
217 2 34912,054
218 1 41046,991
219 2 17451,747
220 1 81696,824
221 2 4979,431
222 2 8687,513
223 2 7858,932
224 2 10206,573
225 2 9328,102
226 2 18095,997
227 2 20171,047
228 2 20742,872
229 2 18757,935
230 2 15193,331
231 2 20226,044
232 2 19710,285
233 2 1518,912
234 2 20389,845
235 2 19111,062
236 2 20051,342
237 2 20796,596
238 2 15016,266
239 2 4407,581
240 2 4363,700
241 2 17205,476
242 2 16074,749
243 2 15838,195
244 2 7146,200
245 2 38139,231
246 2 3941,968
247 2 20868,695
248 2 16617,947
249 2 16407,808
250 2 11871,721
251 2 11580,898
252 2 18286,407
253 2 14644,402
254 2 18145,125
255 2 12716,656
256 2 15388,905
257 2 21533,405
258 2 22386,977
259 2 15187,363
260 2 16024,102
261 2 18977,501
262 2 14502,809
263 2 14828,676
264 2 5991,001
265 2 17584,770
266 2 5923,290
267 2 17637,268
268 2 1191,900
Analise de Dados MADSAD-FEP
105/105
269 2 478,019
270 2 15620,339
271 2 1452,616
272 2 1526,421
273 2 11770,963
274 2 1182,990
275 2 18217,517
276 2 1026,274
277 2 2146,199
278 2 45947,136
279 . .
280 . .
281 . .
282 . .
283 . .
284 . .
285 . .
286 . .
287 . .
288 . .
289 . .
290 . .
291 . .
292 . .
293 . .
294 . .
295 . .
296 . .
297 . .
298 . .
299 . .
300 . .
301 . .
302 . .
303 . .
304 . .
305 . .
306 . .
307 . .
308 . .